机器学习分类
·
1. 核心概念
- 定义:根据输入特征将数据划分到预定义的离散类别中。
- 关键点:类别标签是离散的(如垃圾邮件/正常邮件、猫/狗/鸟)。
2. 常见分类算法
2.1 基础算法
- 逻辑回归:通过Sigmoid函数输出概率,适合二分类。
- 决策树:基于特征阈值递归划分数据,可解释性强。
- 支持向量机(SVM):寻找最大化类别间隔的超平面,可处理高维数据。
2.2 集成方法
- 随机森林:多棵决策树投票,降低过拟合。
- 梯度提升树(如XGBoost):逐步修正前序模型的错误,常获竞赛高分。
2.3 概率模型
- 朴素贝叶斯:基于贝叶斯定理,假设特征独立,适合文本分类。
2.4 深度学习
- 神经网络:通过多层非线性变换建模复杂边界(如CNN图像分类、Transformer文本分类)。
3. 分类任务类型
- 二分类:仅两个类别(如医学检测阳性/阴性)。
- 多分类:超过两个类别(如手写数字识别0-9)。
- 解法:One-vs-Rest、Softmax输出等。
- 多标签分类:一个样本可属多个类别(如图片标签“沙滩”“日落”“人物”)。
4. 评估指标
- 准确率(Accuracy):正确预测比例,但类别不平衡时不可靠。
- 精确率(Precision)与召回率(Recall):
- 精确率:预测为正的样本中实际为正的比例。
- 召回率:实际为正的样本中被正确预测的比例。
- F1分数:精确率与召回率的调和平均。
- ROC-AUC:模型区分正负类的能力,曲线下面积越大越好。
5. 处理类别不平衡
- 重采样:过采样少数类(如SMOTE)或欠采样多数类。
- 代价敏感学习:为不同类别设置不同的误分类惩罚权重。
- 评估调整:优先关注召回率或F1,而非准确率。
6. 分类流程示例
- 数据预处理:缺失值填充、特征缩放、编码类别标签。
- 特征工程:选择相关特征(如卡方检验、PCA降维)。
- 模型选择:根据数据特点选择算法(如线性可分用SVM,非结构化数据用深度学习)。
- 训练与调参:交叉验证+网格搜索优化超参数。
- 模型部署:保存模型并应用于新数据。
7. 实际应用场景
- 计算机视觉:图像分类(ResNet、ViT)。
- 自然语言处理:情感分析、垃圾邮件过滤(BERT、LSTM)。
- 医疗诊断:疾病预测(逻辑回归+特征重要性分析)。
- 金融风控:信用评分(XGBoost解释性强)。
8. 挑战与解决方案
- 过拟合:正则化(L1/L2)、早停、增加数据。
- 高维数据:特征选择、嵌入层(深度学习)。
- 类别模糊:调整分类阈值或使用概率输出。
更多推荐
所有评论(0)