1. 核心概念

  • 定义:根据输入特征将数据划分到预定义的离散类别中。
  • 关键点:类别标签是离散的(如垃圾邮件/正常邮件、猫/狗/鸟)。

2. 常见分类算法

2.1 基础算法
  • 逻辑回归:通过Sigmoid函数输出概率,适合二分类。
  • 决策树:基于特征阈值递归划分数据,可解释性强。
  • 支持向量机(SVM):寻找最大化类别间隔的超平面,可处理高维数据。
2.2 集成方法
  • 随机森林:多棵决策树投票,降低过拟合。
  • 梯度提升树(如XGBoost):逐步修正前序模型的错误,常获竞赛高分。
2.3 概率模型
  • 朴素贝叶斯:基于贝叶斯定理,假设特征独立,适合文本分类。
2.4 深度学习
  • 神经网络:通过多层非线性变换建模复杂边界(如CNN图像分类、Transformer文本分类)。

3. 分类任务类型

  • 二分类:仅两个类别(如医学检测阳性/阴性)。
  • 多分类:超过两个类别(如手写数字识别0-9)。
    • 解法:One-vs-Rest、Softmax输出等。
  • 多标签分类:一个样本可属多个类别(如图片标签“沙滩”“日落”“人物”)。

4. 评估指标

  • 准确率(Accuracy):正确预测比例,但类别不平衡时不可靠。
  • 精确率(Precision)与召回率(Recall)
    • 精确率:预测为正的样本中实际为正的比例。
    • 召回率:实际为正的样本中被正确预测的比例。
  • F1分数:精确率与召回率的调和平均。
  • ROC-AUC:模型区分正负类的能力,曲线下面积越大越好。

5. 处理类别不平衡

  • 重采样:过采样少数类(如SMOTE)或欠采样多数类。
  • 代价敏感学习:为不同类别设置不同的误分类惩罚权重。
  • 评估调整:优先关注召回率或F1,而非准确率。

6. 分类流程示例

  1. 数据预处理:缺失值填充、特征缩放、编码类别标签。
  2. 特征工程:选择相关特征(如卡方检验、PCA降维)。
  3. 模型选择:根据数据特点选择算法(如线性可分用SVM,非结构化数据用深度学习)。
  4. 训练与调参:交叉验证+网格搜索优化超参数。
  5. 模型部署:保存模型并应用于新数据。

7. 实际应用场景

  • 计算机视觉:图像分类(ResNet、ViT)。
  • 自然语言处理:情感分析、垃圾邮件过滤(BERT、LSTM)。
  • 医疗诊断:疾病预测(逻辑回归+特征重要性分析)。
  • 金融风控:信用评分(XGBoost解释性强)。

8. 挑战与解决方案

  • 过拟合:正则化(L1/L2)、早停、增加数据。
  • 高维数据:特征选择、嵌入层(深度学习)。
  • 类别模糊:调整分类阈值或使用概率输出。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐