机器学习分类

Blue桃之夭夭

515人浏览 · 2025-05-15 16:00:05

Blue桃之夭夭 · 2025-05-15 16:00:05 发布

1. 核心概念

定义：根据输入特征将数据划分到预定义的离散类别中。
关键点：类别标签是离散的（如垃圾邮件/正常邮件、猫/狗/鸟）。

2. 常见分类算法

2.1 基础算法

逻辑回归：通过Sigmoid函数输出概率，适合二分类。
决策树：基于特征阈值递归划分数据，可解释性强。
支持向量机（SVM）：寻找最大化类别间隔的超平面，可处理高维数据。

2.2 集成方法

随机森林：多棵决策树投票，降低过拟合。
梯度提升树（如XGBoost）：逐步修正前序模型的错误，常获竞赛高分。

2.3 概率模型

朴素贝叶斯：基于贝叶斯定理，假设特征独立，适合文本分类。

2.4 深度学习

神经网络：通过多层非线性变换建模复杂边界（如CNN图像分类、Transformer文本分类）。

3. 分类任务类型

二分类：仅两个类别（如医学检测阳性/阴性）。
多分类：超过两个类别（如手写数字识别0-9）。
- 解法：One-vs-Rest、Softmax输出等。
多标签分类：一个样本可属多个类别（如图片标签“沙滩”“日落”“人物”）。

4. 评估指标

准确率（Accuracy）：正确预测比例，但类别不平衡时不可靠。
精确率（Precision）与召回率（Recall）：
- 精确率：预测为正的样本中实际为正的比例。
- 召回率：实际为正的样本中被正确预测的比例。
F1分数：精确率与召回率的调和平均。
ROC-AUC：模型区分正负类的能力，曲线下面积越大越好。

5. 处理类别不平衡

重采样：过采样少数类（如SMOTE）或欠采样多数类。
代价敏感学习：为不同类别设置不同的误分类惩罚权重。
评估调整：优先关注召回率或F1，而非准确率。

6. 分类流程示例

数据预处理：缺失值填充、特征缩放、编码类别标签。
特征工程：选择相关特征（如卡方检验、PCA降维）。
模型选择：根据数据特点选择算法（如线性可分用SVM，非结构化数据用深度学习）。
训练与调参：交叉验证+网格搜索优化超参数。
模型部署：保存模型并应用于新数据。

7. 实际应用场景

计算机视觉：图像分类（ResNet、ViT）。
自然语言处理：情感分析、垃圾邮件过滤（BERT、LSTM）。
医疗诊断：疾病预测（逻辑回归+特征重要性分析）。
金融风控：信用评分（XGBoost解释性强）。

8. 挑战与解决方案

过拟合：正则化（L1/L2）、早停、增加数据。
高维数据：特征选择、嵌入层（深度学习）。
类别模糊：调整分类阈值或使用概率输出。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f