决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型

你是否曾好奇，机器学习如何从海量数据中挖掘出隐藏的规律？或者，一个简单的模型如何帮助医生诊断疾病、银行评估信用，甚至预测泰坦尼克号上的生还者？答案就在决策树算法中。作为机器学习领域的“常青树”，决策树以其直观易懂和强大的实用性，深受初学者和专业人士的喜爱。我还记得自己第一次接触决策树时的兴奋——用几行代码，就能让计算机像人类一样“思考”问题、分步决策。那一刻，我意识到它的潜力远超想象。这篇文章将带

大模型铲屎官

3863人浏览 · 2025-03-19 09:15:00

大模型铲屎官 · 2025-03-19 09:15:00 发布

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

PyTorch系列文章目录

Python系列文章目录

机器学习系列文章目录

01-什么是机器学习？从零基础到自动驾驶案例全解析
 02-从过拟合到强化学习：机器学习核心知识全解析
 03-从零精通机器学习：线性回归入门
 04-逻辑回归 vs. 线性回归：一文搞懂两者的区别与应用
05-决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型

前言

这篇文章将带你走进决策树的世界，从零基础的构建过程，到信息增益与基尼指数的奥秘，再到剪枝优化和真实案例的实战演练。无论你是想快速入门机器学习，还是希望优化现有模型，这篇干货满满的指南都将点燃你的学习热情。

一、决策树入门：从概念到应用

1.1 什么是决策树

1.1.1 决策树的定义

决策树是一种树状结构的监督学习算法，通过一系列“问题”（特征测试）将数据集逐步划分，最终得出预测结果。它的结构包括：

根节点：整个数据集的起点。
内部节点：表示特征的测试条件。
分支：测试结果的不同路径。
叶节点：最终的类别标签（分类）或数值（回归）。

打个比方，决策树就像玩“20个问题”游戏：通过不断提问（比如“花瓣长度大于3厘米吗？”），逐步缩小范围，直到得出答案。

1.1.2 决策树的工作原理

假设我们要用决策树判断一个人是否喜欢运动。决策树可能会先问：“年龄小于30岁吗？”如果是，就进入下一层问题：“每周锻炼时间超过3小时吗？”最终得出“是”或“否”。这种分步决策的过程直观且易于理解。

1.2 决策树的应用场景

1.2.1 现实中的案例

决策树在各领域大放异彩：

金融：判断贷款申请者是否会违约。
医疗：根据症状预测疾病类型。
电商：分析用户购买偏好。

1.2.2 为什么选择决策树

决策树最大的优势是可解释性强，你能清楚地看到每个决策的依据。这在需要透明性的场景（如医疗诊断）尤为重要。

二、决策树的构建：从零到一

2.1 决策树的基本原理

2.1.1 数据划分的核心思想

决策树的构建是一个递归过程：从根节点开始，选择一个“最佳特征”划分数据集，使子集的“纯度”更高（即类别更一致）。这个过程持续进行，直到满足停止条件，比如所有样本属于同一类。

2.1.2 停止条件有哪些

所有样本属于同一类。
没有剩余特征可划分。
达到预设的最大深度。

2.2 特征选择：如何找到最佳划分

2.2.1 信息增益：基于熵的衡量

信息增益衡量的是特征划分后数据集“不确定性”的减少。不确定性用熵（entropy）表示，公式为：

$\text{Entropy}(D) = -\sum_{k=1}^{K} p_k \log_2 p_k ]$

其中，(p_k) 是第 (k) 类样本的比例。熵越小，纯度越高。

信息增益的计算是：

$\text{Gain}(D, A) = \text{Entropy}(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} \text{Entropy}(D_v) ]$

选择信息增益最大的特征。比如，在判断“是否下雨”时，“湿度”可能比“温度”带来更大的信息增益。

2.2.2 基尼指数：简单高效的选择

基尼指数是另一种纯度指标，公式为：

$\text{Gini}(D) = 1 - \sum_{k=1}^{K} p_k^2 ]$

基尼指数越小，纯度越高。特征划分后的基尼指数为加权平均，选择基尼指数最小的特征。相比信息增益，基尼指数计算更快，常用于CART算法。

2.2.3 信息增益 vs 基尼指数

指标	优点	缺点
信息增益	理论依据强，直观	对多值特征有偏好，计算复杂
基尼指数	计算简单，适用于二叉树	对噪声稍敏感

2.3 经典算法：ID3、C4.5和CART

2.3.1 ID3算法

ID3用信息增益选择特征，适用于离散数据。缺点是偏好取值多的特征，且无法处理连续值。

2.3.2 C4.5算法

C4.5改进ID3，用信息增益比代替信息增益，还能处理连续特征和缺失值，更实用。

2.3.3 CART算法

CART（分类与回归树）用基尼指数，支持分类和回归，生成二叉树，应用范围更广。

三、决策树的优化：剪枝技术

3.1 为什么要剪枝

3.1.1 过拟合的风险

未经剪枝的决策树可能“长得太深”，完美拟合训练数据，但在新数据上表现不佳，这就是过拟合。

3.1.2 剪枝的好处

剪枝通过简化树结构，减少过拟合，提高泛化能力。

3.2 剪枝的两种方法

3.2.1 预剪枝：提前止步

在树生长时设置限制条件：

最大深度（如5层）。
最小样本数（如每个叶节点至少10个样本）。

优点：简单高效。
缺点：可能错过潜在的重要划分。

3.2.2 后剪枝：事后修剪

树完全生长后，基于验证集性能移除不必要的分支。
优点：更精确。
缺点：计算成本高。

（1）后剪枝的实现步骤

用全部训练数据构建完整树。
从底部向上，尝试移除每个节点。
用验证集评估性能，若移除后性能提升，则剪掉。

四、决策树的可视化：让模型“说话”

4.1 为什么需要可视化

4.1.1 可视化的价值

可视化能直观展示决策过程，帮助我们：

理解模型逻辑。
检查特征重要性。
发现潜在问题。

4.2 如何可视化决策树

4.2.1 使用Python实现

在Python中，sklearn提供了plot_tree函数。以下是示例代码：

from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 训练模型
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(X, y)

# 可视化
plt.figure(figsize=(15, 10))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

关键代码解释：

filled=True：用颜色填充节点，颜色深浅表示类别纯度。
feature_names：显示特征名称。
class_names：显示类别名称。

运行后，你会看到一个清晰的树状图，展示每个节点的特征、阈值和预测结果。

4.2.2 可视化结果解读

假设上图显示“花瓣长度 ≤ 2.45”是根节点，左分支全是“setosa”类，说明这个特征很好地区分了一个类别。

五、决策树在实际项目中的应用：以Titanic生存预测为例

5.1 引言

决策树是一种简单却强大的机器学习算法，广泛应用于分类和回归任务。本章节通过一个经典案例——Titanic生存预测，展示如何在实际项目中使用决策树解决问题。我们将涵盖数据预处理、模型训练、评估和可视化的全流程，并提供丰富的代码示例，帮助您将理论转化为实践。

5.2 案例研究：Titanic生存预测

5.2.1 数据集简介

Titanic数据集包含泰坦尼克号乘客的信息，如年龄、性别、船舱等级等。目标是预测乘客是否幸存（survived列：0表示未幸存，1表示幸存）。

5.2.2 获取数据集

我们使用seaborn库加载Titanic数据集：

import seaborn as sns
import pandas as pd

# 加载数据集
titanic = sns.load_dataset('titanic')
print(titanic.head())  # 查看前几行数据

5.3 数据预处理

数据预处理是机器学习的重要步骤，确保输入数据适合模型训练。

5.3.1 处理缺失值

Titanic数据集中age和embarked列存在缺失值。我们用中位数填充age，用众数填充embarked：

# 填充age的缺失值
titanic['age'].fillna(titanic['age'].median(), inplace=True)

# 填充embarked的缺失值
titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True)

# 检查缺失值是否处理完毕
print(titanic.isnull().sum())

5.3.2 编码分类变量

决策树要求特征为数值型，因此将sex和embarked转换为数值：

# 将sex转换为0和1
titanic['sex'] = titanic['sex'].map({'male': 0, 'female': 1})

# 将embarked转换为one-hot编码
titanic = pd.get_dummies(titanic, columns=['embarked'], drop_first=True)

# 查看处理后的数据
print(titanic[['sex', 'embarked_Q', 'embarked_S']].head())

5.3.3 选择特征和目标变量

我们选择以下特征进行建模：pclass、sex、age、sibsp、parch、fare、embarked_Q、embarked_S，目标变量为survived。

# 选择特征和目标变量
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked_Q', 'embarked_S']
X = titanic[features]
y = titanic['survived']

# 查看特征数据
print(X.head())

5.4 模型训练

5.4.1 划分训练集和测试集

将数据集分为训练集（80%）和测试集（20%）：

from sklearn.model_selection import train_test_split

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"训练集样本数: {X_train.shape[0]}")
print(f"测试集样本数: {X_test.shape[0]}")

5.4.2 训练决策树模型

使用sklearn的DecisionTreeClassifier训练模型，设置max_depth=3以控制模型复杂度：

from sklearn.tree import DecisionTreeClassifier

# 初始化并训练模型
clf = DecisionTreeClassifier(max_depth=3, random_state=42)
clf.fit(X_train, y_train)

print("模型训练完成！")

5.5 模型评估

5.5.1 计算准确率

使用测试集预测并计算准确率：

from sklearn.metrics import accuracy_score

# 预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

5.5.2 绘制混淆矩阵

混淆矩阵展示模型的分类性能：

from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)

# 绘制混淆矩阵
plt.figure(figsize=(6, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

5.6 可视化决策树

5.6.1 使用plot_tree可视化

可视化决策树结构：

from sklearn.tree import plot_tree

# 绘制决策树
plt.figure(figsize=(15, 10))
plot_tree(clf, filled=True, feature_names=features, class_names=['Not Survived', 'Survived'])
plt.show()

5.6.2 特征重要性

分析每个特征对预测的贡献：

# 获取特征重要性
importance = clf.feature_importances_
feature_importance = pd.Series(importance, index=features).sort_values(ascending=False)

# 绘制特征重要性条形图
plt.figure(figsize=(10, 6))
feature_importance.plot(kind='bar')
plt.title('Feature Importance')
plt.xlabel('Features')
plt.ylabel('Importance')
plt.show()