简单例子说明XGBoost中树模型的构建过程

我们需要解决的是一个回归问题，数据如下表所示，`NO`是样本的编号，`Drug Dosage` 是特征，`Drug Effective` 是真实值。我们将根据这个数据集构建一个XGBoost模型。2. 求一阶导数和二阶导数 3. 构建树 4. 剪枝 5. 计算输出值 6. 新的预测值 7. 继续构建下一棵树

热爱生活的菇凉

2978人浏览 · 2021-11-02 14:02:10

热爱生活的菇凉 · 2021-11-02 14:02:10 发布

文章目录

这里不再介绍XGBoost的原理及推导过程，推荐一些资料：

在构建树结构的过程会将涉及到的公式给出。
本文中的过程来源于视频XGBoost Part 1 (of 4): Regression – YouTube

如有错误，请指正，谢谢啦~

1. 数据集-回归问题

我们需要解决的是一个回归问题，数据如下表所示，NO是样本的编号，Drug Dosage 是特征，Drug Effective 是真实值。我们将根据这个数据集构建一个XGBoost模型。
在这里插入图片描述

2. 求一阶导数和二阶导数

这里采用的平方损失函数
在这里插入图片描述
注：后续需要用到 $G ain$ 的计算公式，并定义 $\; score (ss)$ ，同时将上面计算好的 $g_i$ 和 $h_i$ 带入 $ss$ 中，如下：

3. 构建树

初始化

设 $y_i^0 = 0.5$ ，并将样本点（实心圆）及预测值（黑色的粗线）画到二维坐标中。
在这里插入图片描述

残差
根据 $ss$ 的计算公式，其涉及到 $R es i d u a l$ ，所以我们将每个样本点的残差计算出来
寻找最优切分点
这里我们采用精确贪心算法进行切分

首先将特征值进行排序，这里只有一个特征，我们给出的顺序刚好是排序好的，即 10, 20, 25, 35

切分点选取的是相邻两个特征值的均值，所以此时我们有3个切分点，即15, 22.5, 30

接下来我们将会计算三个不同的切分得到的 $G ain$ 值，选择最大的 $G ain$ （增益）对应的切分点

接下来将计算3个切分点对应的增益，这里取 $\lambda=0$ .

$Dos a g e < 15$
图中红色的虚线是切分点

这里再提一下，根据 $G ain$ 的计算公式，我们只需要计算出每个结点的 $ss$ ，然后再进行相应的运算就可以得到 $G ain$ 了。

我们先计算根结点的 $ss$

在这里插入图片描述
接下来计算叶子结点，

然后计算以 $Dos a g e < 15$ 作为切分点时的 $G ain$

2. $Dos a g e < 22.5$
同样的计算方法

3. $Dos a g e < 30$

三个切分点的 $G ain$ 已经计算完成，大小关系如下：
$Gain_{15}=120.33 >Gain_{30}=56.33>Gain_{22.5}=4$

$Dos a g e < 15$ 作为切分点时的 $G ain$ 最大，选择此切分点
在这里插入图片描述
此时左边结点不需要再切分，我们继续分析右边结点，这时我们可以有两个可选的切分点，同样计算不同切分点时的 $G ain$ ，步骤同上

$Dos a g e < 22.5$
$Dos a g e < 30$

$Dos a g e < 30$ 时的增益最大，得到树结构如下

在工程实现中，我们可以控制树的深度，在这里将树的深度限制为2（根结点第0），所以第一棵树已经构建完成。

4. 剪枝

自底向上判断是否需要剪枝
在这里插入图片描述

设 $\gamma=130$

虽然这里根结点的 $<\gamma$ ，但我们没有对第一个分支进行剪枝，所以我们不会删掉这个根结点。
设 $\gamma=150$
此时自底向上剪枝的时候，就会剪掉整棵树，最后我们只剩下初始的预测值

在这里插入图片描述

5. 计算输出值

这里我们取 $\gamma=130$ ，所以不会进行剪枝，树结构及其输出值如下：
在这里插入图片描述

6. 新的预测值

在这里插入图片描述
根据左下角的图片，我们可以看到，预测值更接近真实值了

7. 继续构建下一棵树

在这里插入图片描述

这样计算一遍，对XGBoost构建树的过程更清楚了。

最后，我参考前述提到的资料，将XGBoost的原理推导及文中的举例部分，做成了PPT，欢迎下载，提意见 XGBoos.pptx

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere

2048 AI社区

从狂热到深耕：一个AI从业者的智能体创业心路历程

2048 AI社区

MCP：从被动响应到自主执行的自动化协议

AI正突破传统代码生成边界，向全流程智能调度演进。MCP（Model Context Protocol）作为开放协议，为AI与工具建立统一接口，实现跨模型、跨工具的复杂流程编排。其核心价值在于生态复用、安全可控和上下文感知，通过客户端-服务器架构让AI自主调用API完成从代码检查到性能优化的全流程。相比Function Call的单次调用，MCP支持多工具串联和本地数据处理，将重塑前端开发模式——