YOLOv12保姆级教程（win系统和ubuntu系统均可使用）

YOLOv12 是由纽约大学、中国科学院大学和布法罗大学联合研发的实时物体检测模型。相比传统的 CNN 架构，YOLOv12 引入了注意力机制，突破了在捕捉全局依赖和提升精度方面的局限。其创新包括：区域注意力模块（A2）：提高推理速度，减少计算复杂度。残差高效层聚合网络（R-ELAN）：增强特征聚合，优化训练效率。架构优化：采用 FlashAttention 解决内存访问问题，调整 MLP 比率

道心

7833人浏览 · 2025-02-20 00:07:30

道心 · 2025-02-20 00:07:30 发布

YOLOv12保姆级教程（个人踩坑无数，Win10+Ubuntu20.04运行）

一、总述
二、YOLOv12代码下载
三、环境配置
- ① 创建虚拟环境
- ② 在Pytorch中使用在Anaconda中创建的环境进行运行
四、制作数据集
五、开始训练

一、总述

这一篇则详细讲解如何配置YOLOv12，在本地电脑或者服务器都可，然后利用自己的数据集进行训练、推理、检测等。

在这里插入图片描述

YOLOv12是由纽约大学、北京中国科学院大学和布法罗大学团队联合打造，提出了一种以注意力为核心的实时物体检测方法。传统的YOLO模型虽然在速度和精度之间达到了平衡，但其架构主要基于卷积神经网络(CNN)，在捕捉全局依赖和提升检测精度方面存在一定局限性。为了突破这些局限，YOLOv12提出了一种新的以注意力机制为中心的框架，该框架在保持高速推理的同时，充分利用了注意力机制的性能优势。

YOLOv12通过以下创新解决了传统模型的瓶颈问题：

区域注意力模块(A2)：提出了一种简单而高效的区域注意力机制，通过减少注意力的计算复杂度，同时保持大范围的感受野，显著提升了模型的推理速度。
残差高效层聚合网络(R-ELAN)：为了解决注意力机制带来的优化挑战，YOLOv12在其骨干网络中引入了R-ELAN。R-ELAN通过增强特征聚合，并加入残差设计和比例缩放技术，优化了梯度流动，从而提升了大规模模型的稳定性和训练效率。
基于注意力的架构优化：YOLOv12对传统的注意力机制进行了改进，包括引入FlashAttention来解决注意力计算中的内存访问问题，去除位置编码并调整MLP比率，从而在保持计算效率的同时，进一步提升了模型性能。

基于这些创新设计，YOLOv12开发出了五个不同规模的实时检测模型：YOLOv12-N、S、M、L和X。YOLOv12在COCO数据集上的实验结果表明，它在不同规模的模型上都显著超越了其他主流实时检测器，尤其是在APval（平均精度）和推理延迟（Latency）方面，显示出YOLOv12在精度和速度之间达到了最佳的平衡。

具体来说，YOLOv12-N在APval上超过了YOLOv10-N和YOLOv11-N，分别提高了2.1%和1.2%的APval，并且在推理速度上保持了竞争力。此外，YOLOv12-S在与RT-DETR和RT-DETRv2进行比较时，表现出了更快的推理速度，并且计算量和参数量分别减少了36%和45%。

总之，YOLOv12通过将注意力机制与传统YOLO架构相结合，成功打破了卷积神经网络(CNN)在YOLO系列中的主导地位，并提出了新的架构创新，使其在保持高速推理的同时，达到了更高的检测精度，为实时物体检测领域的研究和应用带来了重要的进展。

二、YOLOv12代码下载

论文地址：YOLOv12论文地址
GitHub地址：GitHub代码下载地址

代码下载： 此处直接点击【Code】→【Download ZIP】下载即可
在这里插入图片描述

权重下载： 此处直接选择权重文件【YOLO12n】下载即可
在这里插入图片描述

在全部下载完成后，将权重文件放到【yolov12-main】文件夹内
在这里插入图片描述

三、环境配置

在windows系统下打开Anaconda的终端，创造虚拟环境。

① 创建虚拟环境

如下：输入 conda create -n yolov12(代表环境名称) python=3.11 （使用Python的版本），然后创建就可以了

conda create -n yolov12 python=3.11

在这里插入图片描述

是否安装环境所需基础包，输入y安装：
在这里插入图片描述

安装完成如下图：
在这里插入图片描述

环境安装完成后，【conda activate yolov12】激活刚才创建的环境
在这里插入图片描述

注1：进入环境后，前面会从base变为yolov12
注2：此处我直接显示的是我环境路径，无关紧要，二者均可

② 在Pytorch中使用在Anaconda中创建的环境进行运行

1、Pytorch中点击右下角【无解释器】
在这里插入图片描述
2、选择【解释器设置】

在这里插入图片描述

3、选择【Python解释器】→【<无解释器>右侧右侧小三角】→【全部显示】
在这里插入图片描述

4、选择【刚建立的环境】并【确定】
在这里插入图片描述
5、接下来一直选择【OK】即可

6、回到Ptchram页面，选择【终端】并选择终端页面上方右侧【向下三角】中的【Command Prompt】
在这里插入图片描述
7、输入【conda info --envs】

conda info --envs

在这里插入图片描述
8、激活环境
找到自己对应的环境并输入如下代码

conda activate C:\Users\DaoXin\your_path\yolov12
# 其中【C:\Users\DaoXin\your_path\yolov12】为你自己环境所处的路径

在这里插入图片描述
9、环境激活完毕

10、安装requirements环境
注意：我采用的是win10系统，源代码中采用的是【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl】，如果ubuntu系统正常运行安装代码即可，如果是win系统请看本版块备注
在这里插入图片描述

安装requirements.txt文件，后面加清华的镜像源效果更好。

//不加清华源
pip install -r requirements.txt

//加清华源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述
Win系统备注
由于源代码中并无win系统编译，优先选用下载代码后，自行编译，实在不行选用备用方案，备用方案极易出错，整体编译时间大概需要1个小时。
编译参考链接: Windows环境下flash-attention安装

备用方案：
①先去此处下载对应的win版本库
flash编译库: Github链接
此时文件需要留意是属于适配于自己的环境，其中文件名称【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-win_x86_64.whl】的具体含义为需要适配CUDA 11、PyTorch 2.2、python3.11，具体情况以此类推
在这里插入图片描述
并将其放置到【yolov12-main】文件夹中

最后再运行安装requirements.txt文件
11、开发模式安装Python包

pip install -e .

在这里插入图片描述
出现如下，至此环境安装成功

四、制作数据集

我的另外一篇博客: 第四部分

五、开始训练

使用PyCharm打开yolov12-main文件夹，并将环境转为刚建立的yolov12虚拟环境
在这里插入图片描述

开启正式训练：
在trian.py文件下右键【run ‘train’】
下面展示 train.py代码片。

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO


if __name__ == '__main__':

    model = YOLO(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\ultralytics\cfg\models\v12\yolov12n.yaml')
    # 代表使用yolov12的神经网络结构
    model.load(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\yolov12n.pt')
    # 代表使用yolov12n的预训练权重
    model.train(data=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\TILDA\data.yaml', # 数据集yaml路径
                imgsz=640, # 输入图像的尺寸为 640x640 像素
                epochs=300, # 训练300轮
                batch=16, # 每一批样本的数量
                workers=32, # 同时32个线程
                scale=0.5, #设置图像缩放因子，影响数据增强中的尺度变化。
                mosaic=1.0, # 启用 Mosaic 数据增强，值为 1.0 表示完全启用。
                mixup=0.0, # 设置 MixUp 数据增强的混合比例，这里设置为 0.0，表示不使用。
                copy_paste=0.1, # 设置 Copy-Paste 数据增强的概率。
                device="0", #只使用第一张显卡进行训练
                project=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\train',
                name='yolov12n',
                )

GPU-Win10版本训练正常
在这里插入图片描述
GPU-Ubuntu22.04版本训练正常