
YOLOv12保姆级教程(win系统和ubuntu系统均可使用)
YOLOv12 是由纽约大学、中国科学院大学和布法罗大学联合研发的实时物体检测模型。相比传统的 CNN 架构,YOLOv12 引入了 注意力机制,突破了在捕捉全局依赖和提升精度方面的局限。其创新包括:区域注意力模块(A2):提高推理速度,减少计算复杂度。残差高效层聚合网络(R-ELAN):增强特征聚合,优化训练效率。架构优化:采用 FlashAttention 解决内存访问问题,调整 MLP 比率
YOLOv12保姆级教程(个人踩坑无数,Win10+Ubuntu20.04运行)
一、总述
这一篇则详细讲解如何配置YOLOv12,在本地电脑或者服务器都可,然后利用自己的数据集进行训练、推理、检测等。
YOLOv12是由纽约大学、北京中国科学院大学和布法罗大学团队联合打造,提出了一种以注意力为核心的实时物体检测方法。传统的YOLO模型虽然在速度和精度之间达到了平衡,但其架构主要基于卷积神经网络(CNN),在捕捉全局依赖和提升检测精度方面存在一定局限性。为了突破这些局限,YOLOv12提出了一种新的以注意力机制为中心的框架,该框架在保持高速推理的同时,充分利用了注意力机制的性能优势。
YOLOv12通过以下创新解决了传统模型的瓶颈问题:
- 区域注意力模块(A2):提出了一种简单而高效的区域注意力机制,通过减少注意力的计算复杂度,同时保持大范围的感受野,显著提升了模型的推理速度。
- 残差高效层聚合网络(R-ELAN):为了解决注意力机制带来的优化挑战,YOLOv12在其骨干网络中引入了R-ELAN。R-ELAN通过增强特征聚合,并加入残差设计和比例缩放技术,优化了梯度流动,从而提升了大规模模型的稳定性和训练效率。
- 基于注意力的架构优化:YOLOv12对传统的注意力机制进行了改进,包括引入FlashAttention来解决注意力计算中的内存访问问题,去除位置编码并调整MLP比率,从而在保持计算效率的同时,进一步提升了模型性能。
基于这些创新设计,YOLOv12开发出了五个不同规模的实时检测模型:YOLOv12-N、S、M、L和X。YOLOv12在COCO数据集上的实验结果表明,它在不同规模的模型上都显著超越了其他主流实时检测器,尤其是在APval(平均精度)和推理延迟(Latency)方面,显示出YOLOv12在精度和速度之间达到了最佳的平衡。
具体来说,YOLOv12-N在APval上超过了YOLOv10-N和YOLOv11-N,分别提高了2.1%和1.2%的APval,并且在推理速度上保持了竞争力。此外,YOLOv12-S在与RT-DETR和RT-DETRv2进行比较时,表现出了更快的推理速度,并且计算量和参数量分别减少了36%和45%。
总之,YOLOv12通过将注意力机制与传统YOLO架构相结合,成功打破了卷积神经网络(CNN)在YOLO系列中的主导地位,并提出了新的架构创新,使其在保持高速推理的同时,达到了更高的检测精度,为实时物体检测领域的研究和应用带来了重要的进展。
二、YOLOv12代码下载
论文地址:YOLOv12论文地址
GitHub地址:GitHub代码下载地址
代码下载: 此处直接点击【Code】→【Download ZIP】下载即可
权重下载: 此处直接选择权重文件【YOLO12n】下载即可
在全部下载完成后,将权重文件放到【yolov12-main】文件夹内
三、环境配置
在windows系统下打开Anaconda的终端,创造虚拟环境。
① 创建虚拟环境
如下:输入 conda create -n yolov12(代表环境名称) python=3.11 (使用Python的版本),然后创建就可以了
conda create -n yolov12 python=3.11
是否安装环境所需基础包,输入y安装:
安装完成如下图:
环境安装完成后,【conda activate yolov12】激活刚才创建的环境
注1:进入环境后,前面会从base变为yolov12
注2:此处我直接显示的是我环境路径,无关紧要,二者均可
② 在Pytorch中使用在Anaconda中创建的环境进行运行
1、Pytorch中点击右下角【无解释器】
2、选择【解释器设置】
3、选择【Python解释器】→【<无解释器>右侧右侧小三角】→【全部显示】
4、选择【刚建立的环境】并【确定】
5、接下来一直选择【OK】即可
6、回到Ptchram页面,选择【终端】并选择终端页面上方右侧【向下三角】中的【Command Prompt】
7、输入【conda info --envs】
conda info --envs
8、激活环境
找到自己对应的环境并输入如下代码
conda activate C:\Users\DaoXin\your_path\yolov12
# 其中【C:\Users\DaoXin\your_path\yolov12】为你自己环境所处的路径
9、环境激活完毕
10、安装requirements环境
注意:我采用的是win10系统,源代码中采用的是【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl】,如果ubuntu系统正常运行安装代码即可,如果是win系统请看本版块备注
安装requirements.txt文件,后面加清华的镜像源效果更好。
//不加清华源
pip install -r requirements.txt
//加清华源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
Win系统备注
由于源代码中并无win系统编译,优先选用下载代码后,自行编译,实在不行选用备用方案,备用方案极易出错,整体编译时间大概需要1个小时。
编译参考链接: Windows环境下flash-attention安装
备用方案:
①先去此处下载对应的win版本库
flash编译库: Github链接
此时文件需要留意是属于适配于自己的环境,其中文件名称【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-win_x86_64.whl】的具体含义为需要适配CUDA 11、PyTorch 2.2、python3.11,具体情况以此类推
并将其放置到【yolov12-main】文件夹中
最后再运行安装requirements.txt文件
11、开发模式安装Python包
pip install -e .
出现如下,至此环境安装成功
四、制作数据集
我的另外一篇博客: 第四部分
五、开始训练
使用PyCharm打开yolov12-main文件夹,并将环境转为刚建立的yolov12虚拟环境
开启正式训练:
在trian.py文件下右键【run ‘train’】
下面展示 train.py
代码片。
import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO
if __name__ == '__main__':
model = YOLO(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\ultralytics\cfg\models\v12\yolov12n.yaml')
# 代表使用yolov12的神经网络结构
model.load(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\yolov12n.pt')
# 代表使用yolov12n的预训练权重
model.train(data=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\TILDA\data.yaml', # 数据集yaml路径
imgsz=640, # 输入图像的尺寸为 640x640 像素
epochs=300, # 训练300轮
batch=16, # 每一批样本的数量
workers=32, # 同时32个线程
scale=0.5, #设置图像缩放因子,影响数据增强中的尺度变化。
mosaic=1.0, # 启用 Mosaic 数据增强,值为 1.0 表示完全启用。
mixup=0.0, # 设置 MixUp 数据增强的混合比例,这里设置为 0.0,表示不使用。
copy_paste=0.1, # 设置 Copy-Paste 数据增强的概率。
device="0", #只使用第一张显卡进行训练
project=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\train',
name='yolov12n',
)
GPU-Win10版本训练正常
GPU-Ubuntu22.04版本训练正常
如有问题,欢迎大家一起交流,不胜感激!!!
更多推荐
所有评论(0)