一、总述

这一篇则详细讲解如何配置YOLOv12,在本地电脑或者服务器都可,然后利用自己的数据集进行训练、推理、检测等。

在这里插入图片描述


YOLOv12是由纽约大学、北京中国科学院大学和布法罗大学团队联合打造,提出了一种以注意力为核心的实时物体检测方法。传统的YOLO模型虽然在速度和精度之间达到了平衡,但其架构主要基于卷积神经网络(CNN),在捕捉全局依赖和提升检测精度方面存在一定局限性。为了突破这些局限,YOLOv12提出了一种新的以注意力机制为中心的框架,该框架在保持高速推理的同时,充分利用了注意力机制的性能优势。

YOLOv12通过以下创新解决了传统模型的瓶颈问题:

  1. 区域注意力模块(A2):提出了一种简单而高效的区域注意力机制,通过减少注意力的计算复杂度,同时保持大范围的感受野,显著提升了模型的推理速度。
  2. 残差高效层聚合网络(R-ELAN):为了解决注意力机制带来的优化挑战,YOLOv12在其骨干网络中引入了R-ELAN。R-ELAN通过增强特征聚合,并加入残差设计和比例缩放技术,优化了梯度流动,从而提升了大规模模型的稳定性和训练效率。
  3. 基于注意力的架构优化:YOLOv12对传统的注意力机制进行了改进,包括引入FlashAttention来解决注意力计算中的内存访问问题,去除位置编码并调整MLP比率,从而在保持计算效率的同时,进一步提升了模型性能。

基于这些创新设计,YOLOv12开发出了五个不同规模的实时检测模型:YOLOv12-N、S、M、L和X。YOLOv12在COCO数据集上的实验结果表明,它在不同规模的模型上都显著超越了其他主流实时检测器,尤其是在APval(平均精度)和推理延迟(Latency)方面,显示出YOLOv12在精度和速度之间达到了最佳的平衡。

具体来说,YOLOv12-N在APval上超过了YOLOv10-N和YOLOv11-N,分别提高了2.1%和1.2%的APval,并且在推理速度上保持了竞争力。此外,YOLOv12-S在与RT-DETR和RT-DETRv2进行比较时,表现出了更快的推理速度,并且计算量和参数量分别减少了36%和45%。

总之,YOLOv12通过将注意力机制与传统YOLO架构相结合,成功打破了卷积神经网络(CNN)在YOLO系列中的主导地位,并提出了新的架构创新,使其在保持高速推理的同时,达到了更高的检测精度,为实时物体检测领域的研究和应用带来了重要的进展。


二、YOLOv12代码下载

论文地址:YOLOv12论文地址
GitHub地址:GitHub代码下载地址

代码下载: 此处直接点击【Code】→【Download ZIP】下载即可
在这里插入图片描述在这里插入图片描述

权重下载: 此处直接选择权重文件【YOLO12n】下载即可
在这里插入图片描述

在全部下载完成后,将权重文件放到【yolov12-main】文件夹内
在这里插入图片描述


三、环境配置

在windows系统下打开Anaconda的终端,创造虚拟环境。

① 创建虚拟环境

如下:输入 conda create -n yolov12(代表环境名称) python=3.11 (使用Python的版本),然后创建就可以了

conda create -n yolov12 python=3.11

在这里插入图片描述

是否安装环境所需基础包,输入y安装:
在这里插入图片描述

安装完成如下图:
在这里插入图片描述

环境安装完成后,【conda activate yolov12】激活刚才创建的环境
在这里插入图片描述

注1:进入环境后,前面会从base变为yolov12
注2:此处我直接显示的是我环境路径,无关紧要,二者均可

② 在Pytorch中使用在Anaconda中创建的环境进行运行

1、Pytorch中点击右下角【无解释器】
在这里插入图片描述
2、选择【解释器设置】

在这里插入图片描述

3、选择【Python解释器】→【<无解释器>右侧右侧小三角】→【全部显示】
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4、选择【刚建立的环境】并【确定】
在这里插入图片描述
5、接下来一直选择【OK】即可
在这里插入图片描述

6、回到Ptchram页面,选择【终端】并选择终端页面上方右侧【向下三角】中的【Command Prompt】
在这里插入图片描述
7、输入【conda info --envs】

conda info --envs

在这里插入图片描述
8、激活环境
找到自己对应的环境并输入如下代码

conda activate C:\Users\DaoXin\your_path\yolov12
# 其中【C:\Users\DaoXin\your_path\yolov12】为你自己环境所处的路径

在这里插入图片描述
9、环境激活完毕
在这里插入图片描述

10、安装requirements环境
注意:我采用的是win10系统,源代码中采用的是【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-linux_x86_64.whl】,如果ubuntu系统正常运行安装代码即可,如果是win系统请看本版块备注
在这里插入图片描述

安装requirements.txt文件,后面加清华的镜像源效果更好。

//不加清华源
pip install -r requirements.txt
//加清华源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述
Win系统备注
由于源代码中并无win系统编译,优先选用下载代码后,自行编译,实在不行选用备用方案,备用方案极易出错,整体编译时间大概需要1个小时。
编译参考链接: Windows环境下flash-attention安装

备用方案:
①先去此处下载对应的win版本库
flash编译库: Github链接
此时文件需要留意是属于适配于自己的环境,其中文件名称【flash_attn-2.7.3+cu11torch2.2cxx11abiFALSE-cp311-cp311-win_x86_64.whl】的具体含义为需要适配CUDA 11、PyTorch 2.2、python3.11,具体情况以此类推
在这里插入图片描述
并将其放置到【yolov12-main】文件夹中
在这里插入图片描述
最后再运行安装requirements.txt文件
11、开发模式安装Python包

pip install -e .

在这里插入图片描述
出现如下,至此环境安装成功
在这里插入图片描述

四、制作数据集

我的另外一篇博客: 第四部分

五、开始训练

使用PyCharm打开yolov12-main文件夹,并将环境转为刚建立的yolov12虚拟环境
在这里插入图片描述

开启正式训练:
trian.py文件下右键【run ‘train’】
下面展示 train.py代码片。

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO


if __name__ == '__main__':

    model = YOLO(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\ultralytics\cfg\models\v12\yolov12n.yaml')
    # 代表使用yolov12的神经网络结构
    model.load(r'C:\Users\DaoXin\PycharmProjects\yolov12-main\yolov12n.pt')
    # 代表使用yolov12n的预训练权重
    model.train(data=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\TILDA\data.yaml', # 数据集yaml路径
                imgsz=640, # 输入图像的尺寸为 640x640 像素
                epochs=300, # 训练300轮
                batch=16, # 每一批样本的数量
                workers=32, # 同时32个线程
                scale=0.5, #设置图像缩放因子,影响数据增强中的尺度变化。
                mosaic=1.0, # 启用 Mosaic 数据增强,值为 1.0 表示完全启用。
                mixup=0.0, # 设置 MixUp 数据增强的混合比例,这里设置为 0.0,表示不使用。
                copy_paste=0.1, # 设置 Copy-Paste 数据增强的概率。
                device="0", #只使用第一张显卡进行训练
                project=r'C:\Users\DaoXin\PycharmProjects\yolov12-main\train',
                name='yolov12n',
                )

GPU-Win10版本训练正常
在这里插入图片描述
GPU-Ubuntu22.04版本训练正常
在这里插入图片描述

如有问题,欢迎大家一起交流,不胜感激!!!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐