SAM-Att:一种无需提示,带有注意模块用于超声心动图左心室的自动分割的 SAM 相关模型
通过左心室研究心脏的结构和功能是诊断心脏病最常见的方法之一。通过深度学习技术可以实现左心室的自动分割,研究人员在这一领域进行了一系列探索。近年来,SAM模型在自然图像领域取得了巨大的成功,引起了研究人员的极大兴趣。这促使他们研究SAM是否也可以成功应用于医学成像领域。SAM模型的交互式界面支持自然图像域中的零次和少次学习,从而实现准确的分割任务。然而,在医学图像的自动分割中存在某些限制,特别是在自
-
标题:SAM-Att: A Prompt-Free SAM-Related Model With an Attention Module for Automatic Segmentation of the Left Ventricle in Echocardiography
-
关键词:SAM, prompt-free, echocardiography, left ventricle, automatic segmentation
摘要
通过左心室研究心脏的结构和功能是诊断心脏病最常见的方法之一。通过深度学习技术可以实现左心室的自动分割,研究人员在这一领域进行了一系列探索。近年来,SAM模型在自然图像领域取得了巨大的成功,引起了研究人员的极大兴趣。这促使他们研究SAM是否也可以成功应用于医学成像领域。SAM模型的交互式界面支持自然图像域中的零次和少次学习,从而实现准确的分割任务。然而,在医学图像的自动分割中存在某些限制,特别是在自然图像线索(诸如点、框和文本提示)的背景下。为了解决这个问题,本文探讨了一个无提示、带有attention模块的SAM相关模型的性能,这个模型用来自动分割左心室超声心动图,命名为SAM-Att。该模型在上游采用低秩微调策略,在下游引入注意力机制,并在SAM大模型上预训练的权值文件的支持下,成功地完成了左心室的自动分割任务。
背景
心脏作为人体内的重要器官,在人类探索、创造和感知世界中起着举足轻重的作用。然而,各种心脏病的存在严重威胁着许多人的生命。为了有效地预防和治疗这些疾病,准确计算,建模和分析心脏结构在医学领域的研究和应用中至关重要。进行这些研究的先决条件是利用心脏成像来分割心脏的特定区域。在心脏分割的背景下,心脏每个区域的不同形态和功能导致每个区域的不同分割方法和挑战。目前,对心脏的研究通常集中在左心室。因为右心室内的信号强度与心肌的信号强度相似,所以它表现出一种复杂的新月形,从基部到顶端变化不定。此外,一些较薄的心室壁可能与周围组织混合,增加了分割的难度。相比之下,左心室的特征在于圆柱形区域,具有较厚的心肌壁。左心室对于向整个身体供应血液至关重要。因此,左心室的分割通常在心脏病研究中更常见。通过分割左心室,可以测量左心室的体积、壁厚、直径和形状,从而评估心脏的结构是否正常,这对于检测结构性心脏病如心肌肥大和扩张型心肌病至关重要。总之,左心室的分割是心脏成像的关键步骤,为医疗保健专业人员提供了有价值的信息,以准确评估心脏的结构和功能,从而做出诊断和治疗决策。目前用于左心室分割的最常见方法是采用深度学习技术进行自动分割。由Mata AI Lab团队提出的Segment Anything Model,具有零样本可转移性,并采用标准视觉转换器(VIT)作为图像编码器。在SAM中使用了Vit的三种变体,即Vit-b、Vit-h和Vit-L。由这三种类型的图像编码器组成的模型在本文中被称为SAM-b、SAM-h和SAM-L。在SA-1B数据集上对这三个模型进行预训练,并为每个模型获得相应的权重文件。之前的一个研究将一种基于低阶注意(LORA)的微调策略应用于SAM图像编码器,命名为SAED,在冻结图像编码器后,在SAM中插入额外的可训练LORA层用于医学图像的特征提取,然后对默认嵌入的提示编码器和掩蔽解码器进行微调,实现医学图像的精确语义分割。本文重点研究了该模型在无提示条件下的图像分割性能。将上述模型应用于相同条件下的超声心动图数据集,然后进行改进,通过增加attention模块来强模型的性能。本文主要贡献:1)引入SAM-Att模型。在现有SAMed模型的基础上,上游编码器继续利用低秩微调策略,更新Transformer模块的参数。下游部分删除提示编码器并修改解码器。2)在SAM-Att模型的解码器中引入了卷积块注意模块(CBAM)和高效信道注意(ECA)网络。通过学习来调整权重,以更好地捕捉不同通道之间或通道之间的相互关系,从而能够更有效地探索特征之间的相关性并专注于相关特征。3)比较SAM-Att模型与SAM-b、MSA、Sam-CNN、AutoSAM和SAMed模型在超声心动图上的分割性能。
方法
模型架构
模型整体架构继承SAMMed,如下所示:
**编码器。**无提示编码器。最初,图像编码器被冻结,随后,引入了基于低秩更新的微调策略,允许对Transformer模块进行参数更新。LoRA的引入使SAM能够在超声心动图的训练过程中利用新获得的知识,从而允许更新一小部分参数。LoRA模块的工作原理如下图所示:
对于预训练的矩阵W0 ∈ Rd×k,可以通过低秩分解进行矩阵参数更新。B ∈ Rd×k,A ∈ Rr×k,r ∈ min(d,k),其中r的维数明显小于d和k的维数。当进行微调训练时,W0的参数保持不变,仅更新用于学习A和B的参数。用高斯分布初始化矩阵A,用零初始化矩阵B。在训练过程中,使用α γ约束更新1W,其中α在训练过程中类似于学习率进行调整。
解码器。由4个组件组成,卷积注意模块、高效通道注意网络、上采样卷积模块、分段头。
- 卷积块注意模块CBAM
卷积块注意模块由两个子模块组成,即通道注意模块和空间注意模块,分别对通道和空间维度进行注意操作。输入特征的尺寸为256×32×32,通道注意模块只改变空间维度而不改变通道维度,空间注意模块只改变通道维度而不改变空间维度。
通道注意模块:
空间注意模块:
- 高效通道注意网络ECA
通过全局平均池化对输入的32 × 32 × 256维特征图的空间信息进行压缩,得到1 × 1 × 256维特征图。然后,使用1 × 1卷积来学习不同通道之间的重要性,输出1×1x256特征图。最后一步涉及与大小为32×32×256的输入特征图进行逐元素乘法,最终生成具有通道方向注意力的特征图。在通道特征学习过程中,ECA采用动态卷积核。其内核的大小通过函数进行自适应变化,在具有更多通道的层中采用更大的卷积内核。这通过使用1 × 1卷积促进了更大的跨通道交互。在通道较少的层中使用较小的卷积核,执行1 × 1卷积,在较小程度上最大限度地减少了通道间的相互作用。卷积核的大小,表示为k,由以下公式定义,
- 上采样卷积模块
step1. 转置卷积层,它将输入特征映射的维度扩大到原始大小的两倍,并将通道数从256减少到64
step2. 应用层归一化来归一化输出,稳定训练过程,并增强模型的泛化能力
step3. 另一个转置卷积层,类似于第一个转置卷积层。然而,在这一层中,输入特征中的通道数量从64减少到32,同时其空 间维度增加了一倍。
step4. 实现上采样
- 分段头
在输出分割类别之前,添加两层卷积模块。第一个卷积模块将通道数从32减少到8,卷积核大小为3。第二卷积模块保持相同 数量的通道,而第三卷积模块将通道数量从8转换为2,有效地分离像素类别。
-
损失函数
采用使用交叉损失熵作为损失函数:
yi为样本真实标签,y^i为第i个样本的预测值。
实验与结果
-
数据集
使用心脏多结构超声分割数据集(CAMUS)。本次实验的1800张超声图像将被随机分为训练集、验证集和测试集,比例分别为6:2:2,从而得到1080张训练图像、360张验证图像以及360张测试图像。
-
训练配置
在训练过程中,初始学习率设置为0.001,批量大小为8,训练轮次设置为250。优化器采用Adam算法,该算法利用自适应学习率机制,能够自动调整参数的学习率。该特性有助于在训练过程中更快地收敛到全局最小值。在这个实验中,每30个训练周期,学习率将下降50%。
-
评估指标
-
Dice相似系数
-
Hausdorff距离(HD)
用于测量两个分割结果之间的最大距离,它反映了分割结果中边界的不一致性。HD的值越小,表示分割结果越接近。h(A,B)表示从集合A中的每个点到集合B中的最近点的距离,h(B,A)表示从集合B中的每个点到集合A中的最近点的距离,并且max表示两个点集合之间的最大距离。
-
Accuracy
正确分类的像素与分割结果中像素总数的比率。
TP(真阳性)表示被正确分类为目标的像素的数量,TN(真阴性)表示被正确分类为背景的像素的数量,FP(假阳性)表示被错误分类为目标的像素的数量,并且FN(假阴性)表示被错误分类为背景的像素的数量。准确度值的范围从0到1,值越高表示分类准确度越高。
-
Precision
精度衡量模型预测目标的准确性。较高的值表示模型不太可能将背景像素错误地分类为目标。
-
Recall
衡量在实际目标像素内对目标为真阳性的像素的比例。较高的值表示模型不太可能将目标像素错误地分类为背景。
实验结果
1)SAM模型中不同类型图像编码器的分割性能比较:
2)消融实验:
3)比较SAM相关的模型的性能:
4)使用SAM相关模型的分割结果
结论
本文建立在现有SAMed模型的基础上,保持了对上游编码器使用低秩微调策略。在该阶段期间,Transformer组件经历参数更新以增强其对于超声图像分割任务的适用性。在下游过程中,删除提示编码部分,以实现更适合医学图像分割实际情况的自动分割功能。在解码器部分引入CBAM和ECA注意机制,进一步提高了模型的性能。在CAMUS超声心动图数据集上,在无提示条件下,比较了SAM-Att模型与其他5种SAM相关模型的分割性能。实验结果表明,SAM-Att算法对左心室的自动分割效果最好,在实现高分割准确度和精度的同时,毫无疑问,当使用在这样的大规模数据集上预训练的权重文件时,训练速度会受到损害。在医学图像分割领域,SAM相关模型仍面临着巨大的挑战,而医学图像分割对于心脏疾病的研究具有重要的价值。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)