LLM架构的演进之路：从Transformer到Mamba再到Transformer与Mamba的融合

本文将系统分析LLM所采用的Transformer与Mamba架构各自的优势、Mamba是如何解决Transformer架构存在的问题的，并解释当前出现的、融合两者架构的趋势和原因。

朝阳区靓仔_James

711人浏览 · 2025-04-08 11:30:36

朝阳区靓仔_James · 2025-04-08 11:30:36 发布

1. Transformer架构的优势与自注意力机制

自从2017年提出以来，Transformer架构几乎主导了大型语言模型（LLM）的设计。*Transformer的核心在于自注意力机制（self-attention），其突出优势是能够对输入序列中的任意两两位置建模相关性，从而捕捉长程依赖关系*。相比传统的循环神经网络（RNN），Transformer通过并行计算注意力，大大提高了训练效率，并提供了对整个上下文的非压缩视野。这意味着模型在处理每个新标记时，都可以“看到”之前所有标记的信息。形式上，单头自注意力可以表示为：

其中是由输入通过线性变换得到的查询、键和值矩阵，是缩放因子。多头注意力则将这一操作并行执行多次，从不同子空间捕获信息。得益于自注意力机制，Transformer能够在一次计算中比较序列中任意两个位置的表示，这使得它在机器翻译等任务上取得了革命性效果。

Transformer采用编码器-解码器结构或仅解码器结构构建LLM。例如，GPT系列模型使用堆叠的解码器块，每个解码器块由多头掩码自注意力（Masked Multi-Head Attention）和前馈神经网络FFN/MLP两部分组成，并配以残差连接和层归一化。在训练阶段，掩码确保每个标记只能关注之前的位置，从而保持因果性。注意力机制在训练时可完全并行化——不同位置之间的注意力可以同时计算，不需要按时间步迭代。这带来了巨大的并行计算优势，使得Transformer在大规模语料训练时非常高效。

图1：Transformer自注意力矩阵示例[1]

图1中行列表示序列中的词（如“My name is Maarten”），较深的颜色表示注意力权重较高。由于使用了因果掩蔽，矩阵为下三角结构，每个词只能关注其之前的词。Transformer通过计算这个的注意力矩阵来捕获全局依赖，但其计算开销随序列长度平方级增长，对长序列来说非常耗时。

Transformer的局限性：尽管Transformer在性能上表现卓越，但其架构固有的计算与存储开销在长序列场景下暴露出显著局限。首先，自注意力需要对长度为的序列计算的相关矩阵，导致时间复杂度为。当序列很长时，这种二次方扩展成为训练和推理的主要瓶颈。例如，对于上下文长度为8k的输入，注意力计算非常耗时且占用大量显存。其次，在推理阶段，Transformer需要维护一个随生成长度线性增长的键值缓存（KV cache）来存储所有先前输出的表示，以供后续步骤计算注意力使用。这意味着每产生一个新token，模型需要重新计算包含该token在内的整个序列的注意力分布。即使使用缓存避免重复计算键和值向量，生成每个新token的注意力计算量仍随已生成长度线性增加（导致完整序列生成总复杂度仍为），同时缓存占用的内存。随着上下文长度增大，推理延迟显著上升，显存开销也不断累积，甚至可能出现显存不足错误。一些改进方案如滑动窗口注意力、FlashAttention等可以在一定程度上缓解每一步的计算开销，但Transformer在长序列建模和低延迟推理方面的劣势依然明显。总之，Transformer提供了强大的表达能力和并行训练效率，但其对长序列不友好，推理速度慢且内存占用高的问题，正促使研究者探索新的架构加以改进。

2. Mamba[2]架构原理：选择性SSM实现高效序列建模

针对Transformer在长序列上的效率瓶颈，新近提出的****Mamba架构使用状态空间模型（State Space Model, SSM）来替代自注意力，实现了线性时间的序列建模和低延迟推理****。Mamba由Albert Gu等人提出，其名称“Mamba”源于一种高速移动的毒蛇，寓意模型能够高速处理序列。Mamba的设计建立在控制论中的状态空间模型理论基础上，引入选择性状态空间模型（Selective SSM）作为序列信息传播的核心机制。

*2.**1 状态空间模型基础*

状态空间模型是用于描述动态系统的一套数学模型，在连续时间形式下由一对线性微分方程[6]给出：

其中表示系统的隐状态（state）向量，是输入，是输出；矩阵为模型参数，描述状态的演化和映射。直观来说，第一式为状态更新方程：当前隐状态受前一时刻状态经由状态转移矩阵的影响，并叠加当前输入经由输入影响矩阵的作用。第二式为输出方程：当前输出由隐状态通过输出矩阵映射得到，并叠加直接来自输入经由直通矩阵的部分。在离散时间（离散序列）情形下，上述连续模型可离散化为（这里我们忽略掉矩阵D，即忽略掉skip connection；skip connection本质上是一种残差连接，用于缓解梯度消失或梯度爆炸；我们在描述SSM时，常常忽略掉skip connection）：

其中下标表示序列第步，是离散时间下的参数矩阵。通过数学推导可知，这相当于输入序列经过一个线性时不变（Linear Time-Invariant，简称LTI，指系统参数不随时间改变）系统，输出实际上是输入与某核函数的卷积叠加。因此，SSM层可以被看作是一种卷积序列变换，能够以亚二次的复杂度处理长序列。早期的研究如S4模型（Structured State Space Sequence Model）利用快速卷积等技术，实现了并行计算SSM，从而在长序列任务上取得了接近Transformer的精度和更高的效率。

SSM与RNN类似，也具有递归逐步处理序列的特性：当前隐状态由前一隐状态演化而来，因此推理时我们只需维护一个随时间演变的固定维度隐状态，而不必像Transformer那样保存整个序列的历史信息。这意味着，在推理阶段，SSM的每一步计算时间复杂度为常数（与隐状态维度无关的常数），内存占用也固定（只需存储当前隐状态）。因此，相较于Transformer需要随序列增长而线性增加计算和存储，基于SSM的模型在理论上可以做到长序列处理的线性扩展和O(1)的每步推理开销。这一特性对长上下文LLM尤其有利：在长度为百万级的序列上，SSM的计算开销随长度增长线性扩展，而Transformer则不可避免地出现二次方级暴涨。

*2.**2* *Mamba架构的创新*

*M**amba架构的创新**是**选择性SSM**和硬件友好型并行算法设计*。虽然SSM在效率上具有潜在优势，但以往纯SSM或其他线性循环模型往往在语言等离散符号任务上性能不及Transformer。Mamba作者Gu[2]等人指出，这类模型的薄弱环节在于缺乏Transformer那样的内容敏感的动态建模能力，即不能根据当前输入内容有选择地传播或遗忘信息。Transformer的自注意力本质上是一种内容寻址机制：注意力权重取决于当前标记与过往标记内容的匹配度，从而实现基于内容的长程依赖捕捉。为此，Mamba引入了“选择性”这一关键改进：*将SSM的参数设计为输入的函数，使状态演化在不同输入下可以变化*。具体而言，*Mamba针对每个时间步的输入，动态调整状态矩阵，从而允许模型根据当前token选择性地保留或遗忘信息*。这类似于为线性状态模型引入了门控机制，赋予其对离散符号的内容敏感度。这样的改变打破了传统SSM卷积形式的严格线性时不变性，但Mamba通过工程设计，仍实现了高效的并行计算：*Mamba**作者开发了针对GPU的硬件友好型并行算法来执行这些按元素变化的状态更新，使其在训练时仍可以并行高效地处理长序列*。

图2：Mamba块结构示意[2]

如图2所示，Mamba的整体结构与Transformer类似，也是由多层堆叠的基本模块组成。每一层Mamba块用SSM层取代了Transformer中的注意力层，用线性投影取代前馈MLP层，其间配合卷积和非线性激活，实现信息的局部混合和跨步传播。值得注意的是，Mamba块中通常包含一个一维因果卷积层（*Causal Conv1D**，**它**是一种在时间维度上仅依赖过去和当前信息的卷积操作，其作用是在保持因果性的前提下捕捉局部时间依赖*）。因为引入了选择性门控后，无法直接使用FFT卷积求解状态更新（FFT指快速傅里叶变换卷积，FFT卷积要求卷积核是固定的，即要求是LTI，系统参数不随时间变化而变化；Mamba因为引入选择性SSM，导致SSM的参数会动态变化，所以Mamba不能用FFT卷积），Mamba作者改用一个小卷积来帮助建模局部相邻位置之间的交互，再通过SSM捕获更长程的依赖。这种卷积也是因果性的（仅依赖过去和当前信息的卷积操作），确保不泄露未来信息。整体来看，一个Mamba块首先对输入进行线性投影，然后通过一组卷积单元和选择性SSM单元提取序列特征，最后再经过线性变换和非线性激活整合信息。*多层堆叠的Mamba模型在功能上与Transformer类似，但完全摒弃了注意力机制和大规模的全连接前馈网络，仅依靠**选择性**SSM和卷积实现序列建模。*

如上图所示，*Mamba架构的本质是左侧的“Conv+SSM”负责长程依赖建模与信息初步筛选，右侧的“线性投影+激活”对SSM的输出进行“二次加工”，优化特征表示，使其更适配任务目标*。这种设计类似Transformer中“多头自注意力+FFN” 的结构 — 自注意力处理依赖，FFN进一步加工特征，即****Mamba的处理逻辑和Transformer是类似的****。

Mamba架构在多个模态上展现出强大的性能和效率：在语言建模任务中，Mamba在相对较小模型规模下即可媲美甚至超越同规模的Transformer模型。例如，Mamba论文[2]显示一个3B参数规模的Mamba模型（Mamba-3B）在预训练和下游评估中超越了同等大小的Transformer，并且达到了相当于两倍大小Transformer的性能水平。更引人注目的是，Mamba在推理效率上有显著优势——Mamba论文[2]显示其推理吞吐量比Transformer高5倍。同时，由于计算复杂度随序列长度线性增长，Mamba能有效利用极长上下文：实验表明在长达百万的序列上，Mamba的性能不仅没有退化，还随着序列长度增加而持续提升。这一点对于需要超长文本上下文的LLM应用（如长文档理解）非常关键。另外，内存占用方面，由于Mamba不需要存储随序列增长的KV缓存，其所需推理峰值显存远低于Transformer。这种综合效率上的提升，使Mamba成为Transformer在LLM领域的一个有力竞争者。需要指出的是，Mamba的训练也并不比Transformer更困难——虽然其结构较为新颖，但Mamba作者通过精心设计算法保证了并行训练和硬件加速效果。总之，*Mamba架构通过**选择性SSM**和**硬件友好型并行算法**的结合，在保持模型表达能力的同时，大幅改善了长序列建模的时间和空间效率*。

3. Transformer与Mamba架构对比：机制与性能

Transformer和Mamba作为两种截然不同的序列建模范式，各有优缺点。下面我们从结构机制和性能特点两个方面对它们进行比较。

*3.**1 模块结构对比*

二者的基本模块结构存在明显差异。Transformer的基本单元（如GPT解码块）由多头自注意力和前馈网络串联组成，每层通过残差连接融合输入输出。注意力子层负责跨位置的信息交流（通信），前馈子层则在每个位置独立地进行非线性变换（计算）。

图3：Transformer解码块结构示意[3]

图3中黄色部分表示多头自注意力子层，实现序列各token间的信息通信；蓝色部分表示前馈神经网络子层，实现每个token的表示计算。每个子层之后都有残差加和（Add）及层归一化（Norm）步骤，以稳定训练。Transformer通过堆叠此种模块，实现逐层深度建模。

Mamba的基本模块则采用了SSM+卷积替代注意力，线性投影替代前馈网络，仍然保留了残差连接等架构骨架。在Mamba块中，SSM单元承担跨步的信息传播（对应Transformer的注意力功能），而两端的线性投影（可视为1层的浅层感知机）和中间的轻量卷积则用于局部计算和特征变换。此外，Mamba块中包含门控激活来决定信息保留。这一切使得Mamba块既包含“通信”成分（SSM跨步传递状态），也包含“计算”成分（线性变换和非线性激活）。

图4：Mamba块结构示意[3]

图4中橙色箭头所指向部分为SSM序列变换单元，实现跨时间步的通信；下方灰色部分为1维因果卷积，用于局部邻域的信息交互；上下两侧的绿色部分为线性投影（类似Transformer的逐位置计算）。图中表示非线性激活或门控操作。Mamba通过这种设计，在不使用注意力机制的情况下实现了类似Transformer块的功能，Mamba将其作为通用模块堆叠形成深层模型。

*3.**2 时空复杂度与扩展性*

Transformer和Mamba在计算复杂度上最大的区别是对序列长度的依赖不同。Transformer自注意力计算需要考虑所有的成对交互，其训练时间复杂度随序列长度平方增长。而Mamba的SSM层本质上是卷积/递归操作，训练和推理复杂度均与序列长度呈线性关系。因此，对于长序列（长上下文）任务，Mamba在理论上可以大幅减少计算量。当序列特别长时（数百万长度），Transformer往往变得难以接受地缓慢和耗存，而Mamba能保持较为平稳的扩展。并且，由于Mamba每步只需常数时间更新隐状态，其生成（推理）延迟增长也远慢于Transformer。

在显存占用方面，Transformer需要维护长度随输入增长的KV缓存，空间复杂度。Mamba则由于仅需保存固定大小的状态向量，显存占用对序列长度为常数级。实验结果显示，在相同模型规模和相同上下文长度下，Mamba运行时的峰值内存显著小于Transformer。

*3.**3* *模型能力与精度*

传统观点认为，Transformer通过内容敏感的注意力机制，具有极强的表达能力和泛化能力，在语言建模等任务上取得了卓越成绩；而纯粹的线性RNN或卷积模型往往难以达到同等精度。不过，Mamba的出现表明，经过巧妙设计的SSM架构可以在不使用注意力的情况下逼近甚至超过Transformer的性能。Mamba-3B模型在大规模文本预训练后，在下游任务和语言模型困惑度上都优于同尺寸的Transformer，甚至可与参数量约为其两倍的Transformer相媲美。这一结果令人振奋，证明了SSM架构的可行性。

*3.**4 其他优劣考量*

Transformer经过多年发展，生态成熟、工具链完备，训练技巧（如优化器、初始化、正则化等）也非常丰富。而Mamba作为新兴架构，在框架支持、现成模型权重等方面还不如Transformer成熟。不过，Mamba的作者已开源了实现和模型检查点，并证明了其硬件友好性，可以在现有GPU上高效运行。从泛化能力看，Transformer依赖注意力机制的全局对比，可能在需要复杂关系推理的场景下表现更好；Mamba引入选择性门控后，也具备一定内容选择能力，但其是否能够处理诸如很难的推理和多跳分析任务，还有待进一步实验比较。此外，Transformer的注意力矩阵提供了一定程度的可解释性（可以观察注意力权重了解模型关注），而SSM内部的状态动态相对较难直接解释。总的来说，*Transformer和Mamba各有所长：前者性能强大且应用广泛，但长序列效率低下；后者效率惊人且前景广阔，但有待更大规模和更多任务的检验*。这两种架构的互补特性，为探索融合它们优势的新一代LLM架构提供了契机。

4. LLM架构融合的新趋势：Mamba-2[4]、Jamba[8]、混元T1[9]、Nemotron-H[10]等

面对Transformer和Mamba各自的优缺点，研究者开始探索融合二者优势的新架构，期望既保持Transformer的强大建模能力，又获得类似Mamba的高效推理和良好扩展性。2023年以来，一系列融合理念的模型被提出，其中具有代表性的是Mamba-2[4]、Jamba[8]、混元T1[9]、Nemotron-H[10]等。

*4.1* *Mamba-2**[4]**: Transformers are SSMs*

有些工作开始尝试研究注意力机制与SSM的融合。

如上图[4]所示，“Mamba-2[4]”（Mamba架构作者的后续工作）提出了状态空间对偶性（State Space Duality，SSD）理论，证明了结构化掩码注意力（Structured Masked Attention，SMA）可等价转换为SSM形式，从而设计出统一的架构。这些探索都反映出研究界对Transformer与SSM融合的浓厚兴趣和信心。无论是RetNet[5]这样在Transformer框架内注入递归特性，还是Bi-Mamba[6]、Gated Mamba[7]这样在SSM框架内加强内容适应性，目标都是趋同的：结合各类模型的优点，避免各自的缺陷，从而找到适用于新一代LLM的更优架构。

*4.**2* *Jamba*[8]*：SSM-Transformer混合架构的规模化实践*

在 RetNet等早期混合架构的概念验证基础上，2024～2025 年间涌现出了若干商用级的混合LLM，其中最具代表性之一便是AI21实验室推出的Jamba。它是经历过规模化实践的SSM-Transformer混合模型，核心设计包含两大创新：

*（**1）**分层融合机制*

图5：Jamba块结构示意[8]

如图5所示，Jamba采用独特的层间混合模式：每个模块包含8层，按1:7比例交替排列Transformer与Mamba层（即每8层中有1层Transformer + 7层Mamba）。这种设计既通过Mamba层的线性复杂度特性支持256K上下文窗口，又借助Transformer层增强局部语义建模能力，弥补纯SSM在短距离交互上的不足。

*（**2）**MoE专家混合优化*

通过MoE技术实现参数高效利用：在总计52B参数中，仅12B为活跃参数。模型每2层替换一次MLP模块（将MLP替换为MoE），每个MoE层包含16个专家，推理时根据输入动态激活Top-2专家。结合8bit量化技术，Jamba可在单张80GB GPU部署时处理140K tokens（实际支持最大上下文长度 256K），吞吐量达到同类纯Transformer模型的3倍，为商用部署提供了高效解决方案。

*4.**3* *腾讯混元T1*[9]*：混合Mamba架构应用于超大型推理模型**的**工业界**方案*

腾讯混元T1作为工业级大模型的代表，其核心优势源于对Hybrid-Mamba-Transformer融合架构的深度优化。该架构通过Mamba的线性计算模式与Transformer的并行注意力机制协同创新，在推理效率与模型能力之间实现了突破性平衡：

*（**1）混合架构动态优化*

混元T1首次将混合Mamba架构无损应用于超大型推理模型，Mamba模块通过SSM的线性复杂度特性优化长序列处理，显著降低KV-Cache内存占用；Transformer模块则保留对短序列的复杂语义理解能力。这一设计使首字响应时间达到秒级（最快80 token/s），在多数通用场景下保障交互流畅性。

*（**2）**长文本处理增强*

针对超长文本场景，混元T1通过Mamba模块高效捕捉长距离依赖关系，结合Transformer的精细化推理能力，在相近激活参数量下实现解码速度提升2倍。实际应用中，其上下文完整性优化技术有效解决长文推理中的信息丢失问题，显著降低学术论文、法律文书等场景的推理时延与资源消耗。

此外，混元T1的输入/输出定价分别为1元/百万token和4元/百万token，进一步降低了企业部署门槛。

*4.**4* *英伟达Nemotron-H*[10]*：跨模态融合的物理AI实践*

在物理模拟与多模态应用领域，英伟达则将Mamba与Transformer结合，推出了Nemotron-H架构。该架构服务于分子动力学、计算机图形学等跨模态任务，强调长时序数据与多类型特征的协同处理：

*（**1）**模态分工协作*

Mamba层专门处理百万级时间步的长序列连续数据（如分子动力学轨迹），在 A100 GPU上通过扫描算法实现3倍于卷积的计算速度。Transformer层保留多头注意力机制，聚焦符号推理与离散模态（如视觉、文本）的特征融合。两者通过残差连接在特征空间实现跨模态整合，在保持 99.2%上下文完整性的同时，解码速度较纯Transformer提升2倍。

*（**2）**动态路由机制*

基于硬件感知的动态路由机制，实时分析输入数据特性（连续/离散、时间步长）。动态选择最优计算路径：对长序列连续数据启用Mamba的时序处理通道，对离散符号数据激活Transformer的注意力计算模块。通过动态KV-Cache压缩算法减少40%内存占用，在NVIDIA GTC 2025展示中，Nemotron-H-56B在 FP4精度下实现3倍于纯Transformer模型的吞吐量，单卡RTX 5090即可支持百万token长上下文推理。

该架构已成功应用于物理AI模型Cosmos-Reason 1（Cosmos-Reason 1是英伟达推出的多模态大语言模型，专注于物理世界的常识理解与具身推理能力，其核心目标是让AI能够通过视觉输入和语言指令，生成符合物理规律的决策，比如机器人动作规划、自动驾驶避险策略等），其蒸馏版 Nemotron-H-47B通过630亿token训练，在保持千亿模型精度的同时显著降低科研复现成本。其中，56B基础模型采用6144张H100 GPU完成了20万亿 token的FP8训练，进一步验证了Mamba与Transforme的混合架构在超大规模训练中的可行性。

5. 融合趋势背后的动因：泛化与效率的双赢

Transformer 之所以长期称霸 LLM 领域，在于其卓越的泛化性能及在多任务上的成功。然而，随着应用需求的扩大和模型规模的增长，其效率瓶颈开始愈发凸显。融合Transformer与Mamba架构的趋势，便是为了解决这一矛盾，实现泛化能力与推理效率的双赢。从近期Jamba、混元T1、Nemotron-H等成果来看，这股融合风潮正从学术界向工业界加速蔓延。以下几方面动机尤为关键：

*（**1）**打破性能、训练并行、推理效率的“不可能三角”*

传统上，循环模型（RNN）具备低推理成本，但训练难以大规模并行；Transformer 虽然在训练上易于并行且性能突出，但推理开销高。很长一段时间似乎无法同时满足这三方面。然而，RetNet等工作的出现证明：通过恰当的架构创新，可以让并行训练、高性能与低推理成本三者兼得。Jamba、混元T1等模型更进一步，通过动态路由与分层融合机制，在大规模、长序列场景下仍可实现高吞吐与低延迟，逐步突破了原先的架构极限。

*（**2）**长上下文和复杂任务的双重需求*

随着 LLM 被用于长文档理解、多轮对话、时序数据分析等场景，对模型的上下文长度与序列建模深度提出了更苛刻要求。纯Transformer架构在数万甚至数十万token时，其二次复杂度往往导致内存与推理延迟激增，而Mamba类SSM模型因采用固定维度隐状态，仅做线性递归更新，能有效避免这种瓶颈。混合架构进一步融合了Transformer对局部语义和推理能力的强项，兼具SSM在长序列建模上的高效性，满足长距离依赖与复杂逻辑推理的双重需求。

*（**3）**模型规模增长与**架构**协同优化*

当今顶尖LLM参数可达上千亿量级，算力与能耗成本愈发成为瓶颈。Mamba等SSM通过线性复杂度特性优化长序列计算，与Transformer的并行注意力机制形成协同，显著降低资源消耗。以腾讯混元T1为例，其Hybrid-Mamba-Transformer架构通过分层处理长序列（Mamba模块压缩长文本，Transformer模块执行推理），显著提升算力效率。在相近激活参数量下，解码速度较纯Transformer方案提升2倍，同时通过上下文完整性优化技术有效解决长文本信息丢失问题。此外，混元T1通过架构创新（如Mamba的线性复杂度）和工程优化（如减少KV-Cache内存占用），显著降低资源消耗。另一方面，如Bi-Mamba所展示的1-bit量化方案，也可在架构层面与数值优化层面实现双管齐下，让大模型在中低端硬件上具备可行的部署前景。

*（**4）**工业级部署与场景定制化*

工业落地常关心如何在有限GPU资源上进行大模型推理，并兼顾不同类型任务（如文本生成、代码补全、物理模拟等）的精度需求。Jamba、混元T1等项目表明：通过混合架构并配合分层或动态路由，可以在单卡环境下支持十万级别上下文（Jamba）或在特定语言场景（混元T1）实现更优的推理速度和准确度。Nemotron-H则在多模态物理模拟中，借助Mamba层处理长时序连续数据，Transformer层处理离散符号推理，大幅提升跨模态场景的性能。这些成果都凸显出混合架构对垂直领域的适配能力与扩展潜力。

*（**5）**保持或提升泛化性能*

效率的提升不应以失去模型精度为代价。Mamba等工作已经证明，通过精心设计的SSM同样可以在语言建模等任务上逼近或超过同尺寸的Transformer；再配合部分注意力机制或局部Transformer层，即能兼顾长序列效率与局部推理精度。近年来的研究与实践都显示，在大规模数据与合适的训练技巧下，这种混合范式不但没有明显劣势，甚至在某些应用上表现更为优异。具备高效记忆与灵活推理这两种特质的新架构，有望进一步拓展LLM 在更多场景的潜能。

综上，LLM架构正朝着融合Transformer与Mamba（及相关SSM模型）的方向演进。这一趋势背后，是对更长上下文、更高推理效率、更低资源占用的追求，以及对保持甚至超越当前模型性能的坚持。代表性的模型如Jamba、混元T1、Nemotron-H等已经展示出令人瞩目的成果。*可以预见，未来的基础模型可能不再是清一色的Transformer，而是吸收了Mamba（及相关SSM模型）优点的新型架构*。在保持并行训练和强大表示能力的同时，这些架构将拥有接近线性的推理开销和更好的可扩展性，从而更适应大规模部署和应用需求。对于技术研究者而言，深入理解Transformer和Mamba两种架构的原理，并关注它们融合的新进展，将有助于把握下一代LLM架构的发展方向。在这个AI发展日新月异的时代，*“Attention is All You Need”可能**会让位于**“Attention and State Space — Better Together”*。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述