710公海寰宇-创新Transformer！面壁基于稀疏

2026-03-13 04:12:31

尽人皆知，Transformer 和其焦点的全留意力机制（Full Attention）虽持久盘踞年夜模子架构的焦点职位地方，但平方级计较繁杂度、高额显存占用的瓶颈，早已经成为实现超长上下文处置惩罚与模子范围化运用的 “拦路虎”。勇于挑战这一固有权势巨子，需要的不仅是实现 AGI 久远方针敢于立异的气概气派，更需要有独到的技能视线以和冲破技能壁垒的硬实力。从 DeepSeek 的稀少留意力（DSA）、MiniMax 的线性留意力、到月之暗面的线性留意力（KDA），各人纷纷投入留意力架构的改造竞技场。

今天，面壁智能也于这场厘革中迈出了要害一步：正式发布行业首个年夜范围练习的稀少-线性留意力混淆架构 SALA（Sparse Attention-Linear Attention，简称SALA），以和基在该架构的文本模子 MiniCPM-SALA，以寻求更长文本处置惩罚能力与极致的推理性价比。MiniCPM-SALA 不仅于多项长文本理解与天生评测中上风较着，且于常识问答、数学推理、代码天生等焦点能力维度上，连结了与同范围全留意力模子相称的卓着程度，实现了“是非兼备”的综合机能体现，以和极致推理性价比。

▍MiniCPM-SALA 亮点一览

▪架构改造：“稀少-线性”留意力混淆架构，于显著降低推理开消与显存占用的同时，降服了纯线性架构于长程信息召回上的精度瓶颈，效任性能统筹。

▪卓着机能：采用HyPE（混淆位置编码）来有用协调短上下文及长上下文的机能。于连结通用能力（如常识、数学及编码）与其他8B全留意力模子相称的同时，MiniCPM-SALA 于多个长上下文基准测试中体现出较着上风。

▪高效推理：不利用谋利采样等加快算法，于云端推理芯片上，当序列长度为256K词元时推理速率高达 Qwen3-8B 的 3.5 倍，并撑持于云端芯片及消费级端侧 GPU 长进行高达一百万词元上下文长度的推理。

▍相干链接GitHub 链接：?https://github.com/openbmb/minicpm

HuggingFace链接：

?https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope链接：

?https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode链接：

?https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技能陈诉：

?https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

为什么混淆架构是更优解

传统 Transformer 模子于处置惩罚长文本时，其焦点的全留意力机制会致使计较量随文本长度呈平方级增加，同时天生历程中需要缓存的键值对于也会占用年夜量显存。现有的解决方案重要分为线性留意力与稀少留意力两年夜门户，但纯线性留意力存于精度丧失的短板，纯稀少留意力又有着存储瓶颈的限定。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

MiniCPM-SALA 首创稀少-线性混淆留意力架构，巧妙地解决了这一焦点抵牾。模子中 75% 的层采用线性留意力（Lightning Attention），卖力信息的高效全局流转。其余 25% 的层采用稀少留意力（InfLLM-v2），专注在精准捕获局部要害信息，黄金配比实现计较效率与语义精度的均衡。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

MiniCPM-SALA 模子架构

相干研究论文现已经公然：

▪稀少-线性混淆留意力：

https://arxiv.org/pdf/2601.22156

▪InfLLM v2：

https://arxiv.org/pdf/2509.24663

不止在「长」，更于在「强」

MiniCPM-SALA 具有优秀的长度泛化能力。于不利用任何分外技能（如YaRN）的条件下，MiniCPM-SALA 可以将上下文长度拓展至2048K。创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

于云端推理芯片上评估从 64K 到 1024K 词元的差别序列长度下的效率，MiniCPM-SALA 于所有测试配置中均体现出显著的效率上风，于非量化设置下始终连结更低的延迟。于 256K 序列长度下，MiniCPM-SALA 比拟 Qwen3-8B 实现了约 3.5 倍的加快。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

于更长序列（512K 和 1M 长文本）上，同尺寸开源模子已经经遭受显存爆炸的环境下，MiniCPM-SALA 依旧可以或许不变推理，让 MiniCPM-SALA 于汽车、手机、具身呆板人等更多端侧范畴运用成为可能。

此外，于模子仅有9B 参数的条件下，MiniCPM-SALA 于常识问答、数学推理、代码天生等焦点能力维度上连结了与同范围全留意力模子相称的卓着程度，实现了“是非兼备”的综合机能体现。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

邀你挑战推理极限

为进一步摸索 SALA 混淆留意力架构于现实部署中的机能极限，OpenBMB结合 SGLang 、 NVIDIA 、面壁智能配合倡议 2026 稀少算子加快年夜奖赛（SOAR）。年夜赛聚焦在稀少化算子交融与编译优化等底层硬核课题，挑战于消费级 GPU 上实现百万级词元推理与 KV Cache 的极致效率，协同霸占长文本处置惩罚的机能最优解。诚邀全世界技能极客基在 SGLang 推理框架与 NVIDIA 硬件特征睁开极限攻关，打破硬件物理瓶颈，配合界说下一代高效推理的机能新基线。

角逐官网:https://soar.openbmb.cn/

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

技能陈诉

01 弁言 (Introduction)

跟着年夜模子能力日趋强盛，其运用场景正履历着深刻的范式改变，从简朴的问答成长到愈发繁杂的使命。于这些高级运用场景中，模子不克不及再局限在处置惩罚碎片化信息。相反，模子必需具有处置惩罚超长上下文的能力，例如一次性浏览整本技能手册、阐发超过数万行代码的依靠瓜葛，或者于多日的人机协作中维持联贯的使命状况及影象。

于这类配景下，百万级词元的处置惩罚将会成为前沿年夜模子的要害能力。然而，作为当前主流年夜模子基础的Transformer架构于处置惩罚超长序列时面对着严峻的计较瓶颈。这一瓶颈重要表现于两个维度：

▪计较繁杂度的“计较墙”（Compute Bottleneck）：于尺度留意力机制中，计较繁杂度随序列长度 N 呈二次方增加。当上下文扩大到百万词元时，预填充（Pre-filling）阶段的巨年夜开消会致使首个词元天生时间（TTFT）急剧增长；

▪KV-Cache 的“显存墙”（Memory Bottleneck）：于自回归天生历程中，模子必需存储所有汗青词元的 Key 及 Value 状况以免反复计较。对于在典型的 8B 参数模子，纵然使用分组查询留意力（GQA），百万级词元所需的 KV-Cache 也可能到达数十甚至上百 GB。

为相识决上述挑战，现有的解决方案存于两种重要范式：稀少留意力（Sparse Attention）及线性留意力（Linear Attention）。这两种要领各具怪异的上风及固有的局限性。稀少留意力要领试图经由过程仅计较留意力矩阵中最显著的部门（例如经由过程滑动窗口或者全局锚点）来打破计较墙。然而，这些要领具备“稀少计较，浓厚存储”的特色。虽然局部计较削减了即时处置惩罚开消，但模子仍需保留完备的 KV-Cache 以撑持上下文信息的检索。线性留意力使用轮回计较乐成地将计较繁杂度降低到 O(N) 。然而，这类极致的效率从底子上是经由过程对于上下文信息的有损压缩实现的，轻易致使机能受损。

MiniCPM-SALA 采用了一种稀少与线性留意力的混淆架构，专为实现高效的超长序列建模而设计。该架构联合了 InfLLM-V2 的高保真局部建模能力与 Lightning Attention 的全局计较效率。经由过程这类集成要领，模子显著降低了推理开消及内存耗损，同时解决了纯线性架构于长间隔信息处置惩罚中典型的精度瓶颈。

重要孝敬以下：

▪立异架构设计：提出了一种稀少-线性混淆留意力机制 SALA，将 25% 的 InfLLM-V2 及 75% 的 Lightning Attention 相联合，可于机能与效率之间取患上优良的均衡。经由过程使用稀少留意力对于局部细节的细粒度存眷，以和线性留意力于长上下文时 O(N) 的计较效率，该架构于序列长度增长时仍能连结较高的机能。

▪高效练习范式：MiniCPM-SALA 证实了 Transformer 到混淆架构的转换范式是构建混淆模子的高效计谋。这类要领经由过程对于预练习权重举行架构转换，规避了冷启动练习的低效性，总练习量仅是重新最先练习同程度模子的 25%。

▪强盛的综合机能：采用 HyPE（混淆位置编码）来有用协调短上下文及长上下文的机能。于连结通用能力（如常识、数学及编码）与 Qwen3-8B 等现代全留意力模子相称的同时，MiniCPM-SALA 于多个长上下文基准测试中体现出较着上风。

▪优胜的推理效率：MiniCPM-SALA 于长上下文场景中展示了显著的资源及速率上风。于 NVIDIA A6000D GPU 上，当序列长度为 256K 词元时，MiniCPM-SALA 的推理速率高达Qwen3-8B 的 3.5 倍。此外，MiniCPM-SALA 撑持于 NVIDIA A6000D 及 5090 GPU 长进行高达 1 百万词元上下文长度的推理，而 Qwen3-8B 于此长度下碰面临显存不足（OOM）的问题。这些成果展示了 MiniCPM-SALA 于端侧长文本运用中的强盛潜力。

02模子架构

（1）整体架构设计

MiniCPM-SALA 成立于瓜代式混淆留意力架构之上。如图1所示，有别在传统 Transformer 采用同构全留意力层重叠的模式，该架构经由过程层级异构设计打破了单一机制于百万级长序列建模中的机能瓶颈。模子采用了 25% 的稀少留意力与 75% 的线性留意力举行混淆配比。为了显著降低算力开消，MiniCPM-SALA 使用 HALO 算法将预练习的全留意力 Transformer 转换为混淆架构模子举行连续练习，而非重新构建。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

Figure1：MiniCPM-SALA 模子架构

（2）稀少留意力模块

MiniCPM-SALA 采用了 InfLLM-V2 作为 25% 稀少留意力模块。InfLLM-V2 是一种可切换的稀少留意力框架，其焦点特色于在经由过程邃密的块选择机制，让每一个 Query 仅处置惩罚一小部门要害的 Key 及 Value，从而年夜幅晋升长文本处置惩罚效率。患上益在 InfLLM-V2 可切换的特征，咱们于模子的长文本练习历程中打开稀少模式，而于尺度长度的练习中（例如 4096 词元）封闭稀少模式。咱们于小范围试验上验证输出门控机制对于在晋升模子的通用能力有帮忙，是以咱们也对于稀少留意力层插手了输出门控机制。

（3）线性留意力模块

于线性留意力组件选择上，只管当前涌现出 RWKV-七、GDN 及 KDA 等多种进步前辈的线性 Token Mixing 模块，但因为 Lightning Attention 于计较范式上与全留意力机制更为靠近，可以或许与 HALO 转换算法实现更优的适配度，是以咱们终极选定其作为线性层的焦点算子。同时，咱们利用了与 HypeNet 不异的架构细节，包括 QK-normalization、GQA-to-MHA transformation 及输出门控机制，这些设置可以有用晋升模子练习的不变性，而且可以取患上更好的模子机能。

（4）混淆位置编码

咱们沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding）计谋。该计谋针对于混淆架构中差别留意力机制的特征举行了差异化设计：于线性留意力层，咱们保留了 RoPE (Rotary Positional Embedding)，旨于最年夜水平连结与转换前全留意力模子于参数漫衍与特性空间上的一致性，从而降低转换带来的机能丧失。

而于稀少留意力层，咱们则采用了 NoPE (No Position Encoding）计谋。这一设计的焦点上风于在，稀少层的汗青 KV-Cache 再也不耦合任何位置信息。这有用规避了 RoPE 于处置惩罚超长序列时固有的长间隔衰减问题，使患上模子于检索极远间隔的汗青信息时，再也不受制在位置编码带来的数值按捺，从而显著加强了模子的长间隔召回能力。

03模子练习

模子总体练习历程以下表所示：

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

▪架构转换 (HALO)：这一阶段旨于将 Transformer 模子从全留意力转换为混淆架构。此阶段重要沿用了 HALO 转换要领。详细地，MiniCPM-SALA 的练习配置于两个方面差别在尺度的 HALO 要领。起首，关在层选择，MiniCPM-SALA 保留第一层及末了一层不举行转换，以提高练习历程的不变性。对于在其余层，利用 HALO 的层选择算法来确定哪些层被保留为全留意力层。这些保留的全留意力层随后于后续阶段被练习为稀少留意力。与尺度 HALO 的第二个区分是，咱们不履行 HALO 流程中的终极微调步调。取而代之的是，咱们举行更广泛的连续预练习及后练习，如后续步调所述。此阶段的练习历程很是高效，仅利用了 1.3B 词元，序列长度为 512 词元。此外，于此阶段仅转换后的线性留意力层是可练习的，所有其他参数连结冻结。

▪连续 Stable 练习：使用上一阶段竣事的模子作为本阶段练习的出发点，于 MiniCPM-4.0 的预练习数据集长进行进一步练习。此阶段的重要方针是促成转换后的线性留意力层与模子的其他组件（包括全留意力层、FFN 层及嵌入层）更好地适配。此历程的序列长度设置为 4K 词元，总练习量为 314.6B 词元。因为序列长度仍旧相对于较短，为了连结计较效率，于此阶段封闭了稀少留意力层。本阶段进修率设置为 7.5e-3。

▪Short-Decay 练习：第三阶段的进修率从 7.5e-3 以指数衰减的情势降低至 3.75e-4。此历程利用 4K 词元的序列长度，共练习 1T 词元，也是 MiniCPM-SALA 整个开发流程中练习量最年夜的环节。于数据方面，于 MiniCPM-4.0 Decay 练习数据的基础上，光鲜明显增长了 L2 高质量筛选数据的权重（数据分级尺度参考 Data Science and Technology Towards AGI Part I: Tiered Data Management），并引入了年夜量的 PDF 语料库及 L3 合成数据。这类要领旨于经由过程高信息密度的数据组合来加强通用能力及逻辑推理能力，从而实现对于海量常识的高效压缩及内化。

▪Long-Decay 练习：本阶段将上下文窗口从 4K 慢慢扩大到 32K、160K，末了扩大到 520K 词元，每一个阶段别离利用 102.2B、 62.9B 及 50.6B 词元的数据量。进修率于 32K 时从 3e-4 衰减至 2e-4，然后于 160K 时衰减至 1e-4，末了于 520K 时衰减至 3.75e-5。于此阶段，咱们对于长上下文数据的比例举行上采样，以使模子更好地与长序列漫衍对于齐。鉴在稀少留意力于较长序列入彀算上风较为较着，咱们于此阶段启用稀少留意力机制并连结全参数练习，从而答应模子有用地进修稀少留意力及线性留意力之间的协同作用。

▪SFT：此阶段的 SFT 语料库由高质量的推理密集型数据构成，包括代码、数学、常识、函数挪用及一般对于话。这类选择旨于充实引发繁杂逻辑下的推理及使命履行能力。此外，咱们专门合成为了长上下文数据，以提高信息检索及跨文档理解的能力。于 SFT 阶段，咱们依次于 64K 及 140K 的上下文长度下举行练习，别离利用了 204.5B 及 213.3B 词元的数据量。稀少留意力于整个历程中连结启用状况。

04模子能力测试

短榜能力测试：

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

长榜能力测试：

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

超长序列能力测试：

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

上述成果注解，MiniCPM-SALA 于不侵害短榜能力的条件下，有用晋升了长文本能力。MiniCPM-SALA 还有有一个显著的亮点是，具有优秀的长度泛化能力。于不利用任何分外技能（如YaRN）的条件下，MiniCPM-SALA 可以有用外推至 2048K长度。

05计较效率测试

咱们评估了 MiniCPM-SALA 及 Qwen3-8B 于差别硬件及序列长度下的推理速率。咱们不仅于云端推理芯片（如 NVIDIA A6000D）长进行了试验，还有于消费级端侧 GPU（如 NVIDIA 5090）长进行了测试。对于在每一种序列长度，咱们丈量了首字延迟（Time To First Token, TTFT）及端到端延迟。前者作为预填充速率的指标，尔后者反应了预填充及解码阶段的综合机能。为了使评估与现实部署场景连结一致，咱们评估了非量化模子以和经 GPTQ INT4 量化压缩后的模子的推理延迟。

图 2 展示了于 NVIDIA A6000D GPU（96GB 显存）上 Qwen3-8B 与 MiniCPM-SALA 推理延迟的周全对于比。咱们评估了从 64K 到 1024K 词元的差别序列长度下的效率。如图所示，MiniCPM-SALA 于所有测试配置中均体现出显著的效率上风。于非量化设置下，MiniCPM-SALA 始终连结更低的延迟。值患上留意的是，于 256K 序列长度下，MiniCPM-SALA 将 TTFT 从 180.8 秒（Qwen3）降低至仅 51.6 秒，实现了约 3.5 倍的加快。

成果也显示了 MiniCPM-SALA 于显存使用率方面的上风。当 Qwen3-8B 于 512K 及 1024K 序列长度下遭受显存溢出（OOM）时，MiniCPM-SALA 乐成处置惩罚了这些超长上下文。

图 3 展示了 MiniCPM-SALA 于显存有限的硬件上的上风。于 RTX 5090（32GB 显存）上，基线模子 Qwen3-8B 比于 A6000D 上较着更早涉及“内存墙”，于非量化设置下仅 128K 词元、量化设置下 256K 词元时即触发 OOM 过错。比拟之下，MiniCPM-SALA 乐成扩大至 1024K词元的上下文长度且未呈现显存溢出的问题。这注解 MiniCPM-SALA 使患上于消费级端侧 GPU 上处置惩罚 1 百万词元成为可能。

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

06 结论总体而言，咱们经由过程交融稀少留意力与线性留意力，构建了一种面向长上下文高效建模的混淆架构，从而于模子能力与长上下文处置惩罚效率之间实现了精彩的均衡。于已往一段时间里，稀少留意力与线性留意力的相干研究已经别离揭示出解决年夜模子长上下文问题的显著潜力；而于2026年，稀少‑线性混淆架构无疑将成为该范畴最具实效的技能标的目的之一。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-710公海寰宇

产品

服务

关于启明

信息公开

产品 +

服务 +

关于启明 +

信息公开 +

投资者关系

加入启明

客户留言