710公海寰宇-上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

2026-04-13 19:35:21

就于昨天，阶跃星斗登顶了全世界模子榜单——他们最新开源的Agent基座模子Step 3.5 Flash，发布首日便登上全世界模子平台OpenRouter的“最快模子榜”，而发布后仅用短短两天，就得到了OpenRouter“热度趋向榜”排名第一的好成就，其数据是基在全世界开发者与用户的现实模子挪用量。也就是说，Step 3.5 Flash以硬实力博得了用户的“用脚投票”。

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

（图为Step 3.5 Flash 登顶 OpenRouter 的Trending 榜单）

对于阶跃来讲，拿下榜单第一其实不新鲜，而这个成就成心思之处于在，它点破了当前AI运用深化的一个遍及瓶颈：模子愈来愈“智慧”，能处置惩罚的使命愈来愈繁杂，但用户及开发者于真实利用时，最直接的感官体验倒是——“慢”。

这里的“慢”，不是指回覆一句“你好”的速率，而是当用户使命变患上繁杂，使命链及事情流较着变长（好比阐发整篇财报、编写繁杂函数、或者同时完成图文音视频多模态输出等等）时，AI的处置惩罚速率一定降落，用户的等候时间可能会被拖患上很长。

漫长的等候——自己就严峻限定了AI于现实事情流中的可用性；而假如等了半天，AI拿出的成果还有不克不及使人满足，用户的流掉就已经成定局。

而已往外界的一向认知中，“快”=小参数模子的灵敏挪用、输出；“慢”=更年夜参数目级的模子及过细的思索。此前，模子要的是“快”及“好”的均衡，而今天，阶跃的Step 3.5 Flash却勇于对于世定义：“我全都要！”

稀少MoE架构：不要“年夜而全”，我要“以巧见年夜”

论速率，Step 3.5 Flash有多快？

于繁杂推理场景下，包管不变性的同时，Step 3.5 Flash于NVDIA Hopper GPU的最高推理速率可以到达每一秒350个Token，实现“点击即输出”的秒速体验。

榜单上，Step 3.5 Flash以每一秒167个Token的速率排名第九，但排于它前面的，可能是于为专有硬件情况定制的模子及8b-120b范围不等的小型模子。

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

（图为Step 3.5 Flash于OpenRouter的Fastest榜位居前列）

而Step 3.5 Flash的参数目是1960亿，足以作为基座模子为Agent提供强劲的动力。

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

（Reddit平台用户评价：终究有工具能于我那只有120GB显存的破电脑上运行了）

跑分测试上，Step 3.5 Flash身先士卒，而且特别擅长Agent场景及数学使命。于τ²-Bench、BrowseComp等测试，以和LiveCodeBench V6代码挑战及AIME 2025数学竞赛中，Step 3.5 Flash都拿出了不错的成就。

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

图注：Step 3.5 Flash仅凭11B激活参数（总范围196B MoE）便到达了顶尖级另外智能程度，足以媲美领先的闭源和开源模子（数据来历：阶跃星斗官方Tech Report）

实践上，Step 3.5 Flash还有于多步推理的布局化输出、繁杂逻辑求解、后端主动化及永劫间运行使命中，已经经具有了企业级运用落地的能力。而针对于高频东西挪用及对于举动可猜测性有强要求的体系情况，Step 3.5 Flash也能轻松驾御。

“快”很轻易，“强”也很轻易。要理解Step 3.5 Flash为什么能做到又快又强，起首要相识的，是它采用的“稀少混淆专家（MoE）架构”——这是一个于寻求“超年夜模子”时代里，回归工程理性的设计。

传统的千亿参数年夜模子像一个“万能伟人”，处置惩罚任何问题，不管难易，都要动用全数脑力（激活所有参数）。

每一一次都“全力出击”，这当然能包管能力，但计较成本极高的同时，也让推理迟缓、能耗巨年夜，算力的华侈也一样不成防止。

Step 3.5 Flash的思绪则差别。

作为一个总参数目1960亿的Agent原生基座模子，它被精良地构造成为了很多个“专家小组”。当一个问题输入时，一个智能的路由机制会迅速判定：“这个问题重要由哪几个专家小组来处置惩罚最适合？”然后，只激活这些相干的“专家”——约莫110亿参数——来事情。

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

（海外用户评价：它仅利用11b的活跃参数，以是运行速率极快。诚实说，我对于它毫无延迟的运行体现沉迷。）

你可以把它想象成一个高度专业化的超等参谋团。接到一个金融阐发使命，体系不会叫醒团里的医学专家或者文学传授，而是精准地调理金融、数据阐发、逻辑推理这几个小组来协同事情。

这类设计，既能让每一次推理现实耗损的计较资源年夜幅削减，晋升了计较速率，成本也随之降落；又能违靠“参谋团”1960亿参数的“总常识库”，于需要处置惩罚繁杂、跨界问题时，依然有能力调动差别范畴的“专家”举行深度协作，让输出保质保量。

依附着更智慧的挪用，Step 3.5 Flash采用的稀少MoE架构，打破了“年夜模子”必需“力年夜砖飞”的固有印象，让AI的能力及速率，成了可以兼患上的“鱼与熊掌”。

不只是“跑患上快”，更是“想患上流利”

光是有了更高效的架构还有不敷，Step 3.5 Flash于详细工程实现上也做了不少优化，确保于真实场景中“跑”患上流利。

起首是处置惩罚长文本的“巧劲”。

人要学会快速阅读文本，就必需学会“目下十行”——AI也同样，面临一个超长文本还有要快速输出内容，就不克不及于天生新词时，每一次都全文逐字浏览理解。这被称为“全留意力”机制，虽然输出效果更好，但AI的计较量会跟着文本长度呈平方级增加，是致使处置惩罚长文本时速率剧降、延迟飙升的重要缘故原由。

要目下十行，模子就必需采纳滑动窗口留意力（Sliding-Window Attention, SWA）的机制。

所谓滑动窗口，是基在一个切合直觉的不雅察：于理解一个长句子或者段落时，当前词的寄义最受其“临近”辞汇的影响，而间隔很远的词影响相对于较小。于这类机制下，模子能更专注在一个窗口中邻近辞汇的内容，读的内容变少了，处置惩罚速率固然更快，成本也天然更低。

而Step 3.5 Flash则是博采众长，采用了3：1的滑动窗口与全局留意力混淆架构（SWA + Full Attention），对于256K上下文有着高效的处置惩罚能力。

不光“看”患上快，Step 3.5 Flash还有“写”患上快。

传统的模式，AI天生Token，要一个一个地“往外蹦”，于寻求AI快交互的今天，如许的速率较着不敷。

而Step 3.5 Flash采用了多Token猜测（Multi-Token Prediction, MTP-3)的技能，一次可以完成多个Token的猜测，这相称在让Token的输出从“单车道”酿成了“多车道”，直接让文本天生的吞吐效率翻了倍。

有了稀少MoE架构，再整合了更进步前辈的技能模式，给市场带来的震撼是直接的：AI于处置惩罚繁杂、多步使命时的“迟滞感”正于被抹平。不管是代码天生、长文档阐发还有是需要多轮思索的计划使命，相应都变患上越发即时及联贯。

Step 3.5 Flash的呈现，对于在那些但愿将AI深度集成到主动化事情流中的开发者而言，标记着一个实用的拐点——一个既智慧又灵敏的“AI年夜脑”已经经触手可和。

结语

模子能力的进级，于今天好像已经经不是新鲜事——而Step 3.5 Flash的强势登场，却打破了过往的技能预设。

Step 3.5 Flash所代表的，不单单是一个模子版本的迭代，更是一种技能路径的明确：通往更强盛的人工智能的门路，纷歧定只靠无穷制地重叠参数，经由过程架构立异及工程优化，于效能与能力之间取患上精妙均衡，一样是要害且务实的一步。

Step 3.5 Flash登榜的胜利，不止是模子技能的胜利，更是模子工程的胜利，是阶跃星斗于追寻AGI的路上，迈出的坚实一步。

今天，Step 3.5 Flash已经于OpenRouter、GitHub、阶跃AI APP及网页端等多端同步上线，面向开发者提供免费试用与快速部署撑持。而同时，阶跃星斗也已经启动了下一代Step 4的研发，并约请全世界开发者“深度介入共创”，让模子从工程中来，到工程中去，用最“落地”的方式做最“高级”的工作。

从Step 3.5 Flash最先，市场便可以或许看到一条通往AGI更清楚的路径——经由过程构建更快、更稳、更容易获取的智能基座，降低每个立异者构建高级AI运用的门坎。

当无数开发者可以基在如许的基座，于面临千行百业的详细问题时，都能创造出属在本身的智能体，而且以更自制、更便捷的方式满意本身的现实需求，那时的咱们间隔AGI，也许可以又近了一点点。

雷峰网(公家号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-710公海寰宇

产品

服务

关于启明

信息公开

产品 +

服务 +

关于启明 +

信息公开 +

投资者关系

加入启明

客户留言