产品 +

iEnter|智慧企业 +

企业资源计划管理系统

智钉

iManu|智能制造 +

制造执行系统

物流执行系统

高级计划及排程

iSupply|智慧供应链 +

运输管理系统

仓储管理系统

供应商关系管理系统

EP|智慧生态营销 +

经销商管理系统

全面营销管理系统

客户关系管理系统

Connect|智能网联 +

智能网联云平台

新能源汽车监控平台

商用车企业监控平台

电检系统

行驶记录仪

车载T-BOX

汽车故障诊断仪

国六OBD产品

后装GPS产品

DataValue|数据价值赋能 +

智慧质量

线索运营

智慧广告

Platform|云原生PaaS平台 +

云原生PaaS平台

容器引擎(QKP)

AI智能服务平台

API网关平台

低代码平台-QLCP

元宇宙技术探索平台

数据中台

智能运维平台

服务 +

咨询 +

车路协同解决方案

IT咨询

云原生技术架构规划与咨询服务

评测 +

网络安全等级保护测评

实施 +

电子电气检测服务

网联产品组装制造

运维 +

桌面及外围设备运维服务

云服务(IDC)

销贷服务

乘用车车联网运营服务

商用车车联网运营服务

客户联络中心运营服务

数据价值运营服务

K8s运维

关于启明 +

企业简介 +

企业简介

企业价值 +

企业荣誉

行业地位

资质认证

社会责任 +
企业文化 +
投资者关系 +
麾下企业 +
加入启明 +

业务发展规划

福利待遇

人才招聘

信息公开 +

企业基本信息 +

企业概况

经营范围

市场主体登记基本信息

组织机构

成员单位

资质荣誉

企业重大事项 +

股权信息

产权信息

研发成果

企业经营管理 +

财务与经营状况

品牌与产品

安全环保 +

安全信息

招标招募 +

招标信息

人力资源 +

招聘信息

社会责任 +
企业公告 +

上市公司

公告信息

投资者关系

加入启明

客户留言

710公海寰宇-从“数据融合”迈向“原生架构”:商汤发布 NEO 架构,重新定义多模态模型效能边界
2026-03-30 13:13:20

  导语:商汤科技正式发布并开源了与南洋理工年夜学 S-Lab互助研发的全新多模态模子架构 ——NEO,为日日新SenseNova多模态

商汤科技正式发布并开源了与南洋理工年夜学 S-Lab互助研发的全新多模态模子架构 ——NEO,为日日新SenseNova多模态模子奠基了新一代架构的基石。

作为行业首个可用的、实现深条理交融的原生多模态架构(Native VLM),NEO 从底层道理出发,打破了传统“模块化”范式的枷锁束缚,以“专为多模态而生”的立异设计,经由过程焦点架构层面的多模态深层交融,实现了机能、效率及通用性的总体冲破,从头界说了多模态模子的效能界限,标记着人工智能多模态技能正式迈入“原生架构”的新时代。

从“数据融合”迈向“原生架构”:商汤发布 NEO 架构,重新定义多模态模型效能边界

论文网址:https://arxiv.org/abs/2510.14979

打破瓶颈:离别“拼凑”,拥抱“原生”

从“数据融合”迈向“原生架构”:商汤发布 NEO 架构,重新定义多模态模型效能边界

当前,业内主流的多模态模子年夜多遵照“视觉编码器+投影器+语言模子”的模块化范式。这类基在年夜语言模子(LLM)的扩大方式,虽然实现了图象输入的兼容,但素质上仍以语言为中央,图象与语言的交融仅逗留于数据层面。这类“拼凑”式的设计不仅进修效率低下,更限定了模子于繁杂多模态场景下(好比触及图象细节捕获或者繁杂空间布局理解)的处置惩罚能力。

商汤 NEO 架构恰是为相识决这一痛点而生。早于2024 年下半年,商汤便于海内率先冲破多模态原生交融练习技能,以单一模子于SuperCLUE语言评测 及OpenCompass多模态评测中夺冠,并基在这一焦点技能打造了日日新SenseNova6.0,实现多模态推理能力领先。以后,于2025 年 7 月发布日日新SenseNova6.5 经由过程实现编码器层面的初期交融,把多模态模子性价比晋升 3 倍,并于海内率先推出商用级另外图文交错推理。商汤这次更进一步,完全摒弃了传统的模块化布局,从底层道理出发,推出了从零设计的 NEO 原生架构。

三年夜内核立异:实现视觉及语言的深层同一

从“数据融合”迈向“原生架构”:商汤发布 NEO 架构,重新定义多模态模型效能边界

NEO 架构以极致效率及深度交融为焦点理念,经由过程于留意力机制、位置编码及语义映照三个要害维度的底层立异,让模子生成具有了同一处置惩罚视觉与语言的能力:

●原生图块嵌入(Native PatchEmbedding):摒弃了离散的图象tokenizer,经由过程独创的Patch Embedding Layer (PEL)自底向上构建从像素到词元的持续映照。这类设计能更邃密地捕获图象细节,从底子上冲破了主流模子的图象建模瓶颈。

●原生三维扭转位置编码 (Native-RoPE):立异性地解耦了三维时空频率分配,视觉维度采用高频、文本维度采用低频,完善适配两种模态的天然布局。这使患上 NEO 不仅能精准捕捉图象的空间布局,更具有向视频处置惩罚、跨帧建模等繁杂场景无缝扩大的潜力。

●原生多头留意力(Native Multi-Head Attention):针对于差别模态特色,NEO于同一框架下实现了文本token的自回归留意力及视觉token的双向留意力并存。这类设计极年夜地晋升了模子对于空间布局联系关系的使用率,从而更好地支撑繁杂的图文混淆理解与推理。

此外,共同立异的 Pre-Buffer Post-LLM 双阶段交融练习计谋,NEO 可以或许于接收原始 LLM 完备语言推理能力的同时,从零构建强盛的视觉感知能力,完全解决了传统跨模态练习中语言能力受损的难题。

实测体现:十分之一的数据,追平旗舰级机能

从“数据融合”迈向“原生架构”:商汤发布 NEO 架构,重新定义多模态模型效能边界

于架构立异的驱动下,NEO 揭示出了惊人的数据效率与机能上风:

极高数据效率:仅需业界划一机能模子 1/10 的数据量(3.9亿图象文本示例),NEO 便能开发召盘尖的视觉感知能力。无需依靠海量数据和分外视觉编码器,其简便的架构便能于多项视觉理解使命中追平 Qwen2-VL、InternVL3 等顶级模块化旗舰模子。

机能卓着且平衡:于 MMMU、MMB、MMStar、SEED-I、POPE 等多项公然权势巨子评测中,NEO 架构均斩获高分,揭示出优在其他原生 VLM 的综合机能,真正实现了原生架构的“精度无损”。

极致推理性价比:尤其是于 0.6B-8B 的参数区间内,NEO 于边沿部署方面上风显著。它不仅实现了精度与效率的两重跃迁,更年夜幅降低了推理成本,将多模态视觉感知的“性价比”推向了极致。

开源共建:构建下一代 AI 基础举措措施

架构是模子的“骨架”,只有骨架扎实,才能支撑起多模态技能的将来。NEO 架构的初期交融设计撑持肆意分辩率与长图象输入,可以或许无缝扩大至视频、具身智能等前沿范畴,实现了从底层到顶层、端到真个真正交融。从运用角度,端到真个“原生一体化”设计,为呆板人具身交互、智能终端多模态相应、视频理解、3D交互和具身智能等多元化场景的运用,提供了坚实的技能支撑。

今朝,商汤已经正式开源基在 NEO 架构的2B 与 9B两种规格模子,以鞭策开源社区于原生多模态架构上的立异与运用。商汤科技暗示,致力在经由过程开源协作与场景落地双轮驱动,将 NEO 打造为可扩大、可复用的下一代 AI 基础举措措施,鞭策原生多模态技能从试验室走向广泛的财产化运用,加快构建下一代财产级原生多模态技能尺度。

Github开源网址:https://github.com/EvolvingLMMs-Lab/NEO

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

-710公海寰宇


地址:长春净月高新技术产业开发区百合街1009号

版权所有:启明信息技术股份有限公司

电话:0431-85861717/ 4001182299