710公海寰宇-圆桌｜世界模型的“前世今生”与终局猜想

2026-04-11 20:07:29

至今，科技圈对于“世界模子”仍未给出一个尺度界说。但这没关系碍它成为当下最性感的叙事：

于VC眼中，它是验证贸易闭环的最终沙盘；于具身智能赛道，它是让呆板人学会“走一步看三步”的预判年夜脑；而于元宇宙的废墟之上，它被视为信息载体从2D视频向3D交互世界跃迁的末了一块拼图。

就于1月23日，据彭博社报导，李飞飞正于就其开办的草创公司 World Labs 举行新一轮融资洽谈，方针估值约为 50 亿美元。

于这个观点还有未被祛魅的时刻，中关村初期投资论坛找到几位差别配景的先行者。他们不谈虚无的共鸣，只求于视角的碰撞中，厘清这波AI新海潮的真实贸易脉络。

由雷峰网总编纂林觉平易近主持的一场圆桌论坛上，英诺科创基金合股人王晟、流形空间开创人武伟、VAST开创人宋亚宸以和千诀科技合股人蒋屹舟齐聚一堂。这场对于话并不是为了追求某种平淡的共鸣，而是旨于出现出一场关在世界模子会商。

圆桌｜世界模型的“前世今生”与终局猜想

圆桌论坛现场

如下是本次圆桌的深度对于话实录：

林觉平易近：请列位做一下简朴的毛遂自荐。

圆桌｜世界模型的“前世今生”与终局猜想

雷峰网总编纂林觉平易近

武伟： Manifold AI（流形空间），去年6月刚建立，专注世界模子，今朝主攻具身年夜脑落地，用于机械及无人机上。

宋亚宸：VAST开创人，做AI 3D年夜模子，办事游戏、动画、影视这些需要造世界的场景。

蒋屹舟：千诀科技合股人，今天原来是师兄（CEO）来，咱们师兄弟三人一路创业，我姑且顶包。咱们做家居场景的通用呆板人类脑年夜脑，用类脑技能做决议计划及感知。

1、观点界说：从仿真到猜测

林觉平易近：据说这场圆桌原来是要干仗的，重要是今朝行业内对于在“世界模子”还没有形成同一的界说，有人要做具身智能的世界模子，有人做数字空间的，Google Gemini3 又是一派。以是今天咱们不凝结共鸣，就畅所欲言，百家争鸣。

王晟（英诺科创基金）：

咱们将世界模子视为特定范畴内迫近“Ground Truth（地面真值）”的模仿体系。

它纷歧定要于物理上100%复刻真实世界，而是要界说一个“域（World）”，好比医疗、法令或者具身智能范畴。于这个域中，模子可以或许模仿出切合客不雅纪律的反馈。以医疗为例，假如模子能正确模仿出病人服药后的心理指标变化，且无穷靠近真实成果，它就是该范畴的优异世界模子。其焦点价值于在提供正确的反馈（Reward），强化AI的进修效率。

圆桌｜世界模型的“前世今生”与终局猜想

英诺科创基金开创人王晟

武伟（流形空间）：

咱们的界说包罗两个要害词：模仿与交互。即“用模仿的方式实现泛化的交互”。

今朝行业内重要有三个门户：1.仿真器派：如英伟达，重要用在云端合成数据，辅助智能体练习；2.通用交互界面派：如Google Gemini、World Labs，打造开放的可交互数字情况，倾向文娱运用；3.具身年夜脑派（咱们所选线路）：让呆板人具有内生的推理及想象能力。不仅是模拟动作，而是经由过程年夜脑推演“假如我如许做，世界会发生甚么变化”，从而引导现实操作。

圆桌｜世界模型的“前世今生”与终局猜想

流形空间开创人武伟

林觉平易近：Manifold及蒋总都是做“年夜脑”的，咱们此刻是哪一个线路，以和为何要选择如许的线路？

武伟（流形空间）：

正确说是foundation model 派 vs 内脑架构派。咱们把世界模子看成呆板人原生的 foundation model，建模物理空间挪动及操作的内生认知，用一段式或者两段式端到端实现；千诀则是模仿人脑分区，用多个小模子/skills组合来降低功耗。

这类差异纯粹是团队基因决议的——咱们是晟总 PPT 里那批 CV 派+主动驾驶派，我 2015 年插手商汤干了十年，2021-2025 年于中国最早提出主动驾驶端到端及世界模子。这类配景让咱们必需 all in 端到端及数据的 scaling，而不是走小模子拼接的线路。

宋亚宸（VAST）：

李飞飞 World Labs 的 BP 里独一提到的公司就是咱们，我还有发给晟总偷看了。她界说世界模子三年夜场景：3D 天生、XR 空间智能、呆板人——前两个才是重点。

Luma（咱们老偕行，做 AI 3D 转去做世界模子）刚融了 9 亿$，比李飞飞还有多，估值 40 亿。这申明世界模子确凿是 AI 结局，但分两层：一层是具身智能让呆板人替换人类，这层很可怕——作为文科生，要是会写小说，将来就是可骇片。

另外一层更主要：劳动力被解放后，人终极只能卷创意自己。当 AI 3D 让人造万物、AI Coding 让人定例则，每一个人都能零门坎创造虚拟世界——重力可以不是 9.8，你可以飞、可以重写社会法则。这就是马良的神笔，人报酬我、我为人人的天国。

将来人的价值，就看你创造的世界里他人愿意花几多时间。AI 让人像神同样创造世界级体验，这才是世界年夜模子的结局意义。

圆桌｜世界模型的“前世今生”与终局猜想

VAST开创人宋亚宸

林觉平易近：您这就是想造个执法如山的工具？

宋亚宸（VAST）：一定的！将来每一个人心想事成、执法如山，就是马良的神笔。

林觉平易近：快过年了，这话太应景了，不外宋总确凿站患上高，不仅是李飞飞 BP 里独一提到的公司，他本身也是 MiniMax 初期开创人，适才直接把世界模子界说成为了整个 AI 的结局。

蒋屹舟（千诀科技）：

实在早年试验室看世界模子，焦点于在理解世界而非猜测——就像牛顿看苹果落地能推导出万有引力公式，或者者AI只读文字就能画出生避世界舆图，这是一种对于物理纪律的底层抽象。

厥后李飞飞带火了猜测世界，咱们开初感觉又来吹法螺了，这不就是十年前强化进修里用的视频猜测换了个名字吗？但厥后发明对于呆板人确凿要害——没有理解就没法外推，好比叠巨细差别的衣服，这类细微不同很难人工建模，必需让模子具有底层认知才能做猜测。

咱们走类脑线路（非端到真个小模子组合），由于呆板人不像GPT可以思索十分钟，人看到呆板人于等候会很疾苦。以是世界模子对于咱们来讲是一步三算、一步十算，像CPU分支猜测同样提早推演各类可能性分支（好比回家扫除时碰到差别环境该怎么走），此刻重要用在决议计划环节，让呆板人具有真实的及时反映能力。

圆桌｜世界模型的“前世今生”与终局猜想

千诀科技开创人蒋屹舟

林觉平易近：以是蒋总咱们实在已经经把世界模子用于实际糊口中了是吗？

蒋屹舟：对于，今朝用的更多多是决议计划环节，由于咱们的决议计划是可以或许一步三算的。

林觉平易近：李飞飞吹法螺不怕，只要能实现，这个工具还有是一个很好的愿景。

2、技能线路：端到端 VS 类脑架构

林觉平易近：世界模子线路八门五花，末了拼甚么才能跑出来？

王晟（英诺科创基金）：这个问题挺繁杂的，世界模子此刻更可能是投资共鸣的标签 ——就像以前必需投具身智能同样，此刻必需投基在世界模子的具身智能，如许才好交流、好决议计划。但细节层面实在一团乱麻，每一家界说都差别，我作为投资人可以接管任何听起来合理的界说。

真正决议胜败的只有一点：你能不克不及成立一套靠近 ground truth 的验证/仿真体系，能源源不停产出高质量数据。于 scaling law 的暴力美学下，数据是焦点燃料，特别于具身范畴，corner case 数据直接决议呆板人会不会像主动驾驶同样失事故。这套体系产出的数据必需够 scale、够真实（能给你正确的 reward），同时漫衍平衡（浓厚及稀少性均衡），才能练习出既不外拟合也不稀少的模子——焦点还有是归到数据。

林觉平易近：武老是做“年夜脑”的，已往一个月发了两个年夜脑模子，都传播鼓吹本身是世界第一，想请武总聚焦具身年夜脑范畴回覆一下。

武伟（流形空间）：

贸易公司生路就两条：要末 Day 1 有康健现金流，要末烧钱但增加快、天花板高。世界模子显然属在后者，要害看三点：找对于落地场景、增加够快、天花板够高。

咱们选具身年夜脑作为第一个产物化标的目的。做个思维游戏：人从出生到 18 岁，眼睛年夜概网络 300 万 clips；把握 2000 个工种，再攒 3 亿 clips。人类一辈子能网络的数据天花板约 10 亿 clips。假如能用 10 亿 clips 训出生避世界模子，到达人的智能化上限——简朴使命零样本泛化，繁杂使命几十个样本学会——这就是世界模子的最终天花板，贸易价值极高。

倒推回来，做世界模子公司怎么 survive？快速网络 10 亿高质量数据、找到能 pre-train 的架构、泛化到零样本/少样本的运用场景——这三件事做到，就能于具身年夜脑这个狭小赛道里跑出来。

宋亚宸（VAST）：

为何今天各人都于评论辩论世界模子？其实不是由于AI技能忽然成熟了，也不是由于具身智能到了某个时间点。底子缘故原由于在，人类的信息载体正于履历一场最终升维。

回首人类汗青，咱们实在一直于做一件事：对于“真实世界”举行压缩。

于文字降生前的史前文明（如良渚文化），人类接触的是直接的、3D的年夜天然，那是“原文件”。厥后为了便在流传，咱们不能不将这些3D体验“压缩”——先是压缩成文字（龟壳刻字），再是图片，直到1889年咱们发现了视频。视频素质上依然是对于3D世界的一种“ZIP压缩包”。

当信息密度越低（如文字），流传越轻易；当带宽及算力晋升，咱们才最先普和图片及视频。而到了AI时代，基础举措措施终究足以支撑咱们解压这个“压缩包”，让咱们从头回到3D及世界自己。

以是，世界模子不是新物种，而是信息载体的“回复复兴”。咱们终究有能力再也不处置惩罚压缩后的视频，而是直接以3D原文件作为前言。这才是世界模子呈现的真正意义。

林觉平易近：这个相称在是对于信息的使用效率？

宋亚宸：素质是流传成本决议载体情势——信息密度越低越易流传，以是龟壳时代只能刻字，互联网时代能传图文视频。而 3D 或者世界自己，才是咱们终极的信息载体。

蒋屹舟（千诀科技）：

咱们认为世界模子不局限在视觉——瞽者操作物体靠的不是看，而是对于物理因果的理解（知道动作会带来甚么后果，进而影响下一步决议计划）。这类对于因果瓜葛的掌握才是焦点。

类脑线路采用非端到端架构，最年夜上风是不需要暴力堆数据。此刻 VLA 很头疼的是必需靠机械臂疯狂收罗或者仿真练习，而咱们认为可以用人类判定取代——好比抓取物体，没必要让机械臂试成千上万次，直接让人判定人会怎么抓，把这套理解喂给模子就够了。

别的，世界模子也纷歧定要理解整个天然世界，人类构建的抽象世界也算——语言就是人对于世界的最底子抽象，LLM 已经经证实了这一点。以是只要于肆意层面具有对于世界的理解及猜测能力，就是世界模子。咱们的事情会于各个模子里融入这类思绪，不局限在单一技能线路。（雷峰网(公家号：雷峰网)雷峰网雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-710公海寰宇

产品

服务

关于启明

信息公开

产品 +

服务 +

关于启明 +

信息公开 +

投资者关系

加入启明

客户留言