
6月12日-13日,第八届“北京智源大会”召开。
在6月12日下午举行的大模型产业论坛上,蓝驰创投管理合伙人陈维广担任主持人,与智源研究院院长王仲远,银河通用创始人兼CTO王鹤,面壁智能CEO李大海四人,围绕“如何定义大模型时代的长期价值”,展开圆桌讨论。
这场圆桌搭配很有趣,属于不同行业的碰撞:一位投资人、一位新型研究机构院长、一位具身智能机器人公司创始人、一位端侧AI模型公司CEO。
智能纪元AGI全面梳理了这场对话,大家讲出了几个关键点:
1、大模型性能迭代还没到达瓶颈期,Scaling还远没有到尽头。
2、世界模型并非具身智能必备前提。人类也没办法精准模拟、预判世间万物的物理变化,可我们依然能自如地和万事万物互动。因此,世界模型没必要先做到完美的全场景仿真,也能发展出类具身智能,完美仿真并不是打造具身智能的必要前提。
3、中美AI对决,人才是关键,而具身是中国的机会,具身智能的 AlphaGo 和 ChatGPT时刻会在中国实现。


大模型还未出现瓶颈
对话开始,陈维广抛出了一个尖锐的话题。
他问,大模型发展比较快,第三方评价顶级模型有所趋同,评测数据很好但很快就有企业跟进,token价格不断下探,开源模型发展比较快,甚至有人说开源模型跟闭源模型的差距也就是3-6个月。那在这种情况下,如果作为一家AI模型公司,它的长期价值来自哪?它的护城河来自哪?甚至有些人质疑AI大模型公司最终就会像卖水、卖电——有量无价,这对吗?

王仲远:
其实坦率来讲,我可能个人并不完全认同这种观点。现在大模型整体性能迭代还没有到达瓶颈,所以我们还没办法完全说后面会不会大家都趋同。
因为它有可能有很多种演化格局和阶段,有可能比如说,一超多强,或者多个巨头,或者,最终大家都就像刚才观点里面,可能能力差不多。
现阶段,我想从实际情况来看,榜单确实不那么可信,哈哈,各种各样的榜单,有时候我自己看那些榜单都看得眼花缭乱。
甚至很多榜单的结果也没办法完全验证,所以,我觉得榜单并不完全可信。
但我们经常讲,是骡子是马拉出来溜溜,能够拉出来溜,通常来讲还是可以让大家有一个体感。
不管是大语言模型,或者是像银河通用这类的具身智能公司,敢展示真机、敢做现场展示,再比如面壁智能真的能进入到实际场景。
这些敢于亮真活的这些模型公司,我想是有底气的,而且也能够在一些场景里面去找到一些数据闭环。
所以,我觉得今天可能还没办法完全下结论,说将来这些公司会不会都趋同?他们的护城河在哪?实际上,AI技术还没有收敛,还在快速的迭代演进,所以各种的可能性和各种的结果都有可能出现。谢谢。
王鹤:
相对来说,这个问题可能表达了大家对数字世界里的智能,或是对大语言模型技术现状判断。
但其实我觉得,就像仲远博士刚刚讲的,大语言模型里面仍然存在很多变数。如果我们再往后看一步,就是多模态、VLM或者是视频理解,可能变数就更多了。
我本人主要从事的具身智能行业正在不断收敛,从VLA、实际模型,往WAM(world action model)方向迭代,一个模型既能做未来预测,又能够做动作执行预测。同时也能吸收人类的无动作标签数据,且能吸收机器人动作标签的数据。
所以,我觉得具身智能现在还处在一个GPT-1到2的情况。
那么,往未来看,其实行业进入到了scaling情况后,一切都会加速,所行业现在开始需要大量资金。那么面向未来,如果有一天我们在资金体量、数据上、模型水平上,都跟大模型一样,未来行业真正的护城河是什么?
我对具身智能来说,它是一个体系啊,既有源头的数据供给,又有整个对不同种类数据。不管是合成数据,还是人类数据,还是机器人数据的提炼的方式。又有整个硬件的迭代和软硬的协同设计(co-design)能力。
最后,模型整个吞吐融合水平,和最终交付硬件给客户的整套能力,是一个最综合的产品,但当前,全世界范围内没有这样综合的产品,所以护城河依然非常深,未来想象空间,可以做垂类应用做深、做广,都有无穷潜力。
陈维广:综合,而且是要六边形战士,面面俱到。
李大海:
我们场上的嘉宾大家是一致的,对这个问题都不是特别认同啊,
这个观点我们都有自己的看法。受两位嘉宾的启发,其实我突然想到,我觉得大模型应该是我们以前说的所谓梯形人才,它必须是通用,但它仅仅是通用,和其他人同质化是没有意义的,它一定得有它长板的部分。
我举个例子,现在大家都知道,美国大模型的当红炸子鸡是Anthropic。
Anthropic之所以强,之所以被追捧,是因为它的 Coding能力。做到了独步天下,在它是通用模型的前提之上。做到了这一步,所以才得到了现在这样估值、大家认可和非常亮眼的商业成绩。
所以,大模型光是有横着的那一部分是不够的,一定得有纵向部分。
那纵向这部分怎么来?其实我很认同王鹤讲的——闭环,
意思差不多,就是我们一定要把大模型当成一个引擎,当成一个发动机,但这个发动机的设计和能力的持续极致优化,要跟整车去协同,它不能够脱离掉应用。
这样考虑是没有意义的,它一定是我到底造的这个车是个F1,还是一个给大妈买菜的,还是一个什么车啊?
针对不同的情况,最后是去特殊化。
事实上,过去两年大模型的发展,我们看到一个非常重要的趋势,就是模型在内化成一个系统。或者说,模型是以一个系统的方式去演进,包括现在我们做Agentic 强化学习等,其实就是带着Agentic系统去做模型的进一步训练。
面向未来,我认为我们要处理上下文记忆,当前大家在用 harness 的方式在做,但是我认为这个只是harness方式是不够的,它一定是 harness+模型的强化学习。
所以总结一下,我认为大模型的技术还远没有收敛,同时,在任何一家模型公司,必须要把技术的通用性,跟商业的通用性分开。
通用的商业是很少的,往往好的商业化是需要模型做非常极致优化的。这两个一定要区分开,所以护城河可以有很多。
大家每个公司找准自己的方向以后,应该都可以有好的发展。

具身智能正迎来关键时刻
陈维广:
语言模型是否产生瓶颈?需要新的前沿方向吗?
王仲远:
从我个人的观点,我其实还是比较坚信 scaling 还远没有到尽头。
我想,去年大家会有这种关于scaling law 是不是已经失效这样探讨,但实际上,从技术领域,我们接触很多基础大模型公司,很显然已经证明了 Scaling Law没有失效,只不过它变得开始更加多样化。
当时,其中一个很重要原因,是大语言模型所使用的互联网数据已经用完了,预训练基本上数据也已经用完了,性能就会遇到瓶颈,所以这是关于 scaling law 是不是失效的一些讨论的由来之一。
但实际上,过去两年,大家通过后训练以及推理,已经开始有了新一波的能力提升。
再往后,通过Agent、递归自进化,这些都已经证明了,即使互联网数据可能用完了,但AI能力还在持续提升,不一定是模型能力提升,而是整个系统能力越来越强。
甚至,AI开始不仅是聊天工具,它还可以是执行工具。
所以这些我们还是非常相信,整个Scaling Law的曲线还在,如果大家去看近期很多模型能力跃升,甚至有一定指数倾向。
确实模型的能力很快速在提升。
另外一方面,智源研究院我们一直讲,我们的定位做高校做不了,企业不愿意做,或企业现阶段不愿意做,我们去探究下一个智能的曲线。
所以过去两年,我们把重心放在多模态,我们过去两年使用 next token prediction 去在多模态上去探究它的scaling。
事实上我们就发现。像悟界Emu3、Emu3.5,它已经呈现了一个多模态的 scaling 的范式,因为我们用的数据参数,以及我们复用了大规模现在的大语言模型智算基础设施,它的能力确实是在提升。
而我们数据依然用了不到 1% 的数据,参数依然只有百亿参数,但我们已经看到了很明显的性能提升。
所以,多模态Scaling范式,我们认为我们也找到了,至少是一条可行的路径。
当然,我们觉得技术成熟的时候,可能就交给产业去做了,然后我们又开始往下一个物理世界基座模型方向开始探究,在世界模型上有没有scaling 的范式。
所以我自己对于这个问题还是非常乐观的,我觉得不管是已经成熟的语言模型、AI coding、数字世界大模型,还是最终我们进入到物理世界的世界基座模型,依然还有很多的 scaling 需要去探究。
陈维广:
我知道王鹤老师这边,因为 Physical AI 可能跟大语言模型还有点不一样的,甚至有一些行业的人说,VLA都还没搞完,为什么突然间出现一些搞世界模型的,你对此有什么看法?

王鹤:
是这样啊,我觉得银河通用和我本人是非常deeply believe in scaling(坚信规模化的力量)。
其实我们在WAM范式还没有出现之前,在VLA范式里头,我们就先用合成数据做了大量的scaling。
但合成数据当时我们主要 focus on 一个事情:就是抓取。
我们看一个技能,能不能通过 scaling 来让它变成一个真正的基模。
我们用仿真数据 10 亿帧证明了,只要你把数据 scale 到这个程度,抓取你可以完全是Zero-Shot(零样本)的。
我所研发的 GRASP-VLA 是一款端到端视觉语言动作模型,面对真实世界里任意物体,它都能实现零样本抓取。截至目前,自 2025 年初 GRASP-VLA 问世后,业内还没有任何依托真实世界遥操作数据的模型,能达到同等零样本抓取水平。
与此同时我们也注意到,若想依靠合成数据拓展更多抓取类任务,还面临不少待解问题。早在遥操作技术路线刚兴起时我就提出,行业不能一味依赖遥操作,这条路很难实现规模化发展。
但今天其实我想说的是,具身智能正在迎来一个非常光明的 Scaling up 的时间点,就是因为WAM世界动作模型。
那么,WAM 跟 World model 不太一样,因为我们今天讲 World model 其实是一个很宽泛的概念。
前几天,李飞飞老师也把 World model 分成了好几类,有的是 World model 是Simulator,有的是 World model 用于生成视频。
而我们今天讲的WAM,它是关注 Action 为最核心。而用未来的预测呢,当做一种视觉层面对 action 的planning。
但是,你不需要 action 的label,所以你可以想象一个机器人看人干这件事,它虽然没有action label,但是,它把人怎么干的行为,大致course motion(课程动态)学到了,这样我们就能大量的借用人类的视频,帮助我们具身往task、更 diverse 的场景、更全面的技能去 scale up。
当然,如果大家在 archive 上搜索 world action model,全世界第一篇 world action model 的论文就是银河通用在2025 年 3 月份发布的。
在我今天看呢,它能够真正把无尽环境和任务融合进具身基模训练里。
所以我认为,WAM 今天定义了一个超越VLA,因为VLA里要所有东西都是有 action label 的,那这个的 scaling 呢,目前只能靠 Robot data,但我们今天加入了 Human data,我们真正迎来了一个 Scaling up好的空间。
甚至今年4月份,斯坦福同学、英伟达具身智能实验室主任Jim Fan,在接受红杉演讲时说,Robotics 的 end game 就是WAM。
所以我感觉,今天,我们具身在预训练正在迎来一个蓬勃发展的状态,因为在数据获取、数据类型上,我们已经没有局限性了。
所以我能够预测未来两年,具身将全面到达一个 GPT-3.5时刻,向 G ChatGPT 转变的一个关键预训练milestone。
所以,现在对我们来说,是一个真正好的时机、非常兴奋的moment。
但是,这也意味着,行业需要千万小时的高质量数据,以及百亿以上的投购这两项加大模型的能力,才能真正成为冲刺 ChatGPT 的入场券。
陈维广:
所以我把这个问题稍微延展一下,那是不是根据你这样的分析,意味着外面说的世界模型全部都不靠谱?
王鹤:
WAM 本身也属于世界模型的范畴。目前不少世界模型的核心能力,是作为仿真器来训练机器人完成强化学习任务。
我们确实也在利用世界模型搭建可交互的可微仿真器,相关落地工作一直在推进。但我并不认同一种思路:先让世界模型做到能模拟、交互现实里的一切事物,再以此为基础训练具身智能。这两者之间其实存在明显鸿沟。
类比人类就能明白:我们也无法精准模拟世间万物、预判所有物理变化,却依然能自如地和周遭一切互动。因此,打造出完备的世界仿真系统,并不是研发具身智能的必要前提。
陈维广:
对于大海老师,我简单改一下问题,云端模型过去几年看到Scaling Law,但终端可能不能scale,你对此有何看法?你认为终端、云端都是可以一起scale吗?

李大海:
我认为核心答案落脚在技能(Skill)上。
面壁智能提出的知识密度定律,结合技能维度,可以总结成一个公式:大模型整体智能 = 知识密度 × 参数量。
如今还有人在质疑技能路线是否已经失效,但实际情况恰恰相反:云端代码模型的规模还在持续扩张,不管是OPUS,还是国内各类代码大模型,体量都越做越大;端侧模型也同样在不断扩容。
去年我们给车企落地端侧模型时,模型规模只能做到 1B。这并非技术上限,而是当时智能终端的算力、带宽条件有限,只能支撑这个规格。
如今,端侧模型已经升级到 4B,照这个增速来看,明年大概率会达到几十 B,发展速度非常快。
端侧设备普遍存在资源受限的问题,而具身智能载体本质上也属于终端,它的“大脑”同样是端侧模型。所以在模型能力、技能优化上,具身智能还有极大的挖掘空间,真正的瓶颈在于硬件物理条件。
另外再补充一点:即便对于大语言模型,长上下文处理能力也还有巨大的规模化提升空间,目前行业整体做得并不理想。简单类比就能理解,人类大脑处理长时序、长上下文任务的能力,本身就十分出色,这也是模型后续可以发力的方向。
而且这类场景还对低功耗有要求。对比来看,现阶段大模型在相关任务上,无论是运行成本还是实际效果,都远不及人脑,这也意味着行业还有巨大的提升空间,核心就在于缩放定律(Scaling Law) 的潜力。
可以说前路漫漫,行业发展远未走到收敛阶段。现在业内常会用一些阶段性结论做解读,方便大众理解,但这类观点的“保质期”很短,行业发展一直在不断推翻旧认知。
我们也在用更多的技术,让模型能够变得更大,因为我的知识密度变高量化技术提升,所以导致我们用性能更强模型,量化完以后,它用的内存,用的资源是一样多。
陈维广:终端模型开始进行应用,是因为云端模型太贵了,把模型计算放到终端,这个理论能成立吗?
李大海:
我认为这是Token经济学的一部分。尤其是对于终端厂商来说,这个是一个非常清晰算账的方式。
大家都知道,我们老百姓买手机、买汽车不可能去订阅。
我买了一台手机,我不会再想着说给手机厂商每个月交19块。所以对于同时想给用户提供很好AI体验的设备,企业就面临选择,我的后续成本到底怎么负担?
从算账的角度上讲。端和云一定要协同,但端侧资源有限,不可能做和云端做一样的工作,但凡端侧能做的,大家尽量还是希望能在端上做,这样的成本肯定是最低的。
陈维广:
刚才我问的那两个问题呢,主要还是一些行业看法。行业外,Agent一旦伤害人类,有没有一些风险?
王仲远:
首先,这让我想起来今天早晨开幕式上,王坚博士播客访谈,其实也涉及到一个问题,就是人和 AI 到底如何共处?
那么我想,一个新技术的诞生,总会涉及到从人们对它最开始担忧恐惧,到后面开始适应使用它、习惯它,以及它怎么去融入到社会,什么样的治理体系,什么样的政策,人和技术怎么去一起来协作。
我想,比如说像自动驾驶、辅助驾驶,其实以前已经开始走这样一挑路到底权责谁来定?到底是软件厂商的、硬件厂商的,还是用户的?
那么其实,AI智能体未来也会有类似这样一个过程和阶段。
更多的是,一方面我们看到了AI技术对于生产力的提升,对于生产效率的提升,当然,它确实就像您说的,如果已经提升了3倍、5倍,那我想这种技术就一定是没办法被阻碍的,它最终就会在社会、工业、生活中变得越来越流行,越来越普遍。
另外一方面,如果出现了一些故障或问题,它的责任划分、整个社会治理体系政策等方面,我相信咱们人类已经经过了这么多年的技术浪潮,会有办法解决的。
王鹤:
我也简单的补充一点啊,
其实机器人在工业自动化中的应用,和未来具身智能机器人在各行各业的应用,二者既有差异,也存在很强的相似性。我们对接工业客户时会发现,无论设备是传统机器人还是具身机器人,客户最看重的都是工序完成的成功率。设备投入使用后,一旦某个环节出现故障造成产线停摆,就和人工操作失误的后果一样,会产生相应的经济损失。所以从对经济活动的影响来看,道理很简单:
具身智能机器人首先要做到和人类一样出色地完成工作,同时在实际作业中能够承担相应责任,这是必然要求。而放眼更长远的发展,当具身机器人参与到兼顾体力输出与复杂脑力决策的工作中时,如何清晰划分人机之间的权责,会成为一大难题。如今智能体(Agent)已经得到大范围应用,我相信行业也会在这个过程中逐步找到解决方案。
举个例子,现在大家普遍使用代码智能体,倘若代码出现漏洞,责任最终会归到使用者身上,原因是使用者没有完成全面的测试验证。放到未来的工业场景中,产线上的具身机器人如果出现问题,责任是否也由产线管理者承担?又该如何区分问题根源是技术缺陷还是管理疏漏?再往更远设想,如果未来作业场景完全由 AI 主导、不再有人参与,届时又该由谁来承担责任?我相信对应的责任界定体系,会在行业一步步的探索中慢慢建立起来
李大海:
我来说点让大家毛骨悚然的真话吧。
人类社会一路走来,本质上一直遵循着吃一堑、长一智的发展模式。如今我们乘坐飞机,都会遵守一系列略显繁琐的安全规则:起飞和降落时收起小桌板、打开遮光板等等。
这些规定并非凭空制定,每一条背后,都是过往一次次空难与惨重损失换来的经验总结。很多人对此不解,但事实便是如此,就像部分路段突然设置 30 公里的限速,背后也都有相应的安全前车之鉴。
借助人工智能技术,我们发现、修补安全漏洞的效率得到了大幅提升。新技术落地,或许依旧免不了先经历问题、再吸取教训,付出一定代价,但相比过去,这份代价有望大幅降低,这也是积极的一面。
与此同时,我们也能看到,大家始终高度重视安全底线。身处行业之中,企业也从起步阶段就主动扛起社会责任、研判各类安全风险。
但归根结底,吃一堑长一智的规律或许难以彻底规避。安全风险往往会从意想不到的维度浮现,用教训推动社会规则与治理体系不断完善,这也是我们需要正视和理解的现实。

具身智能是中国AI发展的机会
陈维广:
最后一个问题,从你们几位视角来看,中国和欧美AI最终走出来不一样的地方在哪?
王仲远:
中国还是有很多很独特的优势,包括像供应链、制造业以及场景,所以其实我们自己本身,整个中国市场也已经足够大,使得我们能够去孵化和催化很多的技术的产生和落地。
当然,我们肯定也希望AI技术能够辐射到全球,所以我自己觉得就是结合中国这些优势,像具身智能、世界模型,很有可能是我们将来会有独特性,且在一定程度上领先一些领域。
王鹤:
其实我明天呢,在我们这个具身智能与人形机器人的论坛啊,就会主要谈这个事。我的 talk 的名字叫推动 embodied AI 的 AlphaGo 和 ChatGPT moment。
实际上我坚信,具身是中国的机会。具身智能的 AlphaGo 和 ChatGPT moment。
我坚信呢,这个时刻会在中国实现,这也是我们银河通用和中国具身智能人的责任。如果具身智能0到1在中国完成,我也相信,1到100必定是在中国成熟。
李大海:
我就补充一个点吧,就是人才。
中国拥有最聪明的青年才俊,并且数量应该也是全球最大的,我觉得这个是最底层最重要的因素。有了这个因素,再加上刚才提到的生态、优势、整个供应链,
这些因素叠加在一起,中国必定会在AI领域取得各方面长足进步和胜利。
陈维广:
确实如此。我们近期也做过对比,中美 AI 人才有个很鲜明的差异:国内 AI 从业者整体更加年轻化。
也正因如此,智源大会的规模一年比一年壮大,现场能看到大量年轻研究员积极参与。我们投资的不少创业公司,除了自身核心团队外,还长期和各大院校、智源开展深度合作,这也是我们观察到的、和美国市场最显著的区别。
时间差不多了,我简单做个总结。
第一,有观点认为大模型乃至具身智能模型不存在技术护城河,行业最终会走向同质化,但我并不认同。不同团队依托自身落地场景、数据积累与业务闭环能力,都会构建起独有的护城河。
第二,关于缩放定律,不少人觉得如今发展遇到瓶颈,需要依靠后训练优化。就像刚才智源的老师提到的,现有判断大多基于互联网数据,而具身智能领域更是还有极大的空间,能持续挖掘缩放潜力。
第三,本次我们也探讨了 AI 安全问题。不少圈外人士、想要试水 AI 的企业负责人,都对此存有疑虑。我非常认同李大海老师的观点,做好安全防控,规避后续风险至关重要。
最后,祝愿智源大会越办越好。这场盛会也充分展现出,中国 AI 产业的实力正在不断攀升。我的分享就到这里,谢谢大家。
更新时间:2026-06-15
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号