出品|虎嗅科技组
作者|宋思杭
编辑|苗正卿
头图|视觉中国
智源研究院,曾一度想走上那条OpenAI的路。
虎嗅获悉,2024年以前智源内部也讨论过——是否要成立一个类似OpenAI的商业化子公司。但犹豫再三,他们还是决定回到初心:继续做一家非营利的研究型机构。
就像如今的Anthropic之于OpenAI,智源也孵化出了一批从核心团队走出的创业者。唐杰、杨植麟、刘知远——他们都来自智源“悟道”系列项目的核心成员;后来在2019年、2022年和2023年先后创办了大模型公司。其中,智谱AI(创始人唐杰)与月之暗面(创始人杨植麟)如今的估值均已在300亿元人民币上下。
换句话说,智源虽不直接下场,却成为了大模型六小龙背后持续的力量。“让有商业化想法的同学去创业、智源提供学术与资源支持”智源研究院院长王仲远告诉虎嗅。而这种“成果孵化”的理念,也早已内化为智源的制度逻辑。
不过,王仲远并非“悟道”时代的人物。他在2024年加入智源——那是“悟道”系列已暂告一段落的节点。此后,他提出了新的研究方向:“悟界”。其中,“悟道”与“悟界”的区别就在于,前者是大语言模型,而后者是多模态系列模型。
在王仲远看来,大语言模型的技术路径已经收敛,而多模态模型的路线仍未确定。他希望智源能在这个尚未被定义的领域里,找到属于多模态时代的Scaling Law。
就在今年10月,智源发布了EMU3.5世界模型。王仲远称,它已“具备Scaling范式的潜力”。
然而,值得注意的是,本次的世界模型之所以叫3.5而不是4,正因为这只是通向Scaling Law的半步,离真正的“Aha Moment”仍有距离。
成立七年来,智源经历了从“悟道”到“悟界”的两次跃迁,它既是中国AI体系的底座之一,也是中国大模型公司的“原点坐标”。但在这个越来越功利的AI时代,智源仍选择保持一种非营利的倔强,它选择继续做那家“站在背后”的研究机构,尽管这意味着会被更有资源的商业化公司所超越。
以下为虎嗅与智源研究院院长王仲远的对话实录,有删减:
智源拒绝做OpenAI
虎嗅:你2024年加入智源,在这之后智源都发生了哪些变化?
王仲远:我先介绍下个人背景。我职业生涯前半段在研究机构,后半段在产业界,既经历了学术体系的严谨,也经历了企业竞争的复杂。
2000年代初,我进入微软亚洲研究院,在那里做了六年多研究,后来我去了美国,在Facebook工作。那次转型对我非常关键——从纯研究走向产业落地。
为什么会做出这样的转变?一方面是因为2012年深度学习进入产业化阶段,AI1.0的研究瓶颈基本被突破,产业界开始真正需要AI技术解决实际问题。另一方面,当时我也感受到微软在移动互联网时代的转型不够成功,我希望能在一家更具创新精神的互联网公司工作,于是去了Facebook。
从那之后,我的职业轨迹完全转向产业——先后在Facebook、美团、快手分别待了几年。在美团我汇报给王慧文,也是在那段时间里第一次真正理解“技术、产品与商业战略”之间的关系。那时我组建了最早一批做AI与大模型的团队,后来其中不少人都成为了各公司大模型的核心技术负责人。
后来我加入快手,负责约两千人的团队,也负责过超两百亿预算的业务。但与此同时我也意识到,做业务意味着背业绩指标,留给技术创新的空间会越来越小。而彼时AI进入了一个新的阶段——从深度学习过渡到大模型的AI2.0时代。我开始意识到,大模型的出现不仅是技术演进,更是一次类似电力或互联网级别的产业革命。
那时我就反思:如果未来二三十年都是AI驱动的时代,我希望自己能站在研究与创新的一线。
于是2024年我决定加入智源。智源的愿景非常纯粹——成为人工智能创新的引领者,营造一个开放、开源的生态,让技术真正造福全社会。这种非营利、长期主义的科研机制,对我来说非常有吸引力。
我也一直认为,中国的AI研究机构要敢于做“高校做不了、企业不愿做”的事。比如现在多模态模型的技术路线仍未收敛,未来能否找到新的Scaling范式,是值得长期投入的方向。这就是智源要承担的角色。
虎嗅:你刚刚提到,自己过去在微软、美团、Facebook等公司,以及现在的智源研究院,周围都有非常高密度的人才。你认为,这类组织有什么共同特征?
王仲远:真正人才密度高的组织,往往都有一个共性:使命愿景驱动、价值观一致。
早期的OpenAI之所以能聚集那么多顶尖研究者,是因为他们最初的目标极为宏大——希望推动通用人工智能的发展,并让它造福人类社会。正是这种共同的理念,把一群志同道合的科学家聚拢在了一起。
当然,随着OpenAI的发展,它也逐渐商业化,这本身是行业规律。但我们不能忽视的是,它早期确实是靠使命和信仰凝聚起的。
智源也一样。虽然我们是一家非营利机构,但我们能吸引到很多放弃大厂“Special Offer”的年轻研究员,原因就在于,他们认同智源的科研信仰与长远使命。
在企业里,他们可能很快要服务业务、跟着短期指标走;但在智源,他们能真正投入到有长期科研价值、甚至能影响未来AI技术路线的研究中去。
这种吸引力,本身就是一种筛选机制。它筛掉了只追求物质回报的人,留下了对技术和科研有信仰的一群人。这样的人聚在一起,战斗力往往非常强。
虎嗅:智源也孵化出了像智谱、月之暗面这样估值数百亿的创业公司。你是如何保证智源在支持创新的同时,不走上OpenAI那种越来越商业化的道路?
王仲远:这是一个非常好的问题。首先要承认,两者的社会环境不同。智源从成立那天起就是非营利性机构,今年已经七周年了。七年来,这种模式在中国的AI体系中证明了自己的先进性与可持续性。
我们内部确实讨论过要不要设立商业化部门,或者学习OpenAI的“双实体”模式。但最后大家一致决定——坚持智源的模式,保持非营利的纯粹性。
我们形成了自己的“智源模式”:在科研上布局前瞻的技术路线,比如探索多模态世界模型、具身智能这些尚未收敛的方向;
在机制上允许年轻人“挑大梁”,甚至去外部创业。智源会提供支持,但不直接下场做企业;再来就是开源开放链接全球生态。
我们也建立了一个科研—孵化—成果转化的闭环体系。智源通过早期孵化、后期股权退出等方式,获得一定的造血能力,从而维持研究的长期独立性。
但这套机制的出发点从不是盈利,而是让我们更纯粹地去做科研。
虎嗅:也就是说,智源在内部鼓励年轻人创业?
王仲远:是的,我们明确鼓励。智源的“开源开放”理念体现在各个层面:我们做开源研究、开放合作、开放流动。我们的模型(比如Emu3.5)敢于完全开源;我们的科研人员可以自由流动,去企业、去创业,只要他们能延续这条技术路线。这种灵活性反而能保持整个机构的生命力。
如果有一天,别人沿着智源开源的技术路线,做出了更好的模型,我们会非常开心。因为那意味着我们真正起到了“科研引领”的作用——这也是智源存在的意义。
多模态的“Scaling”时刻
虎嗅:回到“悟界”系列。你说Emu3和3.5都是为了未来的多模态和具身智能做准备。多模态主要依赖公开视频、网络数据,而具身智能更依赖真实的物理世界数据,这两者在底层是相通的吗?
王仲远:这是一个特别关键的问题。首先,我们要厘清什么是具身智能。过去一年多我最大的感受是——不同领域对“具身智能”的理解完全不同。
做AI大模型的人会认为,具身智能就是把一个“大脑”装进机器人身体;而传统做机器人或强化学习的人,会把“具身智能”理解为让机器人能站稳、能抓取、能跳舞的端到端控制系统。
但在我们看来,那些都是“小数据”。即便你有几百台机器人采数据,从大模型角度看,依然远远不够。这些数据只够做局部的适配或迁移学习,不足以支撑智能的真正涌现。
所以我们提出要回到第一性原理。
人类之所以拥有智能,是因为我们通过视觉、听觉、语言等多模态的长期学习,形成了对世界的理解——也就是“世界模型”。从婴儿时期开始,人不是先从文本学习的,而是通过看世界、听声音、与人互动,逐渐构建了空间、时间和因果的理解。
这就是我们在Emu3.5里想模拟的过程。
它并非简单地在大语言模型上叠加图像或视频输入,而是试图像人类一样“从多模态感知中学习”。
我们用了海量的视频数据进行训练,让模型在视觉、语言、时间、空间等多维度上联合学习。实验结果表明,随着数据量的增加,模型的多模态理解能力显著提升,尤其在图像文字编辑等任务上,性能明显超越了现有模型。
这证明了我们的假设:真正的智能,需要回到人类学习的路径。
语言和文字固然重要,但人类并不是从语言开始学习的。现有多模态模型“先语言、后映射”的路线,也许只是一个“短平快”的解决方案,却未必是通往通用智能的最终路径。
Emu3.5的贡献在于,它用第一性原理的方法论,走出了一条新的多模态学习路线。我们发现,当模型在视频序列中学习时间与空间关系后,它的智能水平不降反升,这种“涌现效应”说明我们可能找到了更接近人类认知的路径。
虎嗅:你刚刚提到一个关键点——“Scaling范式”。能否解释一下,EMU3.5现在处在什么阶段?距离真正的“Scaling Law时刻”还差多远?
王仲远:我们把模型命名为“Emu3.5”,而不是“Emu4”,其实正是因为它还在通往“Scaling Law”的途中。
目前Emu3.5的参数量大约在三百多亿级别,相比语言模型的发展阶段,大致相当于GPT-3.5之前的水平。我们认为它已经接近多模态领域的“ChatGPT时刻”——也就是那种从研究模型过渡到可产品化模型的阶段。
但要真正达到“Scaling Law”,还需要更大的数据规模和算力支持。现在我们用的视频数据只占全网的不到1%,参数量也远未达到上限。如果有十倍的算力和资源,我们相信能训练出下一代模型。
只是,这可能更适合企业或资本参与推动。科研机构的角色,是验证这条路线是否可行——而我们已经验证了。
严格来说,我们现在找到的是“Scaling范式”,还未上升到“Scaling Law”。
后者需要数学公式去证明数据量、参数量与性能提升之间的定量关系;我们目前看到的是明确的正相关,但还没把它形式化。
不论叫什么,它意味着一件事:我们相信多模态模型已经出现了可持续的Scaling趋势。
虎嗅:那在你加入智源之后,从EMU3到EMU3.5用了整整一年,这个进度是在预期之内的吗?
王仲远:其实我们没有设定明确的时间表。
实际上,模型在今年八月份左右就展现出很好的效果,我们对它也非常有信心。
从去年10月的Emu3到现在的3.5,我们花了大量时间解决核心技术问题——包括自回归架构的误差累积、视觉token的表达方式、大规模视频数据的构造与配比等。这些问题看似细节,但每一个都影响模型的稳定性和智能水平。