从端到端到世界模型,智能驾驶才刚刚开始“动脑子”
在高阶辅助驾驶的探索中,有一个“感知滞后”的矛盾始终难以解决。
2025-05-29 | 出处: 汽车预言家 | 责编: 谷博文
在高阶辅助驾驶的探索中,有一个“感知滞后”的矛盾始终难以解决。
长期以来,自动驾驶系统的基本策略都是:传感器先看到→ 感知系统识别 → 再决定怎么行动。这个逻辑听上去合理,但在复杂真实的交通环境中,问题开始暴露。
现实路况从不按剧本来:限时公交道、潮汐车道、临时封路、行人突然变道……这些变量,不是“看见之后再反应”就能应对的。真正的人类驾驶靠的并不是对眼前物体的识别,而是对背后因果的推理——前方急刹,第一反应不是“它减速了”,而是“是不是前面堵了?”
这是一种基于“世界模型”的判断方式。人脑通过经验积累形成对环境的理解模型,从而提前预判、灵活应变。而今天的智能驾驶系统,大多数依然是事后处理——等事件发生,再想怎么办。
这也就是为什么,从2023年以来,以特斯拉、Wayve为代表的技术企业开始大规模投入“世界模型”的研发。而在2025年5月25日,蔚来发布ET5与ET5T时,低调上线的“全域NOP+”功能,标志着其自研的世界模型NWM即将正式落地。虽然不是第一个提出世界模型的厂商,但蔚来成为国内率先实现“量产上车”的代表。
这并非个例。几乎所有头部智能驾驶玩家都在押注“世界模型”,并非追逐风口,而是因为:没有“脑子”的车,注定只能做出有限的反应;而拥有“认知能力”的车,才能真正适应千变万化的世界。
1
为什么说“世界模型”是智能驾驶的下一个跃迁?
过去十年,自动驾驶经历了一次重要技术跃迁:从“模块化架构”过渡到“端到端模型”。
端到端模型的最大特征,是把感知、预测、决策、控制这几个原本各自独立的环节,整合进一个统一的神经网络中。一体处理,效率更高、链路更短,也被认为更具泛化能力。
一时间,它被认为是通向“通用智能驾驶”的终极路径。
但美好愿景很快撞上了现实。端到端架构虽然紧凑高效,却暴露出三个致命缺陷:
第一,它是“黑盒系统”。系统做出什么决策、为什么这么决策,很难解释。这让调试变得极其困难,也降低了对系统的信任。
第二,它高度依赖海量标注数据,迁移成本极高。换一个城市、换一个国家,模型就可能要重训。
第三,它是典型的概率决策机制。面对复杂情况时,它往往给出“最有可能”的方案,却错过了“最关键”的细节。哪怕只错一次,结果也可能是灾难性的。
随着技术演进和现实碰撞的反复出现,业内开始出现反思:
“如果90%的消费级数据对训练没帮助,那我们到底在喂模型什么?”
这时,世界模型走上前台。
它源于AI领域对智能体长期策略规划的探索,本质是为系统构建一个可解释、可预测的“世界认知结构”。
简单来说,过去的模型只是在识别“这是什么”,而世界模型则在追问“这意味着什么”,以及“接下来会发生什么”。它具备一种“脑内模拟”的能力——预测未来、虚拟试错。
以一个典型例子说明:
“北京公交专用道工作日7:00-9:00禁行”。过去的系统需要靠“硬编码”将这条规则写入模型,但并不理解它为何如此。而世界模型可以直接接受这句话为输入,理解其时间逻辑与空间边界,并在驾驶过程中自主执行。
甚至,如果某天市政网站发布一条临时封路通告,世界模型可以自动读取网页信息,将临时交通政策纳入自身认知中,做出即时调整。
蔚来此前展示的一段Demo也印证了这一点。在一个Y字路口,蔚来与宝马轿车同时左转。大多数系统会选择“等”,但蔚来的策略却体现出明确的意图博弈——在规则允许下先行一步,表现出一种接近“人类驾驶风格”的主动性。
这不是“看到了再反应”,而是“提前知道要做什么”。
世界模型的最大价值,就在于它是AI迈向“理解世界”的必要门槛。
2
几乎所有头部车企都在押注世界模型
如果说过去十年的智能驾驶技术在解决“怎么让车看得清”,那么现在的问题变成了:“怎么让它想得对”。
这背后的根本挑战在于:如何真正实现大规模泛化能力?
端到端模型做得很像人类:它快速、直觉、整体决策,但一旦遇到没见过的情况,系统就极容易“宕机”。
这不是偶然,而是“机制设计”决定的。端到端依赖的是数据分布,而不是逻辑建模。
而世界模型的设计目标正好相反:它试图为系统建立一种可迁移、可解释、可预测的“世界理解力”。
蔚来的NWM是典型代表。每0.1秒,系统可以生成216种未来轨迹,在下一帧输入后重新筛选最佳路径。这个过程近似于人类司机的“反复评估—微调—决策”行为。
理想的MindVLA则更注重三维语义与轨迹生成的语言建模能力,小鹏的XVLA则主攻车端部署效率,华为乾崑WEWA用“云+端”分体方式构建认知链路。
这些架构的多样性背后,隐含的逻辑是一致的:
构建一种“可扩展的认知系统”,不仅能识别路况、理解规则,还能推演后果,并据此自主决策。
也正因为此,我们看到行业呈现出极高的共识:
几乎所有头部玩家,都不约而同选择将世界模型作为“未来架构”的核心。这不再是路线之争,而是一种时代选择。
3
智驾远未到定格局时刻,技术进步是无限的
很多人认为,华为是当前智能驾驶的“天花板”,但事实上,这个行业远未定局。各种技术路线并行演进,智能驾驶仍然是一个“群雄逐鹿”的赛场。
端到端模型的确在落地效率上有天然优势,但在泛化能力、认知建模等维度上,仍存在结构性瓶颈。
而世界模型虽然看起来更聪明,但也远未解决所有问题,比如数据重构精度、计算资源约束、训练时长过长、模型调优复杂……它看起来也并不是一下就跨时代突破的“万能答案”。
但至少,它为智能驾驶开辟出了一条新的通路。而且从逻辑以及实际的应用上,要优于当前大家能看到的一些技术路线的表现。它让我们有机会在当前“识别-决策-控制”链条之外,另起一套基于“理解-推演-博弈”的智能架构。
不同企业的布局选择,实际上也代表了对下一代智驾范式的判断。蔚来的NWM以重建为核心,结合视频自监督方式做轨迹生成;理想的MindVLA融合语言模型与扩散建模,强化了对目标行为的“语义感知”;小鹏的XVLA更侧重车端部署的轻量化和高频闭环训练;而英伟达Cosmos则提供了物理世界下的多模态合成数据平台……每一个方向,既有优势,也有现实制约。
这场变革,不会一蹴而就,也不是一家企业能独自完成的。
但它确实已成为越来越多头部玩家愿意投入资源、赌上一代架构去押注的方向。蔚来已经打响了第一枪,谁会跟上,值得关注。
未来,或许会有更多路径共同并行发展,也许哪一条最终跑出来仍未可知,但智能驾驶的本质不会变——那就是:理解世界。
而在这个方向上,世界模型,的确是一次有意义的开始。