开云体育官方网站一人如何管十条机器狗？王晓刚揭秘“世界模型”，已让它们上街干活

王晓刚不想再让机器人当一个“学人精”了。

过去，教会一个机器人开门，你得让它看成千上万遍不同人、在不同场景下开门的视频。

这套玩法叫VLA（视觉-语言-行为模型），本质上是一种高级模仿。

但问题是，当它遇到一扇从未见过的、漆成黑色的、门把手略有不同的门时，它很可能会当场“死机”。

因为它模仿了动作，却从未理解“门”是什么。

“VLA更像一个超级模仿者，它在死记硬背例题。”王晓刚说。

他是商汤科技的联合创始人，如今又多了一个身份——大晓机器人董事长。

这种模仿的范式，正面临一个无法回避的瓶颈：数据。

根据行业统计，自动驾驶领域可以轻松积累数百万小时的行车数据，但在具身智能领域，由于需要人工遥控机器人进行采集，全球顶尖的实验室也还在10万小时的量级上挣扎。

数据量上不去，机器人就永远是个只能在特定场景表演的“学人精”。

所以，王晓刚和他的新公司“大晓”，决定换一种思路。

他们要给机器人装一个真正能理解世界运行规律的“物理引擎”——世界模型。

从“背答案”到“学公式”

最近，在上海街头，一支由十只形态各异的四足机器狗组成的“汪汪队”开始上街巡逻。

它们没有人类在后面拿着遥控器小心翼翼地跟着，总指挥王晓刚只是在远处挥了挥手，下达指令。

随后，这支队伍便自主散开：有的跑去路边，识别并拍摄违停车辆；有的则在城市禁飞区内扫描，一旦发现违规无人机的信号，便能定位操作者并发出语音警告。

“过去，伺候一条机器狗可能需要两三个人，”王晓刚描绘道，“未来，一个人就能在控制室里，指挥一支完整的机器人军团。”

让这群来自不同制造商（宇树、智元、云深处等）的机器狗“突然开了窍”的，是它们背上统一搭载的“具身超级大脑模组A1”。

而这个大脑的核心，正是大晓机器人此次发布的“开悟”世界模型3.0。

如果说VLA是让机器人“背答案”，那么世界模型就是教它“掌握通用公式”。

这个“公式”就是物理世界的运行规律。

{jz:field.toptypename/}

当一个模型理解了“门”是由门框、门板和可以旋转的把手构成的，开门这个动作的本质是施加一个力让门轴旋转，那么无论这扇门是白色还是黑色，是推是拉，它都能举一反三。

正如认知科学家约什·滕鲍姆（Josh Tenenbaum）所说，真正的智能，核心是拥有一套“直觉物理引擎”。

这彻底改变了对海量真实数据的依赖。

过去，训练机器人需要没完没了地采集“场景-指令-动作”的数据对，而现在，可以先在世界模型这个虚拟的“物理实验室”里，生成海量的、带有物理因果的交互数据，让机器人先在“梦中”演练一万次，再到现实世界里实践。

信任的闭环：从没人信到上路实战

世界模型这个概念并不新鲜，甚至一度被行业打上“不靠谱”的标签。

王晓刚回忆，早在2023年11月，他主导发布智能驾驶世界模型时，业界的反应普遍是“不太信”。

当时，包括英伟达等巨头展示的世界模型，更像一个华丽的“数据生成器”，能在实验室里生成以假乱真的驾驶场景视频，开云体育但没人能回答一个致命问题：“你生成的这些数据，到底好不好用？”

没有下游真实场景的验证，信任就无从谈起。

王晓刚的解法很直接：把模型拉到真实世界里去“遛遛”。

他们将这套世界模型接入了与上汽智己的合作项目中，专门用来攻克“过环岛”、“大车突然加塞”这类高风险、高博弈性的“Corner Case”。

过去，要采集这类数据，不仅成本高昂，甚至需要雇佣“演员车”在路上刻意制造危险场景。

而现在，商汤可以在世界模型里，低成本、大规模地生成无数种“加塞”的场景和应对策略，然后让上汽智己的实车去检验、校准这些策略。

模型在一次次真实反馈中，变得越来越“老练”。

这个“先在虚拟世界中推演，再到物理世界中验证”的方法论，如今被完整地复制到了具身智能领域。

这也是为什么大晓选择“机器狗上街”作为商业化的第一站。

四足机器人技术相对成熟，能更快地投入到真实场景中，为世界模型提供源源不断的、来自物理世界的“考题”和“反馈”，形成一个能力持续迭代的闭环。

“单看榜单跑分没有意义，”王晓刚强调，“一个模型好不好，要看它能不能跟机器人系统结合，在真实问题里被大量使用、持续迭代。”

一条务实的商业路线

在发布会上，王晓刚清晰地给出了大晓的商业化路线图：

第一步，先用技术成熟的四足机器人，在道路、园区等场景跑起来，切入安防、巡检等增量市场。

他们不去抢电力巡检这类已经杀成红海的存量市场，而是去开拓那些过去因人力成本高而未被满足的需求。

第二步，在2-3年后，随着技术的成熟，通过轮式双臂机器人，将业务拓展到无人物流仓等半封闭场景。

第三步，也是最终目标，是双足人形机器人与更复杂的家庭服务场景。

“我们先做To B，”王晓刚解释道，“To C市场虽然巨大，但它对产品的可靠性、安全性和成本要求极其苛刻。整个产业链在没有明确的大规模应用驱动前，没有动力去攻克这些工程难关。所以，我们必须先通过To B场景，把整个产业链‘喂’熟。”

在这个过程中，大晓并非白手起家。

母公司商汤过去十余年在城市视觉平台、海外市场渠道等方面的积累，都为大晓提供了可复用的资源，让它能够“摊薄”进入场景的成本。

他们采取一种开放的“软硬一体”策略。

不同于苹果封闭的生态，大晓会自研关键的“大脑”模组，但同时积极与各家本体厂商合作。

“当下最大的问题不是竞争，而是场景还没完全打开。”王晓g刚认为，当他们能为本体厂商带来明确的场景和订单时，合作便水到渠成。

从一个被质疑的学术概念，到一个在街头巷尾处理具体问题的“数字员工”，王晓刚和他的“世界模型”正在走一条异常务实的道路。

他没有一头扎进人形机器人的终极幻想，而是选择先让一群“汪汪队”在城市里跑起来。

因为他深知，在物理世界里，所有的智能，最终都要靠解决一个个具体问题来证明。

AI的星辰大海，必须从脚下的第一寸土地开始丈量。

开云体育官方网站 一人如何管十条机器狗？王晓刚揭秘“世界模型”，已让它们上街干活

开云体育官方网站一人如何管十条机器狗？王晓刚揭秘“世界模型”，已让它们上街干活