|
王晓刚不想再让机器人当一个“学人精”了。 过去,教会一个机器人开门,你得让它看成千上万遍不同人、在不同场景下开门的视频。 这套玩法叫VLA(视觉-语言-行为模型),本质上是一种高级模仿。 但问题是,当它遇到一扇从未见过的、漆成黑色的、门把手略有不同的门时,它很可能会当场“死机”。 因为它模仿了动作,却从未理解“门”是什么。 “VLA更像一个超级模仿者,它在死记硬背例题。”王晓刚说。 他是商汤科技的联合创始人,如今又多了一个身份——大晓机器人董事长。 这种模仿的范式,正面临一个无法回避的瓶颈:数据。 根据行业统计,自动驾驶领域可以轻松积累数百万小时的行车数据,但在具身智能领域,由于需要人工遥控机器人进行采集,全球顶尖的实验室也还在10万小时的量级上挣扎。 数据量上不去,机器人就永远是个只能在特定场景表演的“学人精”。 所以,王晓刚和他的新公司“大晓”,决定换一种思路。 他们要给机器人装一个真正能理解世界运行规律的“物理引擎”——世界模型。 从“背答案”到“学公式” 最近,在上海街头,一支由十只形态各异的四足机器狗组成的“汪汪队”开始上街巡逻。 它们没有人类在后面拿着遥控器小心翼翼地跟着,总指挥王晓刚只是在远处挥了挥手,下达指令。 随后,这支队伍便自主散开:有的跑去路边,识别并拍摄违停车辆;有的则在城市禁飞区内扫描,一旦发现违规无人机的信号,便能定位操作者并发出语音警告。 “过去,伺候一条机器狗可能需要两三个人,”王晓刚描绘道,“未来,一个人就能在控制室里,指挥一支完整的机器人军团。” 让这群来自不同制造商(宇树、智元、云深处等)的机器狗“突然开了窍”的,是它们背上统一搭载的“具身超级大脑模组A1”。 而这个大脑的核心,正是大晓机器人此次发布的“开悟”世界模型3.0。 如果说VLA是让机器人“背答案”,那么世界模型就是教它“掌握通用公式”。 这个“公式”就是物理世界的运行规律。 {jz:field.toptypename/}当一个模型理解了“门”是由门框、门板和可以旋转的把手构成的,开门这个动作的本质是施加一个力让门轴旋转,那么无论这扇门是白色还是黑色,是推是拉,它都能举一反三。 正如认知科学家约什·滕鲍姆(Josh Tenenbaum)所说,真正的智能,核心是拥有一套“直觉物理引擎”。 这彻底改变了对海量真实数据的依赖。 过去,训练机器人需要没完没了地采集“场景-指令-动作”的数据对,而现在,可以先在世界模型这个虚拟的“物理实验室”里,生成海量的、带有物理因果的交互数据,让机器人先在“梦中”演练一万次,再到现实世界里实践。 信任的闭环:从没人信到上路实战 世界模型这个概念并不新鲜,甚至一度被行业打上“不靠谱”的标签。 王晓刚回忆,早在2023年11月,他主导发布智能驾驶世界模型时,业界的反应普遍是“不太信”。 当时,包括英伟达等巨头展示的世界模型,更像一个华丽的“数据生成器”,能在实验室里生成以假乱真的驾驶场景视频,开云体育但没人能回答一个致命问题:“你生成的这些数据,到底好不好用?” 没有下游真实场景的验证,信任就无从谈起。 王晓刚的解法很直接:把模型拉到真实世界里去“遛遛”。 他们将这套世界模型接入了与上汽智己的合作项目中,专门用来攻克“过环岛”、“大车突然加塞”这类高风险、高博弈性的“Corner Case”。 过去,要采集这类数据,不仅成本高昂,甚至需要雇佣“演员车”在路上刻意制造危险场景。 而现在,商汤可以在世界模型里,低成本、大规模地生成无数种“加塞”的场景和应对策略,然后让上汽智己的实车去检验、校准这些策略。 模型在一次次真实反馈中,变得越来越“老练”。 这个“先在虚拟世界中推演,再到物理世界中验证”的方法论,如今被完整地复制到了具身智能领域。 这也是为什么大晓选择“机器狗上街”作为商业化的第一站。 四足机器人技术相对成熟,能更快地投入到真实场景中,为世界模型提供源源不断的、来自物理世界的“考题”和“反馈”,形成一个能力持续迭代的闭环。 “单看榜单跑分没有意义,”王晓刚强调,“一个模型好不好,要看它能不能跟机器人系统结合,在真实问题里被大量使用、持续迭代。” 一条务实的商业路线 在发布会上,王晓刚清晰地给出了大晓的商业化路线图: 第一步,先用技术成熟的四足机器人,在道路、园区等场景跑起来,切入安防、巡检等增量市场。 他们不去抢电力巡检这类已经杀成红海的存量市场,而是去开拓那些过去因人力成本高而未被满足的需求。 第二步,在2-3年后,随着技术的成熟,通过轮式双臂机器人,将业务拓展到无人物流仓等半封闭场景。 第三步,也是最终目标,是双足人形机器人与更复杂的家庭服务场景。 “我们先做To B,”王晓刚解释道,“To C市场虽然巨大,但它对产品的可靠性、安全性和成本要求极其苛刻。整个产业链在没有明确的大规模应用驱动前,没有动力去攻克这些工程难关。所以,我们必须先通过To B场景,把整个产业链‘喂’熟。” 在这个过程中,大晓并非白手起家。 母公司商汤过去十余年在城市视觉平台、海外市场渠道等方面的积累,都为大晓提供了可复用的资源,让它能够“摊薄”进入场景的成本。 他们采取一种开放的“软硬一体”策略。 不同于苹果封闭的生态,大晓会自研关键的“大脑”模组,但同时积极与各家本体厂商合作。 “当下最大的问题不是竞争,而是场景还没完全打开。”王晓g刚认为,当他们能为本体厂商带来明确的场景和订单时,合作便水到渠成。 从一个被质疑的学术概念,到一个在街头巷尾处理具体问题的“数字员工”,王晓刚和他的“世界模型”正在走一条异常务实的道路。 他没有一头扎进人形机器人的终极幻想,而是选择先让一群“汪汪队”在城市里跑起来。 因为他深知,在物理世界里,所有的智能,最终都要靠解决一个个具体问题来证明。 AI的星辰大海,必须从脚下的第一寸土地开始丈量。 |


备案号: