当一台机器人在超市里帮忙补货,或者在厨房里榨一杯果汁,它能不能在遇到意外情况时自己“学聪明”?这不仅是消费者的期待,更是当前机器人产业走向规模化落地的核心难题。

近日,上海创智学院与智元机器人具身研究中心联合发布LWD(Learning While Deploying)训练框架,让机器人在真实部署过程中“边干边学、越用越强”。创智学院在读博士生王一为第一作者,由学院全职导师罗剑岚指导完成,打通机器人大规模真实部署到持续进化的闭环。



让部署成为学习的起点

过去几年,具身智能大模型已经能让机器人看懂指令、完成不少复杂操作。可一旦把机器人丢进真实的工厂、商超或家庭,面对灯光变化、物体移位、偶然碰撞等各种各样的长尾场景,大多数机器人就“失灵”了。

这是因为主流机器人训练模式高度依赖“离线示教”——人类做一遍“标准答案”,机器人再依葫芦画瓢。这种模式带来“部署那一刻能力就被冻结”的瓶颈。那些在真实运行中出现的偏差、失败、环境变化,没有被吸收进下一次训练。为此,研究团队提出的解决方案,让“部署不再只是模型落地后的终点,而成为机器人能力持续进化的起点”。

据介绍,LWD框架让学习和部署同步,先利用历史数据让机器人建立对物理世界的基本认知,相当于完成“预习”,随后,在真正投入真实场景时,机器人的每一次无论成功还是失败的自主操作,都会实时回流到系统,成为新一轮学习的素材。不仅如此,优化后的策略会同步给整个机器人集群。也就是说,一台机器人在A超市学会了应对某个货架倾斜的补救动作,所有同型号机器人都能立刻“共享经验”。


成功率95%,长程任务提升17%

研究者认为,新框架让机器人的成长从“模仿人类”升级为“从自身交互中学习”,机器人不再仅仅复现示范数据里的最优动作,而是在真实世界的成功与失败中,自己找到更好的解法、更短的路径、更鲁棒的恢复策略。

团队在16台双臂机器人组成的真实集群上,针对商超补货、泡茶、榨汁、物品收纳等8个复杂任务进行了系统测试。这些任务往往需要持续数分钟的多步骤规划和精细物理操作。评测结果显示:搭载新框架的机器人平均成功率达到了95%,显著优于传统方案。在最棘手的长程任务中,新框架带来了最高17%的成功率提升,而且单次任务平均操作周期缩短了约23.75秒。这意味着机器人变得更聪明,学会了自我纠错和路径优化——从“机械执行”跨越到“智能纠错”。

此项成果作为“创智模式”试点的缩影,也是创智践行“研创型大学”理念的实例。在此次联合攻坚中,创智学院学生王一担纲论文第一作者,同时还有大批创智学子深度参与了从底层算法设计到真机集群测试的全流程研发,充分展现了该模式在拔尖创新人才培养与产教深度融合上的显著成效。

新框架将为产业带来“部署规模越大、能力增长越快”的正向循环,有望真正降低通用机器人的落地门槛。而对于那些正在成长为顶尖人工智能人才的年轻学子来说,也是一次最好的实战课堂。

原标题:《成功率95%长程任务提升17%,创智学院联合智元机器人发布LWD训练框架》

栏目编辑:马丹 图片来源:采访对象供图

来源:作者:新民晚报 易蓉