挪威人形机器人公司1X的“世界模型挑战赛”第二阶段——抽样阶段现已公布,英伟达的新发布的Cosmos视频分词器也将助力该阶段的进行。
世界模型,机器人训练新方向
世界模型是一种计算机程序,可以预测世界如何响应智能体的行为而演变。对于通用机器人来说,它可以有效地解决评估问题,实现更加安全、可靠和智能的机器人。
世界模型挑战赛,10000美元奖金激励
为了推动世界模型的研究进展,1X举办了三阶段的世界模型挑战赛。第二阶段侧重于通过给定前一帧序列来预测下一帧,从而产生连贯且合理的视频延续,准确反映场景的动态。该阶段奖金同样为10000美元,要求提交的PSNR应达到26.5左右或更高,评估服务器将于2025年3月开放。
英伟达Cosmos分词器,助力视频模型研究
英伟达的Cosmos视频分词器是一种将冗余和隐式视觉数据映射到紧凑的语义token中的工具。它能够高效训练大规模生成模型,并在有限的计算资源上实现推理。在第二阶段的挑战中,Cosmos视频分词器将用于进一步处理视频序列,为机器人数据创建高度压缩的时间表示。
1X世界模型,模拟真实世界复杂性
1X的研究人员结合视频和动作数据训练了世界模型,该模型能够根据不同的动作命令生成不同的结果。它的主要价值在于模拟对象交互。例如,为模型提供相同的初始帧和三组不同的抓取操作,被抓取的箱子会根据抓手的运动被抬起和移动,而其他箱子则不受干扰。
Cosmos分词器的优势
Cosmos分词器使用复杂的编码器-解码器结构,核心是一个3D因果卷积块,用于同时处理时空信息,并使用因果时间注意力来捕获数据中的长期依赖关系。这种方法提高了学习效率和推理速度,在重建质量和压缩率方面都表现出色。
挑战赛启示,Scaling law必不可少
如果机器人想要拥有自己的“ChatGPT时刻”,Scaling law必不可少。世界模型挑战赛提供了激励,推动研究人员探索新的方法来训练和评估机器人,从而为人工智能时代的机器人发展铺平道路。
原创文章,作者:讯知在线,如若转载,请注明出处:http://mip.xzxci.cn/2024/11/25/22430.shtml