江南体育官网重磅!强化学习大神将大语言模型能力拓展至机器人领域

  新闻资讯     |      2024-05-05 12:38

  JN SPORTS在人工智能飞速发展的今天,ChatGPT、Midjourney等AI工具正将人类的想象力转化为海量数字内容。但由于缺乏真实世界的物理常识,这些模型仍难以胜任需要精准操控的实体任务。不久前,加州大学伯克利分校著名教授Pieter Abbeel及其团队研发出一款名为RFM-1的机器人大脑,有望填补数字世界与现实世界的鸿沟,推动智能制造跨越式发展,被评价为 “开启机器人基础模型新纪元”。

  由Abbeel及其学生创办的机器人公司Covariant推出了全新的机器人基础模型RFM-1。该系统利用公司积累的大量机器人操作数据,结合网络上的图像、文本等海量信息进行训练,使机器人获得了一系列通用技能。

  RFM-1能识别图像、传感器数据、自然语言,并将它们映射到合适的机器人动作。即使面对全新物体如香蕉,它也能迅速理解如何拿取。而且,你可以用口语化指令如“pick up the yellow fruit”来控制机器人,就像对话聊天机器人一样简单自然。

  RFM-1甚至能想象出执行任务的过程。输入初始场景和目标,它会生成一段模拟视频,展示如何操纵物体、预测结果,体现了对物理世界的理解。Covariant CEO Peter Chen评价道:“我们成功将数字领域积累的洞察力转移到了现实世界。”

  在传统的机器人编程中,工程师需要用复杂的代码一步步定义机器人行为,开发周期长且缺乏灵活性。而基于RFM-1,操作员可直接用自然语言指导机器人。

  例如,如果需要机器人对货物进行分拣,只需用英语描述“将红色的盒子放进2号箱”之类的指令,RFM-1就能快速编译成可执行的机器人动作序列江南体育官网。据悉,借助语言互动,新任务的开发时间有望从数周缩短到数分钟。

  不仅如此,RFM-1还能主动向人类求助。当遇到拿取物体等困难时,机器人会尝试分析原因,并向人类operators寻求帮助。人类给出移动或碰撞物体等建议后,RFM-1能将其转化为可行策略,并应用到后续尝试中。通过这种人机协作,复杂任务的执行效率有望大幅提升。

  作为通用智能体,RFM-1需建立起对物理世界的整体认知。Covariant为此专门收集了包含视觉、触觉、语言的多模态机器人数据集,用于训练RFM-1构建层次化的世界模型。

  通过学习视频序列生成,RFM-1掌握了低层次的物理规律,如刚体、铰链的运动特性等。输入初始画面和动作序列,它能预测出未来的场景江南体育官网。在更高层次上,RFM-1还能对机械臂的操控效果做出判断,比如夹取特定物体后,料箱内剩余物品的排布等。这种物理推理能力反过来又强化了视觉运动技能的学习。

  目前,受限于计算资源,RFM-1构建的世界模型在时空分辨率上还比较粗糙。但随着数据的持续采集和模型架构的优化,相信未来它能以更精细的粒度模拟真实环境。这将助力机器人去适应更多复杂多变的应用场景。

  尽管RFM-1展现出了诱人的应用前景,但距离大规模产业化部署仍有相当长的路要走。

  首先是安全性问题。RFM-1目前还主要在仓储物流等容错率较高的领域进行测试。而在制造业、家政服务等对精度和稳定性要求更高的场合,可能还需要更多的工程验证。

  其次是场景适配问题。Covariant计划未来大幅扩充训练数据量,以覆盖更广泛的物体类型、环境条件。但即便如此,通用模型在落地特定行业时江南体育官网,仍然需要针对性的微调和定制化开发。目前整体任务规划逻辑还是由传统代码控制,如何与RFM-1灵活集成也是一个挑战。

  最后,机器人研发成本高昂,商业化道路漫长。当前RFM-1在运算效率、感知精度等方面的提升空间仍然很大。同时,AI研发人才供给有限,硬件部署成本不菲,产业爆发尚需时日。

  尽管如此,Abbeel团队依然坚信,RFM-1代表了机器人基础模型的新起点。“如果机器人能预见未来,它就能规划行动。”Abbeel如是说。未来,类似RFM-1这样集环境理解、任务规划、运动控制等于一体的“机器人大脑”,有望带来自动化水平的整体跃升,为智能制造、服务业带来新的增长动能。我们拭目以待。返回搜狐,查看更多