江南体育官网重磅！强化学习大神将大语言模型能力拓展至机器人领域

新闻资讯 | 2024-05-05 12:38

　　JN SPORTS在人工智能飞速发展的今天，ChatGPT、Midjourney等AI工具正将人类的想象力转化为海量数字内容。但由于缺乏真实世界的物理常识，这些模型仍难以胜任需要精准操控的实体任务。不久前，加州大学伯克利分校著名教授Pieter Abbeel及其团队研发出一款名为RFM-1的机器人大脑，有望填补数字世界与现实世界的鸿沟，推动智能制造跨越式发展，被评价为 “开启机器人基础模型新纪元”。

　　由Abbeel及其学生创办的机器人公司Covariant推出了全新的机器人基础模型RFM-1。该系统利用公司积累的大量机器人操作数据，结合网络上的图像、文本等海量信息进行训练，使机器人获得了一系列通用技能。

　　RFM-1能识别图像、传感器数据、自然语言，并将它们映射到合适的机器人动作。即使面对全新物体如香蕉，它也能迅速理解如何拿取。而且，你可以用口语化指令如“pick up the yellow fruit”来控制机器人，就像对话聊天机器人一样简单自然。

　　RFM-1甚至能想象出执行任务的过程。输入初始场景和目标，它会生成一段模拟视频，展示如何操纵物体、预测结果，体现了对物理世界的理解。Covariant CEO Peter Chen评价道：“我们成功将数字领域积累的洞察力转移到了现实世界。”

　　在传统的机器人编程中，工程师需要用复杂的代码一步步定义机器人行为，开发周期长且缺乏灵活性。而基于RFM-1，操作员可直接用自然语言指导机器人。

　　例如，如果需要机器人对货物进行分拣，只需用英语描述“将红色的盒子放进2号箱”之类的指令，RFM-1就能快速编译成可执行的机器人动作序列江南体育官网。据悉，借助语言互动，新任务的开发时间有望从数周缩短到数分钟。

　　不仅如此，RFM-1还能主动向人类求助。当遇到拿取物体等困难时，机器人会尝试分析原因，并向人类operators寻求帮助。人类给出移动或碰撞物体等建议后，RFM-1能将其转化为可行策略，并应用到后续尝试中。通过这种人机协作，复杂任务的执行效率有望大幅提升。

　　作为通用智能体，RFM-1需建立起对物理世界的整体认知。Covariant为此专门收集了包含视觉、触觉、语言的多模态机器人数据集，用于训练RFM-1构建层次化的世界模型。

　　通过学习视频序列生成，RFM-1掌握了低层次的物理规律，如刚体、铰链的运动特性等。输入初始画面和动作序列，它能预测出未来的场景江南体育官网。在更高层次上，RFM-1还能对机械臂的操控效果做出判断，比如夹取特定物体后，料箱内剩余物品的排布等。这种物理推理能力反过来又强化了视觉运动技能的学习。

　　目前，受限于计算资源，RFM-1构建的世界模型在时空分辨率上还比较粗糙。但随着数据的持续采集和模型架构的优化，相信未来它能以更精细的粒度模拟真实环境。这将助力机器人去适应更多复杂多变的应用场景。

　　尽管RFM-1展现出了诱人的应用前景，但距离大规模产业化部署仍有相当长的路要走。

　　首先是安全性问题。RFM-1目前还主要在仓储物流等容错率较高的领域进行测试。而在制造业、家政服务等对精度和稳定性要求更高的场合，可能还需要更多的工程验证。

　　其次是场景适配问题。Covariant计划未来大幅扩充训练数据量，以覆盖更广泛的物体类型、环境条件。但即便如此，通用模型在落地特定行业时江南体育官网，仍然需要针对性的微调和定制化开发。目前整体任务规划逻辑还是由传统代码控制，如何与RFM-1灵活集成也是一个挑战。

　　最后，机器人研发成本高昂，商业化道路漫长。当前RFM-1在运算效率、感知精度等方面的提升空间仍然很大。同时，AI研发人才供给有限，硬件部署成本不菲，产业爆发尚需时日。

　　尽管如此，Abbeel团队依然坚信，RFM-1代表了机器人基础模型的新起点。“如果机器人能预见未来，它就能规划行动。”Abbeel如是说。未来，类似RFM-1这样集环境理解、任务规划、运动控制等于一体的“机器人大脑”，有望带来自动化水平的整体跃升，为智能制造、服务业带来新的增长动能。我们拭目以待。返回搜狐，查看更多