MIT新研究:用LLM让机器人听懂模糊指令,聚焦关键细节

导读部分 返回列表

在日常办公场景中,您是否曾设想过这样一个场景:当您在开视频会议时,希望机器人能悄悄把咖啡放在桌上,却不会打扰到您。这种看似简单的需求,对当前的机器人来说却是个巨大挑战——它们往往难以理解"别打扰我"这...

正文内容

在日常办公场景中,您是否曾设想过这样一个场景:当您在开视频会议时,希望机器人能悄悄把咖啡放在桌上,却不会打扰到您。这种看似简单的需求,对当前的机器人来说却是个巨大挑战——它们往往难以理解”别打扰我”这类模糊指令背后的真实意图。

近日,MIT计算机科学与人工智能实验室(CSAIL)的研究人员公布了一项新成果:利用大语言模型(LLM)来帮助机器人理解模糊指令,并聚焦任务中的关键细节。从用户视角来看,这项技术有望彻底改变我们与机器人协作的方式——不再需要精确到厘米级的示教,只需一句日常沟通就能让机器人明白该做什么、不该做什么。

从”示范+指令”到”语言交互”

过去,教会机器人完成一项新任务通常需要两种方式:一是通过大量物理演示(手把手教),二是编写详尽的指令文档。前者耗时耗力,后者对非技术用户极不友好。而MIT团队提出的方案是:让用户通过自然语言与机器人交流,同时结合少量物理演示——就像在跟一位新同事”说一遍,做一遍”一样直观。

研究团队设计了一套名为”CLiP”(Concept Learning from Language and Physical demonstrations)的框架。简单来说,当用户对机器人说”把咖啡放在我桌上,但别打扰我开会”,CLiP会先利用LLM解析语句中的关键动作(放咖啡、位置、避开干扰),然后从已有的物理演示数据中匹配最相关的操作模式。如果演示数据中没有完全匹配的场景,LLM还能根据上下文推理出合理的替代方案——例如减少接近用户的距离、降低动作幅度等。

用户体验的升级:降低门槛

从产品经理的角度来看,这项技术的核心价值在于”降低机器人编程的使用门槛”。过去,让机器人理解”别打扰我”这种隐式约束,需要人工编写大量条件判断语句。而现在,普通用户只需用日常语言描述需求,机器人就能自主理解并执行。这意味着未来工厂、仓库、甚至家庭场景中,非技术人员也能轻松指挥机器人干活。

在一组实验中,研究团队用CLiP训练机器人完成”从冰箱拿饮料,但不要打扰工作区同事”这类复杂任务。结果显示,机器人在理解模糊指令的成功率提升了约35%,而完成任务的时间并没有显著增加。更重要的是,用户反馈的”易用性评分”提升了近70%。

当前局限与未来可能

当然,这项技术目前仍处于实验室阶段。最大的挑战在于:LLM虽然擅长理解语义,但对物理世界的空间关系和动作范围仍缺乏直觉。例如当说”轻轻放下”时,机器人可能无法准确把握”轻”的力度阈值。另外,CLiP框架目前需要一定量的预演示数据作为基础库,针对全新场景的泛化能力还有待验证。

从落地方案来看,我认为未来两年内,这项技术最有可能率先应用于仓储物流和家庭服务机器人领域。想象一下,您对家里的清洁机器人说”今天客厅有客人,别进去那边”,它就能绕开特定区域——这样的体验才是真正”懂你”的智能产品。

总的来说,MIT的这项研究让”人机协作”离我们更近了一步。如果您对AI代理相关话题感兴趣,可以阅读我们之前的文章AI营销代理来了,别怕,我们一起慢慢看懂它;同时我们也介绍过Adobe收购Topaz Labs对AI影像增强的影响。作为AI产品的设计者,我们或许很快就不需要再纠结于”如何给机器人写指令”,而是专注于”如何让机器人更好地理解我们”。

本文出自 AI一族,原文链接:https://www.aiyizu.cn/?p=4238

转发请注明出处,禁止未经允许用于任何商业用途。

文章评分

这篇文章对您有帮助吗?

🤖 随时召唤ZUZU陪你一起探索AI世界
ZUZU 伴学
登录享无限次提问 · 答案仅供参考
ZUZU答:
亲爱的小伙伴您好,我是ZUZU,有什么可以帮您的?😃

分享到

微信
朋友圈
QQ
QQ空间
微博
抖音
小红书
复制
二维码

实用功能

夜间模式
小字
大字
收藏
目录
笔记
朗读
相关
搜索
我的笔记
文章内搜索
相关文章推荐
正在加载相关文章...

反馈建议

您需要登录后才能填写意见反馈信息

分享二维码

使用手机扫描二维码

操作成功