AI一族 › AI新闻资讯

MIT新研究：用LLM让机器人听懂模糊指令，聚焦关键细节

作者： www.aiyizu.cn

发布时间： 2026年06月26日

阅读时长：约 4 分钟

导读部分返回列表

在日常办公场景中，您是否曾设想过这样一个场景：当您在开视频会议时，希望机器人能悄悄把咖啡放在桌上，却不会打扰到您。这种看似简单的需求，对当前的机器人来说却是个巨大挑战——它们往往难以理解"别打扰我"这...

正文内容

在日常办公场景中，您是否曾设想过这样一个场景：当您在开视频会议时，希望机器人能悄悄把咖啡放在桌上，却不会打扰到您。这种看似简单的需求，对当前的机器人来说却是个巨大挑战——它们往往难以理解”别打扰我”这类模糊指令背后的真实意图。

近日，MIT计算机科学与人工智能实验室（CSAIL）的研究人员公布了一项新成果：利用大语言模型（LLM）来帮助机器人理解模糊指令，并聚焦任务中的关键细节。从用户视角来看，这项技术有望彻底改变我们与机器人协作的方式——不再需要精确到厘米级的示教，只需一句日常沟通就能让机器人明白该做什么、不该做什么。

从”示范+指令”到”语言交互”

过去，教会机器人完成一项新任务通常需要两种方式：一是通过大量物理演示（手把手教），二是编写详尽的指令文档。前者耗时耗力，后者对非技术用户极不友好。而MIT团队提出的方案是：让用户通过自然语言与机器人交流，同时结合少量物理演示——就像在跟一位新同事”说一遍，做一遍”一样直观。

研究团队设计了一套名为”CLiP”（Concept Learning from Language and Physical demonstrations）的框架。简单来说，当用户对机器人说”把咖啡放在我桌上，但别打扰我开会”，CLiP会先利用LLM解析语句中的关键动作（放咖啡、位置、避开干扰），然后从已有的物理演示数据中匹配最相关的操作模式。如果演示数据中没有完全匹配的场景，LLM还能根据上下文推理出合理的替代方案——例如减少接近用户的距离、降低动作幅度等。

用户体验的升级：降低门槛

从产品经理的角度来看，这项技术的核心价值在于”降低机器人编程的使用门槛”。过去，让机器人理解”别打扰我”这种隐式约束，需要人工编写大量条件判断语句。而现在，普通用户只需用日常语言描述需求，机器人就能自主理解并执行。这意味着未来工厂、仓库、甚至家庭场景中，非技术人员也能轻松指挥机器人干活。

在一组实验中，研究团队用CLiP训练机器人完成”从冰箱拿饮料，但不要打扰工作区同事”这类复杂任务。结果显示，机器人在理解模糊指令的成功率提升了约35%，而完成任务的时间并没有显著增加。更重要的是，用户反馈的”易用性评分”提升了近70%。

当前局限与未来可能

当然，这项技术目前仍处于实验室阶段。最大的挑战在于：LLM虽然擅长理解语义，但对物理世界的空间关系和动作范围仍缺乏直觉。例如当说”轻轻放下”时，机器人可能无法准确把握”轻”的力度阈值。另外，CLiP框架目前需要一定量的预演示数据作为基础库，针对全新场景的泛化能力还有待验证。

从落地方案来看，我认为未来两年内，这项技术最有可能率先应用于仓储物流和家庭服务机器人领域。想象一下，您对家里的清洁机器人说”今天客厅有客人，别进去那边”，它就能绕开特定区域——这样的体验才是真正”懂你”的智能产品。

总的来说，MIT的这项研究让”人机协作”离我们更近了一步。如果您对AI代理相关话题感兴趣，可以阅读我们之前的文章AI营销代理来了，别怕，我们一起慢慢看懂它；同时我们也介绍过Adobe收购Topaz Labs对AI影像增强的影响。作为AI产品的设计者，我们或许很快就不需要再纠结于”如何给机器人写指令”，而是专注于”如何让机器人更好地理解我们”。

本文出自 AI一族，原文链接：https://www.aiyizu.cn/?p=4238

转发请注明出处，禁止未经允许用于任何商业用途。

上一篇： 2026年AI编程工具对比推荐：6款热门AI编程助手深度评测

这篇文章对您有帮助吗？

🤖 随时召唤ZUZU陪你一起探索AI世界

我的AI导航

我的AI导航

MIT新研究：用LLM让机器人听懂模糊指令，聚焦关键细节

导读部分返回列表

正文内容

文章评分

这篇文章对您有帮助吗？

MIT新研究：用LLM让机器人听懂模糊指令，聚焦关键细节

导读部分 返回列表

正文内容

文章评分

这篇文章对您有帮助吗？

分享到

实用功能

我的笔记

文章内搜索

相关文章推荐

反馈建议

分享二维码

操作成功

导读部分返回列表