SayCan by Google

机器人功能可供性中的基础语言

机器人技术

Description

PaLM-SayCan 是第一个使用大规模语言模型来规划真实机器人的实现。

想象一下在厨房里操作的机器人能够执行“挑选”等技能拿起咖啡杯”或“去水槽”。为了让机器人使用这些技能来执行复杂的任务（例如“我打翻了我的饮料，你能帮忙吗？”），用户可以手动将其分解为由这些原子命令组成的步骤。然而，这将非常乏味。语言模型可以将高级指令（“我打翻了我的饮料，你能帮忙吗？”）拆分成子任务，但它不能有效地做到这一点，除非它具有机器人能够给定的上下文能力，机器人的当前状态及其环境。

在查询现有的大型语言模型（如 GPT-3）时，我们看到一个语言模型查询“我弄翻了我的饮料，你能帮忙吗？”可能会回应“你可以尝试使用真空吸尘器”或“对不起，我不是故意的”。

SayCan vs GPT-3

虽然这些回应听起来很合理，但并不可行

我们将 LLM 与物理任务联系起来的主要原则是观察到，除了要求 LLM 简单地解释指令外，我们还可以使用它对个人技能在完成高级教学方面取得进步的可能性进行评分。此外，如果每种技能都有一个伴随的可供性函数来量化它从当前状态成功的可能性（例如学习价值函数），它的值可以用来衡量技能的可能性。

Once选择了技能，我们在机器人上执行它，该过程通过迭代选择任务并将其附加到指令中来进行。实际上，我们将计划构建为用户和机器人之间的对话，其中用户提供高级指令，例如“你要怎么给我拿个可乐罐？”并且语言模型以明确的序列响应，例如“我会：1.找到一个可乐罐，2.拿起可乐罐，3.把它带给你，4.完成”。总之，给定一个高级指令，SayCan 结合了语言模型的概率（表示技能对指令有用的概率）和值函数的概率（表示成功执行该技能的概率）来选择执行的技巧。这发出了一种既可能又有用的技能。通过将所选技能附加到机器人响应并再次查询模型来重复该过程，直到输出步骤终止。

来源：https://say-can.github.io/