(相关资料图)
编程客栈()7月29日 消息:据theverge报道,谷歌希望通过发布人工智能学习模型 Robotic Transformer (RT-2)来使其机器人变得更加智能。
RT-2是该公司所谓的视觉-语言-动作 (VLA) 模型的新版本。该模型教会机器人更好地识别视觉和语言模式,以解释指令并推断哪些物体最适合该请求。
图片:谷歌
研究人员在厨房办公室环境中用机械臂测试了 RT-2,要求其机械臂决定什么是一把好的简易锤子(它是一块石头),并选择一种饮料给疲惫的人(红牛)。他们还告诉机器人将可乐罐移到泰勒斯威夫特的照片上。这个机器人是 Swiftie,这对人类来说是个好消息。
该公司在一篇论文中表示,新模型基于网络和机器人数据进行训练,利用了谷歌自己的 Bard 等大型语言模型的研究进展,并将其与机器人数据(例如要移动的关节)相结合。它还可以理解英语以外的语言的指示。
多年来,研究人员一直试图让机器人具有更好的推理能力,以解决如何在现实生活环境中生存的问题。The Verge 的詹姆斯文森特指出,现实生活是极其混乱的。机器人需要更多的指令才能为人类做一些简单的事情。例如,清理溢出的饮料。人类本能地知道该怎么做:拿起玻璃杯,拿一些东西来清理脏乱的东西,然后把它扔掉,下次要小心。
以前,训练机器人需要很长时间。研究人员必须单独制定方向。但借助 RT-2等 VLA 模型的强大功能,机器人可以访问更多信息来推断下一步该做什么。
谷歌去年首次涉足智能机器人领域,当时它宣布将在机器人技术中使用其法学硕士PaLM,创php建名称尴尬的PaLM-SayCan系统,以将法学硕士与物理机器人集成。
谷javascript歌的新机器人并不完美。《纽约时报》观看了该机器人的现场演示,并报道称它错误地识别了苏打水的口味,并将水果错误地识别为白色。