苹果Vision Pro头显AI助手来了 会调酒还会打麻将|世界独家

编程客栈()6月12日 消息:上周苹果推出的Vision Pro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话,会是什么样的体验吗?


(资料图片仅供参考)

最近,新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter(水獭)。它能够以视频作为输入,完成多模态的感知、推理和上下文学习,并经过专门的指令遵守训练。

它不仅能够教你打麻将、开飞机,还能教你调酒。它能够实时识别现实场景并回答人类提问,简直是一个全能型的选手。

Otter支持8种语言,包括中文。在训练过程中,团队使用编程客栈了适用于增强现实头戴显示器的第一人称视角视频,明确表示这是为苹果头戴显示器准备的。有网友发现,在各种测试项目中,Otter的ThTew平均成绩比传统的MiniGP编程T-4、OpenFlamingo等传统模型高出了十几个百分点。

Otter使用视觉识别模块来分析场景信息,并结合ChatGPT生成答案。其中,关键的视觉模块是基于改良版的LLaVA进行训练的。Otter的工作流程大概是这样的:首先要对视觉信息进行处理,并结合系统信息生成激励。生成好的激励会被传递给ChatGPT,得到指令-回应数据。这些回应数据再经过一步筛选器的筛选,由ChatGPT将所选择的语言进行翻译并输出。此外,团队还引入了冷启动机制,用于发现可用于数据库中的情景实例。

在线体验:

https://otter.cliangyu.com/

论文地址:

https://arxiv.org/abs/2306.05425

github页面:

https://github.com/Luodian/Otter

推荐DIY文章
全国职工数字化应用技术技能大赛决赛收官
强者恒强,江铃福特全顺何以持续领跑轻客市场?
最新资讯:机械设计基础精品课程 让学习像拆分讲解设备案例一样简单!
陈一冰公开资料介绍 是中国男子体操新生代中的佼佼者_天天热资讯
地下城与勇士守护者祭坛 可以通过工艺领主之塔获得固体亡灵碎片吗-环球聚看点
世界热点!璀璨人生李沁演技 其在2008年饰演新版红楼梦而出道
精彩新闻

超前放送