苹果Vision Pro头显AI助手来了会调酒还会打麻将

2023-06-12 12:27

默认

摘要：上周苹果推出的Vision Pro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话，会是什么样的体验吗?最近，新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter（水獭）。它能..

上周苹果推出的Vision Pro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话，会是什么样的体验吗?

最近，新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter（水獭）。它能够以视频作为输入，完成多模态的感知、推理和上下文学习，并经过专门的指令遵守训练。

它不仅能够教你打麻将、开飞机，还能教你调酒。它能够实时识别现实场景并回答人类提问，简直是一个全能型的选手。

Otter支持8种语言，包括中文。在训练过程中，团队使用了适用于增强现实头戴显示器的第一人称视角视频，明确表示这是为苹果头戴显示器准备的。有网友发现，在各种测试项目中，Otter的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出了十几个百分点。

Otter使用视觉识别模块来分析场景信息，并结合ChatGPT生成答案。其中，关键的视觉模块是基于改良版的LLaVA进行训练的。Otter的工作流程大概是这样的:首先要对视觉信息进行处理，并结合系统信息生成激励。生成好的激励会被传递给ChatGPT，得到指令-回应数据。这些回应数据再经过一步筛选器的筛选，由ChatGPT将所选择的语言进行翻译并输出。此外，团队还引入了冷启动机制，用于发现可用于数据库中的情景实例。

在线体验:

https://otter.cliangyu.com/

论文地址:

https://arxiv.org/abs/2306.05425

GitHub页面:

https://github.com/Luodian/Otter

更新于：2023-06-12 12:27

苹果Vision Pro头显AI助手来了会调酒还会打麻将

最近发表

加速拓展欧洲市场！Tiktok的突围之路

美客多新增美国转运仓模式，十大入驻问题解答！

京东元旦和年货节哪个力度大？年货节一般是什么时候？

淘宝直播间的流量为什么越来越差？怎样获取？

京东买白酒是自营好还是官方店好？买白酒可靠吗？

淘宝退货宝退货需要付运费吗？退货运费谁出？

小红书商业化业务确定2025年三大方向

抖店怎么同步其他平台销量？抖店销量是下单就算吗？

95后是淘宝天猫消费年货的绝对主力！

快手短剧有大动作！

相关文章