新V观海外：谷歌多模态AI助理Astra仍在持续进化--www.abg888.net 最新登录

新V观海外：谷歌多模态AI助理Astra仍在持续进化

日期：2024-07-18 作者：分类：行业动态浏览：次

谷歌DeepMind曾在五月I/O大会上重点展示了新的多模态AI助理项目Project Astra，用户可在手机上打开Astra观察现场环境并进行问答，展示了多模态AI助理在实时视觉识别和低延迟语音交互方面的能力。

不过，由于OpenAI正好抢在前一天展示了GPT-4o的实时交互效果，很大程度上抢走了本属于谷歌Astra的关注热度。尽管如此，谷歌在I/O大会之后继续发布Astra的最新展示效果，Astra的多模态理解能力仍在持续进化。

理解现实物理世界的复杂信息

在近期的一项展示中，研究者在手机上打开Astra环视办公室环境，要求Astra在看到能发出声音的物体时进行指出。

Astra随即在用户走到办公桌附近时，成功指出了桌上放的音箱，并能根据用户进一步指向位置，对应解释音箱上的高频扬声器的功能。

随着研究者在办公室中继续移动，Astra还能接连看懂程序员电脑屏幕上的加密算法代码、根据桌上的彩色笔进行造句、识别窗外的著名建筑——国王十字车站——并推理出当前位置处于英国伦敦。

以上一系列过程展示了Astra对于现实世界的深度理解能力。它至少已经能够横跨物理、编程、文学、地理等多个维度，与研究者在现实世界中进行实时交流。

发展出了短期记忆能力

在展示过Astra以上综合理解能力后，研究者突然来了个“回马枪”，向Astra提问刚才在办公室中走动时，是否还记得眼镜放在哪里？

Astra简单停顿片刻，就立即回答出眼镜放在刚才走过窗边的桌上。

虽然研究者没有专门展示Astra的记忆周期有多长，但很明显它至少具备了短期记忆能力。在它看过的环境中，就算当时出现时没有被问到的物体，在后续被追问时依然能检索视觉记忆信息并回答出来。

已与眼镜实现无缝集成

研究者找到眼镜戴上后，展示了另一段Astra搭载在眼镜上的交流效果。这也是很多人对多模态AI助理的期待，将多模态AI助理搭载在眼镜上直接观察世界。

在眼镜上的展示过程中，Astra的深度理解和实时交流能力没有任何打折。它依然能够理解IT系统草图并给出优化建议，看懂黑板上两只猫简笔画加上实物纸盒组合出了“薛定谔的猫”的含义，并能结合宠物品种和玩偶外观起一个适当的名字。

这表明，为Astra提供理解能力的基础模型已经在可穿戴设备端实现了适配，甚至是在眼镜这种计算、内存、能耗远低于智能手机的设备环境中，也能运行起来。

总体来看，Astra的实时视觉理解和交互能力已经非常突出，特别是集成到眼镜上的展示效果更令人印象深刻。

但是也要看到，尽管在眼镜上集成多模态AI助理值得期待，但是语音交互的应用场景很有限，在现实中还要面临噪声、续航、光照环境、佩戴舒适性等诸多限制因素，因此Astra未来的产品化过程还会经历很多取舍，实际产品前景仍需谨慎观察。