谷歌AI春晚宣告Gemini时代将至，10倍能效10倍上下文碾压OpenAI？

文｜李然虞景霖

编辑｜李然

封面来源｜官方视频截图

看过了昨天OpenAI虽然短但是科幻感极强的发布会，相信所有人都在期待一天后的谷歌将会给出怎样的回应。

如果说前一天OpenAI的发布会是一道精致的法餐，谷歌的I/O大会绝对算得上是一道量大管饱，诚意满满的满汉全席——谷歌端出了最新的大模型，全模态AI助手，开源视觉模型，视频生成模型，再到算力芯片等等一系列AI行业中最顶级的产品和技术前来应对。

整场发布会看下来，谷歌一洗前两年发布会结束都会给自己造成公关危机的“前耻”，通过自己深厚的技术积累，强大的工程能力和丰富的产品生态，向世人展现了一个自信且目标远大的AI大厂应该有的样子。

具体来说，谷歌是唯一一家同时拥有自己的原生支持从文字到视频的多模态大模型，触及全球几十亿用户的AI应用场景，完全自主的AI算力芯片的科技大厂。谷歌在AI领域中提前下的这些“硬功夫”，一定会在未来继续奔涌的AI大潮中结出丰硕的果实。

被OpenAI截胡的Project Astra，不够惊喜但足够惊艳

纵观整个发布会，最让人眼前一亮的发布就是这个几乎和OpenAI提前一天发布的基于GPT-4o的AI个人助理一样的Project Astra。不过可惜的是，因为OpenAI的抢跑，它成为了世界上第二个多模态AI助手。

官方视频截图

我们先来看看谷歌放出的Project Astra演示效果。注意，DeepMind Hassabis专门介绍，这个视频是在真实环境中一次拍摄完成的效果。

可以看到，Project Astra也能实时的感知外部环境，并根据用户提出的问题进行非常智能的反馈。视频中，它向用户提供了包括代码编写，生活常识建议，周围环境的理解和识别，甚至能记住之前看到过的物品摆放位置。

可以说，相比OpenAI强调的自然人机交互，Project Astra的宣传视频看起来真的更智能，更加科幻。如果说OpenAI的GPT-4o是把电影《Her》中的Samantha搬进了现实，那么Project Astra真的有钢铁侠Javis那味了。

根据DeepMind CEO Hassabis的说法，Project Astra可以理解空间，处理视频输入，并且能够记忆之前处理过的内容。

官方视频截图

基于Gemini强大的原生多模态能力和超长的上下文，对于视频的理解和记忆确实让人看到了科幻电影中那种无所不能的智能助手的影子了。

不过稍显可惜的是，Project Astra依然还只是一个原型，实际的产品可能短期之内还难以上线，但是详细在技术层面厚积薄发，在产品层面又能集中力量办大事的谷歌，希望未来不会让用户们失望。

Gemini时代到来，10倍上下文10倍能效碾压OpenAI？

官方视频截图

作为谷歌AI的拳头产品，Gemini从去年底发布之后，其长达100万token的上下文长度已经吸引了全世界超过100万开发者用户。

官方视频截图

用户凭借它超强的上下文能力，可以将大量的文档和数据一次性处理，让Geimini输出复杂的结果。

而且因为Gemini原生的多模态能力，它能除了使用文字之外，在输出中还可以包括图片等多模态的结果和代码。

官方视频截图

从5月15日起，Gemini 1.5 Pro的100万token上下文能力通过谷歌的Gemini Advanced服务向全球的普通用户开放。

而未来，Gemini 1.5 Pro将陆续开放200万token的上下文能力。

而作为像谷歌这样产品众多的大公司，Gemini的除了直接服务用户，它与现有的谷歌应用结合在一起，将会迸发出更大的能量。

Gemini Flash——轻量版的Gemini Pro，价格直接打骨折

谷歌针对Gemini依然还在不断做出优化，此次推出的Gemini Flash可以看做是类似GPT-4向GPT-4Turbo的升级。

官方视频截图

而在支持的功能上，Gemini 1.5 Flash也和Gemini 1.5 Pro一样，是一个原生多模态的大模型，而且也支持100万token的上下文。

相比与Gemini Pro， Gemini Flash有着更高的推理性能和低得多的价格，但是性能几乎没有太大的下降。

官方视频截图

在谷歌官披露的价格，Gemini Flash的价格基本上只有Gemini Pro和其他主流大模型API价格的1/10。

官方视频截图

从这个API的定价能看出，谷歌通过自己在能耗和效率上非常有优势的TPU，把大模型推理的成本降到了一个令人发指的程度。相信在如此低廉价格的吸引之下，未来会有越来越多的开发者转向谷歌的模型。

官方视频截图

为了帮助用户能更加自然的与Gemini对话，谷歌将会上线Gemini Live。用户可以通过手机和Gemini直接进行语音交互。它可以帮助用户练习面试，直接回答生活中的难题。而且在今年年底，Live还将支持视频摄像功能。

计划行程这种头疼的差事儿，也可以甩给Gemini Live。你只需告诉它你的时间、目的地、兴趣爱好等，它就能帮你制定一份个性化行程，包括景点、餐厅、活动，连路线时长都安排得明明白白。有变动还能自动更新，简直是旅行规划小能手。

此外，Gemini Live还能与谷歌日历、任务、备忘录等应用无缝连接。拍张课程大纲，它就能自动为每项作业创建日历提醒；或者把新get的菜谱拍下来，食材清单就自动同步到备忘录里了。

官方视频截图

未来，借助Gemini Live作为入口，Gemini的能力将和谷歌生态中的各项应用深度融合，真正将大模型能力汇入我们的生活当中。

谷歌同时也在Gemini平台上推出Gems——谷歌版GPTs。用户可以根据自己的需求创建专属于自己的AI助手：为你指定日常锻炼计划，用积极向上、充满激情的语气鼓励你坚持的健身伙伴Gem,又或者是烹饪助手Gem、编程搭档Gem……

官方视频截图

谷歌AI帝国的硬件基石——Trillium

官方视频截图

谷歌作为唯一一家拥有AI算力芯片的大模型公司，也发布了他们第6代TPU——Trillium。谷歌宣称，在今天I/O大会上发布的几乎所有AI产品，背后都有TPU的支持。

和上一代TPU v5e相比，Trillium TPU的每芯片峰值计算性能提高了4.7倍，高带宽内存(HBM)容量和带宽提高了一倍，芯片间互联(ICI)带宽也提高了一倍，能效提高了67%。

官方视频截图

此外，Trillium配备了第三代SparseCore，这是一种专门用于处理高级排名和推荐工作负载中常见的超大嵌入的专业加速器。Trillium TPU使谷歌能够更快地训练下一代基础模型，并以更短的延迟和更低的成本为这些模型提供服务。

Trillium可以在单个高带宽、低延迟的Pod中扩展到最多256个TPU。除了这种Pod级别的可扩展性外，通过多切片技术和钛智能处理单元(IPU)，Trillium TPU可以扩展到数百个Pod，通过每秒数PB的数据中心网络连接大楼规模的超级计算机中的数万个芯片。

可以说，正是因为谷歌牢牢的掌握了自己的“算力自由”，才能在全世界都被英伟达割韭菜的AI浪潮中独享低成本高效率带来的优势，按照自己的节奏一步一步建立起AI帝国。

开源社区狂欢，谷歌发布首个开源视觉大模型

而面对开源社区的期待，谷歌这次也是诚意满满，发布了新的开源大模型Gema 2。

官网截屏

而且还发布首个开源的视觉大模型PaliGemma！

网页截屏

Hugging Face：https://huggingface.co/google

Gema 2按照谷歌的说法，是目前开源模型中效率和性能结合得最好的模型。

网页截屏

Gema 2 27B以不到Llama 3 70B一半的体量提供了与Llama 3 70B相当的性能，为开源模型设立的新的性能标杆。

而且Gema 2的S高效设计使其适合的计算量不到同类模型的一半。27B机型经过优化，可以在英伟达的GPU或者Vertex AI中的单个TPU主机上高效运行，让用户更容易进行部署，并且更具成本效益。

而且Gema 2将为开发人员提供跨不同平台和工具生态系统的强大微调能力。从像Google Cloud这样的基于云的解决方案到像Axolotl这样的流行社区工具，Gema 2的微调将比以往任何时候都更加容易。此外，与Hugging Face和英伟达TensorRT-LLM的无缝合作伙伴集成，再加上谷歌自己的JAX和KERAS，确保用户可以优化性能并在各种硬件配置中高效部署。

网页截屏

而PaliGema是一个受Pali-3启发的强大的开源VLM。PaliGema专为在各种视觉语言任务上进行了微调，能完成包括图像和短视频字幕、视觉问题回答、理解图像中的文本、对象检测和对象分割等任务。

OpenAI的AI搜索没有等来，谷歌的让人惊喜不已

谷歌正在从头到尾将AI全面融入它的搜索引擎，可谓一场全方位的AI革命。谷歌CEO劈柴在前几天的专访中，专门提到了AI搜索，对于谷歌来说是不允许失败的一仗。

当你需要一个快速答案却没时间自己拼凑信息时，就可以让“AI概览”（AI Overview）来代劳。用谷歌搜索新任掌门人Liz Reid的话说就是：生成式AI让谷歌可以“带你完成更多搜索工作”，专注于用户真正想做的事。

这项功能已开始在美国上线，陆续将登陆更多国家。谷歌预计，到今年年底，将有超过10亿人获得访问权限。

数据显示，AI概览中的链接较传统网页列表更容易获得点击。未来，随着这一功能的拓展，谷歌将持续关注为出版商和创作者带来有价值的流量。

多步推理，一次到位，解决复杂问题

借助Gemini模型的多步推理能力，AI概览将帮助用户更复杂问题。用户可以一次性提出包含所有细节和注意事项的问题，而不用将问题拆解进行多次搜索。

举例而言，你想找一家受当地人欢迎、通勤方便且为新客提供优惠的瑜伽或者普拉提工作室，你只需要在搜索框输入：

找到波士顿最好的瑜伽或普拉提工作室，并展示店铺的新客优惠及其到Beacon Hill步行所需要的时间。

网页截屏

此外还可以让AI概览为你提供膳食和独家规划帮助，例如“为一群人制定一个易于准备的3天膳食计划”，你就可以得到一个包含各种食谱的方案。如果想做出些调整，如将晚餐替换成素食，只需简单说明，搜索就会自动修改计划。你还可以快速将计划导出到Google Docs或者Gmail中。

网页截屏

当你寻找灵感时，AI搜索也能和你一起头脑风暴，创建一个AI组织的页面。你可以看到有用的搜索结果被归类在不同的标题下面，涵盖了多种视角。

网页截屏

得益于Gemini多模态能力的进步，用户不仅可以用声音直接搜歌曲，还可以用“圈选搜索”（Circle to Search）功能圈出图片中的一部分进行图片搜索，甚至可以利用视频查找信息。

例如在旧货商店买了一台唱片机，但打开开关后却发现它无法工作，唱针也出现了异常漂移。这时，你可以直接用进行视频搜索，从而免去了费时费力找合适词语来描述问题的麻烦，并能获得一份包含故障排除步骤和资源的AI概览。

目前，以上功能都指向美国地区使用英文搜索的实验室用户开放，其他地区还需耐心等待。

视频、图片、音乐三管齐下：谷歌多模态进展更新

谷歌在多模态AI领域又有新动作：不仅发布了新的文生视频生成模型Veo，并升级了文生图模型Imagen 3。

先说说Veo，它可以生成各种电影和视觉风格的1080p分辨率的高质量视频，时长还能超过一分钟。它对自然语言和视觉语义有着深刻的理解，当创作者提到“延时摄影”“全景航拍”这些专业术语，它能准确捕捉你的创意，生成与构想高度匹配的视频内容。

这样的“懂你”的能力，得益于谷歌此前在GQN、DVD-GAN、Imagen-Video等领域的深厚积累。Veo的推出，意味着谷歌在视频内容理解、高清渲染、物理模拟等方面都有了质的飞跃。

从这个视频的效果来看，视频的长度，变化的多样性，视频内容的一致性，与OpenAI放出的Sora生成的视频相比一点也不差。

再来看看Imagen 3，这是是谷歌迄今为止最先进的文本到图像生成模型。与上一代相比，Imagen 3生成的图像少了许多视觉伪影，质量更上一层楼。不仅如此，它还具备高水平的语义理解能力，可以完美融合长文本提示中的各种细节，并轻松驾驭不同的艺术风格。

网页截屏

作为文本渲染能力的“一哥”，Imagen 3有望在贺卡、PPT标题页等个性化图文生成任务中大显身手。

网页截屏

最后，谷歌和YouTube联合推出的Music AI Sandbox也很有看点。他们为音乐人提供了一系列智能工具，并与Wyclef Jean、Marc Rebillet等大咖展开合作，持续拓展Gemini AI在音乐创作领域的应用边界。

作为在AI浪潮中起得最早，投入最大的玩家，谷歌正在用自己的实际行动告诉世人，只要赶上了集，不分早晚，都有可能是最后的赢家。

玩酷网

谷歌AI春晚宣告Gemini时代将至，10倍能效10倍上下文碾压OpenAI？

36氪