谷歌追着OpenAI打,Project Astra硬刚GPT-4o,Veo对抗Sora

前一天OpenAI用GPT-4o把全世界掀翻,今天被提前截胡的谷歌,在一年一度的谷歌I/O开发者大会上开启反击!

展示了与GPT-4o 相似的语音视觉交互功能Gemini Live,还更进一步推出了比OpenAI等对手更激进的AI智能体Project Astra、还有对抗Sora的70秒视频生成模型Veo等等

此外,谷歌对拿手业务——搜索进行了AI化改造,全面更新了Gemini模型家族。 另外还发布了高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox等等。

数不胜数的AI产品让人眼花缭乱。将近两个小时的发布会上,提到了121次AI。

谷歌CEO皮查伊称目前有超150万开发人员在使用Gemini模型,谷歌拥有20亿用户的产品都在使用Gemini,谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动,3个月内已有超过100万人注册尝试。

下面我们一起来看看产品更新吧:

一、未来通用AI Agent:日常生活随时答疑解惑的超级助手

Project Astra。这是一个还在研发中的AI Agent。当演示者打开手机摄像头,边走边问AI助手Project Astra捕捉到的现实场景中的问题。比如要求“看到能发出声音的东西就告诉我”,Gemini就会给出准确描述:“我看到一个音响发出声音。”接下来,测试者用红色剪头指向扬声器的顶部,再次问道,这个扬声器的部件叫什么?Gemini准确理解指令,并答出这是高音扬声器,能产生高频的声音。

Astra还可以实时解答代码、扫一眼周围环境,Gemini就能推断出你住在哪个小区等等

Astra有强大的对答如流的能力,谷歌还首次展示了AR眼镜配上AI的震撼演示。

二、Veo:全新视频生成模型,正面迎战OpenAI Sora

Veo生成的视频不仅真实,而且在光线、构图等方面具有惊人的电影感。

谷歌结合了DeepMind研究成果中最好的架构和技术,提高了一致性、质量和分辨率。

Veo具备1080p的高质量,用户提示可以是文本、图像、视频等各种格式,还能捕捉到其中关于视觉效果和影像风格的各种细节描述。通过点击扩展按钮,用户就可以持续增加视频的时长,它的时长已经超过Sora达到了1分10秒。目前Veo已经开始在官网开放试用了。

三、Imagen 3

升级后的Imagen 3能生成更多细节、光影丰富的图像。新模型对提示的理解能力,得到显著提升,可以从较长的提示中,捕获细节。如下图中,对狼的特征,背景颜色,画质质量等要求,Imagen 3一致地呈现了出来。它可以准确地渲染小细节,比如人手上的细微皱纹,以及复杂的纹理。

谷歌称Imagen 3是目前最强大的图像生成模型。

四、Music AI Sandbox:AI音乐创作工具,可以改变音乐的创作方式,谷歌与音乐家、词曲作者和制作人密切合作来帮助设计和测试这款工具。

五、Gemini 1.5 Pro,超长的上下文窗口,达到了100万tokens的级别,超过了目前所有的大语言模型,而且开放给个人用户使用。它的上下文token数将会达到2000K(200万)!相比之下,GPT-4 Turbo只有128K,Claude 3也只有200K。

这意味着你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

在这样的Gemini加持下,我们可以实现许多迅捷的功能。比如,作为父母需要了解孩子在学校的情况,就可以在Gmail中要求Gemini识别所有关于学校的电子邮件,然后帮你总结出要点。如果你错过了公司会议,但可以拿到一小时时长的会议录音,Gemini就能立刻帮你总结出会议要点。

现场谷歌演示了NotebookLM的音频概述功能,用户只需将文本资料输入进去,该软件即可基于Gemini Pro 1.5能力,生成丰富的音频内容素材。

另外谷歌还推出了轻量级模型Gemini 1.5 Flash,针对低延迟和低成本任务(聊天应用、从长文档提取数据等)进行了优化,成本效益更高,上下文窗口达100万个tokens。

Gemini 1.5 Pro为7美元/100万tokens,对于128k以下的输入,将降价50%至3.5美元/100万tokens;Gemini 1.5 Flash的价格为0.35美元/100万tokens。

六、AI搜索

在Gemini的加持下,谷歌搜索大变样。在搜索框下,会出现一个为你量身定做的AI总结。你的问题是什么样,它就会帮你做规划,展示出若干个卡片,让搜索信息以鲜明的方式被呈现出来。

基于此谷歌宣布推出AI Overviews工具,这次AI Overview即将发布的另一个重磅功能,就是多步骤推理。它能将用户输入的一个复杂问题分解成多部分,确定需要解决哪些问题,以及用什么顺序解决。

以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。

比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。只要一次搜索,所有需要的信息就自动呈现出来。

你可以要求谷歌提供一个三天的膳食计划。这些食谱被从整个网络整合出来,清晰又全面。

并且目前还支持用视频去搜索,比如,该怎么修这个唱片机?以前,我们需要进行一堆搜索,确定它的牌子、型号。现在,直接拍一个视频丢给谷歌,然后直接开口问:它的这个毛病是什么原因?谷歌用AI Overview,给出了最全面的信息。

七、画圈即搜功能:在你的手机或平板电脑上圈出复杂的物理问题,就能获得一步一步的指导,学习如何解决问题。

八、安卓版Gemini新功能:安卓系统上的Gemini变得更有帮助,更有环境意识;今年晚些时候支持将生成的图像拖放到Google Messages和Gmail中,还支持用户直接在设备上询问有关YouTube视频和PDF文件的问题。

谷歌要做“系统级AI”,把Gemini用在安卓系统底层。他们要让安卓成为体验谷歌AI的最强移动平台。

Gemini在系统级层面运行,因此用户不需要打开应用。同时Gemini有了上下文感知能力,可以提供更即的时帮助。

比如,Gemini可以帮用户在聊天中生成有趣的表情包图片,Gemini可以感知到用户在看视频,弹出提示,询问是不是想了解关于这个视频的问题,用户可以直接询问视频中的细节,Gemini可以直接从视频中找到答案。

谷歌强调Gemini只会在安卓上运行,而前段时间苹果被曝与OpenAI洽谈合作,iPhone将搭载ChatGPT,安卓阵营与苹果阵营的AI大战一触即发。

九、原生多模态Gemini App

在Gemini APP中,谷歌推出Gemini Live功能,用户可通过文本、语音或影像多种方式进行交互,直接与大模型进行对话,并能够随时打断,可以打开摄像头使其“看到”周围的世界并实时响应。比如,你正在为一场面试做准备,只需要进入Live,Gemini就可以陪你一起做准备。

在Gemini的加持下,谷歌还推出Ask Photos的新功能。比如,如果付停车费时忘了自己的车牌号,就可以直接询问自己的车牌照片是哪个,不需要翻阅手机里的大量照片了。

另外还有第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、、Gemini Advanced、、Gemini Nano新功能、AI辅助红队技术、扩展和开源SynthID文本水印等。

虽然OpenAI凭借创业公司的灵活专注优势,屡屡抢占先发优势,每次都突出谷歌一步发布新品,但谷歌依然有着自己的独有优势,、除了产品研发,还拥有基础设施和运算能力,以及庞大的谷歌应用矩阵与数十亿的用户级别。在激烈的生成式AI竞赛中,最终赢家是谁值得期待。

免责申明

1.本平台专注于提供资讯分享服务,所提供的资讯内容仅代表作者个人观点,不反映本平台立场。

2.我们致力于确保所提供信息的准确性和及时性,但对信息的完整性、准确性、可靠性或适用性不做任何明示或暗示的保证。

3.用户在使用本网站提供的信息时,请自行判断并承担相应风险。本网站对用户因使用或未能使用本网站而导致的任何直接、间接、附带的损失或损害概不负责,包括但不限于利润损失、商业中断、信息丢失等。

4.免责申明可能随时修改,恕不另行通知。请定期查阅以获取最新信息。