当Google的Gemini性能超越GPT-4,对创业者意味着什么?

ee
北京移动互联网
面向女生的新一代场景社交
最近融资:|2016-01-06
我要联系
GPT-4真正得到竞争对手终于来了。

编者按:本文来自微信公众号 阿尔法公社( ID:alphastartups),作者:阿尔法公社,创业邦经授权转载。

真正能与GPT-4正面比拼性能的AI基础模型终于出现了。

北京时间12月7日凌晨,Google DeepMind发布了Gemini系列AI基础模型,它分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本,其中Gemini Ultra在32个测试中的30个超越了之前的SOTA模型,Gemini Pro会成为Bard背后的模型,Gemini Nano则将搭载于Pixel 8 Pro,是一个定位在端侧的模型。

图片

Gemini是一个原生多模态的模型,直接和GPT-4和GPT-4V对标,而且Google在安全性上经过了加强,它经过最全面安全评估,包括偏见和有害内容方面,还能防护包括网络攻击、“越狱”在内的潜在风险。

Google为开发者和企业客户推出了Google AI Studio和Vertex AI,Google AI Studio是一个免费的基于网络的开发者工具,开发者们可以利用API快速搭建AI应用,Vertex AI则允许企业用户定制Gemini,并完全控制数据。

Gemini是原生多模态大模型,大部分性能超越GPT-4

今年3月中旬,OpenAI的GPT-4发布,其性能对其他AI基础大模型呈现碾压之势,这让Google感到深刻的威胁。4月21日,Google将Google Brain和DeepMind两个最强大的AI实验室合并,集中精锐的研究力量,并让DeepMind的创始人Demis Hassabis来领导公司。

与OpenAI一样,Hassabis一直以来的愿景也是打造AGI,他在发布会中表示:“我始终相信,如果我们能够构建更智能的机器,就能利用它们以难以置信的方式造福人类。长期以来,我们一直希望构建新一代的人工智能模型,这些模型的灵感来自于人类理解和与世界互动的方式。这样的人工智能,感觉上不像是一款智能软件,更像是一种有用且直观的东西——一个专家助手或助理。”

高性能的原生多模态模型系列

Gemini系列AI基础模型分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本。

其中Gemini Ultra适用于高度复杂的任务;Gemini Pro是性能和尺寸最平衡的版本,适用于多种任务的扩展;Gemini Nano则适用于端侧,可以直接搭载于移动设备。

不过Gemini Ultra还需要完成更严格的信任和安全检测,以及红队测试和RLHF,才能推向市场,它的上线时间会是2024年初,主要面对开发者和企业客户。

在性能方面,从自然图像、音频和视频理解到数学推理,GeminiUltra在32个广泛使用的学术基准测试中的30个上超越了当前的最先进结果。

其中Gemini Ultra以90.0%的成绩成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该测试结合了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。

此外,值得注意的是,在与推理、数学和编码等几个评判大模型真正能力的测试中,Gemini Ultra几乎是全面突出GPT-4的。

图片

以下是Gemini的技术资料里更详细的对比,能够了解到Gemini Ultra和Gemini Pro与主流模型的性能差异。

图片

在多模态能力的对比中,无论是图片,视频还是音频,Gemini Ultra也在大多数测试中超越了GPT-4V,这些测试凸显了Gemini的原生多模态特性,并表明了Gemini更复杂推理能力的早期迹象。

另外,在更复杂的MMMU基准测试中Gemini Ultra取得了突出的59.4%的得分,该基准测试包含了跨不同领域、需要深思熟虑的推理的多模态任务。

图片

此前,创建多模态模型的标准方法涉及分别训练不同模态的组件,然后将它们拼接在一起以大致模仿这些功能。这些模型有时在执行某些任务(如描述图像)方面表现良好,但在更概念性和复杂的推理上则有所挣扎。

Gemini则是原生的多模态模型,它一开始就在不同的模态上进行预训练,然后Google再用额外的多模态数据对其进行了微调,以进一步提高其效果。这有助于Gemini从根本上无缝理解和推理各种输入。

这也使Gemini能够很好的理解文本、图像、音频等内容,能够适应更多的复杂应用需求。

对于生成式AI非常重要的程序编码需求,Google使用一个专有版本的Gemini,创建了一个更高级的代码生成系统AlphaCode 2,它擅长解决超出编码范畴、涉及复杂数学和理论计算机科学的竞赛编程问题。

AlphaCode 2相比此前的AlphaCode显示出巨大的进步,据估计它的表现优于85%的人类参赛者,而AlphaCode的数据是超越近50%参赛者。

负责任的大厂,强大的安全性

除了性能提升外,作为一个科技大厂,Google一直在人工智能的安全性上十分重视。具体到Gemini,Google做了以下措施:

1.对模型进行全面安全评估的,包括偏见和有害内容方面。

2.利用对抗测试技术,帮助提前识别Gemini部署中的关键安全问题。

3.与多元化的外部专家和合作伙伴合作,对Gemini在一系列问题上进行压力测试。

4.为了限制伤害,Google构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象的内容。

5.与行业和更广泛的生态系统合作,例如MLCommons、前沿模型论坛及其AI安全基金。

Gemini Pro加持的Bard,针对开发者和企业用户的Google AI Studio和Vertex AI

在产品方面,Google会将Gemini模型的能力扩展到各种服务中,例如搜索、广告、Chrome和Duet AI(企业级效率应用)。

直接对标ChatGPT的Bard,将会把背后的模型从PaLM2,换成经过精细调整的Gemini Pro版本,以实现更高级的推理、规划、理解等功能。不过虽然Bard已经在170多个国家和地区提供服务,未来Google会开放更多的模态,并支持新的语言和地区。

明年初,Google将推出Bard Advanced,它背后的模型将是Gemini Ultra,而不是Gemini Pro。

Gemini Nano这个面向端侧的小参数模型将搭载在Google的Pixel 8 Pro手机上,提供例如录音摘要,Gboard的智能回复等功能,未来还有更多可能性。

此外,从12月13日开始,Google会为开发者和企业客户提供Gemini API以访问Gemini Pro模型。

Google AI Studio是一个免费的基于网络的开发者工具,开发者可以使用API快速搭建产品原型并验证产品功能。

Vertex AI让企业用户可以自定义Gemini,并完全控制数据,它还提供完全托管的服务,并为模型的安全、隐私以及数据治理和合规性负责。

更强大的基础模型,让创业者有更多更便宜的选择

尽管仍然需要到实际场景中检验,但是Gemini Ultra是第一款真正意义能力与GPT-4持平或超越的AI模型,此前的Claude2和Inflection2只是在部分细分测试上追上了GPT-4的分数。

在技术上,Gemini模型原生多模态的范式代表了大模型的发展方向,在未来2-3年内,新推出的大模型都应该是多模态大模型。而只有大模型具有了多模态能力,它才有可能完整的“理解”世界,才有可能在未来诞生AGI的雏形。

此外,部署在移动端的Gemini Nano模型也代表了另一个趋势,相比联网使用云端的大模型,端侧模型虽然通用能力上欠缺,但是更灵活,更安全,经过微调后在特定任务上也具有高可用性。随着端侧AI算力的不断增强,它应该具有不小的开发潜力。

在生态建设上,Google提供为开发者提供了API和应用搭建工具Google AI Studio,让开发者可以使用先进的AI模型搭建自己的原生AI应用。它也为企业用户提供模型定制和模型部署的服务。

这些做法,与Meta,Amazon,百度,阿里等科技巨头较为类似,它们都想通过生成式AI重塑自己的业务,并建立新的生态,从而打开第二增长曲线。

其中Meta和阿里更激进些,不但有云平台,而且开源了自己的基础模型(llama2,通义千问);Amazon的力度也不小,不但提供自己的闭源模型,还接入了Claude等第三方的先进模型。

当然,在产品和生态打造上,目前最成功的仍然是OpenAI的ChatGPT、助手API和GPTS。而他成功的基础,又是基于能力强大的GPT-4。

所以,当Gemini Ultra的能力赶超GPT-4后,对于创业者意味着什么?

首先,这让人人都是产品经理越来越成为现实,有产品想法和能力的人可以更快更低成本的验证自己的想法,而不需要太多的开发经验。

对于那些具有产品能力和开发能力的个人创业者,现在除了GPT-4外有了另一个足够强大的模型可用,而且竞争有可能使得API的成本降低,具有更多的试错空间。

对于基于API或定制模型打造垂直行业应用的创业公司,与开发者一样,他们有了更多的选择,并有望降低成本。但是真正的成本降低,可能还是得等足够高效和低成本得算力芯片成熟。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅