编者按:本文来自微信公众号 锌产业(ID:xinchanye2021),作者:山竹,创业邦经授权转载。
我是在出差途中看到关于苹果MM1消息的,当时并没有觉得惊讶,毕竟苹果放弃造车、转战生成式AI的消息早已不是秘密。
让我感到惊讶的是,最懂苹果的彭博社记者Mark Gurman爆料称,苹果正在和谷歌洽谈“将Gemini植入iPhone事宜”。
如果Gemini最终真出现在了今年9月即将发布的iPhone 16上,那就意味着,MacBook好不容易摆脱了英特尔的噩梦,iPhone却又着了谷歌的道。
即便只是暂时联姻,但Android阵营的大模型渗透到苹果系统中,这也堪称是前无古人了。
话虽如此,但我们还是有必要了解一下苹果对于生成式AI的态度转变,以及关于下一代AI iPhone的猜想。
MM1的战略意图
就在上周,苹果团队产出了一篇关于多模态预训练大模型的论文,苹果名为MM1的多模态预训练大模型在这篇论文中也浮出水面。
MM1,大多数果粉听起来都会觉得这名字耳熟得很。
无论苹果是有意还是无意,这名字确实容易让人想起苹果MacBook搭载的第一代基于ARM架构自研的处理器M1,也是凭借M1,苹果最终摆脱了英特尔多年的噩梦,真正实现了绝对的软硬一体。
苹果将自己的大模型命名为MM1,似乎也有想要摆脱现在市面上几乎一手遮天的OpenAI影响的寓意。
每篇研究论文,关键之处在于独创性,这也就是所谓的研究成果。
苹果公司这篇名为MM1的论文,虽然没有透露出太多公司战略层面的想法,但是也输出了一些苹果AI研究团队的认知:
例如,苹果AI研究团队在论文中指出,对于多模态预训练大模型而言,使用图像字幕、图像文本交错内容、纯文本内容的组合对于在多个基准测试中实现少量优秀测试结果至关重要。
苹果AI研究团队在论文中还指出,在模型设计过程中,相关要素的重要性依次为:图像分辨率(image resolution)、视觉编码器的损耗和容量(visual encoder loss and capacity)、视觉编码器预训练数据(visual encoder pre-training data)。
苹果MM1大模型,则是基于LLM(大语言模型)+MoE(混合专家系统)搭建而成的多模态大模型,参数规模有3B、7B、30B三个版本。
实际上,MM1更像是苹果在放弃造车后,一次不那么正式地对外官宣,官宣自己确实已经在将大模型作为研发重心来对待。
早在2023年ChatGPT火遍全球时,Mark Gurman就曾爆料,苹果这年2月在乔布斯剧院举办了一场人工智能年度峰会。大模型和AI工具,正是这场仅允许苹果内部员工参与的活动的主要议题。
随后,《纽约时报》报道称,尽管Siri存在设计缺陷已经毋庸置疑,但苹果工程师已经在开发类似ChatGPT的人工智能。
不过,这个五年前在苹果内部成立,由苹果人工智能负责人John Giannandrea领导的16人团队,彼时的研究方向还是对话式AI基础模型。
直到去年,一个名为“Ajax”的大模型框架,以及一个被苹果内部员工称为“Apple GPT”的聊天机器人项目再次浮出水面,关于苹果大模型的消息才有了些苗头。
而这些无论是被称作对话式AI,还是大模型的项目,主要目标就是改善Siri、搜索、地图、Apple Music在内的软件体验。
这样的商业导向,让苹果人工智能团队一直有着充足的预算,彭博社在2023年10月的一份报道中指出,苹果每年在人工智能技术开发上的预算高达10亿美元。
只不过,虽然Siri这两年已经正在变得好用,但由于苹果的战略摇摆,让它没能在百模大战中崭露头角。
MM1的悄然上线,算是苹果在放弃汽车、选定生成式AI这样的业务调整后,一个战略意图上的显露。
谷歌的GPT外衣
从苹果AI研究团队这篇论文的测试报告中可以看到,和OpenAI、谷歌的多模态大模型相比,苹果的MM1并不占优势,甚至可以用差强人意来形容。
这就不难理解,为什么会传出苹果正在与谷歌谈判,希望将Gemini应用到iPhone中,Mark Gurman甚至爆料称,苹果也在与OpenAI进行了接触,在考虑使用OpenAI的大模型。
在手机上应用谷歌的Gemini大模型,按理来说也不足为奇,毕竟,谷歌Gemini Nano(18亿/32.5亿参数规模)本身就是专为手机这样智能硬件设计的一款大模型。
更何况,这一模型不仅用在了谷歌自己的Pixel 8 Pro上,还被三星用到了今年年初发布的旗舰手机Galaxy S24上。
所以,严格意义上来说,这是一个在主流手机上已经经过验证的端侧大模型,保真保熟。
只不过,如果将三星换成苹果,这件事儿的意义就不一样了。
众所周知,苹果是自成一体的封闭系统,而且还是一套和谷歌阵营的Android一向对立的第二大手机生态体系,如果选择联姻,意味着苹果手机在软硬一体上的优势将在一定程度将被打破。
毕竟大模型和其它软件不太一样,虽然现在在手机上还看不出有什么石破惊天的创新应用,但在未来将会是一个不亚于芯片的根技术。
实际上,从Mark Gurman的爆料来看,苹果这次与谷歌谈合作,也是打算在本地用自己的大模型,在云端用谷歌的Gemini提供文本生成和图像生成等功能。
这样看来,苹果的这一举措更像是一个”缓兵之计“。
既然打不过,那就先拿来用吧。
库克毕竟不是乔布斯,没有技术洁癖,这样的技术组合,商业上依然是成功的,对于当下的iPhone来说也未尝不可。
只不过,苹果以往在人工智能技术上的高投入,似乎就打了水漂。
郭明錤在2023年10月就曾预测,苹果每年至少需要投资数十亿美元,才有可能在生成式AI上追上竞争对手。
这样算来,苹果一年10亿美元的AI投入,还是显得少了些。
而关于苹果在生成式AI到底有哪些关键成果,在今年2月的苹果一季度电话会议上,库克透露,“我们很高兴将在今年晚些时候分享我们正在进行的人工智能工作的相关细节。”
这一时间节点很可能是今年6月的WWDC 2024,搭载苹果生成式AI的产品则很可能是iOS 18,以及今年秋季即将发布的iPhone 16。
关于AI iPhone的猜想
就在昨天,高通高调对外发布了一颗新处理器——骁龙8s Gen 3。
芯片厂商的产品向来版本众多,新名字听得大家也是云里雾里,而这颗芯片,其实是骁龙8 Gen 3的低配版(官方称之为性能版)。
即便如此,这仍是一颗最高支持100亿参数大模型的手机处理器。
低配版的处理器都已经开始支持百亿参数大模型,由此可见,大模型已经成了智能手机的标配。
就在智能手机都开始标配大模型、换壳“AI手机”时,如何使用大模型就成了那个最关键的问题。
现在来看,就新一代苹果手机或iOS系统而言,我们能够期待的是:
1、语音助手Siri能够通过生成式AI变得聪明些;
2、百年不变的摄像/摄影功能通过生成式AI搞一些新玩法;
3、摄影功能在生成式AI的加持下可以和Vision Pro进一步联动,让为Vision Pro创造3D内容变得更简单;
4、在Pages、Keynote等办公软件上加入自动摘要、文生图等内容生成功能,那种能够更容易上手和使用的内容生成功能;
5、最好能再通过生成式AI创造出两个我们都不曾想到的新鲜玩法。
当然,锌产业认为,毫无悬念的是,这次通过生成式AI,苹果Siri必然会迎来一次空前升级。
凭借超10亿优质iPhone活跃用户,这次,借助生成式AI,苹果或许能够重启语音交互时代。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。