自研AI芯片,为哪般?

2023-12-17
生成式AI大模型,成兵家必争之地

编者按:本文来自微信公众号 半导体产业洞察(ID:IC_insights),作者:杜芹,创业邦经授权发布。

2023年,生成式AI技术一枝独秀,在人工智能领域独占鳌头,成为最耀眼的明星。在下半年,生成式AI芯片玩家更是掀起了一股狂欢。先是ChatGPT幕后的股东微软在11月16日的Microsoft Ignite大会上发布Maia 100芯片,1050亿晶体管挑战AI芯片极限;紧接着,亚马逊云科技(AWS)在11月底的re:Invent大会上发布了专为生成式AI和机器学习训练的专用芯片Trainium 2;而在12月初,谷歌也放大招,发布了新一代TPU芯片v5p。

随着这些云服务巨头纷纷推出新一代生成式AI芯片,围绕着生成式AI领域的竞争愈演愈烈。

生成式AI大模型,成兵家必争之地

科技巨头苹果来自服务领域的营收高达850多亿美元,占到总营收的22%。以ChatGPT为代表的大模型应用说到底也是服务的一种。像大模型这样的服务功能正在成为科技企业未来可观的业务营收增长来源。所以,生成式AI早已是兵家必争之地。

根据研究公司International Data Corp.(IDC)的预测,仅今年一年,全球企业就将在生成式AI解决方案上花费大约为159亿美元,2024年的花费大约是355亿美元。预计到2027年,全球用于生成式AI的支出将达到1,431亿美元。IDC表示,ICT企业在AI领域支出大约为7%,而生成式AI在2027年将占总体AI支出的34%。而中国在生成式AI上的支出,从2022年~2027年的复合年增长率更是高达87.5%。

而且行业用户对生成式AI的应用和部署整体非常热衷。IDC在2023年8月的《Gen AI ARC Survey》的调研报告中指出,在拥有5000名以上员工的企业中,80%的企业认为GenAI(生成式AI)将在未来 18个月内颠覆他们的业务。高管们希望在2024年看到GenAI 在客户体验、决策制定和订单速度方面的收益。不少企业已经把生成式AI支出纳入年度预算。

在这样的市场需求下,云巨头们无不纷纷开始布局大模型。谷歌近日强势推出Gemini,剑指GPT-4。Gemini被谷歌号称是“性能优于以前最先进的模型”,众所周知,当今最强大的大模型是GPT4。Gemini是从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。Gemini Ultra 的得分高达 90.0%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型。

图片

Gemini 在文本和编码等一系列基准测试中超越了最先进的性能。(图源:谷歌)

AWS也发布了融合了亚马逊25年的人工智能 (AI) 和机器学习 (ML)创新的Titan多模式基础模型 (FM)。不过AWS的Titan模型是一款文生图的模型,它主要针对的受众是企业,譬如广告、电子商务以及媒体和娱乐公司可以以低成本大批量创建工作室品质的逼真图像,而不是像 OpenAI 的 DALL-E 等现有的知名图像生成器那样以消费者为导向。

而中国百模大战也已开启。听、说、读、写、看、画、思、动,AI无处不在的时代已经悄然朝我们走来。

图片

来源:拍摄自IDC中国副总裁兼首席分析师武连峰《加速构建生成式AI:从战略到落地》演讲

在生成式AI领域,不可能仅单一的大模型就可以释放生成式AI的所有价值。所以继ChatGPT之后,市场上必然还会有其他高性能的大模型会在市场有所立足之地。至于最终谁将能够与ChatGPT一样问鼎中原,仍然需要经历市场的考验。

自研芯片成为发展大模型企业行业主流

在推动生成式人工智能应用发展的过程中,底层芯片扮演着至关重要的角色。考虑到X86服务器CPU的相对较高成本以及 Nvidia Hopper H100 和 H200 GPU 加速器以及AMD Instinct MI300X 和 MI300A GPOU加速器的惊人定价,更为关键的是,这些高性能芯片面临供应不足的问题。因此,自研芯片逐渐成为推动大型模型企业发展的主流方式。

在一众云服务提供商中,谷歌是资深的芯片玩家。虽然谷歌的第一代TPU芯片是在2016年的Google I/O开发者大会上发布的,但是其自研芯片的旅途却始于十年前其最新发布的TPU芯片——TPU v5p,与 TPU v4 相比FLOPS 提高了 2 倍以上,高带宽内存 (HBM) 提高了3倍以上,总容量为 95GB。谷歌将这些TPU v5p组合到Pod中,每个TPU v5p Pod由 8,960 个芯片组成,并通过谷歌的最高带宽的芯片间互连 (ICI)连接在一起,采用3D环面拓扑,每芯片速率为 4,800 Gbps。谷歌称,TPU v5p训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。谷歌最新的Gemini大模型就是使用TPU进行训练和服务的,而且谷歌表示,使用TPU定制芯片Gemini 的运行速度明显快于早期、较小且功能较差的型号。

图片

谷歌v5p vs v5e vs v4(图源:谷歌)

AWS近日也发布了专为高性能深度学习训练而设计的Trainium 2。Trainium 2芯片可以训练具有数千亿至数万亿参数的基础模型进行优化。每个Trainium加速器都包含两个专为深度学习算法而构建的第二代NeuronCore,采用NeuronLink,这是一种实例内、超高速非阻塞互连技术。Trainium 2加速器具有32GB的高带宽内存,提供高达190 TFLOPS的 FP16/BF16 计算能力,比Trainium 1芯片训练速度快4倍。并能够部署在多达 100,000个芯片的EC2 UltraClusters中,从而使基础模型 (FM) 和大型语言模型 (LLM) 的训练只需极少的时间,同时能效提高达2倍。

相比谷歌和AWS,微软在自研芯片领域可以说起步晚了些,但是其却来势凶猛。微软自研的Maia 100芯片基于台积电5纳米工艺打造,总共包含1050亿个晶体管。从公开数据开来,微软这颗芯片是迄今为止最大的AI芯片。Maia 100在MXInt8下的性能为1600 TFLOPS,在MXFP4下则录得了 3200 TFLOPS的运算速度。从这些FLOPS 看来,该芯片完全彻底碾压了谷歌的 TPU v5 (Viperfish) 以及亚马逊的Trainium/Inferentia2 芯片。与Nvidia的H100 和AMD的MI300X相比,微软Maia 100的差距也并不远。不过在内存带宽方面,微软Maia 100的规格是1.6TB/s的内存带宽,高于Trainium/Inferentia2,但却逊于TPUv5,至于其原因,按照semianalysis的说法,之所以微软会出现这样的“错误”,完全是因为这该芯片是在LLM热潮发生之前设计的。在芯片互连方面,与谷歌对其TPUv5和专有ICI网络所做的类似,微软在每个芯片都有自己的内置传输速度达4.8Tbps 的RDMA以太网 IO,。

市场上有很多传闻,ChatGPT的开发者OpenAI也在考虑自研芯片,并招募了不少行业的大牛。按照这个发展态势,可能未来的大模型公司都会采取自研的策略。

背后原因:为了压价?替代GPU?还是只是备选?

那么,这些正在进军大模型的龙头云厂商们,自研芯片究竟所为哪般?

众所周知,目前市面上能用于生成式AI大模型训练的芯片价格普遍很高,所以这些厂商自研是否是为了压价?有消息称,谷歌使用TPU后,不必向Nvidia支付70%的利润。又或是彻底替代第三方的GPU or其他AI加速器芯片?还是只是为了一个备选?对此,业内不同领域的专家均发表了自己的一些看法。

中科院计算所研究员韩银和认为,他们最主要目的是希望能通过芯片来增强他们在大模型或者云计算服务上的核心竞争力,而不仅是降低成本。他还提到,OpenAI也透露出自研AI芯片的消息,他们一定会在大模型训练和推理上做一定的定制,以提升他们公司在大模型研发上的核心竞争力。这类定制化的芯片通常会在自身业务上具有一定的优势,但缺乏GPU那样的通用性。

就目前的情况而言,尽管这些厂商渐渐发布了自研的芯片,但是在短期内仍然离不开对GPU的依赖。如谷歌Cloud AI副总裁 Amin Vahdat表示,Gemini将同时运行在GPU和TPU上。对此现象,矩向科技创始人兼CEO黄朝波指出,谷歌在自研TPU的情况下,依然使用GPU,这个现象其实很好理解。现在的大模型仍然是在持续迭代,一开始,通过GPU平台更友好的编程,快速验证一些想法。等业务规模上来以后,通过TPU来优化成本或性能,是一个很自然的方式。在黄朝波看来,这些厂商自研芯片的目的是兼而有之,短期是压价,长期是替代。Nvidia在未来很长一段时期内,仍然是最炙手可热的芯片公司(没有之一),但其利润率会慢慢回归到正常区间。

业内投资人Jasper认为,目前Nvidia GPU在生态、易用性和通用性上还是有很高的壁垒,短期还是不可替代的。而且目前TPU在芯片层面的性能和软件生态上,尤其在通用任务上,还是和NV有一定差距,不少第三方客户在从Nvidia切换到TPU还是有不顺的地方。不过,Google的TPU+光互联+系统+大模型Infra,在系统级其实是更有优势的。

人工智能和芯片行业人士Roland的看法与Jasper类似,他告诉半导体行业观察,在可预期的未来几年,Nvidia的GPU都将是云端人工智能训练和部署的标准方案。原因在于,过去十年间的云端人工智能软硬件技术栈都是基于Nvidia的方案,相关的部署方案和代码已经在云端大厂里根深蒂固,因此在未来一两年内切换到另一个自研方案的风险极大。

但是Roland进一步指出,“类似谷歌Gemini这样的做法,同时运行在TPU(自研芯片)和GPU上,很大程度上也是为了确保有一个备选方案,如果自研的芯片的方案遇到了意想不到的问题还可以切换到Nvidia的GPU上,反之亦然。未来自研方案只能慢慢取代Nvidia,当自研方案能足够成熟之后,可望可以越来越多地取代Nvidia。但是即使在最乐观的情况下也不太可能完全取代。

所以在Roland看来,厂商自研芯片是一种second source方案,目的除了压价(其实可能也压不了太多价格)之外,更多是将核心技术把握在自己手中。更便于自己去制定未来的路线图,而不会对于某些供货商有过分依赖。这样做的好处是:一方面,这样如果主流方案缺货或者因为其他原因无法获得时,还有自研方案能保证供应链安全;另一方面,当新的技术出现,目前主流方案供货商无力支持或者不愿意支持的时候可以有能力用自己的方案顶上。

谈到云厂商自研芯片的成本效益问题时,韩银和表示,这其实是一个需要时间来待验证的问题。从半导体行业发展的经验来看,在AI芯片这类具备大批量、形成生态的芯片种类,长期竞争的结果,往往是赢者通吃,这是一个残酷的现实。看芯片,不仅仅要看最后高昂的制造成本,还有前端研发和设计投入的大量人力、时间成本,如果是以芯片为主要产品和核算单元的企业,单独一个企业的量是很难支撑一个大芯片厂商成本的。当然,谷歌、微软他们可能是以最后提供的云服务或者大模型能力为核算单元的,如果芯片能给他们核心竞争力提供助力,这个账可能是算得过来的。

投资人Jasper也分析道,Nvidia 2023Q3的综合毛利是73.95%,高端芯片的毛利市场预计更高。这么高的毛利,对于自研芯片来说,都是可能节省的成本。实际节省的费用,还要综合考虑自研芯片以及整套软硬件成本的研发成本。但是,由于多模态大模型巨大的训练成本,以及未来海量的应用场景,云厂商自研芯片的成本效益仍然是值得期待的。

专用生成式AI芯片,是未来大模型发展的必然趋势

“我们在评价一个算力芯片综合能力的时候,通常需要关注两个参数:性能和通用性。AI模型一直在快速的迭代,因为通用性的原因,TPU一直不如GPU好用。”黄朝波指出,“但形势在发生变化,自从Transformer模型以来,Transformer有一统AI模型的趋势。虽然也有一些新的底层算法提出,但核心的算子和Transformer比较,变化不多。或者说,随着AI模型底层算法迭代变慢,专用芯片能跟得上这个迭代节奏。这样的话,相比GPU,TPU这样的专用AI芯片在通用性上没有了劣势,而在性能上相比GPU的方式要更加高效一些。”

他进一步强调:“如果我们从技术角度来阐述这件事情,就是目前NVIDIA GPU的通用灵活性就刚好匹配了上层的大模型算法迭代所需要的通用灵活性。但同时,我们也看到了,整个行业对AGI的突破很乐观,并且底层的算法结构也在逐步沉淀,那这样的话,自研专用的AI加速处理器,会是未来的必然趋势。

考虑到算法迭代仍然是比较快的。黄朝波强调道,在未来5年,能够大放异彩的AI处理器应该是这样的:相比GPU更加专用更加高效一些,但相比目前的专用AI芯片,又更加通用更加低效一些,在性能和通用性方面达到一个新的平衡。

随着各种专用的生成式AI芯片陆续出来,业界不禁发问,这些云厂商会不会由此成为英伟达GPU的又一个劲敌?对此,韩银和表示,他认为短期内不会。他指出,无论是TPU还是微软等正在研制的AI芯片,都以符合自身业务需求为主,并不对外供货。而要想对外供货,就需要形成成熟的生态,这包括软件、工具、开发者等。在这一方面,要想超过英伟达是非常困难的,并不是单一性能领先就能解决的。此外,还有稳定的供应链合作关系的问题。大规模的芯片量产,需要稳定的供应链支持,而这对云厂商来说也是一个挑战。

投资人Jasper则表示:“从历史上来看,目前Nvidia很像2000年前后的思科,那个时候思科也是软硬一体、超高性能、极强的护城河,因此有很高的壁垒和毛利,业务增长和市值增长都非常迅猛。但是,随着下游客户应用不断地起量,最终服务器和网络设备迅速的自研化。思科的昨天,是否会变成Nvidia的明天?”

结语

在自研芯片“自给自足”方面,这些云厂商早已蹚出一条成功的路。AWS的Graviton芯片已经迭代了第4代,在服务器领域发展的如火如荼。谷歌的TPU芯片也是如此,TPU芯片早已是谷歌人工智能业务的核心,TPU芯片为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。现在他们正在将这一成功经验转嫁到生成式AI领域。

伴随着这些云厂商的介入,将推动大型模型和专用AI芯片的研发,加速这些技术的创新和应用。这些厂商所推出的专为生成式AI设计的芯片,可能会使得生成式AI技术的应用更加经济可行。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅