伴随着今年诺贝尔化学奖、物理奖双双花落与人工智能领域相关的科学家,AI再次成为全球瞩目的焦点。然而,自ChatGPT3.5发布以来引爆的新一波人工智能浪潮,虽然涌现出一系列融资额度超高、估值不断创纪录的明星企业,但在竞争最激烈的大模型领域,至今尚未有一家企业跑通商业化落地,关于人工智能的未来始终有一层阴影。究其原因,大模型对能源的过度依赖,成为制约各AI企业突破的重要瓶颈。
8个地球能源支撑一个AI未来 人工智能耗能惊人
在近日国内人工智能公司彩云科技举办的一场媒体沟通会上,CEO袁行远向媒体展示了极端情况下,ChatGPTo1给出的2050年人工智能耗能量的答案。问题中,以全球网络都使用 ChatGPT作为访问入口为假设,测算预计到2050年ChatGPT每天消耗多少电力?ChatGPT o1给出的答案则是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的约8倍”。
这并不是危言耸听。人工智能对电力的极度依赖,已经成为业内共识。人工智能在预训练阶段及应用阶段都对电力有极大的消耗。以人工智能巨头Open AI旗下的GPT-4为例,据报道,其完成一次训练需要约三个月时间,使用大约25000块英伟达 A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,每次运算又涉及到许多个晶体管的开关。仅仅是这些 GPU,一次训练就用了2.4亿度电。
而后续用户在使用ChatGPT过程中,依然需要消耗大量电力。仍以ChatGPT为例,如果ChatGPT4每天响应用户的约2亿个请求,消耗超过50万千瓦时的电力,约是1.7万个美国家庭的日耗电量。庞大的电力消耗,使得各大AI巨头纷纷布局能源投资,亚马逊、谷歌、微软、Open AI等企业在今年都曝出投资核电的新闻。
摆脱能源依赖 人工智能企业路在何方?
在增加对能源投资的同时,如何降本增效,减少对能源的依赖,成为各大AI企业纷纷发力的方向。
英伟达作为AI时代的最大受益者,是全球主要AI企业的芯片供应商。英伟达CEO黄仁勋在今年2月份的世界政府峰会上就曾表示,如果计算机的性能得不到提升,未来我们可能需要14个不同的行星、3个不同星系、4个太阳为我们的AI未来提供燃料。而英伟达的主要路线就是不断迭代,提升AI芯片的运算性能。在今年的年度电脑展(Computex)上,黄仁勋表示,在过去八年间,从“Pascal P100 GPU”到“Blackwell B100 GPU”,GPU的性能提高了1053倍。
但提升GPU性能并不是唯一出路,毕竟也不是所有玩家都能在GPU上砸下重金,要知道,购买一个1万个GPU的Blackwell系统大约需要8亿美元。改善模型架构,提升训练效率,就成为另一条出路。
2017年,谷歌在论文《Attentions Is All You Need》中首次提出Transformer架构,掀开了大语言模型训练的全新篇章。但Transformer架构具体如何运行,则仿若一个黑盒,并不为人所熟知,为Transformer开盒,提升模型架构性能就成为无数AI科学家研究的方向,但这方面的研究进展较慢,今年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,这已经是近年来在模型架构优化上最为成功的案例了。
DCFormer架构创纪录 性能实现1.7—2倍提升
然而,在今年的ICML(国际机器学习大会)上,一家来自中国的人工智能企业带来了最新的模型架构优化方案。
彩云科技,作为国内最早专注于语言大模型的企业,在2017年就已经开始做 NLP 和大模型方面的工作。在今年的ICML上,彩云科技的《Improving Transformers with Dynamically Composable Multi-Head Attention》提出了优化Transformer模型架构的全新方案,首次提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。
在实践表现中,彩云科技团队基于DCFormer上打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的性能提升。彩云科技的研究成果获得来自业内的关注和认可,在ICML会上,彩云科技投稿的三篇论文在全部9000多篇投稿论文均分仅4.25-6.33的情况下,获得了平均分7分的高分,并受邀参加在维也纳ICML演讲,向全世界的AI从业者讲解其全新大模型DCFormer。
“只有模型效率和智能度提升,才能实现真正的AGI。”彩云科技CEO袁行远表示,接下来,彩云科技将在一年之内把DCFormer的性能再改进一倍。“模型架构的性能提升,意味着在用同样的资源,可以实现成倍甚至是指数级效果的提升。我们在努力为人工智能的实现创造一条‘捷径’。”