AI算力新地基能否解困算不起、算不动？

懂懂笔记·2021-03-24

说到科技，我们首先会联想到的就是5G、大数据、万物互联和人工智能等热词。

图源：图虫

编者按：本文来自微信公众号懂懂笔记（ID： dongdong_note），作者懂懂编辑秦言，创业邦经授权转载。

最近，关于“两个辛丑年对比”的话题刷屏朋友圈，在关于“国家实力与底气”的讨论中之外，懂懂也在关注软实力方面中国力量的崛起，这就是科技实力的变化。

说到科技，我们首先会联想到的就是5G、大数据、万物互联和人工智能等热词。不可否认的是，人工智能是这些新兴信息技术中的“当红炸子鸡”，更是未来产业、社会甚至国力发展的“底气”所在。

值得欣喜的是，国内人工智能领域近年来取得了不少新的突破和成绩，在近期有关部门发布的《2020人工智能中国专利技术分析报告》中可以看到，截至2020年10月，中国人工智能专利申请量累计已达69.4万余件，同比增长56.3 %；IDC相关调研报告中，对2020年全球各国AI计算的发展水平统计后发现，中国人工智能服务器占全球市场三分之一左右，成为全球人工智能产业发展的中坚力量；而全球知名AI计算基准评测组织MLPerf在去年底也公布了一份“2020年推理测试榜单”，中国科技企业的产品创造了18项全球性能纪录……

但是，在人们讨论国内人工智能领域的热点话题时，也有不少挑战与隐忧困扰着众多参与者，尤其是AI应用及落地的进程中，痛点与焦虑也随之出现，如果归纳总结一下，可以聚焦为这三个问题：

1．如何解决AI算力匮乏与成本高企的矛盾？

2．能否打造类似水电供给的AI算力基础设施？

3．如何协同行业在AI应用落地过程中迎接“产业AI化”大潮？

破局，无疑要从满足行业需求以及夯实发展基础做起。

爆发的需求和“暴涨”的压力

无产业不AI，无企业不AI——人工智能已经迅速渗透到各行各业的发展建设中，这已经是不争的事实。

但是，太多问题也随之而来：简单点儿说就是各行各业对AI需求的“胃口”越来越大，但是AI能力的供给匮乏，而成本却在“暴涨”。这正是AI在供需层面的痛点与矛盾。

关于需求的变化有两点值得注意：一方面是量的增长，另一方面是质的变化。

IDC在2020年6月至8月期间，针对中国企业人工智能应用需求开展了一项专题调查和研究。调研发现，企业对于人工智能带来的价值有了更深的认知，企业在人工智能应用上正在采取更多积极的举措。

在懂懂看来，这其中最大的变化就体现在人工智能新的应用场景尝试上，即除了已经得到多个行业验证的通用场景之外，不同行业的用户还在根据自身的行业特性在进行积极尝试，开辟一些新的碎片化应用场景。

数据显示有超过九成的企业正在使用或计划在未来三年内使用人工智能，其中，大部分企业采用了公有云、私有云加本地部署的混合架构来部署人工智能应用，而74.5%的企业期望在未来可以采用具备公用设施意义的人工智能新型基础设施。请注意：这一期望也是不同地区和不同规模的企业的共识。

除了量的变化，AI算力方面的质变则更令人关注。

提到质变，首先要谈一下AI模型。这其中，最具代表性的就是打败李世石的Alpha GO，以及OpenAI实验室去年推出的GPT3。前者因为在围棋方面所展现的天赋尽人皆知，而后者则是在去年发布后就引发了AI科学领域的震荡。

其实众多AI模型的不断出现，终极目标就是具备更高“等级”的智能。而每一次模型智能程度的提升，都使得模型也愈加复杂，模型尺寸也呈现爆发式增长。这里打一个不是很恰当的比喻，如果我们将施瓦辛格主演的《终结者》里面的天网，视为AI所能达到的的最高境界，那么2012开始出现的AlexNet网络模型，以及此后几年的ResNet、Transformer、BERT直至GPT-3等优秀AI模型，就是在向天网这样的终极目标迈进。

尤其是OpenAI实验室推出的自然语言模型GPT-3，拥有1750亿语言模型参数量，通过训练已经可以写诗、写乐谱，回答历史、天文问题，甚至涉足医疗领域，被一些科学家称为“幼年期的天网”。与此同时，它也是名副其实的“算力吞噬者”。

显然，越先进的大规模AI模型越需要耗费大量的计算资源，如果没有强劲的算力支撑，训练一个先进的模型所耗费的时间和金钱成本——绝对是很多人无法想象的。

举一个简单的例子：媒体机构量子位做了估算，训练一个GPT-3模型需要一块GPU运行355年；其训练成本约在600-1200 万美元。反观2016年出现的Resnet-152模型，各方面成本不足GPT-3的万分之三。

你觉得这已经很恐怖了？实际上就在2021年1月，谷歌大脑的科学家刚宣布他们设计的简化稀疏架构（Switch Transformer）能将语言模型的参数量扩展到1.6 万亿，这已经近十倍于GPT-3了。

无需咂舌，这就是AI进化过程中不可逆的质变。

中国工程院院士郑纬民郑纬民曾经指出，下一代AI的发展亟需建设大规模的AI算力基础设施。GPT-3取得了很好的进步，但是离人类智能还有差距，下一代人工智能模型可能超过万亿参数。如今，这个万亿参数的AI“巨兽”已经到来。

而在懂懂看来，承载AI的新型算力基础设施的供给水平，将成为直接影响AI创新迭代及产业AI应用落地的关键因素。对算力的渴求，对AI模型的智能化追求，已经愈发迫切地将AI算力基础设施建设话题提到了重要环节。

AI算力的“地基”建设迫在眉睫

可以看到，随着模型尺寸的不断膨胀，如何做到高效的AI训练和计算，关乎到AI生产研发效率，实现高效的AI模型训练的一个重要的支撑是更快更强的算力，即可以在更短时间内完成大规模AI计算，这对于AI产品的迭代效率和成功至关重要。

那么，如何打造一个强劲的算力支撑能力，如何有效降低训练先进AI模型所需要时间和金钱？

首先强调一点，算力并不完全取决于芯片的能力。随着越来越多的高级AI模型训练开始“索求”巨量的算力支撑，计算力受芯片工艺的物理限制也愈发明显，芯片制造工艺技术层面的提升速度已经落后于算法模型，某些模型已经逼近AI算力的极限。算力如果受限，算法模型的不断创新也会出现制约。因此，算力已经成为未来人工智能应用取得突破的决定性因素。

在此前IDC联合浪潮集团发布的《2020-2021 中国人工智能计算力发展评估报告》中也指出，2020年，中国的GPU服务器依然占据95%左右的市场份额，是数据中心人工智能加速方案的首选。未来几年，随着推理工作负载在各个行业应用中不断增加，FPGA和ASIC等其他类型的加速芯片将在各个领域采用。

IDC预计到2024年，其他类型加速芯片的市场份额将快速发展，人工智能芯片市场呈现多元化发展趋势。报告强调——服务器是人工智能基础设施的核心，到2020年，中国人工智能基础设施市场规模将达到39.3亿美元，其中服务器支出占比高达87%。

可以看到，人工智能服务器技术的不断创新，包含了多种互联方式和拓扑架构，以满足不同的应用场景需求，与此同时，人工智能基础设施正在向开放架构发展，以满足高效、灵活、可扩展的下一代人工智能数据中心的需求。

这里要强调一个关键词：智算中心。实际上，在去年4月浪潮提出“智算中心”理念时，就指出要让智慧计算可以像水电一样，成为社会基本公共服务。

智算中心的意义，就是通过算力的生产、聚合、调度和释放，高效支撑数据开放共享、智能生态建设、产业创新聚集，同时有力促进AI产业化、产业AI化及政府治理智能化。智算中心的内涵有着四个要点：一是算力公共基础设施；二是计算架构技术突出、生态成熟；三是算力、数据和算法的融合平台；四是以产业创新升级为目标。

这四点，正是对前面提及的行业应用需求爆发、算力匮乏及成本高企，以及AI技术发展对算力支撑等痛点的最佳解决路径。结合国家层面对人工智能为主的战略性新兴产业的发展规划，AI算力在基础设施层面的意义就更为突出和紧迫。

一方面，从去年两会政府工作报告中提出“新基建”，就明确了以人工智能、特高压等新技术发力技术端的基础设施建设。而在新近发布的十四五规划建议中，提及重点关注的几大前沿科技，人工智能与量子信息、集成电路位列前三位。因此，人工智能作为新一轮产业智能化变革的核心驱动力量，将会推动数万亿美元的数字经济产业升级转型。另一方面，作为AI算力的重要载体，实现算力、算法和数据全面融合的智能计算中心，将会为新基建发展所需的未来算力基础设施提供重要参考定义。

也许有人会问，政府部门、不同行业、大型中小型企业能够从智算中心这样的基础设施上获得什么？

首先，是推动国内AI产业化浪潮的创新发展进程。智算中心作为人工智能软硬件技术的一体化融合载体，为人工智能产业的发展提供了大规模数据处理和高性能智能计算支撑，可以让人工智能技术更加高效地实现训练、推理等学习过程。一方面，智能计算中心的构建将推动“平台+应用+人才”三位一体的新型AI产业发展模式，另一方面，将会完善“算力+生态”体系，加速推进从基础层到应用层的人工智能产业链的形成。

其次，是驱动产业AI化转型升级。如同公有云对于企业信息化转型所带来的的裨益，智算中心作为新型基础设施可以帮助企业低成本、高效率地进行数字化转型。不同类型的企业，可以根据业务需要依托智算中心提供的AI模型库、AI算力调度平台等自动生成适用于实际需要的业务系统模型。同时，智算中心通过提供算力基础设施及通用软件服务，联动产业链上下游，可以为企业提供完整的AI服务链，帮助实现AI供给和需求的高效对接。

最后，是助力政府治理能力现代化。在当下智慧城市建设的进程中，智算中心能够融合人工智能、互联网、大数据、云计算等信息技术，迅速将线上线下各类型治理主体聚合在一起，提供数据分析、云计算平台、算法和计算能力等工具和资源，大大提升社会治理过程中的数据计算、分析、挖掘能力，从积极推动政府治理能力的现代化。

当然，这其中最关键的是要算经济账，提升效率、降低成本才是基础设施对于所有行业最大的助力。可以看到，智算中心作为算力生产供应平台，在构建过程中以融合开放的架构计算系统为平台，以数据为资源，免费或低成本提供很多开源的人工智能算法及其代码，以强大算力驱动AI模型来对数据进行深度加工，源源不断产生各种智慧计算服务，通过服务形式向组织及个人进行供应。

同时，智算中心可以通过平台开放接口的方式，将行业领军企业的算法能力、数据资源及运营服务等输出给IT基础薄弱的企业，使全社会AI应用成本得到大幅降低。

从这几方面来看，智算中心作为新时代基础设施建设的必要性毋庸赘言，而迫切性也不言而喻。

产业AI化——独乐乐不如众乐乐

从这几方面来看，AI算力作为基础设施建设的价值和意义已经非常明晰，那么，在打造这一“地基”的产业变革中，浪潮又希望扮演一个什么样的角色？

在IDC发布的2020HI《全球人工智能市场半年度追踪报告》中可以看到，目前全球半年度人工智能服务器市场规模达55.9亿美元，浪潮以16.4%的市场占有率，位居全球人工智能服务器市场第一。从这一点来看，浪潮在AI产业化浪潮中可以继续一路突出。

但是去年底在一些公开场合听到浪潮AI&HPC总经理刘军分享自己的观点时，有一句话引人关注。“从市场的量级来看，AI产业化是千亿级别的市场，产业AI化是万亿级别的市场。我们在AI产业化可能走的更快一点，在产业AI化上可能需要抓紧赶上去。”

AI产业化与产业AI化在文字上的细微差别，背后却是科技行业与所有行业在AI应用场景上的巨大差异。帮助所有行业落地和应用人工智能，才是一个无限宽阔的市场，和一个长久可持续的未来。

这其中，浪潮要做的不是自己一家独大，而且协同更多的伙伴，把这个万亿市场共同做大、实现共赢。这，也是浪潮智算中心在新基建打造过程中所扮演的角色。

一方面，智算中心的建设要满足三个基本条件：开放标准、集约高效和普适普惠；另一方面，这一体系将持续投入面向AI时代的三个要素——计算力输出、服务能力优化及人才培养。在懂懂看来，只有在打造以AI算力为核心的基础设施过程中，帮助和促进生态伙伴的优势互补、强强联合，共同成就行业最终用户，才是智算中心的商业化核心价值。而这种AI时代的“多赢”理念，确实远远超出了传统意义上的“AI产业化”范畴。

从浪潮过去一段时间以来的各种举措已经可以看到，其一直在不断推动智算中心IT基础设施建设朝着更深、更宽范畴发展。自1993年浪潮成功研制出中国首台小型机服务器以来，经过近30年的积累，浪潮已经攻克了高速互联芯片、关键应用主机、核心数据库、云数据中心操作系统等一系列核心技术。现在，围绕智算中心，浪潮持续深耕，开发出硬件重构的智算中心算力系统，以及软件定义的智算中心操作系统等等。与此同时，在很多业务面浪潮与合作伙伴也在共同尝试打造智算中心的底层，向政府和行业用户提供端到端的智慧服务，输送源源不断的计算力。

可以确定一点，产业AI化是要深入到每一个行业应用实践中，具体的产品、具体的挑战都要选择适合的算法、模型和处理方式，浪潮携手众多理解行业应用场景的开发商、软件商、集成商，与这些合作伙伴共同完成行业应用的落地，目标不仅是利己利他，而是对人工智能与综合国力发展之间逻辑关系的透彻理解。