打造高性能算力网络方案,基流科技助力中国AGI基础设施建设丨光合说

关注
创业一年半以来,基流科技建设了国内最大的私有化单体算力集群

图片

光合作用是所有生命的能量来源,生态系统中碳循环的重要机制。作为“一支有温度的基金”,光速光合也正在与创业者,与这个社会产生“光合作用”,联结创新的同时,推动着社会的可持续发展。

创业邦将陆续刊载光速光合的投资专栏「光合说」,本篇为专栏的第六期,分享光速光合投资背后的故事。

故事的起因可能是一通陌生的电话,一次登门拜访,或是对一篇学术论文的关注……光速光合与创业者的交集就此展开。没有酒桌上的觥筹交错,也没有天花乱坠的承诺,只有长时间的相伴,分担痛苦、分享成功,实践长期主义的价值。

“思考、专注、探索、创新”,这是光速光合的投资信仰。凭借着对行业的极致追求,心怀时代赋予的责任,积极寻找下一个可能的机会。期待“中国创新的全球合伙人”能携手更多行业创新的探路者们一路向光,合力而为。


“非常荣幸,在基流创业的成长路上有众多良师益友的鼎力相助,使基流有机会参与建设超级系统,有机会见证中国通用人工智能落地。团队的拼搏使我倍感自豪,在人工智能飞速发展的浪潮中,我们留下了自己的足迹。”基流科技CEO胡效赫感慨地说。

在清华一路从本科、博士到博后,胡效赫师从李军研究员,于网络安全实验室进行了十年高性能网络系统研究。他在加州大学伯克利分校作为访问学者期间曾师从于Scott Shenker院士,后者是SDN网络的提出者。他非常精通于分布式计算及高性能网络,在创业前就已经落地了全国首个运营商级Tbps可编程网络产品,并在超算环境跑通国产千卡大模型。

专注大规模计算机系统的建设,是胡效赫创业之初就定下的目标。今天基流科技正在开发的,正是针对人工智能设计的分布式GPU系统,也被称为算力集群。

“创业一年半以来,基流科技建设了国内最大的私有化单体算力集群。”胡效赫说,“我们打破了行业里很多既定的共识,比如证明AI训练并非时延敏感型,而是带宽敏感型;我们跨30公里实现了广域网的大模型训练而没有带来算力损失,在跨50公里时能保持98%-99%的算力。”这在世界范围内都是开创性的。

光速光合在今年年初完成了对基流科技的Pre-A轮领投。

光速光合合伙人朱嘉表示,AI大模型的快速发展,对高性能算力的诉求日益增加,但大规模集群算力搭建壁垒高,国内目前有千卡以上大规模集群搭建技术能力的团队很少,基流科技目前是中大型算力集群的解决方案提供商,累计建设和调优十余个集群,拥有万卡集群落地经验,这在国内非常稀缺。

打造高算力超级系统

1967年,IBM公司计算机架构师吉恩·阿姆达尔提出了一个经验公式,表明系统性能提升的潜力受到系统中可并行化部分的限制,即使并行处理器的数量无限增加,整体性能提升的上限也受到很大程度的制约。

图片

简单来说,算力集群的计算速度并不能随着GPU数量的增长而无限叠加,就像1个人10天可以盖一栋房子,10个人只需要1天,但100个人仍然需要1天的时间——其他90个人可能因为挤不进工地只能闲着。

训练大模型也是这样。据Gartner的一份报告称, GPT-3.5的训练过程中,使用了由一万个英伟达A100 GPU组成的高性能算力集群,在GPT-4上则提高到了约25000个A100 GPU,但其算力利用率仅为32%至36%,算力浪费严重。

基流科技的工作就是设计出一套系统,能够组织几千人,甚至上万人尽可能快地盖好更多房子。

胡效赫表示,基流科技的产品主要面向三个维度,包括算力管控调度平台、算力调优运维平台和高速互联硬件。目前,公司除了整套算力集群建设解决方案外,在集群管理、计算引擎和高速网络三个层次上都进行了产品化并有逐步落地,帮助AI企业将GPU合理的组织起来,并尽可能地提高交付效率和 GPU利用率。

目前,基流科技的算力集群方案可以为GPU集群提升超20%的性能,帮助客户在千卡环境中节省成本上千万元,在万卡环境中节省数亿元。

超前布局千亿市场

根据IDC的统计,2022年全球计算设备算力总规模达到906EFlops,增速达到47%。算力产业蓬勃发展,预计未来五年全球算力规模将以超过50%的速度增长,到2025年,全球计算设备算力总规模将超过3ZFlops(注:1 ZFlops=10E9 TFlops)。

在人工智能爆发的时代,算力的重要性不亚于工业时代的煤炭和石油。在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。可以说,近几年人工智能的集中爆发,离不开算力和数据不断堆叠而产生的“智能涌现”。

图片

但算力和算力之间也是有区别的。胡效赫提到,基于传统互联网服务对算力的需求,和人工智能对算力的需求之间有很大的差别,因此需要重新设计网络架构,相关技术还处于初级阶段,在分布式计算、可扩展性甚至硬件方面还有很大的想象空间。

他表示,在AI计算中,尤其在大模型预训练过程中,一个任务要在多台机器的多个节点同时运行,这个任务不可被切分,因此需要优化并行策略、计算通信效能,以提高GPU利用率。这个过程对可扩展性要求非常高。

另一方面,部分AI计算的规模非常庞大,可能涉及数万个连接点。当计算任务在多个节点、多台机器、跨越多跳互联时,一个硬件连接点坏掉后,整个任务会直接挂掉,这需要设计一套新的分布式计算引擎,以满足容错、监控和故障解决的需求。

“这种技术范式的变化实际上是脱胎于分布式计算,在市场端很多厂商对技术的变化认知不够明确,产业链上不同角色之间也缺乏共识。” 胡效赫认为,“人工智能在我们看来是一个十年、二十年的发展机遇,算力基础设施和模型的发展都才刚刚开始,市场认知会在一段时间后慢慢收敛、统一。”

根据信通院测算的结果,2022年我国计算设备算力总规模达到302 EFlops,全球占比约为33%,连续两年增速超过50%,高于全球增速。智能算力需求呈现爆发式增长态势,在算力规模中的比重将越来越高,未来五年复合增长率达52.3%。

对算力的巨大需求造就了急速膨胀的市场规模。IDC数据显示,2022年中国数据中心服务市场规模达1293.5亿元人民币,预计2027年市场规模将突破3000亿元,其中用于推理的服务器的市场份额将达到62.2%,市场规模预计突破1800亿元。

突破技术难关,建立核心优势

随着算力市场的爆发式增长,基流科技将发展的重点放在了项目的具体落地上,积极参与中大型计算集群的建设和运维,尝试将前期积累的工具变成更标准化的产品,同时探索国产化硬件适配和出海。

图片

朱嘉看到,基流科技主打的基于开放生态的高性能算力网络系统已具备高性能和低综合成本的优势。公司成立仅一年多,产品就获得多家落地客户的验证,发展速度很快。

“AI算力比拼的不光是单卡、单GPU芯片的能力,AI算力的核心背后体现的是由GPU形成的网络集群能力。基流科技的产品可以使一个大规模的计算集群能高效地运营,解决GPU算力上的瓶颈问题。”朱嘉表示,“我们期待公司能不断迭代成长,成为全球AI最重要的基础设施提供商。”

在基流科技成立的一年半的时间里,项目已落地一线厂商生产环境,为多个数据中心进行算力集群的设计、建设、调优和运维,服务包括智谱AI、商汤科技、银盾云、世纪互联等厂商累计多个千卡到万卡的算力集群,同时也推出了十万卡的解决方案。

“我们希望通过建设这样的超级系统,形成高性能算力网络,最终支撑人工智能模型的应用落地和企业的IT迭代。”

“高性能算力基础设施是大势所趋,在未来的竞争当中,技术就是我们的核心竞争力。”在胡效赫看来,创业与科研是有相似之处的:“做科研需要我们沿着一个大方向,在关键点上进行突破,方可获得评审专家的认可;创业也要寻找一个大方向,在领域内建立自己的优势,拿出企业需要的解决方案和产品,最终才能得到客户和投资人的认可。”

胡效赫总结:“从这个角度来看,无论是科研还是创业,Talk is cheap,Show me the code才是最重要的。这个行业刚刚开始发展,我们的产品、技术在国内公开市场处于先发位置,但未来有诸多挑战需要解决,扩展优化已建算力集群,做到‘后向兼容’,提升算力调度、运维、故障定位的自动化能力,支持长距离分布式算力集群落地。沿着高性能算力网络方向砥砺前行,为国产算力添砖加瓦,支持国产大模型落地,我们相信在未来的十万卡、百万卡集群中一定会有基流的身影,相信基流能与国内头部大模型厂商一起走入通用人工智能时代。”

本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅