编者按:本文来自微信公众号 纪源资本(ID:JiyuanCap),作者:纪源资本,创业邦经授权转载。
一期长达5小时的播客,究竟谁在听?MIT人工智能研究员、知名播客主持人及科技传播者Lex Fridman的对谈节目《Lex Fridman Podcast》近期推出了有关DeepSeek的一期内容:
“DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate, and AI Megaclusters|Lex Fridman Podcast”。
截至3月7日,这一期节目在YouTube上获得了178万播放量和2.5万like(点赞),对DeepSeek所代表的AI大模型革新的解读,获得了大量科技界、商界从业者的关注。
Lex Fridman是MIT人工智能研究员,生于俄罗斯,后移民美国,拥有计算机科学博士学位,研究方向为深度学习和自动驾驶。在他的播客中多次提到自己的老本行AI深度学习业的近况。
此前Lex Fridman大部分节目都只有一位嘉宾,本期节目却邀请了两位,分别是Dylan Patel和Nathan Lambert。Dylan Patel是半导体、GPU、CPU和通用AI硬件的知名研究分析公司SemiAnalysis的首席分析师,Nathan Lambert则是Allen人工智能研究所的研究科学家,自己也拥有一个以AI为主题的博客Interconnects。
那么,这期讲述DeepSeek的为时5小时的播客,讲了哪些要素?
我们特意请Deepseek自己总结了一下:
本期播客内容本身非常技术化,涉及AI模型的架构、训练成本、开源与闭源模型、地缘政治因素,以及半导体产业的现状和未来。
播客中提到了DeepSeek推出的V3和R1模型,特别是R1作为推理模型的特点,比如能够展示推理的思维链,而不仅仅是最终答案。这可能是技术上的一个亮点,因为它提高了模型的可解释性。
接着,关于开源与闭源的讨论,DeepSeek的开源策略被认为对行业有积极影响,可能迫使其他公司更加开放。同时提到了开源在AI发展中的作用,以及不同许可证对商业应用的影响。
此外,播客还涉及AGI(通用人工智能)的时间表预测,以及不同专家对未来发展的看法。
最后,关于计算集群的建设和能源消耗的问题,讨论了各大公司(如OpenAI、Meta)如何构建大规模GPU集群,以及这些集群对电力基础设施的挑战。
其中的亮点部分集中在DeepSeek技术上的创新(如DeepSeek的推理模型)、开源策略的影响、地缘政治对技术发展的制约、半导体产业的竞争格局,以及AGI发展的前景和挑战。同时还提到了一些具体技术细节,如混合专家模型(MoE)、多头潜在注意力(MLA)等,以及这些技术如何提升模型效率和性能。
展开来看的话,节目里提到了哪些重要信息?
首先,几位嘉宾最先讨论的问题是:DeepSeek与OpenAI目前的模型究竟区别在哪?而DeepSeek-V3与DeepSeek-R1两款同宗同源的模型又相差几何?
OpenAI所推出的o3-mini是OpenAI于2025年1月31日发布的推理模型,主要面向开发者,支持函数调用、结构化输出和开发者消息等功能。DeepSeek-V3和DeepSeek-R1,其中后者近期在中国各行业中被广泛采用。DeepSeek-R1与o3-mini,前者可能提供完整的推理思维链,而后者大多只提供推理摘要;前者是开源,后者并非开源。
为了方便理解,Nathan Lambert引入了概念“语言训练模型中的预训练和后训练”,OpenAI与DeepSeek的预训练都使用了大规模互联网文本预训练方式,在后训练方面,DeepSeek的Base版本进行了两种不同的后训练,得到了DeepSeek-V3推理模型。此后DeepSeek在此基础上,又采用了新的推理训练方法,才得到了DeepSeek-R1模型。
R1的R代表Reasoning(推理),人们提问时,DeepSeek-V3会快速生成token,这些token会组合成易于理解的人类语言答案。而DeepSeek-R1在生成答案之前,会以token的形式快速解释、分解问题。
第二,播客中也提到了一个重要概念:开源权重。“开源权重”是指语言模型的权重数据在互联网上公开,供人下载。这些权重数据可能附带不同的许可证,因为即使是相似的模型,也可能采用不同的许可条款。完全开源包括开源代码、开源数据和开源权重,尽管DeepSeek并没有开源前两者,但已经在引领整个行业走向开源路线了。Lex Fridman点评DeepSeek为“信息披露方面做得非常出色,技术报告质量很高,内容详实,而非泛泛而谈”。
第三,节目中还讨论了一个备受关注的问题“以如今的AI模型的发展境况来看,它的最佳应用场景会是什么”。
Nathan Lambert认为,早期的语言模型在数学和代码能力方面表现较弱,需要聘请数学和编程专家来编写高质量的问答数据,但如今AI模型在编写高质量的数学和代码答案方面已经超越了人类,而且它开始表现出类似人类的思考过程。它会披露诸如“让我想想”“让我检查一下”“哦,这里可能有个错误”这些思考过程,这将使人类在推理模型训练中的作用进一步降低。
Dylan Patel提出了自己的观点,数学方面可验证的任务相对有限,但是在编程方面还有很大的提升空间。真正的“顿悟时刻”可能会出现在计算机使用或机器人技术领域。一旦AI模型将能够完成更复杂的任务,例如去某个众包平台完成任务,并且以获得大量点赞作为自己的正反馈模式,那么就相当于一个能够进行无数次试错的机器,前途无量。
此外,如何客观地去看待DeepSeek目前的能力水平?嘉宾们还小小地“八卦”了一下——通过和行业数据的对比,嘉宾们得出了以下结论:
1)人才配备:例如,节目中,三位科学家对于DeepSeek的人才配备称赞不已,他们认为,为了实现超高效训练,DeepSeek能够在NVIDIA芯片的CUDA层(Compute Unified Device Architecture,计算统一设备架构)或更底层进行了优化,具备这种能力的人才是绝对顶尖人才,即使在美国的前沿实验室也确实不多。
2)商业前景:DeepSeek的盈利能力不容小觑,GPU(图形处理单元)的数量和计算能力决定了训练时间和成本,拥有更多GPU,就可以支撑更多企业客户。DeepSeek在2021年就拥有10,000个GPU,Dylan Patel所在的机构SemiAnalysis猜测,它所实际拥有的GPU数量可能接近50,000个。
3)成本:不仅实现了高产能,DeepSeek还真正做到了低成本。DeepSeek-R1的输出token价格是大约2美元/每百万个token,而OpenAI-o1是大约60美元/每百万个token,差别巨大。
探讨DeepSeek之余,几位嘉宾无法掩饰对于创始人梁文锋的喜爱。他们形容他为一个“像Elon Musk、黄仁勋式的人物,事必躬亲,参与公司的方方面面”,Lex Fridman表示,自己最近刚请了一位中文翻译,希望有机会能够与梁文锋对谈。
节目里还提及了一个AI界非常著名的概念或方法论:YOLO,You Only Live Once(你只活一次)。在大规模训练前,研究人员需要反复试验不同的模型架构、超参数、专家模型配置等等,当实验积累到一定程度,他们会选择一个最优或最有潜力的配置,“拿出所有的资源,选择认为最靠谱的配置,然后全力以赴,冲啊”的方式开始冲刺。
“YOLO运行”与all in异曲同工,背后都有拼尽全力赌一把的含义。对于科学家们来说,“赌一把”仍是他们难以避免的方法论。在三位大牛的对谈中,谈到了“YOLO运行”的两类研究人员的不同偏好,一类人员重视方法论,会系统地探索整个搜索空间,分析不同配置的消融结果,力求找到最佳方案。而另一些研究人员则更依赖直觉,去感受YOLO运行的最佳时期。毕竟科学家也是人,三位主播最后打趣道,在很多情况下,运气也是一种技能。
最后,一个被重点谈论的话题是:AGI(通用人工智能Artificial General Intelligence)时代何时会到来?
在很多AI公司的CEO宣称AGI会在2027-2028年很快到来的时候,节目嘉宾们反而认为,AGI的到来会在2030年之后。他们的顾虑在于AGI的实际运营成本极其高昂,在经济上是不可行的。GPT-3级别的AI模型查询的成本可能只有几美分,但解决一个复杂的AGI问题的成本可能高达5到20美元,因此难以整合到每一次谷歌搜索中,也就很难在短期直接大规模部署,做不到人们理想中的“弹指一挥间”。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。