从DeepSeek聊到AGI，Lex Fridman这期播客值得一听｜投资笔记第208期

纪源资本·2025-03-10

如何客观地去看待DeepSeek目前的能力水平？

编者按：本文来自微信公众号纪源资本（ID：JiyuanCap），作者：纪源资本，创业邦经授权转载。

一期长达5小时的播客，究竟谁在听？MIT人工智能研究员、知名播客主持人及科技传播者Lex Fridman的对谈节目《Lex Fridman Podcast》近期推出了有关DeepSeek的一期内容：

“DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate, and AI Megaclusters｜Lex Fridman Podcast”。

截至3月7日，这一期节目在YouTube上获得了178万播放量和2.5万like（点赞），对DeepSeek所代表的AI大模型革新的解读，获得了大量科技界、商界从业者的关注。

Lex Fridman是MIT人工智能研究员，生于俄罗斯，后移民美国，拥有计算机科学博士学位，研究方向为深度学习和自动驾驶。在他的播客中多次提到自己的老本行AI深度学习业的近况。

此前Lex Fridman大部分节目都只有一位嘉宾，本期节目却邀请了两位，分别是Dylan Patel和Nathan Lambert。Dylan Patel是半导体、GPU、CPU和通用AI硬件的知名研究分析公司SemiAnalysis的首席分析师，Nathan Lambert则是Allen人工智能研究所的研究科学家，自己也拥有一个以AI为主题的博客Interconnects。

那么，这期讲述DeepSeek的为时5小时的播客，讲了哪些要素？

我们特意请Deepseek自己总结了一下：

本期播客内容本身非常技术化，涉及AI模型的架构、训练成本、开源与闭源模型、地缘政治因素，以及半导体产业的现状和未来。

播客中提到了DeepSeek推出的V3和R1模型，特别是R1作为推理模型的特点，比如能够展示推理的思维链，而不仅仅是最终答案。这可能是技术上的一个亮点，因为它提高了模型的可解释性。

接着，关于开源与闭源的讨论，DeepSeek的开源策略被认为对行业有积极影响，可能迫使其他公司更加开放。同时提到了开源在AI发展中的作用，以及不同许可证对商业应用的影响。

此外，播客还涉及AGI（通用人工智能）的时间表预测，以及不同专家对未来发展的看法。

最后，关于计算集群的建设和能源消耗的问题，讨论了各大公司（如OpenAI、Meta）如何构建大规模GPU集群，以及这些集群对电力基础设施的挑战。

其中的亮点部分集中在DeepSeek技术上的创新（如DeepSeek的推理模型）、开源策略的影响、地缘政治对技术发展的制约、半导体产业的竞争格局，以及AGI发展的前景和挑战。同时还提到了一些具体技术细节，如混合专家模型（MoE）、多头潜在注意力（MLA）等，以及这些技术如何提升模型效率和性能。

展开来看的话，节目里提到了哪些重要信息？

首先，几位嘉宾最先讨论的问题是：DeepSeek与OpenAI目前的模型究竟区别在哪？而DeepSeek-V3与DeepSeek-R1两款同宗同源的模型又相差几何？

OpenAI所推出的o3-mini是OpenAI于2025年1月31日发布的推理模型，主要面向开发者，支持函数调用、结构化输出和开发者消息等功能。DeepSeek-V3和DeepSeek-R1，其中后者近期在中国各行业中被广泛采用。DeepSeek-R1与o3-mini，前者可能提供完整的推理思维链，而后者大多只提供推理摘要；前者是开源，后者并非开源。

为了方便理解，Nathan Lambert引入了概念“语言训练模型中的预训练和后训练”，OpenAI与DeepSeek的预训练都使用了大规模互联网文本预训练方式，在后训练方面，DeepSeek的Base版本进行了两种不同的后训练，得到了DeepSeek-V3推理模型。此后DeepSeek在此基础上，又采用了新的推理训练方法，才得到了DeepSeek-R1模型。

R1的R代表Reasoning（推理），人们提问时，DeepSeek-V3会快速生成token，这些token会组合成易于理解的人类语言答案。而DeepSeek-R1在生成答案之前，会以token的形式快速解释、分解问题。

第二，播客中也提到了一个重要概念：开源权重。“开源权重”是指语言模型的权重数据在互联网上公开，供人下载。这些权重数据可能附带不同的许可证，因为即使是相似的模型，也可能采用不同的许可条款。完全开源包括开源代码、开源数据和开源权重，尽管DeepSeek并没有开源前两者，但已经在引领整个行业走向开源路线了。Lex Fridman点评DeepSeek为“信息披露方面做得非常出色，技术报告质量很高，内容详实，而非泛泛而谈”。

第三，节目中还讨论了一个备受关注的问题“以如今的AI模型的发展境况来看，它的最佳应用场景会是什么”。

Nathan Lambert认为，早期的语言模型在数学和代码能力方面表现较弱，需要聘请数学和编程专家来编写高质量的问答数据，但如今AI模型在编写高质量的数学和代码答案方面已经超越了人类，而且它开始表现出类似人类的思考过程。它会披露诸如“让我想想”“让我检查一下”“哦，这里可能有个错误”这些思考过程，这将使人类在推理模型训练中的作用进一步降低。

Dylan Patel提出了自己的观点，数学方面可验证的任务相对有限，但是在编程方面还有很大的提升空间。真正的“顿悟时刻”可能会出现在计算机使用或机器人技术领域。一旦AI模型将能够完成更复杂的任务，例如去某个众包平台完成任务，并且以获得大量点赞作为自己的正反馈模式，那么就相当于一个能够进行无数次试错的机器，前途无量。

此外，如何客观地去看待DeepSeek目前的能力水平？嘉宾们还小小地“八卦”了一下——通过和行业数据的对比，嘉宾们得出了以下结论：

1）人才配备：例如，节目中，三位科学家对于DeepSeek的人才配备称赞不已，他们认为，为了实现超高效训练，DeepSeek能够在NVIDIA芯片的CUDA层（Compute Unified Device Architecture，计算统一设备架构）或更底层进行了优化，具备这种能力的人才是绝对顶尖人才，即使在美国的前沿实验室也确实不多。

2）商业前景：DeepSeek的盈利能力不容小觑，GPU（图形处理单元）的数量和计算能力决定了训练时间和成本，拥有更多GPU，就可以支撑更多企业客户。DeepSeek在2021年就拥有10,000个GPU，Dylan Patel所在的机构SemiAnalysis猜测，它所实际拥有的GPU数量可能接近50,000个。

3）成本：不仅实现了高产能，DeepSeek还真正做到了低成本。DeepSeek-R1的输出token价格是大约2美元/每百万个token，而OpenAI-o1是大约60美元/每百万个token，差别巨大。

探讨DeepSeek之余，几位嘉宾无法掩饰对于创始人梁文锋的喜爱。他们形容他为一个“像Elon Musk、黄仁勋式的人物，事必躬亲，参与公司的方方面面”，Lex Fridman表示，自己最近刚请了一位中文翻译，希望有机会能够与梁文锋对谈。

节目里还提及了一个AI界非常著名的概念或方法论：YOLO，You Only Live Once（你只活一次）。在大规模训练前，研究人员需要反复试验不同的模型架构、超参数、专家模型配置等等，当实验积累到一定程度，他们会选择一个最优或最有潜力的配置，“拿出所有的资源，选择认为最靠谱的配置，然后全力以赴，冲啊”的方式开始冲刺。

“YOLO运行”与all in异曲同工，背后都有拼尽全力赌一把的含义。对于科学家们来说，“赌一把”仍是他们难以避免的方法论。在三位大牛的对谈中，谈到了“YOLO运行”的两类研究人员的不同偏好，一类人员重视方法论，会系统地探索整个搜索空间，分析不同配置的消融结果，力求找到最佳方案。而另一些研究人员则更依赖直觉，去感受YOLO运行的最佳时期。毕竟科学家也是人，三位主播最后打趣道，在很多情况下，运气也是一种技能。

最后，一个被重点谈论的话题是：AGI（通用人工智能Artificial General Intelligence）时代何时会到来？

在很多AI公司的CEO宣称AGI会在2027-2028年很快到来的时候，节目嘉宾们反而认为，AGI的到来会在2030年之后。他们的顾虑在于AGI的实际运营成本极其高昂，在经济上是不可行的。GPT-3级别的AI模型查询的成本可能只有几美分，但解决一个复杂的AGI问题的成本可能高达5到20美元，因此难以整合到每一次谷歌搜索中，也就很难在短期直接大规模部署，做不到人们理想中的“弹指一挥间”。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。