硅谷视角深聊:DeepSeek的颠覆、冲击、争议和误解

关注

编者按:本文来自微信公众号 中国企业家杂志(ID:iceo-com-cn),作者:闫俊文,编辑:姚赟‍,创业邦经授权转载。

2024年12月底,中国幻方量化旗下的人工智能团队,发布了6700亿参数大语言基础模型DeepSeek V3 , 紧接着在 2025年1月20日开源了基于V3的两款推理模型: DeepSeek-R1-Zero和DeepSeek-R1。一周之后,DeepSeek又推出开源多模态模型Janus。

震惊全球AI届的点在于:DeepSeek使用想象不到的低成本,得到了不输OpenAI推理模型o1太多的性能。这代表着潜在对AI大模型发展范式的颠覆、对GPU算力市场的影响、以及对AI初创企业生态的改变。

硅谷101在春节期间组成了五人小分队,采访了数十位嘉宾,想从技术、资本、市场等等多个纬度来聊聊DeepSeek:

1. DeepSeek的技术创新在哪里?

2. DeepSeek对AI发展会带来哪些影响?包括OpenAI、Antrhopic这样的闭源公司,和Meta这样开源AI公司的影响,对英伟达这样的算力需求的影响,以及对开发应用和创业生态的影响。

3. DeepSeek为什么会是一家量化金融公司孵化出来的、幻方是一家什么样的公司?

2025年1月底在媒体聚集的达沃斯论坛上,微软CEO Satya Nadella以及Scale AI创始人Alexandr Wang的发言直接将DeepSeek推到风口浪尖...

Satya Nadella

微软CEO:

我们必须高度重视中国在人工智能领域的发展。

Alexandr Wang

Scale AI创始人:

我们发现作为中国顶尖的AI实验室,DeepSeek开发的模型实际上表现最为出色,或者说,已经与美国最优秀的模型处于同一水平线。

这直接导致了 1月27日美股市场中,英伟达重挫17%,蒸发市值5600亿美元,创下美国上市公司单日损失纪录。

研究DeepSeek时,我们发现产业中依然有一些非共识和巨大争议,包括对DeepSeek模型“蒸馏/套壳”、“数据盗窃”、成本估算、算力提供还有安全性能的攻击和指责。我们试图收集业内人士的看法抛砖引玉,希望提供一个供大家理性探讨和交流的空间。

01 DeepSeek的技术创新

抛开DeepSeek的众多争议,在硅谷的共识是:这个又便宜又好的模型,确实有扎扎实实的创新在。这样的创新并不是技术创新,更多的是工程上的创新:让AI大模型训练和推理变得更高效、更便宜。

DeepSeek目前发布了三个更新:

1.6700亿参数的大语言基础模型DeepSeek V3;

2.使用无监督数据、借助增强学习方式,在数学和代码专业问题上微调得到的推理模型DeepSeek-R1-Zero;

3.在DeepSeek-R1-Zero基础上,混入更多带有标签的监督数据,提高模型综合能力而得到的DeepSeek-R1。

首先来看DeepSeek在基础大模型V3架构上的创新。

Chapter 1.1 V3架构创新

DeepSeek在2024年5月发布的V2模型中已介绍两项主要的架构创新:混合专家结构(MoE)和多头潜在注意力机制(MLA)。

这两项技术在随后发布的V3模型中体现出的效果更加明显:DeepSeek声称V3模型训练耗时278.8万个H800 GPU 小时,按照每GPU小时2美元的租赁成本计算,训练成本总共只需要557.6万美元。

Yubei Chen

AIZIP.AI联合创始人

加州大学戴维斯分校电子与计算机工程系助理教授

DeepSeek V3重要的点在于模型架构的效率提升。

第一是混合专家结构(MoE):以前不同的专家负载均衡做的不太好,所以分散到不同负载节点时,它的负载均衡会有问题,DeepSeek则在这一点上做了优化。

第二是多头潜在注意力(Multi-Head Latent Attention,简称MLA)层级,MLA的核心思想是减少KV cache(Key-Value缓存),也是在提高架构效率和模型的性能。

这两点作为DeepSeek的核心创新,使得它在6000亿参数的Megatron级别的大模型上,基础模型的表现其实挺不错了。

可能有的观众对AI模型了解较少、或者不太理解Yubei Chen的发言,硅谷101的特约研究员鲁漪文将为大家简单解释下。

我们需要重点关注“MoE”和“MLA”这两个概念。

打个比方:MoE(混合专家结构)就像一家餐厅里的一群顶级厨师,每个厨师专攻一道菜,而一位聪明的服务员会根据顾客的点菜需求,动态分配任务给最擅长那道菜的厨师。

比如我既想吃麻婆豆腐,又想吃提拉米苏,那么就可以由一位川菜师傅和一位甜点师傅分别做这两道菜,其他的厨师则可以休息;

而传统的架构更像是一位全能型厨师,需要做所有菜,这样一来,消耗的时间和精力也就更高。

所以MoE(混合专家结构)这种设计大模型的方法,核心是通过动态路由机制,将输入数据分配到不同的子网络(或者说专家)进行处理。

每次应用的时候只激活部分专家以提高计算的效率,降低训练和推理的成本。最后在6700亿参数中,DeepSeek V3只需要激活370亿参数。

值得一提的是,这并不是DeepSeek原创的方法。

Zach Richardson

TINY FISH AI负责人

前META PYTORCH机器学习工程经理:

Mixture of Experts(MoE)在五年前、甚至更久之前就有了。它最早的应用甚至并不在LLM(大语言模型)领域,而是被用于其他模型,尤其是在广告投放或广告预测方面,Google早期就曾使用过这种方法。

我认为这里一个重大变化是,其他实验室并不需要采用这种方法,因为他们没有遇到类似的资源限制,能一直稳定地提升模型性能。而DeepSeek团队的资源限制相当严格。

因为混合专家系统(MoE)是建立了一个“专家团队”,团队中的交流也至关重要。我们的采访嘉宾说,DeepSeek“让正确的人完成了正确的合作”,这就是DeepSeek团队在原有技术基础上创新的点。

Zach Richardson

TINY FISH AI负责人

前META PYTORCH机器学习工程经理:

要真正优化这一点并实现这样的成果需要软件工程师和硬件工程师密切配合——分析网络日志、监测网络通信量和延迟的影响,并进行精细的协调。我认为这正是关键所在:更大的公司多人协作时,做到这种精准配合是一项巨大的挑战。

DeepSeek另一个架构上的创新叫做多头潜在注意力(Multi-Head Latent Attention,简称MLA),能解决内存限制问题。

V3又在此基础应用了多token预测技术(MTP),增加了注意力模块以预测接下来的多个而非单个token,在训练过程中提高了模型的性能。

真正让DeepSeek火起来的,是之后两个直接对打OpenAI o1的推理模型:DeepSeek-R1-Zero和DeepSeek-R1。

我们来看看这两个模型上的创新点。

Chapter 1.2 从R1-zero到R1

R1出现之前,OpenAI的o1是市场上唯一一个推理模型。由于推理过程的严密性,推理模型更擅长于解答有标准答案的问题,比如写代码、解数学题等等。

DeepSeek“出圈”的关键是作为推理模型,它不仅进行思考,还详细地列出了思考过程。

在此之上,DeepSeek更大的创新点在于R1的训练过程:无需任何人类反馈的强化学习。

我们先聊聊R1的前身——DeepSeek R1-Zero。DeepSeek团队提到,训练R1-zero时他们用了纯粹的强化学习方法,以探索大模型是否能够在没有任何监督数据的情况下发展出推理能力。

强化学习简单来说就是给机器学习模型大量数据和一个奖励函数(reward function)。

AlphaGo从模仿人类到打败人类的这一阶段就利用了强化学习:他完全摒弃了人类的棋谱,反而是在不断的自我对弈中优化策略。

然而,目前的大模型训练中是以基于人类反馈的强化学习为主(reinforcement learning from human feedback,简称RLHF)。在这种训练中,虽然人类会告诉模型哪种选择是更优的,但也有众多弊端,包括人类反馈的不准确性和偏见、奖励模型的泛化能力差以及策略优化的困难等等。

DeepSeek在V3基础模型之上,采用了GRPO(Group Relative Policy Optimization,群体相对策略优化)的强化学习算法来提高模型的推理表现。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

OpenAI的模型训练方式是直接把所有数据喂给模型,也就是提供一整套问答数据,让模型接收所有信息进行训练。

DeepSeek的模型训练方式采用了一种强化学习技术,叫做 GRPO(群体相对策略优化)。这意味着DeepSeek不是直接提供所有问答数据,而是让模型基于已有知识进行优化,以获得更好的结果。这种方法极大地提升了训练效率,同时也大幅降低了训练成本。

OpenAI在此之前提出了另一个强化学习算法 PPO(Proximal Policy Optimization,近段策略优化):通过Critic(批评模型)来衡量某个行动对于当前策略的优劣,提供更稳定的优化效率。但是GRPO则去掉了Critic的部分,直接优化策略本身、减少成本。

有意思的是,GRPO也不是新技术、甚至被业内人士称为“比PPO要退化的算法”,但DeepSeek就是用这种方式将大规模强化学习做得更高效了。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

GRPO 其实并没有多么高深,它从某种意义上来说是PPO(近段策略优化)的退化而不是进化。DeepSeek只是用了GRPO(群体相对策略优化)的方式去解决算力和算力性能的问题,从而解决大规模RL(Reinforcement learning,强化学习)运算的问题。

再回到强化学习本身:推理模型擅长解答有固定答案的问题,所以训练推理模型时我们能够直接验证它的答案。

DeepSeek给了R1-Zero一系列数学、编程和逻辑问题,并设计了两个奖励函数:一个是给正确答案的,另一个则是确保输出连贯、格式规范。DeepSeek团队让模型尝试多个不同的答案,再用这两个奖励函数给它打分。

DeepSeek团队发现,这样的训练下只要给模型提供正确的激励,AI就可以自动找到解决问题的策略和思路。

杨成

前SCALE AI工程高管

现具身智能创业者:

DeepSeek团队通过R1-Zero证明,仅使用可验证答案的方式,便可以通过强化学习训练出推理能力。虽然它没有说具体成本,但大家可以通过它展示出的步骤量、数据算出大概。

我觉得非常多的公司已经开始验证这种方法了,而且这个方式已经被一些更小的模型、在更简单的数据上做了一些验证,大家确实观察到这个方式是有效的,所以接下来可能会激发非常多的创新。

但尝试的过程中可能遇到的问题是:人类无法理解完全利用强化学习训练的模型输出的内容。

DeepSeek自己也提到R1-zero的可读性很低,一个回答里甚至会出现多种语言。所以DeepSeek团队最终还是创建了新的监督微调(Supervised Fine-Tuning,简称SFT)数据集,重新训练V3基础模型得到今天的R1。

而R1的成功,证明了利用无监督强化学习来训练推理模型的可行性,以及通过少量算力来提升模型性能的方法。高校团队、初创公司甚至大厂玩家,都能从中发现新机遇。

除了可能会颠覆AI大模型范式,DeepSeek还在全球AI届引发了一些争议和质疑,包括其是否“蒸馏”了OpenAI模型、号称的500万美元低成本的真实性如何,以及潜在的安全漏洞和监管问题,我们也与业内人士聊了聊。

02 技术争议

Chapter 2.1 模型蒸馏

DeepSeek面临的一个争议是“模型蒸馏”。

Fox和《金融时报》等媒体报道,OpenAI找到了DeepSeek“蒸馏”的证据,这侵犯了OpenAI的知识产权。具体而言,OpenAI认为DeepSeek在训练模型时使用了它们的数据。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

蒸馏意味着DeepSeek大量调用OpenAI的API(Application Programming Interface,应用程序接口),并在OpenAI生成的结果基础上进行训练。这样DeepSeek并不需要直接访问OpenAI的模型也能提升自己的模型性能,这种方法被称为黑箱蒸馏(Black-box Distillation)。

虽然目前确实存在一些指控,但OpenAI需要提供API使用情况的证据,才能证明DeepSeek是从OpenAI蒸馏而来的:例如一些可疑的用户在短时间内向OpenAI发送大量API请求、或者DeepSeek的模型性能与OpenAI的模型高度相似,此外,DeepSeek生成的输出或代码与OpenAI的结果极为相近的话,也可能表明DeepSeek进行了蒸馏。

硅谷科技从业者提到“蒸馏”是AI开发人员常用的一种做法:在较小的模型上通过使用更大、能力更强的模型的输出,来获得更好的性能,并以更低的成本在特定任务上获得类似的结果。在业内,尤其是学术界,经常使用蒸馏,有时整个训练数据集都是GPT输出的内容。

Zach Richardson

TINY FISH AI负责人

前META PYTORCH机器学习工程经理:

老实说,我对此并不会感到特别惊讶。如果现在还有人在做大规模模型训练,却完全没有直接或间接利用闭源模型来生成训练数据,我才会觉得意外。不过我更感兴趣的是,OpenAI如何证明自己掌握了确凿的证据,我认为要证明这点是相当困难的。

OpenAI服务协议中规定,不得将其模型产生的数据用于开发OpenAI的竞品,但这则规定究竟意味着什么却很是模糊:

Nathan Lambert

艾伦人工智能研究所(AI2)研究科学家

INTERCONNECTS 博客作者:

OpenAI的服务条款规定,用户不能利用其模型生成的输出来构建竞争产品。不过,服务条款(Terms of Service)与许可证(License)是不同的,许可证(License)本质上是组织之间的合同,如果我违反了OpenAI的服务条款,OpenAI可以取消我的账户访问权限;许可证则规定了下游产物的使用方式。

关键在于“竞争对手”究竟如何定义?这个概念在AI领域并不清晰,很多问题都取决于这个词的具体解释。

竞争对手的定义不清楚,OpenAI要证明DeepSeek蒸馏了模型或者“盗窃”了它的数据就更困难。而且,OpenAI目前也面临着《纽约时报》等众多知名媒体的法律诉讼,被控未经许可、侵犯知识产权。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

想要确切证明存在蒸馏行为是非常困难的,除非OpenAI公开自己的代码、模型架构以及模型权重,否则即使有各种迹象,也很难拿出确凿证据证明DeepSeek对OpenAI进行了蒸馏。

因此,OpenAI现在陷入了两难境地:他们想指控DeepSeek进行蒸馏,但同时又无法在不损害自身模型保护的情况下拿出直接证据。

更讽刺的是,OpenAI过去曾被指控在训练模型时使用了受版权保护的数据,而现在他们却站出来指责DeepSeek窃取他们的数据。

这里的争议其实是由于AI大模型业界的规范和法律并没有及时追上发展;现在关于合规、合法、合理的定义和边界都很含混。

硅谷有人将OpenAI与DeepSeek类比为"专利药"与"仿制药"。但医药界的这两者实际存在专利保护和造福大众的法律框架,AI产业的各种规范却还未建立。也许我们可以期待未来AI界也会有进一步法规和业界标准的完善。

Chapter 2.2 成本争议

硅谷对DeepSeek的成本讨论这么大,是因为V3模型训练只用了557.6万美元。

但这个数字并不是DeepSeek实际花的钱,而是用278.8万个H800 GPU 小时乘以2美元/GPU小时的租赁成本计算的,但也是无法想象地低。

在硅谷流传很广的一篇来自Semianalysis的分析认为,DeepSeek的预训练数字远不及模型实际花费的金额,光是在DeepSeek的硬件支出就远高于5亿美元。

此外,模型开发过程中还需要花费大量资金来测试新想法和新架构,比如关键创新MLA(多头潜在注意力)耗费了数月开发,当中的团队人力和GPU小时都应算作成本的一部分。

因此,有指责称这个数据被部分媒体过度放大了,或者说,DeepSeek团队太用这个“一次性训练”的数据做噱头:训练一次模型的费用并不是烧钱大头,此前的各种实验、失败、开发、人力等成本加起来才有意义。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

一般来说,H100的租金大概在2.5美金左右。如果有那么大一个集群去retail(以零售方式)租,确实可以再便宜一点。但是事前的试错成本是非常高的:(模型训练)大多数的成本都不在那一次训练上面,而是在前面大量的试错。

所以我觉得这个对比是有一定价值的,但是在训练这事上如此对比,其实价值不是很大。

同时,外界对幻方和DeepSeek到底用了什么卡众说纷纭,是H100,H800,还是A100?

SemiAnalysis就认为,DeepSeek有5万张的英伟达Hopper GPU,包括1万个H800单元、1万个H100单元,以及额外购买的H20芯片。

这也引发一些要求美国政府进一步加强英伟达GPU出口管控的呼声。

这些外界的猜测无法证实真实性,但Bill的观点很有意思:比起DeepSeek训练用的型号、成本,真正的重点在于:DeepSeek的技术创新,的确带来了推理端的价格大幅下降。

而AI业界需要认识到这个范式的重要性,并让这个范式全面降低AI的推理价格。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

我觉得更重要的是去研究一下它的推理成本。大家很少提到DeepSeek的模型稀疏度非常高:它在进行推理的时候,只有350亿还是370亿(相当于1/20)的参数在训练时真正被激活;而大多数的大模型推理时真正被激活的参数量远高于DeepSeek。

所以虽然DeepSeek的训练成本很低,但这不是一个主要卖点;它在推理时激活的参数量低,可能是一个更大的卖点——因为这是一个持续的消耗,当一个模型被部署后,每一次推理都会产生消耗;而训练是一次性成本,完成之后就结束了。

如果说训练成本是一次性的大投入,推理成本就像是订阅模式,需要不停花钱。Bill认为,从财务的角度来说推理成本可能远比训练成本重要,而对于开发者和应用端,这才是一个改变游戏规则的事情。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

所以如果DeepSeek能够将激活参数控制在300多亿,那就意味着它整个推理所需要花的时长以及计算复杂度就会缩小很多。

虽然GPU存储的量是不变的,即要加载这个模型还是需要这么多的GPU显存,但是每一次推理所花的时长就变短了,一个单位GPU所可以算力的释放就会变大,所以推理成本就会下来。

从这个角度来说,推理成本的下降可能对未来的推理方向,以及侧重应用层的公司都有着重大影响。

随着DeepSeek的全球广泛下载和讨论热度,关于模型安全和相关的法律风险也成为一些开发者关心的问题。

Chapter 2.3 安全漏洞与法律风险

2025年1月底,网络安全公司Wiz公开了一项研究结果:DeepSeek将一个关键数据库暴露在互联网上,泄露了系统日志、用户提示,甚至用户的 API 身份验证,总计超过100万条记录,任何人都可以访问。

Wiz的调查报告显示,这种访问级别意味着对DeepSeek及用户构成了严重安全风险:黑客攻击者不仅可以检索敏感日志和实际的纯文本聊天消息,还可以使用查询直接从服务器窃取纯文本密码和本地文件以及专有信息。

Wiz已经将这个安全漏洞报告给了DeepSeek团队。

一些人担心,DeepSeek这样的小团队或许还没有做好去服务全球量级用户的准备。虽然用户和开发者未必会因此放弃使用DeepSeek,但可能会触发安全监管。

Zach Richardson

TINY FISH AI负责人

前META PYTORCH机器学习工程经理:

(DeepSeek在全球)的采用情况已经非常广泛。我们并没有看到来自国际的AI模型安全问题对用户习惯产生显著影响,但安全问题可能会对政府监管产生影响。我认为国际上更多的安全问题是从监管角度出现的。

DeepSeek在1月27日宣布,由于遭受大规模的恶意网络攻击,公司暂时限制中国大陆手机号以外的注册方式,网络安全问题的应对将是DeepSeek团队吸取经验的重要议题。

接下来我们说说DeepSeek对全球AI产业的影响,特别是对主流开源与闭源模型的冲击。

03 对开闭源模型的影响

DeepSeek的技术创新获业界认可,这也给不论开源闭源的硅谷传统头部大模型公司带来了压力,包括OpenAI、Anthropic、Meta、Mistral。

我们先来说闭源公司们的反应。

Chapter 3.1 OpenAI

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

这对OpenAI和Anthropic来说无疑是当头一棒:DeepSeek表明AI领域并不存在真正的护城河,Anthropic和OpenAI将很难证明自己的估值和定价合理。

DeepSeek对闭源模型直接的冲击就是价格——高性价比的开源替代方案必将驱动开发者和公司们的迁移。

根据Sensor Tower的数据,2025年1月26日DeepSeek登上美国免费应用榜单第一名,之后在全球范围内持续火爆,在印度等140个全球市场中的移动应用下载量排行榜上都位居榜首。

数据显示,DeepSeek已经达到了ChatGPT日活用户的23%,并且已经超过了ChatGPT的每日下载量。

这对OpenAI来说,直接的打击就是技术领先带来的垄断溢价将面临缩水。

Dylan Patel

SemiAnalysis创始人:

OpenAI的模型推理产生的毛利率超过75%,也就意味着成本差距在4到5倍之间。OpenAI之所以能赚取惊人的利润,就是因为它是唯一拥有这种能力的公司。

Zhou Nan

QUALCOMM VENTURES投资总监:

DeepSeek出现后,OpenAI需要考虑自己的商业模式要不要有所调整:第一是否开源、第二商业模式要如何调整,定价要如何调整?比如说GPT的Pro版本之前收费 200美元,是不是要考虑降价。

DeepSeek火出圈之后,Sam Altman在X上反击称:我们显然会提供更好的模型。

很快,在1月31日,OpenAI发布推理模型o3-mini,并且首次对免费用户提供推理模型。

o3-mini定价标准为输入1.10美元/百万token、输出4.40美元/百万token,虽仍高于DeepSeek的定价,但较前代o1-mini已实现63%的降幅。

硅谷业界普遍认为DeepSeek R1的性能比o1要稍差一些,而o3作为o1的升级版,在性能上是要优于R1的。

所以,OpenAI的溢价虽然被DeepSeek带来的压力打下来了一些,但依然有高利润率在。随着竞争的继续,价格也可能进一步下降。这会非常利好整个AI的创业生态、开发者社区和应用公司们。

2月3日OpenAI也发布了另一个新模型Deep Research,号称能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。

OpenAI还与DeepSeek-R1进行了对比:Deep Research在Humanity's Last Exam测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高;而DeepSeek R1模型的准确率是9.4%。

OpenAI降价、展示优越性这两轮强硬反击背后,是Sam Altman与OpenAI所面临的压力。

虽然业界对OpenAI的闭源策略各种讽刺,称之为“Closed AI”,但要保持前沿科技的技术龙头地位是不易的——基础研究和探索成本需要非常多的资金,探索者需要砸钱去探路,而后来的追赶者站在巨人肩膀上进行路线的优化则能省很多钱。

在硅谷,很多人把OpenAI和DeepSeek类比为“专利药”和“仿制药”的另一原因是:虽然仿制药用低廉的价格造福了全人类,但专利药背后的多年研发成本却是大药企去承担的。

而OpenAI虽然推理侧的利润很高,在训练侧却是极其烧钱的。如果推理侧的利润无法承担前面训练侧烧的钱,那么OpenAI的商业模式也就失败了。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

可以想象Meta、Google的资源浪费肯定是远高于DeepSeek的:它们有大量的各种各样政治在内部。而且他们也不是只有一百个人,而是上千个人在搞各种各样的花活,所以很难去直接衡量真正的成本是多少。抛开这一切不谈,人力成本可能远高于这些算力成本。

Dylan Patel

SemiAnalysis创始人:

他们(OpenAI)显然是在亏损:他们在训练上投入了大量资金。虽然推理本身的利润率很高,但并不能弥补他们在其他方面的开支,所以他们确实需要这笔资金。

这也许解释了为什么OpenAI在连续两场发布会之后立马开启了新一轮融资:有消息爆出新一轮融资中OpenAI希望筹资400亿美元,将公司估值推到3000亿美元的量级。

即使OpenAI已经得到了软银孙正义投资数百亿美元的承诺,但在这个时间点融资,Sam Altman毫无疑问会面对投资人的各种质疑。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

我觉得有两个事情:一个是OpenAI如何应对便宜模型的出现?第二是心态方面的,因为所有金融的现象都是跟心理学有关,如果大家觉得他融不到钱,那这轮融资就会自我拖延,大家越觉得他融不到钱就越融不到钱。DeepSeek对OpenAI融资的话相对来讲是有负面影响,长期来讲(OpenAI融资)本来也是一个挺难的事。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

有趣的是,OpenAI和Anthropic的股票基本上已经停止在二级市场上的交易,这两家公司在DeepSeek之前还是最炙手可热的,DeepSeek推出后没人再购买OpenAI或Anthropic,没人买也没人卖。

而且,DeepSeek让人开始质疑:真的需要那么多资金吗?即使我投入那么多钱,你们的模式能有多可持续?

Anthropic和 OpenAI一直在向投资者讲述通过大量资金投入模型训练,他们能够建立起对其他公司的巨大护城河;但事实证明,这并不像人们预期的那样稳固。

Chapter 3.2 Anthropic

对于Anthropic来说,DeepSeek带来的打击可能更严重。

我们在硅谷101之前《AI信仰之战》这期内容中提过,Anthropic在对企业端和对开发者端的API上是非常有优势的,但在消费者端比ChatGPT差很多。所以DeepSeek的API价格直接会对Anthropic带来打击。

而且Anthropic目前并没有任何的推理模型,所以完全被OpenAI和DeepSeek前后夹击。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

我认为对Anthropic来说,DeepSeek的出现是个重大打击。他们本月早些时候刚以600亿美元的估值融资了30亿美元,而DeepSeek推出后他们肯定还需要筹集更多资金来继续训练模型。

这也许解释了为什么Anthropic的创始人Dario Amodei,与Sam Altman以及Meta的Yann Lecun等一众科技领袖们的“欢迎竞争”、承认DeepSeek的技术创新表态非常不一样,在长文中对DeepSeek相当不客气,甚至要求美国加强对算力的“出口管制”。

但毫无疑问,DeepSeek将对Anthropic旗下Claude等模型的更新带来更大的压力,来保证闭源模型的领先性。

John Yue

INFERENCE.AI创始人兼CEO:

这些闭源的模型有可能是一直领先的,它要是闭源还不如开源,可能就没有意义。但它(相比开源)应该是有管理上的这个优势。如果闭源还不如开源,我也不知道这公司在干什么,还不如免费。

接下来,再说说DeepSeek对开源模型和社区的影响。

Chapter 3.3 Meta

虽然很多人说DeepSeek代表着开源模型的一次大胜利,但是在开源模型自己的竞争格局中,它也给Meta等行业领头羊带来了非常大的压力。

根据The Information的报道,DeepSeek R1发布之后Meta就立刻进入了紧急状态,成立了四个“War Rooms”作战室——Meta马上要发布Llama 4开源模型,如果Llama 4落后于DeepSeek,公司作为“开源模型的引领者”的地位将受到很大威胁。

Meta最初选择以开源的路线来加入大模型战局,而非像谷歌、OpenAI和Anthropic选择闭源,是想参照当年谷歌开源安卓系统的模式:不从系统本身赚钱,而是等生态发展起来之后从广告和Google Play等应用上赚钱。

如今也是一样:Meta不指望开源的Llama赚钱,但希望Llama是最领先的开源大模型,以便之后从生态和应用上赚钱。

所以,Meta即使不是最强的开源模型也绝不能在能力上掉队,这也是为什么目前Meta必须进入“War Rooms”状态。

The Information的报道也指出,此前Llama在跟OpenAI等闭源模型竞争的时候已经有价格上的劣势了:虽然Meta的模型是免费的,但实际运行起来会比OpenAI的模型更昂贵。

部分原因是OpenAI 可以通过批量处理客户的数百万个Queries(查询)来降低价格,而Llama的使用者却没有办法通过这种方式来获得降价。

如今DeepSeek的价格更低,将给Meta带来进一步的价格压力。好消息是,Meta还没发Llama4。

开源的美妙之处在于,它不但带来了竞争,也带来了互相学习、反馈和进步的机会。业内人士对我们表示,这次DeepSeek引起非常强烈反响的另外一个原因,是它开源得比Meta要更彻底更透明。

杨成

前SCALE AI工程高管

现具身智能创业者:

我觉得从两个方向上对比:Meta开源的时候,其实是落后于业界的。比如Meta采取了dense model(稠密模型),而且它的训练效率也比较低,它当时的表现离最好的模型也有些差距。

Meta开源当中的各种限制,我个人觉得那些更像是大公司病:在一个巨大的公司当中,各个部门扯皮后得出来的平衡点。

DeepSeek这次开源的是一个业界领先的模型,同时technical report(技术报告)的详细程度远远超OpenAI或Anthropic,所以业界其实是非常开心的。

当然,DeepSeek的代码和训练数据集没有开源,但因为它是领先的模型,同时technical report的细节也比之前其他领先模型多,所以业界对于DeepSeek的开源是非常满意的。

我们也拭目以待Meta计划在第一季度发布的Llama4表现如何。

Chapter 3.4 Mistral

在硅谷,非常多的AI从业人士和科技领袖都同意:DeepSeek这次的震撼代表了开源的胜利,但同时很多人也强调开源模型要保持领先,要持续的不掉队、不断推出能与最好闭源模型比肩的产品还是非常难的,在资源、人才、商业变现上都有着很大的挑战。

比如法国AI开源模型公司Mistral,它一度以70亿参数的小模型轰动业界,也曾大力推行DeepSeek技术创新中的MoE(混合专家模型)。但近一年时间,Mistral在技术上慢慢掉队,公司也面临商业化的难题,甚至被传需要被收购。

Jenny Xiao

前OpenAI研究员

LEONIS CAPITAL合伙人:

我对开源公司通常持较为怀疑的态度:因为它们必须找到变现的方式,无论是通过托管服务、提供高级功能、还是开放对最新模型的访问,最终都得以某种方式盈利。

一个典型的例子就是Mistral:这家欧洲AI巨头被认为是欧洲最优秀的AI公司,最初声称自己是完全开源的,但现在Mistral最好的模型大多已经不再开源,甚至连研究的很多细节都不再公开。

我认为开源公司想维持盈利,走向这种模式几乎是必然的。不幸的是,DeepSeek可能也会走上这条路,以确保自身的可持续发展。

Dylan Patel

SemiAnalysis创始人:

DeepSeek并没有足够的能力来提供模型服务,因为他们已经停止了(海外)新用户注册。对(全球大多数人来说,现在几乎无法使用它。

这是因为用户需求过于庞大,而他们没有足够的GPU来支撑模型的运行。我们的研究数据认为,DeepSeek拥有5万块GPU,其中一部分用于研究,另一部分用于对冲基金。他们的GPU数量和计算能力远远不足以支撑大规模模型服务。

所以DeepSeek的成本确实更低,而OpenAI赚钱的原因之一是其庞大的盈利能力,但DeepSeek是否通过API盈利目前还不清楚,我个人认为可能并没有。

对于DeepSeek来说,因为还有幻方这样的母公司的资金作为撑腰,商业化也许并不是他们的首要任务,或许会选择融资的模式。

DeepSeek之前也尝试过融资,只是不顺利,我们会在之后幻方DeepSeek成长史的章节提到。

所以在资金和人才都不是问题的情况下,DeepSeek接下来的关键将是能否在开源路径中保持领先、从开源社区中得到技术的反馈和反哺来进一步提升创新。

04 对算力的影响

DeepSeek对英伟达的市场情绪冲击在1月27日是最明显的,但之后跌幅已经止住了,并且在过去的几天股价开始缓慢回升。

我们听到市面上有两种声音:

1. DeepSeek带来了模型训练和推理的新范式,以后不需要这么大量砸钱去买英伟达最前沿的GPU芯片了,所以算力市场的故事已经崩塌。

2. DeepSeek能让整个生态的算力成本都得到进一步降低,所以会有更多的玩家入局,会有更多的应用生态崛起,这就意味着更多的算力需求,GPU算力市场其实更大了,反倒是利好英伟达的。

目前华尔街和硅谷的一二级投资市场对第二种逻辑达成了共识,这也是为什么英伟达股价止跌在这个价位:截至我们写稿的时候处于2024年10月的股价水平,依然处于近年的高点。

Zhou Nan

QUALCOMM VENTURES投资总监:

只是说模型具体的训练成本会降低,但是因为模型训练成本降低了、它又是开源的,这会释放整个生态对模型的应用,包括新的开源社区开发者也会去复现这个模型。所以整体上来讲,降低的算力成本反而会刺激下一代模型的训练、开源模型的训练和整个应用场景,这些都会迎来大爆发。

现实情况是,虽然DeepSeek推高了整体算力需求按理说应该利好英伟达股价,27号大跌之后这一周英伟达的股价并未太过反弹。这是因为DeepSeek的模型创新造成了目前尚未验证、没有达成共识的新问题:DeepSeek能击垮英伟达最强的护城河CUDA吗?

John Yue

INFERENCE.AI创始人兼CEO:‍

英伟达其实是有两个最大的壁垒,InfiniBand(芯片互联)和CUDA(调用GPU的系统)。它跟AMD这些其他芯片公司其实已经不是在一个层面在竞争的:其他人都在争单张卡的性能,但是英伟达争的是互联的技术、软件调用、Ecosystem的维持。所以英伟达真正的壁垒是这两个。

最近很多媒体和文章以“DeepSeek已经绕过CUDA”为标题,再度引发市场对英伟达GPU需求的恐慌和对英伟达护城河是否坚固的质疑。

我们采访的技术派嘉宾看法挺一致:这类新闻标题是不准确的,因为DeepSeek并没有绕过CUDA,只不过英伟达的护城河确实因为DeepSeek松了那么一点。

这类新闻的结论是:DeepSeek的创新可以:

1. 直接在英伟达GPU的低级汇编语言PTX(Parallel Thread Execution)上进行优化;

2. 同时通过对FP8计算和存储的支持,让DeepSeek团队实现了加速训练和减少GPU内存使用。

结论:这意味着业界之后可以绕过CUDA生态,用其它GPU也能实现高效训练目的,英伟达的护城河不存在了。

我们的嘉宾就这两个说法进行了一些纠正和补充,主要观点有三个。

第一:DeepSeek没有“绕过”CUDA。

John Yue

INFERENCE.AI创始人兼CEO:

它并没有完全绕过CUDA生态系统。它可以直接去调用CUDA底下的PTX(指令集上再高一层的指令集)并且在这一层直接进行优化。但是这也是挺大的一个工程,并不是说任何一个小公司都有能力去做这件事情。

英伟达的护城河是CUDA生态,而不是单单CUDA本身;而PTX是CUDA生态的一环,用于连接CUDA高级语言代码和GPU底层硬件指令,仍然是英伟达GPU架构中的技术。所以DeepSeek“绕过CUDA”这个表述在很多人看来是不准确的。

第二:DeepSeek可以基于PTX优化英伟达GPU,是不是说明DeepSeek也可以优化其它GPU和芯片呢?

这一点是很可能的,所以AMD迅速宣布将新的DeepSeek-V3模型集成到自己的Instinct MI300X GPU上。

但技术从业者告诉我们,DeepSeek团队可以基于PTX进行优化,不意味着其它团队也这样的能力和动力。因为编写PTX代码的做法非常复杂且难以维护,对技术人员要求极高,也很难移植到不同型号的GPU。

所以第二个观点是:目前来看业界没有动力大规模改变算力使用的范式。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

一旦CUDA不存在、有一个标准化的开源生态出来、AMD和英伟达GPU没有什么区别,那就对英伟达比较危险。但是我觉得短期内要挑战英伟达还是很难,因为很难想象现在那么多数据中心全部迁移离开CUDA,没有人会干这种事情。

DeepSeek可能有自己的一套基础设施(Infra)并且做了这样的尝试,但我不认为AWS、Azure、Google Cloud会说:“好,今天我们要把所有东西都迁移出英伟达,不再支持CUDA了,PyTorch开发者们,你们自己去实现新的方式吧。”这个是不太可能发生的,对开发者来说,这样的变化过于不友好。

John Yue

INFERENCE.AI创始人兼CEO:

短期来说我觉得对AMD是利好,因为AMD已经宣布把DeepSeek给弄过去了。但是长期来看也不好说,有可能还是利好英伟达。

因为这毕竟只是DeepSeek一个模型,而CUDA厉害的地方在于它是一个通用的GPU调用的软件系统,什么软件都可以用CUDA;但DeepSeek只支持DeepSeek,有别的模型还要再重新适配一次。

那就是在赌以后DeepSeek就是黄金标配。如果所有的初创公司都在DeepSeek上建,那对已经移植了DeepSeek的AMD挺好的。但如果后面不是DeepSeek占主导,那别的模型又要重新适配,那挺麻烦的,还不如用CUDA。

前面我们提到,DeepSeek通过对FP8计算和存储的支持,实现了加速训练和减少GPU内存使用。这是否意味着,很多模型的训练和推理不一定要去买英伟达最好的芯片?

像Groq等更便宜的ASIC专项芯片,还有谷歌TPU、亚马逊自己的自研芯片,是不是可以有更高效的训练和推理用途?这个问题可能比前面我们讨论PTX是否绕过CUDA更为关键。

谷歌的财报显示公司预计2025年资本支出将增加到750亿美元,远高于市场此前预期的580亿美元,其中很大一部分预计是在自研芯片TPU上。

博通Broadcom作为谷歌TPU的设计方也股价大涨;Meta等科技巨头也都纷纷制定计划定制ASIC芯片,减少特别是今后推理侧对英伟达的依赖。

目前我们采访的嘉宾认为:这会冲击英伟达的溢价,但不会击垮英伟达的壁垒和护城河。

Zhou Nan

QUALCOMM VENTURES投资总监:

DeepSeek因为它用了FP8的策略,减少了对CUDA的深度绑定,这肯定会给AMD、Google TPU、甚至国内的华为带来了很大的机会。

老黄是一个非常具有战略前瞻性的人:他一定会在CUDA生态系统里面也去优化推理层面,不管是性能还是价格,这个会对英伟达毛利率带来很大的冲击。

英伟达现在毛利率将近90%以上,所以它会迫使英伟达降价。但因为的CUDA系统和一系列的生态的支持还是比其他芯片公司好的,英伟达降价以后可能也会从某种程度上,把市场占有率再拿回来一些。

John Yue

INFERENCE.AI创始人兼CEO:

我没觉得DeepSeek动摇了英伟达的这两个壁垒,只是他对溢价有一些冲击。有可能收不了那么高的价格,但是也并不代表就是其他的竞品能突然就进来。

比如有个墙,大家以前都觉得翻不过这个墙,现在有个人跳过去了说,“你看我可以跳过去,你们也有可能跳过来”,但是这个墙没有变低。不是说就是他跳过去了,别人现在也都能跳过去。

这就是他为什么冲击了溢价,但是没有打倒壁垒,就这个墙没有变低。

所以,DeepSeek没有绕过CUDA、目前大规模弃用英伟达芯片的恐慌也不会发生,但新范式确实给英伟达的壁垒上凿了一道口子。

得益于技术护城河,此前英伟达GPU和OpenAI一样利润率和溢价很高。然而接下来要保住自己的市场蛋糕份额势必会降价。虽然这对业界来说都是好消息,但华尔街和硅谷也都在观望其能否保住市场份额。

算力成本降低会利好应用侧,接下来由硅谷101特约研究员王可倚(Sophie),聊聊应用层和创业生态的影响。

05 对开发应用侧的影响

业界嘉宾中很多人认为,DeepSeek取得的几项突破上,对应用层面短期影响最大的是模型推理成本的跳水;而R1在逻辑推理方面展现出的潜力则让业界看到了未来几年内,软件行业可能会遭遇的颠覆性变革。

Chapter 5.1 AI届拼多多

DeepSeek作为“AI届拼多多”发布之后引爆了一场业内价格战:DeepSeek V2公布后,包括字节在内的大厂不惜做“赔本买卖”,把API价格降到业界估计的成本线下“舍命陪君子”。

而对于使用模型的AI应用开发者而言,这样的价格战解锁了全新的可能性。

对于一些开发者来说,DeepSeek是“锦上添花”;对于在GPT以后、DeepSeek之前商业化的不少2B AI应用而言,这一波降价引发的是利润的量变而非质变。

如果被代替的是白领工,无论律师、医生、码农还是金融分析师,再贵的AI也贵不过人,所以应用者就像F1赛车手不惜代价追求着模型的极致表现。这种情况下,降价的直接影响是:同样的生意利润率大幅提高。

同时,DeepSeek对另外一些场景则是“雪中送碳”,那些之前需要烧钱补贴、否则难以推广的使用场景,如今因为降价有利可图,可能迅速普及。

比如陪伴型AI,对于聊天机器人类的创业公司来说,用户的“热爱”是昂贵的。

Whats The Big Data在2024年5月发布的一份报告显示,用户在行业龙头CharacterAI平台上的单次使用时长平均约为两小时,是ChatGPT的17倍。

伴随而来的是相应大幅攀升的模型使用成本:很多该类公司为了吸引用户而选择免费,不得不靠限制使用时长等方式来控制开销,同时大量资金补贴。而现在DeepSeek彻底改写了陪伴型AI产品的成本结构。

曲晓音

HEYBOSS.XYZ创始人

RUN THE WORLD创始人(已被收购):

这对于商业模式来讲的变革是巨大的,可能以前做不了的事情,现在就是好生意了。

另一个有利的领域是AI agent(智能体),这是臭名昭著的“算力黑洞”。

由于完成一个任务需要多步模型调用、反复自我修正与验证、甚至多个代理相互配合,对API调用的需求指数级上升,如今在成本和响应速度上的进步也格外显著。

大降价也引发了从0到1新的业态可能。业内人士普遍认为,由于DeepSeek使得端部署AI小模型能力突飞猛进,我们将迎来设备端AI应用、尤其是2C应用的百花齐放。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

因为它费用非常低,再加上它可运行的设备基本上是通用的,所以在toC的领域可能会有一个大爆发。

曲晓音

HEYBOSS.XYZ创始人

RUN THE WORLD创始人(已被收购):

儿童助玩机器人、帮你记会议笔记的东西等,如果能在端上的话成本就非常非常低了。

Larry作为投资人尤其看好设备端AI 2C应用中娱乐类或虚拟人助手类的应用。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

一是娱乐的,再是人与人之间交互可以生成两个数字化身:不管是给客服打电话还是朋友之间的交流,可能会有新的模式。

而端部AI应用的一大特征是,推理成本对于应用开发者几乎为0,因为计算资源来自用户的设备,不再是云服务器,这一点很有可能会颠覆SaaS时代“硬件+SaaS订阅”的经典商业逻辑。

硬件+SaaS的经典逻辑是“电动牙刷柄赔钱,牙刷头赚钱”:硬件以接近成本甚至低于成本的价格出售,同时绑定独家软件订阅服务,从高利润率的软件订阅上赚回硬件补贴,并实现持续、稳定的现金流收益。

然而当端部AI服务的边际成本为0,竞争会使得订阅服务很难实质性收费,因为“永远有对手比你更便宜。”

曲晓音

HEYBOSS.XYZ创始人

RUN THE WORLD创始人(已被收购):

那就会有人卷你了,我不收钱对吧,那可能确实你的利润率会降低。

所有沿用”牙刷头补贴牙刷柄“思路的SaaS公司在被DeepSeek拉开序幕的端AI时代需要重新审视了。

关于端部AI的跨越是否也会带来物联网的春天,业界目前还难以下结论:物理世界的规则限制了硬件发展的速度,不会像数据增长与纯数据应用发展这么快。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

硬件的发展相对来讲是个比较线性的增长;数据方面的增长跟数据应用和处理方面的增长总是个指数型的增长。所以我觉得是不可比的。

对于物联网的布局,我们硅谷101在之前《孙正义翻身之战》中也提到过,孙正义之前也下手太早、栽过一回,所以现在上牌桌玩AI+物联网是不是好的时点依然不好说。

Chapter 5.2 AI创业生态

在和投资人的聊天中,他们认为DeepSeek之后由于前沿大模型效果趋同、进入效率竞争阶段,资本市场恐怕会重新评估单纯追求面面俱到、没有针对性行业或使用场景的“横向”AI创业公司的前景和估值。

这其中不乏有著名研究员、技术大神创立、风投圈曾高价追捧过的明星公司。有投资人认为越是融资多的“名人创业”,相对越容易陷入“高开低走”、“杀鸡用牛刀”的尴尬境地。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

前一段时间在主赛道上融资的一些初创企业会有很大的问题。我觉得从投资人角度来讲,会担心他融这么多钱,但他所做的事实际上别人可能以十分之一的价钱可以做。从工程师上讲,也用不着这么优秀的顶级的工程师。

所以在AI被商品化的时代,成为“平台”、搭建生态系统或许才是横向AI企业的一条出路。

与之相对照的是,专注于一个细分领域或特定使用场景的纵向AI企业,则被认为是更容易建立差异化竞争优势,前提是它们用AI提供的解决方案必须相对于从前有质的飞跃。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

任何一个人如果找我们来投资,我说你这个事是不是比以前要好10倍、100倍?不管你再狭窄的一个事情都有意思。

而DeepSeek的效率和逻辑推理能力突破让更多这样十倍、百倍的进步成为可能。同时,细分领域累积的新数据、随之而来的新智能才是真正的护城河。

总之,投资人和开发者似乎在达成一种共识:深根细分领域的AI模型与应用会超越最厉害的通用大模型,专才胜于通才、“纵”强于“横”。

经历这一波变革,AI行业正在整体回归理性化:少了玩命融资、囤卡和挖人才的狂热,多了和具体需求紧密结合、脚踏实地的渐进式创新,一个发烧的领域在逐渐恢复健康。

Bill Zhu

POKEE AI创始人兼CEO

前META AI应用强化学习负责人:

可能不会出现像过往那样如此疯狂的估值,这些公司未来可能会像早期互联网融资慢慢发展,形成更良性的公司发展格局。“我先扔50亿看能不能砸出水花”这种情况很难再发生了。

这不是说AI下半场就没有那么激动人心了,恰恰相反,对AI创业者来说下场的黄金时机很可能才刚刚开始。

Larry Li

AMINO CAPITAL创始人/管理合伙人:

我觉得好事在后面,就跟互联网时代一样,像Google,Amazon都是后来慢慢起来的企业。这是刚刚开始,要是说AI这个大浪的话,今天就是零。

DeepSeek就像一条鲶鱼,搅乱了大模型行业的鱼塘:开发者们获益匪浅,但未来大模型竞争格局却依旧柳暗花明。

AI应用对基座模型的切换成本、云厂商在搭载模型选择上的纵横捭阖、甚至AI应用”脚踏几只船“、根据具体任务动态选择模型的策略,都让这个行业很难轻易分出胜负。

最后,DeepSeek R1在逻辑推理方面的过人之处,让不少人预测下一代R2很可能会实现AI编程能力的飞跃。无论是对软件开发的工作流、关键决策,还是工程师的职业生涯,甚至人们的生活方式可能都会带来深远的改变,而这一切可能都会比人们原本预料的来得更快。

最后我们再来试图挖掘孵化出DeepSeek的幻方是一家什么样的公司,低调的创始人梁文锋是怎么样的一个人、内部有什么故事。

06 幻方成长史

对于硅谷来说,DeepSeek是一个陌生的名字,因为它此前的曝光太少、团队也非常低调,颇有一种少林寺扫地僧突然打进世界擂台的感觉。

虽然DeepSeek看起来是“横空出世”,其背后的幻方量化其实在AI方面有着接近8年积淀,中国量化届对这家公司肯定不陌生。

梁文锋是幻方量化和DeepSeek这两家公司的创始人,出生于1985年,从小就展现出数学天赋。

2002年,17岁的梁文锋成功考入浙江大学电子信息工程专业,2007年继续攻读研究生、专注于机器视觉的研究。

2008年全球金融危机爆发,A股也迎来一波牛市崩盘,但当时还在读硕士的梁文锋,看到了量化交易的机会。他开始尝试用系统化、程序化的方式来研究市场、进行交易,当时在中国还很少有人知道量化交易是什么。

毕业后,梁文锋也没有像周围人一样去互联网公司做程序员,而是躲在成都的廉价出租屋里,不停地编写AI算法来选股,用在不同的市场场景中去尝试。这个过程肯定很艰辛,会经常遭遇挫败。

到了2015年,梁文锋的探索已经趋于成熟,他也建立了自己的交易体系,于是就成立了幻方量化这个品牌。

2015年对于中国量化私募行业来说也是一个重要转折点:4月中证500指数期货上市,使量化基金拥有了更强大的工具和更丰富的对冲手段。接下来A股市场的巨大波动,也给了中国量化基金一次绝佳的试水机会。

2015年,30岁的梁文锋与大学好友徐进共同创办了幻方量化,在市场股灾的情况下,幻方反而取得了超额回报,甚至在年底就成立了十只对外募资产品。

之后几年,顺着中国量化基金行业的爆发期,幻方的管理规模也从2016年的10亿元,飙升到2019年的百亿,又在短短两年间突破了千亿。

Chapter 6.1 从量化基金到AI公司

幻方的成长过程中,有别于其他量化基金的就是梁文锋对AI的执念。

虽然身处金融行业,但梁文锋一直专注于模型算法革新,甚至有业内人士评价幻方:更像是一家做机器学习、人工智能的公司,但副业用量化交易挣了钱。

2016年是幻方的一个关键之年:幻方推出了第一个AI模型,并且首次使用GPU来生成交易仓位,并且上线执行。

幻方量化AI科学家:

2016年,AlphaGo击败李世石后不久,我们上线了第一个深度学习的模型进行持续投入。我们几乎涉及了深度学习的所有领域来提升预测能力。

2016年之后,梁文锋带领团队一直在AI算法和软硬件方面加大投入;

2017年年底,幻方几乎所有的量化策略都已经采用了AI模型;

2018年,梁文锋明确了公司以AI为核心的发展方向,并且把整个产品线和资金管理都嫁接到以AI为核心策略的开发体系上,并且开始大规模招贤纳士、吸收了很多年轻的AI专家型人才。

然而随着幻方在AI训练方面急剧增长的需求,算力成为挑战。

为了解决算力瓶颈,2019年幻方投资2亿元,自主研发了深度学习训练平台“萤火一号”,搭载了1100块GPU显卡;

2021年,幻方又构建了“萤火二号”,算力提升了18倍,之后幻方成为中国5家拥有上万张A100 GPU的公司之一。

在2022年11月底,OpenAI发布ChatGPT掀起新一轮人工智能浪潮之际,幻方宣布下场做AI大模型,并在次年5月将技术部门中做大模型的团队独立出来,也就是如今的DeepSeek。

所以DeepSeek背后并不是一家新公司,而是一支有经验有资金有技术有算力、深耕了AI技术数年的团队。但是这支团队,一度在中国融资失败。

Chapter 6.2 全国VC都错过的投资窗口

根据我们听到的消息,DeepSeek在2024年5月有过一次短暂的外部投资窗口、也是目前唯一的一次。

当时梁文锋想尝试融资,看看外界的兴趣。去年5月时,DeepSeek V2的效果已经很好了,但在短暂接触过几家VC后,梁文锋就放弃了对外融资的想法。

从当时的一级市场环境来说,由于多年缺乏上市退出,VC们都苦于自身业绩难题陷入DPI焦虑。

很多基金不再敢于投资前沿科技的高风险项目,特别是像基础大模型这种投入很大、成本高,竞争格局时刻在变化的项目风险非常大,在这个时间点还愿意投资基础大模型的VC寥寥无几。

一位美元基金的朋友跟我们说,当时的美元VC们都在竞逐有着明星创始人背景的月之暗面,以及更加务实、在商业化层面崭露头角的Minimax。

这两家当时已经形成了一定共识,有点Club Deal的感觉(俱乐部交易,指一项投资中,多个PE基金联合起来同时对目标公司进行投资)。

DeepSeek量化出身、有点跨界意味,创始人的时间分配也不太明确,所以很多基金都摸不清楚情况,相比之下,投资已形成共识的月之暗面或Minimax是更容易做出的决策。

而对于人民币VC来说,由于资金期限与风险偏好,就更不大可能投资于基础大模型,就算有这方面的投资偏好,智谱这样的政府背景深厚的公司也更容易通过投决会。

一个量化基金背景的团队来做AI大模型,还是开源模型,还不是Bloomberg做的金融垂直类的BloombergGPT,也意味着DeepSeek的路线图确实短期内很难看到商业模式,而中国VC们更喜欢能够更快赚钱的闭源模型,和更快落地的商业模式和应用。

所以当时的梁文锋是不受国内的风险投资人待见的。

他在融资不利的情况下出来接受了两次采访,也是我们现在从外界一窥梁文锋和DeepSeek团队的珍贵公开资料:

梁文锋是一位剑走偏锋的技术理想主义者,当他在2021年就开始囤积数千英伟达GPU的时候,行业中没人知道他想干什么。

甚至根据金融时报报道,他的一位商业合作伙伴用“一个发型糟糕的书呆子”来描述第一次见到梁文锋的感受,也说明当时不少人都没有足够重视他。

最终,梁文锋决定用幻方来承担DeepSeek的研究经费。而从幻方的发展历史上来看,梁文锋对技术理想也是坚持的:包括幻方基金遭遇巨大困难时,他依然坚持对AI的投入。

幻方业绩最辉煌的2019年和2020年自然年收益分别为58.69%和70.79%,但2021年,因为AI在买卖时点的投资决策上出现了问题,幻方出现业绩暴跌并在12月底发布了致投资者公开信,对业绩回撤达到历史最大值深感愧疚,关闭全部募资通道。

这个过程中有投资者也产生了很大的负面情绪,认为梁文锋对AI的痴迷令其精力分散、业绩滑坡。之后,幻方的资产管理规模从千亿人民币逐渐回落到如今2025年的小于300亿元。

但还是2021年,幻方也没有停止对AI的投入:构建了比一号算力高18倍的“萤火二号”。

幻方的另一个艰难时刻是在2024年:中国金融监管机构对量化交易进行进一步缩紧,股市情绪也对量化基金们多有争议。

而这个时候DeepSeek的投入开始出成绩了:DeepSeek V2系列模型自2024年5月发布开源以来开始受到业界的关注。甚至在硅谷101视频的评论区,2024年7月已经有观众提到DeepSeek。

之后V3发布、R1-Zero和R1引爆市场,但幻方之后是不是就成为一家AI模型为主导,量化基金为旗下附属应用产品的公司呢?

Chapter 6.3 幻方的企业文化与初心

现在看来,幻方在2021年业绩低谷期,仍然能顶住压力坚定地投入AI而团队不散,离不开独特的组织架构和企业文化。

量化基金是一个源自美国产物,这使得几乎所有中国的头部量化基金的创始班底都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索长大。

DeepSeek完全是国内本土团队,没有海归人才,团队成员大多是来自于清华、北大、北邮、北航等国内顶尖高校的计算机专业应届生,或者是在读的博士生。

梁文锋自己也是一位身先士卒的创始人:他更愿意被当作工程师,而不是交易员。

他几乎每天都亲自参与写代码、跑代码,作为一个懂技术并且对技术充满好奇心的创始人,这是梁文锋与其他同行的核心区别——这里的同行不只是指国内的量化基金创始人,也包括像Sam Altman这样的创始人。

幻方AI架构师:

身处在这个团队,给我的感觉就是快乐、很幸运能够和天才们一起共事。我们提出一个问题能获得无数的回响,而不是身边只有没有想法的小土豆,瞪着无辜的大眼睛问你该怎么办,空留你一个人在荒野里面呼号...

前阵子我们在讨论一个核心算子的时候提到,这个算子的GPU使用率不是很高,有没有更多的提升空间?当时我是持怀疑态度的,毕竟这是官方提供的算子,是当时最快的实现,他们有对硬件架构最深刻的理解,但最终的结果也只有这样,那我们还能做些什么呢?

但我们没有放弃,我们一起研究一个月后,有一天我们的同学突然说自己开窍了。

现在版本在最优的情况下比官方快了5倍,普遍情况下快了25%,帮我们节省了25%的GPU时间——这就是我们做事的方式,我们的追求并不仅仅在我比过去快了多少,我们追求的是达到理论的最大值是百分之多少。比如我们的存储指标是用IB带宽的百分值,从80%到85%到91%、92%、93%,而这种1%、1%的极限追求和突破在此之前都是不敢想象的。

幻方和DeepSeek鼓励内部形成不同主题的技术小组,成员之间可以自由交流和合作,内部氛围也非常宽松,并不采用常见的KPI、OKR的考核方式,一切基于这些职场新人的自我驱动力。

在幻方,每个人可以根据自己的能力和兴趣选择自己的研究方向,即使是刚毕业的新人也有机会去主导探索一个全新领域。这种氛围跟互联网大厂非常不一样,不需要你先去立项、证明价值,再与其他团队抢资源。

这样的文化氛围让人联想到刚成立时候的OpenAI,当时还是非盈利架构下的OpenAI、Ilya Sutskever、Andrej Karpathy、Mira Murati都还没有离职的OpenAI,可以说是一个纯粹的AI Lab。

而凝聚一个技术团队的核心就在于对技术本身的坚定信仰。

最近心资本的合伙人吴炳见在社交媒体上发了一段感慨:

他去年的时候去问DeepSeek的人“为什么你们的模型做的那么好”,对方回答说因为我们的老板自己读论文、自己写代码、自己做招聘,时间花在哪里,哪里就容易出效率,听着很简单,但真相往往就是这么纯粹。

但随着DeepSeek团队如今到了聚光灯下,更多的压力和更多的目光,梁文锋能否继续带领这个团队保持初心呢?

07 硅谷“错位的优越感”

我们也联系上了幻方的创始人和管理团队,但很遗憾他们在这个时间点拒绝了我们的采访邀约,希望以后有机会可以直接和梁文锋与DeepSeek团队对话和采访。

DeepSeek带来的创新,无论是技术创新还是工程创新,在技术上都对硅谷带来了非常多的启发和讨论。

其中一位嘉宾说,在硅谷的AI发展路线在DeepSeek之前都开始非常趋同了:大家都做的一样的事情,用的一样的技术,采取一样的路线。但DeepSeek这次带来的耳目一新,重新又盘活了整个硅谷的AI大战。

无论是Meta、谷歌、OpenAI,还是Anthropic,大家的紧迫感又回来了——就像Meta创始人扎克伯格在一次All-hanDeepSeek全体员工会议中说,“所有人都要为紧张的一年做好准备。

就在硅谷重新回到“作战室”状态之际,我也很认同图灵奖得主Yann Lecun最近在LinkedIn上的发言:

在硅谷某些圈子里存在一种常见的疾病叫“错位的优越感”,认为你的小圈层垄断了所有的好主意,假设其他地方的创新是通过作弊获得的。

但现实是,当大量有才华的人参与并分享他们的创新时,科学技术才能进步得更快。

而之后的AI格局,开源与闭源路线之战,算力之战,大模型和小模型之战,应用之战可能才刚刚打响...我们也会在硅谷为您持续关注。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。


反馈
联系我们
推荐订阅