编者按:本文来自微信公众号 豹变(ID:baobiannews),作者:周可,编辑:邢昀,创业邦经授权转载。
这个春节假期,无论你是不是科技新闻的长期读者,大概率逃不过一款名为 DeepSeek的AI产品相关资讯持续刷屏。
一切始于1月20日,中国科技公司深度求索推出推理模型DeepSeek-R1,仅用 OpenAI十分之一的成本就达到其最新模型GPT-o1同级别的表现。
此前,深度求索宣布其推出的DeepSeek-V3仅花费558万美元,不到国外公司十分之一的GPU芯片和训练时长,就实现了与GPT-4o和Claude Sonnet 3.5等花费数亿美元训练的顶尖模型相当的性能。这一消息迅速激起全球科技界持续关注。
R1发布后的十天内,DeepSeek先后登上中国、美国等70多个国家苹果应用商店下载榜榜首。这是全球范围内,首次有产品超越OpenAI的ChatGPT。几年来,AI竞赛的焦虑第一次传导到美国科技公司。
DeepSeek火爆之下,对算力需求是否产生负面影响的讨论,也引发了华尔街恐慌。1 月27日,美国主要科技股市值开盘缩水超1万亿美元,英伟达股价带头跳水 16.86%,市值蒸发5890亿美元,相当于跌没了两个阿里巴巴。甲骨文下跌 13.78%,超微电脑下跌 12.49%,芯片制造商博通下跌 17.4%,台积电跌 13%。
科技股股价暴跌的同时,美国科技公司开始研究、模仿中国对手。据报道,Meta已成立四个小组专门研究DeepSeek。同时,更多质疑和围剿也接踵而至。
过去几年的AI竞赛中,中国互联网和科技公司始终是美国公司的跟随者,中国公司只能寄希望于用更多的资源投入追赶对手,但风向始终由OpenAI、Meta为代表的美国公司掌握。2022年起,美国政府宣布升级芯片出口管制,此后多次更新出口限制清单,限制高算力芯片出口,中国AI企业普遍陷入算力焦虑。
DeepSeek最新模型的出现,打破了大模型发展沦为巨头与资本游戏的行业共识,为业内追赶美国大模型的中国公司们提供一条新的思路:绕过美国堆算力的技术路径,优化算法、探索效率优先,走一条“低成本高产出”一路,也可以实现弯道超车。
量化基金背景的大模型,如何弯道超车?
在本次新模型发布引发全球关注后,一些国外媒体和投资者一度将DeepSeek称为一家不知名的中国公司。这种描述并不准确。
DeepSeek背后的深度求索是一家创立于2023年的年轻公司,但其母公司幻方量化,是管理了超过1000亿元资产的国内头部量化交易公司,在多年前就开始涉足AI 研究。
DeepSeek创始人梁文锋最早开启AI研究的初衷是,用GPU计算交易仓位,训练量化交易模型。此后,出于探索AI能力边界的好奇,他们囤积了过万块先进GPU芯片开始训练AGI模型,储备量接近国内一线互联网公司,高于大模型创业六小龙。这为DeepSeek日后的模型进展打下了基础。
DeepSeek也不是突如其来地“惊艳”所有人,在近期推出的V3和R1模型之前,它就曾以带头打响大模型价格战而在国内AI行业引发关注。2024年5月,DeepSeek发布DeepSeek-V2 ,价格仅为GPT-4-Turbo的近百分之一。
此后的30天,字节、百度、阿里等公司的大模型相继降价,DeepSeek更是一年内3次降价,每次降幅超过85%。
降价,来自训练和推理成本的持续降低。相比OpenAI和它的中国效仿者们用数亿美元训练大模型,DeepSeek选择了一条更“抠门”,更“极致”的路线。
它的研究人员提出的一种新的MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse (混合专家结构)结合,把显存占用降到了其他大模型最常用的MHA架构的5%-13%。
行业通常用数万亿token(文本单位)训练模型,但DeepSeek通过“数据蒸馏”技术,即用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生“模型”,把数据计算最大程度降低,仅用1/5的数据量达到同等效果,促成了成本的下降。
一个通俗的举例可帮助我们理解这种变化,传统大模型每次处理问题都需激活全部参数,而普通用户提出的问题可能并不需要如此多的资源投入,这如同让一家医院的全部科室去会诊一个普通感冒;而DeepSeek-R1会先判断问题类型,再精准调用对应模块——数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升3倍,能耗也更低。
更快速度和更低能耗,建立在“低成本、高性能”的初始规划上。DeepSeek通过算法优化显著降低训练成本。R1 的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。此前,OpenAI等企业训练模型,都需要数千甚至上万块高算力的Nvidia A100、H100等顶级显卡,花费数亿美元的训练成本。
并非 OpenAI 或者中国大公司的大模型开发者们没有想到过此类模块化方案的可能性,而是他们权衡利弊,选择了更适合自身发展情况的方案。
OpenAI拥有资金和算力上的绝对优势,优先追求“通用智能”,他们花费数十亿美元,通过海量参数投喂训练模型,希望模型可以达到全能通才的效果。效仿它的中国公司们沿用这一思路,可以保证自家大模型没有明显的能力短板,快速达到可商用水平。
DeepSeek选择从垂直场景切入,从 all in 特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。
DeepSeek R1 与 OpenAI O1正式版在数学、代码、自然语言推理等任务下的测试成绩相当。
这种另辟蹊径意味着更高难度,更高风险。若路由错误(例如将诗歌创作误判为数学题),输出质量将会暴跌;模块间的知识隔离(如用数学公式写情书),可能导致跨领域任务失败。如果未能开发出足够优异的模块化模型,前期的投入可能浪费。大多数公司受限于路径依赖或资源约束,难以接受All in这一高风险路线。
这并不容易。早期DeepSeek的MoE模型误判率普遍在15%以上,团队通过引入强化学习优化路由决策,长期训练后模型在测试中将误判率控制在个位数的低位。
多位行业人士将DeepSeek的脱颖而出理解为“模块化特种兵”,在与OpenAI等“通用巨兽”的比赛中,在部分领域展现出同等能力甚至略微领先。尽管DeepSeek的整体技术与OpenAI等美国企业存在差距,但其已经足以被视为一个实力逐渐接近的竞争对手。
更关键的是, DeepSeek 跳过了美国开发者们认为必不可少的步骤,这意味着在资金、算力芯片劣势的情况下,中国乃至世界各地的AI创业公司也有可能弯道超车,不必活在大公司的阴影之下,垂直领域的专注也能帮助他们在特定场景中形成优势,避免与巨头正面竞争,找到属于自己的立足之地。
开源模型,DeepSeek的选择与壁垒
DeepSeek引起轰动,除了模型本身的优异表现,还来自其坚持的免费开源主张,公开模型的源代码、权重和架构。这意味着,无论是个人还是开发者,或是企业用户都可以免费使用其最新模型,并在此基础上开发更多应用。
这一决策得到了许多行业专家和投资者的赞许。
英伟达高级研究科学家Jim Fan评论称,“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。”
硅谷风投A16Z创始人Marc Andreessen也发表评论称,DeepSeek-R1 是他见过的最令人惊叹且令人印象深刻的一个突破,作为开源的模型,它的面世给世界带来了一份礼物。
OpenAI最初是为了对抗谷歌在AI领域的垄断地位,旨在通过开源的方式促进AI技术的发展,避免谷歌在AI领域的过度控制,因此命名为 “OpenAI” 以体现其开源的愿景。但在GPT-3发布,接受微软投资后,OpenAI 出于训练成本、收益和维持其竞争力的考虑走向闭源。
目前表现强劲的其他大模型,如Meta的Llama号称选择了开源路线,但许可证需要申请访问权限,限制部分商业用途,且只公开了部分架构细节,不公开具体的训练数据构成,不提供完整的训练脚本。这样的开源对于AI产业的进步意义十分有限。
大多数中国大公司开发的大模型,如百度的文心一言、华为的盘古大模型等产品都选择了闭源路线,它们往往是基于商业化和竞争考量,平台型公司有足够多的资源,掌握了大量的用户数据,可以依靠自身的内部循环完成模型的训练和迭代。闭源可以让他们在模型专长的领域保持优势,避免被竞争对手赶超。
DeepSeek选择开源,既是出于对传统大厂的技术垄断的挑战,也是基于自身发展情况的考量。创业公司可能在资源和算力上处于劣势,但通过开源策略,可以快速建立生态,获得更多的用户和开发者支持。
DeepSeek创始人梁文锋此前谈及对于开源的构想是,成为更多公司的模型底座。哪怕一个小 APP都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
在他看来,DeepSeek未来可以只负责基础模型和前沿的创新,其他公司在 DeepSeek的基础上构建To B、To C的业务。如果能形成完整的产业上下游,就没必要自己做应用。
DeepSeek所选择的模块化模型设计,如同精密的钟表——单个齿轮的工艺或许可复制,但整体协同需要长期试错与生态积累。竞争对手并不能依靠简单照搬就能复制其原始模型,越多的用户和开发者使用,则意味着模型得到更多训练。
当下,DeepSeek背靠千亿量化基金,在免去资金的后顾之忧后,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,通过开源基础模型吸引开发者,未来再逐步通过企业版工具链(如模块训练平台)推进商业化。
今天的AI竞争格局之下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键落子。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。
这本质上是一场关于"标准制定权"的争夺——谁的开源协议能成为行业事实标准,谁就能在下一代AI基础设施中占据核心位置。中国科技公司与美国科技公司之间的差距,不是时间维度,而是创新和模仿的差别。
这一次,DeepSeek 代表的中国科技公司给出的方案不再是模仿跟随,而是创新。
参考资料:
暗涌 Waves:揭秘DeepSeek:一个更极致的中国技术理想主义故事
腾讯科技:DeepSeek除夕发布新模型,多模态大一统的革命来了?
雷锋网:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
NYT:How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。