Cursor爆红，但Cursor不是国内AI编程的出路

创业邦·2025-01-03

关注

中美2B市场有本质不同。

作者丨刘杨楠

编辑丨海腰

图源丨文心一格

2021年，微软推出GitHub Copilot，一跃成为编程界最抢手的AI工具。

GitHub Copilot能根据用户提供的上下文信息，如函数名、注释、代码片段等，自动生成完整的代码函数，被称为编程界“游戏规则的改变者”。

它如此惊艳的原因，是底层接入了OpenAI的Codex模型。Codex参数规模120亿，是GPT-3的早期版本，针对编码任务做了特定优化。这是基于Transformer架构的大参数模型，第一次真正在代码领域“涌现”。

GitHub Copilot点燃了全球开发者对AI编程的热情，四位MIT本科生也聚在一起，怀揣改变软件开发的梦想，于2022年创办了一家名为Anysphere的公司。

Anysphere曾和微软“公然叫板”，称微软是其主要竞争对手。Anysphere联合创始人Michael Truell明确表示，尽管微软的Visual Studio Code主导着集成开发环境（IDE）市场，但Anysphere看到了提供不同产品的机会。

Michael Truell（右一）

微软或许想不到，仅仅不到三年时间，这个名不见经传的小团队就向行业投出一颗重磅“炸弹”，在全球引爆新一轮AI编程热，公司也在四个月内一跃成为估值25亿美元的独角兽。

Cursor何以一鸣惊人

2024年8月，特斯拉前AI总监Andrej Karpathy在X上连发数条推文，连连称赞一款名为“Cursor”的代码编辑器，称其已经碾压式地超过了GitHub Copilot。

同月，Cursor背后公司主体Anysphere完成6000万美元A轮融资，估值4亿美元。

Cursor的惊艳之处，在于具备多行编辑、跨文件上下文补全、提问、下一个动作预测等功能。开发者只需不断按下Tab键，就可自动完成整个文件的代码修改，且Cursor的处理结果更准确，速度更快，几乎感受不到任何延迟。

懂编程的都知道这里面门道有多深。

“跨文件多处补全、预测是一个很微妙的需求，可能开发者自己都很难准确表达，但真正用了之后就会觉得非常‘爽’。”Gru创始人兼CEO张海龙说。

有数十年开发经验的Tom Yedwab也写文章分享道，Tab补全功能是最符合自己日常编码习惯，且能节省最多时间的功能。“这个工具像在读我的心思，能预测我接下来的操作，让我更少关注代码细节，更多专注于构建整体架构。”Tom Yedwab写道。

Cursor成功的关键，并不在于有多高的技术壁垒，而是他们率先发现了一个微妙的新需求，并敢于赌一条从未有人走过的路。

Cursor寄生于VS Code，即Visual Studio Code，一款由微软开发的免费、开源的跨平台代码编辑器，具备一些基础的代码补全功能。

此前，开发者会打造各类插件拓展VS Code的功能边界，但VS Code自身的插件机制有很多限制。例如，处理大型项目时，一些插件可能导致代码索引和分析速度变慢；对于一些复杂插件，配置过程较繁琐，需要用户手动修改配置文件，无形中增加了使用门槛。

因此，为消除这些限制，Cursor团队采用了很大胆的做法，他们没有按照传统方式在VS Code上做插件，而是“魔改”了VS Code的代码，在底层兼容多个AI模型，并通过大量工程优化，完善整个IDE的用户体验。

张海龙表示，Cursor开发初期，包括他在内很多从业者都不看好，因为这条路很难，是一个巨大的“非共识”。VS Code内部架构复杂，涉及代码编辑、语法分析、代码索引、插件系统等多个模块，且不同版本的VS Code可能存在差异，“魔改”过程中要考虑兼容性。另外，将多个AI模型内置VS Code时，需要解决模型与编辑器的交互难题，例如，如何有效地将代码上下文传递给模型？如何处理模型的输出并应用到代码中？以及如何将代码生成的延时性降至最低？

要解决一系列问题，就涉及到繁杂的工程优化体系。光是2023年一年里，Cursor就进行了3次重大的版本更新和近40次功能迭代。这对于整个研发团队和公司背后投资方的耐心都是巨大考验。

最终，硅谷又一次向世界证明了其孕育颠覆式创新的能力。Cursor的成功是一个十分经典的硅谷创业模板：一群偏执的技术极客，怀揣宏伟愿景，在硅谷成熟的VC体系支持下勇闯无人区，顶着无数质疑声第一个吃螃蟹，最终靠产品一鸣惊人。

“这就是创业的迷人之处，这么‘不靠谱’的项目，他们也跑出来了。”张海龙感慨。

近期，Anysphere宣布完成1亿美元B轮融资，估值已达26亿美元。据Sacra估计，2024年11月，Cursor的年度经常性收入（ARR）达6500万美元，同比增长6400%。而从2022年成立至今，Anysphere只有12个人。

Copilot明朗，Agent迷茫

Cursor并非AI编程赛道第一个出圈的产品。

2024年3月，以“全球首个AI程序员”为标榜的Devin横空出世，首次点燃了行业对AI编程的热情。

Devin是一个自主代理（Autonomous Agent），掌握全栈技能，能自主学习，端到端构建和部署应用程序，自己改bug，甚至还能训练和微调自己的AI模型。其背后公司Cognition AI同样是一个闪闪发光的AI“梦之队”。

然而，Devin最初公布的只是一段demo，开发者无法上手体验。直到2024年12月11日，Devin才正式上线，每月订阅费高达500美元。相比之下，Cursor每月20美元的订阅费都显得更亲民了。

相比于Cursor的全民喜爱，开发者对Devin的评价一直存在争议。有人认为Devin在处理代码迁移和生成PR（Pull Request，开发人员在进行代码协作时提交的代码变更请求，以便其他团队成员进行代码审查和合并）方面表现出色，能大量减少开发者的重复性工作；但一些用户却指出，Devin在处理复杂业务逻辑时仍需大量人工干预，尤其当项目文档不足或代码质量较差时。

张海龙表示，造成Cursor和Devin“风评”差异的根本原因，是开发者使用产品后的失败率和失败成本不同。

目前，Copilot场景的失败率已经相对较低，对应的测评HumanEval准确率已经趋近100%，Agent场景对应的测评SWE benchmark目前准确率还不到60%。

此外，AI的工作成果需要人类验收和确认，Copilot类产品的交互方式决定了开发者查看AI生成结果的成本很低，失败后用户修改或不采纳的成本也很低。但Agent类产品，用户的确认成本明显高于Copilot，且失败了之后，修改的成本也更高。

Cursor和Devin的两种走向，也很大程度上反映了在通用场景下，Copilot和Agent两种产品形态的现状。

Cursor是Copilot的代表，需要AI和人类需同步工作，人类主导，AI辅助。

目前，真正跑通PMF的是Copilot。Copilot可以寄生在VS Code等IDE中，以插件形式存在，辅助人类开发者完成各类编码动作，并且在GitHub Copilot出现后，用户已经逐渐习惯了Copilot的协作形式。GPT-3.5的出现，则让Copilot从Demo真正变成了可用的产品。

不过，张海龙曾撰文提到了Copilot类产品的“隐忧”。“真正的护城河是VS Code。VS Code已经从一个简单的编辑器变成一个平台。用户之所以很容易从GitHub Copilot迁移到Cursor，是因为它们都寄生于VS Code，用户的使用习惯、体验，功能/插件都完全一样。Cursor也证明了Copilot产品不存在‘数据飞轮’，你能拿到的数据，大模型都能拿到，并且已经是模型的一部分了。”

相比之下，Agent是GPT-3.5催生的新物种，一个更加能够刺激创业者和VC敏感神经的新概念。Devin是Agent形态的代表，要求AI和人类异步工作，AI有更强主动性，可以自主完成部分决策和执行。

张海龙认为，Agent才是创业者的机会。但他并不看好Devin所倡导的全能Agent愿景，“什么都做意味着什么都做不成，细分领域的Agent应用价值更高。”

然而，由于Agent概念太早期，各家都在探索，Agent的寄生环境和能力边界都尚不明朗，代码生成、代码补全、单元测试生成和缺陷检测等方向均有人入局。

Gru选择从单元测试（Unit-test）环节切入。在正式推出产品前，Gru内部也曾有过一段试错期，自动生成文件、修bug、E2E测试等方向都有尝试，但受限于模型能力、软件后期迭代与维护等痛点均无法推进。

最终，Gru发现了单元测试这个存在很普遍，但并不起眼的需求。张海龙表示，很多开发者都不喜欢写单元测试，因为很枯燥。另外，对于要求不高的项目，单元测试并非软件工程的必备需求。但Gru认为，从技术能力来看，AI产品落地必须解决业务上下文和工程上下文连贯性的问题，单元测试是对两个上下文依赖最少，也最贴合当下模型能力的环节。

不过，无论Copilot还是Agent，都是手段而非目的，二者并不是“非此即彼”的关系，而会共同存在，解决不同的问题。

对于很多个人开发者和一些中小型企业而言，Cursor等通用产品或一些开源模型或许足以解决大部分需求；但对很多大企业和不同领域的复杂业务场景而言，便很难简单通过某个“Copilot”或“Agent”形态的通用产品满足需求，就要求技术厂商有更强的领域化服务能力。

而后者，便是国内AI编程企业的机会所在。

国内的机会在垂直领域

回看2024年，AI编程无疑是硅谷最炙手可热的创投方向之一，已经跑出Cursor、Poolside、Cognition、Magic、Codeium、Replit等独角兽。

相比之下，国内互联网大厂和大模型厂商基本都推出了自己的“代码模型”，却很少有发展较好的创业项目。据硅星人报道，去年奇绩创坛投了六家AI编程领域的初创，此后几乎全军覆没，而去年10余家曾短暂浮出水面的代码类团队，今年大部分已经退场。

ChatGPT出现后，清流资本在AI编程赛道看了几十个项目，但最终出手的也只有硅心科技（简称“aiXcoder”）一家。

对于国内AI编程项目，不少观点认为产品做得比较“浅”。“社区里有开发者吐槽，现在很多产品生成代码几分钟，但自己要花半天甚至更多时间进行debug。”始智AI创始人、CEO刘道全说。

产品“浅”的表象之下，是中美2B市场多年来形成的环境差异。张海龙分析原因有三：美国初级程序员群体庞大，且人力成本更高，引入AI产品能帮企业显著降本；美国SaaS市场已经跑通PLG模式，企业对通用型产品的付费意愿较强；而且国外2B市场退出路径明确，投资人投资意愿强，一级市场的接盘逻辑也非常清晰，天使投资人非常多且非常活跃，创业公司几乎都能拿到第一轮资金验证自己的想法。

张海龙也曾在国内to B市场辗转多年，做过开源社区，也做过SaaS。在他看来，大模型的技术浪潮并不会改变国内to B市场的现状。“区别可能就是卖的技术变了，云计算时代卖云服务，现在AI来了卖AI。”他说。

所以这一次，他想闯一闯海外市场。不过，Gru虽是张海龙第四次创业，却是第一次在硅谷创业。初到硅谷，强烈的陌生感扑面而来。“我是第一次物理意义上感觉到我一个人都不认识。”张海龙说。2024年一整年，他有一半时间泡在硅谷，主动social，参加各种活动，尽量在更短的时间内认识更多的人。

2024年9月，Gru推出Gru.ai，并在OpenAI发布的swe-bench verified evaluation中以45.2%的高分排名第一。张海龙明显感受到，有了产品后，在硅谷更容易被接受了。

而对国内B端市场来说，老生常谈的问题依然存在。“国内做to B就比较难，涉及的销售链条比较长，最后能买单的还是大企业居多，但有时候大企业不是你东西好他就会买的。”刘道全表示。清流资本投资经理付睿也表示：“很多企业内部有大量安全合规要求，比如因为顾虑信息泄露的风险，无法使用云端调用的产品，需要本地部署的代码工具。”

因此，国内AI编程企业必须要双脚插进泥土里，去解决各行各业的具体问题。

“模型在实际落地过程中要考虑业务连续性，国内的代码模型从评测结果来看性能都有提升，但在具体的应用场景下，就需要具体场景具体分析。”刘道全表示，此前与一家工业制造类企业沟通后发现，工业场景中一些软件系统所使用的语言并不是常见的python或C++，而是一些工业专用的编码工具，这便要求技术厂商对产品有针对性调整。

这并非工业场景独有的需求，每个行业都有各自的领域特色，每家企业都有特定的业务逻辑和工程体系，这便要求AI编程企业有更强的领域化服务能力。

在研究了数十家企业后，付睿发现：“对于各类软件开发需求，AI编程的功能除代码生成外，至少包括搜索、缺陷检测和修复、测试等一系列任务；除功能外，还需要考虑如何把这些能力和客户本身的业务逻辑结合，让模型拥有更深的领域知识，这其实都有很高的门槛。”

因此，清流资本更看好模型和产品与企业内部私有知识、数据和软件开发框架深度耦合的思路，在2023年9月投了aiXcoder。

“在这一被验证的需求里，aiXcoder是技术和商业上最匹配的团队。同时，公司商业团队的多位骨干成员也有十多年面向国内外大B客户的销售经验，对客户及市场有深度洞察。他们在2023年第二季度提出了‘领域化’落地方案，即AI编程要和企业内部私有知识、数据和软件开发框架深度耦合的策略，从项目实际落地的结果来看，也受到了大量头部企业客户的认可。”付睿表示。

aiXcoder孵化自北京大学软件工程研究所，是全球最早将深度学习技术应用于代码生成与代码理解的团队，也是最早将深度学习应用在编程产品的团队。该团队在国际顶级期刊和会议累计发表论文100余篇，其中多篇是智能化软件工程领域的首篇论文和引用率最高的论文。

刘德欣表示，面向B端私有化部署场景时，由于通用大模型并未学习过私有领域的数据，导致模型缺乏对企业内部业务需求、行业规范、软件开发框架及运行环境的深度融合，未能将需求分析、设计文档等企业领域背景知识纳入模型训练，导致生成或补全的代码在业务逻辑层面缺乏针对性和可靠性。

由此呈现的结果，便是大模型在企业落地应用的准确性与可用性低于预期。“不少大模型在通用场景或主流测评集上表现可圈可点，准确率可达30%，但在企业内部部署时，准确率通常会骤降至10%以下。常规的微调手段也难以达到企业所期望的效果。因此，学习并掌握“领域化”知识，才是AI编程系统在企业成功落地的关键。为企业客户解决领域化问题，正是我们的差异化价值所在。”刘德欣表示。

针对上述痛点，aiXcoder根据企业所提供的各种内部数据进行有针对性的增量训练——包括代码、业务文档、需求文档、设计文档、测试文档，以及行业业务术语和流程规范、行业技术标准与规范、企业技术栈与编程框架等领域知识。除模型训练外，还与多Agent、RAG、软件开发tools及贴合企业软件开发框架的“工程化的Prompt系统”相结合，从而提升代码生成质量及研发全流程能力。

在交付形式上，刘德欣表示，领域化方案并不等同于传统高度定制化的项目制交付。aiXcoder会从客户的个性化需求中萃取出具有通用价值的能力与工具，形成标准化的产品和流程交付给客户；同时，aiXcoder通过定期例会与客户保持高频沟通，不仅协助客户解决周期性问题，也需要基于客户共同的真实需求持续迭代产品。

AI行业有太多次“狼来了”

从结果导向来看，无论to小B还是to大B，“训模型”还是“不训模型”，做Copilot还是Agent，或许都没有最优答案，都需要根据客户实际需求，以及创业团队自身的资源禀赋决定。

无论走哪条路，AI编程企业都有一个简单直接的目标，就是提高软件开发效率。然而，当前市场还在早期，正确引导客户需求是每个入局企业都要面临的问题。

张海龙坦言，目前最大的困扰，就是如何让客户认识到细分Agent的价值。“即使在硅谷，很多潜在客户听到新的AI产品，第一反应也是质疑，不是兴奋。因为AI赛道有一个不好的地方是，过去有太多‘狼来了’的故事，做了很多不能用的demo。”目前，Gru花了很多精力接触客户，建立种子用户的口碑，这将成为之后大规模商业化的基础。

对国内市场来说，AI编程系统的需求方也要厘清自身需求和模型的能力边界。“当前，大模型驱动的AI编程系统在提升软件生产力方面前景可观。”刘德欣表示，“要想在企业环境中真正发挥这项技术的价值，需要将代码大模型与企业自身的领域知识深度结合，并在具体业务场景中持续迭代和验证。”

事实上，大模型发展到今天，市场情绪已基本回归理性，但噪音仍然存在。例如，2024年，大模型招投标类信息屡见不鲜，但其中一些数据就很可能存在“误导性”。

“国外的生态分工比较明确，但国内很多做to B的项目最后都会变成招投标，很多企业都在为竞标挤得头破血流。”刘道全表示。然而，在AI编程领域，从公开的招投标信息来看，即便是几家大厂，拿到的订单也不多。

原因在于，竞标成功不等于模型或产品能顺利落地。

“一方面，在很多采购方负责采购的人员和真正使用产品的人往往不是同一波，这便可能造成采购决策和实际的业务需求两层皮。另一方面，这些落地往往依赖于标准化产品加微调的方式，并未针对企业的业务场景与内部逻辑进行深入的领域化训练和适配，可能导致程序员在使用过程中发现效果不尽如人意。”

一位业内人士透露，目前招投标市场包含硬件的订单大多在百万级，而纯软件订单，例如智能软件开发、代码助手等项目大多在30万左右。很多企业采购后发现无法解决问题，只能重新到市面上找更合适的厂商，造成资源浪费。

不过，去伪存真后，一些共识也正在形成。越来越多企业意识到，把产品和模型能力“解耦”是大势所趋。

2024年上半年，张海龙意识到，当模型能力越来越强，各家的模型在编程方面的能力会趋同，产品不应该再贴合模型能力去做，而应该把产品做到“与模型无关”。“2024年上半年开始，我们基本不再针对不同模型做特定的优化，而是提升我们产品架构的能力，市面上的任何模型只要通过我们的基准测试就能接入进来。”张海龙表示。

刘德欣也强调：“企业客户应充分重视业务连续性，不应被任何单一大模型厂商绑定。当前，仅通过采购标准化产品，难以真正满足企业客户大模型落地需求。企业需要在大模型、数据层面、领域化和工程化等方面实现架构解耦，灵活选择更契合自身需求的模型和服务商。最关键的是，要切实解决企业内部软件开发领域化的实际问题，帮助企业实现降本增效。”

作为行业第三方视角，刘道全认为，未来，接入模型只是产业落地的一环。“现在从模型到应用还有100公里，如果技术厂商把前95-99公里的能力标准化，变成基础设施，剩下的最后1-5公里就可以由应用方自己做了。”

本文为创业邦原创，未经授权不得转载，否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问，请联系editor@cyzone.cn。