作者丨刘杨楠
编辑丨海腰
图源丨文心一格
2021年,微软推出GitHub Copilot,一跃成为编程界最抢手的AI工具。
GitHub Copilot能根据用户提供的上下文信息,如函数名、注释、代码片段等,自动生成完整的代码函数,被称为编程界“游戏规则的改变者”。
它如此惊艳的原因,是底层接入了OpenAI的Codex模型。Codex参数规模120亿,是GPT-3的早期版本,针对编码任务做了特定优化。这是基于Transformer架构的大参数模型,第一次真正在代码领域“涌现”。
GitHub Copilot点燃了全球开发者对AI编程的热情,四位MIT本科生也聚在一起,怀揣改变软件开发的梦想,于2022年创办了一家名为Anysphere的公司。
Anysphere曾和微软“公然叫板”,称微软是其主要竞争对手。Anysphere联合创始人Michael Truell明确表示,尽管微软的Visual Studio Code主导着集成开发环境(IDE)市场,但Anysphere看到了提供不同产品的机会。
Michael Truell(右一)
微软或许想不到,仅仅不到三年时间,这个名不见经传的小团队就向行业投出一颗重磅“炸弹”,在全球引爆新一轮AI编程热,公司也在四个月内一跃成为估值25亿美元的独角兽。
Cursor何以一鸣惊人
2024年8月,特斯拉前AI总监Andrej Karpathy在X上连发数条推文,连连称赞一款名为“Cursor”的代码编辑器,称其已经碾压式地超过了GitHub Copilot。
同月,Cursor背后公司主体Anysphere完成6000万美元A轮融资,估值4亿美元。
Cursor的惊艳之处,在于具备多行编辑、跨文件上下文补全、提问、下一个动作预测等功能。开发者只需不断按下Tab键,就可自动完成整个文件的代码修改,且Cursor的处理结果更准确,速度更快,几乎感受不到任何延迟。
懂编程的都知道这里面门道有多深。
“跨文件多处补全、预测是一个很微妙的需求,可能开发者自己都很难准确表达,但真正用了之后就会觉得非常‘爽’。”Gru创始人兼CEO张海龙说。
有数十年开发经验的Tom Yedwab也写文章分享道,Tab补全功能是最符合自己日常编码习惯,且能节省最多时间的功能。“这个工具像在读我的心思,能预测我接下来的操作,让我更少关注代码细节,更多专注于构建整体架构。”Tom Yedwab写道。
Cursor成功的关键,并不在于有多高的技术壁垒,而是他们率先发现了一个微妙的新需求,并敢于赌一条从未有人走过的路。
Cursor寄生于VS Code,即Visual Studio Code,一款由微软开发的免费、开源的跨平台代码编辑器,具备一些基础的代码补全功能。
此前,开发者会打造各类插件拓展VS Code的功能边界,但VS Code自身的插件机制有很多限制。例如,处理大型项目时,一些插件可能导致代码索引和分析速度变慢;对于一些复杂插件,配置过程较繁琐,需要用户手动修改配置文件,无形中增加了使用门槛。
因此,为消除这些限制,Cursor团队采用了很大胆的做法,他们没有按照传统方式在VS Code上做插件,而是“魔改”了VS Code的代码,在底层兼容多个AI模型,并通过大量工程优化,完善整个IDE的用户体验。
张海龙表示,Cursor开发初期,包括他在内很多从业者都不看好,因为这条路很难,是一个巨大的“非共识”。VS Code内部架构复杂,涉及代码编辑、语法分析、代码索引、插件系统等多个模块,且不同版本的VS Code可能存在差异,“魔改”过程中要考虑兼容性。另外,将多个AI模型内置VS Code时,需要解决模型与编辑器的交互难题,例如,如何有效地将代码上下文传递给模型?如何处理模型的输出并应用到代码中?以及如何将代码生成的延时性降至最低?
要解决一系列问题,就涉及到繁杂的工程优化体系。光是2023年一年里,Cursor就进行了3次重大的版本更新和近40次功能迭代。这对于整个研发团队和公司背后投资方的耐心都是巨大考验。
最终,硅谷又一次向世界证明了其孕育颠覆式创新的能力。Cursor的成功是一个十分经典的硅谷创业模板:一群偏执的技术极客,怀揣宏伟愿景,在硅谷成熟的VC体系支持下勇闯无人区,顶着无数质疑声第一个吃螃蟹,最终靠产品一鸣惊人。
“这就是创业的迷人之处,这么‘不靠谱’的项目,他们也跑出来了。”张海龙感慨。
近期,Anysphere宣布完成1亿美元B轮融资,估值已达26亿美元。据Sacra估计,2024年11月,Cursor的年度经常性收入(ARR)达6500万美元,同比增长6400%。而从2022年成立至今,Anysphere只有12个人。
Copilot明朗,Agent迷茫
Cursor并非AI编程赛道第一个出圈的产品。
2024年3月,以“全球首个AI程序员”为标榜的Devin横空出世,首次点燃了行业对AI编程的热情。
Devin是一个自主代理(Autonomous Agent),掌握全栈技能,能自主学习,端到端构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型。其背后公司Cognition AI同样是一个闪闪发光的AI“梦之队”。
然而,Devin最初公布的只是一段demo,开发者无法上手体验。直到2024年12月11日,Devin才正式上线,每月订阅费高达500美元。相比之下,Cursor每月20美元的订阅费都显得更亲民了。
相比于Cursor的全民喜爱,开发者对Devin的评价一直存在争议。有人认为Devin在处理代码迁移和生成PR(Pull Request,开发人员在进行代码协作时提交的代码变更请求,以便其他团队成员进行代码审查和合并)方面表现出色,能大量减少开发者的重复性工作;但一些用户却指出,Devin在处理复杂业务逻辑时仍需大量人工干预,尤其当项目文档不足或代码质量较差时。
张海龙表示,造成Cursor和Devin“风评”差异的根本原因,是开发者使用产品后的失败率和失败成本不同。
目前,Copilot场景的失败率已经相对较低,对应的测评HumanEval准确率已经趋近100%,Agent场景对应的测评SWE benchmark目前准确率还不到60%。
此外,AI的工作成果需要人类验收和确认,Copilot类产品的交互方式决定了开发者查看AI生成结果的成本很低,失败后用户修改或不采纳的成本也很低。但Agent类产品,用户的确认成本明显高于Copilot,且失败了之后,修改的成本也更高。
Cursor和Devin的两种走向,也很大程度上反映了在通用场景下,Copilot和Agent两种产品形态的现状。
Cursor是Copilot的代表,需要AI和人类需同步工作,人类主导,AI辅助。
目前,真正跑通PMF的是Copilot。Copilot可以寄生在VS Code等IDE中,以插件形式存在,辅助人类开发者完成各类编码动作,并且在GitHub Copilot出现后,用户已经逐渐习惯了Copilot的协作形式。GPT-3.5的出现,则让Copilot从Demo真正变成了可用的产品。
不过,张海龙曾撰文提到了Copilot类产品的“隐忧”。“真正的护城河是VS Code。VS Code已经从一个简单的编辑器变成一个平台。用户之所以很容易从GitHub Copilot迁移到Cursor,是因为它们都寄生于VS Code,用户的使用习惯、体验,功能/插件都完全一样。Cursor也证明了Copilot产品不存在‘数据飞轮’,你能拿到的数据,大模型都能拿到,并且已经是模型的一部分了。”
相比之下,Agent是GPT-3.5催生的新物种,一个更加能够刺激创业者和VC敏感神经的新概念。Devin是Agent形态的代表,要求AI和人类异步工作,AI有更强主动性,可以自主完成部分决策和执行。
张海龙认为,Agent才是创业者的机会。但他并不看好Devin所倡导的全能Agent愿景,“什么都做意味着什么都做不成,细分领域的Agent应用价值更高。”
然而,由于Agent概念太早期,各家都在探索,Agent的寄生环境和能力边界都尚不明朗,代码生成、代码补全、单元测试生成和缺陷检测等方向均有人入局。
Gru选择从单元测试(Unit-test)环节切入。在正式推出产品前,Gru内部也曾有过一段试错期,自动生成文件、修bug、E2E测试等方向都有尝试,但受限于模型能力、软件后期迭代与维护等痛点均无法推进。
最终,Gru发现了单元测试这个存在很普遍,但并不起眼的需求。张海龙表示,很多开发者都不喜欢写单元测试,因为很枯燥。另外,对于要求不高的项目,单元测试并非软件工程的必备需求。但Gru认为,从技术能力来看,AI产品落地必须解决业务上下文和工程上下文连贯性的问题,单元测试是对两个上下文依赖最少,也最贴合当下模型能力的环节。
不过,无论Copilot还是Agent,都是手段而非目的,二者并不是“非此即彼”的关系,而会共同存在,解决不同的问题。
对于很多个人开发者和一些中小型企业而言,Cursor等通用产品或一些开源模型或许足以解决大部分需求;但对很多大企业和不同领域的复杂业务场景而言,便很难简单通过某个“Copilot”或“Agent”形态的通用产品满足需求,就要求技术厂商有更强的领域化服务能力。
而后者,便是国内AI编程企业的机会所在。
国内的机会在垂直领域
回看2024年,AI编程无疑是硅谷最炙手可热的创投方向之一,已经跑出Cursor、Poolside、Cognition、Magic、Codeium、Replit等独角兽。
相比之下,国内互联网大厂和大模型厂商基本都推出了自己的“代码模型”,却很少有发展较好的创业项目。据硅星人报道,去年奇绩创坛投了六家AI编程领域的初创,此后几乎全军覆没,而去年10余家曾短暂浮出水面的代码类团队,今年大部分已经退场。
ChatGPT出现后,清流资本在AI编程赛道看了几十个项目,但最终出手的也只有硅心科技(简称“aiXcoder”)一家。
对于国内AI编程项目,不少观点认为产品做得比较“浅”。“社区里有开发者吐槽,现在很多产品生成代码几分钟,但自己要花半天甚至更多时间进行debug。”始智AI创始人、CEO刘道全说。
产品“浅”的表象之下,是中美2B市场多年来形成的环境差异。张海龙分析原因有三:美国初级程序员群体庞大,且人力成本更高,引入AI产品能帮企业显著降本;美国SaaS市场已经跑通PLG模式,企业对通用型产品的付费意愿较强;而且国外2B市场退出路径明确,投资人投资意愿强,一级市场的接盘逻辑也非常清晰,天使投资人非常多且非常活跃,创业公司几乎都能拿到第一轮资金验证自己的想法。
张海龙也曾在国内to B市场辗转多年,做过开源社区,也做过SaaS。在他看来,大模型的技术浪潮并不会改变国内to B市场的现状。“区别可能就是卖的技术变了,云计算时代卖云服务,现在AI来了卖AI。”他说。
所以这一次,他想闯一闯海外市场。不过,Gru虽是张海龙第四次创业,却是第一次在硅谷创业。初到硅谷,强烈的陌生感扑面而来。“我是第一次物理意义上感觉到我一个人都不认识。”张海龙说。2024年一整年,他有一半时间泡在硅谷,主动social,参加各种活动,尽量在更短的时间内认识更多的人。
2024年9月,Gru推出Gru.ai,并在OpenAI发布的swe-bench verified evaluation中以45.2%的高分排名第一。张海龙明显感受到,有了产品后,在硅谷更容易被接受了。
而对国内B端市场来说,老生常谈的问题依然存在。“国内做to B就比较难,涉及的销售链条比较长,最后能买单的还是大企业居多,但有时候大企业不是你东西好他就会买的。”刘道全表示。清流资本投资经理付睿也表示:“很多企业内部有大量安全合规要求,比如因为顾虑信息泄露的风险,无法使用云端调用的产品,需要本地部署的代码工具。”
因此,国内AI编程企业必须要双脚插进泥土里,去解决各行各业的具体问题。
“模型在实际落地过程中要考虑业务连续性,国内的代码模型从评测结果来看性能都有提升,但在具体的应用场景下,就需要具体场景具体分析。”刘道全表示,此前与一家工业制造类企业沟通后发现,工业场景中一些软件系统所使用的语言并不是常见的python或C++,而是一些工业专用的编码工具,这便要求技术厂商对产品有针对性调整。
这并非工业场景独有的需求,每个行业都有各自的领域特色,每家企业都有特定的业务逻辑和工程体系,这便要求AI编程企业有更强的领域化服务能力。
在研究了数十家企业后,付睿发现:“对于各类软件开发需求,AI编程的功能除代码生成外,至少包括搜索、缺陷检测和修复、测试等一系列任务;除功能外,还需要考虑如何把这些能力和客户本身的业务逻辑结合,让模型拥有更深的领域知识,这其实都有很高的门槛。”
因此,清流资本更看好模型和产品与企业内部私有知识、数据和软件开发框架深度耦合的思路,在2023年9月投了aiXcoder。
“在这一被验证的需求里,aiXcoder是技术和商业上最匹配的团队。同时,公司商业团队的多位骨干成员也有十多年面向国内外大B客户的销售经验,对客户及市场有深度洞察。他们在2023年第二季度提出了‘领域化’落地方案,即AI编程要和企业内部私有知识、数据和软件开发框架深度耦合的策略,从项目实际落地的结果来看,也受到了大量头部企业客户的认可。”付睿表示。
aiXcoder孵化自北京大学软件工程研究所,是全球最早将深度学习技术应用于代码生成与代码理解的团队,也是最早将深度学习应用在编程产品的团队。该团队在国际顶级期刊和会议累计发表论文100余篇,其中多篇是智能化软件工程领域的首篇论文和引用率最高的论文。
刘德欣表示,面向B端私有化部署场景时,由于通用大模型并未学习过私有领域的数据,导致模型缺乏对企业内部业务需求、行业规范、软件开发框架及运行环境的深度融合,未能将需求分析、设计文档等企业领域背景知识纳入模型训练,导致生成或补全的代码在业务逻辑层面缺乏针对性和可靠性。
由此呈现的结果,便是大模型在企业落地应用的准确性与可用性低于预期。“不少大模型在通用场景或主流测评集上表现可圈可点,准确率可达30%,但在企业内部部署时,准确率通常会骤降至10%以下。常规的微调手段也难以达到企业所期望的效果。因此,学习并掌握“领域化”知识,才是AI编程系统在企业成功落地的关键。为企业客户解决领域化问题,正是我们的差异化价值所在。”刘德欣表示。
针对上述痛点,aiXcoder根据企业所提供的各种内部数据进行有针对性的增量训练——包括代码、业务文档、需求文档、设计文档、测试文档,以及行业业务术语和流程规范、行业技术标准与规范、企业技术栈与编程框架等领域知识。除模型训练外,还与多Agent、RAG、软件开发tools及贴合企业软件开发框架的“工程化的Prompt系统”相结合,从而提升代码生成质量及研发全流程能力。
在交付形式上,刘德欣表示,领域化方案并不等同于传统高度定制化的项目制交付。aiXcoder会从客户的个性化需求中萃取出具有通用价值的能力与工具,形成标准化的产品和流程交付给客户;同时,aiXcoder通过定期例会与客户保持高频沟通,不仅协助客户解决周期性问题,也需要基于客户共同的真实需求持续迭代产品。
AI行业有太多次“狼来了”
从结果导向来看,无论to小B还是to大B,“训模型”还是“不训模型”,做Copilot还是Agent,或许都没有最优答案,都需要根据客户实际需求,以及创业团队自身的资源禀赋决定。
无论走哪条路,AI编程企业都有一个简单直接的目标,就是提高软件开发效率。然而,当前市场还在早期,正确引导客户需求是每个入局企业都要面临的问题。
张海龙坦言,目前最大的困扰,就是如何让客户认识到细分Agent的价值。“即使在硅谷,很多潜在客户听到新的AI产品,第一反应也是质疑,不是兴奋。因为AI赛道有一个不好的地方是,过去有太多‘狼来了’的故事,做了很多不能用的demo。”目前,Gru花了很多精力接触客户,建立种子用户的口碑,这将成为之后大规模商业化的基础。
对国内市场来说,AI编程系统的需求方也要厘清自身需求和模型的能力边界。“当前,大模型驱动的AI编程系统在提升软件生产力方面前景可观。”刘德欣表示,“要想在企业环境中真正发挥这项技术的价值,需要将代码大模型与企业自身的领域知识深度结合,并在具体业务场景中持续迭代和验证。”
事实上,大模型发展到今天,市场情绪已基本回归理性,但噪音仍然存在。例如,2024年,大模型招投标类信息屡见不鲜,但其中一些数据就很可能存在“误导性”。
“国外的生态分工比较明确,但国内很多做to B的项目最后都会变成招投标,很多企业都在为竞标挤得头破血流。”刘道全表示。然而,在AI编程领域,从公开的招投标信息来看,即便是几家大厂,拿到的订单也不多。
原因在于,竞标成功不等于模型或产品能顺利落地。
“一方面,在很多采购方负责采购的人员和真正使用产品的人往往不是同一波,这便可能造成采购决策和实际的业务需求两层皮。另一方面,这些落地往往依赖于标准化产品加微调的方式,并未针对企业的业务场景与内部逻辑进行深入的领域化训练和适配,可能导致程序员在使用过程中发现效果不尽如人意。”
一位业内人士透露,目前招投标市场包含硬件的订单大多在百万级,而纯软件订单,例如智能软件开发、代码助手等项目大多在30万左右。很多企业采购后发现无法解决问题,只能重新到市面上找更合适的厂商,造成资源浪费。
不过,去伪存真后,一些共识也正在形成。越来越多企业意识到,把产品和模型能力“解耦”是大势所趋。
2024年上半年,张海龙意识到,当模型能力越来越强,各家的模型在编程方面的能力会趋同,产品不应该再贴合模型能力去做,而应该把产品做到“与模型无关”。“2024年上半年开始,我们基本不再针对不同模型做特定的优化,而是提升我们产品架构的能力,市面上的任何模型只要通过我们的基准测试就能接入进来。”张海龙表示。
刘德欣也强调:“企业客户应充分重视业务连续性,不应被任何单一大模型厂商绑定。当前,仅通过采购标准化产品,难以真正满足企业客户大模型落地需求。企业需要在大模型、数据层面、领域化和工程化等方面实现架构解耦,灵活选择更契合自身需求的模型和服务商。最关键的是,要切实解决企业内部软件开发领域化的实际问题,帮助企业实现降本增效。”
作为行业第三方视角,刘道全认为,未来,接入模型只是产业落地的一环。“现在从模型到应用还有100公里,如果技术厂商把前95-99公里的能力标准化,变成基础设施,剩下的最后1-5公里就可以由应用方自己做了。”
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。