2025 AI Agent迷局：谁在玩真的，谁在演戏？

适道商业·2025-01-07

以变革应对变局，以远见超越未见。

编者按：本文来自微信公众号适道（ID：survivalbiz），作者：狮刀、Rika，编辑：腾讯科技郑可君、郝博阳，创业邦经授权转载。

2023年底，斯坦福大学发布了一款引发轰动的AI实验项目——"小镇模拟游戏"。在这个虚拟小镇里，25个AI角色能够自主交谈、建立关系、制定计划，展现出了令人惊叹的社交能力。这个实验让人们第一次对AI Agent（智能体）产生了期待——具有自主意识和决策能力的AI助手指日可待。

一年过去了，AI Agent的概念在业界炙手可热。微软、Google等科技巨头纷纷布局，初创公司们也争相推出各类"Agent"产品。然而，当我们仔细观察这些号称是"Agent"的产品时，会发现一个尴尬的现实：它们与真正的Agent相去甚远，更像是仅仅具备自然语言理解能力的对话机器人。

这种"形似神不似"的现象，在AI硬件领域也不断上演。2024年10月，智能戒指品牌Oura推出了最新款Oura Ring 4，并"识时务"地加入了AI功能。很快，Oura估值超50亿美金，成为了商业化最成功的"AI硬件"厂商之一。然而，一个共识是：Oura的成功与AI关系并不大，其核心价值仍在于健康追踪这一基础功能。相比之下，真正主打AI的硬件产品，如AI Pin、Rabbit R1却遭遇了"上市即翻车"的命运。

什么称得上AI Agent？随手打开一个大模型APP，映入眼帘的Prompt Agent？还是编程领域的专业 Agent Cursor？亦或是钢铁侠的全能助手Jarvis？

美国VC Madrona合伙人Jon Turow曾指出：当你聊过足够多的从业者，你会发现有一系列不同概念的东西，它们都叫做Agent 。

如果将AI Agent形容为一场马拉松，2025年的AI Agent行至何处？

1 2024年AI Agent观察：一半是海水，一半是火焰

热闹的景象：各路玩家就位

2024上半年，大模型价格战还在轰轰烈烈进行；下半年，AI Agent争夺战就已经蓄势待发。

海外市场，OpenAI、Anthropic、微软、谷歌等科技巨头纷纷公布相关进展，将自家Agent实力当作牌桌上的重要筹码。

10月，Anthropic 推出了名为“Computer Use”的AI Agent系统，号称能够“像人一样操作计算机”。这是一个特殊API，允许开发者指导 Claude完成各种计算机操作任务——观察屏幕内容、移动鼠标、点击按钮以及打字等等。开发者可以通过该 API 将书面指令转换为具体的计算机指令，从而实现自动化任务。

（图片：Anthropic开发人员演示Computer use）

微软也是AI Agent的重要推动者。2024年10 月，微软公布了一项重要计划：面向 Dynamics 365业务应用平台，开发部署10款AI Agent——将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照时间表，这些AI Agent将在年底开放公测，测试阶段预计延续到 2025 年初期。

（图片：微软CEO展示Copilot与AI堆栈）

谷歌的反应相对较慢，但在年底也赶上了进度。12月，谷歌发布了全新多模态大模型Gemini 2.0。在新模型的加持下，谷歌内置了三款AI Agent——“通用大模型助手”Project Astra、“浏览器助手”Project Mariner 和“编程助手”Jules。

“编程助手”Jules能够作为自主代理直接集成到GitHub的工作流程系统中，分析复杂的代码库，跨多个文件实施修复，并准备详细的拉取请求，无需持续的人工监督；而在游戏《部落冲突》演示中，谷歌AI Agent不仅能够向玩家介绍兵种特性，给出组合建议，还可以在Reddit检索信息，为玩家提供角色选择建议。

（图片：玩家与谷歌AI Agent互动）

OpenAI虽然是基础模型的领先者，在Agent方面布局却略显迟缓。7月，OpenAI 更新AGI路线图，并指出自己处于第一层，接近达到第二层；而第三层才是AI Agent。

OpenAI预计将于2025年1月推出全新AI Agent——Operator，该系统能够自动执行各种复杂操作，包括编写代码、预订旅行、自动电商购物等。据悉，Operator可能会在Computer use的基础上进行大幅度创新和应用简化，扩大AI Agent的使用范围和应用场景。

国内市场，百度、阿里、腾讯、智谱等大厂也纷纷入局。

在B端，百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体、字节扣子等面向企业用户提供了智能体创建平台，并开始在其AI智能助手界面中添加AI Agent入口。

在C端，支付宝旗下AI App支小宝、智谱AutoGLM点燃了消费者用户的激情。根据演示，智谱AutoGLM能够浏览并理解屏幕信息，做出任务规划，实现手机上常用操作的模拟执行——只需接收简单的文字/语音指令，它就可以模拟人类操作手机，在朋友圈点赞，在美团点外卖，在携程订酒店等等。

冷静的现实：当我们在谈论AI Agent时，到底是在谈论什么？

如果只看到上述的热闹景象，你大概会得出结论——2024年是AI Agent的当打之年。

但用户能够真正依赖的AI Agent，其实寥寥无几。

只需花3秒钟思考——你喜欢用哪几款AI Agent？如果你是程序员，答案可能只是Cursor。如果我们换个问题——你喜欢用哪几款AI大模型？答案会五花八门，比如ChatGPT、Gemini、Claude、Kimi等等。

至少从实感来说，目前大热的AI Agent仍是“虚火”。

主因是“不靠谱”和“鸡肋”。AI Agent依赖LLM“黑盒”，本身就存在不可预测性，而工作流程更是要将多个AI 步骤连接起来，会加剧这些问题，尤其是对于需要精确输出的任务。用户难以确保Agent能否始终提供准确、符合上下文的响应。

LangChain发布的State of AI Agents可以作为重要参考。其调查涉及的1300多位受访者指出，性能质量（41%）是首要关注点，重要性远超成本（18.4%）和安全（18.4%）等因素。甚至对于向来格外关注成本的小企业而言，其中45.8%将性能质量列为主要关注点，成本因素仅为22.4%。同时，报告指出，生产中采用AI Agents的主要挑战包括：开发人员很难向团队和利益相关者解释 AI Agent 的功能和行为。

此外，虽然AI Agent依赖的基座LLMs在Tool use方面表现不错，但它们速度不快且成本高，特别是需要进行循环和自动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现进行了基准测试。结果显示，即便是表现最好的模型SteP，成功率也只有35.8%，而GPT-4的成功率仅达到14.9%。

那么，市面上不能“完全自理”的AI Agent算得上Agent吗？

如果我们按吴恩达的思路就很好理解了——AI Agent是可以分层级的。他提出了Agentic System（智能体系统），并认为形容词“Agentic”比名词“Agent”能更好地帮助我们理解这类智能体的本质。如同自动驾驶汽车L1-L4，Agent的进化也是一个过程。

BabyAGI创始人Yohei Nakajima对于AI Agent的分类，同样值得参考。

1、手工制作Agent：由 Prompt和API 调用组成的链条，具有一定自主性，但约束较多。

特征：流水线机器人，按照固定步骤完成任务。

举例：它就像一个专门订票的助手——当你告诉航班需求时，它能够直接调用API搜索并完成预订；然而一旦涉及复杂行程规划，手工制作Agent就会“卡住”（欢迎大家代入产品）。

2、专业Agent：在一组任务类型和工具内动态决定要做什么，比手工制作Agent约束少。

特征：娴熟工匠，能够在特定领域（比如木工）熟练地使用工具，不仅能按照要求制作家具，还能根据实际需求调整设计，调用材料。

举例：AutoGPT通过CoT技术分解复杂问题，动态选择最优解决路径。面对一个市场研究任务，AutoGPT能自动分解任务为“搜索趋势”“整理数据”“生成报告”等子任务并完成。

3、通用Agent：Agent的AGI——目前还处于理论概念阶段，尚未实现。

特征：全能助手，就像钢铁侠的Jarvis。你可以询问它任何问题，它不仅能理解你的需求，还能结合知识和环境动态适应，提供创新解决方案。

举例：还没有真正能实现的产品，相关研究包括更强的多模态交互和长期记忆优化。

处于当前的历史节点，Prompt Agent数量最多，表现为大模型APP里的遍地Agent；垂直领域的专业Agent正处于爆点，并因其实用性备受资本青睐；人类所期待的真正Agent——全能助手Jarvis，有待关键技术突破。这也意味着未来一段时间内，我们能看到更多“L1-L4”之间的技术进化。

这一年AI Agent“皮下”技术进化到哪儿了？

根据Lilian Weng列举的公式：Agent = LLM+Memory+Planning skills+Tool use

假设你是黑暗料理界的“五虎星”。LLM代表你的知识储备，包含所有菜系菜谱；Memory类似于你的厨师笔记，记录着不同食客的口味需求，输给“小当家”的历史教训；Planning好比你的做菜规划，面对不同要求，是先炸再烤，还是先煮再炸；Tools则是你的魔法厨具，包括如何调用不同刀具（软件），帮助执行复杂的任务。

AI Agent的突破取决于各项技术的进步。

首先是LLM。在GPT5这样的强悍“大脑”出现之前，OpenAI就发现了推理引擎的能力。

2024年10月，OpenAI高级研究科学家、德扑AI之父Noam Brown提出：让AI模型思考20秒所带来的性能提升，相当于将模型扩大100,000倍并训练100,000倍的时间。

Brown所指的技术便是System 1/2 thinking，正是OpenAI o1长出“推理能力”的秘诀。

System 1，即“快思考”，你看到一只苹果，不需要思考，就知道这是水果；System 2，即“慢思考”，你要做一道17*24的数学题，则需拆解步骤来思考，答案才更准确。

近期，谷歌DeepMind研究人员也将这项技术集成到AI Agent中，并开发了Talker-Reasoner框架。System 1是默认运行的“快速模式”，而System 2作为“备用引擎”随时待命。当System 1感到困惑时，会将任务交给System 2处理。“双引擎”共同运行，对于解决复杂、冗长的任务帮助巨大，突破了传统AI Agent执行业务流程的方法，极大提升了效率。

其次是记忆机制。当生成式AI开始“胡言乱语”，或许不是性能问题，而是记忆力不佳。这时候就需要RAG（检索增强型生成）来帮忙。它是LLM“外挂”般的存在，能够利用外部知识库为LLM提供相关上下文，防止LLM不懂装懂。

然而，传统RAG流程只考虑一个外部知识源，不能调用外部工具；仅生成一次性解决方案，上下文只检索一次，不能进行推理或验证。

在此情况下，融合Agent能力的RAG应运而生。虽然Agentic RAG在整体流程上与传统RAG一脉相承：检索-合成上下文-生成，但其融入了Agent自主规划能力，能够适应更加复杂的RAG查询任务——决定是否需要检索；自主决策使用哪个检索引擎自主规划使用检索引擎的步骤；评估检索到的上下文，并决定是否重新检索；自行规划是否需要借助外部工具。

如果说，原始RAG是坐在图书馆查看特定问题；那么，Agentic RAG就像拿着iPhone，调用Google浏览器、电子邮件等等搜索问题。

此外，2024年YC孵化的开源Mem0项目，也有望成为RAG助手，并为AI Agent插上个性化记忆的翅膀。

Mem0像是大脑的“海马体”，为LLM提供了一个智能、自我优化的记忆层。它能进行信息分层存储——将短时信息转化为长期记忆。类似于，你会整理“新学知识”，而后存入脑海；它还能建立语义链接——通过语义分析为存储的知识创建关联网络。类似于，你告诉 AI自己喜欢看侦探电影，它不仅能记住，还会推测你可能喜欢的犯罪纪录片。

基于此，Mem0能够显著提升AI Agent个性化记忆——动态记录用户偏好、行为和需求，创建“私人记事本”。例如，当你告诉AI Agent下周是妈妈生日，它不仅会及时提醒你送上祝福，还会根据“记忆中”你和妈妈的喜好，给出送礼建议，甚至能够跨平台“货比三家”，奉上购物链接。

在RAG方面的突破不止于此，俄亥俄州立大学和斯坦福大学的科学家团队提出了一个有趣的思路：让AI拥有一个类似人类海马体的“记忆大脑”。他们从神经科学的角度出发，模仿人脑海马体在长期记忆中的作用，设计出一个名为HippoRAG的模型，像人脑一样高效地整合和搜索知识。实验表明，“记忆大脑”能够在多跳问答等需要知识整合的任务上取得大幅提升。或许探索出让大模型具备“类人”记忆的一个全新方向。

Tool use的进步更是肉眼看见。例如，Claude的Computer Use，通过构建API，将自然语言提示转化为各种电脑操作指令，由开发者自动化重复性的任务、进行测试和质量保证，以及开放式研究。从此，AI不需要一个个专门的API“钥匙”也能“一次性”调用各种软件完成各种操作：用Word写文档，用Excel处理表格，用浏览器搜索信息。虽然如此，目前Computer Use能力还不完善：不能在内部数据上训练该功能；受限于上下文窗口等等。Anthropic团队也表示，现在Claude的计算机使用水平只处于类似“GPT-3 时代”的早期阶段，未来还有很大提升空间。

值得注意的是，AI Agent的视觉能力也取得了进步。例如，智谱发布的 GLM-PC 将其通用的视觉-操作模型 CogAgent 应用到了计算机上。其能够模拟人类的视觉感知来从环境中获取信息输入，以进行进一步的推理和决策。

规划能力方面。Planning包含任务分解——将大任务划分成小任务；反思和提炼——基于已有动作进行自我反思，从错误中学习优化接下来的动作。

目前，有论文提出更为新颖的分类法：任务分解、多计划选择、外部模块辅助规划、反思与细化、记忆增强规划。其中，多计划选择，即给AI Agent一个“选择轮”，生成多个计划，挑一个最好的来执行；外部模块辅助规划，即借助外部规划器，类似强化学习的判官。记忆增强规划，就像一个记忆面包，记住过去经验，为将来规划提供帮助。这些方法并不孤立，而是相互交织，共同提升AI Agent的规划能力。

一年以来，Agent“皮下”各项能力均取得了进步，其中Tool use能力已经初步落地；记忆机制的进步非常值得期待；LLMs的进步则取决于巨头的能力边界等等。但对于Agent而言，其能力的最大化并非各项技术简单的加成，任何一项技术的突破均有望使其迎来质变。

未来，AI Agent进化的重要挑战包括但不限于：如何实现低延迟、带视觉理解的实时反馈；如何构建个性化的记忆系统；如何在虚拟与物理环境都具备鲁棒的执行能力等等。只有当AI Agent从“工具”到“工具使用者”时，真正的Killer Agent就会出现。

2 资本的选择——大模型遇冷，AI Agent当立

有人说，现在大模型卷不动了，要卷就卷AI Agent。

2024年，曾经争做“做中国OpenAI”的大模型公司不得已食言，以“六小虎”智谱AI、零一万物、百川智能、MiniMax、月之暗面和阶跃星辰为例，多数公司已经开始进行业务调整，甚至人员缩减。大厂凭借其雄厚的家底，还能继续卷研发；更多初创企业被迫直面现实，转向大模型应用层面，寻求更低的成本和更快的回报。

同时，敏锐的资本也将目光投向了AI应用层。

桔子IT数据显示，2024年前9个月，国内AI领域发生了317起融资案例，月均融资金额42亿元，不到去年的两成。其中，融资最多的5家公司拿走了超212亿，相当于今年国内AI融资总额的63%。

值得注意的是，大模型和AI Agent项目受投资人的关注度最高——大模型发生19起融资案，AI Agent发生了18起。其次是AI视频生成（10%），剩下50%投资案例的方向较为分散，被19个方向瓜分。

由此，在大模型“赢家通吃”的局势下，AI Agent既是AI初创公司的最佳方向，也是海内外资本的笃定之选。

YC合伙人、资深投资人Jared指出，垂直领域 AI Agent 作为一种新兴B2B 软件，有望成为比SaaS大10倍的新兴市场。凭借替代人工操作、提升效率的显著优势，这一领域可能催生出市值超过3000亿美元的科技巨头。

投资人所看中的AI Agent都长什么样？

最出圈的当属AI编程神器Cursor。原因不外于代码是LLMs最容易掌握的能力，其生成的训练数据主要来自GitHub上的开源代码，大部分都是“有效数据”。此前，Cursor是根据用户需求，提供建议代码。如今，Cursor可以直接以实现需求为目的，一口气帮助你创造代码文件，准备好运行环境。你只需点击启动按钮，就可以运行代码。

除此之外，即便2024年尚未产生真正的Killer Agent，但实际上在细分领域，Agent已经有遍地开花之势了。

根据YC团队的最新分享。目前已经获得投资的Agent项目大多在toB领域。

问卷调查和分析：Outset将 AI Agent应用于问卷调查和分析领域，可以替代传统的人工调查和分析工作，例如 Qualtrics等公司提供的服务。

软件质量测试：Mtic利用 AI Agent进行软件质量测试，可以完全取代传统的 QA 测试团队。与之前的 QA 软件即服务公司（如 Rainforest QA）不同，Mtic不仅提高了QA 团队的效率，还能完全取代人工测试。

政府合同竞标：Sweet Spot利用 AI Agent自动搜索、填写政府合同的标书，可以替代人工完成这些繁琐的任务。

客户支持：Powerhelp利用 AI Agent，自动完成人工接听电话、回复邮件和解决问题，并且能够根据用户提问和历史记录提供个性化的解决方案，提升其满意度。

人才招聘：Priora和Nico，利用 AI Agent进行技术筛选和初步招聘，可以替代人工完成这些任务。

用吴恩达的发言做总结：通往 AGI 的道路感觉更像是一段旅程，而不是一个目的地。但我认为Agent式工作流，可以帮助我们在这个非常漫长的旅程中向前迈进一小步。换句话说，即便我们暂时无法拥有“全能Agent”，但多个垂直领域的专业Agent逐渐出现，将让我们不断获得近似拥有Jarvis的体验。

3 2025年：有望成为AI Agent商用爆发元年

近日，前OpenAI联创、SSI创始人 Ilya Sutskever直接宣布：预训练从此将彻底终结——我们只有一个互联网，训练模型需要的海量数据即将枯竭，唯有从现有数据中寻找新的突破，AI才会继续发展。

Sutskever用人类大脑发展进行类比：正如人类大脑体积停止生长后，人类智慧仍在进步。AI未来发展将转向在现有LLM上构建 AI Agent和工具。他预测，以后的突破点，就在于智能体（Agentic）、合成数据和推理时计算。其中，能够自主完成任务的AI Agent，是未来的发展方向。

值得注意的是，与吴恩达一样，Sutskever同样使用“形容词”Agentic描述智能体。

根据线性资本Bolt观点：我们可以用少量的、适量的、高度的Agentic“能力”描述Agent应用的能力。例如，Router（路由）类系统使用LLM将输入路由到特定的下游工作流中，具有少量的Agentic能力；State Machine（状态机）类系统使用多个LLMs来执行多个路由步骤并且有能力确定每个步骤是继续还是完成，具有相当的Agentic能力；而Autonomous（自主体）类系统更进一步，能够使用工具甚至创造合适的工具去推进系统的进一步决策，具备完全的Agentic能力。

基于此，厂商在强调产品的Agent属性前，不妨先回答“How agentic my system is？”

当前不少领域的专业AI Agent依然不够成熟。相关调查显示，输出不精确、性能差强人意、用户不信任等问题困扰其落地。但如果我们换个思路：短期内商业化最成功的AI Agent，不一定是看起来“Agentic化”最高的产品；而是能够平衡性能、可靠性，以及用户信任的产品。

顺着这条思路，专业AI Agent最有前途的发展道路可能是：先重点应放在利用AI增强现有工具，而不是提供广泛的全自主独立服务。

用人机协同的方法，让人类参与监督和处理边缘案例。根据当前的能力和局限，设定不脱离现实的期望。通过结合严格约束的LLMs、良好的评估数据、人机协同监督和传统工程方法，在自动化等复杂任务方面实现可靠且良好的效果。

例如，红杉投资组合中的Rocks公司，其Agent是将人类员工融入其中。最初，Rocks开发了一项自动撰写、自动发送电子邮件的技术。但他们发现将人类销售纳入流程时，表现提升了333倍。于是，Rocks移除了自动发送的功能。

根据具体业务场景，有些公司可以开发Agent完成任务的技术，比如网络安全领域的Expo；而有些公司则尽量选择用Agent“增强”人类员工，比如Rocks。

那么，2025年会发生什么？

首先，不止是编程，更多垂直领域将跑出“种子选手”。红杉合伙人 Konstantine Buhler预测：医疗和教育等“高服务成本”领域将成为 AI 技术的下一个重要战场。

同时，根据LangChain报告显示：人们希望将耗时任务交给AI Agent——充当“知识过滤器”：快速提炼关键信息，用户无需自己手动筛选海量数据；“生产力加速器”：协助用户安排日程、管理任务，让人类专注于更重要的工作；“客服神助攻”：帮助企业更快地处理客户咨询、解决问题，大幅提升团队的响应速度。

换句话说，所有耗时、耗力、耗成本的工作有望率先被垂直领域专业AI Agent替代。

其次，AI Agent部署将由“单”变“多”。一方面，AI Agent将从单一智能体发展到“群体协作”模式。2025年会出现更多Multi-agent模式，多个Agent 扮演不同角色合作完成任务。例如，清华面壁智能的开源项目ChatDev。每个 Agent 被赋予了不同的身份，有的是 CEO，有的是产品经理，有的是程序员，它们能够彼此互相合作，共同完成任务。

另一方面，随着⼤模型对图像和视频信息的处理能⼒快速提升，2025年将开始出现更为综合性的多模态交互，AI能够通过物联⽹、特定信息等多种感知通道进⾏协同。多模态输⼊和输出使AI交互性更强、交互频次更⾼，适⽤场景也更加丰富，AI产品整体⽔平显著提升。

其中，Agent作为融合感知、分析、决策和执⾏能⼒的智能体，其交互的主动性和⾃动化远超现有工具。

根据量子位智库观察：从技术和配套设施两⽅⾯发展来看，从2025年开始，AI Agent即将⼴泛投⼊使⽤。AI Agent有望带来独属于AI 2.0时代的交互⽅式、产品形态和商业模式。

结语

在电影《2001：太空漫游》的开头，一群草食人猿挣扎在饥饿和死亡的边缘，人猿首领偶然挥舞了一下手里的棒骨，“发现”它居然是一件趁手的工具。从此，他们开始狩猎小动物，成为食肉动物，逐步站上了食物链顶端。

如果未来的人类俯瞰2025年，可能会发现，这又是一个人类进化的关键时刻，而AI Agent正是那根趁手的“棒骨”。

正如Andrej Karpathy所言，AI Agent代表着一个疯狂的未来。

有趣的是，Agent一词源于拉丁语的Agere，意思是“to do”。

如何抓住这个疯狂的未来？你可能只需要“Agent”。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。