编者按:本文来自微信公众号 适道(ID:survivalbiz),作者:狮刀、Rika,编辑:腾讯科技 郑可君、郝博阳,创业邦经授权转载。
2023年底,斯坦福大学发布了一款引发轰动的AI实验项目——"小镇模拟游戏"。在这个虚拟小镇里,25个AI角色能够自主交谈、建立关系、制定计划,展现出了令人惊叹的社交能力。这个实验让人们第一次对AI Agent(智能体)产生了期待——具有自主意识和决策能力的AI助手指日可待。
一年过去了,AI Agent的概念在业界炙手可热。微软、Google等科技巨头纷纷布局,初创公司们也争相推出各类"Agent"产品。然而,当我们仔细观察这些号称是"Agent"的产品时,会发现一个尴尬的现实:它们与真正的Agent相去甚远,更像是仅仅具备自然语言理解能力的对话机器人。
这种"形似神不似"的现象,在AI硬件领域也不断上演。2024年10月,智能戒指品牌Oura推出了最新款Oura Ring 4,并"识时务"地加入了AI功能。很快,Oura估值超50亿美金,成为了商业化最成功的"AI硬件"厂商之一。然而,一个共识是:Oura的成功与AI关系并不大,其核心价值仍在于健康追踪这一基础功能。相比之下,真正主打AI的硬件产品,如AI Pin、Rabbit R1却遭遇了"上市即翻车"的命运。
什么称得上AI Agent?随手打开一个大模型APP,映入眼帘的Prompt Agent?还是编程领域的专业 Agent Cursor?亦或是钢铁侠的全能助手Jarvis?
美国VC Madrona合伙人Jon Turow曾指出:当你聊过足够多的从业者,你会发现有一系列不同概念的东西,它们都叫做Agent 。
如果将AI Agent形容为一场马拉松,2025年的AI Agent行至何处?
1 2024年AI Agent观察:一半是海水,一半是火焰
热闹的景象:各路玩家就位
2024上半年,大模型价格战还在轰轰烈烈进行;下半年,AI Agent争夺战就已经蓄势待发。
海外市场,OpenAI、Anthropic、微软、谷歌等科技巨头纷纷公布相关进展,将自家Agent实力当作牌桌上的重要筹码。
10月,Anthropic 推出了名为“Computer Use”的AI Agent系统,号称能够“像人一样操作计算机”。这是一个特殊API,允许开发者指导 Claude完成各种计算机操作任务——观察屏幕内容、移动鼠标、点击按钮以及打字等等。开发者可以通过该 API 将书面指令转换为具体的计算机指令,从而实现自动化任务。
(图片:Anthropic开发人员演示Computer use)
微软也是AI Agent的重要推动者。2024年10 月,微软公布了一项重要计划:面向 Dynamics 365业务应用平台,开发部署10款AI Agent——将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照时间表,这些AI Agent将在年底开放公测,测试阶段预计延续到 2025 年初期。
(图片:微软CEO展示Copilot与AI堆栈)
谷歌的反应相对较慢,但在年底也赶上了进度。12月,谷歌发布了全新多模态大模型Gemini 2.0。在新模型的加持下,谷歌内置了三款AI Agent——“通用大模型助手”Project Astra、“浏览器助手”Project Mariner 和“编程助手”Jules。
“编程助手”Jules能够作为自主代理直接集成到GitHub的工作流程系统中,分析复杂的代码库,跨多个文件实施修复,并准备详细的拉取请求,无需持续的人工监督;而在游戏《部落冲突》演示中,谷歌AI Agent不仅能够向玩家介绍兵种特性,给出组合建议,还可以在Reddit检索信息,为玩家提供角色选择建议。
(图片:玩家与谷歌AI Agent互动)
OpenAI虽然是基础模型的领先者,在Agent方面布局却略显迟缓。7月,OpenAI 更新AGI路线图,并指出自己处于第一层,接近达到第二层;而第三层才是AI Agent。
OpenAI预计将于2025年1月推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。据悉,Operator可能会在Computer use的基础上进行大幅度创新和应用简化,扩大AI Agent的使用范围和应用场景。
国内市场,百度、阿里、腾讯、智谱等大厂也纷纷入局。
在B端,百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体、字节扣子等面向企业用户提供了智能体创建平台,并开始在其AI智能助手界面中添加AI Agent入口。
在C端,支付宝旗下AI App支小宝、智谱AutoGLM点燃了消费者用户的激情。根据演示,智谱AutoGLM能够浏览并理解屏幕信息,做出任务规划,实现手机上常用操作的模拟执行——只需接收简单的文字/语音指令,它就可以模拟人类操作手机,在朋友圈点赞,在美团点外卖,在携程订酒店等等。
冷静的现实:当我们在谈论AI Agent时,到底是在谈论什么?
如果只看到上述的热闹景象,你大概会得出结论——2024年是AI Agent的当打之年。
但用户能够真正依赖的AI Agent,其实寥寥无几。
只需花3秒钟思考——你喜欢用哪几款AI Agent?如果你是程序员,答案可能只是Cursor。如果我们换个问题——你喜欢用哪几款AI大模型?答案会五花八门,比如ChatGPT、Gemini、Claude、Kimi等等。
至少从实感来说,目前大热的AI Agent仍是“虚火”。
主因是“不靠谱”和“鸡肋”。AI Agent依赖LLM“黑盒”,本身就存在不可预测性,而工作流程更是要将多个AI 步骤连接起来,会加剧这些问题,尤其是对于需要精确输出的任务。用户难以确保Agent能否始终提供准确、符合上下文的响应。
LangChain发布的State of AI Agents可以作为重要参考。其调查涉及的1300多位受访者指出,性能质量(41%)是首要关注点,重要性远超成本(18.4%)和安全(18.4%)等因素。甚至对于向来格外关注成本的小企业而言,其中45.8%将性能质量列为主要关注点,成本因素仅为22.4%。同时,报告指出,生产中采用AI Agents的主要挑战包括:开发人员很难向团队和利益相关者解释 AI Agent 的功能和行为。
此外,虽然AI Agent依赖的基座LLMs在Tool use方面表现不错,但它们速度不快且成本高,特别是需要进行循环和自动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现进行了基准测试。结果显示,即便是表现最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率仅达到14.9%。
那么,市面上不能“完全自理”的AI Agent算得上Agent吗?
如果我们按吴恩达的思路就很好理解了——AI Agent是可以分层级的。他提出了Agentic System(智能体系统),并认为形容词“Agentic”比名词“Agent”能更好地帮助我们理解这类智能体的本质。如同自动驾驶汽车L1-L4,Agent的进化也是一个过程。
BabyAGI创始人Yohei Nakajima对于AI Agent的分类,同样值得参考。
1、手工制作Agent:由 Prompt和API 调用组成的链条,具有一定自主性,但约束较多。
特征:流水线机器人,按照固定步骤完成任务。
举例:它就像一个专门订票的助手——当你告诉航班需求时,它能够直接调用API搜索并完成预订;然而一旦涉及复杂行程规划,手工制作Agent就会“卡住”(欢迎大家代入产品)。
2、专业Agent:在一组任务类型和工具内动态决定要做什么,比手工制作Agent约束少。
特征:娴熟工匠,能够在特定领域(比如木工)熟练地使用工具,不仅能按照要求制作家具,还能根据实际需求调整设计,调用材料。
举例:AutoGPT通过CoT技术分解复杂问题,动态选择最优解决路径。面对一个市场研究任务,AutoGPT能自动分解任务为“搜索趋势”“整理数据”“生成报告”等子任务并完成。
3、通用Agent:Agent的AGI——目前还处于理论概念阶段,尚未实现。
特征:全能助手,就像钢铁侠的Jarvis。你可以询问它任何问题,它不仅能理解你的需求,还能结合知识和环境动态适应,提供创新解决方案。
举例:还没有真正能实现的产品,相关研究包括更强的多模态交互和长期记忆优化。
处于当前的历史节点,Prompt Agent数量最多,表现为大模型APP里的遍地Agent;垂直领域的专业Agent正处于爆点,并因其实用性备受资本青睐;人类所期待的真正Agent——全能助手Jarvis,有待关键技术突破。这也意味着未来一段时间内,我们能看到更多“L1-L4”之间的技术进化。
这一年AI Agent“皮下”技术进化到哪儿了?
根据Lilian Weng列举的公式:Agent = LLM+Memory+Planning skills+Tool use
假设你是黑暗料理界的“五虎星”。LLM代表你的知识储备,包含所有菜系菜谱;Memory类似于你的厨师笔记,记录着不同食客的口味需求,输给“小当家”的历史教训;Planning好比你的做菜规划,面对不同要求,是先炸再烤,还是先煮再炸;Tools则是你的魔法厨具,包括如何调用不同刀具(软件),帮助执行复杂的任务。
AI Agent的突破取决于各项技术的进步。
首先是LLM。在GPT5这样的强悍“大脑”出现之前,OpenAI就发现了推理引擎的能力。
2024年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown提出:让AI模型思考20秒所带来的性能提升,相当于将模型扩大100,000倍并训练100,000倍的时间。
Brown所指的技术便是System 1/2 thinking,正是OpenAI o1长出“推理能力”的秘诀。
System 1,即“快思考”,你看到一只苹果,不需要思考,就知道这是水果;System 2,即“慢思考”,你要做一道17*24的数学题,则需拆解步骤来思考,答案才更准确。
近期,谷歌DeepMind研究人员也将这项技术集成到AI Agent中,并开发了Talker-Reasoner框架。System 1是默认运行的“快速模式”,而System 2作为“备用引擎”随时待命。当System 1感到困惑时,会将任务交给System 2处理。“双引擎”共同运行,对于解决复杂、冗长的任务帮助巨大,突破了传统AI Agent执行业务流程的方法,极大提升了效率。
其次是记忆机制。当生成式AI开始“胡言乱语”,或许不是性能问题,而是记忆力不佳。这时候就需要RAG(检索增强型生成)来帮忙。它是LLM“外挂”般的存在,能够利用外部知识库为LLM提供相关上下文,防止LLM不懂装懂。
然而,传统RAG流程只考虑一个外部知识源,不能调用外部工具;仅生成一次性解决方案,上下文只检索一次,不能进行推理或验证。
在此情况下,融合Agent能力的RAG应运而生。虽然Agentic RAG在整体流程上与传统RAG一脉相承:检索-合成上下文-生成,但其融入了Agent自主规划能力,能够适应更加复杂的RAG查询任务——决定是否需要检索;自主决策使用哪个检索引擎自主规划使用检索引擎的步骤;评估检索到的上下文,并决定是否重新检索;自行规划是否需要借助外部工具。
如果说,原始RAG是坐在图书馆查看特定问题;那么,Agentic RAG就像拿着iPhone,调用Google浏览器、电子邮件等等搜索问题。
此外,2024年YC孵化的开源Mem0项目,也有望成为RAG助手,并为AI Agent插上个性化记忆的翅膀。
Mem0像是大脑的“海马体”,为LLM提供了一个智能、自我优化的记忆层。它能进行信息分层存储——将短时信息转化为长期记忆。类似于,你会整理“新学知识”,而后存入脑海;它还能建立语义链接——通过语义分析为存储的知识创建关联网络。类似于,你告诉 AI自己喜欢看侦探电影,它不仅能记住,还会推测你可能喜欢的犯罪纪录片。
基于此,Mem0能够显著提升AI Agent个性化记忆——动态记录用户偏好、行为和需求,创建“私人记事本”。例如,当你告诉AI Agent下周是妈妈生日,它不仅会及时提醒你送上祝福,还会根据“记忆中”你和妈妈的喜好,给出送礼建议,甚至能够跨平台“货比三家”,奉上购物链接。
在RAG方面的突破不止于此,俄亥俄州立大学和斯坦福大学的科学家团队提出了一个有趣的思路:让AI拥有一个类似人类海马体的“记忆大脑”。他们从神经科学的角度出发,模仿人脑海马体在长期记忆中的作用,设计出一个名为HippoRAG的模型,像人脑一样高效地整合和搜索知识。实验表明,“记忆大脑”能够在多跳问答等需要知识整合的任务上取得大幅提升。或许探索出让大模型具备“类人”记忆的一个全新方向。
Tool use的进步更是肉眼看见。例如,Claude的Computer Use,通过构建API,将自然语言提示转化为各种电脑操作指令,由开发者自动化重复性的任务、进行测试和质量保证,以及开放式研究。从此,AI不需要一个个专门的API“钥匙”也能“一次性”调用各种软件完成各种操作:用Word写文档,用Excel处理表格,用浏览器搜索信息。虽然如此,目前Computer Use能力还不完善:不能在内部数据上训练该功能;受限于上下文窗口等等。Anthropic团队也表示,现在Claude的计算机使用水平只处于类似“GPT-3 时代”的早期阶段,未来还有很大提升空间。
值得注意的是,AI Agent的视觉能力也取得了进步。例如,智谱发布的 GLM-PC 将其通用的视觉-操作模型 CogAgent 应用到了计算机上。其能够模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
规划能力方面。Planning包含任务分解——将大任务划分成小任务;反思和提炼——基于已有动作进行自我反思,从错误中学习优化接下来的动作。
目前,有论文提出更为新颖的分类法:任务分解、多计划选择、外部模块辅助规划、反思与细化、记忆增强规划。其中,多计划选择,即给AI Agent一个“选择轮”,生成多个计划,挑一个最好的来执行;外部模块辅助规划,即借助外部规划器,类似强化学习的判官。记忆增强规划,就像 一个记忆面包,记住过去经验,为将来规划提供帮助。这些方法并不孤立,而是相互交织,共同提升AI Agent的规划能力。
一年以来,Agent“皮下”各项能力均取得了进步,其中Tool use能力已经初步落地;记忆机制的进步非常值得期待;LLMs的进步则取决于巨头的能力边界等等。但对于Agent而言,其能力的最大化并非各项技术简单的加成,任何一项技术的突破均有望使其迎来质变。
未来,AI Agent进化的重要挑战包括但不限于:如何实现低延迟、带视觉理解的实时反馈;如何构建个性化的记忆系统;如何在虚拟与物理环境都具备鲁棒的执行能力等等。只有当AI Agent从“工具”到“工具使用者”时,真正的Killer Agent就会出现。
2 资本的选择——大模型遇冷,AI Agent当立
有人说,现在大模型卷不动了,要卷就卷AI Agent。
2024年,曾经争做“做中国OpenAI”的大模型公司不得已食言,以“六小虎”智谱AI、零一万物、百川智能、MiniMax、月之暗面和阶跃星辰为例,多数公司已经开始进行业务调整,甚至人员缩减。大厂凭借其雄厚的家底,还能继续卷研发;更多初创企业被迫直面现实,转向大模型应用层面,寻求更低的成本和更快的回报。
同时,敏锐的资本也将目光投向了AI应用层。
桔子IT数据显示,2024年前9个月,国内AI领域发生了317起融资案例,月均融资金额42亿元,不到去年的两成。其中,融资最多的5家公司拿走了超212亿,相当于今年国内AI融资总额的63%。
值得注意的是,大模型和AI Agent项目受投资人的关注度最高——大模型发生19起融资案,AI Agent发生了18起。其次是AI视频生成(10%),剩下50%投资案例的方向较为分散,被19个方向瓜分。
由此,在大模型“赢家通吃”的局势下,AI Agent既是AI初创公司的最佳方向,也是海内外资本的笃定之选。
YC合伙人、资深投资人Jared指出,垂直领域 AI Agent 作为一种新兴B2B 软件,有望成为比SaaS大10倍的新兴市场。凭借替代人工操作、提升效率的显著优势,这一领域可能催生出市值超过3000亿美元的科技巨头。
投资人所看中的AI Agent都长什么样?
最出圈的当属AI编程神器Cursor。原因不外于代码是LLMs最容易掌握的能力,其生成的训练数据主要来自GitHub上的开源代码,大部分都是“有效数据”。此前,Cursor是根据用户需求,提供建议代码。如今,Cursor可以直接以实现需求为目的,一口气帮助你创造代码文件,准备好运行环境。你只需点击启动按钮,就可以运行代码。
除此之外,即便2024年尚未产生真正的Killer Agent,但实际上在细分领域,Agent已经有遍地开花之势了。
根据YC团队的最新分享。目前已经获得投资的Agent项目大多在toB领域。
问卷调查和分析:Outset将 AI Agent应用于问卷调查和分析领域,可以替代传统的人工调查和分析工作,例如 Qualtrics等公司提供的服务。
软件质量测试:Mtic利用 AI Agent进行软件质量测试,可以完全取代传统的 QA 测试团队。与之前的 QA 软件即服务公司(如 Rainforest QA)不同,Mtic不仅提高了QA 团队的效率,还能完全取代人工测试。
政府合同竞标:Sweet Spot利用 AI Agent自动搜索、填写政府合同的标书,可以替代人工完成这些繁琐的任务。
客户支持:Powerhelp利用 AI Agent,自动完成人工接听电话、回复邮件和解决问题,并且能够根据用户提问和历史记录提供个性化的解决方案,提升其满意度。
人才招聘:Priora和Nico,利用 AI Agent进行技术筛选和初步招聘,可以替代人工完成这些任务。
用吴恩达的发言做总结:通往 AGI 的道路感觉更像是一段旅程,而不是一个目的地。但我认为Agent式工作流,可以帮助我们在这个非常漫长的旅程中向前迈进一小步。换句话说,即便我们暂时无法拥有“全能Agent”,但多个垂直领域的专业Agent逐渐出现,将让我们不断获得近似拥有Jarvis的体验。
3 2025年:有望成为AI Agent商用爆发元年
近日,前OpenAI联创、SSI创始人 Ilya Sutskever直接宣布:预训练从此将彻底终结——我们只有一个互联网,训练模型需要的海量数据即将枯竭,唯有从现有数据中寻找新的突破,AI才会继续发展。
Sutskever用人类大脑发展进行类比:正如人类大脑体积停止生长后,人类智慧仍在进步。AI未来发展将转向在现有LLM上构建 AI Agent和工具。他预测,以后的突破点,就在于智能体(Agentic)、合成数据和推理时计算。其中,能够自主完成任务的AI Agent,是未来的发展方向。
值得注意的是,与吴恩达一样,Sutskever同样使用“形容词”Agentic描述智能体。
根据线性资本Bolt观点:我们可以用少量的、适量的、高度的Agentic“能力”描述Agent应用的能力。例如,Router(路由)类系统使用LLM将输入路由到特定的下游工作流中,具有少量的Agentic能力;State Machine(状态机)类系统使用多个LLMs来执行多个路由步骤并且有能力确定每个步骤是继续还是完成,具有相当的Agentic能力;而Autonomous(自主体)类系统更进一步,能够使用工具甚至创造合适的工具去推进系统的进一步决策,具备完全的Agentic能力。
基于此,厂商在强调产品的Agent属性前,不妨先回答“How agentic my system is?”
当前不少领域的专业AI Agent依然不够成熟。相关调查显示,输出不精确、性能差强人意、用户不信任等问题困扰其落地。但如果我们换个思路:短期内商业化最成功的AI Agent,不一定是看起来“Agentic化”最高的产品;而是能够平衡性能、可靠性,以及用户信任的产品。
顺着这条思路,专业AI Agent最有前途的发展道路可能是:先重点应放在利用AI增强现有工具,而不是提供广泛的全自主独立服务。
用人机协同的方法,让人类参与监督和处理边缘案例。根据当前的能力和局限,设定不脱离现实的期望。通过结合严格约束的LLMs、良好的评估数据、人机协同监督和传统工程方法,在自动化等复杂任务方面实现可靠且良好的效果。
例如,红杉投资组合中的Rocks公司,其Agent是将人类员工融入其中。最初,Rocks开发了一项自动撰写、自动发送电子邮件的技术。但他们发现将人类销售纳入流程时,表现提升了333倍。于是,Rocks移除了自动发送的功能。
根据具体业务场景,有些公司可以开发Agent完成任务的技术,比如网络安全领域的Expo;而有些公司则尽量选择用Agent“增强”人类员工,比如Rocks。
那么,2025年会发生什么?
首先,不止是编程,更多垂直领域将跑出“种子选手”。红杉合伙人 Konstantine Buhler预测:医疗和教育等“高服务成本”领域将成为 AI 技术的下一个重要战场。
同时,根据LangChain报告显示:人们希望将耗时任务交给AI Agent——充当“知识过滤器”:快速提炼关键信息,用户无需自己手动筛选海量数据;“生产力加速器”:协助用户安排日程、管理任务,让人类专注于更重要的工作;“客服神助攻”:帮助企业更快地处理客户咨询、解决问题,大幅提升团队的响应速度。
换句话说,所有耗时、耗力、耗成本的工作有望率先被垂直领域专业AI Agent替代。
其次,AI Agent部署将由“单”变“多”。一方面,AI Agent将从单一智能体发展到“群体协作”模式。2025年会出现更多Multi-agent模式,多个Agent 扮演不同角色合作完成任务。例如,清华面壁智能的开源项目ChatDev。每个 Agent 被赋予了不同的身份,有的是 CEO,有的是产品经理,有的是程序员,它们能够彼此互相合作,共同完成任务。
另一方面,随着⼤模型对图像和视频信息的处理能⼒快速提升,2025年将开始出现更为综合性的多模态交互,AI能够通过物联⽹、特定信息等多种感知通道进⾏协同。多模态输⼊和输出使AI交互性更强、交互频次更⾼,适⽤场景也更加丰富,AI产品整体⽔平显著提升。
其中,Agent作为融合感知、分析、决策和执⾏能⼒的智能体,其交互的主动性和⾃动化远超现有工具。
根据量子位智库观察:从技术和配套设施两⽅⾯发展来看,从2025年开始,AI Agent即将⼴泛投⼊使⽤。AI Agent有望带来独属于AI 2.0时代的交互⽅式、产品形态和商业模式。
结语
在电影《2001:太空漫游》的开头,一群草食人猿挣扎在饥饿和死亡的边缘,人猿首领偶然挥舞了一下手里的棒骨,“发现”它居然是一件趁手的工具。从此,他们开始狩猎小动物,成为食肉动物,逐步站上了食物链顶端。
如果未来的人类俯瞰2025年,可能会发现,这又是一个人类进化的关键时刻,而AI Agent正是那根趁手的“棒骨”。
正如Andrej Karpathy所言,AI Agent代表着一个疯狂的未来。
有趣的是,Agent一词源于拉丁语的Agere,意思是“to do”。
如何抓住这个疯狂的未来?你可能只需要“Agent”。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。