Manus的三个启示

关注
Manus被骂的越惨,大厂们的心越慌。

编者按:本文来自微信公众号 锦缎(ID:jinduan006),作者:耀华,创业邦经授权发布。

Manus成为AI顶流,似乎只用了一个晚上,另加一场不那么正式的发布会。一个邀请码在某鱼已经炒到了5万。不用想,现在最慌的有两批人——投资人,以及大厂。

Manus神奇在何处,是虚火炒作,还是货真价实?

01可以做什么?

它可以全自主完成一个针对特斯拉的财报分析报告,也可以帮你生成一个完全可以正常交互的网站,甚至可以做一款可以直接上手玩的RPG游戏——它可以搭建开发环境,自行写代码,自己debug,自行编译。

如果你想做一个地区人口调研报告,Manus还可以自己访问数据库和自己搜索决定该用什么数据来完成。

Manus几乎可以通过一个prompt来完成一个复杂的分析项目。官网显示,在AI agent的评测标准GAIA benchmark基准下,其表现更是高于OpenAI的 DeepSearch。

笔者分析了用户在推特和国内社媒上发布的使用案例,从执行过程来看,完全比肩DeepSearch,每个流程的执行代码、产出文件都完全可见,分门别类整理好等待用户检阅。就特斯拉和英伟达的财报分析和估值结果来看,不逊色于雪球各种大V。

笔者觉得其中最为惊艳之处是,Manus通过自己搭建的虚拟电脑来执行数据获取、计算、开发环境搭建和测试等一系列硬核环节,这几乎将用户从复杂的基础工作中解放出来,一个新人完全可以零帧起手进入工作。

02背后的团队

Manus引发如此大的声量,除了其超高质量的产出,作为土生土长的国内团队作品也是引燃社媒声量的一个引线。AI领域,国内团队的步伐和美国集结了全球人才的梦之队相比,似乎并没有落后。

我们了解到,Manus是国内AI创业团队Monica AI的另一产品。Monica AI是一款AI chatbot产品,不同于国外处于原生状态的chatbot,Monica AI 并非仅仅提供一个模型使用入口,而是通过提供大量垂直向可以直接使用的API接口,用户不需要担心prompt调优,上手即可使用。

创始人肖宏在这样一款模式简单的chatbot产品上,已经意识到了大模型和用户之间交互方式的局限性。即,模型是优秀的和具备一定“超能力”,可以在一系列调教下,完成一个复杂的项目。

但由于chatbot直接将用户和大模型对接上,使得要完成某个任务的用户,只能分批次将任务通过1v1对话让模型分步骤产出。甚至,用户可能都无法确认输入给模型的token是否是这个任务最优的方案。

Manus让人们继续在对话框中,一步到位解决更复杂需要更高智能的任务了。站在这个角度考虑,Manus似乎更像是一个多个经过规划后的AI 任务集合。

团队刻意忽略显示大模型神奇之处,转而站在用户角度,思考如何通过发挥模型的优势来完成日常任务。这是务实又珍贵的探索。

Manus的故事。让人们看到了连续创业者对用户需求的精准把握能力和团队的超强执行力。至于AI所需要的团队技术实力如何,我们稍后再讲。

03产品的亮点

通过接近Manus团队的自媒体《赛博禅心》的文章透露,单条任务的成本在2美金左右是Deep Search的1/10。基于Claude 3.7 Sonet和国内的Qwen模型基础上,增加了自己的训练过程,这点是毋庸置疑的,创始人在播客访谈中透露,即使在做Monica的时候,他们也并不是仅仅作为prompt中转站,直接将用户的需求扔给模型,而是增加了产品调优过程的。

就像一个天赋异禀骨骼清奇的练武奇才,需要经过后天的努力才能成为笑傲江湖。

Manus任务自主规划、思考和完成能力来自其混合模型的架构。基于claude 和Qwen,并非任务的某一个环节基于claude,另一个环节基于Qwen,manus打破了模型的“结界”,让每个模型完成自己擅长的任务环节。

多个大模型混合+manus虚拟云端执行环境,实现了让用户只需要一次性敲键盘就可以完成往常chatbot多轮对话都未必能完成的复杂需求。

关于Mmanus执行过程的猜测:

《赛博禅心》在其文章中提到的“工程驱动创新”一词,猜测Manus的任务执行过程中,运用了大量工程手段加模型能力来完成任务。结合多个社媒的案例分享,我们对manus的运行机制做了简单猜测。

通过大模型(这一步猜测是Qwen)对于输入进行分析后,首先确定任务类型,manus内部对于输入应该有一个类目划分,如编程任务、多模态内容生成、任务规划类、建议咨询类等等。其次,如输入语言是英文,猜测可能任务执行也以Claude为主。

具体到任务执行层面,猜测过程如下:

1.接收到一个输入后,大模型会首先进行任务分类,决定后续任务执行的模型选择;

2.之后大模型将输入拆解成多个带有层级关系、优先级和执行顺序的子任务;

3.按序执行以后,上级任务的输出,成为下个任务的输入;

4.多个任务产出合并成一个最终分析结果。

对于每个子节点选择什么模型来执行,我们猜测,如果是编程任务后面执行以Claude为主,如果是中文决策建议类就以Qwen为主;根据子节点的任务复杂度,执行过程中单一任务甚至可能是Qwen和Claude混合,然后再用模型进行效果对比,最终选择保留效果最佳的一个。

从上述的分析可见,初始需求的输入质量决定了后续的任务类型判断,以及子节点规划和执行效率,所以manus对于输入的质量要求很高,通常需要用户详细和完整的描述需求内容(越详细越好)。

这可能会成为Manus被诟病的一点,毕竟一个输入的执行是漫长的,如果仅仅因为描述不够清晰详细而导致时间和算力的浪费,会严重影响产品体验,属于产品的不成熟,相信未来团队会改善这一点,毕竟一次任务执行就要花费一杯奶茶钱呢。

04当前的问题

从2022年到2025年,经历了三年多的大模型风口一轮轮的认知冲击。人们对于大模型产品的使用体验,已经基本走过了“AHA Moment”决定产品去留的阶段。一个大模型产品,在效果惊人的基础上,还必须要稳定、要快,才能长久抓住用户。

效果稳定性

回头看manus,鉴于我们的Manus账号尚在wishlist,从推特和国内社媒的使用者反馈来看,略不同于DeepSeek的众人交口称赞,用户对Mansu的产出稳定性很不乐观,甚至有不少弄错事实,让人啼笑皆非的环节。

如果执行中一个任务的数据或者事实用错了,就会导致最终产出变得不可信,从而浪费这2美元的成本。

算力

除了效果不稳定,单任务执行时间过长也是被诟病了另一个点,尽管Manus已经展示出了其任务执行逻辑和过程,但留给用户的仍然有漫长的等待,一个用户发推说,自己的任务执行了4-5个小时。

这背后是团队对使用量的低谷,以及Manus本身架构无法产生的大量算力需求。除以意外,用户已经被各大模型养刁了口味,习惯了分分钟出结果的体验,对于长达数小时的等待自然无法容忍。

其实,Manus如果能给用户一个可预见的完成时间,也许可以减少等待的焦虑。毕竟对于一个复杂的分析任务,即使执行时间长达2-3个小时甚至半天的时间,恐怕也比现实中初级员工要快的多。

技术能力

如果说,算力可以通过加卡来完成,那么团队技术能力可能短时间很难补齐。且不去对比DeepSeek那样的梦之队,Manus的技术储备可能更适合做一款日活百万级左右的用户端产品。
连续创业者出身的团队可能优势更在于需求发现,并在短时间内手搓出一个可以上线使用的产品,但用户量大了怎么办?需要技术升级是怎么办,这些都是需要长时间解决的问题。当前Mansu的用户吐槽套壳和运行速度太慢,任务卡顿就是这个问题的外在体现(团队的道歉信中我们也看到他们没想到这款产品这么出圈)。

Manus有了一个优秀的起步基础,有善于发现和抓住用户需求的创始团队来把我研发方向,但还需要更多AI人才来让manus成长的更快更稳定。毕竟目前的产品现状,内行人使用几次之后就能大概了解产品架构,被大厂拷贝一个出来是没什么难度的。

05 Manus初步证明AI Agent的另一条路

市面上的Agent产品有2个方向,通用型和垂直应用型。前者中知名度最高的2个产品,是来自2个大模型厂商OpenAI的"Operator"和Anthropic 推出的 “Computer Use”。这个方向可以说是通用型Agent的代表。

Anthropic的Agent软件是通过一个特殊的API,开发者可以知道Claude 模型来完成各种计算机基本的输入、打开文件等基本操作任务;OpenAI则是在此技术上扩大硬件调用范围允许通过API接口,在个人电脑上完成编程、预定旅行和购物等操作。国内智谱的AutoGLM在运行模式上类似OpenAI的"Operator"。

垂直Agent,典型代表为cursor和devin。这两款agent产品在程序员中口碑很好,但遗憾的是应用领域窄很难推开来。
Manus创始人肖宏在一则访谈中也表达了垂直和通用相比,显然后者更具有普世价值,但前者更快走入了应用。从实际情况看,我们周围不少程序员朋友在用cursor编写基础代码了。

Manus定位为一款通用型AI agent。通过工程手段实现Agent架构创新,将复杂的工作流程封装在一个云环境上,融合多个大模型,通过任务规划来自动完成子节点需求处理,产出的是一个往常需要经过多轮人机对话才能完成的复杂任务。

Manus达到了在部分任务上超越OpenAI DeepSearch的效果,代表了Agent的另一条可以选择的路。

通用型agent产品,不可能依靠单一大模型实现,并且天然就是第三方开发者的使命。

毕竟OpenAI和Anthropic的agent,几乎不太可能通过竞对的模型来实现,这就决定了他们的产品研发进度和工程手段无法和第三方相比。

同时Manus的应用范围相比通用型产品更加落地,相比垂直型有更广阔的应用领域。通用型agent所宣传的帮助用户购票、规划形成以及电商购物的一系列操作,用户自己操作也毫无门槛。但完成一个特斯拉财报分析报告,就需要很高的门槛了。通常有门槛的产品,其商业价值就更高。

互联网界一直将AI Agent和通用型AGI锁定起来,但Manus的出现告诉人们,即使尚未达到AGI,但 who cares,对普通用户来说能完成任务的同志才是好同志。

06三重启示

一,有了AI助力,更需要独立决策能力

即使今天和不远的明天Manus仍不能变成广泛使用的agent产品,我们也能从不断涌现的类似产品中明白看到一个核心问题,即独立思考和创新能力未来会是一个人的核心能力。

AI的确能帮人们做很多事,帮你分析实验结果、做实验报告,帮你完成案头材料撰写等等,但AI不会帮你做实验,AI不会帮你想一个分析该从哪个点切入才能让结果看起来更有亮点。
我们毫不怀疑在AI的介入下,人和人的差距会越来越大。

二、第一手消息更换了来源

上个互联网风口2010年前后,扮演搅动风云角色的是各大科技媒体,除了四大传统互联网门户网站外,垂直领域科技媒体也起了举足轻重的作用。AI风口前,创业企业新的动向往往来自自媒体、而后经过社媒发酵,再被全民皆知。

“古典”时代,只要和记者保持沟通就不会错过重要行业动态,但来到AI时代,投资人经常陷于被动,对突然冒出来的科技新秀一无所知。
不少风投机构通过设立孵化器来自己培养创业企业,但概率不理想,也很少有爆品产生。如何在一个社媒发酵模式下,抓住潜在甚至冒尖的机会,是机构面临的新课题。

三、大厂怎么办

DeepSeek一枝独秀的模型效果加开源杀手锏,将字节、腾讯、百度等大厂从技术潮头绌落。Manus又迈出了通用型agent走进现实的第一步,又领先了大厂。这里我们都不敢将Manus的研发成本和大厂成本作对比,恐怕届时将是对大厂的羞辱。
Agent,跟还是不跟?

参考资料

张小珺Jùn|商业访谈录:
https://www.xiaoyuzhoufm.com/episode/67c3d80fb0167b8db9e3ec0fhttps://pan.baidu.com/s/1KkGRdYdkf84vJygkFk2J5Q?pwd=n15q#list/path=%2F

赛博禅心:
实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)https://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247498251&idx=1&sn=f3a81f0f2a0f54c89ed51b2951b07da2&scene=142

赛博禅心:
关于 Manus 的一些独家信息
https://mp.weixin.qq.com/s/oecpFKV0iog4mK5MNBvTfw
manus使用分享
https://manus.im/share/hRGARE7EBqtDhLHBGISLP7?replay=1

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅