對(duì)話OpenManus團(tuán)隊(duì):他們是如何3小時(shí)復(fù)刻Manus的
就在前天,對(duì)話隊(duì)們Manus 在國(guó)內(nèi)媒體間爆火,時(shí)復(fù)其號(hào)稱 “ 全球首個(gè)通用 AI 智能體 ”。對(duì)話隊(duì)們
官方也曬出了幾十個(gè)Demo,時(shí)復(fù)供大家玩賞。對(duì)話隊(duì)們
網(wǎng)友們驚艷于其效果后當(dāng)然躍躍欲試,時(shí)復(fù)卻發(fā)現(xiàn)試用需要邀請(qǐng)碼。對(duì)話隊(duì)們我們問(wèn)了一圈 AI 專家,時(shí)復(fù)都說(shuō)沒(méi)用過(guò),對(duì)話隊(duì)們也沒(méi)聽(tīng)自己哪個(gè)同行用過(guò),時(shí)復(fù)“ 目前都是對(duì)話隊(duì)們媒體在用吧?”
到這里就需要謹(jǐn)慎了,沒(méi)有較大規(guī)模公開(kāi)測(cè)試、時(shí)復(fù)沒(méi)有專家實(shí)名自發(fā)背書過(guò)的對(duì)話隊(duì)們技術(shù)或產(chǎn)品( ChatGPT、NotebookLM、時(shí)復(fù)DeepSeek 等都是對(duì)話隊(duì)們有的 ),實(shí)力終歸是存疑的。
從產(chǎn)品體驗(yàn)來(lái)看,Manus 雖然效果驚艷,但是很多人其實(shí)不買賬,因?yàn)閷?PPT、寫 HTML、Python 數(shù)據(jù)分析、生成 Excel、搜索等功能目前各個(gè)通用模型都能做。即便 Manus 說(shuō)自己比 OpenAI 的 DeepResearch 更厲害,但這和 Cursor 說(shuō)自己比 Claude 更厲害有什么區(qū)別??jī)烧叩目杀刃允窍鄬?duì)錯(cuò)位的。
功能上,Manus 是整合了 Computer use、虛擬機(jī)、Multi agent 協(xié)同的套殼產(chǎn)品。技術(shù)實(shí)現(xiàn)上是基于 Claude 模型生成能力、開(kāi)源模型后訓(xùn)練增強(qiáng)的規(guī)劃能力,再結(jié)合各種預(yù)制的 Agent,按照設(shè)定好的工作流構(gòu)建 todo 清單、新建虛擬機(jī)環(huán)境、調(diào)用工具、結(jié)果整合、自我檢查、輸出結(jié)果,來(lái)解決任務(wù)。
所以,Manus 技術(shù)上有其復(fù)雜性,但沒(méi)有太多創(chuàng)新,當(dāng)然,其功能多樣性導(dǎo)致工程量極大,業(yè)內(nèi)專家認(rèn)為很有可能是基于 MCP 協(xié)議的聚合模式。
過(guò)去 Agent 更多是在專業(yè)領(lǐng)域做深耕,而 Manus 通過(guò)工程上極致整合、酷炫低門檻的 UI 交互套殼產(chǎn)品想讓 Agent 直接出圈了。
總有人說(shuō),套殼到極致就是勝利,就是價(jià)值,確實(shí),至少?gòu)?Manus 的演示視頻來(lái)看,是這樣。
既然有價(jià)值,那么很快就會(huì)有人跟上,這不,為了實(shí)現(xiàn) Manus 的價(jià)值,MetaGPT 團(tuán)隊(duì)花費(fèi)了 3 小時(shí)開(kāi)發(fā)了 OpenManus 并開(kāi)源,無(wú)需邀請(qǐng)碼就能使用。
項(xiàng)目地址https://github.com/mannaandpoem/OpenManus<;/p>
在項(xiàng)目的演示視頻中,輸入提示詞“對(duì) Karpathy 的網(wǎng)站( https://karpathy.ai/ )進(jìn)行全面的 SEO 審核,并提供詳細(xì)的優(yōu)化報(bào)告,包括可操作的改進(jìn)建議。”
接下來(lái),OpenManus 會(huì)展開(kāi)思考,拆分執(zhí)行步驟
檢查網(wǎng)站,收集基本信息;
分析關(guān)鍵SEO要素;
檢查 SEO 技術(shù)方面的問(wèn)題;
整理優(yōu)化建議;
接下來(lái)就是一步一步地執(zhí)行任務(wù)了。
可以看到,演示視頻展示的結(jié)果遠(yuǎn)不如 Manus 那么細(xì)致和豐富,OpenManus 目前功能還很初級(jí),但團(tuán)隊(duì)還公開(kāi)了后續(xù)的開(kāi)發(fā)路線,照這個(gè)路線,基本上全面復(fù)刻 Manus 不是問(wèn)題
更優(yōu)的規(guī)劃系統(tǒng)
實(shí)時(shí)演示功能
運(yùn)行回放
強(qiáng)化學(xué)習(xí)微調(diào)模型
全面的性能基準(zhǔn)測(cè)試
OpenManus 是怎么來(lái)的?
兩個(gè)月前的一次邊吃飯邊頭腦風(fēng)暴的過(guò)程中,我們想到,一個(gè)極簡(jiǎn)的 Agent 框架,應(yīng)該是可插拔的 Tools 和 System Prompt 的組合,之后我們沿著這個(gè)思路,寫了一個(gè)完整的 Agent 迷你框架。
前天晚上看到 Manus 時(shí),凌晨就和同事商量,下班后的晚上就可以搞一個(gè),應(yīng)該 3 小時(shí)夠了。
為什么要采用可插拔的 Tools 和 System Prompt?
決定一個(gè) ReAct Agent( Reasoning and Action Agent,一種結(jié)合了反應(yīng)和行動(dòng)規(guī)劃能力的智能體 )的效果的關(guān)鍵是 Prompt( 提示信息 )和 Action( 行動(dòng) ),Prompt 控制了 Agent 整體的行為邏輯,Tools 給定了 Agent 的行動(dòng)空間,二者被定義就能完整詮釋一個(gè) ReAct Agent。
可插拔的優(yōu)點(diǎn)是可組合,我可以把幾個(gè)不同場(chǎng)景下的 Tools 組合到一起來(lái)創(chuàng)造一個(gè)新的 Agent,定義也很方便,不需要單獨(dú)寫內(nèi)部邏輯,只需要修改動(dòng)作空間( Tools )。Tools 本身就該是可組合的,我們的工作是把抽象做得更干凈,目前 HuggingFace 的 Smolagents 也是類似的思路了。
Manus 效果上讓大家覺(jué)得很新奇,實(shí)際上主要是由于 Browser Use 和 Computer Use 的使用,所以只要給了 Agent 這兩個(gè)工具,那它就都能做到。
OpenManus 在實(shí)現(xiàn)中,有哪些關(guān)鍵技術(shù)挑戰(zhàn)?
在 OpenManus 的實(shí)現(xiàn)中,前端界面的實(shí)現(xiàn)很關(guān)鍵。Manus 很出彩的地方是產(chǎn)品展示很漂亮,我當(dāng)時(shí)打算用 Streamlit 寫前端,方便做類似的展示,但 Streamlit 的底層和 Browser Use 沖突,后來(lái)就換了 Gradio,但信息展示有一些問(wèn)題,當(dāng)時(shí)沒(méi)辦法做到實(shí)時(shí)更新,最后還是改成了 log,直接在命令行里做展示。
如何有效復(fù)現(xiàn)和優(yōu)化 PlanningTool 的使用也是非常重要的一環(huán),這樣才能充分發(fā)揮 Agent 的規(guī)劃和工具調(diào)用能力,探索其能力上限。
Manus 的用例展示了 Agent 在線性任務(wù)規(guī)劃中的強(qiáng)大表現(xiàn),而 OpenManus 需要解決如何設(shè)計(jì)更復(fù)雜的規(guī)劃結(jié)構(gòu)( 如使用 DAG 有向無(wú)環(huán)圖表示任務(wù)依賴關(guān)系 ),以及如何讓 Agent 動(dòng)態(tài)更新規(guī)劃以適應(yīng)變化的需求,這不僅考驗(yàn)技術(shù)實(shí)現(xiàn),還涉及算法設(shè)計(jì)和智能體的自適應(yīng)能力。
目前 OpenManus 的規(guī)劃設(shè)計(jì)與 Manus 保持一致,都是線性的,而DAG規(guī)劃對(duì)于處理現(xiàn)實(shí)世界中更復(fù)雜的任務(wù),在一定程度上會(huì)更準(zhǔn)確,Data Interpreter 就是一個(gè)很好的例子。
聽(tīng)起來(lái) OpenManus 的規(guī)劃已經(jīng)有要超越 Manus 的苗頭了,你們對(duì)這個(gè)產(chǎn)品有什么期望嗎?
OpenManus 前期目標(biāo)打算達(dá)到原始 Manus 的相同的效果,后續(xù)會(huì)不斷優(yōu)化 Computer Use、Browser Use 和 Planning Use,以及工具調(diào)用的能力,從而超越 Manus。
Manus 產(chǎn)品交互做的挺好的,有很多技術(shù)也值得學(xué)習(xí),比如對(duì)后訓(xùn)練技術(shù)的結(jié)合,流程設(shè)計(jì)上比如規(guī)劃、Multi Agent 系統(tǒng)也是很優(yōu)秀的,具體細(xì)節(jié)我們還在研究。至于 OpenManus 我們沒(méi)有單獨(dú)調(diào)效果,目前達(dá)到的效果其實(shí)很一般。后續(xù)主要靠開(kāi)源社區(qū)小伙伴來(lái)貢獻(xiàn),我們希望開(kāi)源協(xié)作能帶來(lái)更高的智能涌現(xiàn)~
好了,到這里知危編輯部與 MetaGPT 團(tuán)隊(duì)的溝通就到這里了,我們也可以期待一波 OpenManus 未來(lái)的效果。
最后,或許我們可以探討一下到底什么應(yīng)該是好的 Agent ?
Manus 有優(yōu)點(diǎn)、有亮點(diǎn),但有夸大之嫌。人們?cè)谠囉玫臅r(shí)候,還是能發(fā)現(xiàn) Manus 有不少毛病,用錯(cuò)了假數(shù)據(jù)、來(lái)源引用錯(cuò)誤、表格讀取錯(cuò)誤等等毛病一個(gè)不落,幻覺(jué)問(wèn)題還是不小。
Agent 應(yīng)用的一大通病是,自動(dòng)化執(zhí)行過(guò)程越復(fù)雜,錯(cuò)誤發(fā)現(xiàn)和查找原因就越困難,而且 Agent 的執(zhí)行需要經(jīng)過(guò)多個(gè) LLM,每個(gè) LLM 的幻覺(jué)一路累積下來(lái)的誤差將是巨大的,比如 95% 的準(zhǔn)確率,連續(xù)經(jīng)過(guò) 10 個(gè) LLM,最后準(zhǔn)確率能直接降到約 60% 。
在全面擁抱 Agent 之前,我們首先還是得多關(guān)注一下,目前市面上的通用大模型,它們的幻覺(jué)率仍然不是一般的高。
所以,想實(shí)現(xiàn)真正好用的 Agent,我們?nèi)匀灰タ舜竽P偷讓幽芰Φ奶嵘?。里子不夠好,套太多的殼也沒(méi)用。
與此同時(shí),我們還需要強(qiáng)調(diào)的一點(diǎn)是,追求 Agent 的過(guò)程中,我們一定是要回歸實(shí)用主義的不是所有問(wèn)題都需要用 Agent 來(lái)做。
Devin 前不久還被爆出出錯(cuò)率極高并且出錯(cuò)方式?jīng)]有規(guī)律可循,還不如用 Cursor 一步一步來(lái),加上之前的演示造假事件,過(guò)于激進(jìn)的 Agent 產(chǎn)品越來(lái)越受到質(zhì)疑。
與此同時(shí),Agent 的一大通病是,步驟拆解越多,token 消耗量越大,對(duì)所有任務(wù)一律無(wú)腦使用 Agent,對(duì)于企業(yè)的成本控制而言具有極大的風(fēng)險(xiǎn)。
Agent 的最關(guān)鍵的作用就是工作流編排,簡(jiǎn)單的任務(wù)其實(shí)并不需要 Agent 的參與,反而會(huì)導(dǎo)致客戶等待時(shí)間過(guò)長(zhǎng)。
Anthropic 就曾經(jīng)分享過(guò)構(gòu)建智能體的基本原則,就是 “ 簡(jiǎn)單為王,實(shí)用至上 ”,能用 API 就不要用工作流,能用工作流就不要用智能體。
這些都是手段,哪個(gè)不能交付結(jié)果呢?
Agent 終究是一個(gè)產(chǎn)品概念,不像 LLM 有無(wú)法預(yù)測(cè)的潛在價(jià)值( 比如推理能力的發(fā)現(xiàn)和增強(qiáng) )值得冒極大風(fēng)險(xiǎn)押注。
所以回過(guò)頭來(lái)看,我們應(yīng)該更多關(guān)注開(kāi)源社區(qū)的新技術(shù),比如阿里在 Manus 發(fā)布同一天剛開(kāi)源的 QWQ-32B 模型,就像前文講的那樣,在追求 Agent 的路上,我們更應(yīng)該關(guān)注模型的突破。