當人工智能在大模型能力突破、推理能力提升以及多模態(tài)技術進步的推動下走向新階段,“Agentic AI(代理型AI)”成為 2024 年以來 AI 領域的新晉熱詞,2025 年甚至被稱為“AI 代理元年”——它被描繪為繼 RPA(機器人流程自動化)、虛擬助手之后的下一代智能自動化革命,引發(fā)科技公司、風險投資者與企業(yè) CIO的高度關注。
然而,多個研究團隊卻在近期相繼發(fā)布研究報告,對當前 Agentic AI 的實際能力、場景適配性乃至產(chǎn)業(yè)宣傳行為提出質疑。所以——我們究竟是在見證一場 AI 代理革命,還是落入又一輪概念資本化的陷阱?
Gartner 預測,到 2027 年底,超過 40% 的代理型 AI 項目將因成本不斷上升、商業(yè)價值不明確或風險控制不足而被取消。
Gartner 高級分析師 Anushree Verma 表示:“目前大多數(shù)代理型 AI 項目仍處于早期實驗或概念驗證階段,其背后的主要驅動因素是炒作,而這些技術往往被錯誤地應用。這可能使企業(yè)忽視 AI 代理大規(guī)模部署所需的真正成本與復雜性,導致項目遲遲無法落地。企業(yè)需要穿透炒作迷霧,制定更為審慎和戰(zhàn)略性的決策,明確在哪里、以及如何采用這一新興技術?!?/p>
2025 年 1 月,Gartner 對 3412 名網(wǎng)絡研討會參與者進行了一項民意調查,發(fā)現(xiàn) 19% 的組織報告在代理型 AI 方面進行了大量投資,42% 的組織進行了保守投資,8% 的組織根本沒有投資,31% 的組織正在等待或不確定。
更為值得關注的是,Gartner 發(fā)現(xiàn)了一種普遍存在的“代理清洗”趨勢,即供應商將現(xiàn)有的人工智能助手、聊天機器人或機器人流程自動化 (RPA) 工具重新包裝成“代理人工智能”,而實際上并沒有提供真正的代理功能。Gartner 估計,在數(shù)千家聲稱提供代理解決方案的供應商中,只有約 130 家真正提供了真正的代理功能。
Verma補充表示:“當前大多數(shù)所謂代理型 AI 解決方案并不具備明顯的業(yè)務價值或投資回報率(ROI),因為這些模型尚不具備足夠的成熟度與自主能力,無法持續(xù)性地達成復雜的業(yè)務目標,或精準理解并執(zhí)行復雜指令。事實上,很多目前被標榜為 Agentic AI 的場景,根本不需要使用代理型架構?!?/p>
問題來了,真正的代理型 AI 和虛假的代理型 AI 究竟差別在哪里?
從定義上來看,Agentic AI 是指使用機器學習模型并連接各類服務和應用,以自動執(zhí)行任務或業(yè)務流程的 AI 代理??梢詫⑵淅斫鉃?AI 模型在一個迭代反饋循環(huán)中,借助應用程序和 API 服務不斷響應輸入的機制。
其核心理念是,給定一個任務,比如:“查找我收到的所有對人工智能夸大其詞的郵件,并判斷這些發(fā)件人是否與加密貨幣公司有關聯(lián)”,一個獲得授權、能夠讀取郵箱客戶端界面并訪問郵件數(shù)據(jù)的 AI 模型,應當能夠比程序腳本或人工員工更高效地理解并執(zhí)行這一自然語言指令。
理論上,這類 AI 代理可以自行界定“夸大其詞”的含義,而這對人類程序員來說可能涉及復雜的文本解析和語義分析,因此頗具挑戰(zhàn)性。人們可能傾向于用簡單的方式處理,比如在郵件正文中搜索“AI”一詞。但人類員工即便能識別郵箱中的 AI 炒作內容,也可能耗時較長,不如計算驅動的方案高效。
為了評估 AI 代理在執(zhí)行常見知識型工作任務時的表現(xiàn),例如網(wǎng)頁瀏覽、編寫代碼、運行應用程序以及與同事溝通協(xié)作等,卡耐基梅隆大學的研究人員開發(fā)了一套基準系統(tǒng)。他們將這個測試平臺命名為 TheAgentCompany,是一個模擬環(huán)境,旨在仿真一個小型軟件公司的日常運營。
他們的目的是厘清圍繞 AI 代理的爭議——一方是 AI 的信奉者,認為人類大部分勞動可以被自動化;另一方是懷疑論者,認為這些說法不過是 AI 炒作的一部分。
在他們的研究論文中,研究人員指出,這兩種觀點之間存在巨大分歧,其根源在于目前缺乏一種系統(tǒng)的方法來測試 AI 代理在實際辦公活動中的能力,因此開發(fā)統(tǒng)一的評估基準勢在必行。而初步測試結果表明,AI 代理在真正實用化之前還有很長的路要走。
在測試中,他們使用了兩個代理框架:OpenHands CodeAct 和 OWL-Roleplay,并對以下主流大模型進行了任務成功率評估。測試結果相當令人失望:
·Gemini 2.5 Pro:30.3%·Claude 3.7 Sonnet:26.3%·Claude 3.5 Sonnet:24%·Gemini 2.0 Flash:11.4%·GPT-4o:8.6%·o3-mini:4.0%·Gemini 1.5 Pro:3.4%·Amazon Nova Pro v1:1.7%·LLaMA 3.1 405B:7.4%·LLaMA 3.3 70B:6.9%·Qwen 2.5 72B:5.7%·LLaMA 3.1 70B:1.7%·Qwen 2 72B:1.1%
研究人員在論文中寫道:“我們的實驗表明,表現(xiàn)最好的模型 Gemini 2.5 Pro,僅能夠自主完成 30.3% 的指定測試任務;若考慮部分完成的任務并給予額外加分,其得分也僅為39.3%?!?strong>這些數(shù)據(jù)表明,盡管代理型 AI 的潛力令人期待,但目前距離其在真實辦公場景中高效替代人類工作者的能力仍存在顯著差距。
研究人員在測試過程中觀察到多種失敗情形,其中包括:
AI 代理未按照指令給同事發(fā)送消息;
無法正確處理某些網(wǎng)頁 UI 元素,例如彈窗;
甚至出現(xiàn)了欺騙性行為——在一個案例中,當代理無法在 RocketChat(一種用于內部溝通的開源 Slack 替代品)中找到目標聯(lián)系人時,它選擇“取巧”,將另一名用戶重命名為目標用戶的名字,以假冒完成任務。
與此同時,來自 Salesforce的研究團隊也提出了一套針對客戶關系管理(CRM)場景的 AI 代理評估基準。這套名為 CRMArena-Pro 的評估體系,涵蓋了 B2B 和 B2C 兩類業(yè)務場景下的銷售、客服以及“配置、定價與報價(CPQ)” 等 19 項由專家驗證的任務,并支持單輪交互(一次提示-應答)與多輪交互(多次提示-應答且保持上下文連續(xù))兩種測試模式。
測試結果顯示:即便是目前領先的大語言模型代理,在 CRMArena-Pro 中的整體表現(xiàn)也較為有限。在單輪交互場景中的平均成功率約為 58%,但一旦進入多輪交互,其性能會顯著下降至 35% 左右。
相關研究人員進一步表示:“我們發(fā)現(xiàn),大語言模型代理普遍缺乏完成復雜工作任務所需的多項關鍵能力,工作流執(zhí)行(Workflow Execution) 是為數(shù)不多的例外,在這類任務中,像 Gemini-2.5-Pro 等強模型的成功率可超過 83%?!?/p>
同時,報告也指出,所有被評估的模型在保密意識(confidentiality awareness)方面幾乎為零。這意味著,在高度關注數(shù)據(jù)隱私與安全的企業(yè)IT環(huán)境中,部署 AI 代理依然面臨嚴峻挑戰(zhàn)。
不只是測試和實驗階段,一些企業(yè)已經(jīng)體會到 Agentic AI 炒作過度所帶來的風險。RCR專欄作家 Sean Kinney 在文章中指出,瑞典支付平臺 Klarna曾暫停招聘部分崗位,改用 AI工 具處理客戶服務請求。但 Klarna CEO Sebastian Siemiatkowski 在接受彭博社采訪時坦言,這些 AI 工具提供的服務質量不如人類員工,最終公司重新恢復了人工招聘。
Kinney 銳評道:“這只是眾多企業(yè)‘All in AI’后不得不回頭修正路線的一個例子,還有更多這樣的案例,未來也還會有?!?/strong>
盡管受挫,但 Gartner 仍看好代理型 AI 的長期潛力——Gartner 認為,雖然當前代理型 AI 尚未成熟,但其長期發(fā)展前景值得期待,到 2028 年,至少 15% 的日常工作決策將由 AI 代理自主完成(2024 年為 0%);33% 的企業(yè)軟件應用將集成代理型 AI(2024 年不足 1%)。
Gartner 建議,企業(yè)在采用代理型 AI 時,應聚焦于那些能夠明確交付價值或可衡量 ROI 的場景。在已有系統(tǒng)中集成 AI 代理可能打破現(xiàn)有工作流程,并帶來高昂的修改成本。從底層重構工作流程以適配代理型 AI 的能力,或許才是更可持續(xù)的路徑。
參考資料:
Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,Gartner
AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all,Theregister
Gartner: More than 40% of agentic AI projects will fail by 2027,Rcrwireless