尊敬的諸位!我是一名物聯網工程師。關註我,持續分享最新物聯網與AI資訊和開發實戰。期望與您攜手探尋物聯網與 AI 的無盡可能。
"前幾天google釋出了長達42頁的AI Agent的白皮書,目前矽谷大廠對 Agent 那個方向是真挺看好的。像 OpenAI、Google、微軟、Anthropic 那些大廠都在all in。我匯總了這幾家公司的最近公開資料整理成了這篇文章,最後會附上連結,文章較長 歡迎收藏觀看。"
在過去的一年裏,大型語言模型(LLM)的發展令人目不暇接。但隨著技術的演進,我們發現單純的文本生成已經無法滿足更復雜的現實需求。在這個背景下,一個新的技術方向正在嶄露頭角 - AI Agent (人工智慧體)。不同於傳統的LLM,Agent具備感知環境、規劃決策、執行動作並與現實世界互動的能力,為解決復雜問題提供了新的可能。
本文將深入剖析AI Agent的發展現狀,對比分析各大科技公司的技術路線,並基於最新的研究成果,展望這項技術的未來發展方向。
LLM (大語言模型):AI時代的"大腦"
什麽是LLM?
LLM (Large Language Model,大語言模型) 是一種經過海量文本訓練的人工智慧系統。打個比方,如果把它類比成人類的話:
LLM能做什麽?
想象LLM是一個博學多才的助手,它可以:
- 語言理解與生成
- 知識問答
- 寫作助手
- 程式碼編寫
LLM的特點
- 優勢
- 局限性
LLM的套用場景
- 教育領域
- 商業套用
- 創意工作
- 專業輔助
從LLM到Agent:範式的轉變
傳統的LLM專註於理解和生成文本,其核心能力在於透過海量訓練數據掌握語言規律。然而,當我們需要處理現實世界的復雜任務時,僅僅依靠文本生成是遠遠不夠的。這促使了AI Agent概念的誕生。
Agent的本質
AI Agent本質上是一個具備自主性的智慧系統,它能夠:
這種能力讓Agent突破了傳統LLM的局限,使其能夠處理更貼近現實的問題。
科技巨頭的Agent之爭
Anthropic的願景
https://www.anthropic.com/research/building-effective-agents
Anthropic對Agent的理解更具哲學深度。他們認為Agent系統最關鍵的突破在於打破了預設工作流的桎梏。在Anthropic看來,真正的Agent應該能夠:
「Agent」 有多種定義。一些客戶將Agent定義為完全自主的系統,它們可以在較長時間內獨立執行,使用各種工具來完成復雜的任務。其他人則使用該術語來描述遵循預定義工作流程的更具規範性的實作。在 Anthropic,我們將所有這些變體歸類為代理系統,但在工作流程和代理之間劃出了一個重要的架構區別:
工作流是透過預定義的程式碼路徑協調 LLM 和工具的系統。
另一方面,Agent是 LLM 動態指導其自身流程和工具使用情況的系統,從而保持對其完成任務的方式的控制。
下面,我們將詳細探討這兩種型別的代理系統。在附錄 1(「代理實踐」)中,我們描述了客戶發現使用這類系統特別有價值的兩個領域。
何時(以及何時不使用)使用Agent
使用 LLM 構建應用程式時,我們建議找到盡可能簡單的解決方案,並且只在需要時增加復雜性。這可能意味著根本不要構建Agent系統。Agent系統通常會犧牲延遲和成本來換取更好的任務效能,您應該考慮這種權衡何時是合理的。
當需要更多復雜性時,工作流可以為明確定義的任務提供可預測性和一致性,而當需要大規模靈活性和模型驅動的決策時,Agent是更好的選擇。然而,對於許多應用程式來說,使用檢索和上下文範例最佳化單個 LLM 呼叫通常就足夠了。
![](https://img.jasve.com/2025-1/3c100ae72a09134d83d8d379950477a3.webp)
huggingface
https://huggingface.co/blog/smolagents
什麽是AI Agent?
任何使用人工智慧的有效系統都需要為LLM大模型提供某種形式的現實世界存取許可權:例如,呼叫搜尋工具獲取外部資訊,或執行某些程式以解決任務的可能性。換句話說,LLM大模型應該具有 Agent。代理程式是LLM大模型通往外部世界的門戶。
AI 代理是 LLM 輸出控制工作流程的程式 。
任何利用 LLM 的系統都會將 LLM 輸出整合到程式碼中。LLM 的輸入對程式碼工作流程的影響是系統中 LLM 的代理級別。
請註意,根據此定義,「 Agent」不是一個離散的、0 或 1 的定義:相反,「 Agent」會在連續的範圍內發展,因為您在工作流程中為 LLM 賦予或多或少的權力。
下表說明了代理在不同系統之間的差異:
機構級別 |
描述 |
怎麽稱呼 |
範例模式 |
☆☆☆ |
LLM 輸出對程式流程沒有影響 |
簡單處理器 |
process_llm_output(llm_response) |
★☆☆ |
LLM 輸出決定基本控制流 |
路由器 |
if llm_decision(): path_a() else: path_b() |
★★☆ |
LLM 輸出決定函式執行 |
工具呼叫 |
run_function(llm_chosen_tool, llm_chosen_args) |
★★★ |
LLM 輸出控制叠代和程式延續 |
多步代理 |
while llm_should_continue(): execute_next_step() |
★★★ |
一個代理工作流可以啟動另一個代 |
何時使用Agent / ⛔ 何時避免使用Agent
當你需要 LLM 來確定應用程式的工作流程時, Agent很有用。但它們往往是多余的。問題是:我真的需要工作流程中的靈活性來有效地解決手頭的任務嗎?如果預先確定的工作流程經常失敗,這意味著你需要更多的靈活性。讓我們舉個例子:假設你正在制作一個處理沖浪旅行網站上客戶請求的應用程式。
您可以提前知道請求將屬於兩個儲存桶中的任一個(基於使用者選擇),並且您為這兩個情況中的每一個都有一個預定義的工作流程。
- 想要了解一些旅行知識?⇒ 讓他們存取搜尋欄來搜尋你的知識庫
- 想與銷售人員談談?⇒ 讓他們輸入聯系表格。
如果確定性工作流程適合所有查詢,那麽就一定要編寫所有內容!這將為您提供一個 100% 可靠的系統,並且不會因讓不可預測的 LLM 幹擾您的工作流程而引入錯誤的風險。為了簡單和穩健,建議規範化為不使用任何 Agent行為。
但如果無法提前確定工作流程該怎麽辦?
例如,使用者想要問: "I can come on Monday, but I forgot my passport so risk being delayed to Wednesday, is it possible to take me and my stuff to surf on Tuesday morning, with a cancellation insurance?" 這個問題取決於許多因素,並且上述預定的標準可能都不能滿足這個請求。
如果預先確定的工作流程經常出現不足,則意味著您需要更大的靈活性。
這正是 Agent能提供幫助的地方。
![](https://img.jasve.com/2025-1/59e9b7319a994e32df0e7c03000ecc46.webp)
開源模型與商用模型差距
微軟的多Agent協作體系
https://techcommunity.microsoft.com/blog/educatordeveloperblog/using-azure-ai-agent-service-with-autogen--semantic-kernel-to-build-a-multi-agen/4363121
微軟透過Semantic Kernel和AutoGen框架,提出了一個更宏大的願景:打造協同工作的Agent生態系。在這個體系中:
![](https://img.jasve.com/2025-1/37dfbdf9f90648a7974d29490326ed5f.webp)
Google的全新思考
https://media.licdn.com/dms/document/media/v2/D561FAQH8tt1cvunj0w/feedshare-document-pdf-analyzed/B56ZQq.TtsG8AY-/0/1735887787265?e=1736985600&v=beta&t=pLuArcKyUcxE9B1Her1QWfMHF_UxZL9Q-Y0JTDuSn38
在最新釋出的白皮書中,Google為Agent技術提供了新的視角。他們強調:
- 超越模型的智慧體 Agent不應該被簡單理解為更強大的模型,而是要具備:
![](https://img.jasve.com/2025-1/30ab6bea9406e35dc31ed5388b56426d.webp)
- 認知架構的重要性 Google特別強調了認知架構在Agent中的核心地位:
![](https://img.jasve.com/2025-1/b5baed9e1188304e45a983c6d70064e9.webp)
- 工具生態的構建 為了擴充套件Agent的能力邊界,Google提供了完整的工具支持:
![](https://img.jasve.com/2025-1/9fef57a76012b96dff497776e3897b2c.webp)
![](https://img.jasve.com/2025-1/465854d520d0b86cfddb48cae57e0247.webp)
![](https://img.jasve.com/2025-1/8e08060c90c8011a09067bf69c459692.webp)
技術融合與創新
當前的Agent技術呈現出多元融合的特點:
- 檢索增強生成(RAG) 透過結合外部知識庫,顯著提升了Agent的可靠性:
- 工具呼叫標準化 各家公司在工具呼叫方面逐漸形成共識:
- 多Agent協作模式 探索Agent之間的協作方式:
![](https://img.jasve.com/2025-1/550c284375899889098208f1ff1ce50b.webp)
未來展望:AI Agent的新機遇
隨著技術的不斷發展,AI Agent還面臨著幾個激動人心的發展方向。讓我們用具體的例子來展望這個充滿可能的未來:
1. 工具發現與自動設計
簡單來說,就是讓AI能夠自己找到並創造解決問題的工具,就像一個能夠自己收集和制造工具的能工巧匠。
具體表現:
2. Agent集群管理
這就像管理一個高效的團隊,每個成員都有自己的專長,需要協調他們一起完成復雜的任務。
具體表現:
3. 與現實世界的深度融合
這意味著AI不再局限於數位世界,而是能夠真正理解和影響物理世界,就像給機器人裝上了"大腦"。
具體表現:
這些發展方向不僅僅是技術創新,更代表著AI與人類社會深度融合的新階段。想象一下,未來的AI不再是單純的工具,而是能夠理解、學習、協作的"數位夥伴",幫助我們更好地解決各種復雜問題。
結語
AI Agent代表了人工智慧發展的新範式。雖然各家公司的技術路線有所不同,但都在為同一個目標努力:打造能夠真正理解和解決現實問題的智慧系統。隨著技術的不斷成熟,我們有理由期待Agent在未來將帶來更多令人驚喜的突破。
據我所知頭條上已經有一些開發者正在朝著這個思路搭建自己的agent工具庫和agent集群管理平台了,不得不佩服開發者的前瞻性和充沛的精力。