當前位置: 華文世界 > 科技

到底什麽是AI Agent?看看Anthropic,huggingface和google怎麽說

2025-01-11科技

尊敬的諸位!我是一名物聯網工程師。關註我,持續分享最新物聯網與AI資訊和開發實戰。期望與您攜手探尋物聯網與 AI 的無盡可能。

"前幾天google釋出了長達42頁的AI Agent的白皮書,目前矽谷大廠對 Agent 那個方向是真挺看好的。像 OpenAI、Google、微軟、Anthropic 那些大廠都在all in。我匯總了這幾家公司的最近公開資料整理成了這篇文章,最後會附上連結,文章較長 歡迎收藏觀看。"

在過去的一年裏,大型語言模型(LLM)的發展令人目不暇接。但隨著技術的演進,我們發現單純的文本生成已經無法滿足更復雜的現實需求。在這個背景下,一個新的技術方向正在嶄露頭角 - AI Agent (人工智慧體)。不同於傳統的LLM,Agent具備感知環境、規劃決策、執行動作並與現實世界互動的能力,為解決復雜問題提供了新的可能。

本文將深入剖析AI Agent的發展現狀,對比分析各大科技公司的技術路線,並基於最新的研究成果,展望這項技術的未來發展方向。

LLM (大語言模型):AI時代的"大腦"

什麽是LLM?

LLM (Large Language Model,大語言模型) 是一種經過海量文本訓練的人工智慧系統。打個比方,如果把它類比成人類的話:

  • 訓練過程就像從小到大的學習和閱讀
  • 海量文本就像是它讀過的所有書籍、文章和對話
  • 處理資訊的方式就像人類大腦對資訊的理解和反應
  • LLM能做什麽?

    想象LLM是一個博學多才的助手,它可以:

    1. 語言理解與生成
  • 就像和一個通曉多國語言的人對話
  • 案例:你可以用中文提問,讓它用英文回答,或者請它轉譯一段日語文本
    1. 知識問答
  • 就像一個隨身攜帶的百科全書
  • 案例:詢問"為什麽天空是藍色的",它能給出專業且易懂的解釋
    1. 寫作助手
  • 像一個經驗豐富的編輯
  • 案例:幫你潤色信件、撰寫報告、創作故事
    1. 程式碼編寫
  • 相當於一個編程顧問
  • 案例:幫你找出程式碼中的錯誤,或者根據描述寫出一段程式
  • LLM的特點

    1. 優勢
  • 廣泛的知識面 :就像一個讀過海量書籍的學者
  • 快速響應 :能夠立即處理各種問題,不需要翻書查閱
  • 持續對話 :能夠記住對話上下文,保持連貫的交流
    1. 局限性
  • 知識截止日期 :就像一個人只知道到某個時間點的資訊 案例:GPT-4只知道到2023年初的資訊,對更新的事件可能並不了解
  • 可能產生幻覺 :有時會"自信滿滿"地說出錯誤資訊 案例:可能會編造不存在的研究論文或歷史事件
  • 依賴訓練數據 :只能基於學習過的內容回答,不能像人類一樣創造全新的知識
  • LLM的套用場景

    1. 教育領域
  • 像一個永不疲倦的家教
  • 案例:幫助學生理解復雜概念,提供個人化的練習題
    1. 商業套用
  • 作為24/7線上的客服代表
  • 案例:回答產品問詢,處理簡單的售後問題
    1. 創意工作
  • 擔任創意助手角色
  • 案例:提供寫作靈感,協助內容創作
    1. 專業輔助
  • 作為各領域的專業助手
  • 案例:幫助法律工作者起草檔,協助醫生整理病例
  • 從LLM到Agent:範式的轉變

    傳統的LLM專註於理解和生成文本,其核心能力在於透過海量訓練數據掌握語言規律。然而,當我們需要處理現實世界的復雜任務時,僅僅依靠文本生成是遠遠不夠的。這促使了AI Agent概念的誕生。

    Agent的本質

    AI Agent本質上是一個具備自主性的智慧系統,它能夠:

  • 感知和理解環境資訊
  • 制定實作目標的計劃
  • 做出合理的決策
  • 采取具體的行動
  • 從執行結果中學習和最佳化
  • 這種能力讓Agent突破了傳統LLM的局限,使其能夠處理更貼近現實的問題。

    科技巨頭的Agent之爭

    Anthropic的願景

    https://www.anthropic.com/research/building-effective-agents

    Anthropic對Agent的理解更具哲學深度。他們認為Agent系統最關鍵的突破在於打破了預設工作流的桎梏。在Anthropic看來,真正的Agent應該能夠:

  • 動態調整執行策略
  • 應對未預期的情況
  • 在復雜環境中找到解決方案
  • 「Agent」 有多種定義。一些客戶將Agent定義為完全自主的系統,它們可以在較長時間內獨立執行,使用各種工具來完成復雜的任務。其他人則使用該術語來描述遵循預定義工作流程的更具規範性的實作。在 Anthropic,我們將所有這些變體歸類為代理系統,但在工作流程和代理之間劃出了一個重要的架構區別:

    工作流是透過預定義的程式碼路徑協調 LLM 和工具的系統。

    另一方面,Agent是 LLM 動態指導其自身流程和工具使用情況的系統,從而保持對其完成任務的方式的控制。

    下面,我們將詳細探討這兩種型別的代理系統。在附錄 1(「代理實踐」)中,我們描述了客戶發現使用這類系統特別有價值的兩個領域。

    何時(以及何時不使用)使用Agent

    使用 LLM 構建應用程式時,我們建議找到盡可能簡單的解決方案,並且只在需要時增加復雜性。這可能意味著根本不要構建Agent系統。Agent系統通常會犧牲延遲和成本來換取更好的任務效能,您應該考慮這種權衡何時是合理的。

    當需要更多復雜性時,工作流可以為明確定義的任務提供可預測性和一致性,而當需要大規模靈活性和模型驅動的決策時,Agent是更好的選擇。然而,對於許多應用程式來說,使用檢索和上下文範例最佳化單個 LLM 呼叫通常就足夠了。

    huggingface

    https://huggingface.co/blog/smolagents

    什麽是AI Agent?

    任何使用人工智慧的有效系統都需要為LLM大模型提供某種形式的現實世界存取許可權:例如,呼叫搜尋工具獲取外部資訊,或執行某些程式以解決任務的可能性。換句話說,LLM大模型應該具有 Agent。代理程式是LLM大模型通往外部世界的門戶。

    AI 代理是 LLM 輸出控制工作流程的程式

    任何利用 LLM 的系統都會將 LLM 輸出整合到程式碼中。LLM 的輸入對程式碼工作流程的影響是系統中 LLM 的代理級別。

    請註意,根據此定義,「 Agent」不是一個離散的、0 或 1 的定義:相反,「 Agent」會在連續的範圍內發展,因為您在工作流程中為 LLM 賦予或多或少的權力。

    下表說明了代理在不同系統之間的差異:

    機構級別

    描述

    怎麽稱呼

    範例模式

    ☆☆☆

    LLM 輸出對程式流程沒有影響

    簡單處理器

    process_llm_output(llm_response)

    ★☆☆

    LLM 輸出決定基本控制流

    路由器

    if llm_decision(): path_a() else: path_b()

    ★★☆

    LLM 輸出決定函式執行

    工具呼叫

    run_function(llm_chosen_tool, llm_chosen_args)

    ★★★

    LLM 輸出控制叠代和程式延續

    多步代理

    while llm_should_continue(): execute_next_step()

    ★★★

    一個代理工作流可以啟動另一個代

    何時使用Agent / ⛔ 何時避免使用Agent

    當你需要 LLM 來確定應用程式的工作流程時, Agent很有用。但它們往往是多余的。問題是:我真的需要工作流程中的靈活性來有效地解決手頭的任務嗎?如果預先確定的工作流程經常失敗,這意味著你需要更多的靈活性。讓我們舉個例子:假設你正在制作一個處理沖浪旅行網站上客戶請求的應用程式。

    您可以提前知道請求將屬於兩個儲存桶中的任一個(基於使用者選擇),並且您為這兩個情況中的每一個都有一個預定義的工作流程。

    1. 想要了解一些旅行知識?⇒ 讓他們存取搜尋欄來搜尋你的知識庫
    2. 想與銷售人員談談?⇒ 讓他們輸入聯系表格。

    如果確定性工作流程適合所有查詢,那麽就一定要編寫所有內容!這將為您提供一個 100% 可靠的系統,並且不會因讓不可預測的 LLM 幹擾您的工作流程而引入錯誤的風險。為了簡單和穩健,建議規範化為不使用任何 Agent行為。

    但如果無法提前確定工作流程該怎麽辦?

    例如,使用者想要問: "I can come on Monday, but I forgot my passport so risk being delayed to Wednesday, is it possible to take me and my stuff to surf on Tuesday morning, with a cancellation insurance?" 這個問題取決於許多因素,並且上述預定的標準可能都不能滿足這個請求。

    如果預先確定的工作流程經常出現不足,則意味著您需要更大的靈活性。

    這正是 Agent能提供幫助的地方。

    開源模型與商用模型差距

    微軟的多Agent協作體系

    https://techcommunity.microsoft.com/blog/educatordeveloperblog/using-azure-ai-agent-service-with-autogen--semantic-kernel-to-build-a-multi-agen/4363121

    微軟透過Semantic Kernel和AutoGen框架,提出了一個更宏大的願景:打造協同工作的Agent生態系。在這個體系中:

  • 每個Agent都是特定領域的專家
  • Agent之間能夠相互呼叫能力
  • 透過精密的編排完成復雜任務
  • 支持大規模的並列協作

  • Google的全新思考

    https://media.licdn.com/dms/document/media/v2/D561FAQH8tt1cvunj0w/feedshare-document-pdf-analyzed/B56ZQq.TtsG8AY-/0/1735887787265?e=1736985600&v=beta&t=pLuArcKyUcxE9B1Her1QWfMHF_UxZL9Q-Y0JTDuSn38

    在最新釋出的白皮書中,Google為Agent技術提供了新的視角。他們強調:

    1. 超越模型的智慧體 Agent不應該被簡單理解為更強大的模型,而是要具備:
  • 即時感知和學習能力
  • 主動規劃和決策機制
  • 與外部系統的深度整合

    1. 認知架構的重要性 Google特別強調了認知架構在Agent中的核心地位:
  • 將ReAct、CoT等技術整合為決策引擎

  • 構建靈活的推理和規劃能力
  • 支持復雜場景的動態適應
    1. 工具生態的構建 為了擴充套件Agent的能力邊界,Google提供了完整的工具支持:
  • 標準化的API呼叫機制
  • 靈活的數據存取介面
  • 豐富的雲服務整合

  • 技術融合與創新

    當前的Agent技術呈現出多元融合的特點:

    1. 檢索增強生成(RAG) 透過結合外部知識庫,顯著提升了Agent的可靠性:
  • 即時獲取最新資訊
  • 降低幻覺問題
  • 提供可驗證的答案
    1. 工具呼叫標準化 各家公司在工具呼叫方面逐漸形成共識:
  • 采用JSON Schema描述介面
  • 統一參數傳遞規範
  • 規範化錯誤處理機制
    1. 多Agent協作模式 探索Agent之間的協作方式:
  • 任務分解和分配
  • 結果匯總和整合
  • 沖突處理機制

  • 未來展望:AI Agent的新機遇

    隨著技術的不斷發展,AI Agent還面臨著幾個激動人心的發展方向。讓我們用具體的例子來展望這個充滿可能的未來:

    1. 工具發現與自動設計

    簡單來說,就是讓AI能夠自己找到並創造解決問題的工具,就像一個能夠自己收集和制造工具的能工巧匠。

    具體表現:

  • 自動辨識可用工具 :就像一個經驗豐富的廚師知道廚房裏每個工具的用途一樣,AI能夠自動發現並理解各種可用的數位工具。 案例:當你要求AI幫你處理一張圖片時,它能自動發現系統中的圖片處理API,選擇最合適的工具來完成任務。
  • 根據需求生成工具定義 :相當於AI能夠設計並"制造"新的數位工具。 案例:如果你需要一個特殊的數據分析工具,AI能夠自動編寫相應的程式程式碼,創造出這個工具。
  • 最佳化工具呼叫策略 :就像老師知道什麽時候該用什麽教學方法一樣,AI能夠學會最有效地使用這些工具。 案例:在處理一個復雜的文件時,AI會自動規劃使用OCR、轉譯和總結等工具的最佳順序。
  • 2. Agent集群管理

    這就像管理一個高效的團隊,每個成員都有自己的專長,需要協調他們一起完成復雜的任務。

    具體表現:

  • 大規模Agent編排 :類似於管理一個大型計畫團隊,讓不同專長的AI協同工作。 案例:在設計一個房子時,一組AI同時負責結構設計、室內裝修、園景設計等不同方面,互相配合完成整體方案。
  • 資源排程最佳化 :就像一個好的計畫經理,懂得如何分配資源讓團隊效率最大化。 案例:當多個使用者同時請求服務時,系統能夠智慧分配計算資源,確保每個任務都能得到及時處理。
  • 安全與私密保護 :確保AI團隊在協作時不會泄露敏感資訊,就像醫院裏不同科室的醫生sharing病人資訊時要遵守私密準則。 案例:在處理財務數據時,將敏感資訊加密,只允許有許可權的AI存取相關部份。
  • 3. 與現實世界的深度融合

    這意味著AI不再局限於數位世界,而是能夠真正理解和影響物理世界,就像給機器人裝上了"大腦"。

    具體表現:

  • 物理世界互動介面 :讓AI能夠透過各種傳感器和裝置與現實世界互動。 案例:智慧家居系統不僅能監測室內溫度,還能根據天氣預報、家人作息和個人偏好自動調節空調和窗簾。
  • 即時環境適應 :就像人類能夠適應不同的環境一樣,AI能夠根據現實情況調整行為。 案例:自動駕駛汽車能夠即時適應各種天氣條件和路況,做出相應的駕駛策略調整。
  • 持續學習和前進演化 :像人類透過經驗成長一樣,AI能夠從每次互動中學習並改進。 案例:一個智慧客服系統透過與使用者的每次對話,不斷學習新的問題處理方式,服務品質持續提升。
  • 這些發展方向不僅僅是技術創新,更代表著AI與人類社會深度融合的新階段。想象一下,未來的AI不再是單純的工具,而是能夠理解、學習、協作的"數位夥伴",幫助我們更好地解決各種復雜問題。

    結語

    AI Agent代表了人工智慧發展的新範式。雖然各家公司的技術路線有所不同,但都在為同一個目標努力:打造能夠真正理解和解決現實問題的智慧系統。隨著技術的不斷成熟,我們有理由期待Agent在未來將帶來更多令人驚喜的突破。

    據我所知頭條上已經有一些開發者正在朝著這個思路搭建自己的agent工具庫和agent集群管理平台了,不得不佩服開發者的前瞻性和充沛的精力。