當前位置: 華文世界 > 科技

華為諾亞釋出無限上下文大模型,超越SoTA 4.3%

2024-08-08科技

你的大語言模型是不是也患上了"長文健忘癥"?當使用大模型遇到長上下文時總是會出現詞不達意?別擔心,LLM界的"記憶大師"來啦!華為諾亞方舟實驗室最新推出的EM-LLM模型,就像是給大模型裝上了"超級記憶芯片",讓它們輕松應對天文數位般的超長文本。這個創新模型巧妙地將人類認知科學中的事件分割和情景記憶原理融入到了LLM中,讓大模型也能像人腦一樣高效處理超長文本。

3.5研究測試:
hujiaoai.cn
4研究測試:
askmanyai.cn
Claude-3研究測試:
hiclaude3.com

EM-LLM的核心秘訣在於它模仿了人類大腦處理資訊的方式。它能夠自動將長文本切分成有意義的"事件",並建立類似人類情景記憶的儲存結構。這種設計不僅讓模型能夠更好地理解和記憶長文本的內容,還能在需要時快速檢索相關資訊。

在LongBench長文本基準測試中,EM-LLM的整體效能超越了此前的最佳模型,平均提升4.3%。特別是在段落檢索任務上,EM-LLM表現依舊非常出色,效能提升高達33%,充分展示了其在長文本理解和資訊檢索方面的卓越能力。

論文標題:
HUMAN-LIKE EPISODIC MEMORY FOR INFINITE CONTEXT LLMS

論文連結:
https://arxiv.org/pdf/2407.09450

LLM的"長上下文記憶"挑戰

在人工智慧快速發展的今天,大語言模型(LLM)已經成為了各行各業的得力助手。然而,這些AI"助手"卻面臨著一個棘手的問題:一旦遇到長文本,它們的表現就會大打折扣,仿佛患上了"長文健忘癥"。這個問題嚴重制約了LLM在實際套用中的表現,特別是在需要處理長篇文件、復雜報告或大量上下文資訊的場景中。

為什麽會出現這個問題呢?主要是因為現有的LLM在處理長文本時面臨著三大挑戰:

  • 計算復雜度問題:Transformer架構中的自註意力機制的計算復雜度隨文本長度呈平方增長。這意味著當處理長文本時,計算資源的消耗會急劇增加,導致處理效率大幅下降。
  • 位置編碼的局限性:現有的位置編碼方法(如RoPE)難以有效地擴充套件到超出訓練長度的文本,這使得模型在處理超長文本時難以準確捕捉詞語之間的位置關系。
  • 註意力分散問題:在長文本中,關鍵資訊容易被大量不相關的內容"淹沒"。模型難以在龐大的token序列中準確定位和提取重要資訊。
  • 面對這些挑戰,研究人員提出了各種解決方案。其中,檢索增強生成(RAG)和基於KV緩存的方法是兩個主要方向。RAG方法透過外部知識庫來增強模型的效能,而KV緩存方法則嘗試在模型內部保存和檢索歷史資訊。然而,這些方法仍然存在一些局限性,無法完全解決長文本處理的問題。

    為解決這些問題,華為諾亞方舟實驗室提出了創新的EM-LLM模型。EM-LLM的核心思想是模仿人類大腦的情景記憶機制,透過將長文本分割成離散的"事件"來組織和檢索資訊。

    EM-LLM處理長文本可以分為三個步驟:

    1. 事件分割:模型首先辨識文本中的"surprise"點,這些點可能是不同"事件"的分界。
    2. 記憶形成:辨識出的事件被儲存為離散的記憶單元,每個單元包含事件的關鍵資訊。
    3. 記憶檢索:當需要處理新輸入時,模型會檢索相關的歷史事件。這個過程包括基於相似度的檢索和考慮時間連續性的檢索。

    這種設計使EM-LLM能夠有效處理超長文本,同時保持較低的計算復雜度。它不僅提高了LLM處理長文本的能力,同時還展示了將認知科學原理套用於人工智慧的可行性。

    給LLM裝上"人腦芯片"

    EM-LLM的核心思想是模仿人類大腦處理長期記憶的方式,主要包括三個關鍵步驟:基於驚奇度的事件分割、邊界最佳化和兩階段記憶檢索。讓我們詳細探討每個步驟:

    基於驚奇度的事件分割

    EM-LLM首先對輸入的長文本進行"事件分割"。這個過程透過計算每個詞的"驚奇度"來判斷是否應該在此處進行分割。具體來說,對於每個token ,模型計算其條件機率:

    然後,透過計算負對數似然,得到驚奇度:

    當驚奇度超過閾值 時,就認為在此處出現了一個事件邊界:

    其中,閾值 是動態計算的:

    這裏, 和 分別是前 個token的驚奇度均值和標準差, 是一個可調節的參數。

    邊界最佳化

    初步的事件分割後,EM-LLM引入了邊界最佳化步驟。這個過程使用圖論中的概念,將token之間的相似度視為圖的鄰接矩陣。對於註意力頭 ,鄰接矩陣 定義為:

    其中 和 是對應token的key向量,sim是相似度函式(這裏使用點積相似度)。

    最佳化過程使用兩個指標:模組化(Modularity)和導電率(Conductance)。模組化 定義為:

    其中 是圖中總邊權重, 是節點 所屬的事件, 是克羅內克函式。

    導電率 定義為:

    其中 是圖的一個子集, 是 內部的總邊權重,其由以下的公式進行計算:

    邊界最佳化的目標是最大化模組化或最小化導電率,從而使事件內部的token更相關,事件之間更分離。

    兩階段記憶檢索

    當模型需要處理新的輸入時,它采用兩階段方法來檢索相關的歷史資訊:

    1. 相似度檢索:使用k近鄰()搜尋,找出與當前查詢最相似的 個歷史事件。這些事件形成"相似度緩沖區"。
    2. 連續性檢索:為了模擬人類記憶的連續性特征,模型還會檢索出上述事件在原文中的相鄰事件,形成大小為 的"連續性緩沖區"。

    最終,模型將 個事件添加到上下文視窗中。這種方法既考慮了資訊的相關性,又保留了原始文本的時序特征。

    下圖直觀地展示了這個過程:

    1. 輸入序列根據驚奇度進行初步分割。
    2. 形成離散的事件記憶,每個事件保留初始token和局部上下文。
    3. 透過 搜尋選擇相關事件。
    4. 最終的上下文視窗包括初始token、連續性緩沖區、相似度緩沖區和局部上下文。

    這種設計使EM-LLM能夠高效處理超長文本,同時保持了對重要資訊的準確檢索和利用。透過模仿人類記憶機制,EM-LLM在提高長文本處理能力的同時,也為我們理解人類認知過程提供了新的視角。

    EM-LLM的"過目不忘"大考驗

    華為諾亞方舟實驗室的研究人員設計了一系列全面的實驗來測試EM-LLM的效能。這些實驗不僅展示了EM-LLM在長文本處理方面的卓越表現,還深入探討了其工作原理與人類認知的相似性。

    LongBench測試

    研究人員首先在LongBench長文本基準測試上對EM-LLM進行了評估。這個測試就像是AI界的"馬拉松",考驗模型的"長跑"能力。

    下表展示了EM-LLM在LongBench上的表現,EM-LLM在15個任務中的14個上都超越了此前的最佳模型——InfLLM。

    特別需要註意的是:

  • 在PassageRetrieval(段落檢索)任務上,EM-LLM實作了驚人的33.47%效能提升;
  • 在HotpotQA任務上,EM-LLM比InfLLM高出了9.38%;
  • 在2WikiMQA任務上,EM-LLM的表現比InfLLM好6.41%。
  • 總體而言,EM-LLM在所有任務上的平均得分比InfLLM高出了4.3%,展現了其在各種長文本任務中的全面優勢。

    與人類事件感知的"心靈感應"

    研究人員還比較了EM-LLM的事件分割結果與人類的事件感知。這個實驗就像是測試LLM和人類之間的"心靈感應"能力。

    下圖展示了不同分割方法在LLaMA2註意力頭的KV緩存中的表現。

    從上圖中可以看出:

  • 人類感知的事件分割在三個指標(模組化、導電率和內部/外部相似度比)上都表現優異;
  • EM-LLM的基於驚奇度的分割方法(S)和加入邊界最佳化的方法(SM, SC)與人類感知非常接近,甚至在某些方面表現得更好;
  • 相比之下,固定大小的分割方法(F, FM, FC)表現較差,特別是InfLLM使用的固定分割方法(F)甚至不如隨機分割。
  • 下圖進一步比較了不同方法與人類報告的事件邊界之間的距離。結果顯示,EM-LLM的方法(S, SM, SC)與人類感知的一致性最高。

    不同分割方法的"擂台賽"

    研究人員還在PG-19數據集上比較了不同的事件分割方法。下表展示了在不同LLM(Mistral-7B, LLaMA2-7B, LLaMA3-8B)上的實驗結果。

    從實驗結果中可以看出:

  • 基於驚奇度的分割方法(S)和加入邊界最佳化的方法(SM, SC)在各項指標上都表現優異;
  • 邊界最佳化(SM, SC)進一步提升了效能,特別是在模組度和內部/外部相似度比上;
  • 相比之下,固定大小的分割方法(F, FM, FC)表現較差,尤其是在沒有最佳化的情況下(F)。
  • 相似性、連續性與時序的"平衡藝術"

    研究人員還探討了不同元件權重對模型效能的影響。研究人員測試了不同參數設定下EM-LLM在LongBench各任務上的表現。

  • 結合相似性搜尋和連續性檢索的方法(SM+C)在大多數任務中表現最佳;
  • 連續性緩沖區的大小對效能有顯著影響,最佳比例通常在30%到50%之間;
  • 不同任務對連續性和相似性的需求不同,如MultiNews任務在70%連續性比例時表現最佳。
  • EM-LLM不僅在各種長文本任務中表現出色,超越了現有最佳模型,其事件分割和記憶檢索機制還展現出與人類認知相似的特征,在保持高效處理能力的同時,實作了更接近人類的文本理解和資訊組織方式。

    總結與展望

    華為諾亞方舟實驗室這次真給大模型界來了個大招!他們的EM-LLM模型不僅實作了"無限"上下文長度,還在LongBench測試中超越了此前的最佳成績,平均提升4.3%。這就像給AI裝上了記憶芯片。EM-LLM的成功展示了跨學科研究的威力,仿佛讓LLM上了一個"人類大腦速成班"。

    這一突破可能帶來眾多有趣套用,從能輕松解讀【戰爭與和平】的大模型文學評論家,到記住你上月所有對話的超級客服,再到能處理繁瑣合約的法律專家和分析全面病史的醫療助手。雖然距離真正的"通用人工智慧"還有距離,但EM-LLM無疑是AI前進演化路上的重大進步,不僅突破了LLM在長文本理解上的瓶頸,還為大模型的套用領域帶來了新的可能性。