當前位置: 華文世界 > 教育

【牛津大學博士論文】改進單智慧體和多智慧體深度強化學習方法

2025-01-12教育

來源:專知

本文 約1000字 ,建議閱讀 5分鐘

本論文的重點是辨識一些阻礙RL代理在特定環境中學習的關鍵挑戰,並改進現有方法,以提高代理的效能、樣本效率以及學習到的策略的泛化能力。

強化學習(RL)是一種框架,代理透過與環境互動獲取數據驅動的反饋,利用獎懲機制學習如何做出決策。深度強化學習(Deep RL)將深度學習與強化學習相結合,利用深度神經網路的強大功能來處理復雜的高維數據。在深度RL框架下,我們的機器學習研究社群在使機器能夠在長時間範圍內做出連續決策方面取得了巨大的進展。這些進展包括在Atari遊戲中達到超越人類的表現[Mnih等,2015],掌握圍棋並擊敗世界冠軍[Silver等,2017],提供強大的推薦系統[Gomez-Uribe和Hunt,2015,Singh等,2021]。本論文的重點是辨識一些阻礙RL代理在特定環境中學習的關鍵挑戰,並改進現有方法,以提高代理的效能、樣本效率以及學習到的策略的泛化能力。

論文的第一部份 我們關註單智慧體RL環境中的探索問題,在這種環境中,代理必須與復雜環境互動以達成目標。如果一個代理無法充分探索其環境,它不太可能達到高效能,因為它會錯過關鍵的獎勵,從而無法學習到最優行為。一個關鍵挑戰是稀疏獎勵環境,在這種環境中,代理只有在任務完成後才會收到反饋,使得探索更加困難。我們提出了一種新的方法,能夠實作語意探索,從而在稀疏獎勵任務中提高樣本效率和效能。

論文的第二部份 我們聚焦於合作的多智慧體強化學習(MARL),這是對傳統RL設定的擴充套件,考慮了多個代理在同一環境中為完成共享任務而進行的互動。在需要多個代理高度協調且對失誤有嚴格懲罰的多智慧體任務中,當前的最先進MARL方法往往無法學會有用的行為,因為代理容易陷入次優均衡。另一個挑戰是所有代理的聯合動作空間的探索,其規模隨著代理數量呈指數級增長。為了解決這些挑戰,我們提出了創新的方法,如通用價值探索和可延伸的基於角色的學習。這些方法促進了代理之間的更好協調、更快的探索,並增強了代理適應新環境和新任務的能力,展示了零樣本泛化能力,並提高了樣本效率。最後,我們研究了合作型MARL中的獨立策略方法,在該方法中,每個代理將其他代理視為環境的一部份。我們展示了這種方法在流行的多智慧體基準測試中表現優於最先進的聯合學習方法。

總之,本論文的貢獻顯著改善了深度(多智慧體)強化學習的現狀。論文中開發的代理能夠高效地探索其環境,提高樣本效率,學習需要顯著多智慧體協調的任務,並實作跨不同任務的零樣本泛化。