當前位置: 華文世界 > 科技

MIT初創顛覆Transformer時代 非GPT架構初次超越卓越表現

2024-10-02科技

在人工智慧發展的浪潮中,MIT相關初創公司Liquid AI最近引起了廣泛關註。該公司推出的液體基礎模型(LFM)在眾多基準測試中表現出色,首次實作非GPT架構對Transformer的明顯超越。這一成功,得益於他們開發的液體神經網路(LNN),標誌著AI領域的一次創新突破。

Liquid AI團隊在宣布推出第一個多模態非Transformer模型-液體基礎模型(LFM)時,無疑讓許多科技愛好者興奮不已。作為通用AI模型的LFM,能夠處理包括視訊、音訊、文本在內的各種順序數據。此模型有三種規模可供選擇,每一款都在保持較小記憶體占用的情況下,展現了傲人的推理能力。

後訓練主管Maxime Labonne自豪地表示,LFM是他職業生涯中的一項偉大成就。LFM不僅實作了在處理更多數據時效率的提升,也能即時調整效能,避免傳統模型的復雜計算成本,甚至在記憶體消耗方面保持最低所需水平。尤其是LFM-1B在公共基準測試中表現尤為突出,成為行業標桿,展示了其超越Transformer的潛力。

不僅LFM-1B表現優異,LFM-3B的成績也份外驚艷,擊敗了效能相似的其他大型模型,並在許多基準測試中與前代其他大型模型的數據處理能力不相上下。對於移動端套用和邊緣裝置,LFM-3B無疑是個理想選擇。

LFM-40B在模型規模與輸出品質之間取得了令人印象深刻的平衡,其MoE架構賦予了高效的吞吐量,適合於降低成本的硬體上部署。現在,公眾可以在Liquid AI的多個平台上免費體驗這些模型。

Liquid AI的成立,源於MIT電腦科學與人工智慧實驗室(CSAIL)的前研究人員的共同努力。LFM的設計理念使得其在記憶體使用效率上展現出較傳統Transformer模型的明顯優勢,尤其在處理較長輸入時,這種優勢顯得更為突出。

雖然當前Transformer架構仍是主流,但Liquid AI希望開辟一條新路,尋求超越現有生成式預訓練Transformer(GPT)模型的解決方案。LFM的構建方式如同工程師設計飛機和汽車那樣,從基礎原理出發,實作了對Transformer模型的有力挑戰。

LNN技術便是Liquid AI的核心競爭力之一。與傳統需要大量神經元的深度學習模型不同,LNN透過少量神經元搭配創新的數學模型,實作了同樣的復雜功能。這種靈感源自線蟲的神經結構,也為當前的LFM提供了永續的適應力和強大的魯棒性。

LFM模型擁有多個實用特性,包括高效記憶體占用和深厚的知識儲備。盡管在零樣本學習、精確數值計算等方面仍有不足之處,它在一般知識、數學推理和長文本處理的能力卻是毋庸置疑的。

為應對新一輪技術挑戰,Liquid AI設計了一個新的模型架構,為廣泛套用提供了可能性。團隊成員紛紛表示,這一進展的背後,是多年來在推進AI模型效能與效率方面的不懈努力。

團隊的成員包括Ramin Hasani(CEO)、Mathias Lechner(CTO)、Alexander Amini(CSO)和Daniela Rus(CSAIL主任),他們各自在該領域擁有深厚的專業背景和獨特的見解。Liquid AI的目標十分明確:在各個規模上創造出最佳的智慧和高效系統,以滿足順序多模態數據的處理需求,實作高級推理和可靠決策。

總之,Liquid AI透過液體基礎模型的推出,再次驗證了創新的重要性,向我們展示了未來AI技術的無限可能。他們的成功,或許不僅僅是一次技術的突破,更是開啟了人工智慧新篇章的鑰匙。各界的目光也將持續聚焦於這一新興力量,期待更多驚喜的到來。