近日,智譜AI(人工智慧)推出自主智慧體AutoGLM,只需接收簡單的文字或語音指令,就可以模擬人類操作手機的「Phone use能力」。相關訊息引發市場關註,甚至催生出了「智譜AI概念股」。
視覺中國
一名接近智譜的人士對【每日經濟新聞】記者表示,AutoGLM在開發、適配的過程中,優先考慮了使用者使用手機時最頻繁的場景。當前,智譜依舊在持續叠代AutoGLM功能,並將基於使用者使用的高頻場景,不斷拓展AutoGLM的套用邊界。
據悉,智譜已與中國三星深度合作,核心是將智譜的GLM大模型與三星的硬體技術相結合,以提升使用者的智慧體驗。其實,AI在手機端的套用探索並非僅此一例,vivo、榮耀等都有類似的功能升級,蘋果也計劃在未來進一步整合ChatGPT服務到Siri中。有學者在受訪時指出,AI與手機的結合正逐漸成為行業共識,這背後反映的是生成式AI在提升個人化體驗方面的潛力。
但也有業內人士向記者指出,當前的「個人智慧助手」與此前的語音互動能力並無太大差別。從長期來看,伺服端應該是越弱越好,難點並不在於技術或商業模式,而在於使用者習慣。
智譜推出AutoGLM
據智譜釋出的演示Demo(樣本),基於AutoGLM,使用者向手機下達「幫我在淘寶下單淘寶裏上個月買過的牙膏」的指令,手機就能自動執行「AI開啟App—找到歷史訂單—完成訂單篩選—請求使用者支付—完成支付」的過程。
智譜方面表示,理論上,Au-toGLM可以完成人類在電子裝置上可以做的任何事,它不受限於簡單的任務場景或API呼叫,也不需要使用者手動搭建復雜繁瑣的工作流,操作邏輯與人類類似。
中信證券在研報中提到,隨著互聯網軟體的種類、功能越來越豐富,智慧體能否熟練地掌握每個軟體的使用方法,滿足不同使用者的個人化需求,真正成為個人助手值得期待。從以聊天為主的大模型1.0時代邁入個人智慧助理的大模型2.0時代,以智譜為代表的國產AI公司完成了從追趕者到領路人的身份轉換。
從使用者的日常操作到潛在的商業套用,AutoGLM除了在「Phone use能力」層面的想象空間,未來的套用場景會如何拓展?
一名接近智譜的人士對【每日經濟新聞】記者表示,在技術突破層面,AutoGLM基於智譜自研的「基礎智慧體解耦合中間界面」和「自前進演化線上課程強化學習框架」。其中的核心技術WebRL,克服了大模型智慧體在任務規劃與動作執行中存在的能力拮抗、訓練任務和數據稀缺、反饋訊號稀少和策略分布漂移等智慧體研究和套用難題。同時,借助自適應學習策略,能夠在叠代過程中不斷改進、持續穩定地提高自身效能。就像一個人,在成長過程中,不斷獲取新技能。
大模型套用加速落地
華鑫證券在其研報中預測,AI Agent(智慧體)的中國市場規模有望從2023年的554億元增長至2028年的8520億元,年均復合增長率高達72.7%。中信建投則在研報中表示,預計在不久的將來會進入大模型時代的2.0時代:AI Agent。
在接受【每日經濟新聞】記者采訪時,清華大學新聞學院和人工智慧學院雙聘教授沈陽指出,AI與手機結合正逐漸成為行業共識,這背後反映的是生成式AI在提升個人化體驗方面的潛力。同時,隨著硬體與AI服務的一體化設計日趨完善,AI正在引發人機互動的範式變革,推動手機與使用者之間的關系從簡單的操作工具轉變為動態互動。沈陽認為,這一趨勢同樣將深刻影響國內市場,預計未來將有更多智慧裝置采用AI驅動的互動模式,從而極大提升使用者體驗。
在國內,除了智譜推出的AutoGLM,僅今年10月,就有數家廠商在端側有所動作。比如,vivo推出藍心端側大模型3B,稱服務超5億手機使用者;字節跳動釋出首款AI智慧體耳機Ola Friend,與豆包整合;榮耀推出MagicOS9.0,實作一句話充值、一句話點外賣等服務。
在國際市場上,科技巨頭們同樣動作頻頻。蘋果在10月28日宣布推出AI功能,並計劃在未來進一步整合ChatGPT服務到Siri中;微軟則開源了OmniParser工具,為使用者提供如自動訂票等便捷功能;谷歌計劃推出Gemini 2.0,並正在開發能自動化執行Chrome網頁任務的「Project Jarvis」,該計畫將幫助使用者執行諸如「收集研究、購買產品或預訂航班」等任務。
不過,也有人對當前AI套用在端側類似「個人智慧助手」的探索持反對態度。「在我看來端側是倒退。」一家AI套用公司創始人在接受【每日經濟新聞】記者采訪時表示,從長期來看,伺服端應該是越弱越好。他認為,當前無論是硬體裝置、軟體套用,還是互動方式,均未超越上一輪語音互動熱潮期間入局企業所進行的探索範疇。或許在某些特定場景下,諸如蘋果這樣的行業巨頭,具備教育使用者或改變使用者需求的潛力,但極為困難,其難點並不在於技術或商業模式,而在於使用者習慣。
上述AI套用公司創始人認為,99%的使用者在表達需求時,不可能用一句話闡明具體意圖,更多是以一種「擠牙膏式」的互動一步步完成,例如,使用者需要訂一張北京飛往上海的機票,大部份使用者往往發出的第一句指令只有簡單的幾個字:訂機票,余下需求則需要透過提問再完成。「第一是使用者沒這個需求,第二是真正用起來,肯定會出現各種奇奇怪怪的問題,我對語音助手是非常悲觀的。」其表示。
他進一步補充道,盡管相關技術已經經歷了多次叠代,相較於過去已有顯著提升,但問題的核心仍在於對需求的精準把握與滿足。
尋找破局之路
在端側套用的探索中,智譜當前瞄準的破局點或許與作業系統有關。
AutoGLM是智譜按照AGI通用人工智慧升級路線圖進行的探索和嘗試之一。智譜CEO張鵬曾談及對AGI分級的思考,他認為,L1是語言能力,L2是邏輯與思維能力,L3是工具能力,L4人工智慧意味著AI可以實作自我學習、自我反思和自我改進。L5則意味著人工智慧全面超越人類,具備探究科學規律、世界起源等終極問題的能力。
上述接近智譜的人士表示,AutoGLM可以看作是智譜在人工智慧L3「使用工具能力」方面的探索和嘗試,借此努力推動人機互動範式實作新轉變,為構建GLM-OS,即以大模型為中心的通用計算系統打好基礎。進而,基於已有AllTools能力加上記憶體記憶(memory)和自我反饋(self-reflection)機制,GLM-OS有望實作模仿人類的Plan-Do-Check-Act迴圈。
榮耀CEO趙明也曾在該公司釋出會上談到,MagicOS自誕生之初就致力於打造屬於未來的作業系統,構建以AI為核心的智慧作業系統(AI OS)。
在技術突破之外,另一個破局點或許在於生態的建立以及使用者使用習慣的培養。盡管對語音互動持悲觀態度,但前述AI套用公司創始人坦言,使用者的需求也不是鐵板一塊,完全不能動搖。盡管他認為改變使用者需求的難度很大,但對於科技巨頭能否做到,他持觀望態度。
數位經濟專家劉興亮也對【每日經濟新聞】記者表示,像蘋果這樣擁有大量使用者的公司,AI功能的融入確實有望改變使用者的行為習慣,尤其是透過改善使用者體驗,使其日常使用更加便捷、高效。例如,AI驅動的健康管理、出行助手等功能,將提升使用者對品牌的黏性和依賴度,從而帶來更多生態系內的交叉銷售機會。其他企業則可以從中借鑒,透過AI來增強使用者體驗,建立長期的品牌價值,而不僅是局限於一項具體功能的提升。
沈陽指出,在大模型和AI套用融入手機、PC等裝置時,還需解決使用者個人化不足與上下文理解局限的問題。這需要透過在裝置端保存更多對話和使用者操作習慣來增強AI的跨會話理解力和準確性。同時,多模態整合也是關鍵,將文本、語音、影像等輸入形式結合,能顯著提升AI處理復雜指令的能力。針對跨裝置無縫體驗的挑戰,沈陽建議采用統一的AI框架來增強跨裝置的智慧助手一致性,確保使用者在任何裝置上都能獲得相同的AI體驗,並最佳化裝置間數據同步的速度。
在沈陽看來,未來,AI套用的趨勢將朝著多模態AI、深化個人化服務以及3D AIGC與AR/VR結合的方向發展。然而,在這個過程中,使用者的期待與現實之間存在差距,如AI的精確性與可靠性問題、私密與數據使用的顧慮以及使用門檻和學習成本高等挑戰。
劉興亮則表示,在未來一段時間內,AI技術的實際套用前景依然廣闊,但的確面臨著如何在使用者期望和實際需求之間找到平衡的問題。行業可能需要調整發展方向,在商業化過程中保持技術與需求的同步發展。找到商業化與實用性的結合點尤為重要,比如開發更貼合具體場景的AI產品,並且關註使用者反饋和使用數據,透過小步快跑的方式持續最佳化,才能真正提升AI的落地效果和市場接受度。
每日經濟新聞