當前位置: 華文世界 > 數位

2025 AI手機互動體驗:它能說會道,有眼有腦,是更聰明懂你的AI夥伴

2025-01-11數位
克雷西 發自 凹非寺 量子位 | 公眾號 QbitAI
終於,5202年了,手機助手也乘著AI的快車,變得越來越好用了!
不僅內建了多模態大模型「大腦」,擁有超強的思考和對話能力,還長出了「眼睛」,可以看到螢幕內外的世界。
實際上,這正是此時此刻AI手機正在呼喚的一種全新互動方式,期待拉近人與裝置之間的距離,期待讓互動變得更加自然 。
手機之所以是現在這個形態,主要為了適應多點觸控的互動方式,從賈伯斯時代、從觸屏誕生的那段時間開始就沒有過改變。
但能夠響應人的自然語言 ,和人溝通互動、理解並執行指令的助理,才是更加自然的互動方式。
而隨著多模態能力的解鎖,這種新的科技樹也被點亮,手機的軟硬體將被重塑。
讓手機成為你的專屬助理
以最早把「AI手機」這個概念打在公屏上的OPPO為例,OPPO把多模態能力引入到了小布助手當中 ,讓它不再只是一個對話機器,而是能夠更全方位地理解並處理人類的意圖。
透過語音、電源鍵和長按導覽列這三種方式,我們就能把小布助手召喚出來,然後動動嘴就能向手機發號施令。
不妨先來透過「一鍵問屏」,看看小布助手的強大視覺本領和思考能力。
假如我們看到一棟建築(上海中心),想要知道它到底是什麽,那就可以叫小布助手出場了。
不用傳圖,也不用多解釋,召喚出小布助手後,直接問它這是啥,就能得到滿意的答案。
而且支持多輪對話,可以接著問這裏能不能參觀,有什麽值得看,甚至直接制定出一份旅遊攻略。
【視訊請移步公眾號】
並且小布助手的這種視覺能力不僅能辨識螢幕裏的東西,還能借助相機,「看」見身邊的一切。
假如我們看到了一堆植物(羽衣甘藍)十分好奇:
直接開啟相機對準它,然後召喚出小布,讓它來告訴我們,而且還能接著追問,這東西能不能吃、怎麽吃才好吃。
【視訊請移步公眾號】
再插播一句,超級小布助手是首家支持在相機界面做識屏問答的,後來很多友商也陸續推出類似功能,說明了小布助手的這種模式,是OPPO的一次成功布局。
而且之所以敢叫超級小布助手,是因為它還有兩把刷子——不僅有「眼睛」能看、有「頭腦」會思考,還長出了「手腳」,能夠執行使用者指令。
還是拿一鍵問屏來舉例,假設量子位要從公司出發前往MEET大會現場,那麽只要告訴小布助手,我要去螢幕上的這個地方,小布助手就會自動開啟導航。
既不用復制貼上目的地地址,也不用手動設定,說一句話就能即刻出發。
【視訊請移步公眾號】
總之呢,全面升級的超級小布助手,確實讓手機的使用方式變得和以前不一樣了。
有更多的使用者開始透過小布助手來進行手機的操縱,其中使用電源鍵喚起小布助手的相比前一代提升30%,電源鍵成為了小布助手喚起人數Top1入口。
而且超級小布助手,還憑借自身的超能力,順帶也完成了一波「使用者教育」的目的——
小布助手的強大能力,反向刺激了使用者的需求,光是一項識屏能力,就直接帶動了百科和教育類的問答需求提升。
使用者數據顯示,近30%的一鍵問屏使用者會在相機界面對準想要辨識的內容後,直接喚起小布助手進行問答;70%的使用者會在多模態互動中使用通用問答的功能。
所以,超級小布助手如此神奇的超能力,到底是來自於哪裏呢?
背後是自研大模型和智慧框架
能聽、看、說、做的超級小布背後,是集語言、視覺、語音等多種模態於一體的OPPO SenseNow框架 。
先說聽,這是我們和小布助手發生互動的第一個環節,SenseNow框架整合了OPPO自主研發的語音多級喚醒和個人化辨識技術 ,使語音喚醒和辨識的準確率達到97%以上。
SenseNow框架透過檢索增強多模態理解技術 ,具備了「看」的能力,是SenseNow智慧框架的核心,讓超級小布助手實作了圖文混合檢索,支持1000多種主體的辨識。
像前面看到的一系列場景,超級小布助手能夠從根據看到的畫面回答我們各式各樣的問題,靠的都是這種多模態理解和檢索能力。
SenseNow框架還整合了生成式語音合成框架 ,使超級小布助手能夠模擬真人語氣和節奏,並支持超過20種個人化音色。
可以說,OPPO SenseNow框架讓超級小布助手在看、聽、說上都表現得像一個真實的人,能夠幫助解答我們所見到的各種疑惑。
但OPPO SenseNow框架還有一大亮點,那就是擁有執行力。
就像前面看到的,只要給出一個指令,超級小布助手就會根據圖片中看到的地址喚起導航,按照時間資訊加入日程表……
SenseNow智慧框架可以融合語音、文本和圖片等不同型別的資訊源,理解使用者的復雜意圖,完成跨套用的無縫操作。
超級小布支持超過1000+項用機指令,讓使用者只需要簡單的語音指令,就可以完成對應的手機設定或套用操作。
領先能力的背後,OPPO擁有在多模態領域擁有領先的布局和前瞻性的思考,所以,全新升級的小布,在手機助手的多模態時代搶先占據了一席之地。
多模態助手正在改變手機互動方式
小布助手是一個縮影,其所代表的多模態手機助手,正在改變著手機的互動方式 。
比如相機實景持續問答——網路速度的提升和大模型能力的升級,多模態大模型可以支持即時的逐幀視覺辨識和分析推理,根據網路攝影機看到的景象和使用者像真人一樣交流,把電影【Her】當中的場景搬進現實。
除了我們在大模型領域常見的多模態(文本、視覺、語音)之外,近年來智慧傳感器 的技術也有了飛速的發展。
手機上除了常見的網路攝影機、麥克風外,溫度、氣壓等傳感器技術也正在逐漸成熟。
透過對更多維度的環境資訊的感知,智慧助手可以更清晰地理解使用者當前的狀態,透過簡單的指令就可以完成使用者需求。
舉個最簡單的例子,如果使用者問喉嚨不舒服怎麽辦,AI可以根據傳感器獲得的體溫狀況、地理位置、天氣情況和環境的溫度濕度,綜合判斷給出咨詢建議,比如是要上加濕器,還是要找醫生尋求幫助。
並且隨著手機助手的不斷普及,未來像小布這樣搭載多模態能力的語音助手,將改變人與APP的互動方式 ,隨著更多套用和服務API的接入,語音助手呼叫服務將更加高效和流暢。
並且未來還能夠實作跨越不同APP的復雜操作,比如根據旅行攻略讓語音助手幫你完成沿途所有的行程/住宿和景點門票的預訂安排。
在新的互動模式之下,語音助手不僅可以利用多模態資訊推測人類意圖並呼叫適當服務,還可以利用記憶能力 ,了解你說話的風格,衣食住行的偏好,並基於當前的情況提供個人化服務推薦,變得更加專屬化、個人化。
想象一下,未來你掏出手機,簡單的一句話AI 就能為你完成所有的安排,那時的手機就像一個私人助理、像一個夥伴。
到那時,人與硬體之間的關系也將發生改變 。
回到當下,超級小布助手作為OPPO打出的一套AI組合拳中重要的一環,以多模態智慧助理的形態,為打造更加智慧化的AI系統、AI手機,徹底改變互動形態而鋪路。
毫無疑問,超級小布助手這種視覺感知+多模態智慧互動的形式,正是這個方向之上誕生的一大成果。
同時,超級小布助手來自於OPPO,來自於終端廠商,因此擁有系統層級的排程能力,這更是第三方智慧助手類產品無法比擬的優勢。
並且使用者數據已經證明,超級小布助手正在逐漸重塑使用者的使用習慣,用技術的跨越倒逼使用者產生新的需求。
OPPO希望,超級小布助手能夠成為實用專屬的AI夥伴。而目前市場表現看來,已經獲得了初步成果。
作為最早把AI手機打上公屏的手機玩家,OPPO正在持續重新整理移動互動形態,讓AI重塑手機能力和邊界。