如果你像老狐一樣關註手機釋出會的話啊,就會發現除了處理器、影像、螢幕、系統這些,最近有一個功能各大手機品牌會花很大篇幅去介紹。
但是,如果你買手機,前面的那些軟硬體是你會考慮的因素,而 AI 大模型,我想 99% 的人都不會考慮,是吧?
不可否認的是,AI 代表的是未來,而手機廠商都在往這方面投入高額的成本,那現在手機的大模型哪家最好用呢?
我們找來了華為、小米、OPPO 、vivo ,以及在看完別家釋出會後,自信心爆棚,又決定召開釋出會的魅族,他們的最新款旗艦手機。
看看這五家誰的大模型功能更強。
先介紹一下參數。
vivo X100 和 OPPO Find X7 用的是天璣 9300 , 按聯發科的說法,支持最高 330 億參數的大模型在 端側執行 。
vivo 宣傳手機大模型是端側 70 億加雲端 700 億 。
OPPO 這邊,安第斯大模型是 70 億端側加 1800 億雲端。
華為 Mate 60 Pro 芯片沒有側載大模型,而是透過雲端大模型來處理使用者需求,華為背後有盤古大模型團隊。
小米和魅族采用的高通驍龍 8 Gen3 ,支持端側 100 億參數大模型。
魅族的大模型 Flyme AI ,宣傳是開放式 AI 。 簡單來說,就是自己不開發,跟別的大模型團隊合作。
雷軍在去年 8 月的釋出會上提過小米跑通了 13 億規模的端側大模型,但到小米 14 釋出時卻沒有提。
所以,小米 14 、魅族 21 極有可能跟華為手機一樣,沒有側載大模型,或者不值一提。
在 AI 設定中,也能找到一些證據,find X7 支持離線圖線消除,vivo 支持本地圖片風格化和文件總結。
但在 Mate 60 Pro 、小米 14 和魅族 21 裏,沒有本地大模型的設定。
要說的是,OPPO 的離線和 vivo 的本地是有區別的。
OPPO 即便斷網,還 能消除畫面物體,vivo 一旦斷網,本地大模型不能使用。
以上是各家大模型的基本情況。
從參數來看,OPPO 的雲端 1800 億挺唬人,可是華為有盤古大模型,在大模型技術這一塊積累更深,大家覺得誰強?
各家手機廠商對於大模型的運用,都是將大模型融入原來的語音助手中,所以開啟方式還是包括 語音喚醒 、 長按電源鍵喚醒 、 耳機喚醒 。
不過各大廠家也有不同設計,華為和 OPPO 為語音助手提供了捷徑。
vivo 除了 「 藍心小 V 「」,還有「 Jovi 語音」,藍心小 V 是 Jovi 語音功能的一部份。
小米沒有 APP ,點進底部搜尋欄右側的小愛同學圖示即可進入大模型功能。如果經常使用搜尋功能,這樣設計很不錯。
但某原教旨主義資深米粉同事就表示,這個搜尋欄一定要取消,因為用不上還占螢幕。
最好的設計是魅族,長按底部橫條 mback 鍵就能進入語音助手,該方式呼出還支持識屏,在系統如影隨形,讓人感覺非常簡潔。
我知道這裏可能有人誇魅族了,但先等等……
魅族還有一個「 Aicy 語音 」,而在這個 APP 的主頁面,卻沒有語音入口,需要進入下一級選單才能開啟場景化的語言助手功能。
而且,在 Aicy 語音裏,Mback 呼出語音助手功能是無效的。
這裏的互動邏輯,讓人感覺非常疑惑,就像是我們建了一棟房子,一樓沒有大門,要從二樓窗戶才能進入。
不過我還是要誇一句,魅族的 mback 真的很有靈氣。
回歸到日常使用體驗,我們從日常服務入手,先是最常用的語音助手功能。
比如開啟相簿,播放音樂,這個語音助手都會,不作演示。
我們現在把對話加長: 我想讓你幫我開啟一些 APP ,首先開啟相簿。
這裏華為小藝、OPPO 小布和小米小愛都能正確辨識並開啟相簿。
vivo 小 V 說超出了理解範圍……
魅族小溪也沒有開啟,但從對話來看,它似乎理解了我的請求,推薦了相簿套用。
那咱們再復雜一些,把相簿前面 「 開啟 」 這個關鍵詞去掉: 我想讓你幫我開啟一些APP,首先是相簿。
到這裏,小愛同學和小布都失敗了,「 開啟一些 」 成了幹擾因素,小愛同學是 APP 請求暫時無法支持,小布已經開始推薦其他 APP 了。
小 V 依然是超出理解範圍,魅族理解了,推薦了相簿套用, 只有華為成功 。
順便說一句,在這裏,沒有大模型的 Siri 也執行成功,小夥伴們可以試一下。
再復雜一點,變成多個 APP : 我想讓你幫我開啟一些 APP ,首先是相簿,再關閉,再開啟嗶哩嗶哩。
依然只有華為執行了操作。
可能有人會覺得這樣考驗語音助手的理解能力沒用,是我們在吹毛求疵, 那如果我們要它設定鬧鐘...
像我這樣起床困難戶,起床 起碼得設定 3 個鬧鐘吧: 請幫我設定明天早上的鬧鐘,一個七點五十,一個七點五十五,一個八點。
只有小藝三個鬧鐘全部設定成功,而其他鬧鐘只會讀取一個時間點設定鬧鐘。
我知道,此刻大家腦海裏都是那四個字啊。
就在我驚嘆小藝遙遙領先友商如此多時,測試其他 APP 時卻翻車了。
比如讓它們在美團上找外賣: 在美團上搜尋蛋炒飯
小 V 能成功辨識並找到蛋炒飯,小愛和小布同學能開啟美團。
而小藝卻無法執行。
可是如果換成京東、淘寶搜尋耳機,小藝卻能成功。
類似的,在嗶哩嗶哩搜尋央視新聞,小藝和小布會失敗,小 V 和小愛同學能成功。
在第三方 APP 執行指令,小 V 是表現最好的。
細心的朋友可能發現了,這裏我沒提魅族的 「 小溪 」 ,因為……
總的來說,小藝和小 V 各有勝負,小藝語言理解能力最好,但第三方 APP 操作層面,小 V 表現更佳。
而 「 小溪 」 語音助手和大模型好像是分開的,理解了我的指令,但沒有操作 APP 的許可權。
在計算層面,我們可以用大模型來幫我們做一些簡單的計算。
比如我去年真實遇到的一個機率問題,0.975 的 126 次方,這個數據手機助手都能計算正確,通關。
值得一提的是,這個數據前段時間大火的 kimi 計算出來卻是錯的。
再以常見的雞腿同籠問題測試,本來我以為大模型解決這類問題已經駕輕就熟啊,沒想到有位選手翻車了...
在這道題中: 一只籠子關著雞和兔子,有 76 只腿,26 個頭,雞和兔子分別有多少只?
大部份大模型都算出雞是 14 只,兔子 12 只,只有小愛同學是錯的,計算結果是雞 23 只,兔子 7 只。
這個結果我們測試了很多次...
更離譜的是,有時小愛同學還會列出二元一次方程式式,你以為它這次終於要算對了的時候,他的計算結果把兔子和雞顛倒了。
此刻,老狐大概體會到輔助一個學渣學習的痛苦了。
不知道雷總怎麽看這個結果。
在工作效率方面,
我們作為一個自媒體,最看重的自然是大模型在文稿方面的能力。
如果要讓總結一篇稿子的重點內容,它們表現怎樣呢?
我們找來了科技狐前段時間閱讀量超過百萬的一篇文章 。
然而,小愛和小布都沒有總結這種長文的能力,不能上傳 Word 文件,貼上文本有字數限制,它倆結束本項考核。
剩下的小 V 、小溪和小藝裏,小 V 有些本末倒置,有一半總結是文章引入,後面討論的內容被一筆帶過。相比之下,小溪和小藝總結得明顯更全面。
反過來,我又測試了它們寫稿子的水平,給出的指令是寫一篇關於輝達歷史發展的稿子,然後尷尬的來了。
小布和小溪開頭部份高度相似, 還出現了相同的錯誤。
在關於黃仁勛早期的一段描述,都寫到他曾在 1983 年這段時間在加州大學柏克萊分校攻讀博士學位。
事實上,這段時間,黃仁勛還在讀本科。
我猜,他倆同時參照了錯誤的資料來源,這確實挺讓人感到尷尬的。
小藝的稿子就像列重點,記流水賬。
小 V 也好不到哪去,幾乎每一段都是以年份開頭,簡單描述該年的公司重大事件。小藝和小 V 的結果都是編年體公司發展史。
想比之下,小愛生成的稿子可以用文采斐然來形容,分列了小標題,有重要產品介紹,有如今行業地位描述,最後還有兩段昇華。
除了這類科普式稿子,我們還讓它們寫 了產品推薦稿子,推薦 2000 元價位段手機。
小藝推薦了 3 款手機,其中數據可謂一塌糊塗,紅米 note 11 pro 相機和螢幕亂寫,reno 5 處理器和螢幕尺寸錯誤。
更離譜的是,華為暢享 X20 這款手機,市面上不存在,真正存在的機型是華為暢享 20 和榮耀 X20 。
華為和榮耀的關系,可能連大模型都誤解了。
唯一值得誇獎的是,小藝是沒有私心的,推薦了紅米和 OPPO 的產品。
小布和小 V 這倆貨私心就比較強了,只推薦自家品牌。
小布把自家 reno5 K 和 A93s 的處理器型號弄錯,小 V 在參數上沒有出現錯誤,而且是最新款,但推薦手機簡單列幾個參數賣點。
不知道大家發現沒有,小藝、小布和小 V 不管寫的多還是寫的少,都只推薦了三款,換到小愛時,它終於推薦了四款手機。
不過,產品參數上依然有錯誤,自家 note 12 pro 的相機參數錯誤,iQOO Z6 的充電功率也錯了。
魅族小溪參數錯誤最少,但也沒有避免,在 iQOO Z5 這款手機上,原本的屏 幕尺寸 6.67 寸寫成了 6.78 寸。
總的來 看,沒有值得信賴的大模型。
從文本形式上來看,小 V 和小愛羅列參數的形式不像一篇稿子。
小布和小溪文本看似還像稿子, 但每段推薦文章結構是一樣的,先寫處理器,在介紹螢幕,接著是影像,最後是電池和充電功率,缺少變化。
小藝的稿子變化多一些,但也是錯得最離譜的。
這些大模型的生成結果,沒有一個可以用的。
這些稿子都篇幅較短,且推薦機型較少。
我們再加一個條件,把字數擴充到 2000 字: 幫 我寫一篇稿子, 選題是 2000 元左右手機推薦,字數在 2000 字左右。
從結果來看,小 V 忽視了字數要求,幾乎沒有變化。
小愛兩次推薦都是 4 款手機,除了 iQOO Z6 沒變外,其他機型都發生了變化,為了增加字數,每款機型描述從特點變成了優缺點。
小藝的字數增加不多,機型也沒有變化。
小布增加了 2 款機型,字數增多了,但遠沒有 2000 字。
小溪在沒有增加機型的情況下 ,大幅增加了引入和總結篇幅,又加入了推薦原則與標準、購買建議和註意事項兩章,來達到字數要求,甚至自己把標題從推薦改成了深度推薦。
看 來大模型,也是懂得水字數的。
總的來說,在文本生成方面,結果都難以令人滿意,矮子裏我是真拔不出將軍。
除了文本,在影像方面,小藝、小溪目前不支持生成圖片。
小 V 、小布和小愛支持生成影像。
小愛同學無論畫什麽場景都維持著色彩濃郁的插畫風格。
小布的畫面偏向寫實。
而小 V 則是各種風格都有。
但在某些描寫細致的場景下,大模型並不能按照要求輸出圖片。
比如描述一個小女孩在賣火柴,小狗在旁邊睡著了,給出的結果小女孩都沒有在賣火柴。
而且他們 目前都不支持對生成圖片進行微調。
以上便是在模型裏我們常用的功能體驗,由於篇幅的關系,關於轉譯、寫程式碼等功能,我們不再介紹。
如果要評價這些手機大模型功能,我們要分開兩部份來看。
在語音助手部份,在大模型的加持下,手機對人類的自然語言的理解能力得到明顯提升。
所以我們可以讓語音助手幫我們做更多的事。
這部份華為手機最好,能夠實作一次下達多個指令讓它完成,雖然在 美團、嗶哩嗶哩這些 APP 上失敗了,但瑕不掩瑜。
其次是 vivo 、OPPO 、小米,最差的是魅族小溪。
我理解魅族做成開放式裝置與他人合作的模式,但在融入手機系統方面確實不盡如人意。
但在生成文本方面,手機大模型離理想效率還有較大差距。
他們生成的文章要點總結還行,寫出來的稿子要麽滿足不了需要,要麽錯誤很多,或者過於簡單,離夠用還有一段路要走。
值得一提的是,在完成這個計畫的尾聲,我們再次測試大模型推薦效果時,發現 vivo 的小 V 有了明顯進步。
再次讓它推薦 2000 元手機,雖然推薦結果還是 vivo 的三台手機,但是文本相比之前已經有了長足的進步,反而成為 5 台手機中生成效果最好的。
雖然 AI 大模型現在還不是消費者購買手機的一個考慮因素,但就像 vivo 一樣,整個 AI 領域的技術進步速度令人驚訝, 我相信大模型在未來會有廣闊的前景。
智慧型手機自誕生初期的 1993 年,到迎來爆發的 iPhone 時刻 ( iPhone 3G ) ,整整用了 15 年。
而智慧型手機上的 AI ,終究會迎來一個 iPhone 時刻。
編輯: 木易、aki