當前位置: 妍妍網 > 資訊

5 大手機實測!大模型新功能到底能幹啥?

2024-05-07資訊

如果你像老狐一樣關註手機釋出會的話啊,就會發現除了處理器、影像、螢幕、系統這些,最近有一個功能各大手機品牌會花很大篇幅去介紹。

但是,如果你買手機,前面的那些軟硬體是你會考慮的因素,而 AI 大模型,我想 99% 的人都不會考慮,是吧?

不可否認的是,AI 代表的是未來,而手機廠商都在往這方面投入高額的成本,那現在手機的大模型哪家最好用呢?

我們找來了華為、小米、OPPO 、vivo ,以及在看完別家釋出會後,自信心爆棚,又決定召開釋出會的魅族,他們的最新款旗艦手機。

看看這五家誰的大模型功能更強。

先介紹一下參數。

vivo X100 和 OPPO Find X7 用的是天璣 9300 , 按聯發科的說法,支持最高 330 億參數的大模型在 端側執行

vivo 宣傳手機大模型是端側 70 億加雲端 700 億 。

OPPO 這邊,安第斯大模型是 70 億端側加 1800 億雲端。

華為 Mate 60 Pro 芯片沒有側載大模型,而是透過雲端大模型來處理使用者需求,華為背後有盤古大模型團隊。

小米和魅族采用的高通驍龍 8 Gen3 ,支持端側 100 億參數大模型。

魅族的大模型 Flyme AI ,宣傳是開放式 AI 。 簡單來說,就是自己不開發,跟別的大模型團隊合作。

雷軍在去年 8 月的釋出會上提過小米跑通了 13 億規模的端側大模型,但到小米 14 釋出時卻沒有提。

所以,小米 14 、魅族 21 極有可能跟華為手機一樣,沒有側載大模型,或者不值一提。

在 AI 設定中,也能找到一些證據,find X7 支持離線圖線消除,vivo 支持本地圖片風格化和文件總結。

但在 Mate 60 Pro 、小米 14 和魅族 21 裏,沒有本地大模型的設定。

要說的是,OPPO 的離線和 vivo 的本地是有區別的。

OPPO 即便斷網,還 能消除畫面物體,vivo 一旦斷網,本地大模型不能使用。

以上是各家大模型的基本情況。

從參數來看,OPPO 的雲端 1800 億挺唬人,可是華為有盤古大模型,在大模型技術這一塊積累更深,大家覺得誰強?

各家手機廠商對於大模型的運用,都是將大模型融入原來的語音助手中,所以開啟方式還是包括 語音喚醒 長按電源鍵喚醒 耳機喚醒

不過各大廠家也有不同設計,華為和 OPPO 為語音助手提供了捷徑。

vivo 除了 「 藍心小 V 「」,還有「 Jovi 語音」,藍心小 V 是 Jovi 語音功能的一部份。

小米沒有 APP ,點進底部搜尋欄右側的小愛同學圖示即可進入大模型功能。如果經常使用搜尋功能,這樣設計很不錯。

但某原教旨主義資深米粉同事就表示,這個搜尋欄一定要取消,因為用不上還占螢幕。

最好的設計是魅族,長按底部橫條 mback 鍵就能進入語音助手,該方式呼出還支持識屏,在系統如影隨形,讓人感覺非常簡潔。

我知道這裏可能有人誇魅族了,但先等等……

魅族還有一個「 Aicy 語音 」,而在這個 APP 的主頁面,卻沒有語音入口,需要進入下一級選單才能開啟場景化的語言助手功能。

而且,在 Aicy 語音裏,Mback 呼出語音助手功能是無效的。

這裏的互動邏輯,讓人感覺非常疑惑,就像是我們建了一棟房子,一樓沒有大門,要從二樓窗戶才能進入。

不過我還是要誇一句,魅族的 mback 真的很有靈氣。

回歸到日常使用體驗,我們從日常服務入手,先是最常用的語音助手功能。

比如開啟相簿,播放音樂,這個語音助手都會,不作演示。

我們現在把對話加長: 我想讓你幫我開啟一些 APP ,首先開啟相簿。

這裏華為小藝、OPPO 小布和小米小愛都能正確辨識並開啟相簿。

vivo 小 V 說超出了理解範圍……

魅族小溪也沒有開啟,但從對話來看,它似乎理解了我的請求,推薦了相簿套用。

那咱們再復雜一些,把相簿前面 「 開啟 」 這個關鍵詞去掉: 我想讓你幫我開啟一些APP,首先是相簿。

到這裏,小愛同學和小布都失敗了,「 開啟一些 」 成了幹擾因素,小愛同學是 APP 請求暫時無法支持,小布已經開始推薦其他 APP 了。

小 V 依然是超出理解範圍,魅族理解了,推薦了相簿套用, 只有華為成功

順便說一句,在這裏,沒有大模型的 Siri 也執行成功,小夥伴們可以試一下。

再復雜一點,變成多個 APP : 我想讓你幫我開啟一些 APP ,首先是相簿,再關閉,再開啟嗶哩嗶哩。

依然只有華為執行了操作。

可能有人會覺得這樣考驗語音助手的理解能力沒用,是我們在吹毛求疵, 那如果我們要它設定鬧鐘...

像我這樣起床困難戶,起床 起碼得設定 3 個鬧鐘吧: 請幫我設定明天早上的鬧鐘,一個七點五十,一個七點五十五,一個八點。

只有小藝三個鬧鐘全部設定成功,而其他鬧鐘只會讀取一個時間點設定鬧鐘。

我知道,此刻大家腦海裏都是那四個字啊。

就在我驚嘆小藝遙遙領先友商如此多時,測試其他 APP 時卻翻車了。

比如讓它們在美團上找外賣: 在美團上搜尋蛋炒飯

小 V 能成功辨識並找到蛋炒飯,小愛和小布同學能開啟美團。

而小藝卻無法執行。

可是如果換成京東、淘寶搜尋耳機,小藝卻能成功。

類似的,在嗶哩嗶哩搜尋央視新聞,小藝和小布會失敗,小 V 和小愛同學能成功。

在第三方 APP 執行指令,小 V 是表現最好的。

細心的朋友可能發現了,這裏我沒提魅族的 「 小溪 」 ,因為……

總的來說,小藝和小 V 各有勝負,小藝語言理解能力最好,但第三方 APP 操作層面,小 V 表現更佳。

小溪 語音助手和大模型好像是分開的,理解了我的指令,但沒有操作 APP 的許可權。

在計算層面,我們可以用大模型來幫我們做一些簡單的計算。

比如我去年真實遇到的一個機率問題,0.975 的 126 次方,這個數據手機助手都能計算正確,通關。

值得一提的是,這個數據前段時間大火的 kimi 計算出來卻是錯的。

再以常見的雞腿同籠問題測試,本來我以為大模型解決這類問題已經駕輕就熟啊,沒想到有位選手翻車了...

在這道題中: 一只籠子關著雞和兔子,有 76 只腿,26 個頭,雞和兔子分別有多少只?

大部份大模型都算出雞是 14 只,兔子 12 只,只有小愛同學是錯的,計算結果是雞 23 只,兔子 7 只。

這個結果我們測試了很多次...

更離譜的是,有時小愛同學還會列出二元一次方程式式,你以為它這次終於要算對了的時候,他的計算結果把兔子和雞顛倒了。

此刻,老狐大概體會到輔助一個學渣學習的痛苦了。

不知道雷總怎麽看這個結果。

在工作效率方面, 我們作為一個自媒體,最看重的自然是大模型在文稿方面的能力。

如果要讓總結一篇稿子的重點內容,它們表現怎樣呢?

我們找來了科技狐前段時間閱讀量超過百萬的一篇文章

然而,小愛和小布都沒有總結這種長文的能力,不能上傳 Word 文件,貼上文本有字數限制,它倆結束本項考核。

剩下的小 V 、小溪和小藝裏,小 V 有些本末倒置,有一半總結是文章引入,後面討論的內容被一筆帶過。相比之下,小溪和小藝總結得明顯更全面。

反過來,我又測試了它們寫稿子的水平,給出的指令是寫一篇關於輝達歷史發展的稿子,然後尷尬的來了。

小布和小溪開頭部份高度相似, 還出現了相同的錯誤。

在關於黃仁勛早期的一段描述,都寫到他曾在 1983 年這段時間在加州大學柏克萊分校攻讀博士學位。

事實上,這段時間,黃仁勛還在讀本科。

我猜,他倆同時參照了錯誤的資料來源,這確實挺讓人感到尷尬的。

小藝的稿子就像列重點,記流水賬。

小 V 也好不到哪去,幾乎每一段都是以年份開頭,簡單描述該年的公司重大事件。小藝和小 V 的結果都是編年體公司發展史。

想比之下,小愛生成的稿子可以用文采斐然來形容,分列了小標題,有重要產品介紹,有如今行業地位描述,最後還有兩段昇華。

除了這類科普式稿子,我們還讓它們寫 了產品推薦稿子,推薦 2000 元價位段手機。

小藝推薦了 3 款手機,其中數據可謂一塌糊塗,紅米 note 11 pro 相機和螢幕亂寫,reno 5 處理器和螢幕尺寸錯誤。

更離譜的是,華為暢享 X20 這款手機,市面上不存在,真正存在的機型是華為暢享 20 和榮耀 X20 。

華為和榮耀的關系,可能連大模型都誤解了。

唯一值得誇獎的是,小藝是沒有私心的,推薦了紅米和 OPPO 的產品。

小布和小 V 這倆貨私心就比較強了,只推薦自家品牌。

小布把自家 reno5 K 和 A93s 的處理器型號弄錯,小 V 在參數上沒有出現錯誤,而且是最新款,但推薦手機簡單列幾個參數賣點。

不知道大家發現沒有,小藝、小布和小 V 不管寫的多還是寫的少,都只推薦了三款,換到小愛時,它終於推薦了四款手機。

不過,產品參數上依然有錯誤,自家 note 12 pro 的相機參數錯誤,iQOO Z6 的充電功率也錯了。

魅族小溪參數錯誤最少,但也沒有避免,在 iQOO Z5 這款手機上,原本的屏 幕尺寸 6.67 寸寫成了 6.78 寸。

總的來 看,沒有值得信賴的大模型。

從文本形式上來看,小 V 和小愛羅列參數的形式不像一篇稿子。

小布和小溪文本看似還像稿子, 但每段推薦文章結構是一樣的,先寫處理器,在介紹螢幕,接著是影像,最後是電池和充電功率,缺少變化。

小藝的稿子變化多一些,但也是錯得最離譜的。

這些大模型的生成結果,沒有一個可以用的。

這些稿子都篇幅較短,且推薦機型較少。

我們再加一個條件,把字數擴充到 2000 字: 我寫一篇稿子, 選題是 2000 元左右手機推薦,字數在 2000 字左右。

從結果來看,小 V 忽視了字數要求,幾乎沒有變化。

小愛兩次推薦都是 4 款手機,除了 iQOO Z6 沒變外,其他機型都發生了變化,為了增加字數,每款機型描述從特點變成了優缺點。

小藝的字數增加不多,機型也沒有變化。

小布增加了 2 款機型,字數增多了,但遠沒有 2000 字。

小溪在沒有增加機型的情況下 ,大幅增加了引入和總結篇幅,又加入了推薦原則與標準、購買建議和註意事項兩章,來達到字數要求,甚至自己把標題從推薦改成了深度推薦。

來大模型,也是懂得水字數的。

總的來說,在文本生成方面,結果都難以令人滿意,矮子裏我是真拔不出將軍。

除了文本,在影像方面,小藝、小溪目前不支持生成圖片。

小 V 、小布和小愛支持生成影像。

小愛同學無論畫什麽場景都維持著色彩濃郁的插畫風格。

小布的畫面偏向寫實。

而小 V 則是各種風格都有。

但在某些描寫細致的場景下,大模型並不能按照要求輸出圖片。

比如描述一個小女孩在賣火柴,小狗在旁邊睡著了,給出的結果小女孩都沒有在賣火柴。

而且他們 目前都不支持對生成圖片進行微調。

以上便是在模型裏我們常用的功能體驗,由於篇幅的關系,關於轉譯、寫程式碼等功能,我們不再介紹。

如果要評價這些手機大模型功能,我們要分開兩部份來看。

在語音助手部份,在大模型的加持下,手機對人類的自然語言的理解能力得到明顯提升。

所以我們可以讓語音助手幫我們做更多的事。

這部份華為手機最好,能夠實作一次下達多個指令讓它完成,雖然在 美團、嗶哩嗶哩這些 APP 上失敗了,但瑕不掩瑜。

其次是 vivo 、OPPO 、小米,最差的是魅族小溪。

我理解魅族做成開放式裝置與他人合作的模式,但在融入手機系統方面確實不盡如人意。

但在生成文本方面,手機大模型離理想效率還有較大差距。

他們生成的文章要點總結還行,寫出來的稿子要麽滿足不了需要,要麽錯誤很多,或者過於簡單,離夠用還有一段路要走。

值得一提的是,在完成這個計畫的尾聲,我們再次測試大模型推薦效果時,發現 vivo 的小 V 有了明顯進步。

再次讓它推薦 2000 元手機,雖然推薦結果還是 vivo 的三台手機,但是文本相比之前已經有了長足的進步,反而成為 5 台手機中生成效果最好的。

雖然 AI 大模型現在還不是消費者購買手機的一個考慮因素,但就像 vivo 一樣,整個 AI 領域的技術進步速度令人驚訝, 我相信大模型在未來會有廣闊的前景。

智慧型手機自誕生初期的 1993 年,到迎來爆發的 iPhone 時刻 ( iPhone 3G ) ,整整用了 15 年。

而智慧型手機上的 AI ,終究會迎來一個 iPhone 時刻。

編輯: 木易、aki