当前位置: 欣欣网 > 资讯

5 大手机实测!大模型新功能到底能干啥?

2024-05-07资讯

如果你像老狐一样关注手机发布会的话啊,就会发现除了处理器、影像、屏幕、系统这些,最近有一个功能各大手机品牌会花很大篇幅去介绍。

但是,如果你买手机,前面的那些软硬件是你会考虑的因素,而 AI 大模型,我想 99% 的人都不会考虑,是吧?

不可否认的是,AI 代表的是未来,而手机厂商都在往这方面投入高额的成本,那现在手机的大模型哪家最好用呢?

我们找来了华为、小米、OPPO 、vivo ,以及在看完别家发布会后,自信心爆棚,又决定召开发布会的魅族,他们的最新款旗舰手机。

看看这五家谁的大模型功能更强。

先介绍一下参数。

vivo X100 和 OPPO Find X7 用的是天玑 9300 , 按联发科的说法,支持最高 330 亿参数的大模型在 端侧运行

vivo 宣传手机大模型是端侧 70 亿加云端 700 亿 。

OPPO 这边,安第斯大模型是 70 亿端侧加 1800 亿云端。

华为 Mate 60 Pro 芯片没有侧载大模型,而是通过云端大模型来处理用户需求,华为背后有盘古大模型团队。

小米和魅族采用的高通骁龙 8 Gen3 ,支持端侧 100 亿参数大模型。

魅族的大模型 Flyme AI ,宣传是开放式 AI 。 简单来说,就是自己不开发,跟别的大模型团队合作。

雷军在去年 8 月的发布会上提过小米跑通了 13 亿规模的端侧大模型,但到小米 14 发布时却没有提。

所以,小米 14 、魅族 21 极有可能跟华为手机一样,没有侧载大模型,或者不值一提。

在 AI 设置中,也能找到一些证据,find X7 支持离线图线消除,vivo 支持本地图片风格化和文档总结。

但在 Mate 60 Pro 、小米 14 和魅族 21 里,没有本地大模型的设置。

要说的是,OPPO 的离线和 vivo 的本地是有区别的。

OPPO 即便断网,还 能消除画面物体,vivo 一旦断网,本地大模型不能使用。

以上是各家大模型的基本情况。

从参数来看,OPPO 的云端 1800 亿挺唬人,可是华为有盘古大模型,在大模型技术这一块积累更深,大家觉得谁强?

各家手机厂商对于大模型的运用,都是将大模型融入原来的语音助手中,所以打开方式还是包括 语音唤醒 长按电源键唤醒 耳机唤醒

不过各大厂家也有不同设计,华为和 OPPO 为语音助手提供了快捷方式。

vivo 除了 「 蓝心小 V 「」,还有「 Jovi 语音」,蓝心小 V 是 Jovi 语音功能的一部分。

小米没有 APP ,点进底部搜索栏右侧的小爱同学图标即可进入大模型功能。如果经常使用搜索功能,这样设计很不错。

但某原教旨主义资深米粉同事就表示,这个搜索栏一定要取消,因为用不上还占屏幕。

最好的设计是魅族,长按底部横条 mback 键就能进入语音助手,该方式呼出还支持识屏,在系统如影随形,让人感觉非常简洁。

我知道这里可能有人夸魅族了,但先等等……

魅族还有一个「 Aicy 语音 」,而在这个 APP 的主页面,却没有语音入口,需要进入下一级菜单才能开启场景化的语言助手功能。

而且,在 Aicy 语音里,Mback 呼出语音助手功能是无效的。

这里的交互逻辑,让人感觉非常疑惑,就像是我们建了一栋房子,一楼没有大门,要从二楼窗户才能进入。

不过我还是要夸一句,魅族的 mback 真的很有灵气。

回归到日常使用体验,我们从日常服务入手,先是最常用的语音助手功能。

比如打开相册,播放音乐,这个语音助手都会,不作演示。

我们现在把对话加长: 我想让你帮我打开一些 APP ,首先打开相册。

这里华为小艺、OPPO 小布和小米小爱都能正确识别并打开相册。

vivo 小 V 说超出了理解范围……

魅族小溪也没有打开,但从对话来看,它似乎理解了我的请求,推荐了相册应用。

那咱们再复杂一些,把相册前面 「 打开 」 这个关键词去掉: 我想让你帮我打开一些APP,首先是相册。

到这里,小爱同学和小布都失败了,「 打开一些 」 成了干扰因素,小爱同学是 APP 请求暂时无法支持,小布已经开始推荐其他 APP 了。

小 V 依然是超出理解范围,魅族理解了,推荐了相册应用, 只有华为成功

顺便说一句,在这里,没有大模型的 Siri 也执行成功,小伙伴们可以试一下。

再复杂一点,变成多个 APP : 我想让你帮我打开一些 APP ,首先是相册,再关闭,再打开哔哩哔哩。

依然只有华为执行了操作。

可能有人会觉得这样考验语音助手的理解能力没用,是我们在吹毛求疵, 那如果我们要它设置闹钟...

像我这样起床困难户,起床 起码得设置 3 个闹钟吧: 请帮我设置明天早上的闹钟,一个七点五十,一个七点五十五,一个八点。

只有小艺三个闹钟全部设置成功,而其他闹钟只会读取一个时间点设置闹钟。

我知道,此刻大家脑海里都是那四个字啊。

就在我惊叹小艺遥遥领先友商如此多时,测试其他 APP 时却翻车了。

比如让它们在美团上找外卖: 在美团上搜索蛋炒饭

小 V 能成功识别并找到蛋炒饭,小爱和小布同学能打开美团。

而小艺却无法执行。

可是如果换成京东、淘宝搜索耳机,小艺却能成功。

类似的,在哔哩哔哩搜索央视新闻,小艺和小布会失败,小 V 和小爱同学能成功。

在第三方 APP 执行指令,小 V 是表现最好的。

细心的朋友可能发现了,这里我没提魅族的 「 小溪 」 ,因为……

总的来说,小艺和小 V 各有胜负,小艺语言理解能力最好,但第三方 APP 操作层面,小 V 表现更佳。

小溪 语音助手和大模型好像是分开的,理解了我的指令,但没有操作 APP 的权限。

在计算层面,我们可以用大模型来帮我们做一些简单的计算。

比如我去年真实遇到的一个概率问题,0.975 的 126 次方,这个数据手机助手都能计算正确,通关。

值得一提的是,这个数据前段时间大火的 kimi 计算出来却是错的。

再以常见的鸡腿同笼问题测试,本来我以为大模型解决这类问题已经驾轻就熟啊,没想到有位选手翻车了...

在这道题中: 一只笼子关着鸡和兔子,有 76 只腿,26 个头,鸡和兔子分别有多少只?

大部分大模型都算出鸡是 14 只,兔子 12 只,只有小爱同学是错的,计算结果是鸡 23 只,兔子 7 只。

这个结果我们测试了很多次...

更离谱的是,有时小爱同学还会列出二元一次方程式,你以为它这次终于要算对了的时候,他的计算结果把兔子和鸡颠倒了。

此刻,老狐大概体会到辅助一个学渣学习的痛苦了。

不知道雷总怎么看这个结果。

在工作效率方面, 我们作为一个自媒体,最看重的自然是大模型在文稿方面的能力。

如果要让总结一篇稿子的重点内容,它们表现怎样呢?

我们找来了科技狐前段时间阅读量超过百万的一篇文章

然而,小爱和小布都没有总结这种长文的能力,不能上传 Word 文档,粘贴文本有字数限制,它俩退出本项考核。

剩下的小 V 、小溪和小艺里,小 V 有些本末倒置,有一半总结是文章引入,后面讨论的内容被一笔带过。相比之下,小溪和小艺总结得明显更全面。

反过来,我又测试了它们写稿子的水平,给出的指令是写一篇关于英伟达历史发展的稿子,然后尴尬的来了。

小布和小溪开头部分高度相似, 还出现了相同的错误。

在关于黄仁勋早期的一段描述,都写到他曾在 1983 年这段时间在加州大学伯克利分校攻读博士学位。

事实上,这段时间,黄仁勋还在读本科。

我猜,他俩同时引用了错误的资料来源,这确实挺让人感到尴尬的。

小艺的稿子就像列重点,记流水账。

小 V 也好不到哪去,几乎每一段都是以年份开头,简单描述该年的公司重大事件。小艺和小 V 的结果都是编年体公司发展史。

想比之下,小爱生成的稿子可以用文采斐然来形容,分列了小标题,有重要产品介绍,有如今行业地位描述,最后还有两段升华。

除了这类科普式稿子,我们还让它们写 了产品推荐稿子,推荐 2000 元价位段手机。

小艺推荐了 3 款手机,其中数据可谓一塌糊涂,红米 note 11 pro 相机和屏幕乱写,reno 5 处理器和屏幕尺寸错误。

更离谱的是,华为畅享 X20 这款手机,市面上不存在,真正存在的机型是华为畅享 20 和荣耀 X20 。

华为和荣耀的关系,可能连大模型都误解了。

唯一值得夸奖的是,小艺是没有私心的,推荐了红米和 OPPO 的产品。

小布和小 V 这俩货私心就比较强了,只推荐自家品牌。

小布把自家 reno5 K 和 A93s 的处理器型号弄错,小 V 在参数上没有出现错误,而且是最新款,但推荐手机简单列几个参数卖点。

不知道大家发现没有,小艺、小布和小 V 不管写的多还是写的少,都只推荐了三款,换到小爱时,它终于推荐了四款手机。

不过,产品参数上依然有错误,自家 note 12 pro 的相机参数错误,iQOO Z6 的充电功率也错了。

魅族小溪参数错误最少,但也没有避免,在 iQOO Z5 这款手机上,原本的屏 幕尺寸 6.67 寸写成了 6.78 寸。

总的来 看,没有值得信赖的大模型。

从文本形式上来看,小 V 和小爱罗列参数的形式不像一篇稿子。

小布和小溪文本看似还像稿子, 但每段推荐文章结构是一样的,先写处理器,在介绍屏幕,接着是影像,最后是电池和充电功率,缺少变化。

小艺的稿子变化多一些,但也是错得最离谱的。

这些大模型的生成结果,没有一个可以用的。

这些稿子都篇幅较短,且推荐机型较少。

我们再加一个条件,把字数扩充到 2000 字: 我写一篇稿子, 选题是 2000 元左右手机推荐,字数在 2000 字左右。

从结果来看,小 V 忽视了字数要求,几乎没有变化。

小爱两次推荐都是 4 款手机,除了 iQOO Z6 没变外,其他机型都发生了变化,为了增加字数,每款机型描述从特点变成了优缺点。

小艺的字数增加不多,机型也没有变化。

小布增加了 2 款机型,字数增多了,但远没有 2000 字。

小溪在没有增加机型的情况下 ,大幅增加了引入和总结篇幅,又加入了推荐原则与标准、购买建议和注意事项两章,来达到字数要求,甚至自己把标题从推荐改成了深度推荐。

来大模型,也是懂得水字数的。

总的来说,在文本生成方面,结果都难以令人满意,矮子里我是真拔不出将军。

除了文本,在图像方面,小艺、小溪目前不支持生成图片。

小 V 、小布和小爱支持生成图像。

小爱同学无论画什么场景都维持着色彩浓郁的插画风格。

小布的画面偏向写实。

而小 V 则是各种风格都有。

但在某些描写细致的场景下,大模型并不能按照要求输出图片。

比如描述一个小女孩在卖火柴,小狗在旁边睡着了,给出的结果小女孩都没有在卖火柴。

而且他们 目前都不支持对生成图片进行微调。

以上便是在模型里我们常用的功能体验,由于篇幅的关系,关于翻译、写代码等功能,我们不再介绍。

如果要评价这些手机大模型功能,我们要分开两部分来看。

在语音助手部分,在大模型的加持下,手机对人类的自然语言的理解能力得到明显提升。

所以我们可以让语音助手帮我们做更多的事。

这部分华为手机最好,能够实现一次下达多个指令让它完成,虽然在 美团、哔哩哔哩这些 APP 上失败了,但瑕不掩瑜。

其次是 vivo 、OPPO 、小米,最差的是魅族小溪。

我理解魅族做成开放式设备与他人合作的模式,但在融入手机系统方面确实不尽如人意。

但在生成文本方面,手机大模型离理想效率还有较大差距。

他们生成的文章要点总结还行,写出来的稿子要么满足不了需要,要么错误很多,或者过于简单,离够用还有一段路要走。

值得一提的是,在完成这个项目的尾声,我们再次测试大模型推荐效果时,发现 vivo 的小 V 有了明显进步。

再次让它推荐 2000 元手机,虽然推荐结果还是 vivo 的三台手机,但是文本相比之前已经有了长足的进步,反而成为 5 台手机中生成效果最好的。

虽然 AI 大模型现在还不是消费者购买手机的一个考虑因素,但就像 vivo 一样,整个 AI 领域的技术进步速度令人惊讶, 我相信大模型在未来会有广阔的前景。

智能手机自诞生初期的 1993 年,到迎来爆发的 iPhone 时刻 ( iPhone 3G ) ,整整用了 15 年。

而智能手机上的 AI ,终究会迎来一个 iPhone 时刻。

编辑: 木易、aki