當前位置: 妍妍網 > 資訊

八款國產 AI 地獄挑戰 2024 高考數學壓軸大題:只給一張模糊拍屏,從讀題開始考驗!

2024-06-07資訊

在這個「多模態元年」裏,AI 展現了知識評估從單一文本向跨媒體認知與協同問題解決的前進演化趨勢。於是, 我們今年給 AI 的「高考大題」可不只是寫作文而已

文 | 王啟隆

編 | 唐小引

出品丨AI 科技大本營(ID:rgznai100)

一年一度的高考在大雨中掀開帷幕。今年語文考試的「新課標 I 卷」與人工智慧有關,激發了廣泛的社會討論:有人認為人工智慧是「超綱」問題,因為不是所有學生都用過 AI 產品;有人認為這就是標準的議論文問題,「so eazy」。

考試結束後,教育部教育考試院隨即釋出了他們的命題思路。

隨著午後的陽光逐漸驅散了早晨的涼意,戰場轉移到了數學的疆域。2022 年高考數學的壓軸大題因其難度被許多網友一直惦記著,那今年的難度又如何呢?我們找來了當前主流的 款國產大模型 挑戰 今年「新課標 I 卷」的壓軸大題 ,看看 AI 目前的數學能力表現如何。

但是先等等 —— 2024 年的 AI,已經不需要人類手打文字問題啦!今年的 AI 圈熱詞一直都是「多模態」,所以我們將直接把圖丟給這八款主流大模型,讓它們從「讀題」這一步開始進行全方面考驗。

而且,目前官方的數學真題還沒正式放出,只有網路上流傳的「 手寫版試卷 」,所以,我們的測試內容也將是這些「超糊手寫拍屏」,看看當前大模型的多模態能力是否能準確辨識出這些模糊的字跡,以下便是我們將送出給 AI 的「2024 數學壓軸大題」:

如果你沒看清這張圖上的字,請以下面這張高畫質大圖作為參考:

對於接下來挑戰視覺辨識失敗的大模型,我們也會給它們提供這張高畫質圖片,讓它們進行補測作為更基礎的圖片辨識與數學能力方面的考驗(全程還是不會輸入文字題目,只有圖片)。

話不多說,馬上開始。

溫馨提示:挑戰內容僅供娛樂,不能代表大模型能力上限!

通義千問

阿裏雲的通義千問,我們將選用五月更新的最新版本客戶端:「通義千問 2.5」。值得一提的是,今天阿裏雲還開源了最新的 Qwen2 大模型,並且登頂 Hugging Face 榜首,我們可以在未來 2024 高考數學真題正式上線後進行測試。

通義千問首先認出了這是道「等差數列」的問題,順帶確認了題目中提到的「可分數列」是什麽。

然後,通義千問開始逐步給出每一小題的答案:

  • 第一小題

  • 第二小題

  • 第三小題

  • 訊飛星火

    下一位闖關者是科大訊飛旗下的訊飛星火,而星火 AI 則是先將自己的解題思路梳理了一遍:

  • 第一小題

  • 訊飛星火居然記得寫「解」,值得稱贊;但直接給出答案可以拿滿這小題的全部份數嗎?

  • 第二小題

  • 第二小題寫得非常長,希望星火的試卷上還有位置。

  • 第三小題

  • 第三小題解的也很有模有樣,你覺得星火寫對了嗎?

    字節豆包

    字節的豆包 App 裏內建了一個非常顯眼的「學習小助手」智慧體,告訴我不用給她打字,只發張圖就能解題,讓我們試試:

    豆包省略了第三小題的計算過程,請考生不要模仿。

    Kimi 智慧助手

    接下來是月之暗面的 Kimi Chat,這款大模型以上下文長度著稱,不知道面臨數學壓軸大題可以給出什麽樣的答案:

    看來這份「超糊拍屏」還是難度不小,Kimi 還將 a4m+2 也認成了 am+2,但它依舊頂著壓力給出了一些有用的解題建議。

    既然 Kimi 主動要求我們提供更清晰的問題描述,那麽接下來補測一輪,看看效果:

    騰訊元寶

    基於騰訊混元大模型的 AI 產品元寶 App 於 5 月 30 日釋出,既然如此,我們就在移動端上看看它的表現如何:

    百度文心一言

    下一位接受挑戰的是百度的文心 4.0(目前最新版本為 4.0),它給出了一份相當簡單明了的解答,不知道閱卷老師會不會喜歡:

    既然文心一言表示圖片中的文本資訊有限,那我們自然是給出更清晰的題目圖片,看看它會如何作答:

    智譜清言

    智譜 AI 的 ChatGLM-4 也沒能從這張模糊的圖片裏看出字來,但它也沒有生成 幻覺強加回答,而是讓我們手動輸入數學題目的具體內容。

    既然你主動要求了,那我們也可以照做,試一下純粹的數學測試會得到什麽答案。ChatGLM 給出了解題思路,並表示這道大題可以分為兩個部份來解決:

    讓我們開始……列舉?

    原來,它的列舉是透過程式碼生成實作的,這種思維確實非常的 AI,但不適用於使用紙筆考試的高考考生。

    以上是 ChatGLM 對後兩個小題的回答,你會給幾分呢?

    百川百小應

    5 月 22 日,百川智慧釋出了最新一代基座大模型 Baichuan 4,同時推出了首款 AI 助手「百小應」。 面對這張超模糊的「地獄級挑戰」, 百小應給出了一份幻覺。 但在給出了高畫質的題目圖之後,百小應進行了出色的解答:

    彩蛋

    號稱「全能」的 ChatGPT-4o 表現如何?

    今年 OpenAI 的幾場釋出會上,GPT-4o 大秀了一把,還展示過辨認主持人的手寫字跡的能力。這次的挑戰內容其實理應是 GPT-4o 的強項,因為這是一個主打多模態能力的模型,其名字中的「o」正是「Omni」(全能)的意思。

    4o 首先將題目大意 完整復述了一遍

    4o 的第一步並不是直接開始解第一小題,而是理解所謂數列的特性究竟是什麽:

    緊接著是第一小題,4o 直接畫了個矩陣出來:

    第二和第三小題,沒有給出完整的解題過程,而是提供了解題思路:

    但這可是考試,不給出完整過程怎麽行呢?可惜在重試了幾次之後,4o 還是拒絕了我,「臣妾不幹了」。

    這事實上也是近期許多人發現的問題:GPT-4o 的答案更快、更聰明,適合日常生活;但 GPT-4-Turbo 能生成更細致完整的內容。

    另外,提到多模態能力,其實不止有「 」,「 」也是很重要的一大模態,你覺得給這幾個大模型測試英語聽力會不會很有趣呢?歡迎在評論區留下你準備給 AI 的下一項挑戰內容。

    最後, 祝每一位考生 在考場上鎮定自若,思路清晰,每一道題都能迎刃而解。 無論結果如何,這段奮鬥的歲月都將化作人生中最寶貴的財富。

    開發者正在迎接新一輪的技術浪潮變革。由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的 2024 年度「全球軟體研發技術大會」秉承幹貨實料(案例)的內容原則,將於 7 月 4 日-5 日在北京正式舉辦。大會共設定了 12 個大會主題:大模型智慧套用開發、軟體開發智慧化、AI 與 ML 智慧運維、雲原生架構……詳情👉: http://sdcon.com.cn/