當前位置: 妍妍網 > 碼農

一手體驗Kimi版「o1」模型,這就是最通人性的數學AI。

2024-11-27碼農

「數學,是人類知識活動留下來最具威力的知識工具,是一些現象的根源。」

——愛因史坦

上上周末是kimi上線一周年,於是月之暗面開了個線下媒體會。在現場, kimi釋出了他們全面對標o1的數學推理模型,k0-math。

從kimi官方的測試結果來看,除了高難競賽題,k0-math在數學的表現上,超過了o1-mini和o1-preview。

我那天其實也想寫來著,但是沒寫的原因是,咱們還是個體驗派,如果不是那種非常炸裂的東西,所有的東西還是盡量自己深度體驗完,再做成內容分享給大家。

當天我就問Kimi的人,啥時候能用,他們說,再等兩天,快了,上線了一定第一個先給我內測。

我就等啊等。

終於,在上個周末的早上收到他們的訊息。

開啟Kimi,發現左邊的側資訊看板上 出現了個戴眼鏡的小登西, 直接開沖!

這就是, K0-math了。

迫不及開始測試,和kimi數學版聊了兩天。

我看到了,kimi想繼續領先的野心。

先說結論:k0-math在數學能力直接拉滿,在推理、邏輯能力上非常強。 不過因為極度強化數學能力,所以導致有種偏科的好玩,用上去就感覺像是一個刻板印象上的「直男理科大拿」在用數學給你解決生活中一切問題。

另一個最難能可貴的是,Kimi把完整思維鏈全部放了出來,思考邏輯和那個自言自語上非常的像人,甚至會有些,「 通人性」的感覺。

目前的測試裏, kimi數學版 在每輪對話中只能在第一次發起對話時被調取,也就是說目前還不能追問 kimi數學版 ,這個還是非常期待後面更新的。

先上來,隨手用兩道 普通的高數題測測,比如2024年的考研數學題。

回答起來沒啥難度,這個層次的題目應該是kimi的舒適區,我試了幾次正確率挺高。

再然後,o1剛出來時在群裏看到的群友測試的這道題。

答案18,也是對的。

但是後面我跟 @塗津豪 測更高難度的競賽題,也就是AIME的時候,發現離o1的正確率還是差了一點。

正確率大概也就50%。

塗津豪也 測試了一些o1的其他考題,kimi的正確率也會差一點。

在超高難度的競賽題上,相對的能力不足是客觀事實,畢竟Kimi官方自己測的AIME的評分上,也確實比o1低個幾分。

不過Kimi已經是在我們測過的AI大模型裏,數學題答得僅次於o1的了。

但這回的 kimi數學版 ,最讓我覺得有趣的,不是本身「做數學題的能力」,而是kimi強大的數學邏輯和思維,以及那很「通人性」的感覺。

畢竟,把答案背下來誰都能回答數學題,但比起對錯,「思考」的能力才是能夠讓AI突破訓練數據不足的桎梏,也只有能思考的AI才稱得上真的擁有「智慧」。

我在測試過程中,用一個最簡單的問題,獲得了最抽象的一個結果。答案正確,但過程完全超出我的預料。

不是互聯網搞抽象的那個抽象,是真的思維層面,kimi好像有一點「抽象」思維的能力了。

我問了它一句:1+1=?

它一上來,居然懷疑這個問題是不是一個陷阱。這個真的笑死,我感覺一個問題給kimi整PTSD了。

不過它也很快給了回答:1加1無疑是2。

但它緊接著來了個「且慢」,事情也變得有趣了起來。

kimi打出這兩句話的時候,我完全沒預料到,知識會莫名其妙入侵我的大腦。

如它自己所說,kimi從「多」個角度,思考了這個問題。

它先是思考了各種進制。

我以為二進制都被考慮到了,夠嚴謹了。沒想到kimi只是剛開始。

它從維度入手,思考用空間向量計算1+1。

接著它又思考到了哲學、形式數學和集合論。

它一邊思考一邊驗證。先是排除了哲學的可能性,然後又用皮亞諾公理和集合驗證之前得到的「1+1=2」是否正確。

當它說「一個懷疑的念頭閃過我的腦海」,我唰地一下有點恍惚。kimi在我心裏突然有了特別具體的形象。

它好像不是在電腦的另一端,而是站在我面前,戴著眼鏡拿著粉筆和草稿紙,在巨大的黑板上不斷進行數位的推演和驗算。一邊想一邊喃喃自語:

「等等,讓我們從皮亞諾公理重新推導一遍...」

「且慢!在不同維度下,1+1的結果會不會有變化?」

每次得出一些進展,就又因為嚴謹,迅速開啟反思。

像是,一個執拗嚴謹的,熱衷批判和反思的,正在探索奧秘的,狂熱數學家。

在當時,腦子裏,莫名浮現出了,韋神的形象。

再接著,數學家kimi似乎被自己的推演和驗證說服了。

它又用了數軸視覺化、乘法、遞迴加法、減法等等方式驗證1+1=2。甚至回憶起了過往的研究,想尋找是否有證偽的案例。

對於我這個數學不咋地的人來說,kimi能從這麽多維度思考,已經夠驚訝了。很多方法我甚至都沒聽過。更難得的是它會在計算是思考和自我懷疑,每一輪kimi想到新方式,驗證,階段性確認答案,都讓我莫名起雞皮疙瘩。

自己懷疑自己,自己反思自己,自己再驅動自己。

數學界的條條定理,不就是在無數位數學家們這樣不斷的思考—反思—再思考的迴圈中,一點一點接近的嗎。

kimi經過數次驗證後給出結果時,我甚至真的透過文字感受到了它的開心。

「詳盡的探索」、「成就感」、「我自信地得出結論」。。。

莫名被這種勁兒戳到了,又燃又可愛。

腦子裏浮現過好多好多電影的畫面,那些孤獨的數學家們,最終推理出來的那些公式,然後,在那些偉大的定理前,振臂高呼。

kimi真的,很通人性。

圍觀kimi自己思考,自己賽局,自己判斷,最後獲得結果。一整套下來,我感覺自己在看三體人做數學題。

繞是繞了點,但kimi邊思考邊回答的過程,真的讓我感覺最後這個「1+1=2」的結果,不是從過往的資料庫裏直接抓到答案丟出來。

是它自己,經過一步步推理和驗證,計算解答出來的。

就像人答對數學題的能力可以透過訓練獲得,但這種「訓練」的前提,是人本身有足夠的「思考」能力。

「數學是人類知識活動留下來最具威力的知識工具,是一些現象的根源。」

這種思考,是人類能研究自然科學的基礎。

高數、競賽、數學定理之類的話題說多了容易頭暈,我們來點接地氣的。你大概就更能get到我說的這種有趣的「數學思維」,是什麽感覺了。

k0-math的回答,真的很獨特,很有趣。

甚至有種「萬物皆能數學」的感覺。

比如, 如何科學地計算「拼夕夕砍一刀成功率?」 。它哐哐給我用公式算了一大串。

kimi在第一次運算發現「無法透過有限次的砍刀達到目標」後,又「自我懷疑」了。於是它重新換了個方案和思路,又算了一次。

「這在現實中是不可能的」。笑死,kimi你也感受到我砍一刀的無助了吧。

試了三四個方案後,kimi應該也是服了,所以最後結論。。。

理論上無限多。所以就算全球的人都來砍一刀,也拿不到這一百是吧。

果然,砍一刀,成功是不可能成功的。。。

更好玩的是,除了帶數位的運算,k0-math甚至連幫我判斷明天要不要出門玩,都是用數學公式算出的答案。

真的,數學公式一出來我有點被說服了。有理有據,比我用微信扔骰子看點數靠譜。

又比如, 最近全平台網友關註的【再見愛人4】。

我給k0-math餵了麥琳和李行亮在綜藝裏的幾次爭議事件,讓它當回「清湯大老爺」,推算這倆人的離婚機率。

一頓操作猛如虎,給麥琳的過錯比例是60%,就讓我說我覺得Kimi還是輕了,但是整個數學思維和方程式計算,真的賊有意思。

再比如,讓kimi用二元二次方程式表達古詩的意境。

以及道家「道生一,一生二,二生三,三生萬物」的數學表達。

突然就理解以前中學老師說,數學蘊含美學和哲學,是什麽感覺了。

用一個不太恰當但是形象的比喻: 現在的k0-math,像一個充滿探索欲的數學家。

在整個思維鏈的絮絮叨叨裏,也能明顯感覺到Kimi的個性,而這種個性,我只在Claude身上,看到過。

不斷的獨白,不斷的思考,不斷的反思。

很多年前,我們剛開始 牙牙學語的時候, 我們學會了1+1=2,但,我們可能就是單純地記住答案。

但隨著學習深入,在理解知識後,某天我們就能自己思考:為什麽?在什麽條件下成立?還有沒有其他可能?還有沒有類似的情況?

在不斷的追問下,人類才發現了科學的奧秘,並不斷探索著真理的邊界。

過去的大模型更像是一個答案庫,你問什麽它搜什麽。但現在,無論是GPT還是Kimi,都在嘗試讓AI學會真正的思考。

數學對宇宙的解釋,在於它「能表達已知,更能推理未知」。

而數學,也正恰恰就是,這把開啟思維之門的鑰匙。

愛因史坦如是說:

純數學在某種意義上,是邏輯思想的詩篇。

我期待著,看到AI大模型。

與我們人類,一起書寫這首詩的一天。