當前位置: 妍妍網 > 碼農

阿裏釋出GPT-o1的開源實作,用AI解決沒有標準答案的復雜問題。

2024-11-23碼農

用過GPT-o1的都知道,o1的能力要明顯強於GPT4,原因是 o1有擬人化的思考模式 ,能把一個復雜問題拆解成小問題,讓整個的推理任務更加嚴謹。

去年阿裏還經常被網友噴,因為在Github上掛了很多不開源的DEMO。

士別三日當刮目相待。

要說今年阿裏是真的猛,開源了巨多AI計畫。

Qwen已經是在很多開源的AI計畫裏被經常「標配」的大模型了。

阿裏這幾天又開源了Marco-o1,也算是對GPT-o1的開源實作吧。

Marco-o1的論文裏也講了,是受了o1的啟發。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

Marco-o1 是由阿裏巴巴 MarcoPolo 團隊開發的大型推理模型,透過復雜的實際問題解決任務最佳化人工智慧的推理能力。Marco-o1利用鏈式思考(CoT)微調、蒙特卡羅樹搜尋(MCTS)和反思機制,提高了問題解決的精確度和廣度。Marco-o1套用於數學、物理和編程等領域,並且致力於開放式解決方案,特別是在難以量化獎勵的領域內具有廣泛的適用性和優越的效能。

開放式解決方案,實際就是針對沒有標準答案的問題來做出更好的回答。

DEMO

這是一個測試大模型經典的「草莓」問題,strawberry中有多少個「r」。

答案是3沒問題,但粉色框裏的推理過程中可以看到,最後一個字母「y」被忽略掉了,還是有進步空間的。

Marco-o1在轉譯方面有非常強的能力。

下面這個case是對「這雙鞋有踩屎感」的轉譯。

對於「踩屎感」的轉譯,說實話沒有很驚艷,因為這個詞不管是透過AI搜尋也好,還是透過後期訓練學習也好也能很好的理解這個詞。

下面這兩段轉譯,就能對比出來了。Marco-o1的轉譯更能準確地傳達原文的意思和情感,也更加地道。

技術特點

1、鏈式思考微調(CoT): 模型透過鏈式思考來提升問題解決的邏輯性和深度,能夠模擬人類解決復雜問題的思維過程。

2、蒙特卡羅樹搜尋(MCTS): 采用蒙特卡羅樹搜尋技術來探索最優解答路徑,增強模型在多步推理任務中的表現。

3、反思機制: 透過自我反思機制,模型能夠評估和修正其行動策略,提高決策的準確性。

計畫連結

https://github.com/AIDC-AI/Marco-o1

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 AGI光年 」公眾號

獲取每日最新資訊

關註「 向量光年 」公眾號

加速全行業向AI轉變