用過GPT-o1的都知道,o1的能力要明顯強於GPT4,原因是 o1有擬人化的思考模式 ,能把一個復雜問題拆解成小問題,讓整個的推理任務更加嚴謹。
去年阿裏還經常被網友噴,因為在Github上掛了很多不開源的DEMO。
士別三日當刮目相待。
要說今年阿裏是真的猛,開源了巨多AI計畫。
Qwen已經是在很多開源的AI計畫裏被經常「標配」的大模型了。
阿裏這幾天又開源了Marco-o1,也算是對GPT-o1的開源實作吧。
Marco-o1的論文裏也講了,是受了o1的啟發。
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫簡介
Marco-o1 是由阿裏巴巴 MarcoPolo 團隊開發的大型推理模型,透過復雜的實際問題解決任務最佳化人工智慧的推理能力。Marco-o1利用鏈式思考(CoT)微調、蒙特卡羅樹搜尋(MCTS)和反思機制,提高了問題解決的精確度和廣度。Marco-o1套用於數學、物理和編程等領域,並且致力於開放式解決方案,特別是在難以量化獎勵的領域內具有廣泛的適用性和優越的效能。
開放式解決方案,實際就是針對沒有標準答案的問題來做出更好的回答。
DEMO
這是一個測試大模型經典的「草莓」問題,strawberry中有多少個「r」。
答案是3沒問題,但粉色框裏的推理過程中可以看到,最後一個字母「y」被忽略掉了,還是有進步空間的。
Marco-o1在轉譯方面有非常強的能力。
下面這個case是對「這雙鞋有踩屎感」的轉譯。
對於「踩屎感」的轉譯,說實話沒有很驚艷,因為這個詞不管是透過AI搜尋也好,還是透過後期訓練學習也好也能很好的理解這個詞。
下面這兩段轉譯,就能對比出來了。Marco-o1的轉譯更能準確地傳達原文的意思和情感,也更加地道。
技術特點
1、鏈式思考微調(CoT): 模型透過鏈式思考來提升問題解決的邏輯性和深度,能夠模擬人類解決復雜問題的思維過程。
2、蒙特卡羅樹搜尋(MCTS): 采用蒙特卡羅樹搜尋技術來探索最優解答路徑,增強模型在多步推理任務中的表現。
3、反思機制: 透過自我反思機制,模型能夠評估和修正其行動策略,提高決策的準確性。
計畫連結
https://github.com/AIDC-AI/Marco-o1
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 AGI光年 」公眾號
獲取每日最新資訊
關註「 向量光年 」公眾號
加速全行業向AI轉變