近期,Anthropic釋出了Claude 3.5 的「大杯」模型 —— Claude 3.5 Sonnet!
這次釋出的 Sonnet 代表義大利的「十四行詩」,結構復雜,在智慧水平、功能多樣性和處理能力上都有所提升,能夠應對更復雜的認知任務,提供更高品質的輸出。
Claude 3.5 Sonnet 作為 Claude 3.5 系列的第一個模型版本,在行業智慧水平上取得了顯著提升。它不僅超越了競爭對手的效能,還超越了自家的上一代「超大杯」 Claude 3 Opus,同時保持了與中端模型 Claude 3 Sonnet 相同的速度和成本優勢。
Sonnet 在研究生級推理(GPQA)、本科級知識(MMLU)和 編程能力 (HumanEval)方面都設立了全新的行業標準。
它在理解細微差別、幽默和復雜指令方面有顯著提高,並能以自然、易於理解的語調撰寫高品質內容。其執行速度是 Claude 3 Opus 的兩倍,效能提升與成本效益相結合,使 Claude 3.5 Sonnet 成為復雜任務的理想選擇,例如上下文敏感的客戶支持和多步驟工作流程的管理。
劃重點,在編程能力方面設立了全新的行業標準。
我記得,ChatGPT4o的Copilot號稱最強編程外掛程式。
下面從7個方面,橫向對比一下ChatGPT4o Copilot 和Claude 3.5 Sonnet,看誰的編程能力更強。
round 1:圖片辨識能力
上傳一張圖片,是經典演算法題「猴子吃桃」的題目。
PS:只上傳圖片,啥也不說,對比一下ChatGPT4o和Claude3.5 Sonnet的圖片辨識能力和理解能力。
原圖:
ChatGPT4o
ChatGPT4o辨識了圖片內容,不過預設轉化為了英文。
ChatGPT4o給出了解決方案,預設是Python語言。
ChatGPT4o最後給出了程式碼的解釋說明:
Claude3.5 Sonnet
Claude3.5 Sonnet辨識了圖片內容,預設也是英文。
Claude也辨識出這是一道演算法題,並給出了解決問題需要的演算法,不過只給出了一個簡單的解題思路。
圖片辨識能力小結:
在我看來,ChatGPT4o完全理解了我的用意,不僅辨識了圖片內容,還給出了解題思路、程式碼範例和解釋說明,圖片辨識能力堪稱完美。
反觀Claude3.5 Sonnet,只是辨識了圖片中的內容,給出了了一個簡單的解題思路。
圖片辨識能力,ChatGPT4o完勝。
國內直接使用ChatGPT4o:
用官方一半價格的錢,用跟官方 ChatGPT4.0 一模一樣功能的工具。
國內直接使用 ChatGPT4o + Claude3.5 Sonnet :
無需魔法,同時支持電腦、手機,瀏覽器直接使用
ChatGPT4o mini永久免費
支持Copi lot編程、 Claude3.5 Sonnet、 DALL-E AI繪畫等
長按辨識下方二維碼,備註ai, 發給你
round 2:程式碼能力
Prompt:請根據上面描述,給出解題思路,透過Java程式碼解答此題,關鍵程式碼添加註釋,並根據範例中的輸入輸出進行程式碼測試,程式碼如果有錯誤,請重新修改程式碼
ChatGPT4o
ChatGPT4o給出了解題思路、Java程式碼、程式碼解釋、測試用例。
Claude3.5 Sonnet
Claude給出了解題思路、Java程式碼、程式碼解釋、測試用例、時間復雜度。
驗證程式碼正確率,我們將ChatGPT4o和Claude的程式碼Copy到Idea中,透過測試用例測試一下。
測試透過,透過率100%。
程式碼review:
如下圖所示,左側為ChatGPT4o,右側為Claude3.5 Sonnet。
肉眼可見,ChatGPT4o程式碼共74行,Claude共54行,相差20行。Claude3.5 Sonnet明顯更加簡潔。
程式碼能力小結:
ChatGPT4o給出了解題思路、Java程式碼、程式碼解釋、測試用例。
Claude3.5 Sonnet給出了解題思路、Java程式碼、程式碼解釋、測試用例,還給出了演算法的時間復雜度。
ChatGPT4o與Claude3.5 Sonnet的程式碼都沒有問題,透過率100%。
透過review程式碼,Claude3.5 Sonnet明顯更加簡潔。
程式碼能力,Claude3.5 Sonnet小勝。
round 3:程式碼最佳化
PS:我們將「透過回溯演算法解答猴子吃桃的程式碼」發給它們,讓它們對程式碼進行最佳化。
ChatGPT4o
ChatGPT4o指出了程式碼存在4個問題:
效率低,遞迴回溯,時間復雜度為 O(N)
遞迴深度限制,可能會導致 StackOverflowError
不必要的排序
全域變量使用,不符合編碼規範
ChatGPT4o給出了最佳化後的程式碼、關鍵點、下一步改進建議。
Claude3.5 Sonnet
Claude指出了程式碼存在4個問題:
效率低,遞迴回溯,時間復雜度為 O(N)
不必要的排序
全域變量使用,不符合編碼規範
程式碼沒有處理輸入異常的情況
Claude給出了最佳化建議、最佳化後的程式碼、最佳化說明、小總結。
程式碼最佳化小結:
ChatGPT4o和Claude都指出了4項問題,給出了最佳化建議、最佳化程式碼,略有差異,區別不大。
程式碼最佳化能力,旗鼓相當。
round 4:解讀程式碼
Prompt:請給出程式碼的解題思路
ChatGPT4o
ChatGPT4o給出了具體的解題思路、最佳化後的程式碼、程式碼解析、建議的下一步改進
Claude3.5 Sonnet
Claude3.5 Sonnet給出了最佳化後程式碼的解題思路:
問題分析
輸入處理
初始驗證
二分尋找最小速度
驗證函式
返回結果
分析程式碼優勢
Claude3.5並沒有再次輸出程式碼,其實這一點是好評的,因為上面已經輸出過了,完全沒必要再次輸出。
解讀程式碼小結:
ChatGPT4o看似給的東西比較多,Claude3.5只是返回了解題思路。
但是,提示詞就是輸出程式碼的解題思路,ChatGPT4o反而有點本末倒置了。
解讀程式碼能力,Claude3.5 Sonnet小勝。
round 5:測試用例及說明
Prompt:給出3個測試用例和說明
ChatGPT4o
ChatGPT4o給出了三個測試用例,涵蓋了不同的場景、完整程式碼及測試用例、測試用例結果
Claude3.5 Sonnet
Claude3.5 Sonnet給出了3個測試用例,並對每個用例進行詳細說明。
這些測試用例涵蓋了幾種不同的情況:
正常情況,需要計算的最小速度
需要較高速度才能完成的情況
無法完成任務的情況(時間不足)
解讀程式碼小結:
ChatGPT4o給出的東西很多,又輸出一遍完整程式碼,但是回答內容有些重復。
Claude3.5 Sonnet給出了3個測試用例,並對每個用例進行詳細說明,還指出了3個測試用例覆蓋了3種不同的情況。
測試用例及說明能力,Claude3.5 Sonnet小勝。
round 6:Java轉Python
Prompt:將程式碼轉為Python語言
ChatGPT4o
ChatGPT4o給出了Python程式碼、關鍵程式碼解析、測試用例
Claude3.5 Sonnet
Claude3.5給出了Python程式碼、解題思路、時間復雜度
轉碼能力小結:
ChatGPT4o和Claude3.5都給出了Python程式碼、解題思路、測試用例,測試後,透過率100%。
轉碼能力,旗鼓相當。
round 7:添加註釋
ChatGPT4o
Claude3.5 Sonnet
ChatGPT4o和Claude3.5都為Python程式碼添加了詳細的程式碼註釋,能力堪稱頂級。
添加註釋能力,旗鼓相當。
總結
我們分別從七大方面對比了ChatGPT4o和Claude3.5 Sonnet。
圖片辨識能力,ChatGPT4o完勝
程式碼能力,Claude3.5 Sonnet小勝
程式碼最佳化能力,旗鼓相當
解讀程式碼能力,Claude3.5 Sonnet小勝
測試用例及說明能力,Claude3.5 Sonnet小勝
轉碼能力,旗鼓相當
添加註釋能力,旗鼓相當
就今天的測試而言,我們不難看出,Claude3.5 Sonnet在程式碼能力方面,小勝ChatGPT4o。
螢幕前的你,是不是也想試一下打敗了Copilot的Claude3.5 Sonnet。
推薦閱讀 點選標題可跳轉
·················END·················
用官方一半價格的錢,用跟官方 ChatGPT4.0 一模一樣功能的工具。
國內直接使用ChatGPT4o + Claude3.5 Sonnet:
無需魔法,同時支持手機、電腦,瀏覽器直接使用
帳號獨享
ChatGPT4o mini永久免費
支持Copilot、DALLE AI繪畫、上傳檔等
長按辨識下方二維碼,備註ai,發給你
回復gpt,獲取ChatGPT4o直接使用地址
點選閱讀原文,國內直接使用ChatGpt4o