不服 GPT-4o ，就是幹？

2024-06-21碼農

OpenAI 最大的對手 Anthropic ，深夜釋出了他們迄今為止最智慧的模型：Claude 3.5 Sonnet。

這倆家公司的競爭愈演愈烈， Anthropic 聲稱新 Claude AI 超越了 GPT-4o。

透過 Anthropic 釋出的測試報告來看，新模型 在推理、知識儲備、程式碼、數學的方面都超越了競爭對手的模型， 並且新釋出的模型速度是 Claude 3 Opus 的兩倍，成本只有其五分之一。

非常驚艷的功能： Artifacts

除了各個任務上的評估指標表現更好，最讓我感覺到驚艷的是 Artifacts 能力。

開啟 Artifacts 後，Claude 會為你開辟一個新的空間， 你在左邊和 AI 對話互動，右側就能即時的去根據你的反饋生成文件、程式碼、 SVG 、遊戲等等。

這是一種新的互動方式， 打破了之前聊天式對話你來我往的模式。你可以隨時檢視 AI 創作的東西，並且不斷快速、效率的進行叠代。

① 能力展示：邊聊天邊做遊戲

看一下放出的官方視訊：首先讓 Claude 繪制了一個像素風格的螃蟹 SVG ，隨後讓他模仿這種風格畫一些貝殼、雲彩。

然後基於剛剛 Claude 生成的螃蟹、雲彩、貝殼等，做了一個一個簡單的 HTML5 遊戲，透過一些基本的動畫讓他們動了起來、可玩了起來。

② 能力展示：解釋圖表、圖形或從不完美的影像中轉錄文本

該模型可以準確地從不完美的影像中提取文本 - 這是零售、物流和金融領域經常會用到的能力。現在 AI 可以從影像、圖形或插圖中獲取更多的見解了。

可以看上演示視訊，給 AI 兩張圖，一張是關於人類基因組測序裏程碑的時間軸圖表，另外一個是時間和測序成本的圖表。

因為這兩張表都是時序的，有時間維度和另外的指標維度，是結構化資訊的圖形化展示。現在使用 AI 就能提取這種不完美圖片中數據，並且轉化成 JSON。

隨後讓 AI 將兩個圖表合並，做成一個可以互動的圖表，當你的滑鼠懸停到某一個時間點，就能看到這個時間點匯聚的兩張表中的資訊。

③ 能力展示：推理能力、復雜指令

如下視訊展示了讓 Claude 寫一篇好玩有趣的小說，並使用流程圖把小說中的人物關系畫出來，而且還能基於小說的內容進行各種推理和模擬。

Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知識 (MMLU) 和編碼能力 (HumanEval) 表現優秀。 它在理解細微差別、幽默和復雜指令方面有顯著的進步，同時還能以自然的語氣寫作。