Claude 3 大模型再度點燃 AI 戰火，效能和速度全面超越 GPT-4

2024-03-05資訊

出品 | 【新程式設計師】編輯部

還記得 ChatGPT-3.5 剛火的時候，許多人在網上苦苦尋求入門途徑，這時，一群前 OpenAI 員工和研究人員出走並創立了 Anthropic，主打安全的旗號，致力於開發更加安全、可控的人工智慧系統。

沒過多久，緊跟著 GPT-3.5 的釋出時間， Anthropic 在 2023 年 3 月推出了 Claude 大模型，直接獲得了「 ChatGPT 最強平替 」的稱號，加持著「 純免費 」的超級 buff，甚至一同帶火了 Quora 建立的名為 Poe 的大模型整合平台。此後，Anthropic 的每次釋出都勢必對標 GPT，被視為「 ChatGPT 最強勁的競爭對手 」。

就在昨晚，Anthropic 再次向 OpenAI 伸出一記重拳，重磅釋出新一代的人工智慧模型系列 Claude 3 ，並宣稱該系列的三款產品 Opus、Sonnet 和 Haiku 在推理能力、數學計算、編程、多語言理解和視覺處理等領域樹立了新的行業標桿。

Claude 3 系列的三個模型都具有 200,000-token 的上下文視窗，Opus 主打高水平的「類人智慧」，Sonnet 則是結合效能與速度的中庸之選，Haiku 可以執行輕量級操作，兼具價效比和速度。這三個模型的命名分別代表著「作品」、「十四行詩」和「俳句」，從大到小概括了每款模型的特色。

當前，使用者可透過電子信件註冊免費使用基於 Sonnet 模型的 Claude.ai 聊天機器人服務。然而，最為強大的模型 Claude 3 Opus 僅在訂閱付費後才能透過 Anthropic 網站上的「Claude Pro」服務體驗， 每月收費 20 美元 。

目前，Opus 和 Sonnet 已經可以透過 Anthropic 的 API 獲取，Haiku 將在隨後推出；而 Sonnet 模型除了在 Anthropic API 上可用之外，還已經提前接入亞馬遜的 Bedrock 平台，並在 Google Cloud 的 Vertex AI Model Garden 上線。

回想 Claude 的前兩次釋出，其在能力上都略微落後於 OpenAI 的最佳模型，且 Anthropic 主要宣傳的是上下文視窗長度和安全這些重點。這一次，Anthropic 或許終於在效能方面趕超了 OpenAI 的模型。

效能戰和價格戰——我全都要

相較於前代 Claude 2，Claude 3 在分析、預測、內容創作、程式碼生成以及多語言對話等方面有所提升。

王牌 Opus 在衡量本科級別專業知識（MMLU）、研究生級別專業推理能力（GPQA）以及基礎數學（GSM8k）的測試中，其表現超越了 OpenAI 和谷歌各自最先進的模型 GPT-4 和 Gemini Ultra。

Opus 的實際速度與 Claude 2 和 2.1 相同，但它的效能要強得多。

作為對比，家中老二 Sonnet 的速度則是 Anthropic 先前最佳模型 Claude 2.1 的兩倍，並且擁有更高的智慧水平。Anthropic 聲稱，Sonnet 在需要快速響應的知識檢索或銷售自動化等智慧任務上表現出色。

價效比之選 Haiku 在效能、速度及成本方面均優於同類尺寸的其他模型。它能夠在不到三秒鐘的時間裏閱讀一篇包含圖表和圖形、大約 7500 字的密集型研究論文。

這三個模型都有個共同的特點： 可以即時給出「近乎即時的響應」 ，這使其適合時間至關重要的即時客戶聊天、自動完成和數據提取。此外，這些模型還具有增強的視覺能力，能夠處理照片、圖表、示意圖，類似於 GPT-4V 和谷歌的 Gemini。

Anthropic 提供的多模態視覺能力基準圖表顯示了其在這方面的能力

Anthropic 特別強調，與之前幾代及競品相比，這三個模型在速度和成本效益上均有顯著提升（單位為美元）：

此外，Claude 3 模型針對部份客戶可處理高達 100 萬個 token（這一點與 Gemini Pro 1.5 相似），並且在如此龐大的上下文大小的基準測試中，Opus 模型實作了近乎完美的記憶性，準確率超過 99%。同時，Anthropic 聲稱 Claude 3 模型降低了無害提示的拒絕率，並且在減少錯誤答案的同時表現出更高的準確度。

這一點被輝達的高級科學家 Jim Fan 盛贊，因為當前大模型對無害問題過於謹慎的回答已成為一個普遍現象，凡事都要反復「疊甲」個好幾次才能給你答案。但 Anthropic 意識到了這一問題，並強調了他們在降低拒絕率方面的努力。

同樣被 Fan 好評的還有 Claude 在特定領域的專家基準測試。Claude 特意選擇了金融、醫學和哲學等專家領域，並報告了在這幾個領域的效能表現。

這就不得不提到 Claude 3 的重大突破——合成數據的套用。Anthropic 透過在訓練過程中使用合成數據來部份實作 Claude 3 的能力提升。合成數據是指內部使用另一款 AI 語言模型生成的數據，該技術可以拓寬訓練數據的深度，以彌補抓取數據集中可能缺失的情景。

Anthropic 提供的基準圖表進一步展示了其效能表現

大模型的未來：比卷效能更重要的事

許多企業對生成式人工智慧的一大顧慮在於其可能出現的「幻覺」，即提供錯誤的資訊輸出。以最近發生的加拿大航空案例為例，其 AI 聊天機器人向旅客提供了不準確的退款資訊，最終法院判決要求航空公司賠償該名因得到錯誤資訊而起訴的旅客。

Anthropic 表示， Claude 3-Opus 在整體能力和低幻覺率方面能夠超越當前市場領導者 GPT-4 Turbo。 而相較於 Claude 2.1，Opus 在給出正確答案和減少錯誤答案方面的表現提升了兩倍。研究者透過三個類別來衡量準確性：正確的答案、錯誤的答案以及在不確定時選擇回答不知道而非錯誤作答。

自兩年前創立以來，Anthropic 始終將構建負責任的人工智慧作為優先任務，旨在避免性別歧視、種族歧視以及其他有害輸出，並在這次的更新宣布了一條新準則：尊重殘疾人的權利，以減輕任何可能加劇刻板印象和偏見的輸出。

在未來幾個月內，Anthropic 計劃定期更新 Claude 3 模型系列，並推出工具使用、互動式編程和「高級代理能力」（ advanced agentic capabilities ）等新功能。Anthropic 表示將繼續致力於確保安全措施跟上 AI 效能的發展步伐，並強調目前 Claude 3 模型「 帶來災難性風險的可能性極小 」。

這似乎是在暗示 GPT——畢竟 Anthropic 的創始人們之所以會離開 OpenAI，其實就是因為安全理念的不符。

【開發者福利】

對於國內所有開發者而言，可以透過 Amazon Bedrock 立即試用 Claude 3，無需註冊帳號。下一代 Claude（Claude 3）的三個模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 將陸續登陸 Amazon Bedrock。Amazon Bedrock 是目前第一個也是唯一一個提供 Claude 3 Sonnet 托管服務的平台。

據亞馬遜雲科技官方表示， Amazon Bedrock 和第三方模型僅在亞馬遜雲科技海外區域可用，亞馬遜雲科技中國僅為幫助開發者了解行業前沿技術和發展海外業務選擇推介該服務。但亞馬遜雲科技也為開發者申請到了測試資源，短期開放、立即可用，歡迎大家透過下面的連結或點選「閱讀原文」存取嘗鮮：

https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=asdfghjkl12345