當前位置: 妍妍網 > 資訊

Claude 3 大模型再度點燃 AI 戰火,效能和速度全面超越 GPT-4

2024-03-05資訊

出品 | 【新程式設計師】編輯部

還記得 ChatGPT-3.5 剛火的時候,許多人在網上苦苦尋求入門途徑,這時,一群前 OpenAI 員工和研究人員出走並創立了 Anthropic,主打安全的旗號,致力於開發更加安全、可控的人工智慧系統。

沒過多久,緊跟著 GPT-3.5 的釋出時間, Anthropic 在 2023 年 3 月推出了 Claude 大模型,直接獲得了「 ChatGPT 最強平替 」的稱號,加持著「 純免費 」的超級 buff,甚至 一同帶火了 Quora 建立的名為 Poe 的大模型整合平台。此後,Anthropic 的每次釋出都勢必對標 GPT,被視為「 ChatGPT 最強勁的競爭對手 」。

就在昨晚,Anthropic 再次向 OpenAI 伸出一記重拳,重磅釋出新一代的人工智慧模型系列 Claude 3 ,並宣稱該系列的三款產品 Opus、Sonnet 和 Haiku 在推理能力、數學計算、編程、多語言理解和視覺處理等領域樹立了新的行業標桿。

Claude 3 系列的三個模型都具有 200,000-token 的上下文視窗,Opus 主打高水平的「類人智慧」,Sonnet 則是結合效能與速度的中庸之選,Haiku 可以執行輕量級操作,兼具價效比和速度。這三個模型的命名分別代表著「作品」、「十四行詩」和「俳句」,從大到小概括了每款模型的特色。

當前,使用者可透過電子信件註冊免費使用基於 Sonnet 模型的 Claude.ai 聊天機器人服務。然而,最為強大的模型 Claude 3 Opus 僅在訂閱付費後才能透過 Anthropic 網站上的「Claude Pro」服務體驗, 每月收費 20 美元

目前,Opus 和 Sonnet 已經可以透過 Anthropic 的 API 獲取,Haiku 將在隨後推出;而 Sonnet 模型除了在 Anthropic API 上可用之外,還已經提前接入亞馬遜的 Bedrock 平台,並在 Google Cloud 的 Vertex AI Model Garden 上線。

回想 Claude 的 前兩次 釋出,其在能力上都略微落後於 OpenAI 的最佳模型,且 Anthropic 主要宣傳的是上下文視窗長度和安全這些重點。這一次,Anthropic 或許終於在效能方面趕超了 OpenAI 的模型。

效能戰和價格戰——我全都要

相較於前代 Claude 2,Claude 3 在分析、預測、內容創作、程式碼生成以及多語言對話等方面有所提升。

  • 王牌 Opus 在衡量本科級別專業知識(MMLU)、研究生級別專業推理能力(GPQA)以及基礎數學(GSM8k)的測試中,其表現超越了 OpenAI 和谷歌各自最先進的模型 GPT-4 和 Gemini Ultra。

    Opus 的實際速度與 Claude 2 和 2.1 相同,但它的效能要強得多。

  • 作為對比,家中老二 Sonnet 的速度則是 Anthropic 先前最佳模型 Claude 2.1 的兩倍,並且擁有更高的智慧水平。Anthropic 聲稱,Sonnet 在需要快速響應的知識檢索或銷售自動化等智慧任務上表現出色。

  • 價效比之選 Haiku 在效能、速度及成本方面均優於同類尺寸的其他模型。它能夠在不到三秒鐘的時間裏閱讀一篇包含圖表和圖形、大約 7500 字的密集型研究論文。

  • 這三個模型都有個共同的特點: 可以即時給出「近乎即時的響應」 ,這使其適合時間至關重要的即時客戶聊天、自動完成和數據提取。此外,這些模型還具有增強的視覺能力,能夠處理照片、圖表、示意圖,類似於 GPT-4V 和谷歌的 Gemini。

    Anthropic 提供的多模態視覺能力基準圖表顯示了其在這方面的能力

    Anthropic 特別強調,與之前幾代及競品相比,這三個模型在速度和成本效益上均有顯著提升( 單位為美元 ):

    此外,Claude 3 模型針對部份客戶可處理高達 100 萬個 token(這一點與 Gemini Pro 1.5 相似),並且在如此龐大的上下文大小的基準測試中,Opus 模型實作了近乎完美的記憶性,準確率超過 99%。同時,Anthropic 聲稱 Claude 3 模型降低了無害提示的拒絕率,並且在減少錯誤答案的同時表現出更高的準確度。

    這一點被輝達的高級科學家 Jim Fan 盛贊,因為當前大模型對無害問題過於謹慎的回答已成為一個普遍現象,凡事都要反復「疊甲」個好幾次才能給你答案。但 Anthropic 意識到了這一問題,並強調了他們在降低拒絕率方面的努力。

    同樣被 Fan 好評的還有 Claude 在特定領域的專家基準測試。Claude 特意選擇了金融、醫學和哲學等專家領域,並報告了在這幾個領域的效能表現。

    這就不得不提到 Claude 3 的重大突破——合成數據的套用。Anthropic 透過在訓練過程中使用合成數據來部份實作 Claude 3 的能力提升。合成數據是指內部使用另一款 AI 語言模型生成的數據,該技術可以拓寬訓練數據的深度,以彌補抓取數據集中可能缺失的情景。

    Anthropic 提供的基準圖表進一步展示了其效能表現

    大模型的未來:比卷效能更重要的事

    許多企業對生成式人工智慧的一大顧慮在於其可能出現的「幻覺」,即提供錯誤的資訊輸出。以最近發生的加拿大航空案例為例,其 AI 聊天機器人向旅客提供了不準確的退款資訊,最終法院判決要求航空公司賠償該名因得到錯誤資訊而起訴的旅客。

    Anthropic 表示, Claude 3-Opus 在整體能力和低幻覺率方面能夠超越當前市場領導者 GPT-4 Turbo。 而相較於 Claude 2.1,Opus 在給出正確答案和減少錯誤答案方面的表現提升了兩倍。研究者透過三個類別來衡量準確性:正確的答案、錯誤的答案以及在不確定時選擇回答不知道而非錯誤作答。

    自兩年前創立以來,Anthropic 始終將構建負責任的人工智慧作為優先任務,旨在避免性別歧視、種族歧視以及其他有害輸出,並在這次的更新 宣布了一條新準則:尊重殘疾人的權利,以減輕任何可能加劇刻板印象和偏見的輸出。

    在未來幾個月內,Anthropic 計劃定期更新 Claude 3 模型系列,並推出工具使用、互動式編程和「高級代理能力」( advanced agentic capabilities )等新功能。Anthropic 表示將繼續致力於確保安全措施跟上 AI 效能的發展步伐,並強調目前 Claude 3 模型「 帶來災難性風險的可能性極小 」。

    這似乎是在暗示 GPT——畢竟 Anthropic 的創始人們之所以會離開 OpenAI, 其實就是因為安全理念的不符。

    【開發者福利】

    對於國內所有開發者而言,可以透過 Amazon Bedrock 立即試用 Claude 3,無需註冊帳號。下一代 Claude(Claude 3)的三個模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 將陸續登陸 Amazon Bedrock。Amazon Bedrock 是目前第一個也是唯一一個提供 Claude 3 Sonnet 托管服務的平台。

    據亞馬遜雲科技 官方 表示, Amazon Bedrock 和第三方模型僅在亞馬遜雲科技海外區域可用,亞馬遜雲科技中國僅為幫助開發者 解行業前沿技術和發展海外業務選擇推介該服務。但亞馬遜雲科技也為開發者申請到了測試資源,短期開放、立即可用, 歡迎大家 透過下面的連結或點選「閱讀原文」存取嘗鮮:

    https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=asdfghjkl12345