Claude3釋出成為大模型之王，Openai是否真的跌落神壇，附試用連結

2024-03-05碼農

前言

今天Claude3釋出了，展現出了比GPT4更強大的效果，各項效能跑分已經全面超越了GPT4。OpenAI也連夜釋出了兩個新功能來應對此次沖擊。

Claude3包括三個模型：Claude 3 Haiku、Claude 3 Sonnet與Claude 3 Opus，效能依次提升。每個模型均提供更高的效能，讓使用者能根據需求，找到理想的智慧、速度及成本平衡。

掃碼加入交流群

獲得更多技術支持和交流

（請註明自己的職業）

Openai的應對

OpenAI同時推出了一個新功能，名為「朗讀」(Read Aloud)。這個功能允許ChatGPT以五種不同的聲音朗讀其回復，目的是為了提供更便捷的使用者互動體驗。這項功能支持37種語言，並能自動檢測文本語言進行朗讀，適用於GPT-4和GPT-3.5版本的ChatGPT。

此外，OpenAI透過這次更新展示了其在多模態互動方面的努力。此功能現已在ChatGPT的網頁端、iOS和安卓套用上線。新的「朗讀」功能進一步豐富了使用者與聊天機器人的互動方式，使用者可以透過行動應用長按文本啟用朗讀播放器，或在網頁端點選文本下方的喇叭圖示來使用朗讀功能。

大模型的新標準

Opus，Claude最智慧的模型，在大多數常見的AI系統評估基準上超越了其同行，包括本科水平的專家知識（MMLU）、研究生水平的專家推理（GPQA）、基礎數學（GSM8K）等等。它在復雜任務上展現出接近人類水平的理解和流暢度，引領了通用智慧的前沿。

所有Claude 3模型在分析和預測、細膩內容創作、程式碼生成以及用西班牙語、日語和法語等非英語語言進行交流方面顯示出了增強的能力。

以下是Claude 3模型與我們其他常用模型在多個能力基準[1]上的比較：

更快的速度

Claude 3模型能夠支持即時客戶聊天、自動完成和數據提取任務，其中響應必須是即時的並且即時的。

Haiku是市場上在其智慧類別中速度最快、成本最高效的模型。它能夠在不到三秒的時間內閱讀一個資訊和數據密集的arXiv研究論文（約10k令牌），包括圖表和圖形。啟動後，我們預計進一步提高效能。

對於絕大多數工作負載而言，Sonnet的速度是Claude 2和Claude 2.1的兩倍，且具有更高水平的智慧。它擅長需要快速響應的任務，如知識檢索或銷售自動化。Opus的速度與Claude 2和2.1相似，但具有更高水平的智慧。

強大的視覺能力

Claude 3模型具有與其他領先模型相當的復雜視覺能力。能夠處理各種視覺格式，包括照片、圖表、圖形和技術圖紙。能夠為企業客戶提供新的模式，其中一些客戶高達50%的知識庫以各種格式編碼，如PDF檔、流程圖或演示投影片。

更少的拒絕回答

以前的Claude模型經常做出不必要的拒絕，這表明缺乏上下文理解。Claude 3在這方面取得了巨大的進展：與前幾代模型相比，Opus、Sonnet和Haiku大大降低了拒絕回答接近系統安全邊界的提示的可能性。如下所示，Claude 3模型顯示出對請求的更細膩理解，辨識真正的危害，並且更少拒絕回答無害的提示。

超長上下文記憶

Claude 3系列模型在釋出時最初將提供200K的上下文記憶。三個模型都能夠接受超過100萬token的輸入，可能會使這一功能可用於需要增強處理能力的選定客戶。

為了有效處理長上下文提示，模型需要強大的回憶能力。'Needle In A Haystack'（NIAH）評估衡量模型從大量數據語料庫中準確回憶資訊的能力。透過使用每個提示的30個隨機針/問題對中的一個，並在一個多樣化的眾包文件語料庫上測試，增強了這個基準的健壯性。Claude 3 Opus不僅實作了接近完美的回憶，準確度超過99%，而且在某些情況下，它甚至辨識出評估本身的局限性，透過認識到「針」句子似乎是人為插入到原始文本中的。

試用連結

https://www.anthropic.com/claude

關註「開源AI計畫落地」公眾號