人類標註的時代已經結束？DeepMind 開源 SAFE 根治大模型幻覺問題

2024-04-01資訊

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

最近，AI 大模型在自然語言處理領域內風頭正勁，它們在生成文本、回答問題等多種任務上展現出的強大實力受到了廣泛的關註。然而，大模型在生成長段落文本時，經常做不到保持內容事實的準確性、連貫性和詳盡性。

為了檢驗模型在生成具有一定長度的文章或敘述時，能否確保所產出的資訊真實可靠、邏輯清晰且細節豐富，出現了一個全新評價標準： 長篇事實性 （ long-form factuality ）。

如果你沒懂，其實也不用擔心，因為 Google 已經出手殺死了比賽。 Google DeepMind 的人工智慧專家團隊和 史丹佛大學 的研究者釋出了一篇名為【 衡量大型語言模型長篇事實性 】（ Long-form factuality in large language models ）的研究論文，研究者們對長篇事實性問題進行了深度探究，並對語言模型在長篇事實性上的表現進行了全面評估。

他們推出了一套新的數據集—— LongFact ，其中包含了 2,280 個涵蓋 38 個不同話題的引導問題；同時，提出了一個新穎的評估方法—— SAFE （ Self-contained Accuracy with Google Evidence ），該方法運用語言模型代理人和Google搜尋查詢技術來進行評估。

GitHub：

https://github.com/google-deepmind/long-form-factuality

論文連結：

https://arxiv.org/abs/2403.18802

以往的研究主要集中在語言模型對較短文本進行事實核查的能力上，而在生成較長、內容豐富且準確無誤的文本方面，對其能力的考察則相對較少。這種能力對於實際套用來說十分重要，因為很多套用場景下我們期待語言模型能夠連續、可信地輸出資訊，而不只是給出簡潔的答案或片段。

ChatGPT 等大模型在過去幾年中經常出現在新聞裏——它們可以撰寫論文、回答問題甚至解決數學問題。但他們面臨一個同樣的問題： 準確性 。模型獲得的每一個結果都必須經過人工手動檢查，以確保結果正確。

當前用於衡量長篇事實性的標準資源要麽規模不夠大，要麽只針對某一特定領域，這讓全面比較各類模型的表現變得困難重重。因此，急需建立一個覆蓋面廣、包含多元化主題的標準化基準，以便精準評估語言模型在長篇事實性上的能力。

為了填補這一空白，論文給出的方法是「以毒攻毒「，用 AI 檢查 AI 生成的答案結果，並自動指出不準確之處。

LongFact 數據集

研究者們建立了 LongFact 數據集，它包含了 2,280 個涉及歷史、科學、政治、體育等 38 個不同主題的高品質引導問題。這些問題源自維基百科、新聞報道等多個權威來源，透過自動化篩選和人工覆核雙重把關，確保問題既能檢驗模型的知識深度，又能避免出現事實錯誤或主觀偏見。這樣一來，LongFact 就成為了衡量語言模型長篇事實性的一項堅實基礎。

SAFE

研究者們提出了名為 SAFE 的創新評估方法，該方法利用語言模型自身及其與 Google 搜尋引擎的互動，來自動評估模型所生成文本的每個知識點是否準確、相關，並能自圓其說。與傳統的依賴人工評判或僅註重表面上的正確性的方式不同，SAFE 借助 Google 搜尋，能夠在現實世界的情境下核實模型生成事實的準確性，並檢測模型生成有意義資訊的能力。

為了更準確地衡量長篇事實性，研究者引入了一個名為 K 的超參數，代表使用者期望的理想回復長度。然後采用 F1@K 指標，該指標兼顧了資訊的相關性和準確性，同時也考慮到了不同的回復長度。

在 LongFact 數據集上，研究者對來自四大系列（ Gemini、GPT、Claude、PaLM-2 ）的共 13 個語言模型進行了基準測試。結果顯示，規模更大的語言模型通常在長篇事實性上表現更好。SAFE 在 72% 的情況下與人工判斷結果一致 ，並在隨機選取的 100 個爭議案例中有 76% 獲得了更高的認可 。此外， SAFE 比僱用人工標註團隊的效率高出了 20 倍以上 ，展現了其作為評估大型語言模型長篇事實性的一種高效手段。

展望未來

目前的語言模型在生成長篇、準確且相關事實資訊方面還有進步的空間，所以 DeepMind 為此指出了幾個未來研究方向。比如，可以透過改進預訓練和微調方法，或者整合外部工具來提升模型這方面的能力。盡管本文重點關註的是與世界常識相關的事實準確性，但在長篇內容中辨識和減少模型產生臆想資訊的問題仍然有待進一步解決，這也為後續研究提供了新的機遇。

實驗數據顯示，SAFE 不僅在準確度上超過了人類水平，而且在成本效益上優於人工評判。此外，透過對多種模型進行基準測試，表明透過增大模型規模有望顯著提高長篇事實性。這項研究旨在激發更多的研究者關註和提升語言模型在處理長篇內容時的準確性，並強調了獲取高品質數據集、完善模型評估技術和合理選擇評估指標在準確評價語言模型能力上的重要性。LongFact 和 SAFE 的原始碼已對外公開，方便其他研究者查閱和復現，以推動該領域的持續發展。

GitHub：

https://github.com/google-deepmind/long-form-factuality

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。