當前位置: 妍妍網 > 資訊

OpenAI 再革程式設計師的命,GPT 給自己改 Bug!

2024-06-28資訊

作者 | Echo Tang、GPT-4o

出品丨AI 科技大本營(ID:rgznai100)

當 ChatGPT 橫空出世之後,許多人都在討論 AI 是否要取代程式設計師,技術的終點究竟會在哪裏?

此前我曾與一些軟體工程的專家討論過這個話題,大家提出技術的終點將在於 GPT 是否會有自我前進演化的能力。

萬萬沒想到,突然就這麽來了。

台北時間 6 月 28 日淩晨,緊隨 之後,OpenAI 推出了一款基於 GPT-4 的模型——CriticGPT,旨在幫助人類評估和檢測大型語言模型(LLM)生成的程式碼輸出中的錯誤。 CriticGPT 透過訓練生成自然語言反饋,可以指出程式碼中的問題,並且在檢測自然發生的 LLM 錯誤時,其生成的評審比人類評審更受歡迎,準確率達到63%。

一句話總結就是,OpenAI 實作了讓 GPT-4 給 GPT-4 自己改 Bug,許多時候效果比人類還好。

經過 OpenAI 實測發現,當人們使用 CriticGPT 來審查 ChatGPT 的程式碼時,他們的表現比沒有幫助時高出 60%。 OpenAI 表示,「我們正在將類似 CriticGPT 的模型整合到我們的 RLHF 標註流程中,為我們的訓練師提供明確的 AI 幫助。這是朝著能夠評估高級 AI 系統輸出邁出的一步,這些系統的輸出對於沒有更好工具的人來說可能很難評估。」

CriticGPT 因何而來?

據 OpenAI 官方表示,由於隨著 OpenAI 在推理和模型行為方面的進步,ChatGPT 變得更加準確,其錯誤也變得更加微妙。這使得 AI 訓練師在錯誤發生時更難發現不準確之處,從而使推動 RLHF 的比較任務變得更加困難。這是 RLHF 的一個基本限制,可能會使模型逐漸變得比任何能夠提供反饋的人更具知識性,因而更難對齊模型。

為了解決這個挑戰,OpenAI 訓練了 CriticGPT 來撰寫批評,突出 ChatGPT 回答中的不準確之處。

CriticGPT 的建議並不總是正確的,但它們可以幫助訓練師發現比沒有 AI 幫助時更多的模型回答問題。此外,當人們使用 CriticGPT 時,AI 會增強他們的技能,導致比人們單獨工作時更全面的批評,並且比模型單獨工作時產生更少的虛構錯誤。在 OpenAI 的實驗中,第二個隨機訓練師在 60% 以上的時間裏更喜歡 Human+CriticGPT 團隊的批評,而不是沒有輔助的人。

CriticGPT 幫助訓練師撰寫比沒有幫助時更全面的批評,同時產生比模型單獨批評時更少的虛構問題。

CriticGPT 背後的實作方法

CriticGPT 也透過 RLHF 訓練,類似於 ChatGPT。但與 ChatGPT 不同的是,它看到大量包含錯誤的輸入,然後需要對這些輸入進行批評。OpenAI 要求 AI 訓練師手動將這些錯誤插入到 ChatGPT 編寫的程式碼中,然後撰寫範例反饋,就像他們剛剛發現了他們自己插入的錯誤一樣。然後同一個人比較多種修改後程式碼的批評,以便他們能輕易判斷批評是否抓住了他們插入的錯誤。

OpenAI 研究了 CriticGPT 是否能夠發現插入的錯誤和先前訓練師發現的「自然發生」的 ChatGPT 錯誤。發現在 63% 的情況下,訓練師更喜歡 CriticGPT 對自然發生錯誤的批評,部份原因是新的批評模型產生的「吹毛求疵」( 無用的小抱怨 )更少,並且較少虛構問題。

同時,OpenAI 還發現,透過使用額外的測試時搜尋與批評獎勵模型進行對比,可以生成更長和更全面的批評。這個搜尋程式使得能夠平衡在程式碼中尋找問題的力度,並在虛構問題和發現的錯誤數量之間進行精度-召回權衡。這意味著可以生成盡可能對 RLHF 有幫助的批評。

CriticGPT 的局限

首先,依然是模型相對共性的問題。據 OpenAI 官方披露,他們在回答相對簡短的 ChatGPT 答案上訓練了 CriticGPT。為了監督未來的代理,還需要開發方法來幫助訓練師理解長而復雜的任務。

其次依然是幻覺的問題。模型仍然會虛構,有時訓練師在看到這些虛構時會犯標註錯誤。

此外,有時真實世界的錯誤可能分布在答案的許多部份,未來還需要解決分散的錯誤。

最後,當前 CriticGPT 的幫助還是有限的:如果任務或回答極其復雜,即使是專家在模型的幫助下也可能無法正確評估。

推薦閱讀:

由 CSDN 和 Boolan 聯合主辦的「2024 全球軟體研發技術大會(SDCon)」將於 7 月 4 - 5 日在北京威斯汀酒店舉行。

由世界著名軟體架構大師、雲原生和微服務領域技術先驅 Chris Richardson 和 MIT 電腦與 AI 實驗室(CSAIL)副主任,ACM Fellow Daniel Jackson 領銜,BAT、微軟、字節跳動、小米等技術專家將齊聚一堂,共同探討軟體開發的最前沿趨勢與技術實踐。

大會官網: http://sdcon.com.cn/ (可點選 閱讀原文 直達)