當前位置: 妍妍網 > 資訊

華人開源最強「AI 程式設計師」炸場,讓 GPT-4 自己修 Bug!

2024-04-03資訊

作者 | 王啟隆

出品 | CSDN(ID:CSDNnews)

自從「AI 程式設計師」Devin 問世之後,近期的一大趨勢就是程式設計師們爭先恐後地要讓自己失業,試圖搶先造出比自己更強大的程式設計師。

普林斯頓大學為 軟體工程界迎來了一位新星—— SWE-agent ,論文將在 4 月 10 日 正式釋出,目前計畫已在 GitHub 上開源。

GitHub: https://github.com/princeton-nlp/SWE-agent

和其他的「AI 程式設計師」相比,SWE-agent 的特點就是 將 GPT-4 這樣的大型語言模型(LLMs)轉化為軟體工程代理 ,使其能夠修復真實 GitHub 倉庫中的錯誤和問題。 SWE-agent 在軟體工程基準測試中的 準確度與 Devin 相當 ,在解決 GitHub 倉庫問題上的效能甚至超過了 Devin:SWE-agent 平均只需 93 秒 就能修完 Bug。

完整的 SWE-bench 基準測試結果顯示,SWE-agent 修復了 12.29% 的問題,Debin 則是 13.84%——但 SWE-agent 有一大優勢:開源 。這一成績也表明,開源模型有能力追趕甚至超越閉源模型的效能。SWE Agent 的高精度顯示了其處理復雜軟體工程任務的能力。

SWE-agent 的一個核心特性是其 開源代理電腦介面 ,該介面支持程式碼的編輯和執行。這一專門設計的介面旨在簡化代理(由 GPT-4 驅動)與程式碼的互動,提高任務執行效率。透過提供諸如導航倉庫、搜尋檔、編輯行和將輸入轉換為程式碼等特定命令,代理電腦介面確保了代理與程式碼庫之間的無縫互動。

代理電腦介面的設計對 SWE-agent 的效能至關重要。研究發現,將 GPT-4 連線到一個普通的 bash 終端並不能獲得最佳效果。因此,專門設計了一個對語言模型友好的代理電腦介面,以提高代理的理解能力和效能。這種新設計促進了代理與程式碼庫之間的有效溝通,確保了解決軟體工程問題的準確性和效率。

SWE-agent 透過一個專門的終端與程式碼進行互動和執行任務 。這個終端允許代理開啟、捲動和編輯檔,確保精確更改,避免錯誤。它還使代理能夠編寫和執行測試,從而最佳化程式碼品質和效率。這個終端對 SWE-agent 的效能至關重要,增強了其有效處理軟體工程任務的能力。

SWE-agent 的 一作、華人 John Yang 在 X 上用一張圖解釋了這點:

最終實作的效能,比前段時間爆火的 RAG 檢索技術要強很多:

SWE-agent 開發過程中還有一個有趣發現是, 限制 AI 系統存取的資訊量可以提升其效能 。透過僅允許系統一次檢視 100 行程式碼,而不是整個檔,代理的規劃和執行變得更加高效。這種限制有助於簡化代理的思維過程,使其能夠專註於處理更小部份的程式碼。這種最佳化策略已被證明對 SWE-agent 的整體效能有顯著提升。

輝達研 究科學家 Jim Fan 也在 X 上盛贊 SWE:「透過精心調整 GPT-4 命令列工具的設計,足以在 SWE-bench 效能測試中取得 12.3% 的結果。既沒有神奇的技術革新,也不需要模型的重大突破。

待到 GPT-5 問世,其在執行指令、工具操作及處理長篇幅上下文的能力上必將實作顯著飛躍。屆時,當前熱議的所謂「提示工程 2.0」技術或許不會像現在這般關鍵。在此特別點贊 John Yang 的工作成果,他剝去了過度炒作的外衣,讓我們看到了工程的實質是回歸基礎並註重實用性的改進措施。」

整體看下來,這一釋出簡單明了,沒有一點炒作成分。在 4 月 10 日即將釋出的論文中,普林斯頓大學團隊還 將深入探討代理的技術架構、演算法和效能最佳化策略,並詳細介紹成本最佳化策略:SWE-agent 旨在將每個任務的成本控制在 4 美元以內,論文中會明確解決任務的平均成本。


4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。