華人開源最強「AI 程式設計師」炸場，讓 GPT-4 自己修 Bug！

2024-04-03資訊

作者 | 王啟隆

出品 | CSDN（ID：CSDNnews）

自從「AI 程式設計師」Devin 問世之後，近期的一大趨勢就是程式設計師們爭先恐後地要讓自己失業，試圖搶先造出比自己更強大的程式設計師。

普林斯頓大學為軟體工程界迎來了一位新星—— SWE-agent ，論文將在 4 月 10 日 正式釋出，目前計畫已在 GitHub 上開源。

GitHub： https://github.com/princeton-nlp/SWE-agent

和其他的「AI 程式設計師」相比，SWE-agent 的特點就是 將 GPT-4 這樣的大型語言模型（LLMs）轉化為軟體工程代理 ，使其能夠修復真實 GitHub 倉庫中的錯誤和問題。 SWE-agent 在軟體工程基準測試中的 準確度與 Devin 相當 ，在解決 GitHub 倉庫問題上的效能甚至超過了 Devin：SWE-agent 平均只需 93 秒 就能修完 Bug。

完整的 SWE-bench 基準測試結果顯示，SWE-agent 修復了 12.29% 的問題，Debin 則是 13.84%——但 SWE-agent 有一大優勢：開源 。這一成績也表明，開源模型有能力追趕甚至超越閉源模型的效能。SWE Agent 的高精度顯示了其處理復雜軟體工程任務的能力。

SWE-agent 的一個核心特性是其 開源代理電腦介面 ，該介面支持程式碼的編輯和執行。這一專門設計的介面旨在簡化代理（由 GPT-4 驅動）與程式碼的互動，提高任務執行效率。透過提供諸如導航倉庫、搜尋檔、編輯行和將輸入轉換為程式碼等特定命令，代理電腦介面確保了代理與程式碼庫之間的無縫互動。

代理電腦介面的設計對 SWE-agent 的效能至關重要。研究發現，將 GPT-4 連線到一個普通的 bash 終端並不能獲得最佳效果。因此，專門設計了一個對語言模型友好的代理電腦介面，以提高代理的理解能力和效能。這種新設計促進了代理與程式碼庫之間的有效溝通，確保了解決軟體工程問題的準確性和效率。

SWE-agent 透過一個專門的終端與程式碼進行互動和執行任務 。這個終端允許代理開啟、捲動和編輯檔，確保精確更改，避免錯誤。它還使代理能夠編寫和執行測試，從而最佳化程式碼品質和效率。這個終端對 SWE-agent 的效能至關重要，增強了其有效處理軟體工程任務的能力。

SWE-agent 的一作、華人 John Yang 在 X 上用一張圖解釋了這點：

最終實作的效能，比前段時間爆火的 RAG 檢索技術要強很多：

SWE-agent 開發過程中還有一個有趣發現是， 限制 AI 系統存取的資訊量可以提升其效能 。透過僅允許系統一次檢視 100 行程式碼，而不是整個檔，代理的規劃和執行變得更加高效。這種限制有助於簡化代理的思維過程，使其能夠專註於處理更小部份的程式碼。這種最佳化策略已被證明對 SWE-agent 的整體效能有顯著提升。

輝達研究科學家 Jim Fan 也在 X 上盛贊 SWE：「透過精心調整 GPT-4 命令列工具的設計，足以在 SWE-bench 效能測試中取得 12.3% 的結果。既沒有神奇的技術革新，也不需要模型的重大突破。

待到 GPT-5 問世，其在執行指令、工具操作及處理長篇幅上下文的能力上必將實作顯著飛躍。屆時，當前熱議的所謂「提示工程 2.0」技術或許不會像現在這般關鍵。在此特別點贊 John Yang 的工作成果，他剝去了過度炒作的外衣，讓我們看到了工程的實質是回歸基礎並註重實用性的改進措施。」

整體看下來，這一釋出簡單明了，沒有一點炒作成分。在 4 月 10 日即將釋出的論文中，普林斯頓大學團隊還將深入探討代理的技術架構、演算法和效能最佳化策略，並詳細介紹成本最佳化策略：SWE-agent 旨在將每個任務的成本控制在 4 美元以內，論文中會明確解決任務的平均成本。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。