超越Devin，姚班帶隊 OpenCSG創造大模型編程新世界紀錄

2024-05-31碼農

點選藍字，關註我們

摘要

來自 中國大模型初創公司OpenCSG 推出的 StarShip CodeGen Agent ，以 23.67% 的成績重新整理了普林斯頓SWEBench(大模型真實獨立編程評測)排行榜，取得了 全球第二名 的成績，同時創造了 非GPT-4o基模的最高紀錄（SOTA）。

SWEBench評測高度貼近真實編程場景，難度極高。不僅要求模型能理解需求、協調多個函式/類，乃至檔的變更，還要求模型能夠與執行環境互動，處理超長上下文資訊，並執行遠超傳統程式碼生成任務的復雜邏輯推理。在這種高難度的真實測試中，行業中最先進的GPT4和Devin，也僅能解決1.74%和13.86%的問題。 OpenCSG的這一成績，標誌著國內公司在推動語言模型向更實用、智慧和自主化方向發展邁出了領先的一步。

01 Devin - 大模型編程的創新

2024年3月，第一個AI軟體工程師Devin的橫空出世，引爆了整個技術界。雖然伴隨著一系列爭議，但Devin本身強大的創新能力和巨大潛力，帶給眾多AI愛好者和從業者新的期待。Devin不僅能夠輕松解決編碼任務，還能自主完成軟體開發的整個周期——從計畫規劃到部署，涵蓋但不限於構建網站、自主尋找並修復 BUG、訓練以及微調AI模型等等。

02 大模型編程的真實挑戰

為什麽Devin敢於挑戰GPT4等基礎模型的編程能力呢？ 核心在於軟體工程師的工作並不只是編寫程式碼，更涉及到需求理解、程式碼解讀、編程計劃、程式碼生成、偵錯與異常修復等等環節，這裏面的每個環節都會影響大模型編程的可用性和效果。

針對於這類真實場景，普林斯頓大學提出了SWEBench( https://arxiv.org/abs/2310.06770 )，這是一種量化評估端到端程式碼生成能力的工具。GPT-4在SWEBench上的評分僅有1.74%，即使加上RAG技術，其評分也不到3%。這表明單純依靠基礎模型來直接解決現實世界中的編程問題是不可能做到的。

而Devin的技術創新是基於Agent構建工作流程，將SWEBench的解決率提升到了一個新高度。3月份，Devin以獨立解決13.86%的問題解決率高居榜首，這直接將「大模型編程」從幾乎不可用的狀態提升到了「看到了曙光」。矽谷大廠和大模型創業公司紛紛闖入LLM for SE這個領域，這項記錄被連續覆寫。

截止2024年4月底，最好的記錄是由Amazon AI團隊推出的 Amazon Q Developer Agent 創造的20.33%。較為遺憾的是，相較於基礎模型榜單上中國公司的「百花齊放」，這項高難度的挑戰鮮少有中國公司參與，直到這一次OpenCSG覆寫了這一記錄。

03 中國創業公司的突破

近日SWEBench最新評測結果更新，OpenCSG躍居榜單第二名。 該公司推出的OpenCSG StarShip CodeGen Agent在Lite評測中取得了23.67%的透過率， 這一成績不僅超過了Devin和Amazon的成績，同時也創造了非GPT4-o基模的歷史最高紀錄（SOTA）。

OpenCSG成立僅一年，是一個有著深厚開源及大模型復合經驗的團隊： CEO陳冉是開源軟體領域的知名企業家，曾成功打造過多家開源領域的商業公司； CTO王偉來自清華05級姚班，在人工智慧領域有多年研發經驗；公司核心研發團隊中還匯聚了來自清華、北大、華頓、港科大等學府的精英學子。 這樣一支團隊是如何打造出新的記錄的呢？

04 新紀錄，模型+Agent齊發力

當前許多企業正在積極探索和實踐基礎模型、垂直領域模型及RAG等技術，而OpenCSG則選擇了專註的方向：致力於編程Agent的創新開發和大型模型演算法的深度最佳化。

Agent層面： 不同於LLM+RAG或者通用Agent框架，OpenCSG StarShip CodeGen Agent針對軟體研發領域高度客製最佳化Agent而設計：將研發各個階段（需求理解、程式碼檢索、編程計劃、編寫程式碼、迴圈驗證等）透過LLM Agent實作，並結合軟體工程方法，例如AST語法分析、依賴檢索等進行深度最佳化的方式，在各個環節精益求精，最終整合實作了更高精度的程式碼生成。

演算法層面： 針對程式碼版本變更引起的API沖突等典型問題，OpenCSG提出了自適應教師模式，透過教師模型分析程式碼版本變更記錄，生成高品質編程數據並用於改善基礎模型的生成效果。根據評測這些創新帶來的改進，顯著優於當前的RAG模式，尤其是在API結構高頻更新的熱門計畫場景中。這部份的相關成果已經形成論文投遞到國際會議中。

正是這種 演算法+工程雙管齊下、精益求精的模式， 讓OpenCSG CodeGen Agent能在一眾模型中脫穎而出。

05 StarShip的星辰大海

如果說CodeGen Agent的真實評測是牛刀小試，那麽StarShip則是承載著OpenCSG的宏偉藍圖。

對於StarShip的產品定位，OpenCSG CEO陳冉表示：「 StarShip承擔著我們對於大模型重塑軟體開發的願景。使用者透過StarShip內建的智慧體（Agent）組建自己的數位員工團隊。CodeGen Agent是平台內建的數位程式設計師，目前已經釋出的還有CodeReview Agent程式碼評審員和CodeSearch程式碼問答工程師。不同於程式碼輔助工具，我們希望這些數位員工能直接獨立工作而不需要人工輔助幹預。未來我們將釋出更多型別的數位員工，全面覆蓋需求、設計、編碼、測試和運維各個環節。」

CTO王偉表示這條路徑充滿挑戰但非常有趣：「從第一性原理來看，大模型對於生產力的提升已經不是'是'或者'否'的問題，而是何時、何地、何種形態的問題，StarShip正是我們嘗試給出的一個回答。」

06 高產團隊，聚沙成塔

除StarShip之外，OpenCSG團隊還相當高產： CSGHub開源模型平台、wukong預訓練模型、CSGCoder微調程式碼模型等， 這些產品憑借其精準的地位，在業內頗受好評。此外，這些產品的快速推出與叠代，既滿足了當前的市場需求，同時也為了一個更遠大的目標：讓大模型賦能每一個企業每一個人。

OpenCSG CEO陳冉表示：「讓大模型賦能每個企業、每個人，就需要讓大模型變成水和電一樣。如果說大模型是電能，那麽CSGHub是電力網路，StarShip則是各種各樣的家電電器，最終賦能到千家萬戶。」

07 擁抱開源，超越開源

OpenCSG的理念是開源開放，作為一家堅持以開源為核心的公司，不僅實作了模型開源、程式碼開源，甚至還實作了平台開源。

「我們是一家年輕的公司，受益於開源，才能在較短的時間做出一些成果，同時也會全面回饋開源社群，這是開源社群的基本原則。除此之外，我非常認同Sam Altman的說法，開源只是一種模式，比模式更重要的是產品價值。」CTO王偉總結道。

「Benchmark本身只是一個數位，隨著GPT4-o的推出，SWEBench的測試成績預計將會很快超過30%，樂觀估計明年可以突破50%。而我們更關註這些數位背後的產品價值：隨著模型能力和工程技術的提升，數位員工將會從量變引發質變，從能用到好用，在各行業迎來全面的爆發」王偉解釋道「 這可能會是大模型時代背景下的一個重大變化，從公司到個人，我們都要為此做好準備。 」

關於OpenCSG

開放傳神（OpenCSG） 成立於2023年，是一家致力於大模型生態社群建設，匯集人工智慧行業上下遊企業鏈共同為大模型在垂直行業的套用提供解決方案和工具平台的公司。

關註OpenCSG

傳神小助手