當前位置: 妍妍網 > 碼農

第一個AI軟體工程師震撼矽谷!手握10塊IOI金牌,他們鐵了心砸掉程式設計師飯碗

2024-03-14碼農
編輯部 發自 凹非寺
量子位 | 公眾號 QbitAI

一覺醒來,程式設計師怕是 真要失業 了。

第一個AI軟體工程師 一亮相,直接引爆整個科技圈。只需一句指令,它可端到端地處理整個開發計畫。

在SWE-bench基準測試中,它無需人類幫助,可解決 13.86% 的問題。

相比之下,GPT-4只能處理1.74%的問題,且都需要人類提示告知處理哪些檔

可以說,它遠遠超過了此前所有AI大模型。

從零構建網站、自主尋找並修復Bug、甚至是訓練和微調自己的AI模型通通都不在話下~也可為一些成熟的程式碼庫做貢獻。

就是一些不熟悉的技術,給它看一篇部落格文章。它也能立馬搞定。

比如用ControlNet,生成帶有隱藏文字的影像,Devin就是一點就通~

據介紹,它 已經成功透過一家AI公司面試 ,並且在Upwork上完成了實際工作。

而這背後的公司 Cognition ,雖然是初創公司,但 小而精悍

在招人資訊中明晃晃寫著:我們有 10個IOI金牌得主

讓同行們直呼: 哦莫,瘋了吧~

目前Devin尚未公測,不過已經有少部份人拿到了資格,開始實測了一波……

第一個AI軟體工程師亮相

Devin被介紹為 世界第一個完全自主 的AI軟體工程師。

它在 長程推理和規劃 上面下了很大功夫,可以規劃和執行需要 數千個決策 才能完成的復雜軟體工程任務。

在這之中,進行到任何一步它都可以回呼所有相關的上下文資訊,保證整體邏輯性,並方便隨時校正錯誤。

既然是一個端到端AI,軟體開發人員常用的工具,比如shell、程式碼編輯器和瀏覽器等等,Devin也都配備 (沙盒計算環境中) ,主打一個全方位服務。

最終的Devin,讓人類只需要發號施令,其他什麽也不用做。

具體來看,其主要能力有以下六個:

1、端到端構建和部署程式

Devin可以幫我們解決的不只有是程式碼,還包括與之相關的整個工作流。

比如,當我們需要設計一個網頁遊戲時,Devin不僅能生成網頁,還能直接完成伺服端的部署,然後直接釋出上線,省去了中間的人工操作。

只需要告訴Devin,我們想做一個個人區域網絡站,裏面執行一個Devin客製版的生命遊戲。

然後Devin表示自己會先搭建網站的基本架構,並詢問了有沒有更具體的需求。

在明確要求之後,Devin給出了這樣一份任務清單:

  • 建立React套用,安裝UI模組等依賴

  • 用React和UI模組搭建前端環境

  • 部署伺服器並確保其在私有IP下執行

  • 透過CDN向首頁添加p5.js庫

  • 在React中部署並驗證遊戲的功能和資源是否正確配置

  • 接著,Devin就會按照自己設計的這個清單開始編寫程式碼,然後部署服務……

    Devin部署後端伺服器的過程

    最終完成全部工作之後,一個即點即玩的遊戲連結就呈現在了我們面前。

    2、自主尋找並修復bug

    不僅能一氣呵成完成開發部署,Devin的debug能力也是一流。

    開發者給Devin一個GitHub連結,讓它先熟悉計畫情況,然後一會兒要準備數據進行測試。

    接著,Devin就會按部就班地編寫測試用的程式並準備好有關數據,然後執行。

    結果,在開發者已經釋出的完整計畫之中,Devin還真的找到了連開發者自己都沒有發現的漏洞。

    發現漏洞之後,Devin會回溯報錯出現的位置及對應的數據,然後分析原因並給出解決方案。

    最終經過偵錯,程式的bug被成功修復,完美透過了測試。

    3、訓練和微調自己的AI模型

    除了這些一般的程式或計畫,作為一個全能型AI助手,Devin還有能力幫助人類訓練和微調其他AI。

    對於一些常見的模型 (比如範例中的Llama) ,使用者只需要在promot中提及模型的名稱,Devin就直接知道要訓練哪個模型。

    而在這個範例中,微調的具體方法 (QLoRA) 是以GitHub連結的形式輸入給Devin的。

    接到指令後,Devin還是像處理平常的程式一樣邊規劃邊執行,所需環境和依賴,還有模型本體,都會自動下載安裝。

    這些準備都完成之後,微調工作就會有條不紊地進行,而且其中的狀態可以即時監控。

    4、修復開源庫

    Devin的能力不僅在於開發者自己本身的計畫,開源社群裏的,它也能hold住。

    比如我們只需要把GitHub計畫的issue連結丟給Devin,它就能立即完成所需的所有配置,並自動收集上下文資訊,然後開始解決問題。

    當然,開源計畫的功能請求 (feature request) 也沒問題,和修問題的流程一樣,自己搞好配置,收集上下文,然後就開始編碼。

    5、成熟的生產庫也能做貢獻

    還沒完,業已成熟的生產庫,Devin也能給咱秀一把。

    官方介紹,sympy Python代數系統中有一個對數計算的錯誤,就被Devin順利解決:

    配置環境、重現bug,自行編碼並修復、測試,再次一氣呵成。

    就是這個庫

    6、不熟的技術,現學現賣

    最後,遇到自己不會的技能,Devin可以直接現學,並迅速付諸套用。

    把你新刷到的技術文章連結直接丟給Devin:

    Hi Devin!我在這個部落格文章中 (附網址) 發現,可以生成帶有隱藏文本的影像。文中提到了一個指令碼,你能配置好它,然後為我真的生成一些圖片嗎?

    Ps. 就是利用ControlNet來做這件事。

    Devin接到請求後,首先詢問了更為詳細的需求,然後開始閱讀部落格文章,並像平常一樣規劃出了行動方案。

    有了詳細的行動方案後,它立刻就在數分鐘內進行程式碼編寫和偵錯。

    同樣的,在這裏遇到bug也不用驚慌,Devin同樣有能力直接進行修復。

    完成工具的搭建後,Devin也沒有勞煩人類自行配置使用,而是一氣呵成,最終生成了咱們要的帶隱藏文字的影像:

    可以說表現相當令人驚艷。

    而在具體測試中,Devin取得的成績同樣亮眼。

    在評估Devin的表現時,團隊沒有使用常見的HumanEval,而是用了更具挑戰性的SWE-bench。

    這個數據集是由GitHub中的實際問題組成的,Devin不借助任何輔助,就取得了13.86%的最高解決率。

    而同樣在無輔助的條件下, GPT-4的問題解決率為零 ,此前的最佳水平是1.96%,加入輔助也才4.8%。

    公司人均一塊IOI金牌

    如此炸天的新成果,背後卻是一家名不見經傳的初創公司。

    但這種「名不見經傳」背後,實際是一個10人員工的編程天才團隊,IOI金牌就有10塊…人均一塊。

    Devin背後公司名為 Cognition AI ,總部設在紐約和舊金山,定位是一家專註於推理的套用AI實驗室。

    此前這家公司一直秘密工作,於兩個月前正式註冊成立。

    目前該 團隊規模僅有10人,但共攬獲了10枚IOI金牌 ,創始成員均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等從事AI前沿工作。

    據悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan創立。

    聯合創始人兼CEO Scott Wu,根據我們目前搜到的資料,Scott Wu曾就讀於哈佛大學,曾是Lunchclub的聯合創始人兼CTO。

    曾連續三年攬獲IOI金牌:

    聯合創始人兼CTO Steven Hao,畢業於MIT電腦專業,之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。

    也曾是IOI金牌得主:

    聯合創始人兼CPO Walden,曾於哈佛大學攻讀電腦科學和經濟學相關專業,還曾從事MIT PRIMES密碼學和機器學習方向的電腦科學研究,還是華頓商學院高中投資大賽北美地區決賽入圍者。

    2020年第32屆IOI金牌得主:

    據X推文的轉發順藤摸瓜,還有一位創始成員被扒了出來。

    Neal Wu,同樣有哈佛大學教育經歷,曾在tryramp、GoogleBrain工作過。

    整個團隊長期目標,意在透過解決推理問題,在廣泛的學科領域解鎖新的可能性,而「程式碼僅僅是開始」。

    不過對於Devin,目前他們尚未透露是如何實作這一壯舉的,包括到底是使用自己的專有模型還是第三方模型。

    此外,Cognition AI目前已獲得矽谷投資大佬彼得·蒂爾的Founders Fund基金領投的 2100萬美元A輪融資

    眾所周知,彼得蒂爾以挖掘這種極具突破性的創新計畫著稱,而且哈佛背景的創業者更是和他淵源緊密。

    上一個他早期投資中類似背景,最知名的是祖克柏和Facebook。

    「自動化軟體工程與自動駕駛類似」

    Devin一亮相,讓不少工程師大驚失色:軟體工程師…要失業了???

    不過也有人依然樂觀:終於有AI讓我們從繁重的編程任務中解脫出來。

    前特斯拉AI總監Kappa西倒是給了一顆定心丸。

    自動化軟體工程,目前看起來與自動化駕駛類似。

    具體體現在 發展行程 上:首先人類手動編寫程式碼,然後 GitHub Copilot 自動完成幾行,再之後ChatGPT 編寫程式碼塊,現在就是Devin的出現。

    接下來,他認為自動化軟體工程會演變成為協調開發人員需要串聯的許多工具一起編寫程式碼:終端、瀏覽器、程式碼編輯器等。以及人類負責監督,逐漸轉向更高級別工作。

    結合Kappa西的經歷和對自動駕駛的理解,他表達的更多是一種漸進式推進,即會有一段時間的人機共駕,然後在數據和叠代反饋後,才能實作完全無人駕駛。

    自動化軟體也類似,先低程式碼,然後零程式碼,最後完全不需要人寫程式碼。

    Perplexity AI CEO給出了個高度的肯定: 這應該是任何Agent的第一個演示。

    它似乎跨越了人類水平的門檻並且可靠地工作。它還告訴我們透過結合 LLM 和樹搜尋演算法可以實作什麽

    德撲AI之父、前FAIR (Meta) 研究科學家、現已加入OpenAI的Noam Brown轉發開麥:

    2024年是AI激動人心的一年。

    所以,程式設計師們做好被解放的準備了嗎? (Doge)

    參考連結:
    [1]https://twitter.com/cognition_labs/status/1767548763134964000/quotes
    [2]https://waldenyan.com/
    [3]https://twitter.com/itsandrewgao/status/1767628564432670904
    [4]https://twitter.com/Lauramaywendel/status/1767588416730894756
    [5]https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

    如喜歡本文,請點選右上角,把文章分享到朋友圈

    因公眾號更改推播規則,請點「在看」並加「星標」 第一時間獲取精彩技術分享

    IT一線從業者抱團群

    致力於幫助廣大開發者提供高效合適的工具,讓大家能夠騰出手做更多創造性的工作,也歡迎大家分享自己公司的內推資訊,相互幫助,一起進步!

    組建了程式設計師,架構師,IT從業者交流群,以 交流技術 職位內推 行業探討 為主

    加大佬 好友 ,備註"加群"