被曝「抄襲」中國大模型，史丹佛AI團隊道歉：1人失聯2人甩鍋，還被扒出「抄襲前科」​！

2024-06-04碼農

整理 | 鄭麗媛

出品 | 程式人生（ID：coder_life）

近日鬧得沸沸揚揚的「史丹佛 AI 團隊抄襲中國大模型」事件，終於在今天淩晨迎來了結局： Llama3-V 團隊的兩位作者在 X 上承認抄襲並道歉，並表示會把 Llama3-V 模型撤下。

若不太了解事件前情，可具體檢視。以下為懶人省流版：

（1）事件起源於 5 月 29日，一個史丹佛 AI 團隊稱其主導開發的 Llama 3-V 模型是一個超越 GPT-4V 的 SOTA 多模態大模型，且只需 500 美元就能訓練出來。

（2）隨後一位名為 pzx163 的使用者發現， Llama 3-V 使用的模型結構和程式碼，與面壁智慧在 5 月 21 日開源的端側多模態模型 MiniCPM-Llama3-V 2.5 高度相似，僅修改了部份變量名。

（3）禁不住 pzx163 的連環質問，Llama3-V 團隊的回應幾乎漏洞百出，發現實在圓不回來後，直接把 pzx163 質疑抄襲的提問全刪了，並在 HuggingFace 和 GitHub 上把計畫「緊急刪庫」。

然而事實證明：逃避解決不了問題。

史丹佛 AI Lab 主任下場開罵

此事件經過不斷發酵後，國內外多位知名技術人對此表示「深表遺憾」，史丹佛 AI 實驗室主任 Christopher Man ning 更是直接在 X 上罵道：「 這就是不肯承認自己的錯誤！ 」

在這句話後，Christopher Manning 對 MiniCPM 這一中國開源模型表示贊揚，另外還附上了 Llama3-V 團隊被發現抄襲後，在 Medium 官宣文中更新的一段話（目前該文已刪除）：

「非常感謝在評論中指出與之前研究相似之處的人。我們意識到我們的架構與 OpenBMB 的「MiniCPM-Llama3-V 2.5：手機上的 GPT-4V 級多模態 LLM」非常相似，他們在實作方面領先於我們。為了尊重作者，我們刪除了原始模型。」

顯然，雖然多了這段聲明，但事實上 Llama3-V 團隊並沒有明確承認自己的抄襲行為，僅用「 架構非常相似 」、「 他們在實作方面領先於我們 」這類模棱兩可的說法作為回應。

或許是問責的聲音太過龐大，今日淩晨 Llama3-V 三位作者中的兩位： Aksh Garg 和 Siddharth Sharma 在 X 上對此事正式道歉並承認抄襲—— 不過言語之中，「甩鍋」給第三位作者 Mustafa Aljadery 的嫌疑很大 。

道歉聲明，實際上是為了甩鍋？

從內容上來看，Aksh Garg 和 Siddharth Sharma 兩人的道歉聲明幾乎一致——其實在此之前，Aksh Garg 就曾釋出過一則相似內容的道歉聲明，但不知為何被迅速刪除了。

對比刪除版本， Aksh Garg 正式釋出的道歉聲明不同之處主要有 4 處：

（1）原版：「 我們倆（Aksh 和 Siddharth）都忙於自己的全職工作，所以 Mustafa 為該計畫編寫了所有程式碼 。」➡️ 更新版：「Mustafa 編寫了該計畫的程式碼。」

（2）原版：「在看到這些指控後，我們與 Mustafa 討論了 Llama3V 的原創性證明，並要求提供訓練程式碼，但到目前為止還沒有看到任何證據。」 ➡️ 更新版：「 我們希望 Mustafa 能發表原創聲明，但從昨天開始就一直無法聯系到他 。」

（3）原版：「 在盲目信任隊友之前 ，重要的是要根據先前的經驗驗證一切，但我們在這方面失敗了。」 ➡️ 更新版：「我們有責任將我們的工作與過去的研究進行比對，但我們沒有做到這一點。」

（4）原版：「所以我們幫他（Mustafa）在 Medium和 Twitter 上推廣該計畫。」 ➡️ 更新版：「因此， 我們倆在這個計畫中的角色是幫他（Mustafa）在媒體和 twitter 上推廣這個模型 。」

以下為 Aksh Garg 最新釋出的道歉聲明全文：

首先，我們要向 MiniCPM 的原作者道歉。我們希望 Mustafa 能發表原創聲明，但從昨天開始就一直無法聯系到他。

Siddharth 和我與 Mustafa 一起釋出了 Llama3V。 Mustafa 編寫了該計畫的程式碼。Sid 和我都對多模態模型非常感興趣，也很喜歡他（ Mustafa ）向我們描述的在 Idefics、SigLip 和 UHD 基礎上的架構擴充套件。因此，我們倆在這個計畫中的角色是幫助他在媒體和 twitter 上推廣這個模型。Sid 和我查閱了最近的論文以驗證這項工作的新穎性，但我們並不知道也不了解 @OpenBMB 之前的任何工作。

我們向作者表示歉意，並對自己沒有盡職驗證這項工作的原創性感到非常失望。我們有責任將我們的工作與過去的研究進行比對，但我們沒有做到這一點，因此我們對所發生的一切負全部責任。今後，@siddrrsh 和我會更加謹慎和勤奮，我們衷心感謝社群提請我們註意此事。為了尊重原作，我們已經刪除了所有對 Llama3V 的參照，並再次表示歉意。

- Aksh 和 Siddharth

截至目前， Aksh Garg 和 Siddhart h Sharma 已釋出聲明，但他們所說的「編寫了計畫程式碼」主要作者 Mustafa Aljadery 至今沒有回應，甚至他的 X 帳號也已是釘選狀態，無法檢視任何推文。

與此同時，透過 Aksh 和 Siddharth 新釋出的這份道歉聲明，也讓許多網友發現了另一個問題： 按這說法，敢情你倆啥也沒幹、搞個宣傳工作就成計畫作者了？

「（宣發時）你說這是你們三個人共同建造的，為啥現在只把一個人推出來？」

「這仍然反映了你們兩個人的劣跡。你們之前聲稱自己是作者，隨後炒作自己的東西，可實際上：1.完全沒有參與開發；2.根本不知道它是怎麽做出來的。到了現在，你們還把朋友完全推到了風口浪尖上。」

「你們本想把開發模型的功勞攬到自己身上，現在出事了又想推卸責任，這也太不地道了吧。」

一群抄襲慣犯？

不知該說是意外還是意料之中，很快有網友發現這個團隊似乎有「抄襲」前科。

目前處於失聯狀態的 Mustafa Aljadery 曾寫過一本關於「電腦網路設計」的書，有網友隨機抽取了其中一章並用抄襲檢測器刷了一遍，結果顯示：「我們在你的文章中發現了抄襲行為，還發現了 71 處寫作問題。」

據悉，該書的作者欄裏也有 Siddharth 的名字——不過具體情況如何已不得而知了，因為這本書目前也已經被刪了。

不論如何，這件事情似乎已到此為止：抄襲者承認並道歉，抄襲模型也全部下架。最後，參照面壁智慧創始人劉知遠的一句回應，作為對開源未來的期許：

「人工智慧的飛速發展離不開全球演算法、數據與模型的開源共享，讓人們始終可以站在 SOTA 的肩上持續前進。而開源共享的基石是對開源協定的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬。」

參考連結：

https://x.com/chrmanning/status/1797664513367630101

https://x.com/siddrrsh/status/1797682242145464814

推薦閱讀：

被曝「抄襲」中國大模型，史丹佛AI團隊道歉：1人失聯2人甩鍋，還被扒出「抄襲前科」​！

被曝「抄襲」中國大模型，史丹佛AI團隊道歉：1人失聯2人甩鍋，還被扒出「抄襲前科」！