被曝「抄袭」中国大模型，斯坦福AI团队道歉：1人失联2人甩锅，还被扒出「抄袭前科」​！

2024-06-04码农

整理 | 郑丽媛

出品 | 程序人生（ID：coder_life）

近日闹得沸沸扬扬的「斯坦福 AI 团队抄袭中国大模型」事件，终于在今天凌晨迎来了结局： Llama3-V 团队的两位作者在 X 上承认抄袭并道歉，并表示会把 Llama3-V 模型撤下。

若不太了解事件前情，可具体查看。以下为懒人省流版：

（1）事件起源于 5 月 29日，一个斯坦福 AI 团队称其主导开发的 Llama 3-V 模型是一个超越 GPT-4V 的 SOTA 多模态大模型，且只需 500 美元就能训练出来。

（2）随后一位名为 pzx163 的用户发现， Llama 3-V 使用的模型结构和代码，与面壁智能在 5 月 21 日开源的端侧多模态模型 MiniCPM-Llama3-V 2.5 高度相似，仅修改了部分变量名。

（3）禁不住 pzx163 的连环质问，Llama3-V 团队的回应几乎漏洞百出，发现实在圆不回来后，直接把 pzx163 质疑抄袭的提问全删了，并在 HuggingFace 和 GitHub 上把项目「紧急删库」。

然而事实证明：逃避解决不了问题。

斯坦福 AI Lab 主任下场开骂

此事件经过不断发酵后，国内外多位知名技术人对此表示「深表遗憾」，斯坦福 AI 实验室主任 Christopher Man ning 更是直接在 X 上骂道：「 这就是不肯承认自己的错误！ 」

在这句话后，Christopher Manning 对 MiniCPM 这一中国开源模型表示赞扬，另外还附上了 Llama3-V 团队被发现抄袭后，在 Medium 官宣文中更新的一段话（目前该文已删除）：

「非常感谢在评论中指出与之前研究相似之处的人。我们意识到我们的架构与 OpenBMB 的「MiniCPM-Llama3-V 2.5：手机上的 GPT-4V 级多模态 LLM」非常相似，他们在实现方面领先于我们。为了尊重作者，我们删除了原始模型。」

显然，虽然多了这段声明，但事实上 Llama3-V 团队并没有明确承认自己的抄袭行为，仅用「 架构非常相似 」、「 他们在实现方面领先于我们 」这类模棱两可的说法作为回应。

或许是问责的声音太过庞大，今日凌晨 Llama3-V 三位作者中的两位： Aksh Garg 和 Siddharth Sharma 在 X 上对此事正式道歉并承认抄袭—— 不过言语之中，「甩锅」给第三位作者 Mustafa Aljadery 的嫌疑很大 。

道歉声明，实际上是为了甩锅？

从内容上来看，Aksh Garg 和 Siddharth Sharma 两人的道歉声明几乎一致——其实在此之前，Aksh Garg 就曾发布过一则相似内容的道歉声明，但不知为何被迅速删除了。

对比删除版本， Aksh Garg 正式发布的道歉声明不同之处主要有 4 处：

（1）原版：「 我们俩（Aksh 和 Siddharth）都忙于自己的全职工作，所以 Mustafa 为该项目编写了所有代码 。」➡️ 更新版：「Mustafa 编写了该项目的代码。」

（2）原版：「在看到这些指控后，我们与 Mustafa 讨论了 Llama3V 的原创性证明，并要求提供训练代码，但到目前为止还没有看到任何证据。」 ➡️ 更新版：「 我们希望 Mustafa 能发表原创声明，但从昨天开始就一直无法联系到他 。」

（3）原版：「 在盲目信任队友之前 ，重要的是要根据先前的经验验证一切，但我们在这方面失败了。」 ➡️ 更新版：「我们有责任将我们的工作与过去的研究进行比对，但我们没有做到这一点。」

（4）原版：「所以我们帮他（Mustafa）在 Medium和 Twitter 上推广该项目。」 ➡️ 更新版：「因此， 我们俩在这个项目中的角色是帮他（Mustafa）在媒体和 twitter 上推广这个模型 。」

以下为 Aksh Garg 最新发布的道歉声明全文：

首先，我们要向 MiniCPM 的原作者道歉。我们希望 Mustafa 能发表原创声明，但从昨天开始就一直无法联系到他。

Siddharth 和我与 Mustafa 一起发布了 Llama3V。 Mustafa 编写了该项目的代码。Sid 和我都对多模态模型非常感兴趣，也很喜欢他（ Mustafa ）向我们描述的在 Idefics、SigLip 和 UHD 基础上的架构扩展。因此，我们俩在这个项目中的角色是帮助他在媒体和 twitter 上推广这个模型。Sid 和我查阅了最近的论文以验证这项工作的新颖性，但我们并不知道也不了解 @OpenBMB 之前的任何工作。

我们向作者表示歉意，并对自己没有尽职验证这项工作的原创性感到非常失望。我们有责任将我们的工作与过去的研究进行比对，但我们没有做到这一点，因此我们对所发生的一切负全部责任。今后，@siddrrsh 和我会更加谨慎和勤奋，我们衷心感谢社区提请我们注意此事。为了尊重原作，我们已经删除了所有对 Llama3V 的引用，并再次表示歉意。

- Aksh 和 Siddharth

截至目前， Aksh Garg 和 Siddhart h Sharma 已发布声明，但他们所说的「编写了项目代码」主要作者 Mustafa Aljadery 至今没有回应，甚至他的 X 账号也已是锁定状态，无法查看任何推文。

与此同时，通过 Aksh 和 Siddharth 新发布的这份道歉声明，也让许多网友发现了另一个问题： 按这说法，敢情你俩啥也没干、搞个宣传工作就成项目作者了？

「（宣发时）你说这是你们三个人共同建造的，为啥现在只把一个人推出来？」

「这仍然反映了你们两个人的劣迹。你们之前声称自己是作者，随后炒作自己的东西，可实际上：1.完全没有参与开发；2.根本不知道它是怎么做出来的。到了现在，你们还把朋友完全推到了风口浪尖上。」

「你们本想把开发模型的功劳揽到自己身上，现在出事了又想推卸责任，这也太不地道了吧。」

一群抄袭惯犯？

不知该说是意外还是意料之中，很快有网友发现这个团队似乎有「抄袭」前科。

目前处于失联状态的 Mustafa Aljadery 曾写过一本关于「计算机网络设计」的书，有网友随机抽取了其中一章并用抄袭检测器刷了一遍，结果显示：「我们在你的文章中发现了抄袭行为，还发现了 71 处写作问题。」

据悉，该书的作者栏里也有 Siddharth 的名字——不过具体情况如何已不得而知了，因为这本书目前也已经被删了。

不论如何，这件事情似乎已到此为止：抄袭者承认并道歉，抄袭模型也全部下架。最后，引用面壁智能创始人刘知远的一句回应，作为对开源未来的期许：

「人工智能的飞速发展离不开全球算法、数据与模型的开源共享，让人们始终可以站在 SOTA 的肩上持续前进。而开源共享的基石是对开源协议的遵守，对其他贡献者的信任，对前人成果的尊重和致敬。」

参考链接：

https://x.com/chrmanning/status/1797664513367630101

https://x.com/siddrrsh/status/1797682242145464814

推荐阅读：

被曝「抄袭」中国大模型，斯坦福AI团队道歉：1人失联2人甩锅，还被扒出「抄袭前科」​！

被曝「抄袭」中国大模型，斯坦福AI团队道歉：1人失联2人甩锅，还被扒出「抄袭前科」！