当前位置: 欣欣网 > 资讯

我们在网上吹的牛,成了大模型的香饽饽

2024-05-20资讯

就在前两天,OpenAI 发布的 GPT-4o,又一次震撼了整个互联网科技行业。

GPT-4o 融合了所有模态,可以识别并生成文字、语音和图像内容,还能根据人的语气判断对方情绪变化……电影【her】里面的情节,似乎就要变成现实。

而且,GPT-4o 还免费给所有用户使用,这一决策也在促使大模型开始往免费、低价这个方向卷。

最近,又有新闻爆出,OpenAI 与 Reddit 达成了一项协议,OpenAI 将使用 Reddit 的帖子内容来训练大模型。

可能很多人没听过 Reddit 这个网站,它是一个社交新闻网站,上面有许多社区板块,由用户发布的帖子构成,简单来说,咱们可以将它理解为美国版的「贴吧」或是「虎扑」。

根据最新财报,Reddit 日活用户超过 7000 万,每个月有 12 亿独立用户访问 Reddit,这也使得 Reddit 上聚集了各种各样的社区,什么体育、游戏、音乐、新闻事件……

在 Reddit 上,就有一个关于李子柒的社区。

这些由上亿用户创建的内容,本身就是一个非常宝贵的资源,跟贴吧一样,Reddit 帖子内容涉及到方方面面,回复里是用户对各种事物真实的反馈,而且还紧跟时事。

用 Reddit 的内容训练,能让大模型更好的理解人类世界的语言逻辑,在不同主题的对话里生成更接近真人的反馈内容。

打个比方,如果大模型不接触中文互联网,大概率不知道「YYDS」是什么意思,也无法在回答里输出「uzi,YYDS」。

事实上,这不是 Reddit 第一次跟人工智能企业合作,早在今年 2 月份,Reddit 就与谷歌达成了协议,允许谷歌使用 Reddit 的帖子内容训练大模型。Reddit 能从这里面每年获得 6000 万美元。

Reddit 又能从跟 OpenAI 合作里获利多少,媒体没有报道,双方聊得应该很愉快,毕竟 OpenAI 现在的 CEO 山姆·奥特曼也是 Reddit 的大股东。

值得一提的是,腾讯也是 Reddit 的大股东之一。

扯远了,OpenAI 用 Reddit 数据训练大模型还是一件新闻,但在国内,用贴吧、知乎的帖子数据训练大模型,早已不是什么新鲜事。

今年 4 月初,弱智吧又火了一把,说是一个团队用弱智吧训练出来的大模型,评分远超知乎豆瓣小红书的。

一个号称是「弱智」的贴吧,内容的文本质量「爆杀」知乎豆瓣小红书这些平台,看起来简直是一部爽文,天才主人公扮猪吃老虎,让人热血沸腾。

毕竟弱智吧,平常看起来就很不着调,每个帖子的标题五花八门,但短短几个字里,玩出了欧亨利小说那样出人意料的结尾,甚至包含深刻的人生哲理。

于是网友惊讶地发现,弱智吧的人不仅不弱智,还可能是最睿智的群体。

不过,后来该团队成员对这件事进行了澄清:

虽然团队选取了知乎、豆瓣、小红书还有弱智吧的语料来训练大模型,但该团队在选取弱智吧点赞数最高的 500 个帖子时,只保留了标题。 回答内容因为 有冒犯性表述和实质性错误,都被排除了。

团队于是采用 GPT-4 生成回答,并经过人工挑选、优化,获得了 240 组样本。其他平台比如知乎、豆瓣,则保留了高赞回答。

因此,在投喂语料训练大模型时,弱智吧语料本身更符合 GPT-4 的要求,而最终评分也来自 GPT-4,这可能就是弱智吧训练数据评分高的原因。

虽然最终的解释给不少人浇了一盆冷水,但也反映了一个事实,那就是国内的大模型团队会在各大网络平台收集训练数据。

有很大可能,咱们在网上吹牛获得高赞的内容,已经被人工智能团队拿来训练大模型,甚至赞数越高,越被认为是优质的语料。

不过,这样的数据使用也引来了争议。比如在 Reddit 上,曾经有许多大模型团队通过免费的 API 接口引用 Reddit 的语料来训练数据,其中就包括 OpenAI 和谷歌。

苦于为营收增长发难的 Reddit,从中发现了商业机会,开始对 API 收费,这才有了后来与谷歌和 OpenAI 的合作。

另一边,Alphabet (谷歌母公司) 的 CEO 则公开警告OpenAI,对方不要用 YouTube 的数据训练生成视频的人工智能模型。

皮查伊指的就是早些时候 OpenAI 发布 sora,之前 OpenAI 的技术负责人被问到 sora 的训练数据来源时,表达很模糊,被认为用了 YouTube 的视频数据,

作为全球最大的视频创作平台,如果能够用 YouTube 的视频来训练,对大模型水平的提高有很大帮助。

在大模型这波浪潮下,企业之间卷的不仅是硬件资源,用户创作的内容正成为越来越珍贵的机器食料。

Reddit 已经成为当下最大的受益者,而国内的知乎、豆瓣、虎扑也有受益的可能,改变自身当下商业化难的困境。

只希望他们能借此机会,减少广告投放,改善用户的使用体验吧。

参考资料:

The Verge、科学网、新浪科技、Reddit

编辑 :木易