當前位置: 妍妍網 > 資訊

我們在網上吹的牛,成了大模型的香餑餑

2024-05-20資訊

就在前兩天,OpenAI 釋出的 GPT-4o,又一次震撼了整個互聯網科技行業。

GPT-4o 融合了所有模態,可以辨識並生成文字、語音和影像內容,還能根據人的語氣判斷對方情緒變化……電影【her】裏面的情節,似乎就要變成現實。

而且,GPT-4o 還免費給所有使用者使用,這一決策也在促使大模型開始往免費、低價這個方向卷。

最近,又有新聞爆出,OpenAI 與 Reddit 達成了一項協定,OpenAI 將使用 Reddit 的貼文內容來訓練大模型。

可能很多人沒聽過 Reddit 這個網站,它是一個社交新聞網站,上面有許多社群板塊,由使用者釋出的貼文構成,簡單來說,咱們可以將它理解為美國版的「貼吧」或是「虎撲」。

根據最新財報,Reddit 日活使用者超過 7000 萬,每個月有 12 億獨立使用者存取 Reddit,這也使得 Reddit 上聚集了各種各樣的社群,什麽體育、遊戲、音樂、新聞事件……

在 Reddit 上,就有一個關於李子柒的社群。

這些由上億使用者建立的內容,本身就是一個非常寶貴的資源,跟貼吧一樣,Reddit 貼文內容涉及到方方面面,回復裏是使用者對各種事物真實的反饋,而且還緊跟時事。

用 Reddit 的內容訓練,能讓大模型更好的理解人類世界的語言邏輯,在不同主題的對話裏生成更接近真人的反饋內容。

打個比方,如果大模型不接觸中文互聯網,大機率不知道「YYDS」是什麽意思,也無法在回答裏輸出「uzi,YYDS」。

事實上,這不是 Reddit 第一次跟人工智慧企業合作,早在今年 2 月份,Reddit 就與谷歌達成了協定,允許谷歌使用 Reddit 的貼文內容訓練大模型。Reddit 能從這裏面每年獲得 6000 萬美元。

Reddit 又能從跟 OpenAI 合作裏獲利多少,媒體沒有報道,雙方聊得應該很愉快,畢竟 OpenAI 現在的 CEO 山姆·阿特曼也是 Reddit 的大股東。

值得一提的是,騰訊也是 Reddit 的大股東之一。

扯遠了,OpenAI 用 Reddit 數據訓練大模型還是一件新聞,但在國內,用貼吧、知乎的貼文數據訓練大模型,早已不是什麽新鮮事。

今年 4 月初,弱智吧又火了一把,說是一個團隊用弱智吧訓練出來的大模型,評分遠超知乎豆瓣小紅書的。

一個號稱是「弱智」的貼吧,內容的文本品質「爆殺」知乎豆瓣小紅書這些平台,看起來簡直是一部爽文,天才主人公扮豬吃老虎,讓人熱血沸騰。

畢竟弱智吧,平常看起來就很不著調,每個貼文的標題五花八門,但短短幾個字裏,玩出了歐亨利小說那樣出人意料的結尾,甚至包含深刻的人生哲理。

於是網友驚訝地發現,弱智吧的人不僅不弱智,還可能是最睿智的群體。

不過,後來該團隊成員對這件事進行了澄清:

雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型,但該團隊在選取弱智吧點贊數最高的 500 個貼文時,只保留了標題。 回答內容因為 有冒犯性表述和實質性錯誤,都被排除了。

團隊於是采用 GPT-4 生成回答,並經過人工挑選、最佳化,獲得了 240 組樣本。其他平台比如知乎、豆瓣,則保留了高贊回答。

因此,在投餵語料訓練大模型時,弱智吧語料本身更符合 GPT-4 的要求,而最終評分也來自 GPT-4,這可能就是弱智吧訓練數據評分高的原因。

雖然最終的解釋給不少人澆了一盆冷水,但也反映了一個事實,那就是國內的大模型團隊會在各大網路平台收集訓練數據。

有很大可能,咱們在網上吹牛獲得高贊的內容,已經被人工智慧團隊拿來訓練大模型,甚至贊數越高,越被認為是優質的語料。

不過,這樣的數據使用也引來了爭議。比如在 Reddit 上,曾經有許多大模型團隊透過免費的 API 介面參照 Reddit 的語料來訓練數據,其中就包括 OpenAI 和谷歌。

苦於為營收增長發難的 Reddit,從中發現了商業機會,開始對 API 收費,這才有了後來與谷歌和 OpenAI 的合作。

另一邊,Alphabet (谷歌母公司) 的 CEO 則公開警告OpenAI,對方不要用 YouTube 的數據訓練生成視訊的人工智慧模型。

皮查伊指的就是早些時候 OpenAI 釋出 sora,之前 OpenAI 的技術負責人被問到 sora 的訓練數據來源時,表達很模糊,被認為用了 YouTube 的視訊數據,

作為全球最大的視訊創作平台,如果能夠用 YouTube 的視訊來訓練,對大模型水平的提高有很大幫助。

在大模型這波浪潮下,企業之間卷的不僅是硬體資源,使用者創作的內容正成為越來越珍貴的機器食料。

Reddit 已經成為當下最大的受益者,而國內的知乎、豆瓣、虎撲也有受益的可能,改變自身當下商業化難的困境。

只希望他們能借此機會,減少廣告投放,改善使用者的使用體驗吧。

參考資料:

The Verge、科學網、新浪科技、Reddit

編輯 :木易