當前位置: 妍妍網 > 碼農

能否超越Sora? 一起來了解Google新模型Gemini

2024-02-20碼農


最近,openai推出了Sora大火,Google 也推出了名為 Gemini 的新型多模態大模型,在 AI 模型領域掀起了熱烈討論,甚至一度超越了 GPT-4 的關註度。那麽,Gemini 到底具備哪些具體功能?相較於其他大型模型,它有何獨特之處呢?讓我們一同探索。

簡介

這是 Google 開發的一系列高效能多模式模型。我們在影像、音訊、視訊和文本數據方面聯合訓練 Gemini,目的是構建一個模型,該模型既具有跨模態的強大通才能力,又在各個領域具有前沿的理解和推理效能。

官網:https://www.gemini.com

Google釋出了多個演示視訊,展示了Gemini的多模態能力。其中包括:識圖能力,可以理解影像/視訊內容並進行總結推算。例如,根據不同顏色的毛線給出可編織的物體;辨識吉他、電吉他並提供對應演奏音訊;智慧追蹤視訊中物體的運動軌跡,即使被遮擋也能保持判斷。

Gemini還具備推理能力,能根據使用者需求個人化客製體驗。例如,詢問如何為喜歡動物的女兒慶祝生日,Gemini會基於「喜歡動物」這點,提供多種活動場景,並撰寫詳盡的「產品需求文件」,精心安排各項細節。使用者點選感興趣的選項,Gemini能迅速給出更多可行的建議和方案。

多模型

盡管 Gemini 和 GPT-4V 提供類似的功能,Google 在釋出 Gemini 時特別強調了其「原生多模態」能力。與傳統的多模態模型在後期階段才整合文本、視訊、音訊處理不同,Gemini 從一開始便對各模態同時進行預訓練,並透過多模態數據進一步微調,類似於一個團隊從頭到尾負責所有任務,確保了更高效的協作和執行。

傳統多模態大模型訓練方法:

這樣的訓練方法有助於 Gemini 無縫理解、操作和組合不同型別的資訊。

毫無疑問,谷歌是一家軟體公司,谷歌Gemini是一款軟體產品,但是谷歌勝就勝在硬體上。谷歌強調Gemini是一個功能強大的多模態模型(Multimodal Model)。多模態指的是結合了多種感官輸入形式來做出更明智的決策,相當於是模型可以用復雜、多樣和非結構化的數據來求解。

套用

從釋出日起,Gemini可開始套用於Bard和Pixel 8 Pro智慧型手機,並將很快與谷歌服務中的其他產品整合,包括Chrome、搜尋和廣告等。

另外,谷歌還推出了「人工智慧超級電腦」概念。谷歌雲描述它為一個整合系統,包含開放軟體、效能最佳化硬體、機器學習框架和靈活的消費模型。

加我微信,加群交流。