能否超越Sora? 一起來了解Google新模型Gemini

2024-02-20碼農

最近，openai推出了Sora大火，Google 也推出了名為 Gemini 的新型多模態大模型，在 AI 模型領域掀起了熱烈討論，甚至一度超越了 GPT-4 的關註度。那麽，Gemini 到底具備哪些具體功能？相較於其他大型模型，它有何獨特之處呢？讓我們一同探索。

簡介

這是 Google 開發的一系列高效能多模式模型。我們在影像、音訊、視訊和文本數據方面聯合訓練 Gemini，目的是構建一個模型，該模型既具有跨模態的強大通才能力，又在各個領域具有前沿的理解和推理效能。

官網：https://www.gemini.com

Google釋出了多個演示視訊，展示了Gemini的多模態能力。其中包括：識圖能力，可以理解影像/視訊內容並進行總結推算。例如，根據不同顏色的毛線給出可編織的物體；辨識吉他、電吉他並提供對應演奏音訊；智慧追蹤視訊中物體的運動軌跡，即使被遮擋也能保持判斷。

Gemini還具備推理能力，能根據使用者需求個人化客製體驗。例如，詢問如何為喜歡動物的女兒慶祝生日，Gemini會基於「喜歡動物」這點，提供多種活動場景，並撰寫詳盡的「產品需求文件」，精心安排各項細節。使用者點選感興趣的選項，Gemini能迅速給出更多可行的建議和方案。

多模型

盡管 Gemini 和 GPT-4V 提供類似的功能，Google 在釋出 Gemini 時特別強調了其「原生多模態」能力。與傳統的多模態模型在後期階段才整合文本、視訊、音訊處理不同，Gemini 從一開始便對各模態同時進行預訓練，並透過多模態數據進一步微調，類似於一個團隊從頭到尾負責所有任務，確保了更高效的協作和執行。

傳統多模態大模型訓練方法：

這樣的訓練方法有助於 Gemini 無縫理解、操作和組合不同型別的資訊。

毫無疑問，谷歌是一家軟體公司，谷歌Gemini是一款軟體產品，但是谷歌勝就勝在硬體上。谷歌強調Gemini是一個功能強大的多模態模型（Multimodal Model）。多模態指的是結合了多種感官輸入形式來做出更明智的決策，相當於是模型可以用復雜、多樣和非結構化的數據來求解。

套用

從釋出日起，Gemini可開始套用於Bard和Pixel 8 Pro智慧型手機，並將很快與谷歌服務中的其他產品整合，包括Chrome、搜尋和廣告等。

另外，谷歌還推出了「人工智慧超級電腦」概念。谷歌雲描述它為一個整合系統，包含開放軟體、效能最佳化硬體、機器學習框架和靈活的消費模型。

加我微信，加群交流。