大模型這個概念已經深入到我們的生活中,成為人類進步發展的最主要動力!
無論是不懂AI技術的小白還是科班出身的大佬,都不得不在這個巨大的AI漩渦下,努力跟隨世界前沿發展的腳步,防止自己掉隊。
所以,無論是從業者亦或者非從業者,了解與大模型相關的知識是百利而無一害的。
今天小編就帶大家了解一下與大模型相關的各種術語知識,幫助大家以後更輕松地了解世界前沿技術的發展!速速轉發收藏起來吧!
掃碼加入AI交流群
獲得更多技術支持和交流
大模型
大模型是一種結構復雜且參數數量很多的深度學習模型,透過大量數據的預訓練,能夠完成多種復雜任務。
舉個栗子🌰,被大眾熟知的OpenAI公司的產品ChatGPT就是一個典型的大模型,能夠生成語言、回答問題、撰寫文章等。
在大模型這個寬泛的定義下,衍生出多種實作功能不同的定義。
LLM——大語言模型
有人經常將大語言模型與大模型搞混,覺得兩者是一個概念, 但並非如此 。
大語言模型是大模型中的一種,專註處理自然語言任務,LLM的設計和訓練目標是理解和生成自然語言文本,所以它的訓練數據是文本。
但大模型涵蓋更廣泛的領域,除了自然語言處理,還包括電腦視覺、語音處理等,所以其訓練數據型別多樣,包括影像、音訊、視訊等。
典型的LLM模型有GPT、Google開發的BERT和T5等。
T2I——Text-to-Image文生圖模型
文生圖就是由文本生成影像,這 類模型結合自然語言處理和電腦視覺兩大領域的技術,能夠根據給定的文字描述生成與之匹配的影像。代表性T2I模型有OpenAI的DALL-E,stabilityai的SD3模型等。
Text-to-3D——文生3D模型
這類模型可以根據文本描述生成三維模型。設計師和遊戲開發者等可以透過這樣的模型生成需要的3d資產,簡化三維內容的制作流程。代表模型有:Google的DreamFusion,OpenAI的CLIP-Forge等。
Image-to-3D——圖生3D模型
這類模型能夠將二維影像轉換為三維模型,主要是從給定的二維影像中提取空間資訊和細節,然後生成對應的三維模型。 典型模型為stabilityai的TripoSR,騰訊的InstantMesh等。
T2V——Text-to-Video文生視訊模型
顧名思義,該模型可以根據文本描述生成對應視訊,大部份此類模型處於發展階段,但部份也已經表現出一定的潛力和實際套用價值,如OpenAI的Sora,runway的Gen-3等。
TTS——Text-to-Speech 文生語音模型
這類模型能夠將輸入的文本資訊透過合成的語音形式輸出,代表有谷歌的Tacotron 2。
多模態模型
與上面所科普的單一模態模型不同,多模態的模型能夠解決更復雜和全面的理解和生成任務,因為它可以能夠處理和融合多種不同型別的數據。
常見的四種模態為文本、影像、音訊和視訊,模型可以結合不同模態的資訊 整合到一個統一的表示中,進行模態融合;同時也可以在不同模態的數據之間找到對應關系,稱為「對齊」,比如將視訊中的音訊與畫面對齊 。代表性模型有OpenAI的CLIP以及谷歌的VATT。
向量表示
在NLP(自然語言處理)中,向量是最基本的數據表示形式。 向量表示 就是將文本、影像、音訊等資訊轉換為電腦能夠理解和處理的數值形式, 向量形式的數據可以利用線性代數進行高效的計算和操作。
向量表示有多種分類:
詞向量 能夠捕捉單詞之間的語意和語法關系,是NLP中的一個核心概念。
嵌入向量 可以將 句子、影像特征等高維數據對映到低維空間,通常用於提高詞向量的品質和表現力。
特征向量 可以 是原始數據的直接表示來描述數據點的內容,比如顏色,頻率,音高等。
向量資料庫
向量資料庫專為儲存和檢索由機器學習模型生成的高維向量數據而設計,是構建現代AI系統的關鍵組成部份。
向量資料庫透過使用特殊的索引結構來最佳化向量檢索的速度,實作 高效的向量索引 ;同時支持基於內容的搜尋,能夠透過計算向量之間的距離來快速找到最相似的向量,實作 相似度搜尋 ;而且具有 靈活性和可延伸性 ,能實作從小到大規模的數據集的向量儲存和檢索
RAG
RAG全稱為檢索增強生成,主要是讓LLM在響應之前從訓練集以外的知識庫中得到更好的依據,來最佳化LLM的輸出。
像GPT這樣龐大的模型本身就能夠由上億的參數生成原始答案,如果再透過RAG得到外部特定知識庫中的內容,那不就相當於頂級學霸開卷考試.....😳
具體RAG的工作原理是:透過資訊檢索元件由使用者輸入從新數據知識庫提取資訊,然後將這些資訊連同使用者輸入一起給LLM(相當於將問題和答案一並交給大模型)🤔,於是LLM 就可以建立更好的響應。
知識庫
知識庫為大模型提供豐富的背景知識,幫助模型在處理特定領域問題時,能夠有更加深入和準確的理解。比如說在醫療領域,模型可以透過存取知識庫中的醫學資訊來提供更準確的診斷建議。
在需要回答復雜問題或進行資訊檢索時,模型也可以直接查詢知識庫獲取答案,向量資料庫一般被作為知識庫的儲存載體。
函式呼叫
程式執行中函式呼叫是必不可少的,呼叫函式就是在程式中參照一個函式名稱並執行該函式的功能。 函式的封裝有助於 對程式碼 整體更好的維護和修改, 保證了 程式碼的健壯性。
例如,如果 要 實作一個較復雜的 功能,通常要透過多個演算法相互配合來實作,而演算法的程式碼量 通常是冗長的, 於是將一個個 演算法 分別封裝成函式 就可以在不同的程式碼語句中 多次使用這個演算法 。🧐
函式呼叫過程為:當程式碼語句呼叫一個函式時,程式的執行流會跳轉到該函式定義的位置,執行完函式程式碼後返回到原來的位置繼續執行後續程式碼。💻
在AI系統中,函式呼叫是實作模型功能、數據處理和任務執行的基礎。模型的互動、數據預處理、後處理以及與外部資源的整合等都離不開函式呼叫。
大模型內部主要函式包括:將輸入數據進行預處理,轉換成模型能夠處理的格式;特征提取、特征選擇和特征編碼的函式;計算模型輸出和實際標簽間差異的損失函式;更新模型權重以最小化損失函式值的最佳化函式等等。
模型微調
Fine-tuning (微調)是套用大模型的重要技術,是在一個 已經預訓練 的大模型的基礎上,透過少量目標任務數據來調整最佳化模型參數,使模型更好地適應特定任務的過程。
微調的過程主要有:首先選擇要使用的目標領域的微調數據集;根據任務需要調整模型的層次架構;訓練模型;調整學習率。
透過微調可以在有限的資源下獲得針對特定套用最佳化的模型效能並且在特定任務上達到或超過專門從頭訓練模型的效果。
Agent
在AI領域,agent被稱為「智慧體」。一切能夠根據特定情形決策並執行的系統或者實體都可以被稱為agent,如軟體程式、機器人或具備感知和行動能力的系統。
舉幾個栗子🌰,現在發展如火如荼的自動駕駛中的自動駕駛系統,就是一個高級的agent;亦或者現在常見的服務機器人就是一個實體agent。
一個模型能夠執行「從【發如雪】和【紅塵客棧】兩首歌選一個更好聽的,並把它下載到桌面」,這樣的它也是agent。
AIGC與AGI
可能大家有時候會將這兩個名稱混淆,但這兩個是完全不同的概念,AIGC代表人工智慧生成內容;AGI代表人工通用智慧。
AIGC可以理解為我們使用上文所提及的如GPT,SD3等模型進行內容創作的過程,而AGI則指能夠達到人類水平的AI系統,是能夠自主思考、解決廣泛問題的AI系統。
AGI是我們AI發展的最終實作目標,AIGC則是實作過程中不可缺少的推動力,越加成熟強大的AIGC會為未來AGI的實作打下更加牢固的地基。
雖然AGI實作還很漫長,但小編相通道阻且長行則將至!
關註「 向量光年 」公眾號
加速全行業向AI的改變
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 AGI光年 」公眾號
獲取每日最新咨詢