當前位置: 妍妍網 > 資訊

神秘大招終結幻覺問題!訊飛星火 V4.0 首秀地表最強 AI 語音助手,74 個語種方言「自由對話」

2024-06-27資訊

作者 | 王啟隆

責編 | 唐小引

出品丨AI 科技大本營(ID:rgznai100)

台北時間 6 月 27 日,科大訊飛於北京國家會議中心正式釋出 訊飛星火大模型V4.0 ,以及在醫療、教育、商業等多個領域的人工智慧套用。訊飛星火 V4.0 七大核心能力全面升級,不僅在 8 個國際主流測試集中排名第一,領先國內大模型,並在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面實作 對 GPT-4 Turbo 的整體超越

訊飛星火 V4.0 在圖文辨識能力上也是進一步升級,在科研、金融、醫療、司法、辦公等場景的套用效果已領先多模態能力更強的 GPT-4o。此外,星火長文本能力也全新升級,並針對長文件知識問答的幻覺問題,業界先發 溯源功能 (後文會重點介紹)。

所謂超越,不止體現在紙面的數據。這次釋出會上的現場演示,直接將我的記憶拉回了 5 月份 OpenAI 的 :當時是「ChatGPT 之母」 Mira Murati 和兩位工程總監共同演示了 GPT-4o 的多模態、語音辨識、語音打斷、情緒感知等功能,可謂驚技四座。

然而 GPT-4o 上述的這些功能,訊飛星火 V4.0 不僅全都有,演示效果還更加震撼。

比方說, 多語言辨識功能 。現場演示在訊飛輸入法上進行了多種方言(安徽話、上海話、四川話、粵語等)+漢語/英語/法語混雜的輸入。

對比之下,OpenAI 曾經在春季釋出會讓 Mira 講義大利語,演示過 GPT-4o 進行義大利語和英語的無縫切換;此外還曾在歐洲科技盛會 VivaTech 上 過法語和英語的切換 —— 訊飛的優勢相當明顯,不僅同樣能做義大利語、英語和法語等外語,且他們在漢語語音辨識方面更有經驗,並具備外國廠商難以掌握的 中文方言辨識 ,更適用於廣大的中國使用者。

按照官方說法,星火語音大模型實際具備了國際領先的 多語種多方言免切換語音辨識能力 ,可支持 37 個語種、37 種方言「自由對話」。 其中,37 個語種辨識效果領先 OpenAI whisper-V3,37 個方言辨識效果平均提升 30%。

強幹擾/極 復雜環境下的語音辨識 & 轉寫 。官方演示了兩個例子,一個是電影【寒戰】中郭富城和梁家輝兩位主演的「 港普 」吵架,激烈的唇槍舌劍配合難以分辨的口音,同時交錯的聲音幾乎無法用人耳辨識,星火卻可以做到。

第二個例子則進一步加碼難度,在「放背景音樂」+「嘈雜的會場」環境下,讓基於星火語音大模型的訊飛聽見同時辨識三位訊飛研究員的聲音,並 對發言人進行標註 。即使在三人混疊說話場景,也能實作 86% 的語音辨識準確率。

語音打斷和情緒辨識 。訊飛輸入法和訊飛聽見都是大家熟悉的套用,而現場還直接放了一輛奇瑞汽車,演示了最新的 訊飛智慧駕艙 。主駕上是中國人,副駕上是外國人,兩人可以用不同的語言甚至方言和汽車無縫互動,AI 可以準確切換語言語種,並在每句話的開頭辨識出說話人是主駕還是副駕。

在過程中,兩人演示了許多次「 打斷 」的效果 —— 這也是 GPT-4o 每一次演示都會特意體現的功能,是目前頂尖水平的多情感、多模態 AI 的特征之一 —— 能夠接受人類交談中的打斷習慣,及時停頓並給出無縫回復,並且保持對上下文的記憶。

此外,結合智慧駕艙的心率監測等功能,還可以了解到司機身體的參數,是否有 疲勞駕駛等 異常情況等。

科大訊飛董事長劉慶峰用兩個字總結了這些演示:「炸裂」。我們不打算用「遙遙領先」等詞來進一步修飾精彩程度 —— 因為 GPT-4o 的語音助手功能沒多久之前才官宣 。前有 , 後有 號稱「第一個全民開放大模型」、釋出之後就能馬上用的訊飛星火 V4.0,既然 OpenAI 還未向公眾展示其語音的真實實力,就更不用談領先或落後了。

幻覺已死

我們曾經整理 過 ,他在面臨 Google 前段時間的 AI 搜尋風波後,委婉地表示:幻覺問題是大語言模型的「固有缺陷」,這個問題目前尚無解決方案。

針對長文本的幻覺問題, 科大訊飛 今天 給出了一個相當令人眼前一亮的方案: 內容溯源 。讓我們復現一遍官方演示的操作,解答這個能力的意義。 西遊記 】的 全本 PDF 發給訊飛星火提問 太上老君將悟空置入煉丹爐燒煉,多少天後放出?

回答平平無奇,但為什麽答案的中間會有個小旗子呢?我們點進去一看,就會發現所謂的「內容溯源」是為何物:

以往的 AI 模型最大的問題之一便是「黑盒」,我們可以輸入數據並得到結果,但完全不懂 內部的運作機制是什麽樣的,更不可能 檢查輸出結果的邏輯,或是系統的程式碼。內容溯源的機制類似於當前 AI 搜尋界的「當紅炸子雞」 Perplexity,讓模型提供的所有答案 寫論文一樣,標註好 明確的參照來源。如此一來,我們至少可以檢查 AI 參照的是哪段文字,在出錯的時候也有操作的空間。

這一天起, 人類稍微觸及了黑盒的冰山一角。

除了內容溯源以外,上述操作還運用到了另一大功能: 個人空間

以上是【 哈利波特 】前六部的 英文原版 和我們剛剛測試用的【 西遊記 】,我們可以將它們同時選中, 提出問題:孫悟空的法術和哈利波特的咒語有哪些相似之處?

由於給的是【哈利波特】原版,溯源回去自然也是英文:

這只是個人空間的功能之一,它的核心能力是,讓使用者上傳自己的工作、學習、生活、健康等各類資料,形成每個人的專屬知識庫,再 結合人設,讓大模型生成更個人化的內容 。現場演 示裏, 劉聰院長便上傳了自己女兒寫的小作文。在選取符合女兒風格的 AI 人設標簽後,星火生成了一篇活潑、可愛更個人化的文章。

此外, 個人空間 」不止能同時閱讀多種不同語言的文件,還能同時處理 不同格式 的檔。 當他上傳了訊飛轉譯機的產品海報(PDF 格式)、使用者短視訊(MP4 格式)、相關錄音(MKV 格式)之後,星火也可以根據這些多模態資訊生成產品培訓文件,還可以對生成的資訊進行 多模態溯源

星火大模型打通了全系訊飛 C 端軟硬體產品生態,比如訊飛智慧辦公本、智慧錄音筆的檔可以一鍵同步到上述的個人空間中,透過數據互通、操作聯動,把一篇辦公本裏的會議記錄同步到星火中,就可以讓星火進行公文寫作,還可以做 PPT,以及生成待辦事項等等。訊飛出的這一系列硬體,正式組成了一個「星火組合拳」。

To C 套用升級:革了網路問診的命

訊飛曉醫 」是這次的重磅釋出之一,當我第一眼看到 AI + 醫療的時候,我還以為這又是 DeepMind AlphaFold 那類「普通人完全看不出有啥關聯」的科研發明,但這一次,訊飛直接瞄準了最廣泛、最龐大的群體,那就是所有的中國家庭。

點進 App,我們可以客製個人化病歷,或是利用影像辨識功能直接上傳自己的病歷本和報告單。更準確的說,這個功能叫「個人數位健康空間」,它能夠根據電子病歷、檢查報告、體檢報告等使用者個人化資料,在看病前就可以進一步剖析病癥原因,用藥時給出藥物禁忌的個性判斷,在檢查後聯合對比給出數據變化。

更重要的是,還有角色切換功能,讓我們把其他家庭成員的健康狀況也存一份。

像上圖這樣,訊飛曉醫能知道對應的咨詢人平時吃的藥物以及病史,且覆蓋了 1600 種常見疾病、2800 種常見藥品、6000 種常見檢查檢驗,完全能滿足廣大使用者在看病前、用藥時、檢查後的核心場景健康需求 —— 這裏的使用者,既可以是懂 AI 的科技發燒友,亦可以是不用手機的 老年人 。只要有一個家庭成員使用曉醫,整個家就多了一個在半夜三更也能看病問診的「賽博醫生」。

如此一來,便有了一個新問題: 我們還需要網路問診嗎?

當前,訊飛曉醫 App 累計下載量 1200 萬,使用者好評率 98.8%,主動推薦率 42%。目前為止,廣大群眾使用 AI 還是圍繞「搜尋」和「轉譯」兩大需求,而現在,訊飛可能率先找到了這片大藍海的發掘方式。

To B 套用生態:自主可控,方能興國

這次訊飛旗下各類套用的改版相當之大,那在 To B 方面,這位「 AI 國家隊 」表現如何?

劉慶峰在演講中表示,企業首先要科學地認識大模型能力的邊界,根據任務難度選擇合適方案,並且用更少的算力、更高的效率,打造企業專屬大模型。隨著星火 V4.0 的釋出,他認為用 智慧體平台 打造每個崗位的專屬助手的時間已經到了。

所以,訊飛最後的重磅釋出,便是 星火企業智慧體平台 。平台本身內建了星火商機助手、星火評標助手等典型套用案例,為企業套用打了個樣。然後在代表性的程式碼智慧體 iFlyCode 中,它整合了程式碼生成助手、架構設計助手、程式碼問答助手、測試助手、資料庫最佳化助手、程式碼稽核助手等六大場景智慧體,將訊飛內部的 AI 程式碼采納率由 30% 提升至 52% —— 期待未來有完全 AI 生成套用的一天。

星火帶來行業賦能的同時,也在助力開發者生態蓬勃發展。自今年 1 月 30 日訊飛星火 V3.5 釋出以來( ),短短 5 個月,星火開發者生態加速增長,開發者數從 598 萬增長到 702 萬,新增超 104 萬;海外開發者數超 40 萬;大模型開發者達 57 萬。

和上次釋出會一樣,劉慶峰最後再次帶來了一場熱血澎湃的演講,盡顯「AI 國家隊」的本色:「 只有自主可控的繁榮生態,才有中國通用人工智慧的大未來。

劉慶峰強調,比起打造一座「AI 帝國」,當前最重要的其實是關註源頭技術生態、智慧體生態、套用生態和行業生態,實作自主可控和軟硬一體,才能實作大模型的深度落地;既要科學理性地認識中美在大模型上的綜合差距,也要有信心快速追趕,給出從源頭技術、到產業生態、再到套用落地的一整套的打法,以長期主義來打造真正自主可控的 AI 產業生態。

由 CSDN 和 Boolan 聯合主辦的「2024 全球軟體研發技術大會(SDCon)」將於 7 月 4 - 5 日在北京威斯汀酒店舉行。

由世界著名軟體架構大師、雲原生和微服務領域技術先驅 Chris Richardson 和 MIT 電腦與 AI 實驗室(CSAIL)副主任,ACM Fellow Daniel Jackson 領銜,BAT、微軟、字節跳動、小米等技術專家將齊聚一堂,共同探討軟體開發的最前沿趨勢與技術實踐。

大會官網: http://sdcon.com.cn/ (可點選 閱讀原文 直達)