神秘大招終結幻覺問題！訊飛星火 V4.0 首秀地表最強 AI 語音助手，74 個語種方言「自由對話」

2024-06-27資訊

作者 | 王啟隆

責編 | 唐小引

出品丨AI 科技大本營（ID：rgznai100）

台北時間 6 月 27 日，科大訊飛於北京國家會議中心正式釋出 訊飛星火大模型V4.0 ，以及在醫療、教育、商業等多個領域的人工智慧套用。訊飛星火 V4.0 七大核心能力全面升級，不僅在 8 個國際主流測試集中排名第一，領先國內大模型，並在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面實作 對 GPT-4 Turbo 的整體超越 。

訊飛星火 V4.0 在圖文辨識能力上也是進一步升級，在科研、金融、醫療、司法、辦公等場景的套用效果已領先多模態能力更強的 GPT-4o。此外，星火長文本能力也全新升級，並針對長文件知識問答的幻覺問題，業界先發 溯源功能 （後文會重點介紹）。

所謂超越，不止體現在紙面的數據。這次釋出會上的現場演示，直接將我的記憶拉回了 5 月份 OpenAI 的：當時是「ChatGPT 之母」 Mira Murati 和兩位工程總監共同演示了 GPT-4o 的多模態、語音辨識、語音打斷、情緒感知等功能，可謂驚技四座。

然而 GPT-4o 上述的這些功能，訊飛星火 V4.0 不僅全都有，演示效果還更加震撼。

比方說， 多語言辨識功能 。現場演示在訊飛輸入法上進行了多種方言（安徽話、上海話、四川話、粵語等）+漢語/英語/法語混雜的輸入。

對比之下，OpenAI 曾經在春季釋出會讓 Mira 講義大利語，演示過 GPT-4o 進行義大利語和英語的無縫切換；此外還曾在歐洲科技盛會 VivaTech 上過法語和英語的切換 —— 訊飛的優勢相當明顯，不僅同樣能做義大利語、英語和法語等外語，且他們在漢語語音辨識方面更有經驗，並具備外國廠商難以掌握的中文方言辨識，更適用於廣大的中國使用者。

按照官方說法，星火語音大模型實際具備了國際領先的 多語種多方言免切換語音辨識能力 ，可支持 37 個語種、37 種方言「自由對話」。其中，37 個語種辨識效果領先 OpenAI whisper-V3，37 個方言辨識效果平均提升 30%。

強幹擾/極 復雜環境下的語音辨識 & 轉寫 。官方演示了兩個例子，一個是電影【寒戰】中郭富城和梁家輝兩位主演的「港普」吵架，激烈的唇槍舌劍配合難以分辨的口音，同時交錯的聲音幾乎無法用人耳辨識，星火卻可以做到。

第二個例子則進一步加碼難度，在「放背景音樂」+「嘈雜的會場」環境下，讓基於星火語音大模型的訊飛聽見同時辨識三位訊飛研究員的聲音，並對發言人進行標註。即使在三人混疊說話場景，也能實作 86% 的語音辨識準確率。

語音打斷和情緒辨識 。訊飛輸入法和訊飛聽見都是大家熟悉的套用，而現場還直接放了一輛奇瑞汽車，演示了最新的 訊飛智慧駕艙 。主駕上是中國人，副駕上是外國人，兩人可以用不同的語言甚至方言和汽車無縫互動，AI 可以準確切換語言語種，並在每句話的開頭辨識出說話人是主駕還是副駕。

在過程中，兩人演示了許多次「打斷」的效果 —— 這也是 GPT-4o 每一次演示都會特意體現的功能，是目前頂尖水平的多情感、多模態 AI 的特征之一 —— 能夠接受人類交談中的打斷習慣，及時停頓並給出無縫回復，並且保持對上下文的記憶。

此外，結合智慧駕艙的心率監測等功能，還可以了解到司機身體的參數，是否有疲勞駕駛等異常情況等。

科大訊飛董事長劉慶峰用兩個字總結了這些演示：「炸裂」。我們不打算用「遙遙領先」等詞來進一步修飾精彩程度 —— 因為 GPT-4o 的語音助手功能沒多久之前才官宣。前有，後有號稱「第一個全民開放大模型」、釋出之後就能馬上用的訊飛星火 V4.0，既然 OpenAI 還未向公眾展示其語音的真實實力，就更不用談領先或落後了。

幻覺已死

我們曾經整理過，他在面臨 Google 前段時間的 AI 搜尋風波後，委婉地表示：幻覺問題是大語言模型的「固有缺陷」，這個問題目前尚無解決方案。

針對長文本的幻覺問題，科大訊飛今天給出了一個相當令人眼前一亮的方案： 內容溯源 。讓我們復現一遍官方演示的操作，解答這個能力的意義。將【西遊記】的全本 PDF 發給訊飛星火提問：太上老君將悟空置入煉丹爐燒煉，多少天後放出?

回答平平無奇，但為什麽答案的中間會有個小旗子呢？我們點進去一看，就會發現所謂的「內容溯源」是為何物：

以往的 AI 模型最大的問題之一便是「黑盒」，我們可以輸入數據並得到結果，但完全不懂內部的運作機制是什麽樣的，更不可能檢查輸出結果的邏輯，或是系統的程式碼。內容溯源的機制類似於當前 AI 搜尋界的「當紅炸子雞」 Perplexity，讓模型提供的所有答案像寫論文一樣，標註好明確的參照來源。如此一來，我們至少可以檢查 AI 參照的是哪段文字，在出錯的時候也有操作的空間。

這一天起，人類稍微觸及了黑盒的冰山一角。

除了內容溯源以外，上述操作還運用到了另一大功能： 個人空間 。

以上是【哈利波特】前六部的 英文原版 和我們剛剛測試用的【西遊記】，我們可以將它們同時選中，提出問題：孫悟空的法術和哈利波特的咒語有哪些相似之處？

由於給的是【哈利波特】原版，溯源回去自然也是英文：

這只是個人空間的功能之一，它的核心能力是，讓使用者上傳自己的工作、學習、生活、健康等各類資料，形成每個人的專屬知識庫，再 結合人設，讓大模型生成更個人化的內容 。現場演示裏，劉聰院長便上傳了自己女兒寫的小作文。在選取符合女兒風格的 AI 人設標簽後，星火生成了一篇活潑、可愛更個人化的文章。

此外，「個人空間」不止能同時閱讀多種不同語言的文件，還能同時處理 不同格式 的檔。當他上傳了訊飛轉譯機的產品海報（PDF 格式）、使用者短視訊（MP4 格式）、相關錄音（MKV 格式）之後，星火也可以根據這些多模態資訊生成產品培訓文件，還可以對生成的資訊進行 多模態溯源 。

星火大模型打通了全系訊飛 C 端軟硬體產品生態，比如訊飛智慧辦公本、智慧錄音筆的檔可以一鍵同步到上述的個人空間中，透過數據互通、操作聯動，把一篇辦公本裏的會議記錄同步到星火中，就可以讓星火進行公文寫作，還可以做 PPT，以及生成待辦事項等等。訊飛出的這一系列硬體，正式組成了一個「星火組合拳」。

To C 套用升級：革了網路問診的命

「 訊飛曉醫 」是這次的重磅釋出之一，當我第一眼看到 AI + 醫療的時候，我還以為這又是 DeepMind AlphaFold 那類「普通人完全看不出有啥關聯」的科研發明，但這一次，訊飛直接瞄準了最廣泛、最龐大的群體，那就是所有的中國家庭。

點進 App，我們可以客製個人化病歷，或是利用影像辨識功能直接上傳自己的病歷本和報告單。更準確的說，這個功能叫「個人數位健康空間」，它能夠根據電子病歷、檢查報告、體檢報告等使用者個人化資料，在看病前就可以進一步剖析病癥原因，用藥時給出藥物禁忌的個性判斷，在檢查後聯合對比給出數據變化。

更重要的是，還有角色切換功能，讓我們把其他家庭成員的健康狀況也存一份。

像上圖這樣，訊飛曉醫能知道對應的咨詢人平時吃的藥物以及病史，且覆蓋了 1600 種常見疾病、2800 種常見藥品、6000 種常見檢查檢驗，完全能滿足廣大使用者在看病前、用藥時、檢查後的核心場景健康需求 —— 這裏的使用者，既可以是懂 AI 的科技發燒友，亦可以是不用手機的 老年人 。只要有一個家庭成員使用曉醫，整個家就多了一個在半夜三更也能看病問診的「賽博醫生」。

如此一來，便有了一個新問題： 我們還需要網路問診嗎？

當前，訊飛曉醫 App 累計下載量 1200 萬，使用者好評率 98.8%，主動推薦率 42%。目前為止，廣大群眾使用 AI 還是圍繞「搜尋」和「轉譯」兩大需求，而現在，訊飛可能率先找到了這片大藍海的發掘方式。

To B 套用生態：自主可控，方能興國

這次訊飛旗下各類套用的改版相當之大，那在 To B 方面，這位「 AI 國家隊」表現如何？

劉慶峰在演講中表示，企業首先要科學地認識大模型能力的邊界，根據任務難度選擇合適方案，並且用更少的算力、更高的效率，打造企業專屬大模型。隨著星火 V4.0 的釋出，他認為用 智慧體平台 打造每個崗位的專屬助手的時間已經到了。

所以，訊飛最後的重磅釋出，便是 星火企業智慧體平台 。平台本身內建了星火商機助手、星火評標助手等典型套用案例，為企業套用打了個樣。然後在代表性的程式碼智慧體 iFlyCode 中，它整合了程式碼生成助手、架構設計助手、程式碼問答助手、測試助手、資料庫最佳化助手、程式碼稽核助手等六大場景智慧體，將訊飛內部的 AI 程式碼采納率由 30% 提升至 52% —— 期待未來有完全 AI 生成套用的一天。

星火帶來行業賦能的同時，也在助力開發者生態蓬勃發展。自今年 1 月 30 日訊飛星火 V3.5 釋出以來（），短短 5 個月，星火開發者生態加速增長，開發者數從 598 萬增長到 702 萬，新增超 104 萬；海外開發者數超 40 萬；大模型開發者達 57 萬。

和上次釋出會一樣，劉慶峰最後再次帶來了一場熱血澎湃的演講，盡顯「AI 國家隊」的本色：「 只有自主可控的繁榮生態，才有中國通用人工智慧的大未來。 」

劉慶峰強調，比起打造一座「AI 帝國」，當前最重要的其實是關註源頭技術生態、智慧體生態、套用生態和行業生態，實作自主可控和軟硬一體，才能實作大模型的深度落地；既要科學理性地認識中美在大模型上的綜合差距，也要有信心快速追趕，給出從源頭技術、到產業生態、再到套用落地的一整套的打法，以長期主義來打造真正自主可控的 AI 產業生態。

由 CSDN 和 Boolan 聯合主辦的「2024 全球軟體研發技術大會（SDCon）」將於 7 月 4 - 5 日在北京威斯汀酒店舉行。

由世界著名軟體架構大師、雲原生和微服務領域技術先驅 Chris Richardson 和 MIT 電腦與 AI 實驗室(CSAIL)副主任，ACM Fellow Daniel Jackson 領銜，BAT、微軟、字節跳動、小米等技術專家將齊聚一堂，共同探討軟體開發的最前沿趨勢與技術實踐。

大會官網： http://sdcon.com.cn/ （可點選 閱讀原文 直達）