作者:金磊
轉自:量子位 | 公眾號 QbitAI
又一個 國產版【Her】 ,就這麽水靈靈地來了。
作為一個 即時語音對話 的功能,效果好不好,實測見分曉。
我們直接以近期的大熱點—— 李子柒復出 作為話題,來上一番對話:
可以看到,這個AI對於「李子柒復出」這樣相對較新的話題,資訊的掌握也是較為全面。
它先是用「太震撼了」來表達了對這件事的整體感受,並且精準、高度總結內容為:
用中國非物質文化遺產漆器為主題的視訊,這個選擇本身就是對傳統文化的致敬。
當問及對視訊內容更具體的感受,國產【Her】仿佛一個李子柒的人類粉絲:
依舊保持高標準,每一幀都像一幅畫面;她的視訊總能讓人感受到一種寧靜與美好。
不僅如此,國產【Her】甚至還能對網友們的討論做總結,包括李子柒為了做了漆器,背後所付出的努力和刻苦精神。
而且從整個對話過程來看,這個AI在語言表達方式上也是與人類無異,例如語氣和自然的停頓等等;即使是 隨意地打斷 ,也是完全OK的哦~
同樣的話題,我們給到 GPT-4o 這邊:
嗯,GPT-4o知道李子柒,但是知道的不多。
無論是中文還是英文提問,由於它的知識是截止到了2023年10月,所以對於即時的新聞熱點,GPT-4o是無法hold住的。
那麽這個國產【Her】,何許AI也?
不賣關子,它正是來自昆侖萬維的 Skyo ,基於 天工大模型4.0 4o版 (Skywork 4o)打造。
那麽除了能夠跟蹤時事熱點,Skyo還能解鎖哪些能力?
更多實測,Let’s go on~
聊天隨意打斷,話題不掉地上
OpenAI大約半年前釋出GPT-4o即時語音對話功能的時候,現場和網上觀眾較為震驚的,便是它不論如何被打斷,都能馬上接上話。
雖然在剛才李子柒的例子中,我們已經體現了一些「隨時打斷」的能力,所以我們這次再加一點難度。
隨時打斷,中英切換
我們這次測試的話題是 去西雅圖旅行 ,來看下Skyo能給出什麽樣的建議:
在我們提出了簡潔的需求之後,Skyo便唰唰唰地開始制定旅程計劃了。
而當它提到西雅圖示誌性景點太空針塔時,我們進行了 第一次打斷 (00:50),Skyo也隨即停止了回答,開始聆聽新問題。
當Skyo要繼續拓展對太空針塔的介紹,我們隨即 第二次打斷 (01:09); 第三次打斷 (01:38)我們直接 用英文 進行提問:
OK, sounds good, by the way, can you recommand some Seattle dishes I should try?
然後Skyo也是聽懂了英文需求,立即開始推薦當地著名的咖啡餐廳。
這一輪的隨時打斷+中英文切換,Skyo,透過。
不讓話掉到地上
在真實生活中,很多 i人 在與人溝通交流過程中,或許會出現接不上話的情況。
那麽如果我們以 話題終結者 的姿態與Skyo交流,又會是什麽效果?來,開整:
我們先是以「電影」為由頭,主動開啟了一個話題。
但Skyo在反問的時候,我們連續兩次冷漠回答了「沒有」(00:27)、「也沒有」(00:47)。
第一次話題被終結,Skyo很巧妙地把話題從電影轉向了音樂或書籍;二次話題被終結,Skyo聯系上下文(因為是我們以電影開啟的話題),它就開始講述自己對電影的看法了。
總而言之,把話掉地上,這事兒在Skyo這邊是不能存在的。
情感陪伴,「人」聲可變
自打對話類AI大模型問世以來, 情感陪伴 ,無疑成了很多使用者的一種剛需。
那麽Skyo是否也能在人們難受之際帶來一份心靈的慰藉呢?
請看VCR:
在我們提出「被老板罵了」這樣的情景之後,Skyo會用自己的方式來引導我們看開一些。
而當被要求切換女聲聲音時(00:42),Skyo也是有求必應,秒變女聲,然後有理有據地羅列觀點進行心理開導。
由此可見,Skyo作為新晉國產即時語音對話產品,在多個維度的測試中都屬於達標了的那種。
那麽接下來的一個問題:
怎麽做到的?
Skyo即時語音對話助手是一個多模態大模型計畫,套用了 端到端 即時語音對話建模技術。
其強大的記憶功能使其能夠在對話中追蹤並回憶使用者的偏好與歷史資訊,從而提升多輪對話的準確性。
這種精細的技術積累,使得Skyo在高強度的對話互動中依然保持卓越的穩定性與流暢性。
除此之外,Skyo采用了 全雙工 和 低延遲 的即時語音對話架構。
全雙工意味著該助手能夠同時進行聽和說的操作,使用者無需按下對話開始和結束按鈕即可實作無縫交流,這就讓人機的互動變得更加自然和高效。
在技術測試中,Skyo以其低延遲的即時響應接近人類思考的反應時間,體現了在對話響應速度方面的顯著優勢。
在互動能力方面,Skyo擁有較好的情感理解與個人化記憶功能。
它不僅可以記錄使用者的歷史偏好,還能根據使用者需求提供個人化的互動體驗,例如提供溫暖的女聲或更具情感色彩的回應。
這使得Skyo在非正式、非固定場景下,能夠保持一種尊重且平等的人機互動體驗。
Skyo的卓越效能依賴於其多模態模型的套用,使其能夠在多種場景中保持高品質的互動體驗。
例如,使用者可以與助手討論最新的科技新聞,助手能夠根據使用者的請求,從科技資源庫中檢索相關資訊並進行異步互動,增強使用者的互動感與沈浸體驗。
此外,Skyo系統的自研特性使其在互聯網語音互動與套用場景中具有出色的適應力。
透過自研的數據積累與語音互動技術,Skyo實作了即時、高效且個人化的溝通體驗,使得使用者在每次對話中都能感受到近乎無障礙的人機互動與溫暖陪伴。
以上就是昆侖萬維「煉」成Skyo背後的秘籍了。
又拼上一塊多模態「拼圖」
最後,我們聊回到即時語音對話助手本身。
雖然GPT-4o可以說是率先開啟了這一市場的大門,但時至今日類似的產品仍然存在諸多痛點。
例如現有產品在多語言支持方面仍有不足,難以滿足全球使用者的需求;再如它們雖然在語意理解和生成方面表現出色,但在情感理解和個人化記憶方面仍有待提升。
此外,即時語音對話助手在響應速度和流暢性方面也需要進一步最佳化,以此來確保使用者體驗的連貫性和自然性。
但最重要的一點,或許還屬訊息的即時性了,畢竟我們平時聊天也都更傾向於談談一些新鮮的事物。
從這次的實測中不難發現,Skyo在諸多維度上已經符合要求,是在即時語音對話助手領域開發中打了個樣的那種。
至於對昆侖萬維在大模型時代自身的發展,Skyo可以說是有拼上了一塊多模態的「拼圖」。
這一點,把它在每個節點的產品鋪開來看,便可一目了然了。
首先就是其大底座天工大模型系列,包括天工1.0、天工2.0、天工3.0,近期還將邀測天工大模型4.0 O1版,具備中文邏輯推理和反思能力。
其次在其它模態上,還包括AI搜尋(天工AI搜尋)、AI音樂(天工SkyMusic)、AI社交(linky)、AI視訊(AI短劇平台SkyReels)等。
加上此次的Skyo,昆侖萬維稱得上是國內在多模態與工程能力,以及布局全面型上的佼佼者了。
One More Thing
據了解,Skyo即將整合在天工AI的APP中。
屆時,除了我們展示的能力之外,還會有 生成音樂 、 主動交流 以及 更多個人化互動等 眾多新能力哦~
那麽這樣的即時語音對話助手,是否聊到你的 心趴 上了呢?
— 完 —