當前位置: 妍妍網 > 資訊

Build 2024釋出多項 Azure AI Speech 全新多模態功能

2024-05-28資訊

客戶們持續使用 Azure OpenAI 和 Azure AI Speech 進行創新,為企業引入新的效率,並構建新的多模態體驗。Azure AI,我們持續與客戶合作,並將新的創新推向市場——我們看到了各種用例,包括通話分析、醫療轉錄、字幕、聊天機器人等。

以下是我們在今年 Microsoft Build 大會上宣布的所有多模態創新,特別是包括語音和文本的創新。

語音分析

今天我們宣布預覽版的 語音分析服務 。語音分析是 Azure AI Studio 中的一項新服務,它結合了 Azure AI 服務和 PromptFlow,只需將音訊數據上傳到雲端儲存,就可以自動處理和分析。

透過語音分析,可以輕松獲取呼叫中心對話的見解,或使用 Azure OpenAI 和 Azure AI Language 的 AI 模型從 Azure AI Speech 生成的準確轉錄中提取對話摘要。從呼叫中心對話中獲取見解可以幫助企業更好地理解客戶需求、產品反饋和支持趨勢,從而改善客戶體驗。

使用我們的 post-call 分析樣版 ,客戶可以快速設定提取常見的見解,如呼叫摘要、客戶情緒和關鍵主題。客戶還可以輕松修改預設提示,以提取更多見解,甚至修改完整的提示流程,以全面客製分析,提取廣泛的資訊,如討論要點,甚至預測可能的對話流程。語音分析還可以輕松支持多種語言、口音、領域和場景,並擴充套件到大規模生產使用。語音分析幫助我們的客戶獲取客戶對話的見解,改善客戶體驗、銷售和行銷策略。這也是多模態數據分析的一個基礎,未來將能夠從不同型別的數據中獲得更豐富和更深入的見解。

以下是 Speech Processing Solutions (飛利浦聽寫) 使用 Azure AI 服務 (包括語音分析) 構建的一套範例技術:

語音分析將於 6 月供開發者試用。想了解更多資訊,請在 Azure AI Studio 中試用。

快速轉錄

今天我們還宣布預覽版的 快速轉錄 API。該 API 是 Azure AI Speech 系列的一部份,透過簡單的 REST 呼叫,可以在幾秒鐘內轉錄大小達 200MB 的音訊檔。

客戶希望在獲取轉錄結果的速度至關重要的場景中使用該 API,例如在面試結束或電話結束後立即獲得轉錄結果。該 API 是轉錄領域的一次變革,可以以高達即時 40 倍的速度轉錄音訊檔,例如在 15 秒內轉錄 10 分鐘的音訊檔,而不會犧牲準確性。API 提供了一種簡單而強大的轉錄音訊的方式,並開啟了一組新的場景,其中之一是呼叫中心內的「代理筆記記錄」。

高效筆記記錄

一個典型的呼叫中心代理在每次通話後花費 3 到 5 分鐘建立筆記。快速轉錄 API 結合 Azure OpenAI 服務可以自動執行此任務,為呼叫中心節省數千小時的工作時間。醫療從業者記錄與患者的對話後,可以在幾秒鐘內分析這些記錄。類似地,媒體和內容創作者可以在播客或采訪完成後立即分析並提取見解。

IntelePeer 透過高級 AI 驅動的解決方案簡化通訊自動化,幫助企業和聯系中心降低成本並豐富客戶體驗。

微軟的快速 API 在離線轉錄方面的效能遠遠超過了競爭對手。在比較相同的樣本語料庫時,快速 API 在低品質音訊轉錄方面表現最好,結果比其他供應商好70%

Sergey Galchenko

CTO,IntelePeer

Parloa 是一家為企業下一代客戶服務構建聯系中心 AI 平台的軟體開發公司,一直在預覽版中使用快速轉錄API。

快讀轉錄 API 提供了市場上最快、最準確和最具成本效益的轉錄選項。

CTO,Parloa

OPPO 是一家全球技術品牌,以其創新的智慧型手機和智慧裝置聞名,正在使用 Azure AI 語音轉文本快速轉錄和 Azure AI 文本轉語音來試驗其新 AI 手機上的新客戶體驗。

快速轉錄 API 將於 2024 年 6 月供開發者使用,敬請期待更多資訊。

視訊轉譯服務

視訊轉譯服務 已經推出預覽版,這是一項開創性的服務,旨在改變企業在地化視訊內容的方式。這項新服務為開發人員提供了一種高效而無縫的解決方案,以滿足對轉譯視訊內容和克服語言障礙不斷增長的需求,讓內容所有者能夠觸達更廣泛的受眾。無論是用於教育視訊、行銷活動還是娛樂內容,視訊轉譯都能確保您的資訊以任何支持的語言被傳達出去。

該服務使開發者能夠使用預構建的神經語音和內容編輯功能,或透過個人語音功能(一種限制存取功能)將內容轉譯成 10 種語言。您可以在Speech Studio中了解更多關於視訊轉譯服務的資訊,並試用您自己的視訊。

Vimeo 致力於簡化制作、管理和分享視訊所需的一切——所有這些都在一個易於使用的平台中。

Vimeo 正在與微軟視訊轉譯服務密切合作,對其為全球客戶解鎖的用例感到興奮。

Ashraf Alkarmi

Vimeo首席產品官

多語言語音轉譯

我們宣布對我們的 多語言語音轉譯 能力進行了新的增強。我們引入了 多語言檢測 功能,能夠在同一音訊流中檢測語言切換,並自動語言檢測,消除了開發者指定輸入語言的需求,以及整合的自訂轉譯功能,以適應您的領域特定詞匯。

有了這些功能,開發者不再需要指定輸入語言,可以在同一會話中處理語言切換,並支持即時流轉譯到目標語言。

此功能對於字幕使用場景特別有幫助。字幕是為音訊或視訊內容添加文本,以便讓聽力困難或說不同語言的人更容易存取和理解。在許多國家,字幕不僅是法律義務,也是社會責任和包容的良好實踐。內容創作者現在可以吸引更廣泛和更多樣化的受眾,並輕松提高使用者體驗和參與度。

宣布個人語音的全面可用性

我們的語音服務還提供了 自然語音 的功能。客戶可以利用該平台為頭像、聊天機器人和 IVR 建立逼真且自然的語音。透過 Azure AI 語音,您可以選擇使用現有的語音模型,選擇多種不同的語音和風格,也可以使用您自己的數據和錄音建立自訂的語音。

我們還宣布 Azure AI 語音推出了新的 個人化語音 功能。該功能目前以有限的存取許可權推出,以確保適當的保障措施並避免濫用。該功能允許使用者僅透過提供簡短的語音樣本作為音訊提示,在幾秒鐘內建立 AI 語音。該功能可用於各種用例,例如為聊天機器人個人化語音體驗,或者利用演員的母語聲音將視訊內容轉譯成不同的語言。

總之,我們強大而多功能的平台幫助客戶將語音輸入和輸出與其他 AI 功能結合起來。這使得開發者能夠為新場景建立高品質的工作負載。無論您是需要人類對話的見解、即時或錄制的字幕,還是為您的虛擬形象、聊天機器人或 IVR 建立逼真和自然的語音,Azure AI 都能幫助客戶提供快速、可靠和可客製的解決方案。

了解更多AI相關釋出解讀,掃碼立即報名6月14日Microsoft AI Day in Beijing

[1] Azure AI Studio:https://aka.ms/speechanalytics/try-out

[2] Azure AI 服務的受限存取功能:https://aka.ms/limitedaccesscogservices

[3] OPPO 案例 Blog: https://aka.ms/AAqjnrr

[4] Speech Studio:

https://speech.microsoft.com/portal/videotranslationservice

[5] 多語言語音轉譯 : https://learn.microsoft.com/en-us/azure/ai-services/speech-service/speech-translation

[6] 客戶範例和演示以及實施的負責任 AI 實踐,如浮水印和使用政策

https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/create-personalized-voices-with-azure-ai-speech/ba-p/4147073

點亮在看,發現更多精彩