▲ 點選檢視視訊
01
面臨的挑戰
作為全球領先的智慧終端制造商和移動網際網路服務提供者,OPPO致力與合作夥伴一起,將先進的人工智慧技術與手機相結合,打造出新一代AI手機,滿足使用者日益增長的體驗需求。
行業領先的AI服務提供商OPPO與微軟共同合作,連續為使用者推出了兩項大受歡迎的功能:
◉OPPO小布連麥功能采用微軟全新TTS技術實作更加接近真人的聲音,開啟即可對話連線,讓使用者跟小布助手的語音互動更加具有真實感和沈浸感。
◉Phone Link功能能夠讓行動裝置無線連線到PC端,無需第三方工具就能實作手機端和PC端的無縫連線,將PC端強大的能力擴充套件、共享給手機,為使用者提供更加便捷、智慧和靈活的跨裝置體驗。
而在海外市場推出的新產品上,OPPO與微軟在ASR和TTS技術上合作,為OPPO AI手機的兩項創新功能提供更加出色的使用者體驗:
◉AI錄音摘要:快速將錄音轉錄為文本並總結為摘要,讓使用者能迅速了解錄音內容,並隨分時享;
◉AI文章朗讀:讓手機以自然聲音朗讀文本,解放使用者的手和眼睛,輕松實作與手機的互動。
要實作這兩項功能,OPPO面臨著一系列技術上的挑戰,包括轉錄的準確性、延遲、多語言支持以及安全與合規。
OPPO首先解決的難題是確保轉錄的準確性,這是至關重要的,無論是日常使用還是移動辦公,使用者不僅要求可以將語音準確地轉為文本,還期望得到簡單、清晰且準確地表達原文精髓的摘要;其次是如何做到延遲短、響應快速,因為沒有使用者能忍受長時間的等待;其三是文本朗讀的聲音能更接近人的聲音,傳統的電腦合成語音單調、刻板,使用者更希望聽到符合人類語言特征、自然的、類似人聲的語音。此外,私密保護以及安全合規也是OPPO必須應對的另一個重要挑戰,新一代的AI手機既要有細致的功能滿足使用者的全面需求,又要保護好終端使用者的個人私密。
為了應對這些挑戰,OPPO希望選擇一個在技術上具有雄厚實力和技術資源且具有前瞻性發展眼光和魄力的AI合作夥伴,展開穩定的長期合作,共同將最新的AI技術套用於智慧型手機,為使用者提供創新服務。
02
如何解決?
為了實作語音到文本的轉錄功能,OPPO采用了Azure AI Speech國際服務,該服務使開發人員能夠快速準確地將多種語言和變體的音訊轉錄為文本,它還支持客製模型,以增強特定領域術語的準確性。微軟提供的REST API服務還可以使開發人員以40XRTF的速度建立準確的音訊轉錄,這意味著一個10分鐘的音訊檔可以在15秒內完成轉錄,能充分滿足OPPO對音訊轉錄時限的要求。同時,Azure AI語音服務提供的語種辨識功能(Language Identification(LID))可以迅速且精準地辨識使用者所用語言,這一功能確保了AI手機可以準確地轉錄和敘述各種語言的內容,使開發人員能夠簡化與多種語言音訊互動的使用者體驗。圖1是OPPO利用Azure AI Speech服務實作語音轉錄的流程圖。
圖1 OPPO 手機語音轉錄流程圖
為了實作文本朗讀功能,OPPO采用了Azure AI文本到語音的TTS服務,該服務采用了深度神經網路技術,使電腦合成的聲音可以高度模擬人聲。它提供了類似人聲的自然韻律和清晰的發音,使朗讀的語音幾乎與人聲相同,大大減輕了人們與人工智慧系統互動時的聽力疲勞。此外,Azure AI文本到語音功能提供多種聲音和語言,這使得多語言支持變得很容易,只需透過預先構建的多語言神經語音系統,使用者無需動手、用眼,就能輕松閱讀多種語言的內容。圖2是OPPO手機利用Azure AI文本到語音TTS服務實作文本轉語音的流程圖。
圖2 文本轉語音流程圖
得益於Azure AI語音服務的易用性和微軟技術團隊的優異支持,OPPO的計畫啟動非常迅速,在微軟技術團隊的幫助下,OPPO僅用兩周時間就完成了場景驗證,並正式開始計畫實施。
在計畫實施過程中,為了提高對多種語言聲音辨識的準確率,微軟技術團隊與OPPO開發團隊一起,透過最佳化手段截取多個高品質音訊片段進行辨識,從而大振幅提高了辨識準確率。
點選文末 「閱讀原文」
下載【Azure OpenAI 生成式人工智慧白皮書】
03
成本與收益
利用Azure AI語音到文本服務和Azure AI文本到語音服務,OPPO實作了為AI手機的兩項創新功能提供更加出色使用者體驗的目標。
OPPO AI手機的AI錄音摘要實作了超快的智慧轉錄,即時因子(RTF)低於 0.3,這意味著手機使用者能夠幾乎即時地將來自通話、會議、講座、待辦事項等各種來源的語音轉錄為文本,並進一步將其歸納出摘要資訊,便於及時掌握和分享資訊,這將極大地提升利用手機進行移動辦公的效率。此外,Azure AI 語音服務行業領先的單詞校正率(WCR)使OPPO的AI手機不僅轉錄速度快,而且非常準確,減少了誤解並加強了溝通,這一點在會議、訪談和學術講座等場景下特別有幫助。
OPPO AI手機的AI文章朗讀使使用者可以無需動手、用眼,就可以聽各種語言的文本,不僅朗讀的聲音更類似人聲,而且使用者還能選擇口音、調整朗讀速度等,無論使用者是在駕車、鍛煉、烹飪、放松休閑,都可以「聽」手機上的文章。
此外,與微軟的合作也充分保證了OPPO AI手機的合規性,因為Azure AI 全球語音服務遵守嚴格的安全協定和合規標準,確保使用者的數據受到保護。在計畫實施中,OPPO也采取了一系列措施來保護使用者私密,這些措施包括音訊檔采用匿名方式,不包含可辨識的個人資訊;數據傳輸鏈路加密並且音訊檔處理完畢就地刪除;各個國家(地區)的音訊檔在本國(地區)處理。這種對安全和私密的承諾建立了使用者之間的信任,使使用者可以放心地使用OPPO的AI手機。
「
借助Azure 語音服務功能,OPPO為AI手機使用者帶來了更加出色的體驗。 AI錄音摘要讓使用者可以將音訊檔轉錄為文本並進一步將文本內容總結為簡短摘要,使他們能夠迅速了解錄音的主要內容,並隨分時享給需要的人。而AI文章朗讀則使OPPO手機使用者可以解放手、眼,輕松享受類似人聲的自然聲音帶來的閱讀體驗。更值得一提的是Azure AI語音服務使用很方便,可直接呼叫對應的API,讓這些功能在手機上快速實作。 OPPO致力於成為AI手機的普及者,AI錄音摘要和AI文章朗讀功能僅僅是邁出的一小步,未來我們將繼續與微軟合作,將更多出色的AI體驗帶給廣大的使用者。
張峻, OPPO AI中心產品總監
04
關於OPPO
OPPO是全球領先的智慧終端制造商和移動網際網路服務提供者,業務遍及50多個國家和地區,透過40多萬個銷售網點及2500個服務中心,與全球使用者共享科技之美。作為一家軟、硬、服一體化的科技公司,OPPO不斷最佳化以ColorOS為核心的軟體平台,為全球4.4億ColorOS月活使用者打造更人性化、更智慧的行動作業系統。OPPO透過軟體商店、雲服務、智慧助手的不斷升級,為使用者提供更快捷、更智慧和更互聯的增值服務。
2019年12月,OPPO入選2019中國品牌強國盛典榜樣100品牌,2020年1月4日,獲得2020【財經】長青獎「永續發展創新獎」。2021年4月,OPPO全球專利申請量超過6.1萬件,全球授權數量超過2.6萬件。2023年10月,中國科學院科技戰略咨詢研究院釋出【中國科創典型調查報告】。OPPO折疊屏手機與中國高鐵復興號、北鬥衛星導航系統、中國商飛C919大飛機等專利密集型的科創產品一起入選「中國科創新名片」。
2024年2月,OPPO為超千萬使用者帶來了百多項AI手機功能,全新的小布助手以及AI消除和AI通話摘要等功能,得到了使用者的廣泛好評,讓AI手機實作了從嘗鮮到常用的跨越。
點選文末 「閱讀原文」
下載 【Azure OpenAI 生成式人工智慧白皮書】