對話Kaldi之父、小米首席語音科學家Daniel Povey：開源環境比金錢和榮譽更吸引我

2024-04-23資訊

【編者按】在人工智慧的世界，有一群人正深耕於推動通用人工智慧（AGI）從科幻走向現實。CSDN、【新程式設計師】特別策劃「AGI 技術 50 人」訪談欄目，挖掘 AI 背後的思考，激蕩 AGI 的智慧，走進那些在 AI 領域不斷探索、勇於創新的思想領袖和技術先鋒們的心路歷程。

本期主角Daniel Povey，著名的語音辨識開源工具Kaldi的主要開發者和維護者，被稱為「Kaldi之父」，憑借在語音辨識和聲學建模方面的傑出貢獻入選IEEE Fellow。目前，這位語音辨識技術大牛正作為小米集團首席語音辨識科學家，帶領團隊開發新一代Kaldi，他認為「開源環境比金錢和榮譽更吸引我」。

作者 | 王軼群

責編 | 唐小引

出品丨AI 科技大本營（ID：rgznai100）

北京初春，一個微風拂面的午後，【AGI 技術 50 人】欄目團隊專程去小米總部拜訪了Daniel，與他面對面聊了聊加入小米的這四年半，以及他在中國的科研工作及生活。目前，他在團隊中被人們親切地稱呼為Dan。

（【AGI 技術 50 人】編輯與Daniel在小米辦公室的合照）

Daniel辦公桌上的紅色咖啡杯裏，泡的是中國紅茶。春天來臨，他說想換成綠茶，卻不知道自己的辦公室裏早有一個寫著「龍井」的盒子。被我們提醒後，他才發現遲遲未拆的團隊禮物，竟然正是自己需要的春茶。西方禮儀裏的及時拆禮物習慣，讓他在跟我們聊天間就開啟了盒子，並且迅速把茶葉倒進杯子，急匆匆要出辦公室打熱水沖泡。

「語音辨識恰好是我在做的事」

這位平胡謙遜的新一代Kaldi團隊領導者，擁有著輝煌的履歷和一流的學術背景。他是劍橋大學的語音辨識博士，曾在IBM、微軟研究電腦語音辨識，隨後去美國第一所研究型大學約翰霍普金斯大學擔任語言和語音處理中心的助理研究教授。他是著名的語音辨識開源工具Kaldi的主要開發者和維護者，被稱為「Kaldi 之父」。

科研、開發，對於Daniel而言，是越投入越覺得樂在其中的事。頂著「Kaldi之父」頭銜的他，對很多事物都抱有濃厚的興趣，而「語音辨識恰好是我在做的事」。

Kaldi整合了多種語音辨識模型，包括隱馬可夫和當時流行的深度學習神經網路。Kaldi是第一個完全用C++編寫的、基於加權有限狀態機理論的語音辨識開源軟體，其模組化與高度可延伸性設計讓Kaldi廣受學術界和工業界的好評，被公認為業界語音辨識框架的基石。有關於介紹Kaldi的論文被參照7000多次，Daniel Povey博士的論文也被參照了4萬多次；他還對語音辨識做出了許多科學貢獻，包括助力判別訓練（現在稱為序列訓練）的早期發展等。

用開源語音辨識工具造福更多的使用者，是Daniel 開發Kaldi的初心：「建立一個語音辨識研發平台，使大學研究人員和小公司能夠獲得與大公司一樣好的效果。」

Kaldi自 2011 年釋出以來，成千上萬的人下載Kaldi，幾乎所有的語音團隊都在使用Kaldi引擎來開發智慧解決方案，包括MIT、哈佛、清華、微軟、谷歌、Facebook等等。

回憶起Kaldi開發之初，Daniel說道：「開發Kaldi是在‘深度學習’一詞出現之前，最開始Kaldi 使用的是非神經方法。後來，我們為適應深度學習添加了一些工具。」

隨後，Daniel看到了技術飛速發展下Kaldi的局限性。「添加了深度學習工具後，我發現Kaldi很難以跟上深度神經網路庫cuDNN 等現代工具和模型架構的最新發展的方式來維護這些添加的工具。即便有些人仍然使用Kaldi的部份內容，但這些模型目前無法與最新的深度模型競爭。」

說到為什麽還要著力研發新一代Kaldi，Daniel表示隨著深度學習技術的發展以及硬體算力的提升，智慧語音領域也進入到一個新的發展階段，Kaldi 也需要不斷更新以適應新的套用場景和技術趨勢。

模型從深度神經網路DNN，到用於語言的迴圈神經網路RNN，再到Transformer架構，發展叠代得非常迅速。「我逐漸認識到，讓當前的產品像初代Kaldi那時一樣受歡迎是不現實的。因為現在有這麽多的產品去選擇。」Daniel表示。

2017年釋出的Transformer架構，極大地改變了人工智慧各細分領域所使用的方法，並行展成為今天幾乎所有人工智慧任務的基本模型。Daniel認為：「在一致的訓練方法中，機器學習也變得越來越相似。過去，研究電腦視覺的人使用的是與語音辨識研究完全不同的方法，而現在幾乎每個人都在使用Transformer。如今， Transformer架構的強大通用技術能力，使得解決一項特定的目標的技術邊界變得不再清晰。 」

其實，早在2019年，Daniel就註意到Transformer架構的潛力，並判斷 構建通用基礎模型的時機已經到來 。2019年10月Daniel Povey加入小米成立了新一代Kaldi團隊（NEXT-GEN KALDI），宣布將打造新一代Kaldi。相較於之前，新一代Kaldi將兼具Kaldi效率與PyTorch靈活性。

「新一代 Kaldi 的最初目標是開發一些與現代深度學習框架相容的語音辨識工具，尤其是與PyTorch框架相容。」Daniel解釋道，「隨著計畫的開發，其最重要的部份已經成為基於 Python 的結構，即一個名為 Icefall 的計畫。」

Daniel 表示，他和他的新一代Kaldi團隊「可能會開始更多地關註 TTS」。這是Text To Speech的縮寫，即「從文本到語音」，是人機對話的一部份，讓機器能夠說話。他解釋道：「因為現在的開發階段似乎很難對自動語音辨識（ASR）產生影響，除非透過構建巨大的模型。」

2021年他以小米集團首席語音科學家的身份再次亮相，推出了新一代Kaldi。2022年12月，他憑借在語音辨識和聲學建模方面的傑出貢獻入選IEEE Fellow。

帶領新一代Kaldi團隊翻越山丘

堅持開源，是新一代 Kaldi與前一代一脈相承的底色。這是 Daniel 堅持 Kaldi 開源的期望，也是小米積極擁抱開源的初心。「開源對每個人都有幫助，無法想象現代機器的發展離開開源的樣子。」Daniel 表示。

這條開源之路，依然任重道遠。

不同於以往，Daniel不再孤軍奮戰。「在小米，我有一個團隊」Daniel表示，這是他在小米工作與IBM、微軟的最大不同之處。Daniel帶領著團隊不斷翻越山丘。

如果把一個AI套用比喻為一座冰山，那使用者所能感知到的套用界面就是暴露在「海平面」之上的冰峰，強有力地托起這些套用的核心和龐大的技術基底，則是被深埋在「海平面」之下。而Daniel正是個龐大技術基地的核心構建者。

「我們現在正試圖將重點放在裝置部署上。因為一些公開可用的模型存在問題，它們太大了，以至於你無法真正將其部署在小型裝置上。」對於當前市場中的語音辨識產品，比如OpenAI Whisper，Daniel認為同樣如此，將其部署在如手機這樣的裝置上並非一件容易的事。這也是新一代Kaldi團隊模型開發的長處所在。他說：「我們的模型確實比常用的模型，例如Transformer，具有一定的優勢。」

Daniel表示：「我們已經提出了一些小的方法，帶來一些細微的改進。在機器學習中，我們有一個新的非線性啟用函稱作‘Swoosh’，以及一個新的標準化模組稱作‘BiasNorm’。我們還沒有花很多精力推廣這些新方法，只是把它們作為我們之前Zipformer模型論文整體的一部份來發表。我一直在努力去實作一些大的突破。」

Daniel在小米研發的新一代 Kaldi是一個開源的智慧語音技術工具集，包含核心演算法庫k2、通用語音數據處理工具包Lhotse、解決方案集合Icefall以及伺服端引擎Sherpa四個子計畫，開發者可以基於這些工具集輕松客製自己的智慧語音套用。在Daniel的帶領下，團隊搭建出了新一代Kaldi通用技術基底，包括：

全新聲學編碼器：Zipformer

Zipformer是一個套用Attention機制的通用聲學編碼器，不僅可以用在語音領域，其在文本和影像任務上也同樣適用。Zipformer具有效果更好、計算更快、更省記憶體等優點，這使得Zipformer模型非常適合於低資源裝置端部署。

首創神經網路最佳化器：ScaledAdam

全新升級的神經網路最佳化器——ScaledAdam是新一代 Kaldi 團隊在業界最知名的最佳化器Adam的基礎上，引入了可學習的縮放因子，實作了網路訓練時間大幅縮短。而且ScaledAdam與Adam一樣，是一個通用的網路訓練最佳化器。

業界最快Transducer 損失函式：Pruned RNN-T

新一代Kaldi團隊還研發了業界最快的Transducer損失函式——Pruned RNN-T。實驗數據顯示，相比PyTorch中實作的RNN-T損失函式，Pruned RNN-T 損失函式在僅使用1/5視訊記憶體的基礎上，取得了約10倍的速度提升。

有限狀態轉換器：可微分 FST

可微分FST（Finite State Transducer）是一個有限狀態轉換器，可以構建復雜的語言處理模型。新一代 Kaldi 團隊創造性地實作了執行於GPU的可微分有限狀態機，使開發者只需要在外部構建好圖的拓撲結構，將其他的一切計算和訓練的部份交給k2引擎, 從而降低建模的工作量，提高靈活性。此外，新一代Kaldi團隊還實作了基於GPU的狀態機解碼方法，實作了語音辨識解碼的全鏈路GPU加速。

Daniel強調：「其中，Zipformer與其他技術相比，為新一代Kaldi提供了最大的改進。」他表示：「我們還在研究一種新型的輔助損失函式，看起來它可能會帶來很大的改善，但我們還沒有釋出它。」

此外，新一代 Kaldi團隊還有其他技術成果，如近乎零成本的知識蒸餾技術，讓小模型也能學習到大模型的本領；基於時延懲罰的低時延端到端模型的訓練方法；PromptASR語音辨識系統；高效數據集構建方案textsearch; 全平台語音任務服務引擎Sherpa，等等。

那麽，新一代Kaldi與上一代相比，其優勢在哪？「實際上，新一代Kaldi可能會與基於PyTorch的其他解決方案進行更直接的競爭，例如ESPNet或SpeechBrain或預訓練的大模型。我懷疑目前使用Kaldi（或其中一部份）的人大多是出於其遺留原因而這樣做的。」Daniel表示。

千裏之行，積於跬步。對於Daniel來說，日常計畫的微小進度在於將語音辨識的精確度提高10%，「這10%很難被使用者察覺」。而小米集團早已看見了該團隊的努力與付出。2023年，Daniel的新一代Kaldi團隊以其創新技術成果在小米集團的年度技術大獎評選中獲得二等獎。

「我們已經提出了許多有趣的技術問題，也是我們釋出的Zipformer模型的一部份。我們的模型開始被小米的產品團隊使用。他們現在開始部署我們的模型，包括中文和其他語言的語音辨識模型，主要優勢是提高精度以及減少計算量。」Daniel 表示，對自己的語音辨識模型在小米產品及小米生態中被部署套用感到十分開心。「在與產品團隊的良好配合下，我們能夠實作模型的高效部署，目前訓練使用模型的速度更快，辨識也更加精確。」

作為一個基礎引擎，新一代 Kaldi可在語音互動層面有力賦能小米「人車家全生態」新戰略。以座艙為例，使用新一代Kaldi引擎後，座艙的語音辨識的效能進一步提升，伺服器成本也降低一半。不僅能服務於語音任務，新一代Kaldi還可廣泛地適用於各種AI任務。目前，團隊首創的ScaledAdam最佳化器已經用在了小米自研大模型中。

同時，新一代Kaldi的出現正在對各行各業帶來助力。在智慧家居領域中，透過使用新一代Kaldi技術，人們可以透過語音指令控制家電裝置、查詢天氣、播放音樂等；在教育行業中，可以對學生進行口語測試和糾正，提高學生的口語表達和聽力理解能力；在醫療行業中，可以實作自動化的病歷記錄和診斷，提高醫療行業的效率。

Daniel在中國

「一直以來，全球人工智慧有關的計畫都有一定比例的中國研究人員，但最近十年左右的新情況是，越來越多有趣的新研究來自在中國工作的中國人。」四年半的時間裏，Daniel對中國的興趣日漸濃厚。

在小米，Daniel還是一如既往地延續著工作狂的風格，即便目前處在一個低壓放松的工作環境中。一心一意撲在研發和新一代Kaldi團隊領導工作上的他，並沒有多少時間健身，甚至沒有很多時間與朋友出遊。靠近電腦桌的地方擺了一架電子琴，他把僅有的娛樂活動搬到了辦公室。

在團隊中，Daniel是一位謙遜、親切且善於思考的領導者。「我在這樣一間寬敞的辦公室，我的團隊成員卻坐在外面並排的工位上，我總是因此而感到歉疚。」對團隊成員關懷備至的他，總是把研發的責任攬到自己身上。「我擁有一個強大的團隊，這裏的人都非常好。」全身心投入研發的Daniel，認為閱讀研究論文「往往會分散註意力」，有時沒能及時跟進技術動態，導致他「重新發明了別人已經發明的東西」，還是團隊的夥伴分享給他相關的論文以供參考。

（Daniel身穿「NEXT-GEN KALDI」文化衫站在陳列櫃前）

Daniel曾經編程速度很快，人們一度很難跟上他的步伐，而如今他並不會花很多時間在程式碼上。在新一代Kaldi團隊中，有一位實力強勁的程式設計師小哥叫匡方軍，Daniel稱其編程速度「非常快」。據了解，匡方軍是新一代Kaldi團隊的初始成員之一，也是其子計畫Sherpa的主要維護者。團隊的小夥伴說他編程功底深厚，對計畫付出了很多。同時他也是和Daniel風格特別像的一名程式設計師，在團隊中頗有人氣。

（Daniel的書架上擺放著自己與團隊的合照、可愛的中西擺件和一本【高效能人士的七個習慣】）

有時，工作計劃會不可避免地存在調整，導致整體進度放緩，Daniel對此表示「這完全是我的責任」，並及時復盤，繼續帶領團隊不斷攻克難關。在計畫的推進中，他對產品和市場有了更深入的認知，並且逐步明確了努力的方向。

對於壓力，他說盡管人們可能會在高壓的環境下產出很多，但低壓的環境令人愉悅，讓他和他的團隊可以去開始思考並追求有趣的事。「我覺得我會傾向於沈迷不同的事情，通常情況下是不同的工作計畫。」Daniel表示，「我對別人對我的看法不是那麽敏感。所以 不要在乎別人怎麽想，只要知道自己在做什麽就行了 。」

對科技敏感，對人際並不敏感的Daniel，通常會給自己在小米的助理Liliana帶來不小的工作挑戰。在團隊成員的眼中，她已經升級為Daniel在中國的全面助理，協助處理工作與日常大小事務。在辦公室墻上的白板，除了滿屏的工作想法，Daniel打趣地寫下了「Dan惹惱Liliana的第X天」的字樣。

（Daniel辦公室的白板上寫滿了有趣的想法與演算）

在小米的四年半時間裏，中國飲食和中國文化已經融入了他的生活。對於Daniel來說，中西差異並不對他構成文化沖擊，他在國外做大學教授期間已接觸過諸多中國學生。對 Daniel 來說，中國人和中國文化早已十分親切。

Daniel 喜歡的中國美食，並非大眾喜愛的火鍋，而是與西方牛排有共同之處的烤肉、羊排、排骨等整塊烹製的肉類。每天中午，他在小米成立的新一代Kaidi團隊同事們，就會拉著他一起去小米的食堂吃中餐。他的體態比四年前的清瘦模樣顯然圓潤了一些，腸胃早已適應中餐。

（Daniel 辦公室裏擺放著中國傳統工藝品）

辦公桌一側的陳列櫃裏，擺放著許多有關語音辨識、聲音建模、團隊進步的獎杯。他表示，自己並不在意獲得了多少獎項，而是在意這裏開放、包容、尊重的工作氛圍，以及小米對開源計畫的提倡與重視，這正是他在小米的伯樂崔寶秋所倡導的。

多年來，Daniel一直在尋找一個適合自己搞科研的環境。在這裏，他找到了。2019年他加入小米時，向崔寶秋提到的「我並不需要很高的薪水」一度被媒體廣泛傳播。如今，他依舊持有一樣的態度。在他看來，金錢並非排在第一位。

「比如家人的陪伴就比金錢重要的多。現在的年輕人對薪資看得太重了。我認為年輕人不必那麽追求高薪，反而應該在合適的時候組建家庭，撫養下一代。」

2023年暑期，他將自己的小女兒接來中國上學。在中國，他也有了親情的陪伴。女兒也在逐漸適應中國的教育氛圍。自己的女兒曾在美國吐槽學校對學業並不是那麽認真，而來到中國周圍的人對於學習的態度有點過於嚴肅，以至於沒多少人會提倡打破規則。「像我一樣，她也有很強的個性。」應試教育往往通向中國父母所期盼的名牌大學。而Daniel認為女兒不必跟隨自己去上劍橋，選擇一所適合她的即可。

「那些有極高薪水和地位的人，並不一定過得開心。」Daniel表示。他的核心樂趣，無疑是聲音建模和語音辨識技術研發。

放眼AGI未來，提倡技術與人的正和遊戲

就像Transformer的創造者提出尋求更高效節能的架構一樣，Daniel也以發展的眼光看待自己締造的一代傳奇。

對於Kaldi的廣泛使用，Daniel表示：「人們一直在更換工具，所以我的感覺是，人們可能不會使用很多我們的程式碼。雖然有時人們仍然在他們的解碼器邏輯中，保留一些Kaldi程式碼，即便他們的主要模型是用PyTorch或其他別的構建的。我認為現代的趨勢是簡化這種程式碼並使用通用的機器學習方法。或許，使用者的計劃是最終不必使用Kaldi，因為他們正在使用一些非常通用的機器學習方法，這些方法不僅針對語音辨識。只是目前，Kaldi仍然在被使用。」

「 我著眼於未來 。」Daniel 表示，他們正在嘗試提出一些新的有趣的事物，甚至是套用機器學習的新範疇。「如今，語音辨識似乎已趨向成為一種商品或已解決的問題，所以我希望能找到機器學習的一些新套用，這在某些方面可能更令人興奮。」

在廣義的人工智慧發展範疇上，Daniel認為語音辨識在大多數套用中僅占很小的一部份。他並不擔心技術會取代人類的大部份工作，至少不會取代那些需要職業資格證的工作，畢竟很多工種都在到職業授權認證和法律保護的範圍內。

「人工智慧在娛樂或語言生成等方面有很多套用，在這些領域人工智慧在幫我們做‘零和遊戲’。」他列舉了一個律師的例子：如果律師有機會接觸人工智慧，他們將變得更有效率。這樣的情況下，他們只是在與另一個律師團隊對抗，而實際的總生產力不會改變，因為他們和他的對手都擅長在同一領域展開競技。「我們只是在更努力地互相爭鬥。這個道理同樣適用於戰爭。」Daniel認為， 在零和遊戲的設定上，人工智慧會一定程度上加速人類能力的「內卷」 。

Daniel認為「人工智慧套用在工業、農業或者礦業將更有趣，因為在這裏並不是一場‘零和遊戲’」。他更提倡的是， 人與技術的正和遊戲 。在賽局論上，正和遊戲意味著二者相加的和並非歸零，而是雙贏互惠的結果，參與者的利益是相互一致的，一方的利益增加不會導致另一方的利益減少。

在即將到來的2024全球機器學習技術大會（ML-Summit 2024），Daniel準備帶來有關「The Current Moment in AI」的主題演講。他想借助這個機會，幫助人們後退一步縱覽LLM的目前的發展，從一個更大的視角來看到最近風靡的大模型只是人工智慧開發中許多改進的一個。同時，Daniel還想從技術的角度，結合自己的語音研究實踐，談一談人工智慧會對人類命運產生的影響。

Daniel認為計算、記憶體和儲存的成本會隨著時間的推移而下降，但下降的速度不會那麽快， 效率仍然是任何產品的一個問題 。「這意味著我們可能不想部署太大或太通用的模型。當然，我們仍然可以使用更大的模型作為訓練過程的一部份，例如在師生學習中。到目前為止，人們還沒有能夠從LLM那裏獲得ASR準確性方面的太大改進。但這可能會改變。」Daniel表示，「就我個人而言， 我不喜歡花太多時間處理非常大的模型，因為它限制了你在實驗方面的選擇 。」

作為人工智慧語音辨識的先驅，談及對於廣大開發者的寄語時，Daniel認為應該將目光放長遠，不要拘泥一格。「我傾向於建議人們學習一些通用的機器學習技能，例如去確保知道如何使用PyTorch一類的工具。機器學習方向正朝著在不同的任務中使用相同的方法而發展。我想知道在未來擁有過於狹窄的專業知識將是否是一件有益的事， 只擁有語音相關的知識或許將過於狹隘 。不過，對於大多數人來說，掌握通用知識已不是難事，因為人們已經在使用可用於其他領域的方法了。」

最近，OpenAI推出的文生視訊大模型Sora自推出後熱度持續增長，帶動了行業中多個復現Sora計畫的產生與叠代。對於Sora是否意味著AGI會加快到來的問題，Daniel 表示肯定。「Sora解決了一個非常具體的視訊生成問題。我認為這與通用智慧完全不同。我並不是真的擔心，我認為這將是一條非常緩慢的道路。如果上網搜尋，你可能會發現，很多搜尋結果都是人工智慧產生的垃圾，你必須非常有知識才能區分真正的垃圾。未來有很多語言模型的品質可能變得更糟，除非他們找到一種方法來過濾掉那些壞數據。」

放眼未來，Daniel沒有對人工智慧的發展持悲觀態度。「 人工智慧失控並不可怕，可怕的是人工智慧受制於不同目的的人 。」比如將人工智慧用於戰爭，在他看來反倒可以減少人類士兵的犧牲，但若被懷揣目的的人的過度使用，確實會造成不良後果。他認為技術的發展取決於其締造者和使用者。

人工智慧語音辨識技術，在 Daniel 這樣一群可愛又可敬的科研人員的帶領下，相信也會取得令人滿意的成果。

采訪後記

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 2024 全球機器學習技術大會 」在上海再度啟幕第一站，匯聚來自全球近 50 位在機器學習技術研發及行業套用領域的領軍人物和知名專家，攜手搭建一個專屬於全球機器學習與人工智慧精英的高層次交流與分享舞台。

屆時， Daniel Povey 將作為重磅嘉賓發表專題演講——【The Current Moment in AI】，采訪中未深入展開的深度學習與語音辨識發展的議題，都將在大會上進行深度分享和探討。歡迎存取官網 http://ml-summit.org、點選「閱讀原文」或掃描下方二維碼，進一步了解詳情。

對話Kaldi之父、小米首席語音科學家Daniel Povey：開源環境比金錢和榮譽更吸引我 | AGI技術50人