AI 挑戰周杰倫？Suno 全新功能面世，即興哼幾句就能創作成歌，還能模仿聲音！

2024-06-04資訊

作者 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

2016 年，周杰倫根據女兒 Hathaway 在玩具鋼琴上隨意彈出的幾個音符，激發出創作的靈感，譜寫了一首溫馨而深情的歌曲——【前世情人】。 8 年過去，音樂創作逐步進入了 AI 時代，先前爆火出圈的音樂創作 AI 平台「 Suno 」在近日預熱，未來將釋出一項新功能： Sound-to-Song。 意思是： 用任何聲音創作新歌曲 （make a new song from any sound）。

即使你不像周杰倫一樣擁有「絕對音感」，也不懂什麽樂理與和弦，只需要哼唱一小段，Suno AI 就可以在你哼唱的基礎上創作出完整的歌曲。下面便是 Suno 日前釋出的第一波預熱演示視訊：【 用噴壺演奏「迷幻搖滾」 】。

某種意義上，這和 ChatGPT 推出的「語音輸入」互動方式有異曲同工之妙，聲音辨識和語音辨識如今已是各大 AI 產品的必備技術，比如說，我們基本可以在國產 AI App 使用聊天框旁邊的說話功能：

但在音樂的世界，我們不需要像制作人一樣苦口婆心地用對話的互動方式來教導 AI 怎麽作曲，而是采用更簡單的互動：直接唱出來。

這種創新的作曲方式將使使用者能夠把「 聲音采樣 」與「 文字提示 」結合起來，創作出獨一無二的音樂作品。以前使用 Suno 作曲，可能還需要構思一下怎麽寫 Prompt 才能讓 AI 明白你腦內的靈感；但現在，任何日常的聲音，如 Suno 官方演示中噴壺敲擊金屬管的聲音，都能轉換成迷人的迷幻搖滾樂曲。

除了「噴壺搖滾」以外，Suno 還派出自家的工程師 Anessa 親自演奏鋼琴，並讓 Suno AI 轉化為完整的一首歌：

Suno 不僅將 Anessa 彈的這段鋼琴準確無誤地變成了手風琴演奏，還進行了「續寫」。這意味著 Suno 在捕捉旋律的同時， 它或許還能解析出潛在的和聲結構，辨識出和弦進行，並基於這些和聲關系生成新的和聲進展 。

在下面這段由 Suno 產品經理 Rebecca 進行的官方演示中，我們可以看到類似的情況：

發現問題了嗎？沒錯， Suno 現在不止能辨識和弦，還能辨識演唱者的音色 ！

如今，AI 複制聲音已經不再是什麽新鮮事，我們經常可以在各大視訊網站看到有人利用各種遊戲動漫中的人物聲音訓練 AI 翻唱歌曲，但 Suno 所做的不僅是分析演唱者的獨特音色特征以及演唱習慣， 它還能使用合成的個人化音色，將新創作的旋律以接近原演唱者的聲音表現出來，從而實作不僅旋律上的延續，還有音色上的連貫性和一致性 。

這一技術的推出，預示著音樂創作的門檻將進一步降低，每個人都可以成為自己生活的「周杰倫」。接下來，讓我們進一步解析 Suno 的這次重磅更新，看看還有哪些遺漏的釋出內容。

歌曲長度延長至 4 分鐘！

此前，Suno 團隊官宣表示 v4 版本還在「醞釀」當中，與此同時推出 v3.5 的搶先體驗版本，供專業版和高級版會員使用。如今，免費使用者也可以正式使用該功能，以下便是我作為免費帳戶點開模型列表時可選的選項：

Suno v3.5 最顯著的改進之一是 歌曲長度和結構的擴充套件 。使用者現在可以生成長達 4 分鐘的音訊片段，比以前的版本有了很大的提升。許多流行歌曲的時長設計在 3 到 5 分鐘之間，而 4 分鐘則是這個區間內的一個典型時長，這意味著我們現在可以用 Suno 創作更復雜、更多樣化的作品，無需將多個剪輯拼接在一起。此外，現有的已創作歌曲還可以最多延長 2 分鐘。

此外，Suno 現在擁有 更連貫的旋律、和聲和節奏 ，也就是說除了長度，在品質方面也提升了不少。Suno v3.5 改進了演算法，可產生更連貫的旋律、和聲和節奏。

作為測試，我讓 Suno 嘗試創作了一些電子遊戲裏經典的「 Boss 戰音樂」，但是要配上古典管弦樂作為點綴：

雖然我聽不出作曲品質的提升究竟有多大，但可以直觀感受到 4 分鐘的長度大幅提升了一首歌的完整度，無論是 1 分鐘和 2 分鐘左右的變奏或是 3 分半的收尾都很精彩 —— 問題出在 3 分半之後， 為了湊夠 4 分鐘的長度，Suno 強行再彈了半分鐘鋼琴，「畫蛇添足」，顯得十分突兀 。

這種情況經常出現在大語言模型創作文章的時候：如果我們讓 ChatGPT 寫一段剛好 50 字的短訊，一字不多一字不少，那它就會為了湊字數或刪字數創作出一些非常拗口的句子。這可能是因為大模型的訓練目標在於最大化 訓練目標在於最大化預測下一個詞（predict next-word ）的機率，確保生成文本的統計學合理性，而非始終保證文本的自然流暢或最優創意表達。

純音樂效果還算不錯，那既然文章開頭提到了周杰倫的【前世情人】，我們就讓 Suno v3.5 也來挑戰一下周董。

開啟客製模式，輸入【前世情人】的歌詞，曲風選擇這首歌「巴洛克式的華麗古典風格，加上電子迷幻嘻哈」的元素，使用最新的 v3.5 版本，成果如下：

效果不盡人意。v3.5 搶先體驗時期， Red dit 網友便曾指出該版本存在的一大缺陷： 無論輸入什麽提示詞，都會生成一首毫無特色的流行歌曲。 目前看來，這個問題仍舊存在，老版本的 Suno v3 在模仿各種小眾歌曲風格方面反倒表現得更加出色。

完美的「音色拷貝者」？

v3.5 的基本更新顯然是一次 0.5 級別的升級，並沒有達到廣大使用者心目中的 v4 水平。相比之下，前文所述的 Sound-to-Song 確實更讓人耳目一新。事實上，有許多拿到了 Suno 內測資格的 AI 音樂家已經在 X 上曬出了自己用 Sound-to-Song 進行的創作成果：

AI 藝術家 Michael Carychao 拿到了 Sound-to-Song 的內測資格，這是他用創作的 AI 歌曲：【困惑】（Perplexed）。 Michael 的吉他彈唱被 Suno 轉化成了一首流行歌曲，所以他接下來上升了難度：

樂器換成口風琴之後，Suno 的表現事實上還比吉他流行樂好了不少。所以 Michael 「變本加厲」，拿出了十根鉛筆：

十根鉛筆相互摩擦，模擬出了沙球（一種打擊樂器）的效果，進而創作出了一首古巴音樂。

下一個例子由 Google 藝術文化實驗室的常駐藝術家 Mario Klingemann 分享， Klingemann 從網際網路檔案館 (Internet Archive) 獲取了一段視訊剪輯，這段視訊特別含有對話或旁白，所以他打算透過這段視訊來評估和展示 Suno 在處理自然語言語音方面的表現和創意潛力：

Suno 完美還原了視訊中這位「 Grumpy Old Man 」（暴躁老頭）的低沈音色，底下的評論區則稱其為「經典老電影與現代節奏的絕妙融合」。Klingemann 還表示，將口語內容轉化為「帶有人聲演唱的電子樂」的指令似乎主要來自於他向 Suno 提供的 Prompt，比如「口語」和「電子樂」。

正如 ChatGPT 讓自然語言處理技術變得觸手可及，Suno 的 AI 音樂擴充套件功能同樣降低了音樂創作的技術門檻，可謂是「音樂的 ChatGPT 時刻」。但從某種意義上來說，AI 讓音樂創作又回歸到了最原始的沖動：質樸的鼓點、孤獨的吟唱、悠揚的哼鳴 —— 表達自我，觸動人心。

開發者正在迎接新一輪的技術浪潮變革。由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的 2024 年度「全球軟體研發技術大會」秉承幹貨實料（案例）的內容原則，將於 7 月 4 日-5 日在北京正式舉辦。大會共設定了 12 個大會主題：大模型智慧套用開發、軟體開發智慧化、AI 與 ML 智慧運維、雲原生架構……詳情👉： http://sdcon.com.cn/