微軟小冰唱歌惹怒二次元,但深度學(xué)習(xí)和音樂(lè)的故事才剛開(kāi)始
最近,人工智能第一次和人類(lèi)在小范圍爆發(fā)了沖突,而雙方的主角是人見(jiàn)人愛(ài)的人工智能少女微軟小冰和虛擬歌姬們的粉絲。
虛擬歌姬是二次元中的圈子之一,愛(ài)好者們用一款名為Vocaloid的軟件,輸入歌詞和音符,利用音源庫(kù)中的人聲音源和伴奏制作音樂(lè)。再搭配上虛擬形象,就變成了初音未來(lái)、洛天依這樣的虛擬歌姬。
而最近,微軟亞洲研究院為微軟小冰打造了人工智能歌手深度學(xué)習(xí)模型,只需要人聲清唱一遍,就能學(xué)會(huì)人類(lèi)的感情和演唱風(fēng)格。在微博上發(fā)布關(guān)于這一消息時(shí),小冰用到了過(guò)時(shí)的技術(shù)等等話(huà)術(shù),惹惱了虛擬歌姬粉絲,甚至有些粉絲喊出了讓小冰滾出中國(guó)。
雖然這件事最終以小冰道歉為結(jié)尾,但深度學(xué)習(xí)和音樂(lè)之間的故事卻要更豐富的多。
理解音樂(lè),是創(chuàng)造的前提
用算法創(chuàng)造音樂(lè)這件事,需要的技術(shù)門(mén)檻不高,更不需要多大的硬件成本,但真正的難點(diǎn),卻是如何創(chuàng)造出好聽(tīng)的音樂(lè)。
其實(shí)在音樂(lè)的創(chuàng)作上,最基礎(chǔ)的就是七個(gè)音符的排列組合,利用隨機(jī)輸入和聚類(lèi)算法,就能用無(wú)規(guī)律的音符組合出想要模仿的旋律。又或者,干脆讓電腦把音符隨機(jī)組合,讓人來(lái)判斷好不好聽(tīng),工業(yè)機(jī)器人維修,最終電腦總會(huì)創(chuàng)造出讓人滿(mǎn)意的旋律。
以上這些方法都存在于理論中,音符、樂(lè)器、和弦、人聲之間可以有無(wú)限組合,而音樂(lè)類(lèi)型中既存在通俗歌曲這種規(guī)律性較強(qiáng)的,也有爵士樂(lè)這種幾乎找不到規(guī)律的。單純靠無(wú)限組合這種概率事件,恐怕比讓猴子打出一部莎士比亞還要難。
這一切的局限就在于,人工智能不能理解音樂(lè),因?yàn)椴荒芾斫,所以只能無(wú)意識(shí)的模仿和排列組合。而深度學(xué)習(xí)的加入,讓理解音樂(lè)這件事成為可能。
再造一個(gè)巴赫:庖丁解牛的創(chuàng)作模式
在人工智能理解音樂(lè)這件事上,可以參考音樂(lè)平臺(tái)的推薦算法。音樂(lè)屬于非結(jié)構(gòu)化數(shù)據(jù),能夠從中識(shí)別的推薦標(biāo)簽通常是歌手、出版年份等等信息,或者人為添加上去的歌曲風(fēng)格。
可如果利用信號(hào)分離技術(shù),提取出音頻文件中的分軌(既把人聲、器樂(lè)等等音樂(lè)的不同部分分離出來(lái)),則可以利用深度學(xué)習(xí)技術(shù)分別學(xué)習(xí)音樂(lè)中和弦、節(jié)奏、人聲中的規(guī)律,更完整的理解音樂(lè)。
深度學(xué)習(xí)作曲最好的案例就是DeepBach,一個(gè)誕生于索尼計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室的開(kāi)源項(xiàng)目。
巴赫創(chuàng)作過(guò)大量的復(fù)調(diào)圣歌,既一種包含兩條獨(dú)立旋律的復(fù)音音樂(lè)。這種音樂(lè)形式極具共同點(diǎn),同時(shí)結(jié)構(gòu)簡(jiǎn)單,非常適合作為研究對(duì)象。實(shí)驗(yàn)室的科學(xué)家選擇了巴赫的三百多部作品,在一定范圍內(nèi)變調(diào),再利用循環(huán)神經(jīng)網(wǎng)絡(luò)反復(fù)訓(xùn)練。最終訓(xùn)練出來(lái)的曲目,幾乎可以以假亂真。
其實(shí)聽(tīng)過(guò)一些復(fù)調(diào)歌曲就會(huì)發(fā)現(xiàn),在演奏時(shí)這種左右互搏的音樂(lè)雖然很難,但從結(jié)構(gòu)上來(lái)說(shuō),復(fù)調(diào)音樂(lè)的特點(diǎn)非常明晰。以巴赫的復(fù)調(diào)來(lái)說(shuō),精準(zhǔn)的對(duì)位、明顯的階梯感和層次感、更嚴(yán)禁的節(jié)奏等等。
嚴(yán)謹(jǐn)、有規(guī)律、特點(diǎn)鮮明,意味著巴赫的復(fù)調(diào)音樂(lè)更容易理解、更容易模仿。
說(shuō)白了,DeepBach創(chuàng)作的音樂(lè)談不上有多高的原創(chuàng)性,只是琢磨透了巴赫復(fù)調(diào)圣歌的特點(diǎn),在其原作品形式上進(jìn)行變化,庫(kù)卡機(jī)器人驅(qū)動(dòng)器維修,創(chuàng)作出與之十分相似的音樂(lè)。
只會(huì)做數(shù)學(xué)題的深度學(xué)習(xí)
目前大多數(shù)人工智能作曲都和DeepBach類(lèi)似,捕捉音源中的特點(diǎn),再根據(jù)用戶(hù)的需求對(duì)有限的元素進(jìn)行組合。
Jukedeck、AmperMusic等等人工智能作曲平臺(tái)也是一樣,把原本被標(biāo)注為作者、年份、風(fēng)格的整首歌曲分解成器樂(lè)、節(jié)奏等等多個(gè)部分,再進(jìn)行更詳細(xì)的標(biāo)注。最后,再根據(jù)用戶(hù)設(shè)定的音樂(lè)類(lèi)型、情緒、速度等等創(chuàng)作一首歌曲。
微軟小冰雖然不是依靠深度學(xué)習(xí)作曲,但提出的示唱人概念,也是收集用戶(hù)的音準(zhǔn)、音高、顫音振幅和顫音頻率等等數(shù)據(jù),再將這種特征植入到用戶(hù)制作的歌曲中。
在微軟小冰開(kāi)放平臺(tái)之前,我們很難距離了解到小冰如何在十幾分鐘內(nèi)通過(guò)一段語(yǔ)音訓(xùn)練處相似的風(fēng)格和情感。不過(guò)可以確定的是,目前多數(shù)依靠深度學(xué)習(xí)的音樂(lè)創(chuàng)作不外乎都是如此,玩票、再創(chuàng)作的性質(zhì)遠(yuǎn)高于原創(chuàng)性。
深度學(xué)習(xí)只能去學(xué)習(xí)流行歌曲、復(fù)調(diào)音樂(lè)等等結(jié)構(gòu)清晰、規(guī)律性強(qiáng)的音樂(lè),給它一段Coleman的FreeJazz,它可能學(xué)著學(xué)著就崩潰了。目前深度學(xué)習(xí)在音樂(lè)領(lǐng)域中可以把數(shù)學(xué)題做的很好,可到了數(shù)學(xué)公式不管用的領(lǐng)域,它也無(wú)能為力。
所以,音樂(lè)人們可以放下心來(lái),你們暫時(shí)還不會(huì)被AI替代。
是包容侵權(quán)者,還是和音樂(lè)人好好相處?
雖然利用深度學(xué)習(xí)創(chuàng)作的音樂(lè)沒(méi)有那么高的原創(chuàng)性,AI也暫時(shí)不能替代音樂(lè)人,但深度學(xué)習(xí)卻可以幫助音樂(lè)人更好的工作,也能給人們帶來(lái)很多便利。
比如說(shuō),當(dāng)我們想為視頻作品、PPT、H5等加入一段配樂(lè)時(shí),可以通過(guò)AmperMusic選擇風(fēng)格,隨機(jī)創(chuàng)作一段音樂(lè)。既不用承擔(dān)使用盜版音樂(lè)的侵權(quán)風(fēng)險(xiǎn),也繞開(kāi)了不會(huì)創(chuàng)作這個(gè)大坑。
又比如說(shuō)唱音樂(lè)的伴奏,工業(yè)機(jī)器人維修,通常來(lái)自某一首歌的采樣,再經(jīng)編輯而成。這就導(dǎo)致在其他樂(lè)迷看來(lái),說(shuō)唱音樂(lè)經(jīng)常有抄襲的嫌疑。而有了深度學(xué)習(xí)的存在,創(chuàng)作者可以利用算法學(xué)習(xí)采樣歌曲的風(fēng)格,而不是直接使用原有旋律。
不僅如此,深度學(xué)習(xí)讓所有沒(méi)有作曲能力的愛(ài)好者都有機(jī)會(huì)創(chuàng)造自己的歌曲,不用再扒曲子、翻唱。
其實(shí),對(duì)于大多數(shù)人來(lái)說(shuō),利用了深度學(xué)習(xí)的人工智能作曲工具只不過(guò)是在打侵權(quán)的擦邊球把想抄襲的歌曲喂給算法,算法就能吐出一段非常相似但不涉及到侵權(quán)的旋律。
至于專(zhuān)業(yè)音樂(lè)人,當(dāng)我們還在擔(dān)憂(yōu)他們被人工智能搶走飯碗時(shí),人家已經(jīng)開(kāi)始熟練的應(yīng)用各種人工智能平臺(tái)進(jìn)行創(chuàng)作了。美國(guó)歌手TarynSouthern的新專(zhuān)輯《IAMAI》中,就有一首由人工智能負(fù)責(zé)編曲的歌,歌手創(chuàng)造旋律和歌詞,算法完成編曲。雖然這首歌的編曲聽(tīng)起來(lái)沒(méi)有太多亮點(diǎn),但它的完整度已經(jīng)很接近人類(lèi)的創(chuàng)作了。
或許在未來(lái),深度學(xué)習(xí)可以更好的為創(chuàng)作者提供靈感,創(chuàng)作者給出一段旋律,算法就可以為這段旋律渲染上各種不同的風(fēng)格和感情,以此拓寬思路。
換個(gè)角度想,小冰和虛擬歌姬粉絲間的沖突就是一種預(yù)示,F(xiàn)在讓我們直接接受人工智能創(chuàng)作歌曲還為時(shí)過(guò)早,但利用深度學(xué)習(xí)加持音樂(lè)創(chuàng)作的時(shí)代已經(jīng)來(lái)臨。不管是Amper還是小冰,又或者是有著眾多粉絲的Vocaloid,他們的本質(zhì)都是工具。工具本身毫無(wú)意義,但有了人類(lèi)參與,才能一起創(chuàng)造出整個(gè)瑰麗的世界。