Tacotron2其實(shí)已經(jīng)是谷歌的第二代類似技術(shù),它由兩個(gè)深度神經(jīng)網(wǎng)絡(luò)組成。目前,該系統(tǒng)只進(jìn)行了英語(yǔ)女聲的訓(xùn)練(如要需要它發(fā)出男性聲音的話,谷歌則需要對(duì)其進(jìn)行重新培訓(xùn))。
谷歌的研究人員表示,Tacotron2完全可以準(zhǔn)確發(fā)音一些非常復(fù)雜的單詞和人名,并根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分,庫(kù)卡機(jī)器人,KUKA機(jī)器人示教器維修,甚至能夠完美地講完一段繞口令。舉例來(lái)說(shuō),Tacotron2會(huì)默認(rèn)在讀到大寫單詞的時(shí)候加重語(yǔ)氣,也能夠處理少量的人為打字錯(cuò)誤。
Tacotron2上所謂語(yǔ)音合成技術(shù)又稱文本轉(zhuǎn)語(yǔ)音(TTS)是如今很多移動(dòng)產(chǎn)品和應(yīng)用上不可或缺的技術(shù)模塊,例如語(yǔ)音交互應(yīng)用、導(dǎo)航、語(yǔ)音控制以及為視力障礙者設(shè)計(jì)的產(chǎn)品中都需要語(yǔ)音合成技術(shù)的支持。在此之前很長(zhǎng)一段時(shí)間內(nèi),語(yǔ)音合成技術(shù)都是采用拼接方式,需要記錄大量語(yǔ)料才能進(jìn)行語(yǔ)音合成。這樣的方法不僅前期需要處理大量數(shù)據(jù),庫(kù)卡機(jī)器人驅(qū)動(dòng)器維修,而且一旦說(shuō)話人有所改變就需要重新記錄和處理,所以業(yè)界一直在尋找可以實(shí)時(shí)生成語(yǔ)音的方式。