又大又长粗又爽又黄少妇毛片,亚洲欧美日韩综合一区在线观看,伊人久久精品,一区二区三区精品,亚洲综合色自拍一区,一本一道久久久a久久久精品91

首頁 > 機(jī)器人資訊 > 無論走到哪里,機(jī)器人都能聽懂你的鄉(xiāng)音

無論走到哪里,機(jī)器人都能聽懂你的鄉(xiāng)音

日期:2019-10-01   人氣:  來源:互聯(lián)網(wǎng)
簡(jiǎn)介:無論走到哪里,機(jī)器人都能聽懂你的鄉(xiāng)音 語音識(shí)別是人工智能的一項(xiàng)十分有趣的問題,想想看,人們的語音是多么復(fù)雜,不同國家、民族的人,說不同的國家和民族的語言,不同的人,口音不一樣,例如中國還有許多方言,語音也不一樣。一個(gè)本事大的人,可能懂七、……

無論走到哪里,機(jī)器人都能聽懂你的鄉(xiāng)音

語音識(shí)別是人工智能的一項(xiàng)十分有趣的問題,想想看,人們的語音是多么復(fù)雜,不同國家、民族的人,說不同的國家和民族的語言,不同的人,口音不一樣,例如中國還有許多方言,語音也不一樣。一個(gè)本事大的人,可能懂七、八種語言,也能聽懂男、女、小孩等等不同人、甚至不同方言的語言。但是要設(shè)計(jì)一個(gè)機(jī)器人能聽懂七八種語言,甚至鄉(xiāng)土的方言(例如在民航的接待處服務(wù)的機(jī)器人),這任務(wù)是十分困難的。但是我們可以期待,也許不久的將來就會(huì)實(shí)現(xiàn)。

再說,要在一篇科普文章中說清語音識(shí)別的技術(shù),也有很大的難度。因?yàn)樗玫搅烁叩葦?shù)學(xué)中的傅里葉變換的技術(shù)。也就是要用到時(shí)域和頻域的兩個(gè)概念,才容易講清楚。那么什么是頻域、什么是時(shí)域?也需要花點(diǎn)筆墨來介紹。

簡(jiǎn)單地講,例如50周波的正弦波,在時(shí)域的圖像上表示是一個(gè)連續(xù)上下波動(dòng)的曲線,如果轉(zhuǎn)換到頻域,就是在頻率軸(橫軸)上的50處一個(gè)有幅度的點(diǎn)這不是很簡(jiǎn)單嗎!

在上一篇語音合成一文中,已經(jīng)介紹了人類語音的一些特征(例如說聲母是相當(dāng)于高頻的噪聲、韻母相當(dāng)于周期重復(fù)的非規(guī)則波,聲調(diào)是韻母的聲高(頻率)有變化的波等等),這是語音的時(shí)域形態(tài)。我們也說過,如果用示波器觀看一般人說話的語音波形,是十分復(fù)雜,要研究它簡(jiǎn)直無從下手。但是經(jīng)傅里葉轉(zhuǎn)換到頻域,就發(fā)現(xiàn)圖形要簡(jiǎn)單得多了,語音波的頻率表現(xiàn)在若干個(gè)頻率點(diǎn)上有數(shù)值。比如男聲低些,女聲要高一些。小孩子的聲頻更高些。除此之外,在更高的頻率域處有數(shù)值,www.whsntf.cn,那是噪聲域,相當(dāng)于聲母的部分,而在較低的頻率點(diǎn)上也有一組數(shù)值,是韻母域,這些都表示的是不同說話人的口腔參數(shù),不同人的口型、舌頭形狀不一樣,這組參數(shù)也不一樣。所以,在頻域分析語音:是聲母、韻母、是幾聲調(diào)、是什么人說的等等,就容易多了。也由此可以想到,人的天賦智能具備了多么復(fù)雜的本領(lǐng),我們的腦子里事先已經(jīng)存儲(chǔ)好了各種模板數(shù)據(jù)(屬于頻域數(shù)據(jù),)包括各個(gè)漢字的讀音、某些已認(rèn)識(shí)人的聲音特征數(shù)據(jù),甚至風(fēng)聲、雨聲、鳥的鳴叫聲等等,因此,人就能判別任何時(shí)間聽到的聲音是什么聲音、代表什么文字,這種人所具備的智能也是幾千萬年人類進(jìn)化而得來的。

設(shè)計(jì)機(jī)器的語音識(shí)別,先要在計(jì)算機(jī)里先存放好標(biāo)準(zhǔn)的語音參數(shù),稱為模板(如果要將識(shí)別的語音轉(zhuǎn)換成文字,計(jì)算機(jī)里也先存放好了所有漢字的語音參數(shù)(可能還分男聲和女聲的數(shù)據(jù)庫,存儲(chǔ)的數(shù)據(jù)是對(duì)應(yīng)某種語音的頻域參數(shù),不可能是時(shí)域的波形),這個(gè)數(shù)據(jù)庫的建立也可稱為機(jī)器的訓(xùn)練過程。實(shí)際操作語音識(shí)別時(shí),由麥克風(fēng)讀入待識(shí)別的語音,將輸入數(shù)據(jù)先轉(zhuǎn)換成頻域數(shù)據(jù),再和標(biāo)準(zhǔn)數(shù)據(jù)作比較,取參數(shù)最接近的作為識(shí)別結(jié)果,再輸出,輸出的是漢字(或某一國家的文字。)語音轉(zhuǎn)換成文字還有一個(gè)同音字區(qū)分的問題,大多數(shù)漢語的一個(gè)讀音對(duì)應(yīng)多個(gè)漢字,有的發(fā)音對(duì)應(yīng)許多個(gè)漢字,www.whsntf.cn,甚至上百個(gè)漢字(如音節(jié)ji對(duì)應(yīng)的漢字有100多個(gè))要去分辨某個(gè)發(fā)音是什么漢字,必須采用上下文的辦法,就是看這個(gè)讀音的前或后跟隨的是什么漢字(或讀音),是否能組成詞。這些詞組都事先在計(jì)算機(jī)中存好,經(jīng)由匹配對(duì)比成功的詞來決定該選定的漢字,有時(shí)候不是任何讀音都可能找到能匹配的上下文,就可能要從語義來判斷。這就更復(fù)雜了。

如果要設(shè)計(jì)的系統(tǒng)是要尋找說話人是誰,而不是關(guān)于具體說的什么,那就只要對(duì)比頻域參數(shù)就可以了。同樣一句話,不同人說的,波形不同,頻域中的特征數(shù)據(jù)也不同。

平時(shí)我們的耳朵聽取外界的聲音有很強(qiáng)的濾波功能,在噪聲很大的情況下能濾除噪音,辯認(rèn)出需要聲音(如語音)。聾人用的助聽器,如果僅僅是把聲波放大,就會(huì)連同噪聲一起放大,聽起來十分費(fèi)勁。高級(jí)助聽器就有濾除噪音的功能,因而售價(jià)就很貴了,因?yàn)槠渲幸灿昧诵盘?hào)處理技術(shù)。

順便說一個(gè)故事,是說明傅里葉變換、信號(hào)處理的本領(lǐng)的。這是上世紀(jì)80年代初,美國麻省理工學(xué)院的奧本海姆教授來清華講學(xué)(我曾擔(dān)任他的講課翻譯)演示過的一段語音處理的片段:

一段帕瓦羅蒂的演唱,有場(chǎng)面龐大的樂隊(duì)伴奏,當(dāng)然很好聽。奧本海姆教授演示用了信號(hào)處理技術(shù),竟然可以把樂隊(duì)伴奏的聲音全部過濾掉,KUKA機(jī)器人維修,只剩下了帕瓦羅蒂的唱聲,這就可以單獨(dú)欣賞他的純真的歌聲,這里面用到了復(fù)雜的濾波技術(shù)完全是傅里葉變換的功勞。(他的歌唱頻譜范圍和樂隊(duì)演奏聲音的頻譜范圍是不同的。將頻域里的樂隊(duì)聲的頻譜信號(hào)刪除,再還原到時(shí)域就只剩下了人的歌唱聲了。)可見,信號(hào)處理的本領(lǐng)之大了。

語音識(shí)別技術(shù)經(jīng)過最近幾十年的研究發(fā)展,已經(jīng)十分成熟,能聽人語音發(fā)出命令而做事的機(jī)器人本領(lǐng)也愈來愈大了。我們清華人在其中作了貢獻(xiàn),也值得自豪!

免責(zé)聲明:本網(wǎng)部分文章和信息來源于互聯(lián)網(wǎng),本網(wǎng)轉(zhuǎn)載出于傳遞更多信息和學(xué)習(xí)之目的。如轉(zhuǎn)載稿涉及版權(quán)等問題,請(qǐng)立即聯(lián)系網(wǎng)站所有人,我們會(huì)予以更改或刪除相關(guān)文章,保證您的權(quán)利。