為了讓機(jī)器能和人更好的聊天,Google都做了什么?
自然語言處理,又稱NLP(Naturallanguageprocessing),是目前以及未來AI領(lǐng)域最重要的基礎(chǔ)技術(shù)之一,主要是在機(jī)器學(xué)習(xí)的基礎(chǔ)上結(jié)合語言學(xué)和統(tǒng)計(jì)學(xué)在自動(dòng)化服務(wù)中對(duì)語言進(jìn)行建模。說的直白一點(diǎn),NLP就是關(guān)于人和機(jī)器如何互相理解、機(jī)器如何更懂人類的關(guān)鍵。
作為目前AI最主要的兩個(gè)分支領(lǐng)域,NLP(自然語言處理)和ComputerVision(計(jì)算機(jī)視覺)分別代表了人類嘗試讓機(jī)器理解世界的兩個(gè)緯度,也是目前人工智能領(lǐng)域發(fā)展最快的兩個(gè)分支。伴隨國內(nèi)外各家智能音箱和語音助手的出現(xiàn),NLP一時(shí)間成了眾多科技巨頭正面交鋒的AI主戰(zhàn)場。
自然語言處理到底如何一路走來、最終又將會(huì)讓機(jī)器和人之間的關(guān)系走向哪?作為在NLP領(lǐng)域投資最多的公司,Google或許是最有發(fā)言權(quán)的。
消除語言障礙,GoogleNLP的第一個(gè)任務(wù)
在Google的概念中,語言不應(yīng)該是人類溝通的障礙,更不應(yīng)該是使用網(wǎng)絡(luò)的阻礙。
Google研究項(xiàng)目總監(jiān)LinneHa告訴極客公園,Google的使命在于匯總?cè)澜绲男畔⒉⑹蛊淠軌虮黄毡楂@取和使用,而破除語言障礙就成了其中的關(guān)鍵。消除語言造成的隔閡,這些年來始終是GoogleNLP團(tuán)隊(duì)的主要任務(wù)之一。這種消除并不止停留在翻譯層面,語言處理(文本分析、生成、對(duì)話等)、音頻處理、手寫識(shí)別等都是Google正在著眼解決的問題。
目前世界上有6000種語言,這其中超過100萬人使用的語言就有400種,還有很多小眾的方言。但現(xiàn)在的互聯(lián)網(wǎng)主導(dǎo)語言依然是英語,全世界大約50%的網(wǎng)絡(luò)內(nèi)容都是英文的。讓全世界的人都能成為互聯(lián)網(wǎng)的受益者,不被語言的差異所阻礙,這正是GoogleBringingEveryoneOnline計(jì)劃的偉大設(shè)想。
「統(tǒng)一碼」和「不要豆腐」字體,它們是Google完成這件事的第一步。
Unicode(統(tǒng)一碼)是計(jì)算機(jī)的標(biāo)準(zhǔn)字符編碼,它為每種語言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求,谷歌一種都在鼓勵(lì)更多的國家和地區(qū)放棄使用非Unicode的字體。
除此之外,很多時(shí)候當(dāng)電腦和手機(jī)等設(shè)備在對(duì)文本進(jìn)行渲染,如果設(shè)備上沒有相應(yīng)的字體,就會(huì)出現(xiàn)空白方塊字符,這些方塊看起來就像豆腐一樣。針對(duì)這種情況,Google開發(fā)了一款叫做Noto的字體(Noto就是NoTofu的縮寫),它幾乎兼容所有語言,并且提供統(tǒng)一的風(fēng)格,以此來消除文字在不同設(shè)備上渲染出現(xiàn)的空白方塊(Tofu)。
(圖片來源:techtolead)
當(dāng)呈現(xiàn)方式的障礙消除之后,信息的輸入就成了下一個(gè)需要解決的問題。而機(jī)器學(xué)習(xí)的介入,開始讓人與機(jī)器之間的信息交互方式發(fā)生了變化。
手寫和語音是谷歌在鍵盤之外賦予機(jī)器的信息接收方式,這個(gè)在普通用戶看起來順其自然的演進(jìn),背后其實(shí)是一個(gè)不小的工程。
不管是手寫還是語音,共同存在的一個(gè)問題是個(gè)體差異。很多時(shí)候,就算是同一種文字、同一種語言,也會(huì)因?yàn)椴煌娜硕鴰喜煌目谝艉筒煌墓P跡。面對(duì)這個(gè)問題,GoogleNLP收集了大量書寫樣本和語音樣本,并利用機(jī)器學(xué)習(xí)從這些樣本中學(xué)習(xí)去辨認(rèn)筆跡和口音。
早在十年之前Google就有了語音搜索的設(shè)想,并且在2007年Google想出了通過提供GOOG-411(GoogleVoiceLocalSearch)的服務(wù)來收集數(shù)據(jù)。這個(gè)全自動(dòng)的語音識(shí)別搜索服務(wù)很受歡迎,也很快幫助Google根據(jù)這些詢問的語音建立了一個(gè)大型數(shù)據(jù)庫。經(jīng)過這些高質(zhì)量的語音搜索數(shù)據(jù)訓(xùn)練,一年之后,語音搜索就足以在智能手機(jī)上啟動(dòng)了。
之后Google又通過在世界各地的大量采集,擴(kuò)展了50種其他語言的語音搜索能力,讓全世界數(shù)百萬人可以以更低的門檻使用上互聯(lián)網(wǎng)。
神經(jīng)網(wǎng)絡(luò),NLP的躍遷籌碼
DNN(深度神經(jīng)網(wǎng)絡(luò))的加入,讓Google的語音交互技術(shù)上升到了一個(gè)全新的高度。
2012年Google正式開始運(yùn)用深度神經(jīng)網(wǎng)絡(luò),這項(xiàng)技術(shù)在一開始就讓語音識(shí)別能力提高了約25%,且之后Google不斷在優(yōu)化算法,讓這種識(shí)別率的提升效果始終保持著強(qiáng)勁的增長。同時(shí),機(jī)器學(xué)習(xí)的能力提升也讓GoogleNLP的能力有了大幅度的提升,能夠更好的理解人類的句子。
目前,Google通過這些技術(shù)提供了30多種語言的語音輸入支持,涵蓋超過十億人。其中個(gè)一典型的使用場景就是的Gboard輸入法和Google語音搜索,這些App提供了119種語言的支持,包括11種印度語,www.whsntf.cn,3種印度尼西亞語,甚至包含了2種非洲最重要的語言斯瓦希里語和阿姆哈拉語。
Google的團(tuán)隊(duì)從多年的數(shù)據(jù)收集中得出了一套高效低成本的方案,通過和同一地方的人用多語言進(jìn)行溝通,用更少的數(shù)據(jù)建立了更好的語言模型。
在解決了基本的溝通問題之后,GoogleNLP也開始在更多領(lǐng)域釋放自身價(jià)值,其中最典型的兩個(gè)場景就是翻譯和AI語音助手。
谷歌在2016年9月正式推出了整合神經(jīng)網(wǎng)絡(luò)的翻譯工具GNMT(GoogleNeuralMachineTranslation)谷歌神經(jīng)機(jī)器翻譯系統(tǒng),這一翻譯技術(shù)的運(yùn)用正是Google在NLP領(lǐng)域技術(shù)演進(jìn)的一次直觀體現(xiàn)。這種將整個(gè)句子視作翻譯單元的方式,對(duì)句子中的每一部分進(jìn)行帶有邏輯的關(guān)聯(lián)翻譯,翻譯每一個(gè)字或單詞時(shí)都包含著整句話的邏輯。
在專訪中LinneHa也告訴極客公園,www.whsntf.cn,NMT對(duì)于SMT更多是一種互補(bǔ)的關(guān)系,并沒有絕對(duì)的優(yōu)劣之分,他們各自在不同的情況下有著各自的優(yōu)勢(shì)。NMT的出現(xiàn)彌補(bǔ)了之前SMT能力無法覆蓋的長句翻譯和復(fù)雜邏輯翻譯等問題。
智能語音助手GoogleAssistant則是GoogleNLP技術(shù)目前最核心重要的運(yùn)用。早在2012年的安卓4.1和Nexus手機(jī)上谷歌的智能語音助手就以GoogleNow的形式和用戶見過面了。
當(dāng)時(shí)的GoogleNow正是使用NLP技術(shù)完成與用戶交互,而后通過Web服務(wù)來進(jìn)行問答、提供建議、完成服務(wù)等動(dòng)作。而從2016年開始,具有更強(qiáng)大NLP處理能力的GoogleAssistant就開始逐步取代GoogleNow,幫助用戶在手機(jī)上完成更復(fù)雜的語音交互指令。
GoogleNLP技術(shù)水平直接影響著GoogleAssistant的能力范圍,所以當(dāng)NLP技術(shù)通過機(jī)器學(xué)習(xí)在長期的語音輸入、語音搜索訓(xùn)練和積累后,逐漸能夠掌握對(duì)話能力,而不再只是單純的簡單指令處理能力。
這時(shí)的GoogleAssistant也開始變得越來越全能,它能夠從對(duì)話中學(xué)習(xí)積累對(duì)自然語言的語意、邏輯的理解能力,并不斷優(yōu)化。
NLP的機(jī)遇和挑戰(zhàn)
NLP或許不會(huì)有一個(gè)確切的盡頭,因?yàn)樽匀徽Z言始終都在演變,而自然語言處理技術(shù)需要不斷去適應(yīng)這種變化。
雖然目前的NLP技術(shù)無論是在算法還是數(shù)據(jù)結(jié)構(gòu)上都還沒有達(dá)到極限,但限制它的可能并不是只是算法和數(shù)據(jù),而是無法預(yù)測的語言習(xí)慣的變遷,以及不斷出現(xiàn)的新詞匯,以及舊詞匯的新用法。在專訪中LinneHa也告訴極客公園,目前的NLP最大的挑戰(zhàn)在于如何運(yùn)用運(yùn)用算法,更快的從有限數(shù)據(jù)中學(xué)習(xí)和適應(yīng)語言習(xí)慣的新變化,并及時(shí)做出調(diào)整。