為什么智能語音把IOT盤活了
前兩天蔣總的朋友問我,如何在自己的豪宅布置智能家居(真是扎心)。交流了各種協(xié)議走線問題后,我問他控制中心怎么做,豪哥提出打算用美帝的Control4的觸控面板。屌絲終于在此刻找到了自豪感,我淡淡地告訴他,自從用了粗糧家的『小愛同學(xué)』,家里的無線開關(guān)已經(jīng)開始積灰了,更不用提智能家庭App了。
雖然無法精確度量,但喜歡窩在沙發(fā)上看國劇的我,本能地發(fā)現(xiàn)說一句『小愛同學(xué),關(guān)閉客廳的燈』要比伸手去找遙控器(或者遙控器替代品)要省時省力,耗能少。某聲學(xué)項目的FA曾嚴(yán)謹(jǐn)?shù)乇容^過不同交互方式的優(yōu)劣(當(dāng)然他們的結(jié)論是VoiceFirst)。我的理解是,不同的任務(wù),有不同的最佳交互路徑,例如對于復(fù)雜的長時間輸入(例如寫這篇文章,或是coding),目前的軟件仍然需要鍵盤的支持。對于多輪次復(fù)雜邏輯的交互,由于視覺的反饋很快,觸控也具有一定優(yōu)勢(例如重設(shè)一部手機,或是在App上買機票)。但如果是單輪輕度輸入,語音的優(yōu)勢就會很明顯(例如,讓小愛/Siri幫忙設(shè)置早上7點的鬧鐘,絕對是KillerApp)。更有趣的是,在這個場景下語音將復(fù)雜的輸入設(shè)置(早晨,7點,每天重復(fù),確認(rèn))合并了,一氣呵成,妙不可言。
但真正讓智能語音用起來的,并非單純的識別技術(shù),甚至不是玄妙的智能對話,我覺得是這種交互第一次突破了距離的限制。能夠躺在床上/沙發(fā)上隨意發(fā)號施令,之前只能由『真人助理』來完成。雖然早幾年的Siri等一票語音助手希望解決同樣的問題,拋開時不時的答非所問不講,單純拿起手機按下Home鍵再舉到嘴邊這個動作,就已經(jīng)很令人掃興了。
相反地,紅樓夢在王熙鳳出場時,用到了『粉面含春威不露,丹唇未啟笑先聞』這句詩。可以想象,當(dāng)鳳姐還遠在屏風(fēng)之后時,笑聲已然傳來;同樣的,主人在臥室看書,也可以通過語音把客廳的燈和電視關(guān)掉。之前曾有人希望通過視覺或超聲波做『隔空手勢識別』,相對于同樣遠距離的語音,使用的復(fù)雜度和學(xué)習(xí)成本都太高了。
遠場的一系列功能是如何實現(xiàn)的呢?為什么之前的語音助手都是近距離的呢?引用相非老師的技術(shù)架構(gòu)圖,在進行語音識別(包括本地和云端)之前,有一系列復(fù)雜的聲學(xué)前端算法,包括:
回波抵消(去除音箱自己播放的音樂)
波束形成(只聽人說話的那個方向,去除其他方向的干擾)
去混響(簡單理解為去除桌椅板凳的聲音反射)
聲紋識別(爸爸在說還是媽媽在說)等
經(jīng)過這一系列的聲學(xué)處理,相對『干凈』的語音信號才會進入負責(zé)喚醒的模型,喚醒之后才會進一步地進入云端負責(zé)語音識別的模型。
這一交互涉及到了:
物理硬件層(聲腔結(jié)構(gòu)設(shè)計,麥克風(fēng)陣列設(shè)計)
信號層(上述聲學(xué)處理)
后續(xù)的數(shù)據(jù)層(語音識別,NLP,TTS等)
這三層分別需要物理聲學(xué),信號處理,和計算機專業(yè)三個領(lǐng)域的人才相互配合,是個相當(dāng)復(fù)雜的工程。這還只是語音技術(shù)層面,作為消費級產(chǎn)品,一款音箱想要達到好的效果,庫卡機器人驅(qū)動器維修,還涉及到產(chǎn)品層,和產(chǎn)品之上應(yīng)用層面的一系列問題。
亞馬遜號稱已經(jīng)投入5000人的研發(fā)團隊,另外還有1000個職位Open,地主家的余糧還是多多的。當(dāng)然,貝索斯敢于如此投入,也和Alexa一騎絕塵的戰(zhàn)績相關(guān),目前根據(jù)三方統(tǒng)計,貝爺家的各種音箱已經(jīng)出貨1500臺以上,這還不包括通過AVS認(rèn)證的第三方設(shè)備(大概在400-500萬臺之間),整個市場占有率應(yīng)該在70-80%。更有殺傷力的是,隨著出貨量的增長,Skills(類似手機上Apps)的數(shù)量也幾乎同步增長,看來已經(jīng)形成了『硬件-系統(tǒng)-軟件』的正循環(huán)。
回到本文的主題。IOT喊了很多年,從20年前的智能家居,到09年無錫落地的物聯(lián)網(wǎng)產(chǎn)業(yè)園,再到14年火熱的智能家居創(chuàng)業(yè),乃至去年底孫正義大神提出鞋子比人更聰明,IOT都處在只打雷不下雨的尷尬狀態(tài)。之前我的認(rèn)識是『云網(wǎng)端』三層中端的密度不夠,即設(shè)備數(shù)量還不夠多,從而數(shù)據(jù)量不夠大,和人接觸點也不夠多。
但根據(jù)小米公布的數(shù)據(jù),MIOT在16年底大約5000萬入網(wǎng)設(shè)備,17年中6000萬,17年11月開發(fā)者大會上講是8000萬。5000萬和8000萬我覺得并沒有本質(zhì)的差別,但融入了智能語音交互后,原先的App指令控制,傳感器觸發(fā),變成了遠場語音控制。這樣一來,交互界面從單一的手機App(家里不方便),傳感器觸發(fā)(冷冰冰且不豐富),擴展到了無處不在的語音指令(方便且有溫度)。這大概解釋了小米開發(fā)者大會場面火爆的原因吧。
當(dāng)然,語音交互絕不止是遠距離版的遙控器而已。再借用相非老師一張圖,獨立于智能家居的硬件設(shè)備外,語音交互有機會將隨身設(shè)備,車載設(shè)備,乃至互聯(lián)網(wǎng)的一系列服務(wù)串起來。例如,我們可以在車?yán)锿ㄟ^語音提前把外賣點好(真是屌絲福音),KUKA機器人示教器維修,或是在跑步時通過耳機把家里的熱水器打開(目前還需要解決低功耗喚醒問題),或是在家通過音箱把凱叔召喚出來給孩子講故事(已經(jīng)實現(xiàn))。
或許,www.whsntf.cn,技術(shù)本身就是讓原本少數(shù)人的特權(quán)(鋼鐵俠的Javis)飛入尋常百姓家。能夠見證這一過程,的確令人興奮。