端云一體、軟硬結合,先聲互聯(lián)想要提供智能語音交互一站式解決方案
智能語音交互成為新趨勢,以麥克風陣列為代表的聲學前端器件的重要性日益凸顯。從傳統(tǒng)聲學器件廠商、互聯(lián)網(wǎng)公司、聲學初創(chuàng)公司、語音技術服務商都紛紛推出相關產(chǎn)品。我們近期接觸的先聲互聯(lián)科技也是其中的一家,主要面向家居、車載等消費應用市場,為有智能語音交互需求的客戶提供包括聲學結構設計測試、硬件模組設計加工、終端語音模塊研發(fā)、端云一體語音交互、場景定制NLP開發(fā)、產(chǎn)品準入認證與評測等在內(nèi)的端云一體、軟硬結合的一站式解決方案。
當前,智能語音交互的諸多問題,都是伴隨著遠場出現(xiàn)的。移動互聯(lián)網(wǎng)時代,語音交互多是發(fā)生在近場環(huán)境中,比如語音通信、調(diào)用Siri等語音助手,但目前家居、車載、可穿戴等智能語音交互的常見場景中,人與機器的交互基本都是發(fā)生在以米計量的距離內(nèi)。一般來說,人聽到的聲音包括直達聲和反射聲(人聽自己說話的聲音還包括骨導傳輸),當距離聲源較遠以后,聲波的反射效果增強形成較強的混響,特別是在一些聲學效果較差的環(huán)境,如果附近還有其他的噪聲干擾,例如電視、風扇、汽車等等,即便我們?nèi)祟愐埠茈y聽清遠處的人聲,這就直接影響了遠場語音識別的準確率,也會產(chǎn)生遠講語音喚醒和識別等難題。要想提升智能語音交互的體驗,KUKA機器人維修,就必須解決遠場帶來的這些問題。
為此,先聲互聯(lián)研發(fā)了自己獨有的多通道語音前端信號處理引擎,綜合利用了多麥克風空間濾波、語音分離、解混響和聲源定位等多項基于物理建模的信號處理技術,KUKA機器人示教器維修,并融合了基于機器學習的數(shù)據(jù)建模機制,可以適用于遠場免提模式的語音識別和通信應用,幫其抑制背景噪聲、非平穩(wěn)干擾、設備回聲、房間混響等不利聲學因素,提升聲學效果及相關用戶體驗。
相比于目前市面上的大部分方案,先聲互聯(lián)多通道語音前端信號處理引擎采用了物理信號建模與機器學習數(shù)據(jù)建模相結合的實現(xiàn)路徑,這使得使用更少的麥克風達到更好的效果有了可能,對麥克風間距、陣列拓撲結構、以及陣元一致性要求也低于傳統(tǒng)的陣列增強算法,實施效率和靈活性較高。目前市面上大多聲學方案都僅采用物理信號建模的處理方式,這也是比較經(jīng)典的處理方式。但隨著機器學習等技術的成熟,數(shù)據(jù)建模的效果也逐步體現(xiàn)。比如,GoogleHome智能音響,僅使用2個麥克風的陣列達到了一定的效果,背后也是有類似技術的支持。
之所以做這樣的嘗試,與團隊過去聲學領域的研究和經(jīng)驗密不可分。創(chuàng)始人兼CEO付強博士于2000年語音處理專業(yè)博士畢業(yè),并在美國和歐洲的一流科研機構從事過相關的博士后研究,曾是中國科學院聲學所的研究員,20余年語音信號處理領域的研究,在包括IEEETrans.等國內(nèi)外權威學術刊物及會議上發(fā)表論文70余篇,專利10余項。完成了國家和省部委的幾十項科研課題,其中多項成果在相關部委列裝。并在2006年和2008年分別和通用、大眾合作,將遠場語音方案應用到車載環(huán)境中。2013年與長虹合作完成國內(nèi)首顆智能語音SoC。2014年帶領團隊與海信合作完成國內(nèi)首臺具有遠講語音交互功能的智能電視。2016年中國語音產(chǎn)業(yè)聯(lián)盟先進個人。另外,付強博士的學生團隊曾在2016年國際語音分離和識別挑戰(zhàn)賽CHiME4中,在主辦方提供的基線識別系統(tǒng)上,僅靠在前端處理部分做的工作,就取得了較好的綜合成績;在前端算法性能提升的橫向比較當中,位于國際前列。
為了方便客戶快速開發(fā),先聲互聯(lián)也希望提供圍繞智能語音交互相關的更多產(chǎn)品和服務,包括端云一體語音交互、場景定制NLP開發(fā)、測試服務等。語音交互方面,先聲互聯(lián)在后端對接了百度、騰訊、阿里、亞馬遜的智能語音服務,也自研發(fā)了自然語言處理相關技術,可以為用戶提供場景定制NLP開發(fā)。公司也希望未來可以借助云服務,成為語音內(nèi)容分發(fā)的入口。
目前,先聲前端處理引擎可支持家居、車載、會議等多種應用場景。根據(jù)不同的場景需求,先聲前端處理引擎目前可支持三種不同的解決方案:
●雙麥克風方案。主要面向以家用電子為主的消費類電子應用,可以靈活地應用于消費類音響、電視機頂盒、空調(diào)以及網(wǎng)絡路由器等設備;
●四到六麥克風方案。主要面向高端家用電子產(chǎn)品、企業(yè)級應用以及機器人,陣列拓撲并不限于標準的線陣和環(huán)陣,可以根據(jù)產(chǎn)品形態(tài)定制陣列結構;
●七麥克風以上方案。主要面向?qū)π阅芤蟾叩钠髽I(yè)級應用和機器人。
與市面上一些廠商做標準化的硬件路徑不同,先聲互聯(lián)會在固定方案的基礎上,會針對客戶做一定的定制,以達到更好的效果。CEO付強博士表示,因為團隊已有多年的產(chǎn)品落地經(jīng)驗,目前這種定制更多是體現(xiàn)在麥克風陣列拓撲結構的變化上,可以做到根據(jù)客戶的ID設計來給出最佳的選擇,也是由于先聲互聯(lián)的前端處理算法自身的適應性較強,所以這種定制并不會帶來系統(tǒng)的復雜,也不會增加工時。事實上,目前現(xiàn)階段,C端消費級市場的客戶很多還處于嘗試階段,銷量還相對有限,短期內(nèi)各家廠商的訂單量都還不大。
目前先聲互聯(lián)的技術及產(chǎn)品已有多項落地,TCL智能電視、海信智能電視、物靈的luka閱讀養(yǎng)成機器人、極米科技的LightankW100、數(shù)字家圓的親見H2、360的巴迪龍兒童陪伴機器人等產(chǎn)品都采用了先聲互聯(lián)的遠講算法以及麥克風拾音模組(由共達電聲合作生產(chǎn))。此外,先聲互聯(lián)也正在和小米、聯(lián)想、阿里、騰訊、優(yōu)必選等公司就某些智能硬件產(chǎn)品展開合作。
因為處于產(chǎn)業(yè)鏈的上游,此前聲學前端器件廠商給外界留下的印象多是不賺錢。幾家聲學相關的上市公司,聲學直接相關的業(yè)務營收也都相對有限。不過,智能家居、智能車載等新場景上,傳統(tǒng)輸入方式受限,對智能語音交互需求有了提升。調(diào)研機構預測,2020年聯(lián)網(wǎng)設備將達340億臺(激進數(shù)據(jù)預測或達460億臺),產(chǎn)值也有望增長到500億美元;屆時全球語音市場規(guī)模預計將達到191.7億美元。這樣的前景之下,這一領域不僅涌現(xiàn)出了多家初創(chuàng)公司,也吸引了資本的青睞。成立于2016年的聲智科技已于2016年底獲得1600萬元Pre-A輪融資,由洪泰基金領投,峰瑞資本跟投;成立于2016年下半年的GMEMS已經(jīng)完成來自北極光的A輪融資,庫卡機器人驅(qū)動器維修,預計今年的訂單量可以達到七八千萬元。