近期,清華大學(xué)-中國工程院知識智能聯(lián)合研究中心、中國人工智能學(xué)會吳文俊人工智能科學(xué)技術(shù)獎評選基地聯(lián)合發(fā)布了《2019人工智能發(fā)展報告》,遴選了13個人工智能的重點領(lǐng)域,包括深度學(xué)習(xí)、計算機視覺、語音識別、機器人等熱點前沿技術(shù)的基礎(chǔ)及應(yīng)用研究、發(fā)展動向等。
深度學(xué)習(xí)讓圖像、語音等感知類問題取得突破
機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能。
1950年,阿蘭·圖靈創(chuàng)造了圖靈測試來判定計算機是否智能。圖靈測試認(rèn)為,如果一臺機器能夠與人類展開對話而不能被辨別出其機器身份,那么稱這臺機器具有智能。這一簡化使得圖靈能夠令人信服地說明“思考的機器”是可能的。
后來,IBM科學(xué)家亞瑟·塞繆爾開發(fā)的跳棋程序,駁倒了普羅維登斯提出的機器無法超越人類的論斷,像人類一樣寫代碼和學(xué)習(xí)的模式,他創(chuàng)造了“機器學(xué)習(xí)”這一術(shù)語。
然而,從20世紀(jì)60年代中期到70年代末期,機器學(xué)習(xí)的發(fā)展步伐幾乎停滯。無論是理論研究還是計算機硬件限制,整個人工智能領(lǐng)域的發(fā)展都遇到了很大的瓶頸,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機因理論缺陷也未能達(dá)到預(yù)期效果而轉(zhuǎn)入低潮。直到偉博斯在神經(jīng)網(wǎng)絡(luò)反向傳播(BP)算法中具體提出了多層感知機模型,機器學(xué)習(xí)得以重振,并且直到今天BP算法仍然是神經(jīng)網(wǎng)絡(luò)架構(gòu)的關(guān)鍵因素。
神經(jīng)網(wǎng)絡(luò)研究人員相繼提出了使用BP算法訓(xùn)練的多參數(shù)線性規(guī)劃的理念,成為后來深度學(xué)習(xí)的基石。在另一個譜系中,昆蘭提出了一種非常出名的機器學(xué)習(xí)算法,具體地說是ID3算法,這種算法至今仍然活躍在機器學(xué)習(xí)領(lǐng)域中。
機器學(xué)習(xí)迎來爆發(fā)期是神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者Hinton在2006年提出了神經(jīng)網(wǎng)絡(luò)Deep Learning算法,使神經(jīng)網(wǎng)絡(luò)的能力大大提高。Hinton和他的學(xué)生 Salakhutdinov在《科學(xué)》上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。
2015年,為紀(jì)念人工智能概念提出60周年,LeCun、Bengio和Hinton推出了深度學(xué)習(xí)的聯(lián)合綜述。深度學(xué)習(xí)可以讓那些擁有多個處理層的計算模型來學(xué)習(xí)具有多層次抽象的數(shù)據(jù)的表示,這些方法在許多方面都帶來了顯著的改善。深度學(xué)習(xí)的出現(xiàn),讓圖像、語音等感知類問題取得了真正意義上的突破,離實際應(yīng)用已如此之近,將人工智能推進(jìn)到一個新時代。
計算機視覺催生出人臉識別、智能視頻監(jiān)控等應(yīng)用
計算機視覺,顧名思義,是分析、研究讓計算機智能化地達(dá)到類似人類的雙眼“看”的一門研究科學(xué),即對于客觀存在的三維立體化的世界的理解以及識別依靠智能化的計算機去實現(xiàn)。
計算機視覺技術(shù)就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別、決策等功能。
馬爾(David Marr)《視覺》一書的問世,標(biāo)志著計算機視覺成為了一門獨立學(xué)科。計算機視覺40多年的發(fā)展中,盡管人們提出了大量的理論和方法,庫卡機器人,但總體上說,計算機視覺經(jīng)歷了三個主要歷程:馬爾計算視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。
目前,在計算機上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。馬爾的計算視覺分為三個層次:計算理論、表達(dá)和算法以及算法實現(xiàn)。由于馬爾認(rèn)為算法實現(xiàn)并不影響算法的功能和效果,所以馬爾計算視覺理論主要討論“計算理論”和“表達(dá)與算法”二部分內(nèi)容。
馬爾認(rèn)為,大腦的神經(jīng)計算和計算機的數(shù)值計算沒有本質(zhì)區(qū)別,所以馬爾沒有對“算法實現(xiàn)”進(jìn)行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進(jìn)展看,“神經(jīng)計算”與數(shù)值計算在有些情況下會產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計算,但總體上說,“數(shù)值計算”可以“模擬神經(jīng)計算”。至少從現(xiàn)在看,“算法的不同實現(xiàn)途徑”,并不影響馬爾計算視覺理論的本質(zhì)屬性。
20世紀(jì)90年代初,計算機視覺從“蕭條”走向“繁榮”,主要得益于以下二方面的因素:一方面,瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域,如遠(yuǎn)程視頻會議、考古、虛擬現(xiàn)實、視頻監(jiān)控等;另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。
多視幾何的代表性人物首數(shù)法國INRIA的O.Faugeras,美國 GE研究院的R.Hartely和英國牛津大學(xué)的A.Zisserman。2000年Hartely和Zisserman合著的書對這方面的內(nèi)容給出了比較系統(tǒng)的總結(jié)。大數(shù)據(jù)需要全自動重建,而全自動重建需要反復(fù)優(yōu)化,而反復(fù)優(yōu)化需要花費大量計算資源。舉一個簡單例子,假如要三維重建北京中關(guān)村地區(qū),為了保證重建的完整性,需要獲取大量的地面和無人機圖像。假如獲取了1萬幅地面高分辨率圖像(4000×3000)、5千幅高分辨率無人機圖像(8000×7000),三維重建要匹配這些圖像,從中選取合適的圖像集,然后對相機位置信息進(jìn)行標(biāo)定并重建出場景的三維結(jié)構(gòu),如此大的數(shù)據(jù)量,人工干預(yù)是不可能的,所以整個三維重建流程必須全自動進(jìn)行。
基于學(xué)習(xí)的視覺,庫卡機器人,則是指以機器學(xué)習(xí)為主要技術(shù)手段的計算機視覺研究;趯W(xué)習(xí)的視覺研究,文獻(xiàn)中大體上分為二個階段:21世紀(jì)初的以流形學(xué)習(xí)為代表的子空間法和目前以深度學(xué)習(xí)為代表的視覺方法。
近年來,巨量數(shù)據(jù)的不斷涌現(xiàn)與計算能力的快速提升,給以非結(jié)構(gòu)化視覺數(shù)據(jù)為研究對象的計算機視覺帶來了巨大的發(fā)展機遇與挑戰(zhàn)性難題,計算機視覺也因此成為學(xué)術(shù)界和工業(yè)界公認(rèn)的前瞻性研究領(lǐng)域,部分研究成果已實際應(yīng)用,催生出人臉識別、智能視頻監(jiān)控等多個極具顯示度的商業(yè)化應(yīng)用。
語音識別被應(yīng)用于工業(yè)、通信、醫(yī)療等行業(yè)