科大訊飛胡郁:中美將迎來人工智能巔峰對(duì)決
迄今為止,宇宙的壽命是138億年,地球是40億年,機(jī)器人維修,而從猿進(jìn)化到人,我們用了300多萬年的時(shí)間。而機(jī)器人用了多長(zhǎng)時(shí)間呢?1940年以來,從人工智能之父圖靈開始,大批的科學(xué)家們就在不停地考慮,在數(shù)字宇宙當(dāng)中,是不是可以真正產(chǎn)生人工智能和生命。
人工智能自1956年被命名開始,到現(xiàn)在,僅僅經(jīng)過了60多年的發(fā)展歷程。與人類智慧相比,可以說只是一瞬間的事情。并且,這一過程也并不是一帆風(fēng)順的,它經(jīng)歷了三個(gè)大的發(fā)展浪潮。中國(guó)非常幸運(yùn)地趕上了第二次和第三次。
人工智能的第二次浪潮發(fā)生在上世紀(jì)的八九十年代。當(dāng)時(shí),中國(guó)的863計(jì)劃啟動(dòng),科大訊飛的前身中國(guó)科學(xué)技術(shù)大學(xué)語音研究評(píng)測(cè)實(shí)驗(yàn)室在這一契機(jī)之下,成為了國(guó)家863項(xiàng)目之一,為中國(guó)培育出了一批研究人員和相關(guān)技術(shù)成果。
人工智能的第三次浪潮是21世紀(jì)前十年的事。當(dāng)世界再一次進(jìn)入到一個(gè)新的產(chǎn)業(yè)化浪潮之中,中國(guó)又非常幸運(yùn)地積累了有關(guān)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)的產(chǎn)業(yè)基礎(chǔ),這也恰恰是科大訊飛所需要的。所以說,如今,在人工智能領(lǐng)域爭(zhēng)霸的基本上都是中美兩國(guó)的企業(yè)。包括科大訊飛在內(nèi),都是在1999年,也就是第二次浪潮和第三次浪潮之間的低谷成立并發(fā)展起來的。盡管與人類歷史相比,人工智能是非常短暫的,但是對(duì)人能智能的研究卻是非常長(zhǎng)周期的科技創(chuàng)新方向,它需要十年磨一劍,需要我們具有板凳能坐十年冷的精神,然后才能在原始的核心技術(shù)系統(tǒng)創(chuàng)新的基因和工程能力方面實(shí)現(xiàn)厚積薄發(fā)。
人工智能與機(jī)器自主決策并無關(guān)聯(lián)
最近五六年,隨著人工智能從尖端科研領(lǐng)域逐漸走進(jìn)人們的視野,社會(huì)上對(duì)它的討論也多了起來。有人說,如果做得不好,人工智能將會(huì)毀滅人類。但是我的觀點(diǎn)是,現(xiàn)在我們研究所謂的人工智能,其實(shí)只是對(duì)工業(yè)界而言的。在工程層面上講,這也是為工業(yè)界所推崇的方向。原因是什么呢?因?yàn)樗軌蚪鉀Q實(shí)際的任務(wù)。但是,在真正研究人工智能理論、數(shù)學(xué)和概率的專家看來,我們所研究的深度神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)并不是機(jī)器學(xué)習(xí)的最好方法。這種基于工程研究的深度神經(jīng)網(wǎng)絡(luò)算法和機(jī)器意識(shí),或者說能夠讓機(jī)器產(chǎn)生自主決策的思路并無關(guān)聯(lián)。所以,從這一點(diǎn)上講,我們不用擔(dān)心人工智能會(huì)毀滅人類。
但是仍然有很多人對(duì)此抱有疑問。他們會(huì)說,人工智能已經(jīng)打敗了人類最頂級(jí)的棋手,工業(yè)機(jī)器人維修,那么隨著它的發(fā)展,將來,我們所有工作是不是終將被人工智能所取代?人類會(huì)不會(huì)成為無用的存在呢?這就要看人工智能所擅長(zhǎng)的領(lǐng)域是什么,以及它在哪些方面能夠替代人類技能。過去幾年,科大訊飛一直提倡的是,我們應(yīng)該把人工智能由強(qiáng)到弱、將人類智慧由弱到強(qiáng)地分解為很多不同的方面,并且從不同的角度去談?wù)撊斯ぶ悄堋?/p>
比如,我們知道,機(jī)器從發(fā)明的第一天開始就特別擅長(zhǎng)運(yùn)算,所以,對(duì)于很多信息完全公開的任務(wù),www.whsntf.cn,機(jī)器在運(yùn)算智能上擁有絕對(duì)的優(yōu)勢(shì)。但是,人和動(dòng)物所擁有的智能,比如在感知智能和運(yùn)動(dòng)智能方面,機(jī)器和機(jī)器人與人類的差距還相當(dāng)大。尤其是對(duì)于人類來說,我們?cè)谡J(rèn)知智能方面要遠(yuǎn)遠(yuǎn)高于動(dòng)物,所以能夠理解語言,能夠?qū)W習(xí)知識(shí),能夠進(jìn)行邏輯推理。AlphaGo雖然可以戰(zhàn)勝李世石九段,但是它無法理解人類的情感和理念。所以在這一點(diǎn)上,機(jī)器更無法與人類匹敵。
因此,科大訊飛認(rèn)為,當(dāng)前人工智能急需突破的是恰恰是人類區(qū)別于動(dòng)物的最本質(zhì)的智能,即認(rèn)知智能。簡(jiǎn)單地說,就是從感知的能聽會(huì)說到認(rèn)知的會(huì)理解、會(huì)思考。像教師、醫(yī)生等等職業(yè),是要通過大量的讀書、學(xué)習(xí),基于對(duì)文字的理解,基于邏輯思維的加工才能實(shí)現(xiàn)對(duì)專業(yè)能力的掌握。如果讓人工智能也擁有這樣的能力,就必須依賴于機(jī)器認(rèn)知智能的進(jìn)步。目前,科大訊飛對(duì)超腦技術(shù)的研究就是基于這樣的方向。
人工智能對(duì)產(chǎn)品的改造
目前,中國(guó)的機(jī)器在感知智能和認(rèn)知智能方面已經(jīng)取得了一些不錯(cuò)的成果。在國(guó)際最高水平的語音合成大賽上,中國(guó)的人工智能系統(tǒng)已經(jīng)連續(xù)12年處于國(guó)際最領(lǐng)先的水平。我們可以讓機(jī)器說英文,還可以用奧巴馬的嗓音來說中文。在英文的語音識(shí)別大賽上,科大訊飛有三個(gè)語音識(shí)別指標(biāo)獲得了第一名的成績(jī)。更重要的是,在研究和工程領(lǐng)域,我們都運(yùn)用了大量的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)。這是我們?cè)趪?guó)際上一些最新的進(jìn)展。但是,掌握這些技術(shù)并不代表著我們就知道如何在各種場(chǎng)景之下,用最正確的去使用人工智能。
所以,很多人會(huì)問,人工智能到底會(huì)在哪些方面改變我們的生活呢?有人會(huì)說,人工智能可以幫助我們駕駛汽車,可以幫助我們照顧小孩,等等。如果把它高度抽象起來,我覺得無外乎兩個(gè)方面:
第一個(gè)方面,我們都知道,生活中有大量的產(chǎn)品和服務(wù)。人工智能第一個(gè)作用就是用它特有的方法改變這些產(chǎn)品和服務(wù)本身。比如說汽車,我們可以讓它更聰明、更懂我們,從而實(shí)現(xiàn)自動(dòng)駕駛;我們可以讓手機(jī)理解我們的意思,能夠看懂我們的表情,等等。所以,不管是一針、一物,還是各種各樣的產(chǎn)品本身,人工智能都可以讓它們很自然地與我們進(jìn)行交互,讓產(chǎn)品更懂人。人工智能通過自我學(xué)習(xí)的方法,在很大程度上改變了產(chǎn)品和服務(wù)的生產(chǎn)過程,從而改變了整個(gè)世界。同時(shí),因?yàn)樵诋a(chǎn)品和服務(wù)的生產(chǎn)過程中,人工智能能夠利用其本身學(xué)習(xí)專家系統(tǒng)的能力,替換掉大量的行業(yè)專家或有經(jīng)驗(yàn)的工人,并在這些行業(yè)中不斷生產(chǎn)出具有人工智能性能的產(chǎn)品和服務(wù)。
第二個(gè)方面,人工智能率先將產(chǎn)品模式定義為交互而非操作。在工業(yè)革命時(shí)期,人類是通過學(xué)習(xí)的方法來適應(yīng)機(jī)器的,但是在人工智能時(shí)代,這種模式被顛倒了過來。機(jī)器可以自動(dòng)學(xué)習(xí)人類的習(xí)慣,比如原來我們需要學(xué)習(xí)打字技術(shù),要學(xué)習(xí)如何使用鼠標(biāo),但慢慢地我們會(huì)發(fā)現(xiàn),人類只要通過觸摸就可以讓機(jī)器理解我們的意思,并像我們所需要的那樣去執(zhí)行。語音與視覺的交互
有一個(gè)非常有意思的事情。通常認(rèn)為,人類80%的信息來源是通過眼睛獲取的,那么,計(jì)算機(jī)視覺對(duì)人類而言是不是更為重要呢?在這一點(diǎn)上,我的觀點(diǎn)恰恰相反。我認(rèn)為,視覺識(shí)別還遠(yuǎn)遠(yuǎn)達(dá)不到語音識(shí)別的重要程度。為什么這么說呢?不知道大家注意到?jīng)]有,目前的智能設(shè)備都有一個(gè)大的顯示屏,顯示屏中有各種各樣圖形。人類擁有非常強(qiáng)大的圖形語義理解能力,所以,人類能夠識(shí)別出任何一個(gè)圖形所表達(dá)的語義,能夠快速地理解機(jī)器通過顯示屏呈現(xiàn)出來的圖片的含義。但是反過來,人卻沒有顯示屏。所以說,就算機(jī)器擁有非常強(qiáng)大的圖形理解能力,但人類卻不是通過跳舞或者繪畫的方式與機(jī)器進(jìn)行交互的。人類的信息不會(huì)通過圖形來傳遞,因此,讓機(jī)器通過識(shí)別人腦中的圖像來理解人類,這似乎不太現(xiàn)實(shí)。