AI現(xiàn)在還僅僅是“物理學(xué)出現(xiàn)之前的工程學(xué)”
科技評(píng)論網(wǎng)站日前發(fā)表文章,介紹了深度學(xué)習(xí)的發(fā)展趨勢(shì)及其局限。雖然深度學(xué)習(xí)已經(jīng)是當(dāng)前的一股熱潮,也取得了不少成果,但業(yè)界人士指出,目前的深度學(xué)習(xí)就像是物理學(xué)出現(xiàn)之前的工程學(xué)。以下為原文摘要:
人工智能(AI)領(lǐng)域的每一個(gè)進(jìn)步,都有賴于30年前的一個(gè)突破。要保持AI進(jìn)步的節(jié)奏,就需要突破這個(gè)領(lǐng)域的一些重大局限。
AI領(lǐng)域的愛因斯坦
矢量研究所(VectorInstitute)位于加拿大多倫多的市中心,將于今年秋天開業(yè),它旨在成為全球AI中心舞臺(tái)。美國(guó)和加拿大公司(比如谷歌(微博)、Uber和Nvidia)將在這個(gè)研究所贊助商業(yè)化AI技術(shù)的努力。
資金的涌入比該中心的聯(lián)合創(chuàng)始人喬丹o雅各布斯(JordanJacobs)設(shè)想的更快。該中心另外兩位聯(lián)合創(chuàng)始人對(duì)多倫多地區(qū)的公司進(jìn)行了調(diào)查,發(fā)現(xiàn)該地區(qū)對(duì)AI專家的需求,是加拿大每年培養(yǎng)的專家人數(shù)的10倍。全球正在興起一股深度學(xué)習(xí)的熱潮,而這個(gè)研究所希望站在這股潮流中心聚焦于這種技術(shù),傳授它,改進(jìn)它,并且應(yīng)用它。數(shù)據(jù)中心正在建設(shè)中,初創(chuàng)公司紛至沓來,學(xué)生們正在入場(chǎng)。
而深度學(xué)習(xí)之父喬弗里o辛頓(GeoffreyHinton)也住在多倫多。雅各布斯說:再過30年,我們回頭來看,就會(huì)說辛頓是AI和深度學(xué)習(xí)領(lǐng)域的愛因斯坦。
辛頓的弟子們?cè)谔O果、Facebook和OpenAI主管AI實(shí)驗(yàn)室,辛頓自己是谷歌大腦(GoogleBrain)AI團(tuán)隊(duì)的首席科學(xué)家。事實(shí)上,AI的最近十年來的幾乎每一個(gè)成就翻譯、語音識(shí)別、圖像識(shí)別和游戲玩法都和辛頓奠定的基礎(chǔ)分不開。
深入學(xué)習(xí)的主要理念其實(shí)在30年前就已經(jīng)提出。辛頓與同事戴維o羅姆哈特(DavidRumelhart)、羅蘭德o威廉姆斯(RonaldWilliams)在1986年發(fā)表了一篇突破性的文章,詳細(xì)闡述了一種稱為反向傳播的技術(shù)。用普林斯頓大學(xué)的計(jì)算心理學(xué)家喬o科恩(JonCohen)的話來說,這種技術(shù)是所有深度學(xué)習(xí)的基礎(chǔ)。
這篇1980年代中期的文章介紹了如何訓(xùn)練多層次神經(jīng)網(wǎng)絡(luò)。它為近十年來AI領(lǐng)域的發(fā)展進(jìn)步奠定了基礎(chǔ)。
深度學(xué)習(xí)就是反向傳播
如今從某種角度上說,AI就是深度學(xué)習(xí),而深度學(xué)習(xí)就是反向傳播。你可能感到不可思議,一個(gè)技術(shù)怎么蟄伏了這么長(zhǎng)時(shí)間,KUKA機(jī)器人示教器維修,然后突然出現(xiàn)了爆發(fā)式的崛起。一個(gè)觀點(diǎn)是:也許我們現(xiàn)在并不是處在一場(chǎng)革命的開始階段,而是在進(jìn)入它的尾聲。
辛頓來自英國(guó),曾在匹茲堡的卡內(nèi)基梅隆大學(xué)工作,1980年代搬到了多倫多。他喜歡這座城市的氛圍。
辛頓說,他最近在一個(gè)項(xiàng)目上取得了重大突破,找到了一個(gè)非常好的初級(jí)工程師,跟我一起工作,這個(gè)女工程師名叫薩拉o薩福,是伊朗人,她在美國(guó)申請(qǐng)工作簽證被拒絕了。谷歌在多倫多的辦公室接受了她。
在1980年代,辛頓已經(jīng)是神經(jīng)網(wǎng)絡(luò)專家。神經(jīng)網(wǎng)絡(luò)是一個(gè)大大簡(jiǎn)化的大腦神經(jīng)元和突觸網(wǎng)絡(luò)模型。雖然最早的神經(jīng)網(wǎng)絡(luò)感知器(Perceptron)在1950年代就開始開發(fā),也被譽(yù)為邁向人機(jī)智能的第一步,但是到了80年代,業(yè)界堅(jiān)定地認(rèn)為神經(jīng)網(wǎng)絡(luò)是AI研究的死胡同。
1969年,麻省理工學(xué)院的MarvinMinsky和SeymourPapert在一本名為《感知器》的書中,用數(shù)學(xué)證明了這樣的網(wǎng)絡(luò)只能執(zhí)行最基本的功能。這種網(wǎng)絡(luò)只有兩層神經(jīng)元,一個(gè)輸入層和一個(gè)輸出層。如果一個(gè)網(wǎng)絡(luò)在輸入和輸出神經(jīng)元之間有更多的層,那么它在理論上可以解決很多不同的問題,只是沒有人知道如何訓(xùn)練它們,所以在實(shí)踐中,這些神經(jīng)網(wǎng)絡(luò)是沒用的。除了辛頓等寥寥幾個(gè)人之外,《感知器》使得大多數(shù)人都完全放棄了神經(jīng)網(wǎng)絡(luò)。
1986年,辛頓取得突破,顯示反向傳播可以訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò)(超過兩三層的神經(jīng)網(wǎng)絡(luò))。但是又花了26年時(shí)間,計(jì)算能力才發(fā)展到了可以好好利用這個(gè)突破的程度。辛頓和他的兩個(gè)學(xué)生的2012年發(fā)表論文,顯示反向傳播訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中擊敗了最先進(jìn)的系統(tǒng)。深度學(xué)習(xí)從此成為一股熱潮。在外界看來,AI似乎是在一夜之間蓬勃發(fā)展起來的。但對(duì)于辛頓來說,這卻是一個(gè)遲來的爆發(fā)。
神經(jīng)網(wǎng)絡(luò)的原理
神經(jīng)網(wǎng)絡(luò)通常被描述成一個(gè)多層三明治,層層疊疊。這些層里包含著人造神經(jīng)元,指的是微小的計(jì)算單位,它可以受到激發(fā)(就像真正的神經(jīng)元會(huì)被激發(fā)那樣),然后將興奮度傳遞給它所連接的其他神經(jīng)元。神經(jīng)元的興奮度由數(shù)字來代表,比如0.13或32.39。另外,在每?jī)蓚(gè)神經(jīng)元之間的連接上,還有一個(gè)關(guān)鍵數(shù)字,決定了多少興奮度可以從一個(gè)神經(jīng)元傳遞到另一個(gè)。這個(gè)數(shù)字是在模擬大腦神經(jīng)元之間突觸的給力程度。當(dāng)這個(gè)數(shù)字比較高時(shí),就意味著兩個(gè)神經(jīng)元之間的連接更強(qiáng),可以把更多的興奮度傳遞給對(duì)方。
深層神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一就是在圖像識(shí)別中,該團(tuán)隊(duì)開發(fā)了一個(gè)程序,可以判斷圖片中是否有熱狗。在十年前,這樣的程序是不可能實(shí)現(xiàn)的。開發(fā)這種程序的第一步是找到一張照片。為了簡(jiǎn)單起見,你可以使用一張黑白圖像,100像素寬,100像素高。你把這張圖像輸入到神經(jīng)網(wǎng)絡(luò)也就是給輸入層中每個(gè)模擬神經(jīng)元設(shè)置興奮度,使之和每個(gè)像素的亮度吻合。這個(gè)多層三明治的底層就是10000個(gè)神經(jīng)元(100x100),代表圖像中每個(gè)像素的亮度。
然后,你將這一層神經(jīng)元連接到上面的另一層神經(jīng)元層(有幾千個(gè)神經(jīng)元),再繼續(xù)連一層神經(jīng)元層(也有幾千個(gè)神經(jīng)元),如此這般。最后,在這個(gè)三明治的最上層是輸出層,它只有兩個(gè)神經(jīng)元,一個(gè)代表有熱狗,另一個(gè)代表沒有熱狗。其理念就是讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)只有當(dāng)圖片里有熱狗的時(shí)候,才會(huì)激發(fā)有熱狗的神經(jīng)元,只有在圖片里沒有熱狗的時(shí)候,才會(huì)激發(fā)沒有熱狗的神經(jīng)元。反向傳播就是做到這一點(diǎn)的方法。
如何使用反向傳播技術(shù)
反向傳播本身非常簡(jiǎn)單,盡管它在有大量數(shù)據(jù)可用的情況下效果最好。這就是為什么大數(shù)據(jù)在AI中如此重要的原因以及為什么Facebook和谷歌如此渴望數(shù)據(jù)的原因。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,你需要使用數(shù)以百萬計(jì)的圖片,一些有熱狗,一些沒有。而訣竅就是那些有熱狗的圖片被標(biāo)記為有熱狗。在一個(gè)初始神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元之間的連接權(quán)重(表示每個(gè)連接傳遞的興奮度的多少)可能是隨機(jī)數(shù),就好像是大腦的突觸還沒有調(diào)整好。反向傳播的目標(biāo)是改變這些權(quán)重,讓神經(jīng)網(wǎng)絡(luò)可以獲得很好的效果:當(dāng)你將熱狗的圖片輸入到最低層時(shí),最頂層的有熱狗神經(jīng)元最終會(huì)變得興奮起來。
假設(shè)你選取的第一幅訓(xùn)練圖片里是一架鋼琴。你將這個(gè)100x100圖像中的像素強(qiáng)度轉(zhuǎn)換為10000個(gè)數(shù)字,正好分給網(wǎng)絡(luò)底層中的10000個(gè)神經(jīng)元。然后興奮度根據(jù)相鄰神經(jīng)元層之間的連接權(quán)重在這個(gè)網(wǎng)絡(luò)上過濾,到達(dá)最后一層判斷圖片中是否有熱狗的兩個(gè)神經(jīng)元。由于圖片是鋼琴,在理想情況下,有熱狗神經(jīng)元應(yīng)該得出一個(gè)0,而沒有熱狗神經(jīng)元應(yīng)該得出很高的數(shù)字。但是我們假設(shè)這個(gè)神經(jīng)網(wǎng)絡(luò)效果不好,對(duì)這張照片得出了錯(cuò)誤結(jié)論。這時(shí)你就使用反向傳播技術(shù),來重新調(diào)整網(wǎng)絡(luò)中每個(gè)連接的權(quán)重,以便修正錯(cuò)誤。