這臺對世界好奇的機(jī)器,竟然還玩起了超級馬里奧?
十年前我們就能讓機(jī)器人完成那些可以被完美建模的任務(wù)了,那些機(jī)器人完美地運(yùn)轉(zhuǎn)在工廠的車間里,完成一個(gè)特定的操作。但真正的人工智能需要在一個(gè)無法被建模的情境中,走出去,學(xué)會(huì)獨(dú)自探索需要完成什么任務(wù)。這就是「好奇心」,是通向強(qiáng)人工智能的必經(jīng)之路。
你也許不記得自己第一次玩超級馬里奧兄弟時(shí)的感受了,但是讓我們試著回想這個(gè)8-bit的游戲世界閃亮登場:淡藍(lán)色的天空,有紋路的石頭地面,一個(gè)矮胖的、紅色著裝的小人靜靜站在那里。他面朝右邊:你將他朝右推動(dòng)。走幾步之后便會(huì)有一排磚頭在頭頂盤旋,上面盤旋著一堆「憤怒的蘑菇」。游戲手柄的另一個(gè)按鍵能夠讓那個(gè)小人兒跳起來,他的四個(gè)像素大的拳頭指向天空。然后呢?或許是把「向右」和「跳躍」動(dòng)作結(jié)合起來。好了,驚喜不驚喜:他會(huì)用自己的頭部撞擊懸浮在空中的磚塊,磚塊會(huì)像裝了彈簧一樣迅速向上彎曲并且彈回,把小人兒彈向正在靠近的蘑菇的身上,將其迅速壓平。馬里奧輕輕地從被征服的蘑菇身上跳開。然后出現(xiàn)一個(gè)帶有問號的棕色的對話框,似乎在問,「現(xiàn)在呢?」
對于20世紀(jì)80年代長大的人來說,這個(gè)場景特別熟悉,但你可以在PulkitAgrawal的YouTube頻道上看到更年輕的玩家。加利福尼亞大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)研究員Agrawal正在研究天生的好奇心如何讓學(xué)習(xí)完成一個(gè)不熟悉的任務(wù)的過程更有效率就像你第一次玩超級馬里奧兄弟一樣。重點(diǎn)是,Agrawal的視頻中的新手玩家不是人類,甚至是沒有生命的。它就像馬里奧一樣,僅僅是一個(gè)軟件。但是這個(gè)軟件配備了Agrawal和他在伯克利人工智能研究實(shí)驗(yàn)室(BAIR)的其他同事DeepakPathak,AlexeiA.Efros和TrevorDarrell一起開發(fā)的實(shí)驗(yàn)性機(jī)器學(xué)習(xí)算法。這個(gè)算法有一個(gè)讓人驚嘆的目標(biāo):讓機(jī)器具有好奇心。
Agrawal說,「你可以把好奇心想象成是智能體內(nèi)部自動(dòng)生成的一種獎(jiǎng)勵(lì),有了好奇心之后它們可以更進(jìn)一步的探索這個(gè)世界」。這個(gè)內(nèi)部生成的獎(jiǎng)勵(lì)信號在認(rèn)知心理學(xué)中被稱為「內(nèi)在激勵(lì)」。這種感覺你或許在讀我寫的游戲描述時(shí)有間接的體會(huì)就是一種想要看看視野之外有什么的欲望,或者想要走出你的能力范圍,去看一下到底會(huì)發(fā)生什么這就是內(nèi)在激勵(lì)。
人類也會(huì)響應(yīng)源于外界環(huán)境的外在激勵(lì)。這類例子包括你從工作中獲得的薪水、你必須在特定時(shí)點(diǎn)完成的需求等。計(jì)算機(jī)科學(xué)家利用一種類似的,被稱為「強(qiáng)化學(xué)習(xí)」的方法來訓(xùn)練他們的算法:軟件程序在按照被期望的方式執(zhí)行任務(wù)的時(shí)候會(huì)得到「分?jǐn)?shù)」,然而在以不被期望的方式執(zhí)行的時(shí)候會(huì)受到懲罰。
但是這種胡蘿卜加大棒的方法對機(jī)器學(xué)習(xí)而言是有局限性的,并且人工智能研究者開始將內(nèi)在激勵(lì)視為能夠高效靈活學(xué)習(xí)的軟件智能體的一項(xiàng)重要組成部分,也就是說,它們不太像脆弱的機(jī)器,而是更像人類和動(dòng)物一樣。在人工智能中使用內(nèi)在激勵(lì)的方法受啟發(fā)于心理學(xué)和神經(jīng)生物學(xué)幾以及那些有數(shù)十年歷史的原始人工智能研究,現(xiàn)在重新變得有用了起來。(「機(jī)器學(xué)習(xí)領(lǐng)域里無新鮮事!筄penAI研究員ReinHouthooft如是說。)
這種智能體現(xiàn)在已經(jīng)可以被訓(xùn)練用于視頻游戲中,但是開發(fā)「具有好奇心」的人工智能的吸引力超越任何現(xiàn)有工作。伯克利人工智能實(shí)驗(yàn)室的聯(lián)合主管Darrell說,「你列舉一個(gè)你最喜歡的應(yīng)用領(lǐng)域,我會(huì)給出一個(gè)例子」!冈诩依,我們希望自動(dòng)化地清理房間、收拾東西。在物流領(lǐng)域,我們希望貨物能被自動(dòng)化地搬運(yùn)、完成各種操作。我們希望汽車能夠在復(fù)雜的環(huán)境中自動(dòng)駕駛,我們希望救援機(jī)器人能夠在建筑里搜救需要幫助的人。在所有這些例子中,我們都在嘗試解決這個(gè)非常棘手的問題:你如何創(chuàng)造一臺能夠自己想明白要完成什么的任務(wù)機(jī)器?」
「打分」問題
強(qiáng)化學(xué)習(xí)是讓Google的AlphaGo軟件得以在圍棋中戰(zhàn)勝人類玩家的利器。在此之前,圍棋作為一款古老的直覺游戲,向來被認(rèn)為是機(jī)器無法企及的。如何在特定的領(lǐng)域成功使用強(qiáng)化學(xué)習(xí)的細(xì)節(jié)是很復(fù)雜的,但是通用的思想是簡單的:給算法或者「智能體」一個(gè)獎(jiǎng)勵(lì)函數(shù),一個(gè)用數(shù)學(xué)方法定義的信號來追尋并最大化。然后把它自由地置于一個(gè)環(huán)境中,可以是任何的虛擬世界或者現(xiàn)實(shí)世界。隨著智能體在環(huán)境中運(yùn)行,能夠增加獎(jiǎng)勵(lì)函數(shù)的值的動(dòng)作會(huì)被強(qiáng)化。只要有足夠多的重復(fù)如果說計(jì)算機(jī)在某一件事上百分百勝過人類,KUKA機(jī)器人示教器維修,那就是重復(fù)智能體就會(huì)學(xué)會(huì)這個(gè)動(dòng)作的模式或者策略,以最大化它的激勵(lì)函數(shù)。理想情況下,這些策略會(huì)導(dǎo)致智能體達(dá)到期望的最終狀態(tài)(例如在圍棋游戲中獲勝),在這個(gè)過程中程序員或者工程師不必在智能體進(jìn)化的每一步都手動(dòng)編碼。
換句話說,一個(gè)獎(jiǎng)勵(lì)函數(shù)就是能夠讓配備了強(qiáng)化學(xué)習(xí)算法的智能體能夠鎖定目標(biāo)的指導(dǎo)系統(tǒng)。目標(biāo)定義得越是清晰,智能體就運(yùn)行得越好這就是為什么目前很多智能體都是在較老的視頻游戲上做測試的原因,因?yàn)檫@些游戲都有基于分?jǐn)?shù)的明確獎(jiǎng)勵(lì)制度。(游戲的塊狀的、二維的圖像也是研究者選擇它們的理由:因?yàn)橛螒蛳鄬Ρ容^容易模仿,研究者可以快速地運(yùn)行并測試他們的實(shí)驗(yàn)。)
加州伯克利的計(jì)算機(jī)科學(xué)家PulkitAgrawal
Agrawal說,「然而現(xiàn)實(shí)世界中并沒有分?jǐn)?shù)」。計(jì)算機(jī)科學(xué)家希望讓他們創(chuàng)造的智能體去探索一個(gè)不是預(yù)加載了可量化對象的世界。
此外,如果環(huán)境沒有快速并且有規(guī)則地提供顯式的激勵(lì),那么智能體「就沒有一個(gè)用來判斷它是否做得正確的準(zhǔn)則」,Houthooft說。就像熱引導(dǎo)的導(dǎo)彈不能鎖定目標(biāo)一樣,「它沒有任何自己通過環(huán)境引導(dǎo)自己的方法,所以只能亂飛」。
最后,即使是煞費(fèi)苦心定義的激勵(lì)函數(shù)能夠指導(dǎo)智能體表現(xiàn)出不同凡響的智能行為就像AlphaGo打敗頂級人類玩家一樣這種激勵(lì)函數(shù)也不可能在未經(jīng)大量修訂的情況下遷移到任何其他情境中。并且,這種修改必須是人工完成的,確切地說這就是機(jī)器學(xué)習(xí)首先應(yīng)該幫助人類完成的事。
除了像導(dǎo)彈一樣能夠可靠地命中目標(biāo)的偽人工智能體之外,我們真正想要從人工智能獲得的更像是一種內(nèi)部引導(dǎo)能力!改闶强梢宰约航o自己創(chuàng)造激勵(lì)的對吧?」Agrawal說,「并不存在一個(gè)天天指導(dǎo)你做這件事要『加1』或者『減1』的神」。
好奇心作為協(xié)同引導(dǎo)力
DeepakPathak從未嘗試過給「好奇心」這么虛無縹緲的概念建模!浮汉闷嫘摹灰辉~指的是『引導(dǎo)一個(gè)智能體在存在噪聲的環(huán)境中有效地探索的模型』」。隸屬于伯克利Darrell的實(shí)驗(yàn)室研究員Pathak如是說。
但是在2106年,Pathak著迷于強(qiáng)化學(xué)習(xí)中的稀疏獎(jiǎng)勵(lì)問題。含有強(qiáng)化學(xué)習(xí)技術(shù)的深度學(xué)習(xí)軟件最近在玩分?jǐn)?shù)驅(qū)動(dòng)的雅達(dá)利游戲(比如太空入侵者和打磚塊)中獲得了顯著的進(jìn)步。但是在像超級馬里奧兄弟一樣的稍微復(fù)雜的游戲就超出人工智能的能力范圍了。因?yàn)樵谶@些復(fù)雜的場景需要在時(shí)間和空間上朝著一個(gè)遙遠(yuǎn)的目標(biāo)前進(jìn),而且沒有一個(gè)明確的獎(jiǎng)勵(lì),更不用說學(xué)習(xí)并成功地執(zhí)行游戲中的組合動(dòng)作(例如在奔跑中同時(shí)跳躍)。