AI根據(jù)“記憶”生成超逼真場景,游戲終于要以假亂真了
最近十多年來,人工神經(jīng)網(wǎng)絡(luò)的研究工作不斷深入,取得了很大的進展:在模式識別、智能機器人、自動控制、預(yù)測估計、生物、醫(yī)學(xué)、經(jīng)濟等領(lǐng)域已成功地解決了許多現(xiàn)代計算機難以解決的實際問題。這一次AI又一次向人類展現(xiàn)了極大的潛能。不僅能記憶,識別,甚至開始自己想像?!斯坦福大學(xué)的陳啟峰利用人工神經(jīng)網(wǎng)絡(luò)生成了現(xiàn)實感極強的虛擬世界。但是,AI的想象要想呈現(xiàn)逼真的效果,不僅要技術(shù),工業(yè)機器人維修,還需大量人力。本文編譯自NewScientist發(fā)表的原題為AIartistconjuresupconvincingfakeworldsfrommemories的文章。
世界不思議
上圖的照片是德國街道的景象。乍看上去像是行車記錄儀拍下的模糊照片,或者是經(jīng)過修圖軟件修過的快照,讓照片看起來有點朦朦朧朧。
然而,你在Google地圖上哪里也找不著這個地方。因為它是由人工神經(jīng)網(wǎng)絡(luò)想象出來并生成的圖像,神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,由它對真實街道的記憶拼接而成。
人工神經(jīng)網(wǎng)絡(luò)是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機系統(tǒng),該系統(tǒng)考其狀態(tài)對外部輸入信息的動態(tài)響應(yīng)來處理信息。
--美國神經(jīng)網(wǎng)絡(luò)學(xué)家HechtNielsen對人工神經(jīng)網(wǎng)絡(luò)的定義
圖中沒有一樣?xùn)|西真實存在。加州斯坦福大學(xué)陳啟峰說。事實上,他的AI通過大致的布局,知道圖中每一個部分大概是什么物件。圖像中心可能標記著路,途中其他地方可能寫著樹,車等等。這幅圖是由AI藝術(shù)家用數(shù)字繪制的。
左邊是輸入的圖像語義布局,右邊是生成的圖片
陳啟峰說,這項技術(shù)最終可能用來創(chuàng)造與真實世界非常相似的游戲世界。運用深度學(xué)習(xí)來制作電子游戲或許是我們未來的發(fā)現(xiàn)。他已經(jīng)開始試著用算法來替代俠盜獵車手5的游戲世界了。
要做到逼真前路漫漫
紐約康奈爾大學(xué)的NoahSnavely贊嘆不已。他解釋說,要實現(xiàn)逼真的人工世界是很難的,即使是現(xiàn)有的最棒的技術(shù)也做不到。陳啟峰的系統(tǒng)的成果是他所見過的同類型實驗結(jié)果中規(guī)模最大,細節(jié)最豐富的。
Snavely還說,這項技術(shù)能夠讓人們能夠創(chuàng)造虛擬世界:先由人作描述,再用AI在虛擬現(xiàn)實中搭建這個世界。如果只要通過描述便能夠構(gòu)造現(xiàn)實般逼真的世界,那就太棒了。
陳啟峰的系統(tǒng)首先處理一張它未見過的照片,照片上是現(xiàn)實中存在的街道。但是這張照片上做了標記,所以AI知道哪個部分是車,哪個部分是人,哪個部分是路等等。然后AI就用這張圖的布局作為一個向?qū)В瑏砩梢粡埲碌膱D像。
第一行是輸入的語義布局,第二行是陳啟峰AI得出的結(jié)果,第三行是別的系統(tǒng)得出的結(jié)果,可見陳啟峰的AI得出的結(jié)果更具實感
這個AI接受三千張德國接到圖片的訓(xùn)練后,當它處理到照片上標記這車到地方學(xué)習(xí),庫卡機器人何服電機維修,他就用已有知識來獨立生成一輛車。我們想讓這個網(wǎng)絡(luò)記住他在數(shù)據(jù)中曾經(jīng)看過什么。陳啟峰說。
英特爾的研究人員將在今年10月末在意大利威尼斯舉行的計算機視覺*國際大會上展示他們的成果。
如夢如幻似真非真
還有一個較小的室內(nèi)家居數(shù)據(jù)庫用以訓(xùn)練和測試這個算法,Snavely覺得要發(fā)揮這個算法的潛能,需要一個能夠真實反映世界多樣性的數(shù)據(jù)集。但是,說起來容易做起來難,因為用于訓(xùn)練的圖像中每個成分都需要人力親手進行標記,即使是創(chuàng)造一個較小的數(shù)據(jù)集,由于其細節(jié)豐富,也需要大量人力。
最左側(cè)是給AI提供的語義布局,庫卡機器人,左二是AI得出的結(jié)果。右邊三列是其他不同質(zhì)量的效果。
陳啟峰說,他的系統(tǒng)還需要經(jīng)過漫長的努力才能夠打造真實的世界。目前它生成的圖像仍然朦朦朧朧,亦真亦幻,因為神經(jīng)網(wǎng)絡(luò)還無法將我們期待的細節(jié)巨細無遺地填充到照片中。陳啟峰已經(jīng)開始開發(fā)一個規(guī)模更大的系統(tǒng),希望新系統(tǒng)的功能更完善。
然而,在虛擬現(xiàn)實中構(gòu)建場景時,或許朦朦朧朧的質(zhì)感并不是件壞事。Snavely說,我們對電影和游戲中精細現(xiàn)實的場景已經(jīng)見怪不怪,習(xí)以為常,但是大家對虛擬現(xiàn)實精細程度沒有抱有那么高的期待。不需要做到完全跟現(xiàn)實一樣
*計算機視覺是一個跨學(xué)科領(lǐng)域,涉及如何使計算機理解數(shù)字圖像或視頻。從工程學(xué)的角度來看,它的目標是將人類視覺系統(tǒng)的功能自動化。計算機視覺任務(wù)包括一系列方法,讓計算機能獲取、處理、分析和理解數(shù)字圖像以及從真實世界中提取的高維數(shù)據(jù),從而產(chǎn)生數(shù)字或符號信息。理解這個環(huán)境,意味著視覺圖象(視網(wǎng)膜的輸入)轉(zhuǎn)換成對世界的描述,這些描述可以與其他思考過程接口并引發(fā)適當?shù)男袆印_@種對圖像的理解,可看做是用幾何、物理、統(tǒng)計學(xué)和學(xué)習(xí)理論構(gòu)建出模型來解析圖像數(shù)據(jù)中符號信息。計算機視覺的子域包括場景重建、事件檢測、視頻跟蹤、目標識別、3D位姿估計、學(xué)習(xí)、索引、運動估計和圖像恢復(fù)。