微軟AI單憑文字就可作畫(huà),誰(shuí)最先受到?jīng)_擊?
當(dāng)Google的AI正在涂鴉時(shí),微軟的繪畫(huà)AI已經(jīng)學(xué)會(huì)如何畫(huà)鳥(niǎo)了。
馬云曾說(shuō):三十年后,《時(shí)代》雜志封面年度最佳CEO說(shuō)不定是個(gè)機(jī)器人。
機(jī)器人CEO可能還需等待,但機(jī)器人繪畫(huà)師已經(jīng)在路上。
當(dāng)Google的AI正在涂鴉時(shí),微軟的繪畫(huà)AI已經(jīng)學(xué)會(huì)如何畫(huà)鳥(niǎo)了。近日,微軟對(duì)外宣稱正計(jì)劃推出一項(xiàng)新的人工智能技術(shù)繪圖機(jī)器人(drawingbot)。使用者僅需說(shuō)出想要繪制物體的名稱,機(jī)器人便可以進(jìn)行相關(guān)素材的匹配,也就是說(shuō),未來(lái)可以通過(guò)口述的方式進(jìn)行繪畫(huà),工業(yè)機(jī)器人維修,說(shuō)啥畫(huà)啥。
人工智能系統(tǒng)單純透過(guò)文字描述就能夠創(chuàng)作圖像,該技術(shù)在文字描述中尋找關(guān)鍵字詞,然后再用來(lái)創(chuàng)作高畫(huà)質(zhì)的圖像,據(jù)悉這個(gè)關(guān)注重點(diǎn)的技巧讓圖像的畫(huà)質(zhì)較之前提升3倍。
隨著人工智能時(shí)代的到來(lái),藝術(shù)與科技的碰撞,越來(lái)越頻繁地現(xiàn)身熱門話題榜。AI看文作畫(huà)的技術(shù)展現(xiàn)了具有藝術(shù)表現(xiàn)力的潛能,對(duì)藝術(shù)創(chuàng)作的影響已經(jīng)可以預(yù)見(jiàn)。但微軟的繪畫(huà)AI,在撬動(dòng)智能體想象力方面,意義絕對(duì)不只是藝術(shù)助手所能概括的。
所以,AI口述繪畫(huà)這件事,不可小瞧!
什么是AI口述繪畫(huà)
AI口述繪畫(huà),看起來(lái)好像是機(jī)器接受人類指令給出圖畫(huà),但遠(yuǎn)遠(yuǎn)不止這么簡(jiǎn)單。智能相對(duì)論了解到,正如負(fù)責(zé)研發(fā)的Microsoft深度學(xué)習(xí)技術(shù)首席研究員何曉東說(shuō)的,圖像是人工智能由零開(kāi)始,逐像素逐像素創(chuàng)作。他以一幅人工智能創(chuàng)作的黃色雀鳥(niǎo)圖像做解說(shuō),表示人工智能分析文字后,再透過(guò)一項(xiàng)名為生成對(duì)抗性網(wǎng)絡(luò)(GAN,GenerativeAdversarialNetwork)的技術(shù)將文字轉(zhuǎn)化成圖像,人工智能創(chuàng)作的黃色雀鳥(niǎo)并不一定在現(xiàn)實(shí)世界存在,只是電腦的一種想像。
GAN通過(guò)從高維的分布中采樣,生成模型輸出與訓(xùn)練樣本類似的新樣本。這就意味著,若生成模型的訓(xùn)練數(shù)據(jù)是鳥(niǎo)的圖像集,那么訓(xùn)練后得到的模型也能輸出類似于鳥(niǎo)的合成圖片。
研究員稱人工智能系統(tǒng)能夠創(chuàng)作出任何類型的形象,例如飄浮的雙層巴士、放牧中的牲畜等,而且在文字中欠缺的一些細(xì)節(jié),庫(kù)卡機(jī)器人,系統(tǒng)會(huì)在影像中自行補(bǔ)完。
GAN結(jié)構(gòu)用到了兩個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)是生成器,它試圖基于輸入的數(shù)據(jù)生成更像真實(shí)數(shù)據(jù)的結(jié)果;另一個(gè)是判別器,它的目的在于正確分辨哪些是真實(shí)的數(shù)據(jù)。簡(jiǎn)單地來(lái)理解就是,生成器總是在試圖騙過(guò)判別器。
生成器必須反復(fù)用隨機(jī)輸入的噪音數(shù)據(jù)合成有意義的內(nèi)容,直到判別器無(wú)法區(qū)分合成內(nèi)容的真?zhèn)巍_@套框架正在被擴(kuò)展應(yīng)用到許多數(shù)據(jù)模式和任務(wù)中。如仿真時(shí)間序列的特征;超分辨率圖像;從二維圖像復(fù)原三維結(jié)構(gòu);小規(guī)模標(biāo)注數(shù)據(jù)集的泛化;預(yù)測(cè)視頻的下一幀;生成自然語(yǔ)言的對(duì)話內(nèi)容;藝術(shù)風(fēng)格遷移;語(yǔ)音和音樂(lè)的合成。
值得一提的是,庫(kù)卡機(jī)器人何服電機(jī)維修,微軟研究人員在此基礎(chǔ)上創(chuàng)建了他們稱之為注意力生成式對(duì)抗網(wǎng)絡(luò)或AttnGAN的技術(shù),這個(gè)AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了近三倍。而這種仿人類注意力的生成式對(duì)抗網(wǎng)絡(luò)對(duì)AI界的影響十分重大,這標(biāo)志著在類人類智能的發(fā)展實(shí)現(xiàn)了質(zhì)的突破。
AI據(jù)文繪畫(huà),或許漫畫(huà)領(lǐng)域最受沖擊
看文作畫(huà)的AI在現(xiàn)實(shí)生活中又會(huì)發(fā)揮什么樣的用處呢?
讓我們來(lái)想象一下,未來(lái),可能會(huì)發(fā)生這樣的對(duì)話
Drawingbot,請(qǐng)你為我畫(huà)一個(gè)花園。
接著,一座美麗的花園躍然于紙上,花園中有各色的花朵,飛舞的蝴蝶,甚至有兩個(gè)小孩在其中嬉戲。
從文本到圖像的生成技術(shù)可以找到很多實(shí)際應(yīng)用,它既可以作為漫畫(huà)家和室內(nèi)設(shè)計(jì)師的素描助理,或者作為語(yǔ)音美化照片的工具。如果有更多的計(jì)算能力,這項(xiàng)技術(shù)能夠根據(jù)電影劇本生成動(dòng)畫(huà)電影,進(jìn)行一些重復(fù)且繁瑣的手工繪畫(huà),比如動(dòng)畫(huà)背景中的一棵樹(shù)、一顆草,進(jìn)而改善動(dòng)畫(huà)電影制片人的工作。
人工智能可以模仿披頭士寫歌,當(dāng)然也可以模仿各種名家作畫(huà)。試想一下,一個(gè)沒(méi)有任何繪畫(huà)基礎(chǔ)的編劇,卻能在網(wǎng)上發(fā)布自己漫畫(huà)劇作,其作品還頗有當(dāng)代某著名漫畫(huà)家的畫(huà)風(fēng)。在動(dòng)漫方面,如果微軟的這款繪圖智能大力發(fā)展,完全可以大大降低創(chuàng)作門檻。當(dāng)然,這種另類的漫畫(huà)創(chuàng)作也可能面臨素材版權(quán)的問(wèn)題。
目前來(lái)說(shuō),微軟這個(gè)繪圖AI還是有比較大的提升空間,而在不斷改進(jìn)后,在將來(lái),它可能會(huì)對(duì)漫畫(huà)領(lǐng)域產(chǎn)生極大的沖擊,甚至于對(duì)室內(nèi)空間設(shè)計(jì)行業(yè)也會(huì)產(chǎn)生影響。當(dāng)然,其主要作用還是節(jié)省畫(huà)家和設(shè)計(jì)家的人力和時(shí)間,而令人期待的是,未來(lái)的電視上極有可能會(huì)出現(xiàn)由AI自導(dǎo)自演的動(dòng)畫(huà)片。
想象力讓AI區(qū)別于死物
除了知道繪畫(huà)AI可以充當(dāng)更好的人類幫手之外,我們?yōu)槭裁匆P(guān)注AI繪畫(huà)這件事?智能相對(duì)論認(rèn)為,其中關(guān)鍵,或許是我們應(yīng)該知道想象力在AI世界中的重要程度和期待指數(shù)。
想象力是人在已有形象的基礎(chǔ)上,在頭腦中創(chuàng)造出新形象的能力。比如當(dāng)我說(shuō)起牛奶,你想到的圖景可能是杯子中盛著白色的牛奶,這個(gè)想象是基于你生活中的經(jīng)驗(yàn)所得到的,也就是說(shuō),想象一般是在掌握一定的知識(shí)面的基礎(chǔ)上完成的。
繪畫(huà)機(jī)器人能夠想象出標(biāo)題中沒(méi)有包含的細(xì)節(jié),這是因?yàn),它有一點(diǎn)自己的常識(shí)和想象力,當(dāng)然,這要依賴于它大量的訓(xùn)練數(shù)據(jù)。
在鳥(niǎo)的例子中,機(jī)器人畫(huà)的鳥(niǎo)通常是站在枝頭上的,然而文本內(nèi)容中其實(shí)并沒(méi)有提到這一細(xì)節(jié)。這是因?yàn)閿?shù)據(jù)庫(kù)中提供給它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。這意味著,AI在掌握了一定的知識(shí)面后也能將其利用起來(lái)形成自己的想象。
目前,AI只是在小的細(xì)節(jié)中進(jìn)行補(bǔ)充,而下一步,應(yīng)該是試圖在更自主地描繪圖像上完成突破。如果這個(gè)突破到來(lái),意味著AI模型在想象力這一特質(zhì)上得到了進(jìn)一步升級(jí)。這個(gè)能讓AI區(qū)別于死物的能力,終于拉開(kāi)了表演的大幕。
AI先天具備的是運(yùn)算能力,從而進(jìn)行仿人類智慧的智能模擬,第二步就是模仿人類的感知,比如機(jī)器識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義分析等等,都是在做這件事。而第三步,就是讓AI有自己的想象和思考。
假如單純的感知卻無(wú)法自主輸出,那么AI無(wú)非是更靈活的傳感器而已。
從這個(gè)邏輯上來(lái)看,微軟AI看文作畫(huà)絕不僅僅是一個(gè)商業(yè)應(yīng)用的技術(shù)加持,也不僅僅是藝術(shù)與科技的碰撞,更重要的應(yīng)該是開(kāi)啟了AI世界里使AI具有想象力的新紀(jì)元。
微軟的這只鳥(niǎo),更深遠(yuǎn)的意義在于,我們或許距離擺脫機(jī)器人純粹的運(yùn)算更近了一步。