展望2018:人工智能能夠“以假亂真”,“恐怖谷理論”已經(jīng)終結(jié)
近日,《連線》雜志發(fā)布了一系列文章,對2018年科技行業(yè)各個領(lǐng)域發(fā)展的趨勢進(jìn)行預(yù)測。本文是其中一篇,介紹了人工智能技術(shù)在文本、圖片、視頻處理方面的應(yīng)用以及發(fā)展趨勢。作者為SANDRAUPSON,文章由36氪編譯。
一場革命正在醞釀中,你可以從條紋中知道它的存在。
今年早些時候,加州大學(xué)伯克利分校的一組研究人員發(fā)布了兩組視頻。在其中一個視頻里(左邊),一匹馬在柵欄后面小跑。在第另一個視頻中(右邊),這個馬被匹配上了斑馬那種黑白相間的條紋。
把一匹普通馬變成斑馬是一個很好的噱頭,但事實(shí)并非如此簡單。這標(biāo)志著機(jī)器學(xué)習(xí)算法在改寫現(xiàn)實(shí)的力量日益強(qiáng)大。例如,其他人也會使用相同的工具,將黑熊變成了熊貓、將蘋果變成桔子、將貓變成狗等等。有一位Reddit用戶使用不同的機(jī)器學(xué)習(xí)算法來編輯視頻,將其中主角的面部替換成名人的面部,從而使得像名人真正出演視頻一樣。在一家名為Lyrebird的創(chuàng)業(yè)公司中,機(jī)器學(xué)習(xí)專家正在從一分鐘的人聲樣本中合成令人信服的音頻。開發(fā)Adobe人工智能平臺Sensei的工程師們正在將機(jī)器學(xué)習(xí)技術(shù)注入到各種具有突破性的視頻、照片和音頻編輯工具中。雖然這些項(xiàng)目在立項(xiàng)和意圖上有很大的不同,但它們有一個共同之處:它們產(chǎn)生的人工場景和聲音,與現(xiàn)實(shí)世界的真實(shí)畫面非常接近。與之前用人工合成的媒體做的實(shí)驗(yàn)不同的是,這些圖片、視頻和聲音看起來和聽起來都是非常真實(shí)的。
這一轉(zhuǎn)變背后的技術(shù)將很快推動我們進(jìn)入新的創(chuàng)意領(lǐng)域,不僅能提升當(dāng)代藝術(shù)家創(chuàng)作的能力,也能將業(yè)余愛好者提升到經(jīng)驗(yàn)豐富的專業(yè)人士的水平。以至于我們將需要為創(chuàng)新尋找新的定義了。但這種繁榮也有黑暗的一面。一些人工生成的內(nèi)容將被用于欺騙,從而引發(fā)人們對大量算法假新聞的恐懼。關(guān)于一幅圖片是否被篡改的老辯論,將會讓位于關(guān)于各種各樣的內(nèi)容,包括文本。如果你還沒有意識到,你會發(fā)現(xiàn)自己在想:如果有的話,人類在創(chuàng)作那部電影/電視劇/標(biāo)題黨文章中扮演了什么角色?
一個充斥著人工生成內(nèi)容的世界是烏托邦的經(jīng)典案例,同時也是一個反烏托邦的例子。它很混亂,很漂亮,而且已經(jīng)在這里了。
起初,深度學(xué)習(xí)生成的內(nèi)容并不適應(yīng)現(xiàn)實(shí)。谷歌2015年發(fā)布的DeepDreams是利用深度學(xué)習(xí)來制造迷幻風(fēng)景和多眼怪物的早期例子。2016年,一款名為Prisma的流行照片編輯應(yīng)用使用深度學(xué)習(xí)技術(shù)為藝術(shù)照片濾鏡提供動力,例如將照片變成Mondrian或Munch的風(fēng)格,以向他們表達(dá)敬意。Prisma背后的技術(shù)被稱為風(fēng)格轉(zhuǎn)移:采用一種圖像的風(fēng)格(如《尖叫》),并將其應(yīng)用于另一種照片。
現(xiàn)在,驅(qū)動風(fēng)格轉(zhuǎn)移的算法正在變得越來越精確,這標(biāo)志著恐怖谷理論的終結(jié)這種由計(jì)算機(jī)生成現(xiàn)實(shí),通常會讓人類產(chǎn)生一種不安感。與之前的一些粗略的影響形成對比的是,由人工智能驅(qū)動的工具已經(jīng)開始填補(bǔ)谷底的盆地。想想康奈爾大學(xué)卡KavitaBala實(shí)驗(yàn)室的研究成果吧,深度學(xué)習(xí)可以將一張照片的風(fēng)格融入到一個單調(diào)乏味的大都市的快照中,讓人誤以為這個合成的地方是真實(shí)存在的。受到人工智能潛能的啟發(fā),Bala在這個基礎(chǔ)上創(chuàng)立了一個叫Grokstyle的公司。比如說,你很喜歡朋友家沙發(fā)上的枕頭,或者一本雜志的封面吸引了你的眼球。給Grokstyle的算法提供一個圖像,它會在任何外觀上顯示你喜歡的對象。
我喜歡這些技術(shù)的地方在于它們代表著設(shè)計(jì)和風(fēng)格的民主化。Bala說。我是一名技術(shù)專家我欣賞美麗和時尚,但卻無法創(chuàng)造出值得一看的東西。所以這項(xiàng)工作讓我有了機(jī)會。讓別人也能享受到這一點(diǎn)是一件樂事,這樣人們就可以玩得很漂亮了。我們在這些方面沒有天賦,并不意味著我們必須生活在一片沉悶的土地上。
在Adobe,機(jī)器學(xué)習(xí)早在十年前就已經(jīng)是該公司創(chuàng)意工具的一部分了,但直到最近,人工智能才開始具有變革意義。10月,該公司的人工智能技術(shù)公司Sensei的工程師們展示了一款未來的視頻編輯工具AdobeCloak。該工具可以讓用戶無縫地從視頻中移除一個燈柱對于資深編輯來說,這是一項(xiàng)非常痛苦的任務(wù)。另一項(xiàng)名為ProjectPuppetron的實(shí)驗(yàn),他們將一種藝術(shù)風(fēng)格實(shí)時應(yīng)用到視頻中。例如,它可以拍攝一個人的動態(tài)視頻,讓他成為一個愛說話的銅像或手繪的卡通形象。人們基本上可以在網(wǎng)絡(luò)攝像頭或任何攝像頭前進(jìn)行表演,并實(shí)時將其轉(zhuǎn)化為動畫,資深科學(xué)家、Adobe研究主管JonBrandt說。
機(jī)器學(xué)習(xí)使這些項(xiàng)目成為可能,庫卡機(jī)器人何服電機(jī)維修,因?yàn)樗軌虮纫郧暗挠?jì)算機(jī)視覺方法更好地理解人臉,或者照片前景和背景之間的差異。Sensei的工具讓藝術(shù)家可以偏重于概念,而不是原始材料。Photoshop擅長處理像素,但人們想要做的是操作像素所代表的內(nèi)容,Brandt解釋說。
這是一件好事。Brandt說,當(dāng)藝術(shù)家不再浪費(fèi)時間在屏幕上爭論單個點(diǎn)時,他們的效率就會提高,也許還會增加他們的創(chuàng)造力。我對出現(xiàn)新藝術(shù)形式的可能性感到興奮,我認(rèn)為這將會到來。
但不難看出,單單說這會帶來創(chuàng)造性的爆炸可能是錯誤的。對于芝加哥大學(xué)研究生YuanshunYao來說,這會讓假視頻變得更加真實(shí)并且非常容易,讓他在最近的一個項(xiàng)目中探索機(jī)器學(xué)習(xí)的一些危險。他在最近一個又人工智能生成的,非常真實(shí)的奧巴馬發(fā)表演講中剪輯了一段,他開始思考:他能在文字上做類似的事情嗎?
一個文本組合需要近乎完美地欺騙大多數(shù)讀者并不容易,所以他從一個人們?nèi)萑潭容^高的目標(biāo)開始,在Yelp或亞馬遜這樣的平臺上發(fā)布虛假的在線評論。一個評論可能只有寥寥幾句話,讀者也不會期待有什么高質(zhì)量的寫作。因此,他和他的同事們設(shè)計(jì)了一個神經(jīng)網(wǎng)絡(luò),每次能夠生成大約5句Yelp-style的評論。出來了一堆評論,比如我們最喜歡的地方!、我和我哥哥一起去吃素食,那里很好吃。他讓人類去猜測它們是真的還是假的,果然,人類被愚弄了。
在微任務(wù)市場上,制造虛假評論的成本大約在10美元到50美元之間。YuanshunYao認(rèn)為,一個有驅(qū)動力的工程師試圖將這個過程自動化,從而壓低價格,并生成一堆虛假評論,只是時間問題。(他還探索了使用神經(jīng)網(wǎng)絡(luò)來保護(hù)一個平臺,以抵御虛假內(nèi)容,并取得了一定的成功。)據(jù)我們所知,目前還沒有這樣的系統(tǒng),Yao說。但也許在5到10年內(nèi),我們會被人工合成的東西所包圍。他的下一個目標(biāo)是什么?生成令人信服的新聞文章。
視頻方面的進(jìn)展可能會更快。HanyFarid是研究假照片和視頻的專家,同時也是達(dá)特茅斯學(xué)院的教授。他擔(dān)心病毒傳播的速度會很快,但驗(yàn)證過程卻異常緩慢。