伯克利的研究人員最近利用視覺模型強(qiáng)化學(xué)習(xí)訓(xùn)練了一個不一樣的機(jī)器人,能夠通過自己的探索,完成各種任務(wù):整理玩具、疊衣服、收拾餐具……
并且,這樣一個多功能機(jī)器人的訓(xùn)練過程是無監(jiān)督的,不需要投喂數(shù)據(jù),完全是機(jī)器人自行摸索后學(xué)到的。
也就是說,這個機(jī)器人看了看你雜亂的房間,就自主的收拾了起來。
幫你把亂放的蘋果放進(jìn)盤子:
幫你疊起秋衣:
整理玩具:
咦,二胡卵子誤入。
完成這一系列工作的,都是同一套算法。
這些神奇的技能,Yann LeCun看到都驚呼:Awesome!
像小朋友一樣摸索世界
我們開頭說過,這個機(jī)器人不需要人為投喂數(shù)據(jù)。
那么數(shù)據(jù)從哪兒來呢?從需要它工作的現(xiàn)實(shí)世界來。
在一個擺放了各種物體的“房間”內(nèi),可以讓機(jī)器人自由摸索,感受房間里的一切,在無監(jiān)督的情況下,機(jī)器人完全可以自己玩自己的。
除了玩杯子、玩具這些硬的東西,還可以玩“軟體”的毛巾:
玩的過程中,機(jī)器人就通過各種傳感器,KUKA機(jī)器人示教器維修,學(xué)到了視覺能力,知道自己身邊是什么東西;
學(xué)到了定位能力,知道自己在做什么;
學(xué)到了做不同的動作,知道自己發(fā)出不同命令后,手臂會做什么;
學(xué)會熟練使用自己的“手”,可以預(yù)測到手做什么動作會對環(huán)境中的物體產(chǎn)生怎樣的影響。
整個探索過程沒有分?jǐn)?shù)、不設(shè)輸贏,完全是機(jī)器人自己憑借“好奇心”,通過摸索這個房間里的物品,形成自己的一套“世界觀”的過程。
派活就行,不用你教怎么干
當(dāng)機(jī)器人已經(jīng)對環(huán)境中的物體了如指掌之后,我們該怎么給它安排工作呢?
用像素點(diǎn)。
在整個環(huán)境中,通過像素點(diǎn)給機(jī)器人標(biāo)注任務(wù)目標(biāo),紅色為起始點(diǎn),綠色為結(jié)束點(diǎn),也就是告訴機(jī)器人把紅點(diǎn)位置的東西搬到綠點(diǎn)位置。
機(jī)器人,你來把紅點(diǎn)位置的蘋果,挪到綠點(diǎn)位置的盤子上去。
機(jī)器人想了想,大概只要把蘋果夾起來,把手臂挪過去,把蘋果放下,就可以了把?
△機(jī)器人內(nèi)心的“草稿”
那就這么辦了,召喚機(jī)械臂,www.whsntf.cn,是騾子是馬,我們挪一個看看。
Bingo!成功。
下一個任務(wù),我們把牛仔熱褲疊起來。
想一想,揪住一個角,挪過來就好了吧?
根據(jù)這個計(jì)劃試一試:
完美成功~
這個過程具體是怎樣的呢?伯克利官方給出了一個視頻,可以打開學(xué)習(xí)一下:
傳送門
最后,照例附上傳送門。
論文:
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control
Frederik Ebert, Chelsea Finn, Sudeep Dasari, Annie Xie, Alex Lee, Sergey Levine
https://drive.google.com/file/d/1scfbONOHg8H2_pJ9naRkHfk4dGSNGNWO/view
博客:
Visual Model-Based Reinforcement Learning as a Path towards Generalist Robots
https://bair.berkeley.edu/blog/2018/11/30/visual-rl/
,www.whsntf.cn