想要在現(xiàn)實(shí)世界的機(jī)器人身上探索強(qiáng)化學(xué)習(xí)(RL),并非易事。
首先,你得擁有類似這樣的機(jī)器人平臺(tái):
而像這樣的一只PR2,售價(jià)高達(dá)40萬(wàn)美元(約合人民幣286萬(wàn)元)。
這就足以讓很多剛剛起步,或者正想涉足RL/機(jī)器人學(xué)研究的小型實(shí)驗(yàn)室望而卻步了。
不過(guò)現(xiàn)在,谷歌正在試圖讓這件事變得更簡(jiǎn)單,更便宜。
比如這樣一只三指機(jī)器人:
價(jià)格僅3500美元(約合人民幣2.5萬(wàn)元)。
還有這樣一只四足機(jī)器人:
價(jià)格4200美元(約合人民幣3萬(wàn)元)。
并且,還有相應(yīng)的開(kāi)源代碼,和精心設(shè)計(jì)的基準(zhǔn)測(cè)試作為配套。
這就是谷歌的ROBEL基準(zhǔn)。這項(xiàng)研究登上了CoRL 2019。
ROBEL
ROBEL由兩只機(jī)器人組成,適用于不同的強(qiáng)化學(xué)習(xí)研究任務(wù)。
三指手形機(jī)器人,名為D’Claw,擅長(zhǎng)學(xué)習(xí)靈巧操作任務(wù)。
D’Claw執(zhí)行任務(wù)的過(guò)程中有三種常見(jiàn)的操縱行為。
姿勢(shì),KUKA機(jī)器人電路板維修,適應(yīng)不同環(huán)境的形狀。
旋轉(zhuǎn),將物體旋轉(zhuǎn)到指定的角度。
以及擰緊。
四足機(jī)器人,名叫D’Kitty,是只小貓咪,擅長(zhǎng)學(xué)習(xí)敏捷移動(dòng)。
它的三種基準(zhǔn)測(cè)試動(dòng)作,是站立,定向和行走。
機(jī)器人的設(shè)計(jì)都基于現(xiàn)成的組件和常用的原型制作工具(3D打印或激光切割),模塊化,易于組裝,易于維護(hù)。
即使你對(duì)硬件并不在行,也僅需要幾個(gè)小時(shí)的時(shí)間,庫(kù)卡機(jī)器人何服電機(jī)維修,就能構(gòu)建完成。
ROBEL還為所有這些基準(zhǔn)測(cè)試任務(wù)提供了模擬器,有助于研究人員進(jìn)行算法開(kāi)發(fā)和快速原型設(shè)計(jì)。
可復(fù)現(xiàn),很魯棒
聽(tīng)上去便宜好用的ROBEL,到底靠不靠譜呢?
迄今為止,谷歌已經(jīng)對(duì)其進(jìn)行了長(zhǎng)達(dá)14000多個(gè)小時(shí)的訓(xùn)練。
實(shí)驗(yàn)證明,ROBEL能夠勝任多種機(jī)器學(xué)習(xí)算法。
并且,兩個(gè)不同的實(shí)驗(yàn)室分別對(duì)ROBEL進(jìn)行了“試用”。僅使用ROBEL的設(shè)計(jì)文件和裝配說(shuō)明,兩個(gè)實(shí)驗(yàn)室都成功復(fù)現(xiàn)了ROBEL的兩個(gè)硬件平臺(tái)。
兩個(gè)實(shí)驗(yàn)室都對(duì)自己組裝起來(lái)的ROBEL進(jìn)行了基準(zhǔn)任務(wù)測(cè)試。
兩條訓(xùn)練曲線幾乎重合。也就是說(shuō),在不同地點(diǎn)建造的兩只機(jī)器人,機(jī)器人維修,不僅表現(xiàn)出了相似的訓(xùn)練進(jìn)度,并且最終都收斂到了同一性能水準(zhǔn)。
還真是便宜又好貨啊。