Metody výcviku psů pomáhají vědcům učit roboty novým trikům

Datum 24.12.2020

S výcvikovou technikou, která se u psů běžně používá k výuce základních povelů, jako je lehni a zůstaň, předvedli vědci z Univerzity Johnse Hopkinse, jak naučit robota několik nových triků včetně skládání stohovatelných bloků. Díky této metodě se robot jménem Spot byl schopen za pár dnů naučit úkony, které předtím cvičil měsíc.

Použitím pozitivního posílení výcvikové metody, tedy odměny za uposlechnutí příkazu, která je známá každému majiteli psa, tým výrazně zlepšil a zároveň také zrychlil dovednosti robota.

„Otázkou bylo, jak přimět robota, aby se naučil nové dovednosti,“ uvedl hlavní autor studie Andrew Hundt, doktorand pra­cující v Laboratoři výpočetních interakcí a robotiky na Univerzitě Johnse Hopkinse. „Měl jsem psy, takže vím, že odměny fungují, a právě to byla inspirace k návrhu nového algoritmu učení.“

Na rozdíl od lidí a zvířat, která se rodí s vysoce intuitivním mozkem, jsou počítače zcela prázdné a musí se tak naučit všechno od nuly. Toho skutečného učení se však často dosahuje pokusem a omylem a robotici stále přicházejí na to, jak se mohou roboti efektivněji učit ze svých chyb.

Tým toho zde dosáhl vytvořením systému odměn, který funguje pro robota tak, jako u člověka se psem. S tím rozdílem, že pes mohl za uposlechnutý povel dostat pamlsek, kdežto robot získal číselné body. Hundt si vzpomněl, jak kdysi naučil svého teriéra povel „nech to“, aby jeho pes mohl při procházkách v parku, ignorovat veverky. Použil dva druhy pamlsků, obyčejné pamlsky a něco ještě lepšího, například sýr. Když byl pes neklidný a chtěl běžet za veverkou, nic nedostal. Ale když se uklidnil a odvrátil pohled, získal ten lepší pamlsek.

Podobně jako se robot musí naučit dostatečnému soustředění na konstruktivní akce, aby mohl například bezchybně naskládat bloky. Když robot prozkoumal bloky, rychle zjistil, že správné chování při skládání bloků získalo vysoké bodové ohodnocení, ale při nesprávném postupu nezískal nic. Natáhnout ruku, ale neuchopit blok? Žádné body. Nebo přehodit celou hromádku? Také žádné body. Spot vydělal nejvíce umístěním posledního bloku na hromádku se čtyřmi bloky.

Výcviková taktika nejen fungovala, ale naučit robota to, co běžně trvalo týdny, nyní zabralo několik dnů. Tým dokázal zkrátit dobu tréninku tím, že nejprve procvičil simulovaného robota, který je hodně podobný videohře, a poté provedl testy se Spotem.

„Robot chce vyšší skóre,“ řekl Hundt. „Rychle se naučí správné chování, aby získal nejlepší odměnu. V minulosti to trvalo měsíc než robot dosáhl 100% přesnosti. Teď jsme to dokázali za dva dny.“

Pozitivní posílení nejenže pomohlo robotovi naučit se skládat bloky, s bodovým systémem se robot stejně rychle naučil několik dalších úkolů – dokonce i to, jak hrát simulovanou navigační hru. Schopnost učit se z chyb ve všech typech situací je zásadní pro konstrukci robota, který by se dokázal přizpůsobit novým prostředím.

„Na začátku robot netuší co dělá, ale s každým tréninkem to bude lepší a lepší. Nikdy se nevzdává a stále se snaží skládat a je schopen úkol dokončit na 100%,“ řekl Hundt.

Tým si představuje, že tato zjištění mohou pomoci trénovat domácí roboty na běžné domácí práce – které pro nás nejsou příliš zajímavé. Využití se také nabízí v samořiditelných vozech.

„Naším cílem je nakonec vyvinout roboty, kteří dokážou v reálném světě provádět složité úkoly – jako je montáž produktů, péče o seniory a chirurgie,“ uzavírá Hundt. „V současné době nevíme, jak takové úkoly naprogramovat – reálný svět je příliš složitý. Ale práce jako tato nám ukazuje, že existuje náznak, že se roboti mohou naučit, jak takové úkoly v reálném světě plnit bezpečně a efektivním způsobem.“

Volty 700 x 200 px

Napsat komentář