Deep 'Reinforcement Learning' je podučavanje robota novim vještinama brže nego ikad

$config[ads_kvadrat] not found
Anonim

Roboti uče kako završiti zadatke u ubrzanim virtualnim svjetovima, razvijajući vještine u nekoliko sati koje bi inače mogle potrajati mjesecima. Simulirano učenje dubokog pojačanja (ili Deep RL) znači vještinu koja bi obično trebala trajati 55 dana za A.I. učiti u stvarnom svijetu traje samo jedan dan u hiper-ubrzanoj učionici.

"To ima potencijal da doista revolucionira ono što možemo učiniti u domeni robotike", rekla je Raia Hadsell, znanstvena istraživačica s Google DeepMinda, na summitu Re-Work Deep Learning u Londonu u četvrtak. "Možemo naučiti vještine na ljudskoj razini."

Možda zvuči protu-intuitivno, kao što je sigurno da je smisao robota programeri da ih nauče raditi stvari, zar ne? Pri projektiranju stroja koji radi u stvarnom svijetu, robotima je potrebno puno podataka kako bi razumjeli kako napraviti zadatak u nepoznatoj situaciji. A. I. mogu koristiti te podatke kako bi "naučili" vještinu na temelju svih slučajeva koji su prethodili.

Učenje dubokog pojačanja prikuplja te podatke na sličan način kao što ljudi uče: robot će dovršavati zadatak više puta, kao što je hvatanje lopte, i bilježiti podatke kako bi izgradio sliku o tome kako najbolje uhvatiti loptu u novoj situaciji. Kada je DeepMind 2013. koristio model kako bi naučio robota kako ovladati Atari igrama, jednostavno ga je sjedio ispred zaslona i govorio mu o krajnjem cilju, znanstvenici su ga voljeli.

Problem je što ovo traje zauvijek. Morate više puta bacati lopte na robota, ili u slučaju Atari, ostaviti robota na miru u svojoj spavaćoj sobi neko vrijeme. Vođenjem simulacije MuJoCo, u kombinaciji s progresivnom neuronskom mrežom, treneri mogu pokrenuti program koji oponaša robota, prenosi naučena ponašanja na robota i mapira virtualne pokrete u stvarni svijet.

"Možemo te simulatore voditi cijeli dan i cijelu noć", rekao je Hadsell.

Rezultati govore sami za sebe. Ovaj robot, koji je dobio diplomu u hvatanju, sada može pratiti virtualne lopte kao da su stvarne, pripremajući ih za veliki dan kada se traži da uhvati pravu loptu:

$config[ads_kvadrat] not found