Algoritam koji je savladao 'pong' sada izvrsno u 'Flappy Bird', Still Single

$config[ads_kvadrat] not found

Elmedin Kadrispahic - Zivot me je namucio (Live)

Elmedin Kadrispahic - Zivot me je namucio (Live)
Anonim

Unapređenje metode dubokog učenja pong, Space Invaders, i druge Atari igre, studentica računalne znanosti Stanford University Kevin Chen stvorila je algoritam koji je prilično dobar u klasičnom 2014-scrolleru Flappy Bird, Chen je iskoristio koncept poznat kao “q-learning”, u kojem agent nastoji poboljšati svoj nagrađeni rezultat sa svakom igrom igranja, kako bi usavršio gotovo nemoguću i nemoguće zaraznu igru.

Chen je stvorio sustav u kojem je njegov algoritam bio optimiziran da traži tri nagrade: malu pozitivnu nagradu za svaki okvir koji je ostao živ, veliku nagradu za prolazak kroz cijev i jednako veliku (ali negativnu) nagradu za umiranje. Tako motivirana, takozvana duboka q mreža može nadigrati ljude, prema izvješću koje je Chen napisao: “Uspjeli smo uspješno odigrati igru Flappy Bird učenjem ravno iz piksela i rezultata, postižući super-ljudske rezultate."

Izvorni Atari papir, objavljen 2015. godine u Priroda, došao iz Google-u vlasništvu tvrtke DeepMind (sada poznat po majstorstvu drevne kineske igre na ploči Go). Postignuće DeepMinda bilo je proboj u tome što je za vizualno - ili piksel, barem - informaciju, i uz minimalan unos, mogao maksimizirati nagrade. Takav sustav nagrađivanja sličio je dopaminergičkom odgovoru mozga, koji je jednostavno pojednostavljen.

Nije prvi put da je algoritam pokorio pticu koja je plesala: ranija klasa studenata računalnih znanosti na Sveučilištu Stanford stvorila je program koji je, kada se obuči preko noći, njegov rezultat poboljšao s 0 cijevi koje su prešle na 1.600.

$config[ads_kvadrat] not found