Kako je DeepMind razvio jezivo samouk A.I. To može nadmudriti ljude

Google's Deep Mind Explained! - Self Learning A.I.

Google's Deep Mind Explained! - Self Learning A.I.

Sadržaj:

Anonim

Računala već nekoliko desetljeća šutiraju naše krhke ljudske guzice u šah. Prvi put se to dogodilo 1996. godine, kada je IBM-ov Deep Blue uspio skinuti svjetskog prvaka Garya Kasperova. Ali nova studija iz A.I. oprema DeepMind osvjetljava koliko je ograničen opseg te rane pobjede.

Za jednu, Kasperov je odskočio natrag, osvojivši tri utakmice i dva puta izvlačeći u šestorici doigravanja po starom Dnevne novosti izvješće.

No mnogo je važnije, kaže istraživač DeepMinda Julian Schrittwieser Inverzan, aplikacije kao što je Deep Blue također su programirane ručno. To znači da su ljudi morali podučavati A.I. sve što je trebalo znati o tome kako se nositi sa svim mogućim okolnostima. Drugim riječima, to je uvijek moglo biti jednako dobro kao i ljudi koji su ga programirali. I dok je Deep Blue očigledno bio prilično dobar u šahu; dajte mu još jednu, sličnu, igru ​​kao što je Go i da je bila ne znam.

Alpha Zero je potpuno drugačiji. U novoj studiji objavljenoj danas u časopisu Znanost, autori otkrivaju kako su mogli ne samo naučiti Alpha Zero kako pobijediti ljude u šahu, nego kako naučiti Alpha Zero kako učiti sam za svladavanje više igara.

Kako podučavati A.I. Naučiti se

Alpha Zero razvijen je pomoću tehnike koja se zove učenje dubokog pojačanja. U suštini, to uključuje podučavanje A.I. nešto vrlo jednostavno, poput osnovnih šahovskih pravila, a zatim radiš tu jednostavnu stvar iznova i iznova, sve dok ne nauči više komplicirane, zanimljive stvari kao što su strategije i tehnike.

"Tradicionalno … ljudi bi uzeli svoje znanje o igri i pokušali je kodirati u pravilima", kaže Schrittwieser, koji gotovo četiri godine radi na Alpha Zero. "Naš pristup je nasumično inicijaliziranje, a zatim neka se igra protiv sebe, a iz samih igara može naučiti koje strategije rade."

Svi Alpha Zero dobivaju osnovna pravila, a od tamo uči kako pobijediti igrajući se. Prema novim saznanjima, Alpha Zerou je trebalo samo devet sati za svladavanje šaha, 12 sati za svladavanje Shogija i oko 13 dana za svladavanje Goa. Budući da se igra sama, u biti je samouk. To je učinilo sve svjetske prvake ljudskim vođenim algoritmima i pobijedilo svjetskog prvaka u Šogiju u 91% slučajeva.

"Može samostalno otkriti zanimljiva znanja o igri", kaže Schrittwieser. "To dovodi do programa koji se igraju više ljudski."

Iako je njegov stil ljudski i kreativan, ipak je vjerojatno optimalan, kaže on, dovoljno da bi Alpha Zero mogao dominirati u gotovo svakoj igri u kojoj ima pristup svim dostupnim informacijama. Zapravo, Alpha Zero je toliko sofisticiran, da ćemo možda morati prijeći na potpuno drugu klasu igara kako bismo nastavili pomicati granice kako A.I. rješava probleme.

Zašto je Alpa Zero tako dobar

A. I. istraživači vole koristiti te igre kao testne temelje za sve sofisticiranije oblike algoritama iz nekoliko razloga. Elegantni su, a ljudi ih igraju stotinama godina, što znači da imate puno potencijalnih izazivača koji će testirati svoj algoritam. Ali oni su također komplicirani i zamršeni, što znači da mogu poslužiti kao odskočna daska za A.I. koji mogu riješiti probleme u stvarnom svijetu. Schrittwieser kaže da je sljedeće područje istraživanja stvaranje algoritma poput Alpha Zero koji još uvijek može donositi optimalne odluke s nesavršenim informacijama.

"U svim tim igrama znate sve što se događa", kaže on. “U stvarnom svijetu možda znate samo dio informacija. Možda znate svoje kartice, ali ne znate protivnikove, imate djelomične informacije."

I dalje postoji nekoliko igara na ploči koje su sposobne dati takvim izazovima algoritme kao što je Alpha Zero - Schrittwieser je spomenuo Stratego, u kojem igrači skrivaju svoje poteze jedan od drugoga - i Starcraft, što je još jedno područje od interesa za DeepMindove istraživače usmjerene na igre.

"Želimo sve više i više složiti probleme koji nam se nameću", kaže on. "Ali to je uvijek jedna dimenzija u isto vrijeme."

U isto vrijeme, sljedeća generacija kompjuteriziranih programa za rješavanje problema tvrtke Deep Mind već pokazuje potencijal za prelazak iz svijeta igara u stvarni svijet. Ranije ovog tjedna najavio je još jedan algoritam nazvan AlphaFold, koji je sposoban ekstrapolirati sekvencu proteina u točno predviđanje njegove 3D strukture.To je problem koji desetljećima zbunjeni znanstvenici mogu pomoći u otvaranju vrata liječenju bolesti od Alzheimerove do cistične fibroze.