Kako Multi-Armed Bandit određuje koje oglase i priče vidite na mreži

CS885 Lecture 8b: Bayesian and Contextual Bandits

CS885 Lecture 8b: Bayesian and Contextual Bandits
Anonim

Zamislite da ste kockar i stojite ispred nekoliko automata. Vaš je cilj povećati dobitak, ali zapravo ne znate ništa o potencijalnim nagradama koje nudi svaki stroj. Vi, međutim, shvatite da će poluge koje povlačite i učestalost kojom to činite utjecati na rezultate vašeg kockanja.

Ovaj scenarij, s kojim se svakodnevno susreću posjetitelji u Las Vegasu i Atlantic Cityju (u kojem god stupnju ljudi idu u Atlantic City), također je klasična logička zagonetka koja se naziva "Multi-Armed Bandit" - automati se nazivaju "One-Armed" Razbojnici “starenjem Reno-tipova jer imaju jednu polugu i uzimaju novac ljudi. Iako ne postoji jedan ispravan način rješavanja situacija s višestrukim naoružanim banditima - najbliži kandidat je Gittinsov indeks - postoje strateški pristupi rješavanju tih problema koje vidite bez registracije svaki dan kada idete na internet. Mnogi algoritmi koji upravljaju načinom na koji se sadržaj pojavljuje kroz Google i na web-mjestima izgrađeni su oko MAB strategija. Cilj je u gotovo svim slučajevima povezati učenje i rezultate i maksimizirati potencijal za oboje.

Pri tome se koristi višestruki pristup bandita Washington Post kako biste saznali koje fotografije i naslove najvjerojatnije želite kliknuti, te pomoću bežičnih mreža otkriti koji su optimalni, rute koje štede energiju najbolje. Algoritmi koji izrastaju iz MBA pristupa iznimno su važni za te tvrtke i mnoge druge jer u osnovi određuju kada i koji se oglasi pojavljuju na mreži.

Shvatiti koji su oglasi pokazati ljudima je izazovan problem, jer ima toliko jednostrukih razbojnika koji trče okolo klikom na stvari online. MAB algoritmi za reklame obično koriste brzo mijenjajući "smrtni multi-oružani problem bandita", koji se primjenjuje tijekom određenih vremenskih razdoblja. Podaci o prometu koriste se za razvoj učinkovitijih metodologija.

Teško je povezati MABs s točno određenom svrhom, jer je moguće stvoriti toliko varijacija formule. K-naoružani razbojnici, na primjer, imaju “oružje” koje se natječe da dobiju najveću očekivanu nagradu. Kontekstualiziranje razbojnika radi isto, ali sa “stručnim savjetom” - podaci koji su prethodno prikupljeni o korisniku - a web-spreman imenom “ILOVETOCONBANDITS” radi samo na rasporedu unaprijed određenih krugova. Nasuprot tome, klasični pristup MAB-a nema mogućih bočnih informacija i rezultat ovisi samo o potencijalu odabrane akcije.

Iako se do sada čini da je najkorisnija aplikacija za MAB-ove povezana s internetom, istraživači rade na pronalaženju načina da ih primijene na scenarije "stvarnog života" (zvani "meatspace"). U radu iz 2015. istraživači sa Sveučilišta British Columbia razmatraju primjenu MAB-a na medicinska ispitivanja. Cilj, ako se MABs pokaže mogućim ovdje, je da bi MAB algoritam mogao mjeriti učinak određenog lijeka. Očigledan problem je u tome što, ako se kompjuterski modulirana verzija toga ne bi mogla stvoriti, odlazak s takvim pristupom bio bi jednostavno previše vremena. Nema načina da se dizajn MAB-a stavi u kliničko ispitivanje.

Ideja je lijepa, ali do sada nije izvediva. Sve dok budućnost ne bude ovdje, uglavnom ćete osjetiti nazočnost višestrukog bandita kad očajnički pokušavate kliknuti na pop-up oglase.