Další milník v souboji lidí a strojů. Umělá inteligence Facebooku porazila profesionální hráče pokeru

Tomáš ChlebekTomáš Chlebek

poker-cards

Foto: Nacho/Flickr

0Zobrazit komentáře

Umělá inteligence (AI) v minulosti překonala už několik všeobecně poměrně známých milníků, co se týče porážení lidských protivníků v komplexních hrách. Je to dobrý indikátor jejího vývoje, protože hry zahrnují kombinace mnoha různých výpočetních úkonů zároveň a jejich propojení do efektivního celku. Nyní byl pokořen další z nich, když umělá inteligence Facebooku nazvaná Pluribus porazila pět živých profesionálních hráčů pokeru ve hře typu Texas Hold’em.

V roce 1997 počítač IBM Deep Blue porazil tehdy nejlepšího hráče šachu na světě a v roce 2011 superpočítač Watson téže firmy vyhrál ve dvou po sobě následujících kolech hry Jeopardy. O čtyři roky později se pak program AlphaGo od DeepMind spadající pod Google stal celosvětově nejlepším hráčem Go, což je hra s nejkomplexnějšími možnostmi herních strategií, která existuje. A dařilo se mu i ve StarCraftu.

Minimálně pro šachy a Go ale platí, že se jedná o zcela transparentní hry, kdy oba hráči mají kompletní přístup k hracímu poli a disponují tak veškerými potřebnými informacemi pro vypočítání nejefektivnější strategie. Poker v neomezené verzi Texas Hold’em je naproti tomu hra s „nedokonalými informacemi“, jelikož hráči před sebou skrývají karty, mohou blafovat a navíc nejsou v případě No Limit variantě omezeni maximálními hodnotami sázek.

chris-ferguson

Reprofoto: Chris Ferguson/Vimeo

Chris Ferguson, profesionální hráč pokeru a jeden z protivníků AI

Proto se dá za další velký milník ve vývoji schopností umělé inteligence považovat výhra počítačového programu Pluribus v pokerové hře tohoto typu s celkem šesti hráči. Protivníky přitom byli profesionální hráči pokeru, kteří si touto činností vydělali přes 1 milion dolarů a mnoho z nich dokonce více než 10 milionů dolarů. Proti umělé inteligenci se postavili například Chris Ferguson, Greg Merson nebo Darren Elias a další.

V průběhu 12 dní se hrálo celkem 10 tisíc her a počítač hrál jak proti pěti lidským, tak proti čtyřem dalším programům a jednomu člověku. Výtvor Facebooku a Univerzity Carnegieho–Mellonových za hodinu vyhrával průměrně kolem tisíce dolarů, což odpovídalo jednoznačnému vítězství.

mark-zuckerberg-facebook2

Přečtěte si takéRekordní pokuta za porušování soukromí Facebook nezmění. 5 miliard dolarů vydělá za tři měsíceRekordní pokuta za porušování soukromí Facebook nezmění. 5 miliard dolarů vydělá za tři měsíce

V blogovém příspěvku vědci, kteří na projektu pracovali, přiblížili proces učení programu, jehož předchůdce před pár lety porazil lidské protivníky v Texas Hold ’em ve hře pro dva hráče. Proti více soupeřům jde samozřejmě ještě o náročnější výkon.

Základním mechanismem pro zlepšování bylo hraní AI proti sobě samé: „AI začíná od nuly náhodnými tahy a postupně se zlepšuje s tím, jak zjišťuje, které akce a jaké rozdělení pravděpodobností mezi těmito akcemi vedou k lepším výsledkům proti dřívějším verzím jejích strategií.“

Průběh učení AI a výsledky turnaje popsali vědci ve studii vydané v jednom z nejprestižnějších recenzovaných vědeckých časopisů Science. Studie vysvětluje význam tohoto vítězství počítače nad člověkem jako důsledek nedostupnosti informací potřebných pro výhru hráčů. Právě kvůli tomu se je program schopen naučit hrát na nadlidské úrovni lépe, než je to například u hry Go, obsahující více možných tahů, než je atomů v celém vesmíru.

Navíc šachy, Go i Jeopardy mají pouze dva nebo tři výsledky hry – vítězství, prohra a remíza, kdežto poker jich má několik.

„AI nevnímá blafování jako klamavé. Vidí jen rozhodnutí, které ji v dané situaci vydělá nejvíce peněz.“

Může se zdát, že počítač má v matematických a logických ohledech větší výpočetní sílu než člověk a při dostatečném výkonu by mu tedy nedělalo problém předvídat možné kroky protihráčů daleko dopředu. Vědci ale přesně tuto snahu museli AI zamezit, protože už po několika tazích by se takový výpočet při daném množství hráčů a možných strategiích stal extrémně komplexní.

Noam Brown, vědec pracujících na projektu po boku svého kolegy Tuomase Sandholma, tedy za přelomový považuje nápad Pluribuse naučit vyhlížet jen dva nebo tři tahy napřed.

Darren Elias, jeden z protivníků AI

Takový přístup preferování okamžitého zisku před dlouhodobou strategií se v pokeru ukazuje být jako úspěšný a profesionální hráči u AI oceňovali její schopnost blafovat a být konzistentně nepředvídatelná. Mluvit o blafování v souvislosti s počítačovým programem je poněkud překvapivé, Brown ale říká, že se v základu stále nejedná o nic jiného, než matematicky vyjádřitelná strategie.

Pluribus se svým protihráčům nesnažil lhát ve smyslu, jako to dělají lidé: „AI nevnímá blafování jako klamavé. Vidí jen rozhodnutí, které ji v dané situaci vydělá nejvíce peněz,“ vysvětluje Brown pro magazín The Verge.

Kromě toho, že se hráči pokeru mohou od AI učit využívat netypické strategie při hře, mohou být podle vědců schopnosti Pluribuse využity v mnohem širším kontextu. Doufají v jeho aplikaci v oblastech, jako je kybernetická bezpečnost, prevence podvodů, finanční jednání a klidně i orientace v provozu pro samořídící vozidla. Velkým problémem dneška, s nímž by AI prý mohla pomoci, je také vývoj léků proti bakteriím odolným vůči antibiotikům.