Poker pokořen (Bowlingem:)  
Poker se přiřadil k šachům a dámě, tedy hrám, které nemá smysl hrát s umělou inteligencí.


 

 
Michael Bowling
profesor na University of Alberta

Jeden život nestačí
I kdybyste za 70 let, 12 hodin denně sehráli  60 milionů kol pokeru a neudělali jedinou chybu, stále nebudete schopni se statistickou významností říci, že jste lepší než program Cepheus. Toto tvrdí profesor výpočetních věd s typicky hráčským jménem Michael Bowling , který s kolegy vytvořil tento program na University of Alberta v Kanadském Edmontonu.

 

 
Program Cepheus samozřejmě nevyhraje v každém kole. Podle svých tvůrců ovšem hraje tak dobře, že bude mít navrch alespoň tak dlouho, dokud bude jakýkoliv jeho lidský protivník naživu.

Oproti šachům nebo dámě, kde znáte celý minulý průběh hry, má poker tu nepříjemnou vlastnost, že neznáte odehrané karty protihráčů z minulých kol. To značně zvyšuje nejstotu ohledně karet, které ještě v balíčku zůstavají. Z tohoto důvodu se vědci rozhodli nejrozšířenější variantu pokeru “Texas hold’em poker“ omezit na dva hráče a zafixovali horní limit sázek. Hra se tak stala problémem s uzavřeným počtem řešení. I tak zůstává 3,16 x 10 17 kombinací, kterých může hra nabýt, a hráč se může ocitnout v 3,19 x 10 14 situacích, kdy se musí rozhodnout.


Kdo neblafuje, nevyhraje
Program byl navržen tak, aby si svou strategii vytvořil učením z předešlých zkušeností . Na úroveň šampiona se dostal po odehrání více jak miliardy miliard her sám proti sobě. Nejdříve hrál „na slepo“ a následně bylo každé rozhodnutí hodnoceno koeficientem „lítosti“, podle toho, jak mizerně to dopadlo. Pokerové programy samozřejmě vytvářejí i jiní vývojáři na podobném principu. Společně si pak již od roku 2006 porovnávají síly na Výročním turnaji počítačového pokeru.  Nyní bylo nově programu umožněno znovu přehodnotit mizerná rozhodnutí z minulých kol.

Zvětšit obrázek
Kombinace karet v ruce rozdávajícího v situaci, kdy se rozhoduje, co udělá jako první krok hry; nad diagonálou karty stejné barvy, pod diagonálou karty různých barev. V zelených polích zvýší sázku, v modrých polích nezvedá sázku, v červených polích zahodí karty, přičemž kombinace barev představuje stochastické rozhodování.

Vývojáři se museli poprat i s tím, že databáze kombinací pro tvorbu strategie programu zabírá úctyhodných 262 terabytů, což je možné v současnosti uložit pouze na disková úložiště s nepříjemně pomalým čtením. Vytvořili kompresní metodu, která objem smrskla na lépe zvládnutelných 11 terabytů, což čtení databáze zrychlilo o příjemných 95 %
Celkem se na trénování programu po dobu dvou měsíců podílelo 4000 počítačů, které vyhodnocovaly 6 miliard kol každou sekundu. To je víc her pokeru, než mohlo kdy nahrát celé lidstvo.
Nedílnou součástí této téměř perfektní strategie je samozřejmě blafování. Lidé to vidí spíše jako psychologickou záležitost, ale podle slov Michaela Bowlinga vypadlo blafování samo z matematického modelu hry. Lze pak dopočítat, jak často je třeba klamat tělem, aby bylo dosaženo optimálního výsledku.

 

Zvětšit obrázek
Kombinace karet v ruce hráče v situaci, kdy rozdávající zvedá sázky; nad diagonálou karty stejné barvy, pod diagonálou karty různých barev. V zelených polích zvýší sázku, v modrých polích nezvedá sázku, v červených polích zahodí karty, přičemž kombinace barev představuje stochastické rozhodování.


Využití v praxi
Vyhodnocení strategie ověřilo obecně tušený fakt, že rozdávající má značně zvýhodněnou pozici. Též se ukázalo, že se ve většině případů vyplatí v prvním kole zvýšit sázky oproti ponechání sázek na stejné výši. Protihráče to může přimět okamžitě složit karty. Cepheus též často zůstane ve hře i v případě, že má v ruce úplný šmízl, což by mohlo lidského protihráče přimět k zahození karet.

Kromě toho, že si může proti programu Cepheus zahrát každý, má práce Michaela Bowlinga a jeho kolegů i reálné využití. Rozšířili nástroje pro modelování teorie her o postupy, které se dají použit proti libovolnému protihráči v prostředí s nedokonalými informacemi. Dvě strany proti sobě se záměrem konfliktu, kdy ani jedna strana neví, jestli protivník zaútočí, nebo se stáhne. Typický případ jsou teroristi vs. národní bezpečnostní síly.

Bowling už ovšem například spojil síly s lékaři specializovanými na cukrovku ve snaze najít optimální algoritmus pro léčení pacientů, přičemž zde je choroba v roli protivníka.

 

Zdroje:
http://www.nature.com/news/game-theorists-crack-poker-1.16683
http://www.sciencemag.org/content/347/6218/145.abstract
http://poker.srv.ualberta.ca/
http://webdocs.cs.ualberta.ca/~bowling/
http://cs.wikipedia.org/wiki/Texas_hold_%27em
http://www.washingtonpost.com/news/speaking-of-science/wp/2015/01/08/meet-cepheus-the-virtually-unbeatable-poker-playing-computer/

Autor: Jan Zikmund
Datum: 09.01.2015 22:16
Tisk článku


Diskuze:


Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce








Zásady ochrany osobních údajů webu osel.cz