Wetenschap & Techniek

Go-software AlphaGo Zero verplettert alles en iedereen zonder menselijke hulp

foto: NPO Radio 1foto: NPO Radio 1

Nieuws
Go-software AlphaGo Zero verplettert alles en iedereen zonder menselijke hulp

[NTR] AlphaGo was al iedere menselijke Go-speler de baas, maar opvolger AlphaGo Zero maakt het nog bonter: die verslaat zijn voorganger AlphaGo met 100 – 0. En in tegenstelling tot zijn voorganger had het programma daar geen enkele voorkennis voor nodig.

De spelregels van Go zijn simpeler dan die van schaken; verover zoveel mogelijk gebied met de steentjes die je hebt. Toch zijn er bij Go veel meer variaties mogelijk. Ter illustratie: Bij schaken zijn er per beurt ongeveer 20 zetten mogelijk. Bij Go zijn dat er 200. Dit betekent dat een potje Go bij een normaal speelbord uit wel 2.08168199382×10 tot de 170ste macht verschillende zetten kan bestaan. Een onvoorstelbaar groot getal.

Om deze inhoud te tonen moet je toestemming geven voor social media cookies.

Het is daarom dat we al wel heel lang schaakcomputers hebben - herinnert u zich meesterschaker Kasparov nog die in 1997 werd uitgeschakeld door de computer Deep Blue, van IBM? - en we pas sinds kort een Go-computer hebben. Deze AlphaGo-computer versloeg vorig jaar Lee Sedol, de wereldkampioen in Go, maar kon dit alleen doen door miljoenen zetten te analyseren die door mensen gedaan zijn in eerder gespeelde spellen. Voor de benodigde rekenkracht maakte ‘AlphaGo Lee’, zoals deze versie van het algoritme genoemd werd, gebruik van meerdere computers met in totaal 48 speciaal gemaakte processoren (TPU’s).

Wat is er nieuw?

Het nieuwe algoritme, AlphaGo Zero, is zo geprogrammeerd dat het leert door zelf te spelen. Het algoritme kent alleen de spelregels en het doel van het spel, maar heeft nog geen kennis van tactieken en vervolgzetten, zoals zijn voorganger die wel had. De computer begint dus eigenlijk als een hele belabberde beginner die nog geen idee heeft van hoe hij een potje daadwerkelijk kan winnen en op goed geluk zetten doet. Hij bouwt zelf een dataset op met goede en foute zetten, waardoor hij alleen de zetten opslaat die voor hem van belang zijn. Dit is uitzonderlijk omdat bij AI meestal geleerd word vanuit bestaande kennis, zoals datasets met alle mogelijke variaties waaruit de AI de best opties kiest. Dit is echter niet efficiënt en kost veel rekenkracht, opslagcapaciteit en tijd.

Hoe werkt AlphaGo Zero?

Zero is geprogrammeerd om efficiënter te werken dan zijn voorganger. Hij leert door tegen zichzelf te spelen. Op basis van zijn eigen fouten en successen, en die van de ‘tegenstander’, maakt hij bij elke zet een voorspelling van zijn volgende zet. Hoe vaker hij een zet voorspelt die succes heeft hoe minder vaak hij dit de volgende keer hoeft op te zoeken in zijn dataset. Daarnaast maakt hij bij elke zet een voorspelling van wie het potje gaat winnen door verschillende uitkomsten te simuleren. Vervolgens past hij zich hierop aan. Hoe meer potjes hij speelt hoe beter en slimmer hij wordt.

Daarnaast loopt de leercurve snel op omdat hij tegen zichzelf speelt. Als hij slimmer wordt, wordt zijn ‘tegenstander’ dat automatisch ook. Zero oefent dus altijd met een tegenstander die even sterk is als hij. Opvallend is dat Zero op deze manier een hele eigen stijl van spelen ontwikkelt. Naast dat hij zetten doet die mensen ook zouden doen om te winnen, komt het algoritme met strategieën die nog nooit vertoond zijn. Dit terwijl het spelletje toch al ruim 2500 jaar bestaat.

Bovenmenselijke resultaten zonder menselijke input

Bij zijn eerste training speelde Zero in 3 dagen tijd 4,9 miljoen spelletjes tegen zichzelf, per zet deed hij 1600 simulaties om de beste beslissing te nemen. De onderzoekers rekenden op basis hiervan uit dat Zero ongeveer 0,4 seconden nodig heeft om een beslissing te nemen. Na 36 uur tijd kon Zero al zijn voorganger AlpaGo Lee verslaan. Dit terwijl ‘Lee’ enkele maanden nodig had om op niveau te komen. De onderzoekers lieten Zero 100 potjes tegen Lee spelen. Lee met zijn 48 TPU’s aan rekenkracht op meerdere computers, en Zero op 1 computer met 4 TPU’s. Op het moment staat het 100 – 0 voor Zero.

Makkelijk toe te passen in andere systemen

De onderzoekers hebben het spelletje Go gekozen vanwege het grote aantal variaties. Dit spel was hierdoor een van de grootste uitdagingen op het gebied van zelflerende AI. Toch, zeggen ze, is het door hun ontwikkelde algoritme generiek genoeg om in andere zelflerende systemen gebruikt te worden. De opzet van het algoritme is namelijk dat het in een kale “domme” vorm begint, zonder veel specifieke kennis over de situatie waarin het zich bevindt, maar zodra het begint te leren over zijn omgeving gedraagt het zich steeds specifieker. Die kale vorm van het algoritme past zich aan de situatie aan waarin het begint en kan dus relatief makkelijk in andere systemen geplaatst worden. De onderzoekers zeggen dat hun stukje software het bewijs is dat goede algoritmes belangrijker zijn dan rekenkracht of beschikbaarheid van grote hoeveelheden aan data.

Dit artikel is verzorgd door de wetenschapsredactie van De Kennis van Nu (NTR).