Der von den TU-Studierenden Johannes Czech, Moritz Willig und Alena Beyer entwickelte Bot CrazyAra hat den Schachprofi Justin Tan in einem Online-Match der Schach-Variante Crazyhouse mit 4:1 geschlagen. Gelernt hat der Bot mittels Deep Learning, was ihm erlaubt, vorausschauend Entscheidungen zu treffen. Das Besondere: Die Studierenden konnten damit einen Erfolg auf einem Feld feiern, das sonst von Giganten wie Google dominiert wird.

 

Kristian Kersting, Professor für Maschinelles Lernen an der TU Darmstadt und einer der Leiter des studentischen Semesterprojekts, ordnet die Leistung der Studierenden ein: „Seit dem ,Schachtürken‘ im Jahr 1770 versuchten immer wieder findige Geister, neue und bessere Schachautomaten zu bauen. Mit der Erfindung des digitalen Computers in den 1950er Jahren begann die Schachprogrammierung. Schachprogrammierer entwickelten immer ausgefeiltere Algorithmen fürs Schachspielen. Die Schachprogramme Rybka, Houdini, Stockfish oder Komodo kann sich jeder leisten, und sie sind dem Menschen haushoch überlegen.“

Wie der Bot lernt

Im Gegensatz zu herkömmlichen Schachprogrammen lernt CrazyAra Schach zu spielen. Genauer gesagt: Das Programm lernt die Schachvariante Crazyhouse. Schlägt ein Spieler eine Figur seines Gegners, wird ihm die entsprechende Figur in seiner eigenen Farbe ausgehändigt, die er nach den gleichen Regeln wie beim Tandemschach einsetzen darf. Dazu folgten Johannes Czech, Moritz Willig und Alena Beyer dem Beispiel von DeepMinds AlphaGo, das 2016 Furore machte, weil es einen der weltbesten Profispieler im Brettspiel Go schlug.

CrazyAra erhielt circa 570.000 heruntergeladene Crazyhouse-Partien und versuchte damit, das demonstrierte Verhalten zu imitieren – daher auch der Name: Die Aras, eine Papageienart, sind für ihre Imitationsgabe bekannt. Der Anspruch der drei Studierenden lag aber nicht nur darin, ein Programm zu entwickeln, das das menschliche Spielverhalten imitiert, es sollte auch außerhalb des Trainingsbereichs funktionieren und vorausschauend Entscheidungen treffen können. Dazu lernt CrazyAra eine Nutzenfunktion, die beschreibt, welche Aussicht auf den Sieg eine Spielsituation oder ein Schachzug hat.

Mehr Spielzüge als Atome im Weltall

Leider gibt es beim Schach wahrscheinlich mehr Möglichkeiten für Spielzüge als es Atome im Weltall gibt. Daher greift CrazyAra auf die bei AlphaGo schon bewährten ,Tricks‘ der klassischen KI und des Maschinellen Lernens zurück: die Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS) und das Tiefe Lernen (Deep Learning). MCTS ist ein heuristischer Suchalgorithmus zum Finden der vielversprechendsten nächsten Züge. Er simuliert Einsetzschachpartien. In jeder Simulation wird das Spiel bis zum Ende gespielt, indem Züge und das Einsetzen von geschlagenen Figuren nach dem Zufallsprinzip ausgewählt werden. Das Endergebnis jeder Simulation wird dann verwendet, um die Knoten im Spielbaum so zu gewichten, dass in zukünftigen Simulationen eher bessere Knoten gewählt werden. Motiviert durch das menschliche Gehirn benutzt CrazyAra zur Bewertung künstliche neuronale Netzwerke mit mehreren Schichten. Die Schichten sind nacheinander so verschaltet und initialisiert, dass sie immer komplexere, höhere Merkmale (implizite Regelmäßigkeiten) der Bewertungsdaten automatisch lernen und erfassen. Daher kann das ,tiefe‘ Lernen auf viel komplexere Weise ablaufen, als es mit sogenannten ,flachen‘ Lernern möglich ist, die keine höheren Merkmale ableiten.

In ersten Versuchen mit dem Originaldesign von AlphaGo beobachteten die Studierenden, dass AlphaGo nicht in der Lage war, alle möglichen Spielzüge von Crazyhouse ausreichend abzubilden. Daher modifizierte das Trio das Originaldesign von AlphaGo im Rahmen eines Semesterprojekts für den Kurs ,Deep Learning: Architectures & Methods‘. Mittels so genannten ,sequeeze-and-excitation‘-Einheiten kann sich das Netzwerk zum Beispiel jetzt besser auf bestimmte Spielfelder je nach Spielsituation ,konzentrieren‘. Die MCTS beruft sich stärker auf die Bewertungsfunktion und auf bereits bewährte Züge. Dadurch konnte die Zahl der zu bewertenden Züge und damit der Rechenaufwand um eine Größenordnung reduziert werden. Die Studierenden arbeiteten mit einem Standardrechner mit einer GPU-Einheit (GeForce GTX 1080 Ti/PCIe/SSE2).

Ihre Entwicklungsarbeit zahlte sich im Match gegen Justin Tan aus, den mehrfachen World Champion, in der Community bekannt als ‚JannLee‘. Insgesamt wurden fünf Partien gespielt, die CrazyAra 4:1 gewann. Der australische Schachprofi zeigte sich beeindruckt von den Fähigkeiten des Darmstädter Bots und teilte nach den Spielen mit, dass er über das Spielverhalten sehr überrascht war, da er das Gefühl hatte, gegen einen Menschen und nicht gegen eine Maschine angetreten zu sein.

   

 

 

Quelle: TU Darmstadt

Bild: Patrick Bal/TU Darmstadt

Teilen: