Un programme informatique bat le champion européen Go

En 1997, l'ordinateur d'échecs Deep Blue a battu le champion du monde d'échecs Gary Kasparov dans un match de six matchs. Ce résultat a été ressenti comme un grand coup pour la fierté humaine – les échecs avaient été considérés comme un symbole de l'intellect humain unique. Léchant ses blessures, l'homme chercha un autre jeu pour remplacer les échecs comme symbole de l'intelligence. Il a choisi le jeu asiatique de Go.

Go est joué sur un plateau de 19 x 19, entre deux joueurs (noir et blanc). Une fois placée, une pièce (appelée "pierre") ne peut plus être déplacée. Le but du jeu est de gagner plus de territoire que l'adversaire, en entourant ses pierres. Les règles sont simples, mais le jeu est diaboliquement complexe, beaucoup plus que les échecs (Gobet, de Voogt & Retschitzki, 2004): il y a 10 172 positions possibles (une suivie de 172 zéros), beaucoup plus que le nombre de atomes dans l'univers connu. En comparaison, le nombre de positions dans les échecs est "seulement" 10 43 .

Comparé à d'autres jeux de société tels que les échecs et les dames, Go est plus stratégique et moins tactique. Autrement dit, les plans à long terme dominent les combinaisons à court terme. Cela est dû à la grande taille du plateau Go et au fait que les pierres ne bougent pas une fois placées sur le plateau. Une conséquence est que le jeu puise dans les aspects de la cognition où les humains sont forts (reconnaissance des formes, intuition, planification) et où les ordinateurs ont traditionnellement lutté. En revanche, le jeu ne correspond pas aux forces traditionnelles des ordinateurs, notamment la capacité de rechercher systématiquement un grand nombre d'états par la force brute.

Ainsi, alors que les ordinateurs ont longtemps été plus forts que les humains dans des jeux tels que les échecs, Othello et les dames, ils étaient plutôt pauvres à Go, étant incapables de progresser au-delà du niveau d'un bon amateur. Une percée majeure est survenue en 2006, lorsque les programmes informatiques ont considérablement augmenté leur force grâce à une technique simple mais surprenante appelée la recherche d'arbre de Monte-Carlo (Lee et al., 2009). Plutôt que de chercher systématiquement dans l'arbre des mouvements possibles, cette méthode génère des parties en choisissant au hasard des coups pour les deux joueurs. L'intuition est que, si un mouvement dans la position actuelle est meilleur que les alternatives, ce mouvement devrait conduire à de meilleurs résultats en moyenne, quand beaucoup de ces jeux sont joués, même si chaque mouvement individuel est sélectionné au hasard. Avec des variantes plus sophistiquées de cette technique, le choix des mouvements est biaisé par l'expérience précédente.

Percée avec AlphaGo

À la fin du mois de janvier dernier, la revue Nature a signalé une autre percée (Silver et al., 2016). Le programme AphaGo, développé par Google DeepMind, non seulement a saccagé tous les autres meilleurs programmes Go (99,8% des victoires), mais il a également battu Fan Hui, un joueur professionnel Go qui avait remporté le Championnat d'Europe à trois reprises. Le résultat était brutalement clair: cinq à zéro.

AlphaGo utilise une combinaison de trois techniques d'intelligence artificielle: la recherche d'arbre de Monte Carlo, dont nous venons de parler, l'apprentissage en profondeur et l'apprentissage par renforcement. Deep Learning consiste à ajuster les poids d'un réseau de neurones artificiels, en utilisant des techniques récemment développées (LeCun, Bengio, & Hinton, 2015). AlphaGo utilise deux réseaux: le premier suggère un mouvement dans une position donnée, et le second évalue la position dans son ensemble. Le programme apprend d'abord en scannant un grand nombre de jeux de maître (30 millions de positions). Ensuite, il joue un grand nombre de jeux contre lui-même, en ajustant les poids de ses réseaux en utilisant une technique appelée apprentissage par renforcement. Cette technique utilise la rétroaction obtenue par le résultat des jeux pour apprendre davantage. L'apprentissage par renforcement avait déjà été utilisé avec succès pour produire des programmes de haut niveau dans plusieurs jeux de société, y compris le backgammon (Tesauro, 1995). L'apprentissage complet est très coûteux en informatique et nécessite des ordinateurs puissants.

Lorsque vous jouez un adversaire, AlphaGo utilise ses deux réseaux pour évaluer les positions et biaiser la sélection des coups de telle sorte qu'il sélectionne les mouvements qui s'avèrent utiles dans le passé. Le programme fait un peu de planification, avec la recherche d'arbre de Monte Carlo. La beauté de cette approche est qu'AlphaGo utilise uniquement les connaissances qu'il a apprises lui-même. Cela contraste, par exemple, avec Deep Blue, qui utilise beaucoup de connaissances codées à la main par ses programmeurs (Campbell, Hoane, & Hsu, 2002).

Leçons pour l'expertise humaine

Que nous dit AlphaGo à propos de l'expertise humaine? Quelles sont les implications pour le monde de Go? Un premier résultat important est qu'AlphaGo confirme l'importance de la reconnaissance des formes et de l'intuition dans les jeux de société et vraisemblablement dans d'autres domaines d'expertise. En utilisant seulement sa capacité de reconnaissance de formes, et sans utiliser de recherche, AlphaGo bat encore la plupart des programmes informatiques. Ce n'est pas surprenant, étant donné que Go est un jeu stratégique, mais la façon dont AlphaGo parvient à capter cet aspect de l'expertise humaine est impressionnante. L'importance de la reconnaissance des formes chez les experts humains a été longtemps soulignée par plusieurs chercheurs (par exemple Adriaan De Groot, Herbert A. Simon et Hubert Dreyfus), même quand il y avait des différences importantes dans les spécificités de leurs théories (voir Gobet & Chassy, ​​2009).

En revanche, ce projet ne parle pas beaucoup de la planification et de la recherche humaines. La recherche d'arbre de Monte Carlo n'est pas très humaine: même les experts ne génèrent tout simplement pas des milliers de jeux (pseudo) aléatoires, collectant des statistiques en chemin. Ils effectuent des recherches plus subtiles et sélectives, où la reconnaissance des formes est étroitement liée à la recherche anticipée (Gobet, 1997). Alors qu'Alpha-Go utilise ses connaissances pour effectuer des recherches sélectives, il en fait beaucoup moins que les humains.

Les ordinateurs ont changé la façon dont les échecs sont joués au plus haut niveau. Ils ont ouvert de nouvelles voies conceptuelles et exposé des limites choquantes dans le jeu d'expert. En raison des jeux contre les ordinateurs, de l'utilisation d'ordinateurs pour la pratique et de l'utilisation de bases de données informatisées, la qualité du jeu s'est nettement améliorée au cours des deux dernières décennies. Des variantes d'ouverture jugées injouables sont maintenant employées, et d'autres jugées satisfaisantes ont été réfutées par des analyses informatiques. Une autre conséquence, cette fois un importun, est l'émergence de la tricherie en utilisant des ordinateurs. Il sera intéressant de voir si des développements similaires se produiront avec Go.

Il est hautement improbable qu'il y ait une acceptation universelle de l'intelligence artificielle comme supérieure à l'intellect humain. Les gens vont développer de nouveaux jeux et activités dans le but de préserver l'ascendance humaine sur les ordinateurs. Cela conduira à des techniques informatiques encore meilleures. Cette course aux armements entre intelligence humaine et intelligence informatique conduira à une meilleure compréhension de l'intelligence humaine et artificielle, au bénéfice des deux.

Le prochain défi

Alors que la performance d'AlphaGo est remarquable, il faut se rappeler qu'elle n'a pas encore battu le champion du monde (pour l'instant). Bien que champion d'Europe, Fan Hui est "seulement" un professionnel de 2 dan, et donc nettement plus faible que Go professionnel de haut niveau, qui sont classés 9 dan. C'est à peu près équivalent à la différence, aux échecs, entre un Maître et un Grand Maître de classe mondiale. En d'autres termes, un professionnel de 9 dan est susceptible de gagner plus de 95% du temps contre un professionnel de 2 dan.

Alors, quelle est la vraie force d'AlphaGo? Nous le saurons bientôt, car un match a été organisé entre AlphaGo et Lee Se-dol, un professionnel sud-coréen de 9 dan considéré comme l'un des meilleurs joueurs du monde. Alors que l'équipe derrière AlphaGo est optimiste quant à la victoire, les maîtres de Go croient que l'esprit humain prévaudra. Jonathan Schaeffer, informaticien lui aussi, a contribué à plusieurs percées dans les jeux informatiques: «Pensez à AlphaGo comme un enfant prodige. Tout à coup, il a appris à jouer vraiment bien Go, très rapidement. Mais il n'a pas beaucoup d'expérience. Ce que nous avons vu dans les échecs et les dames, c'est que l'expérience compte beaucoup. "

Fernand Gobet et Morgan Ereku

Les références

Campbell, M., Hoane, AJ, et Hsu, FH (2002). Bleu profond. Intelligence artificielle, 134, 57-83.

Gobet, F. (1997). Une théorie de reconnaissance de modèle de recherche dans la résolution de problèmes experts. Penser et raisonner, 3, 291-313.

Gobet, F., & Chassy, ​​P. (2009). Expertise et intuition: un conte de trois théories. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, et Retschitzki, J. (2004). Moves à l'esprit. Hove, Royaume-Uni: Psychology Press.

LeCun, Y., Bengio, Y., et Hinton, G. (2015). L'apprentissage en profondeur. Nature, 521, 436-444.

Lee, C.-S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). L'intelligence computationnelle de MoGo a été révélée dans les tournois Go de Taiwan. Transactions IEEE sur l'intelligence informatique et AI dans les jeux, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Maîtriser le jeu de Go avec les réseaux de neurones profonds et la recherche d'arbres. Nature, 529, 484-489.

Tesauro, G. (1995). Apprentissage de la différence temporelle et TD-Gammon. Communications de l'ACM, 38, 58-68.