En retard joyeux anniversaire AlphaZero

Intelligence machine et science psychologique cognitive

Rencontrons AlphaZero

AlphaZero est un programme d’apprentissage automatique développé par DeepMind qui a acquis une connaissance approfondie du jeu d’échecs créatif par le biais d’un apprentissage en profondeur, sans aucun accompagnement humain. Il est maintenant le plus fort des échecs, le jeu d’échecs japonais (shogi) et le joueur de Go au monde, battant systématiquement les meilleurs joueurs et les meilleurs moteurs d’échecs. Pourquoi voudrais-je un joyeux anniversaire? Je veux dire, pourquoi devrais-je le féliciter pour sa naissance? La réponse courte est que c’est parce que j’ai récemment appris qu’AlphaZero avait obtenu un aperçu en octobre 2017 et était donc devenu vraiment intelligent à mon avis. D’où mon souhait tardif de joyeux anniversaire.

Mon utilisation du terme «perspicacité» a été suggérée par le New York Times suivant, le 26/12/18: «Le plus troublant était que AlphaZero semblait exprimer une perspicacité. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il a joué gambits et a pris des risques ”. La commande Google “define: insight” renvoie la définition principale suivante: “capacité à acquérir une compréhension intuitive profonde et profonde d’une personne ou d’une chose”. Les synonymes de insight incluent: intuition, perception, conscience, discernement, compréhension, compréhension, appréhension. , appréciation, perspicacité et astuce. Une définition secondaire de la perspicacité est «une compréhension profonde d’une personne ou d’une chose». Ce sont les qualités d’une entité véritablement intelligente.

Matthew Sandler et Natasha Regan sont tous deux des maîtres d’échecs anglais. Ils ont écrit un livre intitulé Game Changer , publié par New in Chess , dans lequel ils analysent les connaissances des jeux d’échecs et de Go qu’AlphaZero a développées par lui-même, sans aucune aide humaine. Ils ont dit qu’AlphaZero avait découvert des ouvertures et des stratégies bien connues tout en apprenant à jouer aux échecs tout seul. Ils ont ajouté que le groupe avait également développé de nouvelles stratégies créatives impressionnantes à long terme, car il n’était pas limité par la sagesse conventionnelle transmise par les programmeurs. Nous avons ici des grands maîtres admirant les connaissances acquises par AlphaZero. On pourrait soutenir qu’AlphaZero a pu obtenir de nouvelles connaissances précisément parce que la sagesse humaine conventionnelle a été dissimulée, libérant ainsi AlphaZero de tout préjugé humain. La capacité à obtenir un aperçu est une caractéristique humaine vraiment intelligente. La «naissance» d’une intelligence aussi révolutionnaire et remarquable mérite une reconnaissance respectueuse. Par conséquent, je souhaite un joyeux anniversaire tardif à AlphaZero!

Généralisable

La généralisabilité est un test de validité. La généralisabilité a longtemps été un problème majeur pour les programmes d’intelligence artificielle (IA) traditionnels basés sur des règles. Leurs réalisations ont été limitées à des tâches très spécifiques. Les programmes basés sur des règles sont hautement spécialisés et ne peuvent faire que ce pour quoi ils ont été programmés. Ils ne se généralisent pas à des tâches similaires car ils ne peuvent pas apprendre seuls. Ils attendent que les humains leur fournissent de nouvelles règles supplémentaires.

En s’enseignant lui-même aux échecs, au shogi et au Go, AlphaZero a démontré qu’il pouvait découvrir de nouvelles connaissances par lui-même grâce à l’apprentissage par renforcement. Cette capacité à généraliser en apprenant seul est une réalisation remarquable. Apprendre seul est la marque de la véritable intelligence. On peut soutenir que cette capacité établit la supériorité de l’IA basée sur le cerveau par rapport à l’IA basée sur des règles. De plus amples détails sont disponibles.

Un autre projet DeepMind, un programme appelé AlphaFold, utilise l’approche approfondie de l’intelligence artificielle basée sur un réseau de neurones basé sur le cerveau pour résoudre un problème extrêmement complexe qui a jusqu’à présent échappé aux scientifiques. Je me réfère à comprendre comment les protéines se replient. La manière dont les protéines se replient dans le corps en structures tridimensionnelles détermine la manière dont elles se lieront à d’autres molécules, y compris à de nouveaux médicaments. Cette connaissance est la clé pour comprendre et prédire les effets des nouveaux médicaments. AlphaFold progresse maintenant dans la compréhension de ce processus.

Le reste de ce blog compare des modèles psychologiques basés sur l’esprit à des modèles psychologiques basés sur le cerveau avant de fournir quelques principes de base du réseau qui nous permettent de mieux comprendre l’apprentissage en profondeur de machines connexionnistes telles que AlphaZero et AlphaFold.

Modèles basés sur le cerveau et basés sur l’esprit

Modèles basés sur l’esprit

La psychologie a commencé comme une branche de la philosophie naturelle où des explications du comportement humain fondées sur l’esprit étaient dérivées de l’introspection. Les psychologues cognitifs traditionnels ont poursuivi cette pratique en affirmant que les gens apprennent et se comportent parce que l’esprit suit des règles qui régissent la manipulation des symboles. La preuve que cette théorie est fausse peut être obtenue en interrogeant des experts sur les règles qu’ils respectent lorsqu’ils travaillent. Les experts ne reconnaissent généralement pas et ne signalent pas qu’ils suivent des règles de quelque sorte que ce soit lorsqu’ils travaillent. Ils ont peut-être suivi les règles lorsqu’ils étaient novices, mais ils sont allés au-delà du suivi des règles en devenant des experts. Mais beaucoup de psychologues cognitifs continuent à agir comme si les gens suivaient toujours les règles quand ils pensaient et se comportaient. Agir comme si quelque chose était vrai alors que ce ne l’était pas peut être pratique pour les professionnels, mais cela n’a pas été très fructueux, comme nous le verrons plus loin.

L’approche de manipulation de symboles basée sur des règles a caractérisé les efforts initiaux visant à créer une intelligence artificielle. Par exemple, les ordinateurs étaient autrefois programmés avec de nombreuses règles pour jouer aux échecs, mais ils ne s’en sont jamais très bien tirés. Les ordinateurs étaient programmés avec de nombreuses règles pour identifier les personnes à partir de photographies ou de vidéos, mais ils s’en tiraient encore moins bien et ils ne pouvaient pas le faire en temps réel. Les limites de l’approche basée sur des règles sont manifestes, mais de nombreux psychologues cognitifs continuent d’expliquer le comportement humain en termes de règles et de suivi de règles, parce qu’ils l’ont toujours fait et parce qu’ils appuient leur métaphore informatique. Ils comprennent que le cerveau agit comme un matériel informatique et que l’esprit agit comme un logiciel dans lequel les règles sont comme des programmes informatiques qui régissent la façon dont les gens pensent, se sentent et se comportent.

Ces mêmes psychologues cognitifs admirent les réalisations de systèmes d’apprentissage de l’intelligence artificielle tels que AlphaZero, mais ne leur font pas confiance, car ils ne peuvent pas comprendre leur façon de penser car ils ne génèrent pas de symboles, ni ne forment ni ne suivent des règles telles que nous les comprenons normalement. Par conséquent, AlphaZero ne peut pas communiquer avec ces psychologues cognitifs d’une manière qu’ils comprennent. Le problème ici est que AlphaZero apprend comme le cerveau, pas comme on dit de l’esprit. Une nouvelle façon de comprendre comment AlphaZero pense est pertinente pour comprendre le fonctionnement du cerveau. Cette nouvelle approche peut également être utilisée pour comprendre la psychologie cognitive basée sur des modèles de réseau neuronal.

Modèles basés sur le cerveau

Les modèles de réseaux neuronaux connexionnistes, également appelés réseaux de neurones, apprentissage en profondeur et intelligence machine, sous-tendent et expliquent le fonctionnement d’Alpha Zero. Ces modèles adoptent une approche cérébrale pour expliquer la psychologie cognitive. Ils ont été sérieusement étudiés depuis McClelland et Rumelhart et Rumelhart et McClelland ont publié leurs travaux fondamentaux en 1986. En 2014, j’ai publié une approche explicative de la psychologie en réseau neuronale connexionniste dans mon livre intitulée Neuroscience cognitive et psychothérapie: Principes de réseau pour La théorie . Il reflète les développements intervenus au cours des décennies écoulées depuis 1986.

Les modèles de réseau neuronal sont constitués de trois couches ou plus de nœuds de traitement interconnectés qui possèdent bon nombre des mêmes propriétés fonctionnelles que les neurones réels. Par exemple, chaque neurone artificiel reçoit les entrées de nombreux autres neurones artificiels, comme le font les neurones réels. Chaque neurone artificiel additionne ces entrées et génère une sortie si la somme de leurs entrées dépasse un seuil, comme le font les neurones réels.

Les neurones artificiels sont connectés les uns aux autres par des synapses simulées appelées poids de connexion. Ces poids sont initialement définis sur de petites valeurs aléatoires. L’apprentissage et la mémoire se produisent en ajustant progressivement ces poids sur les essais d’apprentissage. Le résultat final est un réseau où les nœuds de traitement sont interconnectés avec des pondérations optimales pour les tâches considérées. Les poids de connexion sont tellement centraux dans la fonctionnalité des modèles de réseau neuronal connexionniste que le terme connectionniste est souvent omis. Les systèmes de réseaux neuronaux connexionnistes peuvent agir comme s’ils suivaient des règles, mais ils ne formulent ni ne suivent jamais les règles telles que nous les comprenons normalement et ils ne génèrent certainement pas de symboles. Des détails supplémentaires sont fournis dans la section suivante.

Comprendre les modèles basés sur le cerveau

Je trouve que la meilleure façon de comprendre les systèmes de réseaux de neurones utilisés par AlphaZero et d’autres intelligences artificielles d’apprentissage en profondeur est de comprendre les principes qui les régissent. Ces principes de réseau peuvent également être compris comme des propriétés de réseau neuronal. Je discute maintenant de quatre de ces principes / propriétés. Il y en a d’autres, mais ces quatre sont fondamentales et devraient vous aider à démarrer. Voir Tryon (2012, 2014) pour plus d’informations.

Principe / Propriété 1: Architecture

L’architecture neuronale des vrais cerveaux est importante pour leur fonction. Par exemple, le cervelet a des circuits spéciaux qui lui permettent de contrôler rapidement nos muscles afin que nous puissions marcher, courir et faire du sport. De même, l’architecture des réseaux de neurones artificiels est importante pour leur fonctionnement. Par exemple, les réseaux de neurones ne comportant que deux couches, appelés Perceptrons, ne peuvent pas résoudre certains problèmes logiques. Les réseaux à trois couches ou plus peuvent résoudre tous les problèmes logiques. La preuve mathématique existe que les réseaux de neurones multicouches peuvent potentiellement résoudre tous les types de problèmes. Voir Hornik, Stinchcombe et White (1989, 1990) pour une preuve mathématique de cette affirmation.

Principe / Propriété 2: Cascade de réseau: traitement inconscient

Les activations générées par des neurones artificiels se répercutent en cascade sur des réseaux de neurones artificiels de la manière décrite ci-dessous qui reflète la manière dont les activations générées par de vrais neurones se répercutent en cascade sur des réseaux de cerveau réels. La plupart des traitements cérébraux se font inconsciemment. La célèbre analogie des icebergs reflète fidèlement ces événements. Les quatre-vingt-dix pour cent d’un iceberg immergé dans l’eau représentent et sont proportionnels au traitement cérébral inconscient. Les dix pour cent d’iceberg au-dessus de l’eau représentent et sont proportionnels au traitement cérébral conscient. Voir Cohen, Dunbar et McClelland (1990) pour plus de détails.

La figure suivante illustre le fonctionnement de la cascade réseau. C’est un réseau très simple, mais il doit être adapté à cette page. La couche supérieure de trois cercles simule trois neurones d’entrée. Ils peuvent être compris comme des neurones sensoriels. Le chiffre «1» à l’intérieur du cercle indique que le neurone simulé est actif. Le nombre «0» indique que le neurone simulé est inactif. Ensemble, ils définissent les trois entrées de ce système comme suit: 1, 0, 1.

Warren W. Tryon

Réseau neuronal illustratif

Source: Warren W. Tryon

Les états «activé», «désactivé» des neurones simulés dans les deux couches suivantes sont calculés plutôt qu’attribués. La deuxième couche de trois ensembles de trois boîtes simule des synapses qui connectent les neurones simulés dans la couche supérieure d’entrée avec les trois neurones supplémentaires simulés dans la troisième couche. Les trois boîtes de gauche de la deuxième rangée représentent les synapses simulées reliant le neurone simulé de gauche de la rangée supérieure aux trois neurones simulés de la troisième rangée. Le groupe central de trois boîtes de la deuxième rangée relie le neurone moyen simulé de la rangée supérieure aux trois neurones simulés de la troisième rangée. Les trois boîtes de droite de la deuxième rangée représentent les synapses simulées reliant le neurone simulé de droite dans la rangée supérieure aux trois neurones simulés de la troisième rangée. Les entrées positives simulent une excitation. Les entrées négatives simulent l’inhibition. Ces valeurs sont appelées poids de connexion car elles spécifient la force de la connexion entre deux neurones simulés. Les valeurs actuelles peuvent être considérées de deux manières. Une possibilité est qu’elles soient les premières valeurs attribuées aléatoirement au démarrage. Une autre possibilité est qu’ils reflètent l’état du réseau lors d’une étape de traitement arbitraire.

Les états on = 1, off = 0 des trois neurones simulés de la troisième couche sont calculés et non affectés. Je détaille maintenant les calculs pertinents. Notez que chacun des trois neurones simulés dans la troisième rangée a trois entrées; un de chacun des neurones simulés dans la première rangée. Ces entrées correspondent à l’état du neurone émetteur, 1 s’il est actif, 0 s’il est inactif, multiplié par le poids de la connexion, comme suit. Les entrées du neurone de gauche dans la troisième couche sont égales à 1 (.1) + 0 (-. 2) + 1 (.3) = .4. Ce résultat est comparé à un seuil qui dans ce cas est zéro mais pourrait être une autre valeur. Si la somme des entrées dépasse zéro, est positive, comme c’est le cas dans ce cas, le neurone simulé récepteur, celui de gauche, devient actif ou reste actif s’il était actif auparavant, comme indiqué par le 1 à l’intérieur. le cercle représentant le neurone simulé de la main gauche dans la troisième couche. Parce que zéro fois, tout est égal à zéro, la somme des entrées multiples est égale à la somme des poids de connexion associés aux neurones d’envoi simulés actifs.

Les entrées du neurone central simulé dans la troisième rangée sont 1 (.3) + 0 (.1) + 1 (.2) = .5, ce qui active ce neurone simulé comme indiqué par le nombre 1 dans son cercle. Les entrées du neurone simulé de droite dans la troisième ligne sont 1 (-. 1) + 0 (.3) + 1 (-. 3) = -.4. Ce qui désactive ce neurone simulé, le désactive s’il était auparavant. sur, comme indiqué par le nombre 0 dans son cercle.

Le statut des deux neurones calculés simulés dans la cinquième rangée est contrôlé par les états calculés des trois neurones de la troisième rangée et les synapses simulées, poids de connexion, dans les cases de la quatrième rangée. Le neurone simulé de gauche de la cinquième rangée devient inactif car la somme de ses entrées de 1 (-. 2) + 1 (-. 2) + 0 (.4) = -.4 est négative et donc inférieure au seuil de zéro. . Le neurone simulé de droite dans la cinquième rangée devient actif car la somme de ses entrées de 1 (.2) + 1 (.1) + 0 (.3) = .3 est positive et dépasse donc le seuil de zéro.

L’activation des neurones simulés dans la couche supérieure d’entrée est réputée cascade à travers les synapses simulées aux neurones restants simulés. Ce processus est automatique et déterministe.

Principe 3 / Propriété: Plasticité dépendante de l’expérience

Le réseau calculera toujours le même résultat si tout est laissé tel quel. Aucun développement ne se produira. Le réseau calculera un résultat différent si les valeurs d’entrée sont modifiées. Mais le réseau n’apprendra pas à faire mieux si les poids de connexion restent les mêmes. L’apprentissage nécessite que les poids de connexion soient modifiés. La quantité de changement est déterminée par des équations simulant les effets des mécanismes biologiques de plasticité synaptique dépendant de l’expérience, qui modifient les synapses réelles entre neurones réels lorsque nous apprenons et formons des mémoires.

La modification des poids de la connexion signifie que le réseau calcule une nouvelle réponse aux anciennes valeurs d’entrée du stimulus. Les poids de connexion sont modifiés conformément aux méthodes de descente de gradient qui garantissent essentiellement une meilleure réponse du réseau de manière incrémentielle.

Je souhaite fournir trois points à la maison ici. Le premier point sur lequel je souhaite insister est que l’apprentissage et la mémoire sont des principes fondamentaux de toute psychologie, car la psychologie n’existerait pas si nous ne pouvions pas apprendre et former des mémoires par modification synaptique. Le deuxième point sur lequel je souhaite insister est que tous les aspects de notre psychologie sont contenus dans ce que Seung (2012) appelle notre connectome ; la collection complète de nos synapses. Le troisième point que je souhaite souligner est que les mécanismes de plasticité dépendant de l’expérience permettent à nos expériences de modifier physiquement notre cerveau et donc de modifier notre façon de penser, de ressentir et de nous comporter. Ce processus n’a rien de mental ou de magique.

Principe 4 / Propriété: Apprentissage par renforcement

Les psychologues du comportement tels que BF Skinner ont expliqué que le comportement est renforcé, il devient plus probable, grâce au renforcement par des conséquences positives ou négatives qui suivent le comportement. Il ne pouvait pas expliquer les processus physiques du changement synaptique qui permettaient un changement de comportement. Il a simplement reconnu le changement en affirmant que le rat conditionné avait survécu en tant que rat modifié. Il s’est rendu compte que l’expérience changeait le cerveau mais ne pourrait pas être plus informative, car la biologie de l’apprentissage et de la mémoire en était à ses balbutiements à cette époque.

L’apprentissage par renforcement est maintenant beaucoup mieux compris. C’est un processus incrémental qui n’a aucun sens d’un point de vue cognitif basé sur l’esprit, où l’apprentissage et la mémoire impliquent le respect de règles pour manipuler les symboles. Les symboles ne sont pas générés un peu à la fois. Il n’est pas non plus logique que les symboles changent un peu à la fois ou que leur signification soit modifiée un peu à la fois. Par conséquent, il semblait que l’apprentissage par renforcement était incapable d’expliquer le fonctionnement de la cognition.

Cependant, l’apprentissage par renforcement est très utile du point de vue du réseau de neurones connexionnistes basé sur le cerveau décrit ci-dessus, dans lequel les poids de connexion entre neurones commencent à des niveaux aléatoires et sont progressivement ajustés au cours de l’apprentissage afin de converger vers des valeurs optimales par le biais d’un processus de changement progressif connu sous le nom de descente de gradient.

AlphaZero a développé ses compétences cognitives supérieures grâce au processus incrémental d’apprentissage par renforcement. Cette réalisation montre que les psychologues cognitifs traditionnels ont eu tort de ne pas considérer l’apprentissage par renforcement comme une explication valable du développement des processus cognitifs.

L’apprentissage par renforcement est une forme d’ évolution car il dépend de manière critique de la variation et de la sélection . Les succès et les échecs façonnent ensemble le comportement futur. Skinner a toujours maintenu que le comportement des animaux et des hommes évoluait de manière ontogénique (au cours de la vie) et phylogénétiquement (sur plusieurs générations). L’apprentissage par renforcement est un moyen efficace pour les systèmes connexionnistes d’intelligence artificielle d’apprendre par eux-mêmes de leurs expériences. L’apprentissage par renforcement résout efficacement des problèmes trop complexes pour lesquels des solutions de programme sont proposées. Par exemple, c’est la méthode utilisée pour apprendre aux voitures à conduire elles-mêmes.

Conclusions

AlphaZero est une intelligence super artificielle basée sur le cerveau, capable de comprendre, ce qui la rend beaucoup plus humaine que les machines d’intelligence artificielle traditionnelles. Il peut généraliser son apprentissage de la même manière que les intelligences artificielles traditionnelles fondées sur des règles. Il ajuste rapidement ses synapses simulées par apprentissage par renforcement. Il ne génère pas de symboles, ne formule et ne suit pas les règles telles qu’elles sont généralement comprises. Par conséquent, les intelligences des réseaux de neurones telles que AlphaZero et AlphaFold ne peuvent pas aider les psychologues cognitifs traditionnels à comprendre leur fonctionnement. Une orientation réseau neuronal est nécessaire pour le faire. Les quatre principes / propriétés du réseau de neurones discutés ci-dessus peuvent nous aider à mieux comprendre les intelligences artificielles telles que AlphaZero.

Le succès d’AlphaZero nous dit au moins deux choses. Premièrement , il fournit une preuve empirique que l’apprentissage par renforcement est suffisant pour expliquer l’acquisition de compétences cognitives complexes, y compris la capacité de parvenir à un aperçu. Deuxièmement , il soutient la validité des modèles basés sur le cerveau par rapport aux modèles basés sur l’esprit. Ceci constitue un changement de paradigme majeur en psychologie cognitive.

Joyeux anniversaire AlphaZero!

Références

Cohen, JD, K. Dunbar et JL McClelland (1990). Sur le contrôle des processus automatiques: Un compte de traitement distribué parallèle de l’effet Stroop. Psychological Review, 97, 332-361. doi: 10.1037 // 0033-295X.97.3.332

Hornik, K., Stinchcombe, M. et White, H. (1989). Les réseaux à feed-forward multicouches sont des approximateurs universels. Neural Networks, 2, 359-366. doi: 10.1016 / 0893-6080 (89) 90020-8

Hornik, K., Stinchcombe, M. et White, H. (1990). Approximation universelle d’une cartographie inconnue et de ses dérivées à l’aide de réseaux prédictifs multicouches. Neural Networks, 3, 551-560. doi 10.1016 / 0893-6080 (90) 90005-6

McClelland, JL, Rumelhart, DE et le groupe de recherche PDP (1986). Traitement réparti parallèle: Explorations dans la microstructure de la cognition, vol. 2: Modèles psychologiques et biologiques . Cambridge, MA: MIT Press.

Rumelhart, DE, McClelland, JL et le groupe de recherche PDP (1986). Traitement réparti parallèle: Explorations dans la microstructure de la cognition, vol. 1: Fondations . Cambridge, MA: MIT Press.

Seung, S. (2012). Connectome: Comment le câblage du cerveau fait de nous ce que nous sommes . Boston: Houghton Mifflin Harcourt.

Tryon, WW (2012). Une approche réseau connexionniste de la science psychologique: principes fondamentaux et corollaires. Review of General Psychology, 16 , 305-317. doi: 10.1037 / a0027135

Tryon, WW (2014). Neurosciences cognitives et psychothérapie: Principes de réseau pour une théorie unifiée . New York: Presse académique.