Enseigner l'iPhone à conduire

* Cet article co-écrit avec le neuro-physicien Los Alamos Michael Ham

C'est l'histoire d'une singularité à venir.

Pour ceux qui ne sont pas familiers, le terme «singularité» vient de l'astrophysique, où c'est techniquement le point dans un trou noir où la matière est écrasée en un point minuscule avec une masse infinie et sans volume; et métaphoriquement un horizon d'événements – un point au-delà duquel nous ne pouvons pas voir.

Dans les années 1950, le mathématicien John von Neumann a appliqué cette métaphore à la technologie, en écrivant: «[Le] progrès toujours accéléré de la technologie et changements dans le mode de vie humaine, qui donne l'apparence d'une singularité essentielle dans l'histoire de la course au delà de laquelle les affaires humaines, telles que nous les connaissons, ne pourraient pas continuer. "

Ray Kurzweil, auteur de The Singularity is Near et le plus grand vulgarisateur du terme, a fait référence à la singularité comme le moment où les ordinateurs deviennent plus intelligents que les humains.

La singularité que nous décrivons n'est rien d'aussi dramatique, mais non moins révolutionnaire. Très bientôt, sans doute dans les cinq prochaines années, nous allons franchir une ligne et les ordinateurs vont commencer à voir mieux que les humains.

Qu'est-ce que ça veut dire? Eh bien, en ce moment, les ordinateurs sont pour la plupart piégés dans un univers numérique – ils ne peuvent pas encore donner un sens direct à notre monde analogique. Une sorte d'intervention humaine est toujours requise.

Siri de l'iPhone est un exemple. En parlant à votre iPhone, Siri convertit une entrée analogique (votre voix) en une réponse numérique, mais le processus – tout en étonnant – nécessite toujours un humain.

Dans la vision artificielle, sauf dans les systèmes extrêmement encombrants comme LIDAR – les yeux principaux de la voiture autonome de Google – la capacité à se passer de l'implication humaine n'existe pas encore dans une capacité réaliste.

Par réaliste, ce que je veux dire, c'est que le système LIDAR est a) très coûteux b) plutôt lourd. En d'autres termes, il ne rentre pas dans votre iPhone.

Mais si l'iPhone pouvait traiter les données de son appareil photo avec la même précision qu'un humain, il pourrait conduire votre voiture. En bref, c'est la singularité visuelle.

Et nous nous rapprochons. La détection de plaque d'immatriculation et la reconnaissance faciale sont des astuces de vision par ordinateur qui fonctionnent déjà. Mais ce sont des algorithmes limités – ils font très bien une chose, mais pas beaucoup de choses. Vous ne pouvez pas brancher votre iPhone dans votre Roomba et lui dire de nettoyer la saleté, mais pas les Legos.

Deux forces sont en train de changer cela et, en fin de compte, ce sont les mêmes deux forces qui conduisent toutes les singularités.

Le premier est les courbes exponentielles. La loi de Moore, la loi du beurre, etc. La même accélération de la puissance de calcul qui a guidé la percée de Siri stimule l'évolution de la vision artificielle. La différence est que la détection de la parole est un problème de mégaoctets, alors que la vision industrielle est un problème de gigaoctet. Mais, au fur et à mesure que nos ordinateurs continuent d'être plus rapides, ce problème disparaît complètement.

Le second est celui des données, une masse critique de données.

Nous avons trouvé que la façon la plus simple de simuler les capacités humaines est de les entraîner. Par exemple, c'est la croissance massive des sites Web (c'est-à-dire le texte numérisé) qui a permis à la singularité de la lecture de texte (le point auquel les machines pouvaient lire aussi bien que les humains) de se produire. De même, d'énormes quantités de discours humain numérisé ont été nécessaires pour atteindre la singularité du discours (aka Siri). De même, sans Youtube et les 72 heures de vidéo mises en ligne chaque minute, la singularité visuelle à venir serait impossible.

Dans le même ordre d'idée, en juin dernier, Google a connecté 16 000 processeurs informatiques à une vision de machine géante pour l'apprentissage du réseau neuronal et les a laissés sur YouTube. Le résultat, comme le soulignait le New York Times, était que le réseau apprenait à reconnaître les chats.

Pourquoi? Simple…. Il y a des tonnes de vidéos de chats sur YouTube. C'est l'une des choses dont il a beaucoup été témoin. Juste la façon dont un bébé apprend à reconnaître les objets qu'ils voient tous les jours.

L'histoire du chat a circulé. La plupart des gens ont manqué le fait que l'algorithme de vision artificielle de Google était bien meilleur que tout ce qui était arrivé – doublant ainsi sa précision (tout en reconnaissant les objets d'une liste de quelque 20 000 objets) en cours de détection.

Ce doublement-bien c'est une croissance exponentielle. Croissance exponentielle visible. Ce que cela signifie, c'est que pendant que la vision artificielle est sur une courbe exponentielle depuis un moment, elle est en dessous du genou de la courbe, où ces doublements sont pour la plupart invisibles. Le succès de Google met l'arc beaucoup plus près du genou – cela signifie que nous sommes de plus en plus proches de la vue, comme nous le savons les humains.

D'un point de vue différent, quand nous parlons de la vue comme nous le savons, nous parlons d'un seuil d'erreur acceptable. Le système visuel humain est plutôt bon. Pas génial, mais plus que suffisant pour nous tenir au courant de ces 200 000 dernières années. Pour cette raison, son taux d'erreur est acceptable pour nous.

Mais il a des limites. La vision humaine est fatiguée. Dans des expériences effectuées au Laboratoire national de Los Alamos, lorsque les humains ont été invités à effectuer des tâches de reconnaissance d'objets, les expériences ont été maintenues à moins d'une heure afin de ne plus pouvoir se concentrer sur la tâche. La machine de Google a fonctionné pendant une semaine sur des millions d'images, dépassant le point que tout être humain pouvait espérer suivre.

Une fois ce seuil franchi, l'impact sur la société sera significatif.

À l'heure actuelle, par exemple, nous avons le robot chirurgical Da Vinci. Invention étonnante. Da Vinci aide les chirurgiens à tout faire, des bypass cardiaques aux dérivations gastriques avec beaucoup plus de précision et moins de dommages collatéraux qu'un humain non aidé. Mais le Da Vinci a toujours besoin d'une implication humaine. C'est la capacité à effectuer la chirurgie réelle est bien mieux que nos mains, mais il faut emprunter nos yeux. Mais lorsque la vision artificielle devient meilleure que la vision humaine, le chirurgien devient obsolète.

D'accord, pas complètement obsolète, nous aurons toujours besoin de leurs connaissances et de leurs compétences en recherche. Pourtant, IBM a envoyé Watson (le supercalculateur Jeopardy -winning) à l'école de médecine. Il est chargé avec autant de données médicales que possible. Les résultats mettront un dispositif de diagnostic incroyablement puissant dans le nuage. Associez ce dispositif de diagnostic à une vision artificielle meilleure que l'humain (et à une analyse microfluidique en laboratoire) et ce ne sont pas seulement les chirurgiens qui sont sans emploi.

Médecins aussi. À l'heure actuelle, l'erreur de diagnostic pour les médecins humains est de 45 pour cent. Cela signifie que si vous allez voir votre médecin trois fois, les pourcentages indiquent qu'il s'est trompé lors de l'une de ces visites. Nous avons déjà Watson, la technologie lab-on-a-chip est également disponible depuis quelques années (voir le Qualcomm Tricorder X Prize). La vision artificielle complètera le triumvirat. Les résultats changeront les soins de santé pour toujours.

Sincèrement, ce n'est pas seulement des soins de santé. Une fois que les machines sont capables d'interagir visuellement avec le monde, elles débloqueront des technologies qui ne sont plus que de la science-fiction.

Alors, Siri, conduis-moi au travail pendant que je finis de regarder les vingt dernières minutes de Terminator.