Percée dans le domaine des neurosciences: l’intelligence artificielle traduit la pensée en parole

L’interface cerveau-ordinateur de l’Université de Columbia est à la pointe de la technologie.

orla/istockphoto

Source: orla / istockphoto

Il y avait d’abord le clavier, puis le toucher et la voix pour contrôler les appareils informatiques et les applications. Et après? Chercheurs à l’Institut de comportement du cerveau mental de Mortimer B. Zuckerman de l’Université Columbia à New York a annoncé «une première scientifique» avec l’invention d’une interface cerveau-ordinateur (BCI) qui traduit la pensée humaine en discours avec une clarté et une précision supérieures à celles des solutions existantes. L’équipe de recherche, dirigée par Nima Mesgarani, Ph.D., a publié ses conclusions le 29 janvier 2019 dans Scientific Reports , une revue de recherche Nature .

Une interface cerveau-ordinateur est une voie de communication bidirectionnelle entre un cerveau et un ordinateur. De nombreux projets de recherche de la BCI sont centrés sur les utilisations neuroprothétiques des personnes ayant une perte de mouvement, de la vision, de l’ouïe ou de la parole, telles que celles touchées par un accident vasculaire cérébral, une lésion de la moelle épinière, la sclérose latérale amyotrophique (SLA), l’aphasie dommages), dommages cochléaires et syndrome de blocage.

Jusqu’à cette avancée historique, le processus de décodage des signaux cérébraux utilisait des modèles informatiques plus simples basés sur la régression linéaire pour analyser les représentations visuelles de fréquences sonores (spectrogrammes) produisant une parole inintelligible. Mesgarani et son équipe de recherche ont associé les dernières technologies innovantes en synthèse de la parole à un apprentissage approfondi de l’IA afin d’améliorer l’intelligibilité de la parole reconstruite, avec des résultats considérablement améliorés.

Mesgarani s’est associé au neurochirurgien Ashesh Dinesh Mehta, MD, Ph.D. de l’Institut de neuroscience Northwell Health Physician Partners pour mesurer les activités cérébrales de patients atteints d’épilepsie focale pharmacorésistante déjà subis une chirurgie cérébrale.

L’électrocorticographie invasive (ECoG) a été utilisée pour mesurer l’activité neuronale de cinq participants à l’étude ayant tous déclaré une capacité auditive normale alors qu’ils écoutaient quatre orateurs présenter des nouvelles pendant une demi-heure. Les modèles de neurones enregistrés ont été utilisés comme entrée de données pour former un vocodeur, un processeur audio qui analyse et synthétise la voix humaine.

Après avoir formé le vocodeur, les chercheurs ont enregistré les signaux cérébraux des mêmes participants tout en écoutant le nombre de locuteurs compris entre zéro et neuf. Ces signaux cérébraux enregistrés ont été entrés via le vocodeur, qui a à son tour produit une parole synthétisée. Ensuite, les chercheurs ont utilisé des réseaux de neurones artificiels pour affiner la parole produite par le vocodeur, puis ont demandé à 11 sujets ayant une audition normale d’écouter la sortie.

Les chercheurs ont découvert que l’utilisation d’un réseau de neurones profonds (DNN) avec régression non linéaire améliore de 67% l’intelligibilité par rapport à la méthode de base consistant à utiliser la régression linéaire pour reconstruire le spectrogramme auditif. Ces participants pouvaient comprendre et répéter les sons générés avec la combinaison DNN-vocodeur avec une précision de 75%. Selon les chercheurs, “les résultats d’études montrant l’avantage supérieur des modèles d’apprentissage en profondeur par rapport à d’autres techniques, en particulier lorsque la quantité de données de formation est importante”, et “l’augmentation de la quantité de données de formation permet une meilleure précision de la reconstruction”.

Les chercheurs ont découvert un «cadre général utilisable pour les technologies de neuroprothèse de la parole pouvant aboutir à une parole reconstruite précise et intelligible à partir du cortex auditif humain». Ils considèrent leur système informatique allant du cerveau à l’état de l’art et «un vers la prochaine génération de systèmes d’interaction homme-machine et de canaux de communication plus naturels pour les patients souffrant de paralysie et de syndromes bloqués. ”

L’apprentissage en profondeur de l’intelligence artificielle a créé une source d’avancées scientifiques possibles dans toutes les disciplines, en particulier dans le domaine des neurosciences et du génie biomédical. À l’avenir, les dispositifs informatiques seront-ils gérés par la pensée humaine?

Copyright © 2019 Cami Rosso Tous droits réservés.

Références

Akbari, Hassan, Khalighinejad, Bahar, Herrero, Jose L., Mehta, Ashesh D., Mesgarani, Nima. ”Vers la reconstruction d’un discours intelligible à partir du cortex auditif humain.” Scientific Reports . 29 janvier 2019.