Comment l’audition sélective fonctionne dans le cerveau

Le mystère de longue date du fonctionnement de l’audition sélective – comment les gens peuvent s’accorder à un seul orateur tout en faisant abstraction de leur environnement bondé et bruyant – est résolu cette semaine dans la revue Nature par deux scientifiques de l’Université de Californie, San Francisco (UCSF).

Les psychologues connaissent depuis des décennies le soi-disant « effet cocktail party », un nom qui évoque l’époque Mad Men dans laquelle il a été inventé. Il s’agit de la remarquable capacité humaine à se concentrer sur un seul interlocuteur dans pratiquement n’importe quel environnement – une salle de classe, un événement sportif ou un café – même si la voix de cette personne semble noyée dans une foule jacassante.

Pour comprendre comment l’audition sélective fonctionne dans le cerveau, le neurochirurgien de l’UCSF Edward Chang, MD, membre de la faculté du département de chirurgie neurologique de l’UCSF et du centre Keck pour les neurosciences intégratives, et le stagiaire postdoctoral de l’UCSF Nima Mesgarani, PhD, ont travaillé avec trois patients qui subissaient une chirurgie cérébrale pour une épilepsie sévère.

Edward Chang, MDEdward Chang, MD

Une partie de cette chirurgie consiste à localiser les parties du cerveau responsables des crises invalidantes. L’équipe d’épilepsie de l’UCSF trouve ces endroits en cartographiant l’activité du cerveau pendant une semaine, à l’aide d’une fine feuille comportant jusqu’à 256 électrodes placées sous le crâne, sur la surface externe du cerveau ou cortex. Ces électrodes enregistrent l’activité dans le lobe temporal – où se trouve le cortex auditif.

L’UCSF est l’un des rares centres universitaires de pointe en matière d’épilepsie où ces enregistrements intracrâniens avancés sont effectués et, selon Chang, la capacité d’enregistrer en toute sécurité à partir du cerveau lui-même offre des possibilités uniques de faire progresser nos connaissances fondamentales sur le fonctionnement du cerveau.

« La combinaison d’enregistrements cérébraux à haute résolution et d’algorithmes de décodage puissants ouvre une fenêtre sur l’expérience subjective de l’esprit que nous n’avons jamais vue auparavant », a déclaré Chang.

Dans les expériences, les patients ont écouté deux échantillons de discours qui leur ont été joués simultanément, dans lesquels différentes phrases ont été prononcées par différents locuteurs. On leur demandait d’identifier les mots qu’ils entendaient prononcer par l’un des deux locuteurs.

Les auteurs ont ensuite appliqué de nouvelles méthodes de décodage pour « reconstruire » ce que les sujets ont entendu à partir de l’analyse de leurs schémas d’activité cérébrale. De manière frappante, les auteurs ont constaté que les réponses neuronales dans le cortex auditif ne reflétaient que celles du locuteur ciblé. Ils ont constaté que leur algorithme de décodage pouvait prédire quel locuteur et même quels mots spécifiques le sujet écoutait sur la base de ces modèles neuronaux. En d’autres termes, ils pouvaient dire quand l’attention de l’auditeur s’égarait vers un autre locuteur.

« L’algorithme a si bien fonctionné que nous pouvions prédire non seulement les réponses correctes, mais aussi même quand ils prêtaient attention au mauvais mot », a déclaré Chang.

Reconnaissance de la parole par le cerveau humain et les machines

Les nouveaux résultats montrent que la représentation de la parole dans le cortex ne reflète pas seulement l’ensemble de l’environnement acoustique externe, mais plutôt seulement ce que nous voulons ou avons vraiment besoin d’entendre.

Ils représentent une avancée majeure dans la compréhension de la façon dont le cerveau humain traite le langage, avec des implications immédiates pour l’étude des déficiences au cours du vieillissement, des troubles de l’attention, de l’autisme et des troubles de l’apprentissage du langage.

En outre, Chang, qui est également codirecteur du Center for Neural Engineering and Prostheses de l’UC Berkeley et de l’UCSF, a déclaré que nous pourrions un jour être en mesure d’utiliser cette technologie pour des dispositifs neuroprothétiques permettant de décoder les intentions et les pensées de patients paralysés qui ne peuvent pas communiquer.

Révélant comment notre cerveau est câblé pour favoriser certains indices auditifs plutôt que d’autres il pourrait même inspirer de nouvelles approches vers l’automatisation et l’amélioration de la façon dont les interfaces électroniques à commande vocale filtrent les sons afin de détecter correctement les commandes verbales.

Comment le cerveau peut se concentrer si efficacement sur une seule voix est un problème qui intéresse vivement les entreprises qui fabriquent des technologies grand public en raison de l’énorme marché futur pour toutes sortes d’appareils électroniques avec des interfaces à commande vocale. Si les technologies de reconnaissance vocale qui permettent des interfaces telles que Siri d’Apple ont beaucoup progressé au cours des dernières années, elles sont loin d’être aussi sophistiquées que le système vocal humain.

Une personne moyenne peut entrer dans une pièce bruyante et avoir une conversation privée avec une relative facilité – comme si toutes les autres voix de la pièce étaient coupées. En fait, a déclaré Mesgarani, un ingénieur ayant une expérience dans la recherche sur la reconnaissance automatique de la parole, l’ingénierie nécessaire pour séparer une seule voix intelligible d’une cacophonie de haut-parleurs et de bruits de fond est un problème étonnamment difficile.

La reconnaissance vocale, dit-il, est « quelque chose pour lequel les humains sont remarquablement doués, mais il s’avère que l’émulation par la machine de cette capacité humaine est extrêmement difficile. »

L’article « Selective cortical representation of attended speaker in multi-talker speech perception » de Nima Mesgarani et Edward F. Chang paraît dans le numéro du 19 avril 2012 de la revue Nature.

Ces travaux ont été financés par les National Institutes of Health et la Fondation Ester A. et Joseph Klingenstein.

L’UCSF est une université de premier plan qui se consacre à la promotion de la santé dans le monde entier par le biais de la recherche biomédicale de pointe, de l’enseignement de niveau supérieur dans les sciences de la vie et les professions de la santé, et de l’excellence dans les soins aux patients.