Wie selektives Hören im Gehirn funktioniert
Das seit langem bestehende Rätsel, wie selektives Hören funktioniert – wie Menschen sich auf einen einzelnen Sprecher einstellen können, während sie ihre überfüllte, laute Umgebung ausblenden – wurde diese Woche in der Zeitschrift Nature von zwei Wissenschaftlern der University of California, San Francisco (UCSF) gelöst.
Psychologen kennen seit Jahrzehnten den so genannten „Cocktailparty-Effekt“, ein Name, der an die Mad-Men-Ära erinnert, in der er geprägt wurde. Es handelt sich dabei um die bemerkenswerte menschliche Fähigkeit, sich in praktisch jeder Umgebung – einem Klassenzimmer, einer Sportveranstaltung oder einem Café – auf einen einzigen Sprecher zu konzentrieren, selbst wenn dessen Stimme scheinbar von einer plappernden Menge übertönt wird.
Um zu verstehen, wie selektives Hören im Gehirn funktioniert, arbeiteten der UCSF-Neurochirurg Edward Chang, MD, Mitglied der UCSF-Fakultät für neurologische Chirurgie und des Keck Center for Integrative Neuroscience, und der UCSF-Postdoktorand Nima Mesgarani, PhD, mit drei Patienten, die sich wegen schwerer Epilepsie einer Gehirnoperation unterzogen.
Ein Teil dieser Operation besteht darin, die Teile des Gehirns zu lokalisieren, die für die behindernden Anfälle verantwortlich sind. Das Epilepsieteam der UCSF findet diese Stellen, indem es die Hirnaktivität eine Woche lang mit einer dünnen Folie von bis zu 256 Elektroden aufzeichnet, die unter dem Schädel auf der äußeren Oberfläche des Gehirns oder der Hirnrinde angebracht werden. Diese Elektroden zeichnen die Aktivität im Schläfenlappen auf, der die Hörrinde beherbergt.
Die UCSF ist eines der wenigen führenden akademischen Epilepsie-Zentren, in denen diese fortschrittlichen intrakraniellen Aufzeichnungen durchgeführt werden, und, so Chang, die Möglichkeit, sichere Aufzeichnungen aus dem Gehirn selbst zu machen, bietet einzigartige Möglichkeiten, unser grundlegendes Wissen über die Funktionsweise des Gehirns zu erweitern.
„Die Kombination aus hochauflösenden Hirnaufzeichnungen und leistungsstarken Dekodierungsalgorithmen öffnet ein Fenster in das subjektive Erleben des Geistes, das wir noch nie zuvor gesehen haben“, so Chang.
In den Experimenten hörten die Patienten zwei Sprachproben, die ihnen gleichzeitig vorgespielt wurden und bei denen verschiedene Sätze von unterschiedlichen Sprechern gesprochen wurden. Sie wurden gebeten, die Wörter zu identifizieren, die sie von einem der beiden Sprecher gesprochen hörten.
Die Autoren wendeten dann neue Dekodierungsmethoden an, um aus der Analyse der Hirnaktivitätsmuster zu „rekonstruieren“, was die Probanden gehört hatten. Auffallend war, dass die Autoren feststellten, dass die neuronalen Antworten im auditorischen Kortex nur die des anvisierten Sprechers widerspiegelten. Sie fanden heraus, dass ihr Dekodierungsalgorithmus anhand dieser neuronalen Muster vorhersagen konnte, welchem Sprecher und sogar welchen spezifischen Wörtern die Versuchsperson zuhörte. Der Algorithmus funktionierte so gut, dass wir nicht nur die richtigen Antworten vorhersagen konnten, sondern auch, wenn die Aufmerksamkeit auf ein falsches Wort gerichtet war“, so Chang.
Spracherkennung durch das menschliche Gehirn und Maschinen
Die neuen Erkenntnisse zeigen, dass die Repräsentation von Sprache in der Hirnrinde nicht nur die gesamte äußere akustische Umgebung widerspiegelt, sondern nur das, was wir wirklich hören wollen oder müssen.
Sie stellen einen großen Fortschritt im Verständnis dar, wie das menschliche Gehirn Sprache verarbeitet, was unmittelbare Auswirkungen auf die Untersuchung von Beeinträchtigungen während des Alterns, Aufmerksamkeitsstörungen, Autismus und Sprachlernstörungen hat.
Außerdem sagte Chang, der auch Co-Direktor des Zentrums für Neuraltechnik und Prothesen an der UC Berkeley und der UCSF ist, dass wir diese Technologie vielleicht eines Tages für neuroprothetische Geräte zur Entschlüsselung der Absichten und Gedanken von gelähmten Patienten, die nicht kommunizieren können, nutzen können.
Die Erkenntnis, dass unser Gehirn so verdrahtet ist, dass es bestimmte auditive Hinweise gegenüber anderen bevorzugt, könnte sogar zu neuen Ansätzen für die Automatisierung und Verbesserung der Art und Weise führen, wie sprachaktivierte elektronische Schnittstellen Geräusche filtern, um verbale Befehle richtig zu erkennen.
Wie das Gehirn sich so effektiv auf eine einzige Stimme konzentrieren kann, ist ein Problem, das für die Unternehmen, die Verbrauchertechnologien herstellen, von großem Interesse ist, da der zukünftige Markt für alle Arten von elektronischen Geräten mit sprachaktiven Schnittstellen enorm ist. Die Spracherkennungstechnologien, die solche Schnittstellen wie Apples Siri ermöglichen, haben zwar in den letzten Jahren große Fortschritte gemacht, sind aber bei weitem noch nicht so ausgereift wie das menschliche Sprachsystem.
Ein durchschnittlicher Mensch kann einen lauten Raum betreten und mit relativer Leichtigkeit ein privates Gespräch führen – als ob alle anderen Stimmen im Raum stummgeschaltet wären. Tatsächlich, so Mesgarani, ein Ingenieur mit Erfahrung in der Forschung auf dem Gebiet der automatischen Spracherkennung, ist die Technik, die erforderlich ist, um eine einzelne verständliche Stimme von einer Kakophonie von Lautsprechern und Hintergrundgeräuschen zu trennen, ein erstaunlich schwieriges Problem.
Spracherkennung sei „etwas, das Menschen bemerkenswert gut können, aber es stellt sich heraus, dass die maschinelle Nachahmung dieser menschlichen Fähigkeit extrem schwierig ist.“
Der Artikel „Selective cortical representation of attended speaker in multi-talker speech perception“ von Nima Mesgarani und Edward F. Chang erscheint in der Ausgabe vom 19. April 2012 der Zeitschrift Nature.
Diese Arbeit wurde von den National Institutes of Health und der Ester A. and Joseph Klingenstein Foundation finanziert.
Die UCSF ist eine führende Universität, die sich der weltweiten Förderung der Gesundheit durch fortschrittliche biomedizinische Forschung, Graduiertenausbildung in den Biowissenschaften und Gesundheitsberufen sowie Spitzenleistungen in der Patientenversorgung widmet.