How Selective Hearing Works In the Brain
Het aloude mysterie van hoe selectief horen werkt – hoe mensen kunnen afstemmen op een enkele spreker terwijl ze hun drukke, lawaaierige omgeving wegstemmen – is deze week opgelost in het tijdschrift Nature door twee wetenschappers van de University of California, San Francisco (UCSF).
Psychologen zijn al tientallen jaren bekend met het zogenaamde “cocktail party effect”, een naam die doet denken aan het Mad Men-tijdperk waarin het werd bedacht. Het is het opmerkelijke menselijke vermogen om zich te concentreren op een enkele spreker in vrijwel elke omgeving – een klaslokaal, sportevenement of koffiebar – zelfs als de stem van die persoon schijnbaar wordt overstemd door een kwebbelende menigte.
Om te begrijpen hoe selectief horen in de hersenen werkt, werkten UCSF neurochirurg Edward Chang, MD, lid van de faculteit van de UCSF afdeling Neurologische Chirurgie en het Keck Center for Integrative Neuroscience, en UCSF postdoctoraal medewerker Nima Mesgarani, PhD, met drie patiënten die een hersenoperatie ondergingen voor ernstige epilepsie.
Onderdeel van deze operatie is het aanwijzen van de delen van de hersenen die verantwoordelijk zijn voor de invaliderende aanvallen. Het UCSF epilepsieteam vindt die plaatsen door de activiteit van de hersenen gedurende een week in kaart te brengen met behulp van een dunne plaat met 256 elektroden die onder de schedel op het buitenoppervlak van de hersenen of de cortex worden geplaatst. Deze elektroden registreren de activiteit in de temporale kwab – de thuisbasis van de auditieve cortex.
UCSF is een van de weinige toonaangevende academische epilepsiecentra waar deze geavanceerde intracraniële opnames worden gedaan, en, zei Chang, de mogelijkheid om veilig opnames te maken van de hersenen zelf biedt unieke mogelijkheden om onze fundamentele kennis van de werking van de hersenen te bevorderen.
“De combinatie van hoge-resolutie hersenopnames en krachtige decoderingsalgoritmen opent een venster op de subjectieve ervaring van de geest die we nog nooit eerder hebben gezien,” zei Chang.
In de experimenten luisterden patiënten naar twee spraakmonsters die tegelijkertijd werden afgespeeld, waarbij verschillende zinnen werden uitgesproken door verschillende sprekers. Hen werd gevraagd de woorden te identificeren die zij hoorden uitgesproken door een van de twee sprekers.
De auteurs pasten vervolgens nieuwe decoderingsmethoden toe om te “reconstrueren” wat de proefpersonen hoorden door het analyseren van hun hersenactiviteitspatronen. Opvallend was dat de auteurs ontdekten dat de neurale reacties in de auditieve cortex alleen die van de beoogde spreker weerspiegelden. Zij ontdekten dat hun decoderingsalgoritme op basis van deze neurale patronen kon voorspellen naar welke spreker en zelfs naar welke specifieke woorden de proefpersoon luisterde. Met andere woorden, ze konden zien wanneer de aandacht van de luisteraar afdwaalde naar een andere spreker.
“Het algoritme werkte zo goed dat we niet alleen de juiste reacties konden voorspellen, maar ook wanneer ze aandacht besteedden aan het verkeerde woord,” zei Chang.
Spraakherkenning door het menselijk brein en machines
De nieuwe bevindingen tonen aan dat de representatie van spraak in de cortex niet alleen de gehele externe akoestische omgeving weerspiegelt, maar in plaats daarvan alleen datgene wat we echt willen of moeten horen.
Ze betekenen een belangrijke vooruitgang in het begrip van hoe het menselijk brein taal verwerkt, met onmiddellijke implicaties voor de studie van stoornissen bij het ouder worden, aandachtstekortstoornis, autisme en taalleerstoornissen.
Daarnaast zei Chang, die ook mededirecteur is van het Center for Neural Engineering and Prostheses aan de UC Berkeley en de UCSF, dat we deze technologie misschien ooit kunnen gebruiken voor neuroprothetische apparaten voor het decoderen van de bedoelingen en gedachten van verlamde patiënten die niet kunnen communiceren.
Hoe onze hersenen bedraad zijn om bepaalde auditieve signalen te verkiezen boven andere, kan zelfs nieuwe benaderingen inspireren in de richting van het automatiseren en verbeteren van de manier waarop spraakgestuurde elektronische interfaces geluiden filteren om verbale commando’s goed te detecteren.
Hoe de hersenen zich zo effectief kunnen concentreren op een enkele stem is een probleem van groot belang voor de bedrijven die consumententechnologieën maken, vanwege de enorme toekomstige markt voor allerlei elektronische apparaten met spraak-actieve interfaces. Hoewel de spraakherkenningstechnologieën die interfaces als Apple’s Siri mogelijk maken de laatste jaren een lange weg hebben afgelegd, zijn ze bij lange na niet zo geavanceerd als het menselijke spraaksysteem.
Een gemiddeld persoon kan een lawaaierige kamer binnenlopen en met relatief gemak een privé-gesprek voeren – alsof alle andere stemmen in de kamer zijn gedempt. In feite, zei Mesgarani, een ingenieur met een achtergrond in automatisch spraakherkenningsonderzoek, is de techniek die nodig is om een enkele verstaanbare stem te scheiden van een kakofonie van sprekers en achtergrondlawaai een verrassend moeilijk probleem.
Spraakherkenning, zei hij, “is iets waar mensen opmerkelijk goed in zijn, maar het blijkt dat machine-emulatie van dit menselijk vermogen extreem moeilijk is.”
Het artikel, “Selective cortical representation of attended speaker in multi-talker speech perception” door Nima Mesgarani en Edward F. Chang verschijnt in het aprilnummer van 19, 2012 van het tijdschrift Nature.
Dit werk werd gefinancierd door de National Institutes of Health en de Ester A. and Joseph Klingenstein Foundation.
UCSF is een toonaangevende universiteit die zich toelegt op het bevorderen van de gezondheid wereldwijd door middel van geavanceerd biomedisch onderzoek, graduate-level onderwijs in de biowetenschappen en gezondheidsberoepen, en uitmuntendheid in de patiëntenzorg.