Hur selektiv hörsel fungerar i hjärnan

Det långvariga mysteriet om hur selektiv hörsel fungerar – hur människor kan ställa in sig på en enskild högtalare samtidigt som de stänger av sin trånga och bullriga omgivning – har lösts denna vecka i tidskriften Nature av två forskare från University of California, San Francisco (UCSF).

Psykologer har i årtionden känt till den så kallade ”cocktailparty-effekten”, ett namn som påminner om Mad Men-eran under vilken den myntades. Det är den anmärkningsvärda mänskliga förmågan att fokusera på en enda talare i praktiskt taget vilken miljö som helst – ett klassrum, ett sportevenemang eller en kaffebar – även om den personens röst till synes drunknar i en skramlande folkmassa.

För att förstå hur selektiv hörsel fungerar i hjärnan arbetade UCSF:s neurokirurg Edward Chang, MD, fakultetsmedlem vid UCSF:s avdelning för neurologisk kirurgi och Keck Center for Integrative Neuroscience, och UCSF:s postdoktorala forskare Nima Mesgarani, PhD, med tre patienter som genomgick hjärnkirurgi för svår epilepsi.

Edward Chang, MDEdward Chang, MD

En del av operationen går ut på att lokalisera de delar av hjärnan som är ansvariga för inaktiverande anfall. UCSF:s epilepsiteam hittar dessa platser genom att kartlägga hjärnans aktivitet under en vecka, med ett tunt ark med upp till 256 elektroder som placeras under skallen på hjärnans yttre yta eller cortex. Dessa elektroder registrerar aktiviteten i tinningloben, som är hemvist för hörselbarken.

UCSF är ett av få ledande akademiska epilepsicentrum där dessa avancerade intrakraniella inspelningar görs, och Chang sade att förmågan att på ett säkert sätt spela in från själva hjärnan ger unika möjligheter att utveckla vår grundläggande kunskap om hur hjärnan fungerar.

”Kombinationen av hjärninspelningar med hög upplösning och kraftfulla avkodningsalgoritmer öppnar ett fönster in i hjärnans subjektiva upplevelser som vi aldrig tidigare har sett”, sade Chang.

I experimenten lyssnade patienterna på två talprover som spelades upp för dem samtidigt där olika fraser talades av olika talare. De ombads identifiera de ord de hörde talas av en av de två talarna.

Författarna tillämpade sedan nya avkodningsmetoder för att ”rekonstruera” vad försökspersonerna hörde genom att analysera deras hjärnaktivitetsmönster. Påfallande nog fann författarna att de neurala reaktionerna i den auditiva cortexen endast återspeglade den målinriktade talarens reaktioner. De fann att deras avkodningsalgoritm kunde förutsäga vilken talare och till och med vilka specifika ord försökspersonen lyssnade på utifrån dessa neurala mönster. Med andra ord kunde de avgöra när lyssnarens uppmärksamhet gick till en annan talare.

”Algoritmen fungerade så bra att vi kunde förutsäga inte bara de korrekta svaren, utan även när de uppmärksammade fel ord”, säger Chang.

Taligenkänning av den mänskliga hjärnan och maskiner

De nya resultaten visar att representationen av tal i hjärnbarken inte bara återspeglar hela den yttre akustiska miljön utan i stället bara det som vi verkligen vill eller behöver höra.

De representerar ett stort framsteg i förståelsen av hur den mänskliga hjärnan bearbetar språk, med omedelbara implikationer för studiet av funktionsnedsättning under åldrande, uppmärksamhetsstörningar, autism och språkinlärningsstörningar.

Det är dessutom så att Chang, som också är meddirektör för Center for Neural Engineering and Prostheses vid UC Berkeley och UCSF, säger att vi kanske en dag kommer att kunna använda den här tekniken för neuroproteser för att avkoda intentioner och tankar från förlamade patienter som inte kan kommunicera.

Det kan till och med inspirera till nya metoder för att automatisera och förbättra hur röststyrda elektroniska gränssnitt filtrerar ljud för att korrekt upptäcka verbala kommandon.

Hur hjärnan så effektivt kan fokusera på en enda röst är ett problem som är av stort intresse för de företag som tillverkar konsumentteknik på grund av den enorma framtida marknaden för alla typer av elektroniska apparater med röststyrda gränssnitt. Även om de tekniker för röstigenkänning som möjliggör sådana gränssnitt som Apples Siri har kommit långt under de senaste åren är de inte alls lika sofistikerade som det mänskliga talsystemet.

En genomsnittlig person kan gå in i ett bullrigt rum och föra en privat konversation med relativ lätthet – som om alla andra röster i rummet var dämpade. Enligt Mesgarani, en ingenjör med bakgrund inom forskning om automatisk taligenkänning, är den teknik som krävs för att skilja en enda begriplig röst från en kakofoni av högtalare och bakgrundsbrus ett förvånansvärt svårt problem.

Taligenkänning, sade han, är ”något som människor är anmärkningsvärt bra på, men det visar sig att maskinell emulering av denna mänskliga förmåga är extremt svår.”

Artikeln ”Selective cortical representation of attended speaker in multi-talker speech perception” av Nima Mesgarani och Edward F. Chang publiceras i tidskriften Nature i numret av den 19 april 2012.

Detta arbete finansierades av National Institutes of Health och Ester A. and Joseph Klingenstein Foundation.

UCSF är ett ledande universitet som ägnar sig åt att främja hälsa över hela världen genom avancerad biomedicinsk forskning, utbildning på forskarnivå inom biovetenskap och hälsovetenskapliga yrken samt excellens i patientvård.