Hogyan működik a szelektív hallás az agyban
A szelektív hallás működésének régóta húzódó rejtélyét – hogyan tudnak az emberek egyetlen hangszóróra hangolódni, miközben kizárják a zsúfolt, zajos környezetet – a héten oldotta meg a Nature című folyóiratban a San Franciscó-i Kaliforniai Egyetem (UCSF) két tudósa.
A pszichológusok már évtizedek óta ismerik az úgynevezett “koktélparti-effektust”, amelynek neve a Mad Men-korszakot idézi, amelyben ez a jelenség kialakult. Ez az a figyelemre méltó emberi képesség, hogy gyakorlatilag bármilyen környezetben – tanteremben, sporteseményen vagy kávézóban – egyetlen beszélőre tudunk koncentrálni, még akkor is, ha annak a személynek a hangját látszólag elnyomja a fecsegő tömeg.
Az UCSF idegsebésze, Dr. Edward Chang, az UCSF Idegsebészeti Tanszékének és az Integratív Idegtudományi Keck Központnak az oktatója, valamint Nima Mesgarani, az UCSF posztdoktori munkatársa három olyan beteggel dolgozott, akik súlyos epilepszia miatt agyműtéten estek át, hogy megértsék, hogyan működik a szelektív hallás az agyban.
A műtét egy része magában foglalja az agy azon részeinek pontos meghatározását, amelyek a rohamokat akadályozó rohamokért felelősek. Az UCSF epilepsziás csapata úgy találja meg ezeket a helyeket, hogy egy héten keresztül feltérképezi az agy aktivitását, egy legfeljebb 256 elektródából álló vékony lap segítségével, amelyet a koponya alatt, az agy külső felszínén vagy az agykéregben helyeznek el. Ezek az elektródák a halántéklebeny – a hallókéreg otthona – aktivitását rögzítik.
AzUCSF egyike azon kevés vezető egyetemi epilepsziaközpontnak, ahol ilyen fejlett intrakraniális felvételeket végeznek, és Chang szerint az a képesség, hogy magáról az agyról biztonságosan készíthetünk felvételeket, egyedülálló lehetőségeket kínál az agy működésével kapcsolatos alapvető ismereteink bővítésére.
“A nagy felbontású agyi felvételek és a hatékony dekódoló algoritmusok kombinációja olyan ablakot nyit az elme szubjektív tapasztalataira, amelyet eddig még nem láttunk” – mondta Chang.
A kísérletekben a páciensek egyszerre két olyan beszédmintát hallgattak meg, amelyeket egyszerre játszottak le nekik, és amelyekben különböző mondatok hangzottak el különböző beszélők által. Arra kérték őket, hogy azonosítsák azokat a szavakat, amelyeket a két beszélő egyikétől hallottak.
A szerzők ezután új dekódolási módszereket alkalmaztak, hogy agyi aktivitási mintáik elemzéséből “rekonstruálják”, mit hallottak az alanyok. Meglepő módon a szerzők azt találták, hogy a hallókéregben az idegi válaszok csak a célzott beszélő válaszait tükrözték. Megállapították, hogy dekódoló algoritmusuk ezen idegi mintázatok alapján meg tudta jósolni, hogy az alany melyik beszélőt, sőt azt is, hogy milyen konkrét szavakat hallgatott. Más szóval, meg tudták állapítani, ha a hallgató figyelme egy másik beszélőre tévedt.
“Az algoritmus olyan jól működött, hogy nemcsak a helyes válaszokat tudtuk megjósolni, hanem azt is, ha rossz szóra figyeltek” – mondta Chang.
A beszédfelismerés az emberi agy és a gépek által
Az új eredmények azt mutatják, hogy a beszéd reprezentációja az agykéregben nem csupán a teljes külső akusztikai környezetet tükrözi, hanem csak azt, amit valóban hallani akarunk vagy hallanunk kell.
Az eredmények jelentős előrelépést jelentenek az emberi agy nyelvi feldolgozásának megértésében, és közvetlen hatással vannak az öregedés során bekövetkező károsodás, a figyelemzavar, az autizmus és a nyelvtanulási zavarok vizsgálatára.
Mellett Chang, aki egyben a UC Berkeley és az UCSF Neural Engineering and Prostheses Center társigazgatója is, elmondta, hogy ezt a technológiát egy napon talán neuroprotéziseknél is felhasználhatjuk majd a kommunikációra képtelen, bénult betegek szándékainak és gondolatainak dekódolására.
Az, hogy az agyunk úgy van bekötve, hogy bizonyos hallási jeleket előnyben részesít másokkal szemben, akár új megközelítéseket is inspirálhat a hangvezérelt elektronikus interfészek automatizálására és javítására, hogy hogyan szűrik ki a hangokat a szóbeli parancsok megfelelő észlelése érdekében.
Az, hogy az agy hogyan képes ilyen hatékonyan egyetlen hangra összpontosítani, a fogyasztói technológiákat gyártó cégek számára rendkívül érdekes probléma, mivel a hangvezérelt interfésszel ellátott mindenféle elektronikus eszköz óriási piacot jelent a jövőben. Bár a hangfelismerő technológiák, amelyek lehetővé teszik az olyan interfészeket, mint az Apple Siri, az elmúlt néhány évben sokat fejlődtek, közel sem olyan kifinomultak, mint az emberi beszédrendszer.
Az átlagember képes besétálni egy zajos szobába, és viszonylag könnyen folytathat magánbeszélgetést – mintha az összes többi hangot elnémították volna a szobában. Valójában – mondta Mesgarani, az automatikus beszédfelismerés kutatásában jártas mérnök – az egyetlen érthető hangnak a hangszórók és a háttérzajok kakofóniájából való elkülönítéséhez szükséges mérnöki munka meglepően nehéz probléma.
A beszédfelismerés, mondta, “olyasmi, amiben az emberek figyelemre méltóan jók, de kiderült, hogy ennek az emberi képességnek a gépi utánzása rendkívül nehéz.”
A Nima Mesgarani és Edward F. Chang “Selective cortical representation of attended speaker in multi-talker speech perception” című cikke a Nature folyóirat 2012. április 19-i számában jelent meg.
A munkát a National Institutes of Health és az Ester A. és Joseph Klingenstein Alapítvány finanszírozta.
AzUCSF vezető egyetem, amely a fejlett orvosbiológiai kutatás, az élettudományok és az egészségügyi szakmák graduális szintű oktatása, valamint a betegellátás kiválósága révén világszerte az egészség előmozdítása mellett kötelezte el magát.