Jak funguje selektivní slyšení v mozku

Dlouholetou záhadu, jak funguje selektivní slyšení – jak se lidé dokáží naladit na jednoho mluvčího a zároveň vyladit své přeplněné, hlučné okolí – vyřešili tento týden v časopise Nature dva vědci z Kalifornské univerzity v San Franciscu (UCSF).

Psychologové vědí o takzvaném „efektu koktejlových večírků“, jehož název evokuje éru seriálu Mad Men, v níž vznikl, již několik desetiletí. Jedná se o pozoruhodnou lidskou schopnost soustředit se na jednoho řečníka prakticky v jakémkoli prostředí – ve třídě, na sportovní akci nebo v kavárně – i když je hlas této osoby zdánlivě přehlušen hlučícím davem.

Aby pochopili, jak selektivní slyšení v mozku funguje, neurochirurg UCSF doktor Edward Chang, člen katedry neurochirurgie UCSF a Keckova centra pro integrativní neurovědy, a postdoktorand UCSF doktor Nima Mesgarani pracovali se třemi pacienty, kteří podstupovali operaci mozku kvůli těžké epilepsii.

Edward Chang, MDEdward Chang, MD

Část této operace spočívá v určení částí mozku, které jsou zodpovědné za invalidizující záchvaty. Tým UCSF zabývající se epilepsií vyhledává tyto lokality pomocí týdenního mapování aktivity mozku pomocí tenké vrstvy až 256 elektrod umístěných pod lebkou na vnějším povrchu mozku neboli mozkové kůře. Tyto elektrody zaznamenávají aktivitu ve spánkovém laloku – domově sluchové kůry.

UCSF je jedním z mála předních akademických center pro epilepsii, kde se tyto pokročilé intrakraniální záznamy provádějí, a jak řekl Chang, možnost bezpečného záznamu ze samotného mozku poskytuje jedinečné možnosti, jak posunout naše základní znalosti o tom, jak mozek funguje.

„Kombinace mozkových záznamů s vysokým rozlišením a výkonných dekódovacích algoritmů nám otevírá okno do subjektivního prožívání mysli, které jsme dosud neviděli,“ řekl Chang.

Při experimentech pacienti poslouchali dvě ukázky řeči, které jim byly přehrávány současně a v nichž různé fráze pronášeli různí mluvčí. Byli požádáni, aby identifikovali slova, která slyšeli vyslovená jedním z obou mluvčích.

Autoři poté použili nové dekódovací metody k „rekonstrukci“ toho, co subjekty slyšely, na základě analýzy vzorců jejich mozkové aktivity. Zarážející bylo, že autoři zjistili, že nervové odpovědi ve sluchové kůře odrážely pouze odpovědi cílového mluvčího. Zjistili, že jejich dekódovací algoritmus dokáže na základě těchto neuronálních vzorců předpovědět, kterého řečníka a dokonce i jaká konkrétní slova subjekt poslouchal. Jinými slovy, dokázali rozpoznat, kdy posluchačova pozornost zabloudila k jinému mluvčímu.

„Algoritmus fungoval tak dobře, že jsme dokázali předpovědět nejen správné odpovědi, ale dokonce i to, kdy věnoval pozornost nesprávnému slovu,“ řekl Chang.

Rozpoznávání řeči lidským mozkem a stroji

Nové poznatky ukazují, že reprezentace řeči v mozkové kůře neodráží pouze celé vnější akustické prostředí, ale místo toho jen to, co skutečně chceme nebo potřebujeme slyšet.

Představují významný pokrok v pochopení toho, jak lidský mozek zpracovává řeč, což má bezprostřední důsledky pro studium poruch během stárnutí, poruch pozornosti, autismu a poruch učení jazyka.

Čang, který je také spoluředitelem Centra pro nervové inženýrství a protézy na Kalifornské univerzitě v Berkeley a UCSF, navíc uvedl, že tuto technologii možná jednou budeme moci využít pro neuroprotetická zařízení pro dekódování záměrů a myšlenek ochrnutých pacientů, kteří nemohou komunikovat.

Odhalení toho, jak je náš mozek nastaven tak, aby upřednostňoval některé zvukové signály před jinými, může dokonce inspirovat nové přístupy k automatizaci a zdokonalení toho, jak hlasem aktivovaná elektronická rozhraní filtrují zvuky, aby správně rozpoznávala slovní příkazy.

Jak se mozek dokáže tak efektivně soustředit na jediný hlas, je problém, který velmi zajímá společnosti vyrábějící spotřebitelské technologie, protože v budoucnu se na trhu objeví obrovské množství nejrůznějších elektronických zařízení s hlasově aktivními rozhraními. Přestože technologie rozpoznávání hlasu, které umožňují taková rozhraní, jako je Siri od společnosti Apple, urazily za posledních několik let dlouhou cestu, nejsou zdaleka tak sofistikované jako systém lidské řeči.

Běžný člověk může vstoupit do hlučné místnosti a relativně snadno vést soukromý rozhovor – jako by všechny ostatní hlasy v místnosti byly ztlumeny. Ve skutečnosti, řekl Mesgarani, inženýr s praxí ve výzkumu automatického rozpoznávání řeči, je technika potřebná k oddělení jediného srozumitelného hlasu od kakofonie reproduktorů a hluku v pozadí překvapivě obtížným problémem.

Rozpoznávání řeči je podle něj „něco, v čem jsou lidé pozoruhodně dobří, ale ukazuje se, že strojová emulace této lidské schopnosti je nesmírně obtížná.“

Článek „Selective cortical representation of attended speaker in multi-talker speech perception“ autorů Nimy Mesgaraniho a Edwarda F. Changa vyšel 19. dubna 2012 v časopise Nature.

Tato práce byla financována Národními ústavy zdraví a Nadací Ester A. a Josepha Klingensteinových.

UCSF je přední univerzita zaměřená na podporu zdraví po celém světě prostřednictvím pokročilého biomedicínského výzkumu, postgraduálního vzdělávání v přírodních vědách a zdravotnických profesích a vynikající péče o pacienty.