Jak słyszenie selektywne działa w mózgu
Od dawna istniejąca tajemnica, jak działa słuch selektywny – jak ludzie mogą dostroić się do pojedynczego mówcy, jednocześnie wyciszając ich zatłoczone, głośne otoczenie – została rozwiązana w tym tygodniu w czasopiśmie Nature przez dwóch naukowców z Uniwersytetu Kalifornijskiego w San Francisco (UCSF).
Psychologowie wiedzą od dziesięcioleci o tak zwanym „efekcie cocktail party”, nazwa, która przywołuje erę Mad Men, w której została ukuta. Jest to niezwykła ludzka zdolność do skupienia się na pojedynczym mówcy w praktycznie każdym środowisku – w klasie, na zawodach sportowych czy w kawiarni – nawet jeśli głos tej osoby jest pozornie zagłuszany przez szumiący tłum.
Aby zrozumieć, jak selektywne słyszenie działa w mózgu, neurochirurg UCSF Edward Chang, MD, członek wydziału w Departamencie Chirurgii Neurologicznej UCSF i Keck Center for Integrative Neuroscience, oraz doktorant UCSF Nima Mesgarani, PhD, pracowali z trzema pacjentami, którzy przechodzili operację mózgu z powodu ciężkiej padaczki.
zęść tej operacji polega na wskazaniu części mózgu odpowiedzialnych za upośledzające napady. Zespół UCSF ds. padaczki znajduje te miejsca poprzez mapowanie aktywności mózgu w ciągu tygodnia, za pomocą cienkiego arkusza składającego się z maksymalnie 256 elektrod umieszczonych pod czaszką na zewnętrznej powierzchni mózgu lub kory mózgowej. Elektrody te rejestrują aktywność w płacie skroniowym – domu kory słuchowej.
UCSF jest jednym z niewielu wiodących ośrodków akademickich zajmujących się padaczką, gdzie wykonuje się te zaawansowane nagrania wewnątrzczaszkowe i, jak powiedział Chang, możliwość bezpiecznego nagrywania z samego mózgu daje wyjątkowe możliwości poszerzenia naszej podstawowej wiedzy o tym, jak działa mózg.
„Połączenie wysokiej rozdzielczości nagrań mózgu i potężnych algorytmów dekodujących otwiera okno do subiektywnego doświadczenia umysłu, jakiego nigdy wcześniej nie widzieliśmy” – powiedział Chang.
W eksperymentach, pacjenci słuchali dwóch próbek mowy odtwarzanych im jednocześnie, w których różne frazy były wypowiadane przez różnych mówców. Zostali poproszeni o zidentyfikowanie słów, które usłyszeli wypowiedziane przez jednego z dwóch mówców.
Autorzy następnie zastosowali nowe metody dekodowania, aby „zrekonstruować” to, co badani słyszeli na podstawie analizy ich wzorców aktywności mózgu. Co uderzające, autorzy odkryli, że odpowiedzi neuronalne w korze słuchowej odzwierciedlały jedynie odpowiedzi mówcy, którego dotyczyły. Odkryli, że ich algorytm dekodujący mógł przewidzieć, którego mówcy, a nawet jakich konkretnych słów słuchał badany, na podstawie tych wzorców neuronalnych. Innymi słowy, byli w stanie stwierdzić, kiedy uwaga słuchacza skierowała się na innego mówcę.
„Algorytm działał tak dobrze, że mogliśmy przewidzieć nie tylko prawidłowe odpowiedzi, ale również to, kiedy słuchacze zwracali uwagę na niewłaściwe słowo” – powiedział Chang.
Rozpoznawanie mowy przez ludzki mózg i maszyny
Nowe odkrycia pokazują, że reprezentacja mowy w korze mózgowej nie odzwierciedla całego zewnętrznego środowiska akustycznego, ale tylko to, co naprawdę chcemy lub potrzebujemy usłyszeć.
Oznaczają one duży postęp w zrozumieniu, jak ludzki mózg przetwarza język, z natychmiastowymi implikacjami dla badań nad upośledzeniem podczas starzenia się, zaburzeniami uwagi, autyzmem i zaburzeniami uczenia się języków.
Dodatkowo, Chang, który jest również współdyrektorem Centrum Inżynierii Neuronowej i Protez na UC Berkeley i UCSF, powiedział, że możemy kiedyś być w stanie wykorzystać tę technologię do urządzeń neuroprotetycznych do dekodowania intencji i myśli od sparaliżowanych pacjentów, którzy nie mogą się komunikować.
Revealing jak nasze mózgi są okablowane do faworyzowania niektórych słuchowych wskazówek nad innymi może nawet zainspirować nowe podejścia w kierunku automatyzacji i poprawy, jak głos aktywowane elektroniczne interfejsy filtrować dźwięki w celu prawidłowego wykrywania słownych poleceń.
Jak mózg może tak skutecznie skupić się na jednym głosie jest problemem żywego zainteresowania firm, które sprawiają, że technologie konsumenckie z powodu ogromnego przyszłego rynku dla wszystkich rodzajów urządzeń elektronicznych z głosem aktywnych interfejsów. Podczas gdy technologie rozpoznawania głosu, które umożliwiają takie interfejsy jak Siri firmy Apple przeszły długą drogę w ciągu ostatnich kilku lat, nigdzie nie są tak wyrafinowane jak ludzki system mowy.
Przeciętna osoba może wejść do hałaśliwego pokoju i prowadzić prywatną rozmowę ze względną łatwością – tak jakby wszystkie inne głosy w pokoju były wyciszone. W rzeczywistości, powiedział Mesgarani, inżynier z doświadczeniem w badaniach nad automatycznym rozpoznawaniem mowy, inżynieria wymagana do oddzielenia pojedynczego zrozumiałego głosu od kakofonii głośników i hałasu w tle jest zaskakująco trudnym problemem.
Rozpoznawanie mowy, powiedział, jest „czymś, w czym ludzie są wyjątkowo dobrzy, ale okazuje się, że maszynowa emulacja tej ludzkiej zdolności jest niezwykle trudna.”
Artykuł, „Selektywna korowa reprezentacja uczestniczącego mówcy w percepcji mowy wielu rozmówców” autorstwa Nimy Mesgarani i Edwarda F. Changa ukazał się w wydaniu czasopisma Nature z 19 kwietnia 2012 roku.
Ta praca została sfinansowana przez National Institutes of Health oraz Ester A. i Joseph Klingenstein Foundation.
UCSF jest wiodącym uniwersytetem zajmującym się promowaniem zdrowia na całym świecie poprzez zaawansowane badania biomedyczne, edukację na poziomie absolwentów w zakresie nauk przyrodniczych i zawodów medycznych oraz doskonałość w opiece nad pacjentami.
Wyniki badań są dostępne na stronie internetowej.