Cum funcționează auzul selectiv în creier
Misterul îndelungat al modului în care funcționează auzul selectiv – cum pot oamenii să se adapteze la un singur vorbitor și în același timp să nu asculte mediul înconjurător aglomerat și zgomotos – este rezolvat săptămâna aceasta în revista Nature de către doi oameni de știință de la Universitatea din California, San Francisco (UCSF).
Psihologii știu de zeci de ani despre așa-numitul „efect cocktail party”, un nume care evocă epoca Mad Men în care a fost inventat. Este vorba despre capacitatea umană remarcabilă de a se concentra asupra unui singur vorbitor în aproape orice mediu – o sală de clasă, un eveniment sportiv sau o cafenea – chiar dacă vocea acelei persoane este aparent înecată de o mulțime trăncănitoare.
Pentru a înțelege cum funcționează auzul selectiv în creier, neurochirurgul UCSF Edward Chang, MD, membru al facultății din cadrul Departamentului de Chirurgie Neurologică al UCSF și al Centrului Keck pentru Neuroștiințe Integrative, și Nima Mesgarani, PhD, cercetător postdoctoral al UCSF, au lucrat cu trei pacienți care erau supuși unei operații pe creier pentru epilepsie severă.
O parte a acestei intervenții chirurgicale implică localizarea părților din creier responsabile de crizele invalidante. Echipa de epilepsie de la UCSF găsește aceste locații prin cartografierea activității creierului timp de o săptămână, cu ajutorul unei foi subțiri de până la 256 de electrozi plasați sub craniu, pe suprafața exterioară a creierului sau cortex. Acești electrozi înregistrează activitatea în lobul temporal – unde se află cortexul auditiv.
UCSF este unul dintre puținele centre academice de vârf pentru epilepsie în care se fac aceste înregistrări intracraniene avansate și, a spus Chang, capacitatea de a înregistra în condiții de siguranță din creierul însuși oferă oportunități unice de a avansa cunoștințele noastre fundamentale despre modul în care funcționează creierul.
„Combinația dintre înregistrările cerebrale de înaltă rezoluție și algoritmii puternici de decodificare deschide o fereastră către experiența subiectivă a minții pe care nu am mai văzut-o până acum”, a spus Chang.
În cadrul experimentelor, pacienții au ascultat două mostre de vorbire care le-au fost redate simultan, în care fraze diferite au fost rostite de vorbitori diferiți. Li s-a cerut să identifice cuvintele pe care le auzeau rostite de unul dintre cei doi vorbitori.
Apoi, autorii au aplicat noi metode de decodare pentru a „reconstrui” ceea ce au auzit subiecții, analizând modelele activității lor cerebrale. În mod surprinzător, autorii au descoperit că răspunsurile neuronale din cortexul auditiv le reflectau doar pe cele ale vorbitorului vizat. Ei au descoperit că algoritmul lor de decodare putea prezice ce vorbitor și chiar ce cuvinte specifice asculta subiectul pe baza acelor modele neuronale. Cu alte cuvinte, ei puteau spune când atenția ascultătorului se abătea asupra altui vorbitor.
„Algoritmul a funcționat atât de bine încât am putut prezice nu numai răspunsurile corecte, ci chiar și atunci când au acordat atenție unui cuvânt greșit”, a spus Chang.
Recunoașterea vorbirii de către creierul uman și mașini
Noile descoperiri arată că reprezentarea vorbirii în cortex nu reflectă doar întregul mediu acustic extern, ci doar ceea ce dorim sau avem nevoie să auzim cu adevărat.
Ele reprezintă un progres major în înțelegerea modului în care creierul uman procesează limbajul, cu implicații imediate pentru studiul afectării în timpul îmbătrânirii, a tulburărilor de deficit de atenție, a autismului și a tulburărilor de învățare a limbajului.
În plus, Chang, care este, de asemenea, co-director al Centrului pentru Inginerie Neurală și Proteze de la UC Berkeley și UCSF, a declarat că într-o zi am putea folosi această tehnologie pentru dispozitive neuroprotetice pentru decodarea intențiilor și gândurilor de la pacienții paralizați care nu pot comunica.
Descoperind modul în care creierul nostru este programat să favorizeze anumite indicii auditive în detrimentul altora, aceasta ar putea chiar să inspire noi abordări în vederea automatizării și îmbunătățirii modului în care interfețele electronice activate vocal filtrează sunetele pentru a detecta în mod corespunzător comenzile verbale.
Modul în care creierul se poate concentra atât de eficient asupra unei singure voci este o problemă de mare interes pentru companiile care produc tehnologii de consum, din cauza pieței viitoare extraordinare pentru toate tipurile de dispozitive electronice cu interfețe active vocal. Deși tehnologiile de recunoaștere vocală care permit interfețe precum Siri de la Apple au progresat mult în ultimii ani, acestea nu sunt nici pe departe la fel de sofisticate ca sistemul de vorbire uman.
O persoană obișnuită poate intra într-o cameră zgomotoasă și poate purta o conversație privată cu o relativă ușurință – ca și cum toate celelalte voci din încăpere ar fi în surdină. De fapt, a declarat Mesgarani, un inginer cu experiență în cercetarea în domeniul recunoașterii automate a vorbirii, ingineria necesară pentru a separa o singură voce inteligibilă de o cacofonie de difuzoare și zgomot de fond este o problemă surprinzător de dificilă.
Recunoașterea vorbirii, a spus el, este „ceva la care oamenii sunt remarcabil de buni, dar se pare că emulația mecanică a acestei abilități umane este extrem de dificilă.”
Articolul, „Selective cortical representation of attended speaker in multi-talker speech perception” de Nima Mesgarani și Edward F. Chang apare în ediția din 19 aprilie 2012 a revistei Nature.
Această lucrare a fost finanțată de National Institutes of Health și de Fundația Ester A. și Joseph Klingenstein.
UCSF este o universitate de top dedicată promovării sănătății în întreaga lume prin cercetare biomedicală avansată, educație la nivel de absolvenți în domeniul științelor vieții și al profesiilor din domeniul sănătății, precum și prin excelență în îngrijirea pacienților.
.