Come funziona l’udito selettivo nel cervello

L’annoso mistero di come funziona l’udito selettivo – come le persone possono sintonizzarsi su un singolo altoparlante mentre sintonizzano i loro ambienti affollati e rumorosi – è risolto questa settimana sulla rivista Nature da due scienziati della University of California, San Francisco (UCSF).

Gli psicologi conoscono da decenni il cosiddetto “effetto cocktail party”, un nome che evoca l’epoca di Mad Men in cui è stato coniato. Si tratta della notevole capacità umana di concentrarsi su un singolo oratore in qualsiasi ambiente – un’aula, un evento sportivo o un bar – anche se la voce di quella persona è apparentemente soffocata da una folla di chiacchieroni.

Per capire come funziona l’udito selettivo nel cervello, il neurochirurgo dell’UCSF Edward Chang, MD, membro di facoltà del Dipartimento di Neurochirurgia dell’UCSF e del Keck Center for Integrative Neuroscience, e il postdoc dell’UCSF Nima Mesgarani, PhD, hanno lavorato con tre pazienti sottoposti a interventi chirurgici al cervello per una grave epilessia.

Edward Chang, MDEdward Chang, MD

Parte di questo intervento comporta l’individuazione delle parti del cervello responsabili di crisi invalidanti. Il team dell’UCSF per l’epilessia trova questi luoghi mappando l’attività del cervello nel corso di una settimana, con un sottile foglio di fino a 256 elettrodi posti sotto il cranio sulla superficie esterna del cervello o corteccia. Questi elettrodi registrano l’attività nel lobo temporale – sede della corteccia uditiva.

UCSF è uno dei pochi centri accademici leader nell’epilessia dove vengono effettuate queste registrazioni intracraniche avanzate e, ha detto Chang, la capacità di registrare in modo sicuro dal cervello stesso fornisce opportunità uniche per far avanzare la nostra conoscenza fondamentale di come funziona il cervello.

“La combinazione di registrazioni cerebrali ad alta risoluzione e potenti algoritmi di decodifica apre una finestra nell’esperienza soggettiva della mente che non abbiamo mai visto prima”, ha detto Chang.

Negli esperimenti, i pazienti hanno ascoltato due campioni di discorso riprodotti simultaneamente in cui diverse frasi erano pronunciate da diversi oratori. È stato chiesto loro di identificare le parole che avevano sentito pronunciare da uno dei due oratori.

Gli autori hanno poi applicato nuovi metodi di decodifica per “ricostruire” ciò che i soggetti hanno sentito analizzando i loro modelli di attività cerebrale. Sorprendentemente, gli autori hanno scoperto che le risposte neurali nella corteccia uditiva riflettevano solo quelle dell’oratore in questione. Hanno scoperto che il loro algoritmo di decodifica poteva prevedere quale oratore e anche quali parole specifiche il soggetto stava ascoltando sulla base di quei modelli neurali. In altre parole, potevano dire quando l’attenzione dell’ascoltatore si spostava su un altro oratore.

“L’algoritmo funzionava così bene che potevamo prevedere non solo le risposte corrette, ma anche quando prestavano attenzione alla parola sbagliata”, ha detto Chang.

Riconoscimento del parlato da parte del cervello umano e delle macchine

Le nuove scoperte mostrano che la rappresentazione del parlato nella corteccia non riflette solo l’intero ambiente acustico esterno, ma solo ciò che vogliamo o abbiamo davvero bisogno di sentire.

Rappresentano un importante progresso nella comprensione di come il cervello umano elabora il linguaggio, con implicazioni immediate per lo studio delle menomazioni durante l’invecchiamento, dei disturbi da deficit di attenzione, dell’autismo e dei disturbi dell’apprendimento del linguaggio.

Inoltre, Chang, che è anche co-direttore del Center for Neural Engineering and Prostheses alla UC Berkeley e UCSF, ha detto che potremmo un giorno essere in grado di utilizzare questa tecnologia per dispositivi neuroprotesici per decodificare le intenzioni e i pensieri di pazienti paralizzati che non possono comunicare.

Rivelando come il nostro cervello è cablato per favorire alcuni spunti uditivi rispetto ad altri, potrebbe anche ispirare nuovi approcci per automatizzare e migliorare il modo in cui le interfacce elettroniche ad attivazione vocale filtrano i suoni al fine di rilevare correttamente i comandi verbali.

Come il cervello possa concentrarsi così efficacemente su una singola voce è un problema di grande interesse per le aziende che producono tecnologie di consumo a causa del tremendo mercato futuro per tutti i tipi di dispositivi elettronici con interfacce vocali attive. Mentre le tecnologie di riconoscimento vocale che permettono interfacce come Siri di Apple hanno fatto molta strada negli ultimi anni, non sono nemmeno lontanamente sofisticate quanto il sistema vocale umano.

Una persona media può entrare in una stanza rumorosa e avere una conversazione privata con relativa facilità – come se tutte le altre voci nella stanza fossero silenziate. Infatti, ha detto Mesgarani, un ingegnere con un background nella ricerca sul riconoscimento automatico del parlato, l’ingegneria richiesta per separare una singola voce intelligibile da una cacofonia di altoparlanti e rumore di fondo è un problema sorprendentemente difficile.

Il riconoscimento vocale, ha detto, è “qualcosa in cui gli esseri umani sono notevolmente bravi, ma si scopre che l’emulazione meccanica di questa capacità umana è estremamente difficile.”

L’articolo, “Selective cortical representation of attended speaker in multi-talker speech perception” di Nima Mesgarani e Edward F. Chang appare nel numero del 19 aprile 2012 della rivista Nature.

Questo lavoro è stato finanziato dal National Institutes of Health e dalla Ester A. and Joseph Klingenstein Foundation.

UCSF è un’università leader dedicata a promuovere la salute in tutto il mondo attraverso la ricerca biomedica avanzata, l’istruzione a livello di laurea nelle scienze della vita e nelle professioni sanitarie, e l’eccellenza nella cura del paziente.