Cómo funciona la audición selectiva en el cerebro
El viejo misterio de cómo funciona la audición selectiva -cómo la gente puede sintonizar con un solo orador mientras sintoniza con su entorno lleno de ruido- ha sido resuelto esta semana en la revista Nature por dos científicos de la Universidad de California en San Francisco (UCSF).
Los psicólogos conocen desde hace décadas el llamado «efecto cóctel», un nombre que evoca la época de Mad Men en la que fue acuñado. Se trata de la notable capacidad humana de concentrarse en un solo orador en prácticamente cualquier entorno -un aula, un evento deportivo o una cafetería- aunque la voz de esa persona esté aparentemente ahogada por una multitud que parlotea.
Para entender cómo funciona la audición selectiva en el cerebro, el neurocirujano de la UCSF Edward Chang, MD, miembro del cuerpo docente del Departamento de Cirugía Neurológica de la UCSF y del Centro Keck para la Neurociencia Integrativa, y el becario postdoctoral de la UCSF Nima Mesgarani, PhD, trabajaron con tres pacientes que estaban siendo sometidos a una cirugía cerebral por epilepsia grave.
Parte de esta cirugía consiste en localizar las partes del cerebro responsables de los ataques incapacitantes. El equipo de epilepsia de la UCSF encuentra esos lugares cartografiando la actividad del cerebro durante una semana, con una fina lámina de hasta 256 electrodos colocada bajo el cráneo en la superficie exterior del cerebro o córtex. Estos electrodos registran la actividad en el lóbulo temporal, donde se encuentra el córtex auditivo.
La UCSF es uno de los pocos centros académicos de epilepsia más importantes en los que se realizan estas grabaciones intracraneales avanzadas y, según Chang, la capacidad de grabar de forma segura desde el propio cerebro ofrece oportunidades únicas para avanzar en nuestro conocimiento fundamental de cómo funciona el cerebro.
«La combinación de grabaciones cerebrales de alta resolución y potentes algoritmos de descodificación abre una ventana a la experiencia subjetiva de la mente que nunca antes habíamos visto», dijo Chang.
En los experimentos, los pacientes escucharon simultáneamente dos muestras de habla en las que diferentes frases eran pronunciadas por distintos hablantes. Se les pidió que identificaran las palabras que escuchaban pronunciadas por uno de los dos hablantes.
Los autores aplicaron entonces nuevos métodos de decodificación para «reconstruir» lo que los sujetos habían oído a partir del análisis de sus patrones de actividad cerebral. Sorprendentemente, los autores descubrieron que las respuestas neuronales en el córtex auditivo sólo reflejaban las del hablante objetivo. Descubrieron que su algoritmo de descodificación podía predecir qué orador e incluso qué palabras concretas estaba escuchando el sujeto basándose en esos patrones neuronales. En otras palabras, podían saber cuándo la atención del oyente se desviaba hacia otro orador.
«El algoritmo funcionaba tan bien que podíamos predecir no sólo las respuestas correctas, sino también incluso cuando prestaban atención a la palabra equivocada», dijo Chang.
Reconocimiento del habla por el cerebro humano y las máquinas
Los nuevos hallazgos demuestran que la representación del habla en el córtex no sólo refleja todo el entorno acústico externo, sino sólo lo que realmente queremos o necesitamos oír.
Representan un gran avance en la comprensión de cómo el cerebro humano procesa el lenguaje, con implicaciones inmediatas para el estudio del deterioro durante el envejecimiento, el trastorno por déficit de atención, el autismo y los trastornos del aprendizaje del lenguaje.
Además, Chang, que también es codirector del Centro de Ingeniería Neural y Prótesis de la UC Berkeley y la UCSF, dijo que algún día podremos utilizar esta tecnología para dispositivos neuroprotésicos para decodificar las intenciones y pensamientos de pacientes paralizados que no pueden comunicarse.
Revelar cómo nuestros cerebros están conectados para favorecer algunas señales auditivas sobre otras puede incluso inspirar nuevos enfoques hacia la automatización y la mejora de la forma en que las interfaces electrónicas activadas por la voz filtran los sonidos con el fin de detectar adecuadamente las órdenes verbales.
Cómo el cerebro puede centrarse tan eficazmente en una sola voz es un problema de gran interés para las empresas que fabrican tecnologías de consumo debido al enorme mercado futuro de todo tipo de dispositivos electrónicos con interfaces activas por voz. Aunque las tecnologías de reconocimiento de voz que permiten interfaces como Siri, de Apple, han avanzado mucho en los últimos años, no son ni de lejos tan sofisticadas como el sistema de voz humano.
Una persona normal puede entrar en una habitación ruidosa y mantener una conversación privada con relativa facilidad, como si todas las demás voces de la sala estuvieran silenciadas. De hecho, según Mesgarani, un ingeniero con experiencia en la investigación del reconocimiento automático del habla, la ingeniería necesaria para separar una sola voz inteligible de una cacofonía de altavoces y ruido de fondo es un problema sorprendentemente difícil.
El reconocimiento del habla, dijo, es «algo en lo que los humanos son notablemente buenos, pero resulta que la emulación de esta capacidad humana por parte de las máquinas es extremadamente difícil»
El artículo, «Selective cortical representation of attended speaker in multi-talker speech perception» («Representación cortical selectiva del hablante atendido en la percepción del habla de varios hablantes») de Nima Mesgarani y Edward F. Chang aparece en el número del 19 de abril de 2012 de la revista Nature.
Este trabajo fue financiado por los Institutos Nacionales de Salud y la Fundación Ester A. y Joseph Klingenstein.
La UCSF es una universidad líder dedicada a promover la salud en todo el mundo a través de la investigación biomédica avanzada, la educación de posgrado en las ciencias de la vida y las profesiones de la salud, y la excelencia en la atención al paciente.