Como a Audição Seletiva Funciona no Cérebro
O mistério de longa data de como a audição seletiva funciona – como as pessoas podem sintonizar um único falante enquanto sintonizam seus ambientes cheios e barulhentos – é resolvido esta semana na revista Nature por dois cientistas da Universidade da Califórnia, São Francisco (UCSF).
Os psicólogos conhecem há décadas o chamado “efeito cocktail party”, um nome que evoca a era dos Homens Loucos em que foi cunhado. É a notável habilidade humana de se concentrar em um único palestrante em praticamente qualquer ambiente – uma sala de aula, evento esportivo ou bar de café – mesmo que a voz dessa pessoa seja aparentemente afogada por uma multidão que fala muito.
Para entender como a audição seletiva funciona no cérebro, Edward Chang, neurocirurgião da UCSF, MD, membro do corpo docente do Departamento de Cirurgia Neurológica da UCSF e do Keck Center for Integrative Neuroscience, e Nima Mesgarani, PhD, colega de pós-doutorado da UCSF, trabalharam com três pacientes que estavam sendo submetidos à cirurgia cerebral para epilepsia grave.
Parte desta cirurgia envolve a identificação das partes do cérebro responsáveis por incapacitar as convulsões. A equipe de epilepsia da UCSF encontra esses locais mapeando a atividade do cérebro durante uma semana, com uma fina folha de até 256 eletrodos colocados sob o crânio na superfície externa do cérebro ou córtex. Esses eletrodos registram a atividade no lobo temporal – lar do córtex auditivo.
UCSF é um dos poucos centros acadêmicos líderes em epilepsia onde esses avançados registros intracranianos são feitos e, disse Chang, a capacidade de registrar com segurança a partir do próprio cérebro fornece oportunidades únicas para avançar nosso conhecimento fundamental de como o cérebro funciona.
“A combinação de gravações cerebrais de alta resolução e poderosos algoritmos de decodificação abre uma janela para a experiência subjetiva da mente que nunca vimos antes”, disse Chang.
Nos experimentos, os pacientes ouviram duas amostras de fala tocadas simultaneamente, nas quais frases diferentes foram ditas por diferentes falantes. Foi-lhes pedido que identificassem as palavras que ouviam faladas por um dos dois oradores.
Os autores então aplicaram novos métodos de decodificação para “reconstruir” o que os sujeitos ouviram ao analisar seus padrões de atividade cerebral. De forma impressionante, os autores descobriram que as respostas neurais no córtex auditivo refletiam apenas as do falante alvo. Eles descobriram que seu algoritmo de decodificação poderia prever qual falante e até que palavras específicas o sujeito estava ouvindo baseado nesses padrões neurais. Em outras palavras, eles poderiam dizer quando a atenção do ouvinte se desviou para outro falante.
“O algoritmo funcionou tão bem que poderíamos prever não apenas as respostas corretas, mas também quando eles prestaram atenção à palavra errada”, disse Chang.
Reconhecimento da fala pelo cérebro humano e pelas máquinas
As novas descobertas mostram que a representação da fala no córtex não reflete apenas todo o ambiente acústico externo, mas apenas o que realmente queremos ou precisamos ouvir.
Representam um grande avanço na compreensão de como o cérebro humano processa a linguagem, com implicações imediatas para o estudo da deficiência durante o envelhecimento, distúrbio do déficit de atenção, autismo e distúrbios de aprendizagem da linguagem.
Além disso, Chang, que também é co-diretor do Centro de Engenharia Neural e Próteses da UC Berkeley e UCSF, disse que um dia poderemos usar essa tecnologia para dispositivos neuropróteses para decodificar as intenções e pensamentos de pacientes paralisados que não conseguem se comunicar.
Revelando como nossos cérebros são conectados para favorecer algumas dicas auditivas em detrimento de outras, pode até mesmo inspirar novas abordagens para automatizar e melhorar como as interfaces eletrônicas ativadas por voz filtram os sons a fim de detectar corretamente os comandos verbais.
Como o cérebro pode se concentrar tão efetivamente em uma única voz é um problema de grande interesse para as empresas que fazem tecnologias de consumo por causa do tremendo mercado futuro para todos os tipos de dispositivos eletrônicos com interfaces de voz ativa. Embora as tecnologias de reconhecimento de voz que permitem interfaces como o Siri da Apple tenham percorrido um longo caminho nos últimos anos, elas não são tão sofisticadas quanto o sistema de fala humano.
Uma pessoa comum pode entrar em uma sala barulhenta e ter uma conversa privada com relativa facilidade – como se todas as outras vozes na sala fossem silenciadas. Na verdade, disse Mesgarani, um engenheiro com formação em pesquisa de reconhecimento automático de voz, a engenharia necessária para separar uma única voz inteligível de uma cacofonia de falantes e ruído de fundo é um problema surpreendentemente difícil.
O reconhecimento da fala, disse ele, é “algo em que os humanos são notavelmente bons, mas acontece que a emulação mecânica desta capacidade humana é extremamente difícil”
O artigo, “Representação cortical seletiva do falante atendido na percepção de fala multi-falante” de Nima Mesgarani e Edward F. Chang aparece na edição de 19 de abril de 2012 da revista Nature.
Este trabalho foi financiado pelos Institutos Nacionais de Saúde e pela Fundação Ester A. e Joseph Klingenstein.
UCSF é uma universidade líder dedicada à promoção da saúde em todo o mundo através de pesquisa biomédica avançada, educação de nível superior nas ciências da vida e profissões da saúde, e excelência no atendimento ao paciente.