Projeto SPIRA-BM reúne pesquisadores de áreas como Ciências da Computação, Linguística e Fonoaudiologia para desenvolver sistemas de inteligência artificial capazes de analisar áudios relacionados a condições respiratórias, como asma grave, entre outras
Celulares costumam ser associados à comunicação cotidiana, redes sociais e aplicativos de mensagens. No entanto, no projeto temático SPIRA-BM, esses dispositivos passaram a desempenhar também outra função: tornaram-se ferramentas de pesquisa científica voltadas à investigação de biomarcadores respiratórios por meio da voz e da fala.
A origem dessa estratégia está diretamente ligada ao contexto da pandemia. Em um período marcado pelo distanciamento social e pela pressão sobre os sistemas de saúde, pesquisadores da USP e da Unesp começaram a buscar formas de realizar coletas de dados de maneira remota e acessível. Parte dos participantes enviava gravações utilizando os próprios celulares, enquanto outros áudios eram coletados em ambientes hospitalares.
Segundo Arnaldo Candido Junior, pesquisador da área de Ciências da Computação da Universidade Estadual Paulista (UNESP), uma das primeiras preocupações do projeto foi justamente desenvolver um sistema capaz de organizar essas coletas. “Temos um programa instalado em celulares para coletar áudios e enviar eles para uma base de dados”, explica. Posteriormente, esses materiais passam por processamento computacional realizado por modelos de inteligência artificial desenvolvidos especificamente para analisar padrões presentes na voz e na fala.
O funcionamento da pesquisa envolve duas dimensões complementares. De um lado, existe o software responsável pela coleta dos áudios. De outro, os modelos de inteligência artificial encarregados da análise posterior dos dados. “São dois softwares diferentes que se relacionam: um para coletar e outro para detectar”, afirma Arnaldo.
Embora a ideia pareça simples, a coleta dos dados envolve uma série de cuidados metodológicos. Isso porque os modelos computacionais aprendem automaticamente a partir das informações recebidas. Se os dados forem inconsistentes ou carregarem interferências inadequadas, a inteligência artificial pode acabar aprendendo padrões errados. Um dos desafios enfrentados pela equipe surgiu justamente da diversidade de ambientes de gravação. Como parte dos áudios vinha de hospitais, existia o risco de os modelos associarem sons hospitalares à presença de uma condição respiratória. “Chegamos a injetar ruído dos hospitais nos áudios do grupo controle”, relata Arnaldo. A estratégia buscava evitar que a inteligência artificial aprendesse características do ambiente em vez de aspectos relacionados à voz e à fala dos participantes.
Marcelo Matheus Gauy, pesquisador da área de Ciências da Computação da Universidade Estadual Paulista (UNESP), explica que os modelos utilizados no projeto funcionam por meio de redes neurais artificiais. Diferentemente de sistemas tradicionais de programação, esses modelos não recebem regras prontas sobre o que procurar nos áudios. “Eu não digo para o modelo exatamente o que procurar”, afirma. Em vez disso, o sistema aprende automaticamente padrões presentes nos dados. Segundo ele, o objetivo não é analisar o conteúdo semântico daquilo que está sendo dito, mas identificar características acústicas e respiratórias associadas às condições investigadas. Entre os elementos observados estão pausas, entonação, ritmo da fala e aspectos relacionados à qualidade vocal.
Para que essas informações possam ser analisadas adequadamente, o processo de coleta precisa seguir protocolos específicos. Larissa Cristina Berti, pesquisadora da área de Fonoaudiologia da Universidade Estadual Paulista (UNESP), explica que os pesquisadores realizaram treinamento rigoroso dos coletadores responsáveis pelas gravações. “Treinamos os coletadores a orientar como fazer o paciente realizar uma vogal sustentada no momento da gravação, assim como qual seria a melhor distância para segurar o celular durante a coleta”, afirma.
As tarefas realizadas pelos participantes variam conforme os objetivos da pesquisa. Algumas envolvem a sustentação prolongada de vogais; outras utilizam leitura de frases e produção de parlendas memorizadas. Cada uma dessas atividades permite observar dimensões diferentes da voz e da fala. “No caso da vogal sustentada, conseguimos extrair parâmetros mais relacionados à produção da voz. Já a leitura de frases envolve habilidades linguísticas e padrões de entonação”, explica Larissa. Segundo ela, o conjunto dessas tarefas permite analisar tanto aspectos acústicos quanto elementos ligados à organização da fala.
As parlendas se tornaram um dos aspectos mais curiosos da coleta realizada pelo projeto. Beatriz Raposo de Medeiros, pesquisadora da área de Linguística da Universidade de São Paulo (USP), relata que sugeriu esse tipo de atividade ainda no início da pesquisa, buscando estimular formas de fala mais naturais. Uma das parlendas utilizadas foi “Batatinha quando nasce”. “A parlenda ocupa um lugar intermediário, pois é memorizada, mas não depende da leitura”, explica. Para a pesquisadora, isso ajuda a evitar interferências provocadas pela leitura escrita, preservando características mais espontâneas da fala. Ao longo das primeiras gravações, surgiram situações inesperadas. Algumas pessoas passaram a cantar músicas ou recitar orações durante as coletas. Embora isso tenha criado dificuldades de padronização, os pesquisadores também perceberam nessas situações possibilidades importantes de análise da fala em contextos mais naturais.
Flaviane Romani Fernandes Svartman, pesquisadora da área de Linguística da Universidade de São Paulo (USP), destaca que um dos focos do projeto envolve justamente investigar como alterações respiratórias aparecem na organização da fala. Entre os aspectos analisados estão as pausas realizadas pelos participantes durante as gravações. Segundo ela, pacientes com insuficiência respiratória podem apresentar pausas em posições diferentes daquelas normalmente esperadas na gramática prosódica do português brasileiro. “Os lugares em que as pausas se inserem na fala de pacientes com COVID não coincidem com a gramática do português brasileiro”, afirma.
Além do local das pausas, os pesquisadores observam também sua duração e frequência. No caso da asma, por exemplo, os resultados aparecem de forma intermediária em relação ao grupo controle e aos pacientes com COVID-19. Essas diferenças passam posteriormente a integrar os modelos computacionais responsáveis pela análise dos dados. Segundo Marcelo Gauy, um dos principais desafios da inteligência artificial aplicada à saúde está justamente em construir modelos capazes de continuar funcionando mesmo quando os dados mudam ao longo do tempo. Isso ocorreu durante a própria pandemia, quando modelos treinados com dados do início da COVID-19 passaram a apresentar dificuldades de generalização no período pós-vacinação. “O principal desafio não é executar o modelo, mas mantê-lo atualizado ao longo do tempo”, explica.
Apesar da sofisticação tecnológica envolvida, os pesquisadores ressaltam que o objetivo da pesquisa não é substituir profissionais de saúde. A proposta é desenvolver ferramentas de apoio capazes de auxiliar triagens, monitoramentos e acompanhamentos clínicos de maneira mais acessível. Nesse contexto, os celulares aparecem como dispositivos estratégicos justamente por já fazerem parte do cotidiano de grande parte da população. A possibilidade de utilizar aparelhos comuns para coleta de dados relacionados à voz e à fala amplia as perspectivas de aplicação futura das tecnologias investigadas no SPIRA-BM.
Entre os participantes do estudo, as experiências individuais ajudam a evidenciar como a pesquisa dialoga com diferentes realidades de saúde e percepções sobre o uso da tecnologia. Edilene Aparecida Lima de Souza, que convive com asma desde a infância, destaca a relevância de iniciativas que buscam compreender a doença a partir de novas abordagens. Para ela, a possibilidade de investigar a voz e a fala como indicadores clínicos representa um avanço importante. “Eu considero extremamente importante termos uma pesquisa que explore a voz e a fala como indicadores da doença”, afirma.
Já Denise Rodrigues Bernardo, que participou como integrante do grupo controle, ressalta o papel social da pesquisa mesmo entre pessoas que não possuem condições respiratórias diagnosticadas. “Mesmo não tendo a doença, é fundamental apoiar iniciativas que visam ajudar na saúde da população brasileira”, diz. Ela também demonstra otimismo em relação ao uso da inteligência artificial na área da saúde. “Vejo com bastante esperança o uso da inteligência artificial como forma de ajudar pacientes com as mais diferentes condições respiratórias”, completa.
Mais do que desenvolver softwares específicos, o projeto busca produzir conhecimento científico sobre as relações entre respiração, linguagem e inteligência artificial. Ao transformar celulares em ferramentas de pesquisa, os pesquisadores também evidenciam como tecnologias presentes na rotina das pessoas podem contribuir para novas formas de investigação científica.


