IA aprende com a voz: como redes neurais analisam áudios para identificar padrões associados a condições respiratórias no projeto SPIRA-BM
No SPIRA-BM, a ideia de que uma inteligência artificial pode analisar a voz humana para identificar indícios de condições respiratórias não parte de regras fixas programadas manualmente, mas de um processo de aprendizagem baseado em dados. Em vez de definir previamente quais características da fala indicam uma condição clínica, os pesquisadores alimentam os modelos com áudios e permitem que eles identifiquem padrões relevantes de forma automática. É nesse contexto que entram as redes neurais artificiais, núcleo do trabalho desenvolvido pelo grupo de big data do projeto.
Segundo Arnaldo Candido Junior, integrante do grupo big data, esse tipo de modelo funciona por meio de exposição a dados e ajuste contínuo de parâmetros. “Você não precisa programar o modelo para fazer uma tarefa; você apresenta dados para ele e ele se adapta”, explica. O sistema aprende a partir de exemplos, ajustando suas previsões conforme os erros identificados ao longo do treinamento.
Para o pesquisador Marcelo Matheus Gauy, que também integra a equipe do SPIRA-BM, o desenvolvimento desses modelos de inteligência artificial está diretamente ligado à ideia de aprendizado a partir de dados reais. Ele explica que, em vez de definir regras explícitas sobre o que procurar na voz, o sistema recebe exemplos e aprende sozinho a identificar padrões relevantes para a tarefa de classificação, o que inclui sinais sutis presentes na fala.
Segundo o pesquisador, essa abordagem permite que os modelos identifiquem características complexas do sinal de áudio, como variações na entonação, pausas e aspectos temporais da fala, sem que essas informações precisem ser previamente codificadas pelos desenvolvedores. “A ideia é não dizer para o modelo exatamente o que procurar, mas deixar que ele descubra essas relações a partir dos dados”, resume, destacando a proximidade desse processo com técnicas modernas de aprendizado profundo.
Gauy também chama atenção para o desafio da generalização dos modelos, especialmente em contextos como o SPIRA-BM, em que os dados vêm de diferentes fases e ambientes de coleta. Segundo ele, mudanças no contexto — como variações entre dados hospitalares e outros tipos de gravação — podem afetar o desempenho do sistema, tornando necessário pensar em estratégias que permitam ao modelo manter sua capacidade de identificação mesmo diante de cenários distintos.
No caso do SPIRA-BM, os dados utilizados são áudios de voz coletados em diferentes contextos, incluindo ambientes hospitalares e grupos de controle. A partir desse material, os modelos passam por um processo de treinamento no qual realizam classificações iniciais, como identificar se um áudio corresponde a um paciente com determinada condição ou não. No início, os erros são frequentes, mas o sistema vai sendo ajustado iterativamente até alcançar melhores níveis de precisão.
Um dos principais desafios destacados por Arnaldo é a diversidade dos ambientes de coleta. Áudios registrados em hospitais apresentam ruídos e características muito diferentes daqueles obtidos em outros contextos, como gravações remotas. Essa variação pode levar o modelo a aprender padrões indesejados, como o ambiente sonoro, em vez das características da voz associadas às condições investigadas.
Para lidar com esse problema, a equipe adotou estratégias específicas de preparação dos dados, incluindo a inserção de ruídos hospitalares nos áudios do grupo de controle. O objetivo foi equilibrar as condições de treinamento e garantir que o modelo aprendesse padrões relacionados à voz e à fala, e não às interferências do ambiente. Esse cuidado é fundamental em sistemas de inteligência artificial aplicados à saúde, nos quais vieses nos dados podem comprometer os resultados.
O funcionamento do modelo pode ser descrito como um ciclo contínuo de tentativa, erro e ajuste. Um áudio é apresentado ao sistema em uma representação adequada para processamento, e o modelo realiza uma previsão — por exemplo, indicando a presença ou ausência de uma condição associada à saúde respiratória. Em seguida, essa previsão é comparada com a resposta correta, e o sistema ajusta seus parâmetros para reduzir erros futuros.
Arnaldo explica que esses modelos são baseados em redes neurais artificiais, um tipo de arquitetura que compõe o campo do aprendizado profundo. Essas redes são inspiradas parcialmente no funcionamento do cérebro humano, especialmente na ideia de conexões entre unidades de processamento, embora operem de forma matemática distinta. Essa estrutura permite identificar padrões complexos em sinais de áudio, como variações sutis na fala, pausas e entonações.
No SPIRA-BM, esse tipo de tecnologia é aplicado ao desenvolvimento de biomarcadores de áudio associados a condições respiratórias, como insuficiência respiratória, efeitos do tabagismo e asma grave. A proposta não é substituir diagnósticos médicos, mas desenvolver sistemas capazes de analisar padrões de forma automatizada e gerar informações que auxiliem profissionais de saúde em processos de triagem e acompanhamento.
Ao final, o funcionamento das redes neurais no projeto evidencia um ponto central da inteligência artificial contemporânea: a capacidade de aprender a partir de dados, mas também a dependência da qualidade e da diversidade desses dados para produzir resultados confiáveis. No SPIRA-BM, esse equilíbrio entre aprendizado automático e rigor metodológico sustenta o desenvolvimento de sistemas voltados à análise de áudio da voz em contextos de saúde.
