Pesquisa articula análise acústica detalhada e modelos de inteligência artificial para transformar sinais da voz e fala em indicadores de saúde
No SPIRA-BM, a análise de áudios de voz e fala não segue um único caminho. O projeto combina diferentes formas de trabalhar os dados para investigar condições respiratórias, como insuficiência respiratória, efeitos do tabagismo e asma grave. Essa estratégia integra a análise acústica dos sinais, voltada à identificação de características específicas da voz, com o uso de modelos de aprendizado de máquina, capazes de reconhecer padrões em grandes conjuntos de dados.
No desenvolvimento das pesquisas do SPIRA, os áudios coletados não são tratados apenas como registros sonoros, mas como fontes de dados que podem ajudar a apontar informações sobre o estado de saúde dos pacientes. Para isso, o projeto organiza o processamento desses dados em duas frentes complementares: a análise acústica e o aprendizado de máquina.
Quando o áudio é analisado em detalhe
A análise acústica trabalha com a investigação direta das propriedades do som. Nessa abordagem, o objetivo é identificar características da voz e da fala que possam estar associadas a condições respiratórias.
O sinal captado pelos celulares dos coletadores do projeto passa por etapas de transformação para permitir sua análise. Entre as formas de representação utilizadas estão aquelas que descrevem como a energia do som se distribui ao longo do tempo e das frequências. A partir dessas representações, são extraídas características acústicas que ajudam a evidenciar padrões presentes no áudio.
Larissa Berti, uma das pesquisadoras do projeto que atua nessa frente, explica que o próprio conceito de biomarcador de áudio utilizado na pesquisa ainda está em consolidação no campo científico:
“Não existe uma resposta única e simples. Há um esforço internacional recente para definir o que é um biomarcador. No contexto do SPIRA, trabalhamos com a ideia de que são parâmetros extraídos do sinal de áudio, relacionados tanto à voz quanto à fala.”
Esses parâmetros correspondem a características acústicas que podem ser analisadas diretamente a partir dos áudios coletados. Entre elas, estão elementos da fala, como pausas e entoação, e aspectos da voz, como frequência fundamental, medidas de variação como jitter e shimmer e a relação entre ruído e harmônicos.
“São características acústicas que podem ser usadas para predizer uma condição. No projeto, esses parâmetros de voz e fala são investigados como formas de identificar condições respiratórias.”, explica Larissa.
O uso de grandes conjuntos de dados na análise de áudio
Em paralelo, o projeto utiliza técnicas de aprendizado de máquina para explorar os dados em maior escala. Após a coleta e o pré-processamento, os áudios são organizados em conjuntos de dados que servem de base para o treinamento de modelos computacionais.
Esses modelos são desenvolvidos para realizar diferentes tarefas, como classificar a presença de insuficiência respiratória, estimar indicadores associados ao tabagismo ou prever eventos em pacientes com asma grave. Para isso, são empregadas arquiteturas de redes neurais capazes de identificar padrões complexos nos dados de áudio.
Diferentemente da análise acústica, que se concentra em características específicas do sinal, os modelos de aprendizado de máquina operam a partir do reconhecimento de padrões em grandes volumes de dados. Isso permite ampliar a capacidade de análise e explorar relações que não são diretamente observáveis.
Conforme o pesquisador Arnaldo Candido Junior, integrante da equipe do SPIRA-BM que atua com modelagem de dados, os sistemas utilizados no projeto são baseados em um tipo específico de aprendizado de máquina:
“São modelos de aprendizado de máquina, em particular redes neurais artificiais. Eles são parcialmente inspirados no funcionamento do cérebro humano, nos neurônios biológicos, mas com diferenças importantes. Uma característica desse tipo de modelo é que não é necessário programá-lo diretamente para executar uma tarefa. Em vez disso, apresentamos dados e ele se adapta a partir de algoritmos de treinamento. É nesse sentido que dizemos que o modelo aprende.”
Integração entre formas de análise
A combinação dessas duas abordagens faz parte da estrutura do SPIRA-BM. A análise acústica contribui para a identificação de propriedades relevantes da voz e da fala, enquanto o aprendizado de máquina utiliza essas informações no desenvolvimento de modelos capazes de classificar, estimar e prever diferentes aspectos das condições respiratórias.
Essa integração também está presente nas etapas do sistema, que envolvem desde a coleta de áudios em dispositivos móveis até a aplicação dos modelos em contextos clínicos. Ao articular diferentes formas de análise, o projeto amplia as possibilidades de investigação dos biomarcadores de áudio e fortalece o desenvolvimento de ferramentas voltadas à saúde.
Entre diferentes escalas de análise
Ao combinar análise detalhada do sinal e processamento em larga escala, o SPIRA-BM organiza uma abordagem que permite investigar como a voz e a fala podem funcionar como indicadores de condições respiratórias. Essa articulação entre diferentes formas de trabalhar os dados é parte central do desenvolvimento das tecnologias propostas, conectando a investigação científica às possibilidades de aplicação prática.
