Estudo discute métodos de aprendizado de máquina para classificação de sinais sonoros aplicados à detecção de problemas respiratórios
A análise de voz, tosse e respiração como caminho para identificar problemas de saúde é tema de um capítulo publicado no livro PLN: Processamento de Linguagem Natural – 4ª edição, volume 3, lançado em 2026. O estudo reúne avanços, desafios e resultados no uso de inteligência artificial para classificação de áudio, em diálogo direto com as pesquisas desenvolvidas no âmbito do projeto temático SPIRA-BM.
O capítulo Classificação de Áudio aplicada à Saúde: Detecção de Problemas Respiratórios, estudo diretamente vinculado aos resultados SPIRA-BM é assinado por Marcelo Matheus Gauy, Larissa Cristina Berti, Flaviane Romani Fernandes Svartman, Beatriz Raposo de Medeiros, Celso Ricardo Fernandes de Carvalho, Marcelo Gomes de Queiroz e Marcelo Finger. O texto se insere em um movimento mais amplo de expansão do campo, que passa a incorporar não apenas dados textuais, mas também sinais sonoros como objeto de análise.
Neste trabalho recém-publicado, o objetivo dos autores foi apresentar e sistematizar o uso de técnicas de aprendizado de máquina na classificação de áudio aplicada à identificação de problemas respiratórios. Ao reunir diferentes abordagens e resultados, o estudo oferece uma visão estruturada do estado atual das pesquisas, destacando tanto avanços quanto limitações.
O desenvolvimento dessa área está diretamente associado à evolução recente do aprendizado profundo, que ampliou a capacidade de processamento de grandes volumes de dados e permitiu avanços significativos em tarefas de classificação. Inicialmente voltadas à categorização de sons em contextos diversos, essas técnicas passaram a ser aplicadas à análise de sinais como voz, tosse e respiração.
Esse movimento ganhou impulso especialmente durante a pandemia de COVID-19, quando pesquisas passaram a explorar o uso de áudio como ferramenta de triagem. O capítulo reúne estudos que indicam níveis de acurácia entre 70% e 90% na identificação da doença a partir de gravações de voz e tosse, evidenciando a viabilidade da abordagem em contextos específicos.
Do ponto de vista metodológico, a classificação de áudio é descrita como uma tarefa de aprendizado supervisionado, na qual modelos computacionais são treinados para reconhecer padrões em sinais sonoros e associá-los a categorias. Esses modelos podem operar tanto sobre a forma de onda quanto sobre representações como espectrogramas, que permitem destacar características relevantes dos dados.
Um dos aspectos destacados é o uso de transferência de aprendizado, estratégia que consiste em adaptar modelos previamente treinados em grandes bases de dados para aplicações mais específicas. O capítulo menciona o uso de bases como o AudioSet como ponto de partida para o desenvolvimento de modelos voltados à análise de sinais respiratórios.
Apesar dos avanços, os autores apontam desafios importantes para a área. A dificuldade de obtenção de dados clínicos em larga escala, associada a questões éticas e operacionais, limita o desenvolvimento de modelos mais robustos. Além disso, a baixa diversidade dos dados disponíveis e a presença de ruídos nas gravações impactam a capacidade de generalização dos sistemas.
As conclusões indicam que, embora promissora, a aplicação de aprendizado profundo na classificação de áudio para identificação de problemas respiratórios ainda enfrenta limitações relevantes. A necessidade de ampliar a diversidade e a qualidade dos dados é apontada como um dos principais caminhos para o avanço das pesquisas.
Ao integrar o livro PLN: Processamento de Linguagem Natural – 4ª edição, volume 3, o capítulo contribui para evidenciar como o campo vem se expandindo para além do texto, incorporando novas formas de dados e aplicações. Nesse cenário, o estudo dialoga diretamente com as investigações desenvolvidas no projeto temático SPIRA-BM, que explora o uso de inteligência artificial na análise de biomarcadores respiratórios por meio de dispositivos móveis.
