Trabalho publicado pela Springer nos anais da ECSA 2025 descreve desafios para levar pipelines de machine learning à produção na área da saúde
O artigo “Making a Pipeline Production-Ready: Challenges and Lessons Learned in the Healthcare Domain” analisa o processo de transformação do sistema SPIRA, voltado ao pré-diagnóstico de insuficiência respiratória por meio da análise de áudio da fala, em uma solução pronta para uso em ambiente de produção. O trabalho descreve a evolução do pipeline de treinamento, entendido como a sequência de etapas que organiza o caminho dos dados, da coleta até a atualização dos modelos, e sistematiza desafios, estratégias adotadas e ganhos em qualidade de software ao longo do desenvolvimento.
Assinado por Daniel Angelo Esteves Lawand, Lucas Quaresma Medina Lam, Roberto Oliveira Bolgheroni, Renato Cordeiro Ferreira, Alfredo Goldman e Marcelo Finger, o artigo reúne pesquisadores vinculados e foi publicado oficialmente em 2026 pela Springer, no volume da conferência ECSA 2025 da série Lecture Notes in Computer Science.
Inserido no contexto do SPIRA-BM, o trabalho parte de um sistema desenvolvido desde 2020, inicialmente motivado pela pandemia de COVID-19, e posteriormente ampliado para diferentes condições clínicas associadas a problemas respiratórios. A análise concentra-se no pipeline responsável pelo treinamento contínuo dos modelos de machine learning, que permite sua atualização com a incorporação de novos dados.
Como metodologia, o artigo apresenta um relato de experiência técnica baseado na comparação entre três versões sucessivas do pipeline. A primeira é caracterizada como uma arquitetura do tipo Big Ball of Mud, expressão utilizada na engenharia de software para descrever sistemas com baixa organização estrutural. A segunda versão adota um modelo de monólito modular com aplicação de padrões de projeto. A terceira implementa uma arquitetura baseada em microserviços, associada a práticas orientadas a testes.
Também são descritas as etapas que compõem a arquitetura geral do sistema, incluindo coleta de dados em ambientes hospitalares, armazenamento de áudios e informações clínicas, rotulagem dos dados, treinamento dos modelos e disponibilização dos resultados em aplicações utilizadas por profissionais de saúde.
Os resultados indicam melhorias progressivas em atributos de qualidade de software ao longo das versões analisadas, com ganhos em extensibilidade, manutenibilidade, robustez e resiliência do sistema. O trabalho registra ainda desafios relacionados à integração entre práticas de engenharia de software e ciência de dados, ao tratamento de dados sensíveis da área da saúde e à adoção de práticas de MLOps no contexto do projeto.
Como conclusão, o artigo destaca a importância da adoção de boas práticas de engenharia de software para viabilizar a aplicação de sistemas de inteligência artificial em contextos reais. As lições sistematizadas ao longo do desenvolvimento do SPIRA oferecem subsídios para iniciativas que buscam levar pipelines de machine learning do ambiente experimental para a produção.
