Programa - Comunicação Coordenada - CC2.1 - Avanços em Métodos de Machine Learning na Vigilância, Predição e Classificação em Saúde
26 DE NOVEMBRO | TERÇA-FEIRA
09:40 - 11:00
MÉTODOS DE MACHINE LEARNING E ANÁLISE ESPACIAL NA VIGILÂNCIA DA ESPOROTRICOSE
Comunicação coordenada (apresentação oral)
Costa, AJA1, Silva, MX1, Morais, MHF2, Coelho, IMP1, Nicolino, RR1, Nero, MA1, Melo, OA1, Magalhães, FC1, Coelho, FGF1
1 UFMG
2 Prefeitura de Contagem/MG
Objetivos: Investigar a disseminação e os padrões da esporotricose em felinos e humanos no Município de Contagem/MG, utilizando dados do SINAN e da UVZ, com técnicas de machine learning, como Redes Neurais Artificiais (RNA) e análise espacial, visando prever a série temporal de casos e identificar padrões de distribuição geográfica da doença.
Métodos: Utilizaram-se dados secundários de 2017 até março de 2023, nos quais foram notificados 366 casos humanos e 1.345 casos felinos. As etapas de preparação, limpeza e análise foram efetuadas utilizando R 3.3 e QGIS 3.34. Para prever a série temporal, foram empregadas as RNAs, e para as análises espaciais, utilizou-se o Kernel e o Vizinho Mais Próximo (KNN).
Resultados: Os resultados foram promissores, com as RNAs apresentando desempenho superior ao método SARIMA na previsão do número de casos, com um coeficiente de determinação (R²) de 59% para humanos e 67,4% para felinos, e métricas de erro baixas. No QGIS, foram gerados mapas temáticos, permitindo visualizar a expansão territorial da doença no município. Além disso, o KNN indicou a ausência de agrupamentos significativos, enquanto o Kernel revelou áreas com maior concentração.
Conclusão: O estudo revelou que a esporotricose se espalhou rapidamente nas populações, destacando-se com dispersão aleatória em locais de maiores densidades pelo município. A RNA demonstrou uma capacidade robusta de previsão dos casos. Esses resultados são essenciais para orientar medidas de vigilância e controle.
APRENDIZADO FEDERADO PARA A PREDIÇÃO DO RISCO DE MORTALIDADE POR COVID-19 EM 22 HOSPITAIS
Comunicação coordenada (apresentação oral)
Bigoto, M. A. R.1, Chiavegatto, A. D. P.1
1 USP
A utilização de dados de pacientes para o desenvolvimento de algoritmos preditivos apresenta desafios técnicos e éticos associados à privacidade e segurança. Apesar do uso crescente de técnicas de Aprendizado Federado (AF) para preservar a privacidade do paciente, ainda existem importantes desafios a serem superados. O estudo teve como objetivo desenvolver algoritmos para predizer o risco de óbito por covid-19 usando diferentes técnicas de AF em 21 hospitais brasileiros. Vinte e dois preditores, incluindo idade, sexo, frequência cardíaca, frequência respiratória, pressão arterial, temperatura e dados hematológicos, foram incluídos nos modelos. Foram testados dois cenários de aprendizado federado: o primeiro cenário avaliou o desempenho preditivo do perceptron multicamadas e da regressão logística. Um modelo global foi construído agregando os coeficientes médios obtidos de cada hospital. O segundo cenário analisou o uso de random forest e XGBoost, onde árvores locais foram construídas e agregadas em um único modelo global. Para ambos os cenários envolvendo os quatro modelos mencionados, o aprendizado federado foi implementado em dados hospitalares e dados regionais agregados. Em média, os hospitais alcançaram uma AUC-ROC de 0,798, com uma melhoria de 8% em relação ao aprendizado federado. Para os dados regionais, a AUC-ROC média foi de 0,838, com uma melhoria de 0,92% em relação à estratégia centralizada. Os resultados indicam o potencial da implementação de novas técnicas de aprendizado federado para predizer resultados de saúde usando informações de diversas fontes hospitalares, protegendo a privacidade e a segurança dos dados dos pacientes.
TAMANHO DA AMOSTRA E PERFORMANCE PREDITIVA DE MACHINE LEARNING EM EPIDEMIOLOGIA
Comunicação coordenada (apresentação oral)
Barcellos-Filho, F.1, Savalli, C.2, Wichmann, R.M.3, Fernandes, F.T.4, Chiavegatto, A.D.P.1
1 USP
2 UNIFESP
3 IDP
4 FIAP
Algoritmos de machine learning (ML) têm o potencial de auxiliar na melhoria das decisões clínicas e epidemiológicas, entretanto a sua performance em diferentes contextos ainda não está bem estabelecida. Este estudo comparou a performance de dois algoritmos populares para dados estruturados (XGBoost e TabPFN) para predizer o risco de admissão futura de pacientes com covid-19 em unidades de terapia intensiva (UTI). Foram analisados dados de 5531 pacientes de 14 hospitais nas cinco regiões brasileiras.
Os resultados indicaram que os dois algoritmos tiveram performance preditiva semelhante para a maioria dos hospitais. Em relação à área abaixo da curva ROC (AUC-ROC), o resultado para a predição de admissão na UTI variou de 0,58 a 0,94 para o TabPFN, e de 0,48 a 0,95 para o XGBoost.
O número de pacientes analisados em cada hospital foi de 47 a 1024. Para avaliar se o tamanho da amostra influencia a seleção do melhor algoritmo, foi utilizado o teste não-paramétrico de Mann-Whitney. Foram comparados os hospitais em que o TabPFN (n=9) foi o melhor modelo com os que o XGBoost (n=5) foi o melhor. Apesar da identificação de uma tendência de o TabPFN exibir melhor desempenho para hospitais menores, essa diferença não foi estatisticamente significativa (grupo TabPFN: Mediana = 124, IQR = 383; grupo XGBoost: Mediana = 449, IQR = 876,5; p=0,182).
Os resultados do estudo indicam que a implementação de ML em sistemas de saúde requer avanços constantes em pesquisa e a adaptação dos algoritmos para diferentes contextos e ambientes clínicos.
APRENDIZAGEM POR TRANSFERÊNCIA NA PREDIÇÃO DE ADMISSÃO EM UTIS EM PACIENTES COM COVID-19
Comunicação coordenada (apresentação oral)
Savalli, C.1, Filho, F. B.2, Wichmann, R. M.3, Fernandes, F. T.4, Chiavegatto Filho, A. D. P2, IACOV-BR Network5
1 Universidade Federal de São Paulo - UNIFESP, Santos, Brasil
2 Faculdade de Saúde Pública, Universidade de São Paulo - USP, São Paulo, Brasil
3 Instituto Brasileiro de Ensino, Desenvolvimento e Pesquisa-IDP, Programa de Pós-Graduação em Economia, Brasília, Brasil
4 FIAP – Faculdade de Informática e Administração Paulista São Paulo, Brazil
5 IACOV-BR Network
A aprendizagem por transferência (APT) é uma técnica de machine learning que permite utilizar o conhecimento adquirido por um algoritmo em um local com um grande conjunto de dados, como ponto de partida para o aprendizado da mesma tarefa em outro local, em que os recursos para obtenção dos dados são escassos. O objetivo deste estudo foi comparar a performance da predição de admissão em unidade de terapia intensiva em pacientes com covid-19 em um hospital com pequeno tamanho amostral (Hospital Amazonas-HA, n=47), com a APT obtida em um hospital de outra região (Hospital Salvador-HS, n=1359) que apresentou excelente desempenho preditivo. As variáveis utilizadas em ambos os hospitais foram as mesmas, provenientes de exames laboratoriais. Foi utilizado o algoritmo XGBoost (Extreme Gradient Boosting) e a métrica adotada para comparar o desempenho preditivo com e sem a APT foi a AUC, área abaixo da curva ROC (Receiver Operating Characteristic). No HS o desempenho preditivo do XGBoost foi de AUC=0,947. Os resultados indicaram que a capacidade preditiva no HA localmente não foi satisfatória (AUC= 0,479), no entanto, ao utilizar o processo de aprendizagem a partir da configuração obtida no HS, o desempenho do algoritmo final no HA apresentou um aumento de performance preditiva de 46% (AUC= 0,699). Esse resultado indica que a APT se mostrou uma solução promissora, com potencial para melhorar as predições de eventos em contextos em que o tamanho amostral é escasso ou em que os recursos para obtenção de dados são muito custosos.
CLASSIFICAÇÃO DA MASSA MAGRA MUSCULAR EM ADULTOS JOVENS POR MEIO DE APRENDIZADO DE MÁQUINA
Comunicação coordenada (apresentação oral)
Thomaz, E. B. A. F1, Silva, N. P.1, Costa, E. M.1, Oliveira, B. R.1, Carvalho, C. A.1, Ribeiro, C. C. C1, Alves, M. T. S. S. B.1, Simões, V. M. F.1, Batista, R. F. L.1, Silva, A. A. M.1
1 UFMA
Objetivo: A massa magra muscular (MMM) é um indicador clínico importante para o risco de alterações cardiovasculares e metabólicas. Técnicas como a absorciometria de raios X de dupla energia (DXA) medem com precisão a MMM, entretanto não são acessíveis e precisam de técnicos treinados para coleta. Portanto, para simplificar o processo, objetivou-se implementar técnicas de aprendizado de máquina (AM) para estimar/classificar a MMM, através de dados clínicos de baixo custo. Métodos: Estudo de corte transversal aninhado a uma coorte prospectiva do consórcio RPS (Ribeirão Preto, Pelotas e São Luís) com 1.857 adolescentes brasileiros (18-19 anos) residentes em São Luís/MA. Foram testadas cinco técnicas de AM pelo método de classificação supervisionado: Árvore de decisão, K-Nearest Neighbors, Support Vector Machine (SVM), Polynomial Kernels e Random Forest. Foi utilizada k-fold cross validation, com k=10 (treino=1.485 exemplos; teste=372 exemplos). Utilizou-se a linguagem de programação Python® no ambiente Google Colab®. Resultados: O modelo SVM apresentou as melhores métricas: acurácia (94%), sensibilidade (93%), especificidade (94%) e área sobre a curva ROC (95%). Os inputs do algoritmo foram: sexo, idade, cor, situação socioeconômica, nascimento pré-termo, altura e peso. MMM normal (homens: >7,23kg/m2 e mulheres: >5,67kg/m2) foi verificada em 43,8% (n=813) dos adolescentes/adultos jovens. No grupo teste, 163 possuíam MMM normal (precisão=0,92 e Recall=0,94) e 209 tinham MMM baixa (precisão=0,96 e Recall=0,93). Conclusão: O algoritmo classificador SVM obteve uma boa resposta na triagem de alterações na MMM de adolescentes/adultos jovens, podendo ser uma alternativa para triagem em comparação a métodos de alto custo, como o DXA.