Você está na página 1de 40

Trilha – Data Science

Wesllei Felipe Heckler


Graduado em Ciência da Computação
Software Developer e Scrum Master na CIGAM Software de Gestão

Globalcode – Open4education
Utilizando Machine Learning para prever
tendências de abandono em um
Programa de Reabilitação Pulmonar

2
Globalcode – Open4education
Roteiro
Doenças Respiratórias Crônicas
Reabilitação Pulmonar
Análise Preditiva
Pré-processamento
Modelagem
Validação
Desenvolvimento da Ferramenta
Resultados 3
Globalcode – Open4education
Doenças Respiratórias Crônicas
2015 Crescimento de
685.031 óbitos
por DRC no Brasil
3,2 milhões de 11,6%
entre 2003 e 2013 óbitos por DPOC em comparação
com 1990
2015
2015
400.000 óbitos 44% dos brasileiros apresentam
por Asma sintomas de doenças respiratórias

2017 2020
DPOC foi a 4° Passará a ser a 3°
maior causa de morte maior causa de morte
no mundo no mundo
4
Globalcode – Open4education
Doenças Respiratórias Crônicas
O que são as doenças respiratórias crônicas?
Causas/Fatores de Risco
Sintomas
Consequências

5
Globalcode – Open4education
Reabilitação Pulmonar
Reduzir os sintomas e melhorar a qualidade de
vida dos pacientes
Abordagem multidisciplinar
Tratamento complementar
Adaptado às necessidades de cada paciente

6
Globalcode – Open4education
Reabilitação Pulmonar
Programa de Reabilitação Pulmonar da
Universidade Feevale
Criado em 2002
Dados armazenados em uma planilha Excel
Dificuldade na análise dos dados
Abandono

7
Globalcode – Open4education
Dataset
566 pacientes atendidos até o início de 2018
356 atributos sobre os pacientes
Perfil: doença, idade, gênero, altura, peso...
Indicadores de saúde: número de vezes que o paciente
tossiu, pressão no peito, ocorrência de dispneia…
Indicadores de qualidade de vida: limitação de
atividades, qualidade do sono, nível de disposição…
Desempenho em 10 testes de carga máxima
8
Globalcode – Open4education
Objetivos
Predição de Abandono
Extrair padrões sobre os dados

9
Globalcode – Open4education
Técnicas
Linguagem de Programação R
Algoritmos de Machine Learning
Support Vector Machine
Decision Tree
Random Forest
10-fold cross validation

10
Globalcode – Open4education
Técnicas
Métricas de Validação
Sensibilidade
Especificidade
Area Under The ROC Curve
Acurácia
Precisão

11
Globalcode – Open4education
Fases da Análise Preditiva
Definição de Objetivos e Técnicas

Pré-processamento

Modelagem

Validação

Desenvolvimento da Ferramenta
12
Globalcode – Open4education
Seleção de Atributos
Doença Presença de Hipertensão
Percentual de Espirometria Arterial Sistêmica
VEF1 Presença de Diabetes
Gênero Presença de Cardiopatias
Idade Outras comorbidades
Número de internações no Escala de Dispneia
último ano (gravidade da falta de ar)

13
Globalcode – Open4education
Seleção de Atributos
Indicador de Abandono

14
Globalcode – Open4education
Limpeza de dados
Valores NA
Preenchimento
Avaliação de especialista
Valor padrão
Média, Moda, Mediana...
Predição

15
Globalcode – Open4education
Limpeza de Dados
Preenchimento manual com apoio da especialista
Doença (com base no percentual de espirometria)
Indicadores de comorbidades
Preenchimento automático com valor padrão
Percentual de espirometria VEF1
Idade (valor padrão e média)
Número de internações no último ano
Escala de dispneia
16
Globalcode – Open4education
Transformação de Dados
Gênero
Indicadores de comorbidades
Padronização do atributo Doença
Redução de 50 para 27 rótulos

17
Globalcode – Open4education
Modelagem

Completo Sem escala de dispneia

18
Globalcode – Open4education
Algoritmos

19
Globalcode – Open4education
Support Vector Machine

20
Globalcode – Open4education
Support Vector Machine
Parâmetros
Kernel Linear
Custo (0.02 a 0.5, variando em 0,02)
Dataset completo = 0.02
Dataset sem escala dispneia = 0.06

21
Globalcode – Open4education
Decision Tree

22
Globalcode – Open4education
Decision Tree
Parâmetros
Ganho de informação (Entropia ou Gini)
Entropia
Quantidade mínima de registros por nodo (entre 1 e 20)
14 registros

23
Globalcode – Open4education
Random Forest

24
Globalcode – Open4education
Random Forest
Parâmetros
Número de preditores (entre 1 e 10)
Dataset completo = 9
Dataset sem escala dispneia = 2
Número de árvores geradas
Dataset completo = 350
Dataset sem escala dispneia = 450

25
Globalcode – Open4education
Comparação de Desempenho

26
Globalcode – Open4education
Comparação de Desempenho

27
Globalcode – Open4education
Ferramenta

28
Globalcode – Open4education
Novos Pacientes

29
Globalcode – Open4education
Novos Pacientes

30
Globalcode – Open4education
Novos Pacientes

31
Globalcode – Open4education
Novos Pacientes

32
Globalcode – Open4education
Estatísticas

33
Globalcode – Open4education
Estatísticas

34
Globalcode – Open4education
Estatísticas

35
Globalcode – Open4education
Estatísticas

36
Globalcode – Open4education
Base de Dados

37
Globalcode – Open4education
Limitações
Quantidade de registros
Utilizar somente 10-fold cross validation
Aumentar dataset

38
Globalcode – Open4education
Resultados
Random Forest: 69,82% de acurácia
Ferramenta
Estratégias para redução de abandonos
Oportunidade de exploração de novos padrões

39
Globalcode – Open4education
/weslleiheckler
weslleiheckler@gmail.com

Você também pode gostar