Escolar Documentos
Profissional Documentos
Cultura Documentos
Nº_______/2017
Benguela
2017
iii
Agradecimentos
AGRADECIMENTOS
Como sempre, a minha profunda gratidão aos meus colegas, amigos e familiares. Não
posso imaginar maior estimulação intelectual e apoio do que a que recebí da minha
família, amigos e colegas que tive no ISP – UKB. Dentre muitos colegas que tive,
agradeço especialmente aqueles que foram mais próximos à mim durante esses anos
e que fizeram parte do grupo de estudos que criamos desde o 1º ano, cito: Adriano,
Américo, Java, Isaac e Sumudiau. Ao meu primo Héntone, companheiro, obrigado
pela comprensão e apoio. Aos meus irmãos Ony, Nany, Pacy, Cleusa, Aquiane e
demais membros da minha extensa família.
iv
Agradecimentos
Minha gratidão imensurável à minha mãe, Teresa Bondo, minha eterna professora,
que me proporcionou todas as condições para minha formação académica, por todo
apoio, tolerância e afecto, mas também por ser a força motivadora deste trabalho.
Minha especial gratidão a Teresa Graciano, pela compreensão, apoio, motivação
constante e por se encarregar pela revisão ortográfica do livro.
Agradeço a todos que se sintam reflectidos neste trabalho, e não foram explicitamente
mencionados, não são menos importantes. E finalmente, agradeço aos que me
fizeram a mais motivante pergunta “já está feito?” ou “quando será a defesa?”, que
sempre procuraram saber do trabalho.
Muito obrigado!
v
PENSAMENTO
Um campo científico é melhor definido pela questão central que estuda. O campo da
Aprendizagem Automática procura responder a pergunta:
Tom M. Mitchell
vi
RESUMO
A Diabetes é hoje, um dos principais problemas de saúde mundial, seja pelo número
de pessoas diagnosticadas com a doença, mortalidade, custos económicos e sociais
envolvidos no controlo da mesma, tratamento das complicações, etc. Para se
diagnosticar a diabetes, o clínico tem que estar seguro de que os resultados são
perfeitamente correctos pois as consequências para o doente são consideráveis e
para toda vida. No entanto, diagnosticar a diabetes é uma tarefa trabalhosa para os
médicos, pois têm de avaliar um conjunto de exames, o que abre a possibilidade da
ocorrência de erros devido a exaustão. Em função desses problemas, podem ser
utilizados métodos de Aprendizagem Automática para fazer a previsão de diabetes.
Neste trabalho utilizou-se algoritmos de Aprendizagem Automática para a construção
de modelos preditivos de diabetes. Os modelos foram construídos em três etapas:
pré-processamento, afinação dos parâmetros e estimativa de erro e teste de
generalização. Pelos resultados obtidos, os métodos utilizados permitiram a
construção de modelos com alto poder preditivo, sendo possível, ao usar os modelos
aprendidos, alcançar resultados semelhantes ou mesmo superiores aos obtidos pelos
próprios especialistas. Como resultado do estudo construiu-se uma interface gráfica,
na qual foram integrados os modelos aprendidos, para a previsão da classificação a
atribuir a novos pacientes cujos dados forem introduzidos.
vii
ABSTRACT
Diabetes is one of the main health problems in the world today, whether due to the
number of people diagnosed with the disease, mortality, economic and social costs
involved in the same control, treatment of complications, etc. To diagnose diabetes,
the clinician has to be sure that the results are perfectly correct because the
consequences for the patient are considerable and for a lifetime. However, diagnosing
diabetes is a laborious task for physicians as they have to evaluate a set of tests, which
opens up the possibility of errors occurring due to exhaustion. Because of these
problems, Automatic Learning methods can be used to predict diabetes. In this work
we used algorithms of Automatic Learning for the construction of predictive models of
Diabetes. The models were constructed in three stages: pre-processing, parameter
tuning and error estimation and generalization test. Based on the results obtained, the
methods used allowed the construction of models with high predictive power, being
possible, when using the learned models, to achieve similar or even superior results to
those obtained by the specialists themselves. As a result of the study, a graphical
interface was constructed, in which the learned models were integrated, to predict the
classification to be assigned to new patients whose data were introduced.
viii
Índice
ÍNDICE
INTRODUÇÃO .......................................................................................................... 16
ix
Índice
2.5.1. Atributos................................................................................................. 58
3.1. Metodologia..................................................................................................... 61
CONCLUSÕES ......................................................................................................... 73
RECOMENDAÇÕES ................................................................................................. 74
x
Índice
BIBLIOGRAFIA ......................................................................................................... 75
GLOSSÁRIO ............................................................................................................. 80
xi
LISTA DE FIGURAS
Figura 2: Modelo de classificação representado de duas formas, tais como (a) regras
de classificação e (b) árvores de decisão ( (Han, Kamber, & Pei, 2012, p. 18)). ...... 39
xii
LISTA DE TABELAS
Tabela 11: Taxas de êxito (%) e tempo de construção (s) com SVM, Kernel linear. 67
Tabela 12: Taxas de êxito (%) SVM com kernel polinomial. ..................................... 67
Tabela 13: Tempo de construção (s) SVM com kernel polinomial. ........................... 68
Tabela 14: Taxas de êxito (%) SVM com kernel RBF. .............................................. 68
Tabela 15: Tempo de construção (s) SVM com kernel RBF. .................................... 69
Tabela 17: Síntese dos três algoritmos aplicados ao conjunto de dados alvo de estudo.
.................................................................................................................................. 88
xiii
LISTA DE ABREVIAÇÕES
KKT Karush-Kuhn-Tucker
MD Mineração de Dados
xv
Introdução
INTRODUÇÃO
Motivação
Assim como outras doenças crónicas não transmissíveis, acredita-se que a diabetes
é causada principalmente por factores comportamentais, como uma dieta inadequada
e inactividade física (Buijsse, Simmons, Griffin, & Schulze, 2011).
O diagnóstico da diabetes é uma tarefa trabalhosa para os médicos, pois têm que
avaliar um conjunto de exames, o que submete-lhes ao cometimento de erros devido
a exaustão.
1
A designação científica "diabetes mellitus" está relacionada com o significado em grego de cada um
dos termos desta expressão. Assim diabetes quer dizer "fluir através de" e mellitus representa "doce
como o mel.
16
Introdução
Esta mesma organização afirma que a cada 6 segundos morre uma pessoa por
diabetes, mais de 20,9 milhões de recém-nascidos foram afectados pela doença
durante a gravidez em 2015 (1 em cada 7 nascimentos). A diabetes causou pelo
menos US $ 673 mil milhões em despesas de saúde em 2015 - 12% do total de gastos
com adultos (IDF, 2015).
Foi com base nesses números, que se resolveu desenvolver um trabalho que, de
alguma forma, possa auxiliar os médicos no diagnóstico da doença e tão logo iniciar
um tratamento, contribuindo assim, para reduzir as complicações devido à doença.
Metodologia
17
Introdução
2
Ver subsecção 3.1.
3
Ver Anexo B.
18
Introdução
Contribuições práticas
Esquema do trabalho
4
Disponível em: http://www.ics.uci.edu/~mlearn/MLRepository.html
19
Introdução
Anexos.
20
Capítulo I: Diabetes e métodos de diagnóstico
Neste capítulo, de uma forma simples e directa, faz-se um breve estudo sobre a
diabetes, em que medida a doença afecta a saúde, apresenta os métodos de
diagnósticos usados, os diferentes tipos da patologia, descreve também os números
e factos da diabetes no mundo e, por último, é efectuada uma apresentação de alguns
trabalhos que têm sido desenvolvidos com vista à resolução de problemas
relacionados com a diabetes, nomeadamente são descritos alguns estudos em que
são aplicados métodos de aprendizagem automática aos dados.
1.1. Definição
1.1.1. Pré-diabetes
21
Capítulo I: Diabetes e métodos de diagnóstico
Em 1997, o grupo de trabalho da ADA fez sua primeira publicação, já com carácter
definitivo, sobre os novos critérios de diagnóstico e classificação da Diabetes Mellitus,
que se seguiu, em 1998, da OMS, embora sob forma de relatório provisório (KGMM
& PZ, 1999).
1.2.1. Diagnóstico
Se é feito um diagnóstico de diabetes, o clínico tem que estar certo de que este está
perfeitamente correcto uma vez que as consequências para o doente são
consideráveis e para toda vida. Os requisitos para confirmação do diagnóstico numa
pessoa com sintomatologia grave e grande hiperglicemia, diferem dos necessários
numa pessoa assintomática com valores de glicemia apenas ligeiramente acima do
valor limite para o diagnóstico. Uma hiperglicemia grave detectada em condições de
stress agudo infeccioso, traumático, circulatório ou outro pode ser transitória e não
deve por si só ser considerada como diagnóstica de diabetes. O diagnóstico numa
pessoa assintomática nunca deve ser feito com base num único valor anormal de
glicemia. Para o doente assintomático é essencial pelo menos mais um teste à glicose
no sangue/plasma com resultado positivo, quer em jejum, ao acaso ou numa prova de
tolerância à glicose oral (PTGO). Se estes testes não permitirem confirmação do
diagnóstico de diabetes mellitus é geralmente aconselhável manter vigilância e fazer
novos testes periodicamente até que o diagnóstico seja claro (KGMM & PZ, 1999).
22
Capítulo I: Diabetes e métodos de diagnóstico
A preparação para o exame é básica. O paciente tem de cumprir um jejum de, pelo
menos, oito horas, período em que também não deve fumar nem praticar exercício
físico intenso. A prova é feita de manhã, após três dias de regime alimentar sem
restrições e com pelo menos 150 gramas diárias de hidratos de carbono (Saúde
Prática, p. 17).
O PTGO é um teste de duas horas que verifica os níveis de glicose no sangue antes
e duas horas depois de tomar uma bebida doce especial. Este teste diz ao médico
como o corpo processa a glicose. A diabetes é diagnosticada em duas horas de
glicose no sangue superior ou igual a 200mg/dl (Associação Americana de Diabetes,
2016).
23
Capítulo I: Diabetes e métodos de diagnóstico
A1C
O teste A1C mede a glicemia média nos últimos 2 a 3 meses. O não precisar fazer
nada rápido ou beber alguma coisa são vantagens dessa maneira de diagnóstico. A
diabetes é diagnosticada em A1C com um valor maior ou igual a 6,5% (Associação
Americana de Diabetes, 2016).
Este teste verifica os níveis de glicemia em jejum. O jejum significa depois de não
comer ou beber (expceto água) por pelo menos oito horas antes do teste. Este teste
geralmente é feito de manhã, antes do pequeno-almoço. A diabetes é diagnosticada
em glicemia em jejum maior ou igual a 126 mg/dl (Associação Americana de Diabetes,
2016).
Este teste é um exame de sangue feito em qualquer momento do dia caso o paciente
sofra de sintomas graves de diabetes. A diabetes é diagnosticada em glicose no
sangue superior ou igual a 200 mg/dl (Associação Americana de Diabetes, 2016).
24
Capítulo I: Diabetes e métodos de diagnóstico
25
Capítulo I: Diabetes e métodos de diagnóstico
A diabetes tipo 1 é uma condição grave que ocorre quando o pâncreas produz pouca
ou nenhuma insulina. Sem insulina, o corpo não consegue absorver a glicose (açúcar
no sangue) dos alimentos e das células para alimentar o corpo. Pessoas com diabetes
tipo 1 devem tomar insulina ou outros medicamentos diariamente. Por esse motivo,
esse tipo de diabetes também é referido como diabetes insulino-dependente. A
diabetes tipo 1 era conhecida anteriormente como diabetes juvenil porque geralmente
é diagnosticada em crianças e adultos jovens. No entanto, esta doença crónica ao
longo da vida pode atingir qualquer idade, e aqueles com história familiar de diabetes
tipo 1 apresentam maior risco (Heart, 2015).
Pacientes com diabetes tipo 1 precisarão tomar injecções de insulina pelo resto da
vida. Eles também devem garantir níveis adequados de glicose no sangue, realizando
exames de sangue regulares e seguindo uma dieta especial. Aproximadamente 10%
de todos os casos de diabetes são do tipo 1 (Medical News Today, 2016).
26
Capítulo I: Diabetes e métodos de diagnóstico
Numa forma leve, este tipo de diabetes pode não ser diagnosticado por muitos anos,
o que é motivo de grande preocupação, uma vez que a diabetes não tratada pode
levar a muitos problemas médicos graves, incluindo doenças cardiovasculares. A
diabetes tipo 2 pode ser adiada ou controlada com dieta e exercício.
Nas mulheres com diabetes prévia à gravidez, quando engravidam não têm diabetes
gestacional mas sim "diabetes mellitus e gravidez" devendo ser tratadas de acordo
com isto, antes, durante e depois da gravidez.
As mulheres com risco elevado para diabetes gestacional são: mulheres mais velhas,
as que têm história prévia de intolerância à glicose ou de bebés grandes para idade
gestacional, mulheres pertencentes a grupos étnicos de risco elevado e qualquer
mulher grávida que tenha valores de glicemia, em jejum ou ao acaso, elevados.
Poderá ser apropriado fazer-se o rastreio, no primeiro trimestre da gravidez, nas
mulheres que pertencem a populações de alto risco, de forma a detectar uma diabetes
mellitus previamente não diagnosticada (KGMM & PZ, 1999).
27
Capítulo I: Diabetes e métodos de diagnóstico
O IDF Diabetes Atlas, na sua sétima edição, de 2015, fornece os últimos números,
informações e projecções sobre a magnitude actual e futura da epidemia de diabetes:
28
Capítulo I: Diabetes e métodos de diagnóstico
5
Diponível em: http://www.ics.uci.edu/~mlearn/MLRepository.html
6
Apud Rath, Zamberlan, & Vieira (2013).
29
Capítulo I: Diabetes e métodos de diagnóstico
A maioria dos trabalhos presentes na literatura aplica árvores de decisão para criação
dos modelos. O diferencial deste trabalho frente aos trabalhos mencionados, está no
facto de usar um conjunto de dados que possui informações ricas para a construção
de modelos preditivos de diabetes, e para além de outros algoritmos, usa máquinas
de vectores de suporte para o desenho dos classificadores, que é um algoritmo com
forte poder preditivo. Além do mais, demonstramos que os classificadores gerados
neste trabalho são capazes de prever diabetes com um certo grau de confiança.
Modelos preditivos podem ser vistos como funções matemáticas que mapeiam um
conjunto de valores de entrada (variáveis preditoras) para um valor de saída (variável-
alvo). Um dos objectivos da modelagem preditiva em medicina é criar modelos que
utilizam informações de indivíduos para prever um desfecho de interesse ou risco de
um desfecho e, dessa forma, auxiliar na tomada de decisão clínica (Bellazzi, Ferrazzi,
& Sacchi, 2011).
30
Capítulo I: Diabetes e métodos de diagnóstico
do algoritmo utilizado para gerar o modelo e, principalmente, dos dados utilizados para
o treinamento do modelo, ou seja, se os dados conseguem explicar claramente o
fenómeno que está sendo observado.
De modo geral, não existe um algoritmo específico que construa o melhor modelo
preditivo sempre. Dessa forma, para um determinado conjunto de dados, um algoritmo
(com certa configuração de parâmetros) pode gerar o melhor modelo enquanto com
um conjunto diferente o melhor modelo pode ser gerado por um algoritmo diferente.
31
Capítulo I: Diabetes e métodos de diagnóstico
1.6. Conclusão
Neste capítulo, fez-se um estudo sobre a diabetes, sua definição, em que medida a
doença afecta a saúde, apresenta os métodos de dignóstico, classificação da doença,
apresentou também os números e factos da doença no mundo.
E finalmente foram descritos alguns trabalhos que têm sido desenvolvidos utilizando
a Aprendizagem Automática para a deteccão da diabetes.
32
Capítulo II: Desenho do Classificador
Grandes bases de dados podem conter conhecimento oculto que poderia auxiliar na
tomada de decisões. Porém a extracção de tal conhecimento não é tarefa trivial sendo
necessária a utilização de técnicas de mineração de dados (Marins, Barros, Romão,
Constantino, & Souza, 2012).
33
Capítulo II: Desenho do Classificador
A remoção de outliers:
a um intervalo dado ([0, 1] ou [-1, 1]) através de uma transformação adequada. Outra
técnica muito utilizada consiste em aplicar uma transformação de forma tal que todas
as características apresentem um valor médio igual a 0 e desvio padrão igual a 1,
também designada como padronização (standardization).
Dados omissos:
35
Capítulo II: Desenho do Classificador
De acordo com Witten, Frank, & Hall (2011, p. 5), a mineração de dados é definida
como o processo de descobrir padrões em dados. O processo deve ser automático
ou (mais geralmente) semi-automático. Os padrões descobertos devem ser
significativos na medida em que levam a alguma vantagem, geralmente económica.
Os dados estão invariavelmente presentes em quantidades substanciais a mineração
de dados é sobre a solução de problemas, analisando dados já presentes em bases
de dados.
36
Capítulo II: Desenho do Classificador
De acordo com Ferreira (2010, pp. 38-39), é importante sublinhar que a diferença
principal entre uma tarefa de previsão e uma de descrição está directamente
relacionada com a existência ou não de classes pré-definidas para os dados. Os
modelos descritivos estão habitualmente associados à modelação de relacções entre
dados que não são previamente rotulados (aprendizagem não supervisionada)
enquanto os modelos de previsão estão geralmente relacionados de forma directa à
7
Ver subsecção 2.2.3.
37
Capítulo II: Desenho do Classificador
São várias as tarefas de mineração de dados que podem ser aplicadas quer para
previsão como para descrição. Porém, neste trabalho aplicaremos apenas a
classificação para construção dos modelos preditivos.
8
Alguns métodos são descritos na secção 2.2.
38
Capítulo II: Desenho do Classificador
(a)
(b)
Figura 2: Modelo de classificação representado de duas formas, tais como (a) regras de classificação
e (b) árvores de decisão ( (Han, Kamber, & Pei, 2012, p. 18)).
2.1.3. Pós-processamento
39
Capítulo II: Desenho do Classificador
Um campo científico é melhor definido pela questão central que estuda. O campo da
Aprendizagem Automática procura responder a pergunta: "Como podemos construir
sistemas informáticos que melhoram automaticamente com a experiência e quais são
as leis fundamentais que regem todos os processos de aprendizagem?" (Mitchell,
2006, p. 1).
Esta questão abrange uma ampla gama de tarefas de aprendizagem, como a forma
de projectar robôs móveis autónomos que aprendem a navegar a partir da sua própria
experiência, ou como extrair informações através de registros médicos históricos para
saber quais pacientes futuros responderão melhor aos tratamentos (Mitchell, 2006, p.
1). Uma compreensão bem-sucedida do modo como tornar os computadores capazes
de “aprender” permitiria uma abertura muito maior no que respeita a novas formas de
utilização destas máquinas, assim como conduziria a novos níveis de competência e
personalização.
9
Uma descrição mais detalhada do processo de descoberta de conhecimento poderá ser encontrada
em (Fayyad, Piatetsky-Shapiro, & Smyth, 1996).
40
Capítulo II: Desenho do Classificador
Têm sido aplicados com sucesso a uma vasta gama de problemas de aprendizagem,
que vai desde o diagnóstico médico até à análise de risco de concessão de créditos
(Mitchell, 1997, p. 52).
Segundo (Mitchell, 1997, pp. 52-53), as saídas são apresentadas na forma de árvores
de decisão. Uma árvore de decisão é uma estrutrura que pode ter dois tipos de nós:
A Figura 3 ilustra uma árvore de decisão típica. Neste caso particular, as manhãs de
sábado são classificadas consoante se são adequadas (sim) ou não para a prática de
ténis.
41
Capítulo II: Desenho do Classificador
𝑉 (𝐴𝑠𝑝𝑒𝑐𝑡𝑜 = 𝑁𝑢𝑏𝑙𝑎𝑑𝑜)
42
Capítulo II: Desenho do Classificador
Dessa forma, uma das decisões mais importantes para a criação do modelo é, dado
um conjunto de dados e de variáveis, escolher a variável mais relevante para ser a
raíz da árvore. Tal escolha normalmente é realizada através do cálculo do ganho de
informação, que representa o quanto se ganha em média em pureza ao se dividir um
conjunto segundo a variável em questão, isso é equivalente a calcular a entropia da
distribuição da classe. A ideia é escolher a variável que produz o maior ganho de
informação.
Contudo, a árvore criada dessa forma pode ficar muito complexa e não generalizar
para instâncias diferentes dos dados de treinamento, ou seja, sobreajustar-se aos
dados de treino. Para evitar isso, é necessário podar a árvore, diminuindo sua
complexidade. Duas estratégias podem ser utilizadas para esse fim: pré-poda,
envolve decidir se expande ou não um determinado ramo durante o processo de
construção da árvore, enquanto a pós-poda, constrói a árvore primeiro e depois faz a
poda. Apesar de a primeira opção ser viável, pois evita o trabalho de construir a árvore,
a pós-poda é mais utilizada devido a outras vantagens como considerar atributos em
conjunto para avaliar a poda. Existem duas operações principais de poda (pós-poda),
a primeira, chamada subtree replacement, substitui uma sub-árvore inteira por uma
folha e a segunda, chamada subtree raising, envolve substituir uma sub-árvore por
outra sub-árvore descendente da primeira (Oliveira, 2016, p. 34). A segunda
operação, apesar de mais complexa é utilizada no principal algoritmo de construção
de árvores de decisão, o C4.5 (ou J48, na sua implementação em Java) que foi um
dos algoritmos utilizados neste trabalho.
10
Dados omissos, ver subsecção 2.1.1
43
Capítulo II: Desenho do Classificador
Quinlan C4.5 (bem como seu antecessor ID3 e seu sucessor C5.0): é um dos
principais algoritmos para criação de árvores de decisão e funciona como
descrito anteriormente.
44
Capítulo II: Desenho do Classificador
Naïve Bayes, estão entre as abordagens mais práticas para certos tipos de
problemas de aprendizagem. Por exemplo, Michie et al. (1994) fornecem um
estudo detalhado comparando o classificador Naïve Bayes com outros algoritmos
de aprendizagem, incluindo algoritmos de Árvores de Decisão e Redes Neurais.
Essas pesquisas mostram que o classificador Naïve Bayes é competitivo com
esses outros algoritmos de aprendizagem em muitos casos e que, em alguns
casos, supera esses outros métodos. Neste trabalho, também foi usado o
algoritmo Naïve Bayes, e portanto, obtevemos bons resultados.
45
Capítulo II: Desenho do Classificador
Teorema de Bayes
𝑃(𝐸 |ℎ)𝑃(ℎ)
P(h|E) =
𝑃(𝐸)
46
Capítulo II: Desenho do Classificador
P(h|E): denota a probabilidade de que a hipótese h seja correcta uma vez observados
os dados de treino E.
Um classificador de Bayes é portanto uma regra que prevê a classe mais provável
para um dado exemplo, baseado na distribuição (assumida como sendo conhecida)
do conjunto de dados considerados (Lee, 2005 Apud Ferreira 2010).
Uma vantagem dessa abordagem é que ela lida bem com dados faltantes. Além disso,
é possível adicionar conhecimento de domínio na forma da estrutura do grafo ou das
probabilidades a priori. Uma desvantagem é que a inferência pode ser muito custosa
computacionalmente para redes complexas. Ainda, apesar de a probabilidade a priori
ser facilmente inferida dos dados, através de contagem de frequência, é muito difícil
estimar a melhor estrutura de dependências quando não se tem esse conhecimento
disponível.
47
Capítulo II: Desenho do Classificador
As SVM são uma técnica estatística que pode ser usada em problemas de
classificação e de regressão, tendo este método de aprendizagem sido introduzido
por Vladimir Vapnik. São um conjunto de métodos supervisionados e procuram
solucionar o problema da classificação e reconhecimento encontrando hiperplanos de
N dimensões que melhor separem os objectos nas suas classes/categorias distintas
(Reis, 2015, p. 7).
11
A designação “Naïve” é proveniente da suposição de independência.
48
Capítulo II: Desenho do Classificador
⃗⃗⃗1 , 𝑦1 ), (⃗⃗⃗⃗
Ou seja, dado um conjunto de treino (𝑥 𝑥2 , 𝑦2 ), … , (𝑥 ⃗⃗⃗𝑙 𝜖 𝑅𝑛 , 𝑦𝑖 𝜖 {−1, +1}.
⃗⃗⃗𝑙 , 𝑦𝑙 ), 𝑥
O objectivo é encontrar um hiperplano h, de dimensão n – 1, que separa os exemplos
da classe -1 dos exemplos da classe +1.
𝑤
⃗⃗ . 𝑥 + 𝑏 = 0
Assim, a Equação anterior é reescrita com base nas classes y + 1 e y = −1, como
mostra a Equação a seguir:
𝑤
⃗⃗ . 𝑥 + 𝑏 ≥ 0 𝑝𝑎𝑟𝑎 𝑌 = +1
𝑤
⃗⃗ . 𝑥 + 𝑏 < 0 𝑝𝑎𝑟𝑎 𝑌 = −1
49
Capítulo II: Desenho do Classificador
Porém esta abordagem é restrita aos casos em que os dados de treinamento são
linearmente separáveis. Logo, para casos em que os dados não são linearmente
separáveis, existe uma solução, que consiste em mapear os dados para um espaço
de dimensão maior (espaço de características). Utilizando uma função kernel, é
possível fazer o mapeamento no espaço de características, então as máquinas de
vector de suporte constroem um hiperplano de separação óptimo neste espaço. Na
construção do hiperplano óptimo, são obtidos os multiplicadores de Lagrange (α), que
definem os vectores suporte (Girardello, 2010, pp. 14-15).
Funções kernel
50
Capítulo II: Desenho do Classificador
Kernel linear: 𝑘 (𝑥 . 𝑦) = 𝑤
⃗⃗ . 𝑥
⃗⃗ ||2
⃗⃗ − 𝑦
||𝑥
−
Funções de Base Radial (RBF): 𝑘 (𝑥 . 𝑦) = 𝑒 2𝜎
A função Base Radial (RBF, abreviatura do inglês Radial Basis Function) também é
conhecida como função Gaussiana.
51
Capítulo II: Desenho do Classificador
Tipo de Kernel ⃗ . 𝒚
Função 𝒌 (𝒙 ⃗) Parâmetros livres
Linear 𝑤
⃗⃗ . 𝑥 nenhum
Margem suave
Para isso, permite-se que alguns dados possam violar a restrição estabelecida, ou
seja, relaxa-se o problema admitindo certo grau de erro de classificação. A quantidade
de erro admitida é controlada por um parâmetro, definido como parâmetro de
penalização (C), esse valor é definido pelo usuário. Este parâmetro relaxa as
restrições impostas ao problema de optimização primal, como mostra a figura 6.
52
Capítulo II: Desenho do Classificador
Modelos preditivos nem sempre acertam as suas previsões, quanto mais complexo o
problema, mais difícil é realizar as previsões correctamente. Assim, é de fundamental
importância poder estimar correctamente a capacidade preditiva de um modelo
gerado para saber, por exemplo, a confiabilidade dele em aplicações reais,
especialmente em aplicações médicas. Além disso, a avaliação de modelos preditivos
também é essencial para escolher a configuração de parâmetros de um determinado
algoritmo que gera o modelo de maior capacidade preditiva ou ainda tentar escolher
modelos preditivos gerados por diferentes algoritmos.
53
Capítulo II: Desenho do Classificador
Classe Verdadeira
0 (+) tp fp p'
Classe predita
1 (-) fn tn n'
Total p n N
Por meio dos valores contidos nesta matriz de confusão é possível definir métricas
que podem ser utilizadas como avaliadores de tal classificação, como por exemplo:
12
Ao longo desta subsecção concentramo-nos em problemas com apenas duas classes, no entanto, é
importante referir que as noções aqui expostas poderão ser estendidas a várias classes.
54
Capítulo II: Desenho do Classificador
(𝑡𝑝 + 𝑡𝑛)
𝑇𝑒𝑥 = = 1 − 𝑇𝑒𝑟𝑟
𝑁
Neste trabalho foi usado a Taxa de êxito, como métrica para avaliação dos
classificadores. Portanto, para além desta métrica existem outras como: taxa de erro,
sensibilidade, Especificidade, curva ROC (Receiver Operating Characteristic)
(Witten, Frank, & Hall, 2011, pp. 140-150), (Makili, 2014, pp. 42-45).
Vários outros factores podem influenciar na escolha do algoritmo mais apropriado para
uma determinada aplicação, como, por exemplo, a complexidade computacional em
termos de tempo ou espaço, a claridade e interpretabilidade do modelo gerado, a
facilidade de programação, etc.
De acordo com Witten (2011, p. 149), a taxa de erro determinada a partir dos dados
utilizados ao treinar um algoritmo de aprendizagem (conjunto de treino) não é um bom
indicador do seu desempenho futuro. Para avaliar o desempenho futuro é necessário
determinar o erro cometido utilizando um conjunto de dados independente que não foi
utilizado ao treinar o algoritmo (conjunto de teste).
55
Capítulo II: Desenho do Classificador
Validação Cruzada
Segundo (Witten, Frank, & Hall, 2011, p. 153), uma validação cruzada efectuada com
10 folhas dá-nos uma melhor estimação para validação de um classificador. Por esta
razão, neste trabalho foi usado validação cruzada com 10 folhas, para a selecção dos
melhores parâmetros (ou configurações) no treino de determinados classificadores e
validar o rendimento dos classificadores.
56
Capítulo II: Desenho do Classificador
Neste trabalho usou-se o WEKA na sua versão 3.6.13, a considerada versão mais
estável da ferramenta.
Grande parte dos recursos do software WEKA encontra-se acessíveis através da sua
interface gráfica13. Além disso, a ferramenta WEKA, possui uma API (Interface de
Programação de Aplicações, do inglês, Aplication Program Interface) desenvolvida em
java.
13
Ver Anexos (Secção A.1)
57
Capítulo II: Desenho do Classificador
2.5.1. Atributos
Nos valores referentes a classe 0 é interpretado como não tem diabetes, e 1 tem
diabetes.
58
Capítulo II: Desenho do Classificador
Das 768 instâncias do conjunto de dados, 500 foram classificadas como negativas
(não têm diabetes) e 268 foram classificadas como positivas (têm diabetes).
59
Capítulo II: Desenho do Classificador
2.6. Conclusão
60
Capítulo III: Testes e Resultados
3.1. Metodologia
(i) Pré-processamento;
Nas subsecções a seguir, são descritas cada etápa com mais detalhes.
3.1.1. Pré-processamento
61
Capítulo III: Testes e Resultados
M 10 - 42
instâncias por folha.
O factor de confiança
usado para a poda (os
C valores menores 0,05 - 0,50
incorrem em mais
podas).
Use um estimador de
Naïve Bayes
C 0,4 - 200
penalização.
p Valor do expoente. 2-8
G Valor de gamma. 0,01 - 100
62
Capítulo III: Testes e Resultados
treinos dos classificadores com os valores daquele intervalo que não fizeram parte do
treino anterior. E assim até seleccionar a melhor configuração de parâmetros.O critério
usado para a selecção foi a taxa de êxito.
63
Capítulo III: Testes e Resultados
Em realce (a “verde”), a configuração com maior taxa de êxito. Portanto, nesta fase
de acordo com os resultados da tabela 8, a maior taxa de êxito foi de 79,18%, que
aparece em duas configurações. com M = 39 (“sem podar a árvore”), e com M = 39
e C = 0,50.
C M 10 15 30 39 42
64
Capítulo III: Testes e Resultados
C M 10 15 30 39 42
__ 21 15 11 9 9
0,05 11 11 11 9 9
0,10 11 11 11 9 9
0,15 15 11 11 9 9
0,20 15 11 11 9 9
0,25 15 11 11 9 9
0,50 21 11 11 9 9
65
Capítulo III: Testes e Resultados
Naïve Bayes
Após o treino do classificador Naïve Bayes com o conjunto de dados separado para o
treino e validação obteve-se o seguinte rendimento (tabela 10).
- 77,01
K 77,01
D 77,66
Para criar modelos com SVMs, usou-se o algoritmo SMO (Sequential Minimal
Optimization), que faz parte do pacote functions no WEKA.
14
Devido a complexidade temporal elevada em SVM tratou-se de registrar os tempos em segundos
necessários para a construção dos modelos.
66
Capítulo III: Testes e Resultados
Kernel linear
Após treinar o classificador com diferentes valores de C, obteve-se maior taxa de êxito
quando usamos como argumento 0,4.
Tabela 11: Taxas de êxito (%) e tempo de construção (s) com SVM, Kernel linear.
1 0,02 78,74
10 0,03 78,31
50 0,11 78,52
Kernel polinomial
De acordo com os resultados da tabela 12, é notável que se obteve maior êxito ao
treinar o classificador com os valores C = 4 e p = 2, com 79,83% de taxa de êxito.
C p 2 4 6 8
Os tempos levados para construção dos modelos foram registados na tabela 13.
67
Capítulo III: Testes e Resultados
C p 2 4 6 8
Kernel RBF
C G 0,01 0,1 1 10 50
Os tempos levados para construção dos modelos foram registados na tabela 13.
Após a realização dos treinos com classificador SVM, em cada fase seleccionou-se
os melhores argumentos de cada Kernel. Portanto, como observamos, obteve-se
maior êxito com a seguinte configuração: kernel = Polinomial, C = 4 e p = 2, que
obteve 79,83% de taxa de êxito. Que foi a configuração seleccionada para a última
etapa, e consequentemente, para ser incorporada na interface gráfica construída.
68
Capítulo III: Testes e Resultados
C G 0,01 0,1 1 10 50
3.3. Conclusão
69
Capítulo III: Testes e Resultados
Para o caso dos classificadores C4.5 e Naïve Bayes apresentaram média taixa de
acuidade. A taxa de êxito da melhor configuração do classificador SVM é superior a
75%. De acordo com Zheng (1993), um classificador tem alta taxa de acuidade quando
a percentagem da taxa de êxito for maior que 75%. Portanto, concluímos que, os
modelos construídos têm um alto poder de predição.
70
Capítulo IV: Desenho da Aplicação
71
Capítulo IV: Desenho da Aplicação
72
Conclusões
CONCLUSÕES
O processo de criação e validação dos modelos foi realizado em três etapas principais:
pré-processamento (I), afinação dos parâmetros e estimativa de erros (II) e
generalização (II).
Os modelos aprendidos tiveram uma taxa de êxito superior a 75%, pelo que se
consideram como modelos com alto poder preditivo. Portanto, se pode concluir que a
73
Recomendações
RECOMENDAÇÕES
Por meio deste trabalho várias linhas de investigação podem surgir em função de
algumas limitações constatadas no decorrer do presente trabalho. Tendo em conta as
mesmas, são formuladas algumas recomendações para trabalhos futuros.
A intenção inicial era trabalhar com conjuntos de dados locais, porém houve
dificuldades na obtenção desses dados; pois se verificou que não existia uma base
de dados local organizada e disponível para o estudo. Portanto, recomendamos que
se crie sistemas de captação dos dados dos pacientes submetidos ao exame da
diabetes.
Como trabalho futuro, se pode estender este estudo a universos de dados maiores e
geograficamente distintos, assim como aplicar outras técnicas de aprendizagem
automática.
O processo utilizado também pode servir como referência para futuras comparações
de algoritmos com o objectivo de decidir qual produz os modelos com maior
capacidade preditiva, como para verificar a viabilidade de outros conjuntos de dados
para detectar outras doenças crônicas. ´
74
Bibliografia
BIBLIOGRAFIA15
Bellazzi, R., Ferrazzi, F., & Sacchi, L. (2011). Predictive data mining in clinical
medicine: a focus on selected methods and applications. WIREs Data Mining
and Knowledge Discover, I, 416-430. Obtido em Outubro de 2017
Bouckaert, R. R., Eibe, F., Hall, M., Richard, K., Reutemann, P., Seewald, A., &
Scuse, D. (2015). Manual WEKA Versão 3-6-13.
Buijsse, B., Simmons, R. K., Griffin, S. J., & Schulze, M. B. (2011). Risk
Assessment Tools for Identifying Individuals at Risk of Developing Type 2
15
Elaborada de acordo com a norma APA (American Physicological Association), 6ª ed..
75
Bibliografia
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to
Knowledge Discovery in Databases. AI Magazine, 37-54.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques (3rd
ed.). Elsevier. Obtido de
http://ccs1.hnue.edu.vn/hungtd/DM2012/DataMining_BOOK.pdf
76
Bibliografia
Hsu, C.-W., Chang, C.-C., & Chih-Jen, L. (2016). A Practical Guide to Support Vector
Classification.
IDF. (2015). IDF Diabetes Atlas (7th ed.). (D. Cavan, J. d. Fernandes, L. Makaroff, K.
Ogurtsova, & W. Sara, Edits.) International Diabetes Federation. Obtido de
www.diabetesatlas.org
KGMM, A., & PZ, Z. (1999). Definition, diagnosis and classification of diabetes
mellitus. Provisional report of WHO Consultation.
KGMM, A., & Zimmet, P. (1998). Definition, diagnosis and classification of diabetes
mellitus and its complications. Part 1: diagnosis and classification of diabetes
mellitus. Provisional report of WHO Consultation.
77
Bibliografia
Marins, O. L., Barros, E. F., Romão, W., Constantino, A. A., & Souza, C. L. (2012).
Aplicação de Algoritmos de Aprendizagem de Máquina para Mineração de
Dados Sobre Beneficiários de Planos de Saúde Suplementar. Journal of Healf
Infomatics, 44-49.
National Institute of Diabetes and Digestive and Kidney Diseases. (2017). NHI.
Obtido em Maio de 2017, de https://www.niddk.nih.gov/health-information
Peterson, A. H., & Martinez, T. (2005). Estimating The Potential for Combining
Learning Model. Proceedings of the ICML-2005 Workshop on Meta-Learning.
Obtido de http://axon.cs.byu.edu/papers/peterson.icmlws05.pdf
Piatetsky-Shapiro, G., Brachman, R., Khabaza, T., Kloesgen, W., & Simoudis, E.
(1996). An Overview of Issues in Developing Industrial Data Mining and
Knowledge Discovery Applications. IA Magazine, 89-95.
Rath, R., Zamberlan, A. d., & Vieira, S. A. (2013). Sistema de Recomendação para
Controle da Diabetes.
78
Bibliografia
SVM - Support Vector Machines. (2017). SVM - Support Vector Machines. Obtido
em Outubro de 2017, de http://www.support-vector-
machines.org/SVM_soft.html
Theodoridis, S., & Koutroumbas, K. (2003). Pattern Recognition (2nd ed.). Elsevier.
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining. Practical Machine Learning
Tools and Techniques (3rd. ed.). Elsevier Inc.
Zheng, Z. (1993). A Banchmark for Classifier Learning. Technical Report 474, The
University of Sydney, Basser Department of Computer Science, Sydney.
79
Glossário
GLOSSÁRIO
Espaço de características. Nos métodos kernel, como nos casos das Máquinas de
Vectores de Suporte, designa a um espaço de elevadas dimensões definidos através
de um conjunto de funções de base não lineares.
Kernel. é uma função que representa as funções de base utilizadas para transformar
o espaço de entrada original num espaço de altas dimensões (espaço de
características). A sua utilização permite, por um lado a construção de superfícies de
decisões não lineares no espaço de entradas, uma vez que os hiperplanos óptimos
determinados no espaço de características correspondem a superfícies de decisões
não lineares no espaço de entradas.
80
Glossário
Modelos preditivos. podem ser vistos como funções matemáticas que mapeiam um
conjunto de valores de entrada (variáveis preditoras) para um valor de saída (variável-
alvo). O objectivo principal é prever o valor de alguma variável num determinado
universo de dados.
Previsão. Implica assumir eventos futuros, com base em dados conhecidos ou sinais
que a precedem.
81
Anexos
A.1 - WEKA
Interface gráfica
Como vemos na figura 6, este menu é composto por quatro botões, cada um deles
para cada uma das quatro principais funcionalidades que compõem o sistema WEKA.
Sendo assim, estes botões poderão ser utilizados para abrirem as seguintes
aplicações:
Explorer:
82
Anexos
o (1) - Open File, Open URL, Open DB: através destes botões é possível
seleccionar, respectivamente, bases de dados a partir de ficheiros locais
(formato arff), bases de dados remotas (Web) ou apenas diferentes tipos de
bases de dados (via JDBC16);
o (3) - Uma vez escolhidos os principais atributos que serão alvo de estudo,
todos os outros poderão ser removidos através do botão Remove, que se
encontra no final da lista de atributos;
16
Java Database Connectivity – Conjunto de classes e interfaces escritas em Java que fazem o envio
de instruções SQL para qualquer base de dados relacional.
83
Anexos
84
Anexos
Experimenter:
KnowledgeFlow:
85
Anexos
Sendo assim, tal como vimos, é possível referir que a ferramenta WEKA permite
aplicar as quatro tarefas principais de aprendizagem automática relativa à mineração
de dados, ou seja, podemos dizer que esta ferramenta permite a aplicação das tarefas
de classificação, regressão, regras de associação e clustering a inúmeros conjuntos
de dados.
Classificadores
Deste modo, durante a utilização desta ferramenta, três desses algoritmos foram
aplicados ao universo de dados alvo de estudo. A escolha destes três algoritmos deve-
se ao facto de estarem subjacentes a diferentes métodos de aprendizagem
17
Termo referente a um processamento de dados que ocorre através de um conjunto de tarefas que
se encontram enfileiradas, sendo que o sistema operativo apenas processa a próxima tarefa após o
término completo da tarefa anterior.
18
Forma de um determinado processo se dividir em duas ou mais tarefas que possam ser executadas
simultaneamente.
86
Anexos
Nesta senda, a Tabela 17 apresenta uma síntese das principais características dos
três algoritmos a que recorremos para a execução das diversas experiências.
87
Anexos
Tabela 17: Síntese dos três algoritmos aplicados ao conjunto de dados alvo de estudo.
Métodos de
Aprendizagem
Automática Algoritmos Características
J48
Este permite a criação de modelos de decisão em árvore. Faz uso de uma estratégia
greedy para induzir árvores de decisão para posterior classificação. O modelo de
árvore de decisão é construído pela análise dos dados de treino, sendo
88
Anexos
Naïve Bayes
O cálculo exacto utiliza o teorema de Bayes, sendo por essa mesma razão que o
algoritmo é denominado um classificador de Bayes. Este algoritmo é igualmente
designado Naïve, uma vez que todos os atributos são independentes, dado o valor da
variável de classe. Apesar deste pressuposto, o algoritmo apresenta um bom
desempenho em muitos dos cenários de previsão de classes. Estudos experimentais
revelam a eficácia deste algoritmo para “aprender” mais rapidamente que a maioria
dos algoritmos de indução, daí a sua utilização no decorrer das experiências.
SMO
89
Anexos
𝑇𝑆𝑀𝑂 = 𝐼𝑡 (𝑡1 + 𝑡2 + 𝑡3 ) ,
A.2 - NetBeans
90
Anexos
Além de ser uma linguagem com fortes propriedades como a sua robustes,
multiplataforma, segura, orientada a objecto, a principal escolha dessa linguagem é
pelo facto da sua compatibilidade com a ferramenta WEKA, pois a biblioteca de
desenvolvimento disponibilizada pelo WEKA está programada em java.
91
Apêndice
APÊNDICE A – ENTREVISTAS
1. O que é a diabetes?
2. Qual a taxa de prevalência e incidência em Angola e em Africa?
3. Como é feito o dignóstico da diabetes?
4. Existe uma base de dados dos pacientes que são submetidos ao exame de
diabetes?
5. Como é feito o acompanhamento aos pacientes de risco?
6. Quais as dificuldades encontradas em todo o processo de diagnóstico,
acompanhamento e combate da doença?
92