Você está na página 1de 5

Inteligncia Computacional II

Rafael Silva Erthal Vieira


Universidade Federal do Rio de Janeiro
E-mail: rafaelerthal@cos.ufrj.br
1 INTRODUO
A proposta deste trabalho consiste em analisar um banco de dados contendo informaes de
pacientes, tais como, colesterol, idade, glicemia com o objetivo de predizer se um paciente ir
ou no enfartar. O desfecho ser dado por -1 ou 1, onde -1 indica que o paciente no enfartou e
1 o paciente enfartou. Obviamente, o algoritmo no ir prever o resultado com 100% de certeza,
ele ir resultar em um valor aproximado que diz se o paciente enfartou ou no de acordo com os
dados fornecidos. Para isso, ser utilizado a regresso logstica que resulta na probabilidade da
ocorrncia do evento, ou seja, a resposta desse mtodo resulta em uma probabilidade entre 0 e 1.
2 CONCEITOS BSICOS
2.1 Regresso Logstica

Regresso Logstica um modelo linear, ou seja, suas entradas so consideradas atravs do


clculo do sinal, que por sua vez, uma combinao linear da entrada com o respectivo peso.
dada por:
d

s= wi xi
i=0

Ser considerado

s e aplicado uma no-linearidade, chamada de , a funo logstica.

O objetivo da regresso logstica gerar uma sada que possa ser interpretada como uma
probabilidade. A funo logstica

( s )=

ser dada por:

es
1+ e s

Como mencionado anteriormente, a funo logstica resulta em probabilidade. O sinal


sendo muito negativo possuir probabilidade prxima de zero, e de maneira anloga, sendo
muito positivo ser prximo de um. Alm disso, quando no h sinal a probabilidade se
aproxima da metade. O sinal corresponde ao nvel de certeza em relao a ocorrncia de um
determinado evento. Caso possua um sinal enorme, possvel dizer que o evento ir acontecer.
Da mesma forma, um sinal muito negativo, o evento no ocorre. Este valor chamado de limiar
flexvel, ou sigmoide, sua funo dizer a confiabilidade de uma deciso. Alm disso,
utilizado para refletir a incerteza do problema.
2.2 Problema Proposto

O objetivo deste trabalho de analisar, atravs da regresso logstica, a probabilidade de um


paciente ter ataque cardaco. Diversos fatores contribuem para isso, sendo eles, colesterol, idade
e glicemia. Portanto, ser feito a previso para dizer se existe um pequeno ou grande risco dessa
doena ocorrer.
A entrada utilizada,

x , so os dados relevantes para a ocorrncia do ataque cardaco,

colesterol, idade e glicemia. J a sada, ser a probabilidade do paciente ter ou no o ataque


cardaco, dado por

( s) .

2.3 Medida de Erro


O erro dentro-da-amostra na regresso logstica dado por:
N

1
y w
E ( w )= ln ( 1+ e
N n=1
n

xn

Onde N o nmero de pontos no conjunto de treino e

ln (1+ ey

w xn

) o Erro de Entropia

Cruzada.
O treino da regresso logstica ser dado pela tentativa de tender o gradiente a zero, ou seja,

E ( w ) =0 . Para isso, ser necessrio utilizar iterativamente o mtodo gradiente


descendente, que ser explicado a seguir.
2.4 Gradiente Descendente
A propriedade necessria para a utilizao do gradiente descendente que a funo seja
duas vezes diferencivel, assim como o

E (w) na regresso logstica. Uma vantagem deste

mtodo, que existe apenas um mnimo global. Isso ocorre, pois,


convexa de

E ( w)

que implica em apenas um vale como ser mostrado a seguir:


Figura 1 Representao do Gradiente Descendente

uma funo

Fonte: Vdeo Aula 9 The Linear Model II ABU-MOSTAFA, Yaser S.

O gradiente no ficar preso em mnimos locais quando estiver minimizando o


3

E (w) .

METODOLOGIA

3.1 Pseudocdigo
Inicialmente, ser definido

w (0 )

utilizado no clculo da regresso logstica. Ele

representado por um vetor aleatrio com distribuio normal de mdia

e desvio padro

0,01 . Cada execuo do mtodo apresentar um resultado diferente, uma vez que, os valores
iniciais dos pesos so aleatrios. A seguir ser apresentado o pseudocdigo da regresso
logstica:
Figura 2 Pseudocdigo da Regresso Logstica

Fonte: Vdeo Aula 9 The Linear Model II ABU-MOSTAFA, Yaser S.

representa a taxa de aprendizado, neste trabalho foi utilizado 0,0001.

Onde

3.2 Definies
No problema proposto, tem-se um banco de dados com as informaes de
pacientes, que representam a amostra. Ser utilizado

20

80

100 0

dessa amostra para o clculo do

ser reservado para o treino, que representa um estimador para o clculo do

Eout .
O clculo da regresso logstica possui como sada o peso

w , que corresponde a um

vetor, contendo a probabilidade de quatro valores: vis, colesterol, idade e glicemia . Esse valor
ser utilizado como entrada para o clculo do

E (w) e do

Eout ( w) . O objetivo do erro

dentro-da-amostra de refletir o que ir acontecer com o erro fora-da-amostra.


4

RESULTADOS E DISCUSSES

4.1 Experimentos Realizados


O critrio de parada utilizado no clculo da regresso logstica dado de duas formas:
quando o nmero mximo de iteraes atingido e quando a diferena entre o

E anterior e

0,0001 . A seguir sero apresentadas as figuras que exprimem

atual menor que

essas ideias.

Figura 1 Resultado da regresso logstica

Nota: Nmero mximo de iteraes atingido. Neste caso, 100.

Na

figura

1,

resultado

da

regresso

0,01793151,0,00451583,0,00482791 e 0,00138128 ,

logstica
resultando

obtido

foi:

em

um

E =0,51474167

e um

Eout =0,13090335 . Fazendo uma anlise desses resultados

possvel dizer que o vis e o colesterol contribuem negativamente para o enfarto e a idade e a
glicemia contribuem positivamente para o enfarto.

Figura 2 Resultado da regresso logstica

Nota: Diferena entre

anterior e

E atual menor que 0,0001 .

De maneira anloga, na figura 2, o resultado da regresso logstica obtido foi:

0,00123454,0,00218509, 0,00702908 e0,00395132 . Isso resultou em um


E =0,51237657 e um Eout =0,12982771 . Fazendo uma anlise desses resultados
possvel dizer que o colesterol e a glicemia contribuem negativamente para o enfarto e o vis e a
idade contribuem positivamente para o enfarto.
5 CONCLUSES
Atravs do mtodo proposto, a regresso logstica, foi possvel analisar a prever a chance de
um paciente sofrer de ataque cardaco. O resultado obtido diz que o grande fator que contribui
com o aumento da chance de enfarto a evoluo da idade do paciente.
6 REFERNCIAS
Notas de Aula Inteligncia Computacional.
Vdeo Aula 9 The Linear Model II ABU-MOSTAFA, Yaser S.
ABU-MOSTAFA, Yaser S.; MAGDON-ISMAIL, Malik; LIN, Hsuan-Tien. Learning From
Data. AMLBook, 2012.

Você também pode gostar