Você está na página 1de 22

SEMINÁRIOS DE ESTATISTICA

MODELO DE REGRESSÃO LOGISTICA

Maria Rosario Oliveira Martins


Instituto de Higiene e Medicina Tropical
Outubro 2015
Muita da investigação realizada na área das ciências da saúde é motivada pelo
desejo de descrever e perceber a relação existente entre um conjunto de
variáveis explicativas (ou covariáveis) e uma variável dependente (ou variável
resposta) que é discreta. Particularmente útil é o estudo de situações em que a
variável resposta é dicotómica (ou binária), ou seja pode assumir apenas uma
de duas modalidades mutuamente exclusivas. Normalmente estas modalidades
são codificadas como Y=1 para um sucesso e Y=0 para um insucesso. Por
exemplo, morreu ou não; ficou curado ou não; teve uma determinada doença ou
não; é fumador ou não fumador; está de boa saúde ou não.

Os investigadores ou profissionais da área da saúde que pretendem estudar


situações como aquelas acima descritas devem ter um conhecimento básico
sobre a regressão logística, um dos modelos mais utilizados neste contexto.

5.1 Especificação do Modelo de Regressão Logística

Seja Y a variável dependente ou variável de resposta, onde Y=1 ou Y=0, e


consideremos um conjunto de variáveis explicativas ( ). A equação de
regressão logística é escrita da seguinte forma:

são os parâmetros que queremos estimar. Uma


transformação da função particularmente útil é a chamada transformação
logit. Esta é definida como:

1
Ou seja,

Uma das diferenças fundamentais entre o modelo de regressão linear e o


modelo de regressão logística é que, neste último caso, a variável dependente,
dado X, não segue uma distribuição normal com valor esperado nulo e variância
constante. Dado X, a variável dependente segue uma distribuição binomial com
probabilidade .

5.2 Estimação do Modelo de Regressão Logística pelo Método da Máxima


Verosimilhança

Seja (Xi,Yi) uma amostra de n observações independentes da variável resposta


Y, e do vector de variáveis explicativas X, para i=1,…,n. A variável Y é uma
variável dicotómica que assume os valores 0 ou 1, que representam a ausência
ou presença de determinada característica. Um dos métodos mais utilizados
para estimar os parâmetros do modelo de regressão logística é o método da
máxima verosimilhança.

Em termos de formulação matemática, este método consiste na


maximização de uma função denominada função de verosimilhança, cuja
expressão analítica é dada por:

n
l π     iyi 1   i 
1 yi

i 1

Por uma questão de simplificação, é usual trabalhar-se com o logaritmo da


função de verosimilhança, a função de log-verosimilhança, uma vez que a
aplicação de logaritmos é uma transformação estritamente monótona, o que
significa que o valor que maximiza a função de verosimilhança também
maximiza o seu logaritmo.

Assim, procedendo à logaritmização da função de verosimilhança, vem que:

n
Lπ   ln l π     y i ln  i   1  y i  ln 1   i 
i 1

2
A função de verosimilhança pode ser escrita em função dos β parâmetros a

estimar. Maximizar L π consiste na determinação dos valores de  para os


quais as primeiras derivadas parciais são nulas e posterior averiguação (por
análise da matriz Hessiana) sobre se de facto estamos em presença de um

máximo da função. À derivada de Lπ  em ordem a  dá-se o nome de score.

5.3 Interpretação dos coeficientes estimados

5.3.1 Variáveis Explicativas Discretas Binárias

Quando a variável explicativa é discreta e medida numa escala nominal, como,


por exemplo, o sexo ou a raça, é necessário quantificá-la utilizando as
denominadas variáveis dummy. Os números utilizados para representar os
diversos níveis deste tipo de variáveis não têm significado numérico, são
apenas identificadores das modalidades. No caso da variável sexo, que pode
assumir duas modalidades (feminino ou masculino) define-se uma variável
dummy, D, que é igual a 1 se o indivíduo for do sexo feminino e 0 caso
contrário.

Em geral, a uma variável, medida numa escala nominal, que assume m


modalidades possíveis, correspondem m-1 variáveis dummy, desde que o
modelo de regressão logística contenha um termo constante.

A interpretação dos coeficientes estimados e da razão de odds vai ser feita para
o caso de um modelo com 2 variáveis explicativas, uma discreta com duas
modalidades, X1, e uma contínua, X2. Este exemplo serve de base para se
analisarem posteriormente situações mais complexas. À variável X1 (nominal
com duas modalidades) corresponde uma variável dummy, D1, que é igual a 1
ou igual a 0. Neste caso, o modelo de regressão logística, com variável
dependente Y (Y=1 ou Y=0), termo constante e variáveis explicativas D1 e X2 é
definido da seguinte forma:

3
Para interpretar o coeficiente associado à variável dummy, 1, é necessário
determinar e , cujas expressões são dadas por:

O coeficiente 1 representa a diferença entre o logit quando e o logit


quando , admitindo que tudo o resto se mantém constante, dado que,

Este resultado é mais fácil de interpretar recorrendo ao conceito de odds ratio


ou razão de odds. Considere-se o quadro 5.1 onde estão apresentados, para o
modelo acima considerado, os valores possíveis para as probabilidades da
regressão logística.

Quadro 5.1: Probabilidades associadas ao modelo de regressão logística

Variável Explicativa (D1)

Variável dependente (Y) D1=1 D1=0

y=1

y=0

Total 1 1

4
O odds, para os indivíduos relativamente aos quais , é dado por
, ou seja, é dado pelo quociente entre a probabilidade
de sucesso e a probabilidade de insucesso. Para os indivíduos com ,o
odds é dado por . O odds ratio, ou razão de odds, OR,
é dado pela seguinte equação:

Em geral, a razão de odds para a variável explicativa Xj é dada por e


mede a alteração multiplicativa no odds de sucesso de Y, quando a
variável explicativa Xj passa de 1 para 0, mantendo-se constantes os

valores das restantes variáveis explicativas. Fazendo , a


interpretação é a seguinte:

 ,( ), então a variável explicativa não tem efeito sobre o


odds de sucesso da variável dependente, ou seja, a relação entre a
probabilidade de sucesso e a probabilidade de insucesso da variável
dependente mantém-se inalterada;

 , ( ), então a variável explicativa influencia de


forma positiva o odds de sucesso da variável dependente, ou seja, o
odds de sucesso quando a variável passa de 0 para 1 aumenta (k –
1)100%;

 , ( ), então a variável explicativa influencia de


forma negativa o odds de sucesso da variável dependente, ou seja, o
odds de sucesso quando a variável passa de 0 para 1, diminui (1-
k)100%.

A razão de odds é uma medida de associação muito utilizada nas aplicações


ligadas à área da saúde, nomeadamente em epidemiologia, uma vez que, em

5
certas circunstâncias, esta quantidade representa uma boa aproximação do

risco relativo. O risco relativo é igual ao rácio . Como tal, o odds ratio

aproxima-se ao risco relativo se , isto é, quando é pequeno

para X = 1 e X = 0.

Em geral, nos modelos de regressão logística, a razão de odds é um dos


parâmetros de interesse devido á sua fácil interpretação. No entanto, o valor
estimado da razão de odds, , tem uma distribuição assimétrica. Como tal, a
inferência é normalmente feita com base na distribuição amostral de ln( = ,
que segue assimptoticamente uma distribuição normal. O intervalo de confiança
a (1-α)100% para o valor estimado a razão de odds é obtido, primeiro,
calculando o intervalo de confiança para e, de seguida, determinando a
exponencial dos limites do referido intervalo. Ou seja, em geral, o intervalo de
confiança para pode ser aproximado pela expressão,

Finalmente, é de referir a importância que a codificação das variáveis dummy


tem para o cálculo da razão de odds. Com efeito, os cálculos até agora
efectuados pressupõem uma codificação do tipo (0,1). No entanto, se a
quantificação for de outro tipo, (-1,1), por exemplo, o valor da razão de odds
acima apresentado deixa de estar correcto. Quando existem termos cruzados
ou interacção entre variáveis explicativas, a conclusão é idêntica.

5.3.2 Variáveis Explicativas Contínuas

A interpretação do coeficiente estimado de uma variável explicativa contínua


depende, por um lado, da unidade de medida da variável e, por outro, da forma
funcional que liga o logit à variável em causa (linear, quadrática, com ou sem
interacção). No modelo apresentado, o logit depende linearmente da variável X2
e não existe interacção. Neste caso,

6
g ( D1 , X 2 )
 2
X 2

Ou seja, quando X2 varia de uma unidade, o logit varia unidades, mantendo


tudo o resto constante. Por vezes, pode ser mais conveniente analisar uma
variação de c unidades; nesse caso,

ou seja, quando a variável tem uma variação de c unidades, o logit varia de


unidades. O efeito sobre a razão de odds é derivado de forma equivalente
ao obtido com variáveis dicotómicas, ou seja,

odds Yi  1 | ..., X ij  1,... 


e j
odds Yi  1 | ..., X ij ,...

O valor mede a alteração multiplicativa no odds de sucesso de Y


quando a variável explicativa aumenta uma unidade, mantendo-se
constantes os valores das restantes variáveis explicativas.

Deste modo, se:

 ,( ), então a variável explicativa não tem efeito sobre o


odds de sucesso da variável independente, ou seja, a relação entre a
probabilidade de sucesso e a probabilidade de insucesso da variável
dependente mantém-se inalterada;

 , ( ), então a variável explicativa influencia de


forma positiva o odds de sucesso da variável dependente, ou seja, o
odds de sucesso para uma unidade adicional da variável explicativa
aumenta (k – 1)100%;

 , ( ), então a variável explicativa influencia de


forma negativa o odds de sucesso da variável dependente, ou seja, o
odds de sucesso para uma unidade adicional da variável explicativa
diminui (1-k)100%.
7
5.4 Significância dos parâmetros de regressão

5.4.1 Testes de Hipóteses

Para analisar a significância individual de cada variável , utiliza-se o seguinte


ensaio de hipóteses:

H0: j =0 vs. H1: j  0, j=0,….,p.

E considera-se a seguinte estatística de teste: ˆ j .


T
 
var ˆ j

Demonstra-se que, sob a hipótese nula, a estatística T segue,


assimptoticamente, uma distribuição Normal estandardizada:

ˆ j
~ N 0,1
a
T
 
var ˆ j

A regra de teste, para um nível de significância 100%, é a seguinte:

rejeitar H 0 se T z 

, onde  z 

  1

e  é a função de
1 
2  1 2  2

distribuição Normal estandardizada.

Após fixar o nível de significância , é possível utilizar o p-value associado ao


valor calculado da estatística de teste para decidir pela rejeição ou não rejeição
da hipótese nula. Geralmente, se o p-value é inferior a 0,05 , então
podemos considerar que o coeficiente é estatisticamente significativo.

8
5.4.2 Intervalos de Confiança

Os resultados estatísticos obtidos para construir o teste de hipóteses acima


referido vão ser utilizados para a construção de intervalos de confiança para os
coeficientes individuais , j=0,….p

O intervalo de confiança a (1-α)100% (por exemplo, 1-α=95%) para o


coeficiente é dado por:

A interpretação deste intervalo é a seguinte: a probabilidade do verdadeiro valor


de estar compreendido entre o limite inferior e o limite superior do IC é de
95%.

No entanto, não estamos tão interessados no valor dos coeficientes como


estamos nos valores dos odds ratio (OR) correspondentes e na sua
significância estatística. Como referido anteriormente, o intervalo de confiança
para pode ser aproximado pela expressão,

Como tal, pra cada OR, se o p-value é inferior a 0,05 ou o intervalo de


confiança a 95% não contém o valor 1, então a variável correspondente tem
uma influência estatisticamente significativa sobre a probabilidade de Y = 1.

Exemplo 5.1: Foi realizado um estudo transversal entre Junho de 2006 e Julho
de 2007, com 667 crianças com idades compreendidas entre os 5 e os 16 anos,
com o objectivo de determinar a prevalência de geohelmintos em crianças
escolares de bairros com diferentes condições de saneamento e abastecimento
de água. Para estudar a associação entre a positividade do exame
parasitológico de fezes e as diferentes variáveis estudadas, foi utilizado o odds
ratio. A variável dependente é, então:

9
Y: resultado do exame parasitológico de fezes

e pode assumir os valores:

Y = 1, se o exame for positivo

Y = 0, se o exame for negativo

Considerando um conjunto de variáveis explicativas referentes a características


socio-demográficas e higiénico-sanitárias, podemos formular o modelo de
regressão logística como (algumas variáveis foram suprimidas por razões de
simplificação):

onde ;

é uma variável dummy que tem o valor 1 se a criança


tem por hábito andar descalçada e o valor 0, se a criança costuma andar
calçada;

é uma variável dummy que tem o valor 1 se a fonte


principal de água é o fontanário e o valor 0, se a fonte principal é água
canalizada;

é uma variável dummy que tem o valor 1 se a criança


compra o lanche fora da escola e o valor 0, se compra o lanche na
cantina da escola.

Para cada uma das variáveis explicativas, interessa calcular a razão de odds e
o respectivo intervalo de confiança. Como vimos, para a variável explicativa Xj,

a razão de odds é dada por . Os resultados obtidos, para todas as


variáveis explicativas consideradas, foram os seguintes:

10
Tomemos como exemplo a variável “Compra do lanche”. Através do p-value
obtido (p = 0,007 < 0,05), podemos admitir que o local de compra do lanche tem
uma influência estatisticamente significativa sobre a probabilidade de ter o
exame parasitológico positivo, P(Y = 1). Verificando o valor de OR obtido (OR =
0,33 < 1), podemos dizer que a variável explicativa influencia de forma negativa
o odds de ter o exame positivo (de facto, o intervalo de confiança a 95% para o
OR não contém o valor 1: (0,13-0,81)). Assim, os resultados sugerem que
quando a criança compra o lanche fora da escola, em vez de o comprar na
cantina (variável passa de 0 para 1), mantendo-se todas as
restantes variáveis constantes, o odds de ter o exame positivo diminui (1-
0,33)x100 = 66%.

Exemplo 5.2: Com base numa amostra recolhida no Hospital Garcia de Orta
entre 1994 e 1998 referente a 196 bebés que nasceram com menos de 1500g e
que, durante os primeiros 5 anos de vida, foram consultados na unidade de
cuidados intensivos neo-natais do mesmo hospital, foi estimado, pelo método
da máxima verosimilhança, o modelo de regressão logística relativo aos
factores determinantes da probabilidade do bebé, que nasceu com baixo peso à
nascença, ter dificuldades de desenvolvimento. Os resultados obtidos foram os
seguintes:

11
Desvio- Teste de
Variáveis Explicativas p-value
padrão Wald

Constante 1,1019 0,5758 3,6621 0,0557

Escolaridade Materna
EM 9-12 0,6991 4,048 0,3045 5,2710 0,0217

EM<9 1,0204 7,697 0,3343 9,3175 0,0023

Idade Materna
IM19 0,2125 1,529 0,4028 0,2781 0,5979

IM 25-29 -0,1357 0,762 0,2664 0,2594 0,6105

IM  30 -0,0887 0,837 0,2445 0,1316 0,7167

Sexo
Masculino 0,3962 2,209 0,199 3,9630 0,0465

Cuidados na gravidez
Não vigiada 0,2012 1,495 0,4143 0,2358 0,6273

Raça
Não
0,2373 1,607 0,2949 0,6474 0,421
caucasiana

Responsável pelo
bebé
-0,1452 0,748 0,3905 0,1382 0,71
Outros

Peso à nascença
P<1000g 0,4173 2,304 0,2062 4,0978 0,0429

Problemas Sociais
Sim 0,1408 1,325 0,3147 0,2002 0,6545

A definição das variáveis explicativas é a seguinte:

Escolaridade materna (EM). Esta variável refere-se ao número de anos de


escolaridade completos da mãe. Esta variável foi agregada em 3 classes, às
quais correspondem 3 variáveis dummy: escolaridade inferior ao 9º ano
(EM<9), do 9º ano completo ao 12º ano completo (EM9-12) e superior ao
12º ano (EM>12). A modalidade de referência é EM12, e como tal não
aparece no quadro.

Idade materna (IM). Esta variável foi medida em anos completos na altura
do parto e agregada em 4 classes, às quais correspondem 4 variáveis
12
dummy: entre 15 e 19 anos (IM<19) , de 20 a 24 anos (IM20-24), de 25 a 29
anos (IM25-39) e mais de 30 anos (IM>30). A modalidade de referência é
IM20-24.
Sexo. É uma variável dummy que assume o valor 1 se a criança é do sexo
masculino e 0 caso contrário.
A variável gravidez vigiada tem em conta o número de consultas da mãe ao
longo da gravidez. Como gravidez não vigiada considerámos as grávidas
que tiveram 2 ou menos consultas. Cuidados na Gravidez é uma variável
que assume o valor de 1 quando a gravidez em causa não foi vigiada e 0
caso contrário.
A raça é uma variável dummy que assume o valor 1 quando a criança não é
caucasiana e 0 caso contrário.
Responsável pelo bebé. É uma variável que diz respeito a quem tem a
responsabilidade de tomar conta do bebé. Podem ser os pais ou outras
pessoas (avós, amas, instituições de acolhimento). A modalidade de
referência é a relativa aos pais.
O peso à nascença foi agregado em duas classes: peso inferior e superior
a 1kg, sendo a modalidade de referência o peso superior a 1kg.
A variável problema social foi dividida em duas classes: existência de
problemas sociais ou não existência de problemas sociais na família do
recém-nascido. A modalidade de referência é a não existência de problemas
sociais. Estão incluídos nos problemas sociais, situações de:
toxicodependência, mãe e/ou pai seropositivo, álcool, prostituição,
desemprego, emprego precário, conflito familiar grave, prisão, bebé para
adopção, pais imigrantes não legalizados.

Na primeira coluna da tabela estão apresentados os coeficientes estimados. A


segunda coluna refere-se à razão de odds, a terceira ao desvio-padrão e a
quarta ao teste de Wald (para a significância individual dos parâmetros). Como
se pode constatar, para um nível de significância de 5%, existem coeficientes
que não são estatisticamente significativos, como é o caso dos referentes às
variáveis Idade Materna, Cuidados na Gravidez, Raça, Responsável pelo bebé
e Problemas Sociais.

13
A interpretação da razão de odds vai ser efectuada apenas para as variáveis
que se revelaram significativas para explicar o modelo. Como se pode constatar
na tabela, um bebé, cuja mãe tem um nível de escolaridade inferior a 9 anos
quando comparado com um bebé cuja mãe tem um nível de escolaridade
superior a 12 anos (classe de referência), tem uma probabilidade 7,7 vezes
superior de sofrer atrasos no desenvolvimento, e tudo o resto constante. Ou,
dito de outra forma, o odds de sucesso quando a variável dummy passa de
0 (mãe com escolaridade superior a 12 anos) para 1 (mãe com
escolaridade inferior a 9 anos) aumenta (7,7– 1)100%, isto é, aumenta
670%.

Uma criança do sexo masculino, quando comparada com uma do sexo


feminino, apresenta uma probabilidade 2,2 maior de ter atrasos no
desenvolvimento, com todas as outras variáveis mantidas constantes. Ou dito
de outra forma, o odds de sucesso quando a variável dummy passa de 0
(sexo masculino) para 1 (sexo masculino) aumenta (2,2– 1)100%, isto é,
aumenta 120%.

Um bebé que, à nascença, tenha um peso inferior a 1000g apresenta, e tudo o


resto constante, uma probabilidade 2,3 vezes maior de sofrer atrasos no
desenvolvimento. Ou, dito de outra forma, o odds de sucesso quando a
variável dummy passa de 0 (peso ≥1000g) para 1 (peso <1000g) aumenta
(2,3– 1)100%, isto é, aumenta 130%.

5.5 Medidas de Qualidade de Ajustamento do Modelo

5.5.1 Teste de Hosmer-Lemeshow

O teste de Hosmer-Lemeshow é um dos procedimentos mais utilizados para


avaliar a qualidade do ajustamento do modelo aos dados. Os autores
sugerem que o intervalo [0,1] de variação de i seja dividido em s intervalos
mutuamente exclusivos (aproximadamente 10), comparando-se de seguida
as frequências esperadas e as frequências observadas em cada grupo. Os

14
intervalos também podem ser determinados ordenando os n valores ˆ i ,

distribuindo-os de seguida por s grupos com igual número de elementos.

Sejam:

 nj o número de observações pertencentes ao grupo j, verificando-se


s
n j 1
nj ;

o j  i 1 y ji a frequência observada de sucessos no grupo j, onde yji é


nj

a i-ésima observação do grupo j;

 ej  n j j a frequência esperada de sucessos no grupo j, onde

j   ̂  n nj
i 1 ji j e ˆ ji é a probabilidade estimada correspondente à i-

ésima observação do grupo j.

No teste de Hosmer-Lemeshow, são testadas as seguintes hipóteses:

H0: oj = ej, j=1,...,s vs. H1:  j=1,...,s: oj  ej,

A estatística de teste é dada por:

s o  ej 
2 s o  n j j 
2
a
   ~  s22
2 j j

n j  j 1   j 
(38)
 e 
HL
j 1 j 1
e j 1  j 
 nj 

A regra de teste é a seguinte: rejeita-se a hipótese nula, para um nível de


significância , quando  HL
2
  s22,1 .

5.5.2 Matriz de Confusão

Uma outra forma tradicional de avaliação do modelo é a designada matriz


de confusão (apresentada no quadro 5.2), matriz-erro ou tabela de
contingência. Esta tabela permite comparar as frequências observadas da
variável dicotómica com as frequências previstas através do modelo de

15
regressão logística, para um determinado ponto de corte (cutoff). O valor do
ponto de corte mais usual é 0,50.

Quadro 5.2: Matriz de confusão para duas classes

TIPO DE
VALORES PREVISTOS
SANGUE

INSUCESSO SUCESSO

̂ i  pc ̂ i  pc

INSUCESSO
n00 (VN) n10 (FP)
Yi  0
VALORES
OBSERVADOS
SUCESSO
n01 (FN) n11 (VP)
Yi  1

Cada observação, de acordo com o modelo, é colocada na categoria dos


insucessos, Yi=0, se ̂ i  pc , onde pc representa o ponto de corte, sendo

classificada na categoria dos sucessos, Yi=1, caso a condição não se


verifique.

Com base nesta matriz é possível identificar quatro situações:

 A observação i, de acordo com o modelo, é colocada na categoria


dos sucessos, estando esta classificação correcta em relação ao
valor observado. Estamos perante verdadeiros positivos (VP);

 A observação i, de acordo com o modelo, é colocada na categoria


dos sucessos, não estando esta classificação correcta em relação ao
valor observado. Estamos perante falsos positivos (FP);

 A observação i, de acordo com o modelo, é colocada na categoria


dos insucessos, estando esta classificação correcta em relação ao
valor observado. Estamos perante verdadeiros negativos (VN);

16
 A observação i, de acordo com o modelo, é colocada na categoria
dos insucessos, não estando esta classificação correcta em relação
ao valor observado. Estamos perante falsos negativos (FN).

O total de falsos negativos e de falsos positivos correspondem às


observações mal classificadas pelo modelo. Admita-se que o número de
VP, FP, VN e FN, em n observações, é n11, n10, n00 e n01, respectivamente.
Assim, o erro total do modelo de classificação, para um dado ponto de
corte é dado pela seguinte percentagem:

FP  FN n  n01
 100%  10  100% .
VP  FP  VN  FN n

A precisão ou percentagem global de observações correctamente


classificadas é dada por:

VP  VN n n
 100%  11 00  100% .
VP  FP  VN  FN n

Para além da informação global acima mencionada, é possível extrair da


matriz de confusão informação acerca da capacidade do modelo em
classificar correcta ou incorrectamente as observações, quando estas
pertencem a uma ou a outra categoria (sucesso ou insucesso). Assim:

 A probabilidade de uma observação i, para um dado valor de corte,


ser classificada como pertencente à categoria dos sucessos, sendo-o
de facto, Pˆ i  pc | Yi  1, é denominada sensibilidade. A

sensibilidade pode ser calculada através do seguinte rácio:

VP n11
 .
VP  FN n11  n01

17
 A probabilidade de uma observação i, para um dado valor de corte,
ser classificada como pertencente à categoria dos insucessos,
sendo-o de facto, Pˆ i  pc | Yi  0 , é denominada especificidade. A

especificidade pode ser calculada através do seguinte rácio:

VN n00
 .
VN  FP n00  n10

 A probabilidade de uma observação i, para um dado valor de corte,


ser classificada como pertencente à categoria dos insucessos,
quando de facto pertence à categoria dos sucessos, Pˆ i  pc | Yi  1,

é denominada erro de tipo I e representa-se por 1. O erro de tipo I


pode ser calculado através de:

FN n01
1   .
VP  FN n11  n01

 A probabilidade de uma observação i, para um dado valor de corte,


ser classificada como pertencente à categoria dos sucessos, quando
de facto pertence à categoria dos insucessos, Pˆ i  pc | Yi  0 , é

denominada erro de tipo II e representa-se por 2. O erro de tipo II


pode ser calculado através de:

FP n10
2   .
VN  FP n00  n10

5.5.3 Curva ROC

A curva ROC (Receiver Operating Characteristic, vindo em português,


COR, Características Operacionais Relativas) é uma representação gráfica
que descreve os compromissos que podem ser tomados entre a fracção de

18
verdadeiros positivos (correspondente à sensibilidade do modelo) e a
fracção de falsos positivos (correspondente ao erro de tipo II, ou seja, ao
complementar da especificidade do modelo), obtidas para os diferentes
valores de corte.

Assim, fazendo variar o ponto de corte entre 0 e 1, para que assuma todos
os valores possíveis, a curva ROC é produzida pelos correspondentes
pontos de coordenadas:

1  especifici dade, sensibilid ade  1  VN


,
VP   FP
 ,
VP 

 VN  FP VP  FN   VN  FP VP  FN 

A relação acabada de supra citar está ilustrada na Figura 3.1 onde se


alude, igualmente, aos três tipos de modelo que aquela figura permite
inferir.

VP
VP  FN

Figura 5.1: Representação gráfica da Curva ROC

Quanto maior a sensibilidade para valores elevados da especificidade (ou


seja, valores elevados do eixo das ordenadas e valores baixos do eixo das
abcissas), melhor a discriminação do modelo. Neste sentido, uma medida
numérica da precisão do modelo pode ser obtida pela área sob a curva, em

19
que o valor de 1 significa um modelo perfeito, enquanto uma área em redor
de 0,5 indica uma fraca capacidade de aderência aos dados (modelo
aleatório). Ou, dito de outra forma, a área delimitada pela curva mede a
capacidade de discriminação do modelo, isto é, a capacidade do modelo
classificar correctamente os indivíduos pertencentes à categoria dos
insucessos e os indivíduos pertencentes à categoria dos sucessos. É
habitual considerarem-se os valores da área sob a curva, AUC (Area Under
the ROC Curve), evidenciados no quadro 5.3, para aferir a capacidade de
discriminação do modelo.

Quadro 5.3: Valores da área sob a curva ROC

VALORES COMENTÁRIOS

AUC = 0,50 Nenhuma discriminação

0,50 < AUC ≤ 0,70 Fraca discriminação

0,70 < AUC ≤ 0,80 Modelo aceitável

0,80 < AUC ≤ 0,90 Boa discriminação

0,80 < AUC ≤ 0,90 Boa discriminação

Exemplo 5.3: Recorrendo novamente ao exemplo 5.2, foi obtida a seguinte


matriz de confusão:

Valores observados
Não tem
Tem dificuldades
dificuldades

Valores Tem dificuldades 77 55


previstos Não tem
c=0,3 4 13
dificuldades

Valores Tem dificuldades 65 33


previstos Não tem
c=0,5 16 35
dificuldades

Valores Tem dificuldades 34 10


previstos Não tem
c=0,7 47 58
dificuldades

20
A sensibilidade e especificidade para os 3 pontos de corte são dadas por:

Ponto de
c=0,3 c=0,5 c=0,7
corte
VP
Sensibilidade 95,062 80,247 41,975
VP+FN
VN
Especificidade 19,118 51,471 85,294
VN+FP

A curva ROC é representada na seguinte figura:

A área abaixo da curva ROC é igual a 0,71, o que significa que a capacidade de
discriminação do modelo é aceitável.

21

Você também pode gostar