Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Ou seja,
n
l π iyi 1 i
1 yi
i 1
n
Lπ ln l π y i ln i 1 y i ln 1 i
i 1
2
A função de verosimilhança pode ser escrita em função dos β parâmetros a
A interpretação dos coeficientes estimados e da razão de odds vai ser feita para
o caso de um modelo com 2 variáveis explicativas, uma discreta com duas
modalidades, X1, e uma contínua, X2. Este exemplo serve de base para se
analisarem posteriormente situações mais complexas. À variável X1 (nominal
com duas modalidades) corresponde uma variável dummy, D1, que é igual a 1
ou igual a 0. Neste caso, o modelo de regressão logística, com variável
dependente Y (Y=1 ou Y=0), termo constante e variáveis explicativas D1 e X2 é
definido da seguinte forma:
3
Para interpretar o coeficiente associado à variável dummy, 1, é necessário
determinar e , cujas expressões são dadas por:
y=1
y=0
Total 1 1
4
O odds, para os indivíduos relativamente aos quais , é dado por
, ou seja, é dado pelo quociente entre a probabilidade
de sucesso e a probabilidade de insucesso. Para os indivíduos com ,o
odds é dado por . O odds ratio, ou razão de odds, OR,
é dado pela seguinte equação:
5
certas circunstâncias, esta quantidade representa uma boa aproximação do
risco relativo. O risco relativo é igual ao rácio . Como tal, o odds ratio
para X = 1 e X = 0.
6
g ( D1 , X 2 )
2
X 2
ˆ j
~ N 0,1
a
T
var ˆ j
rejeitar H 0 se T z
, onde z
1
e é a função de
1
2 1 2 2
8
5.4.2 Intervalos de Confiança
Exemplo 5.1: Foi realizado um estudo transversal entre Junho de 2006 e Julho
de 2007, com 667 crianças com idades compreendidas entre os 5 e os 16 anos,
com o objectivo de determinar a prevalência de geohelmintos em crianças
escolares de bairros com diferentes condições de saneamento e abastecimento
de água. Para estudar a associação entre a positividade do exame
parasitológico de fezes e as diferentes variáveis estudadas, foi utilizado o odds
ratio. A variável dependente é, então:
9
Y: resultado do exame parasitológico de fezes
onde ;
Para cada uma das variáveis explicativas, interessa calcular a razão de odds e
o respectivo intervalo de confiança. Como vimos, para a variável explicativa Xj,
10
Tomemos como exemplo a variável “Compra do lanche”. Através do p-value
obtido (p = 0,007 < 0,05), podemos admitir que o local de compra do lanche tem
uma influência estatisticamente significativa sobre a probabilidade de ter o
exame parasitológico positivo, P(Y = 1). Verificando o valor de OR obtido (OR =
0,33 < 1), podemos dizer que a variável explicativa influencia de forma negativa
o odds de ter o exame positivo (de facto, o intervalo de confiança a 95% para o
OR não contém o valor 1: (0,13-0,81)). Assim, os resultados sugerem que
quando a criança compra o lanche fora da escola, em vez de o comprar na
cantina (variável passa de 0 para 1), mantendo-se todas as
restantes variáveis constantes, o odds de ter o exame positivo diminui (1-
0,33)x100 = 66%.
Exemplo 5.2: Com base numa amostra recolhida no Hospital Garcia de Orta
entre 1994 e 1998 referente a 196 bebés que nasceram com menos de 1500g e
que, durante os primeiros 5 anos de vida, foram consultados na unidade de
cuidados intensivos neo-natais do mesmo hospital, foi estimado, pelo método
da máxima verosimilhança, o modelo de regressão logística relativo aos
factores determinantes da probabilidade do bebé, que nasceu com baixo peso à
nascença, ter dificuldades de desenvolvimento. Os resultados obtidos foram os
seguintes:
11
Desvio- Teste de
Variáveis Explicativas p-value
padrão Wald
Escolaridade Materna
EM 9-12 0,6991 4,048 0,3045 5,2710 0,0217
Idade Materna
IM19 0,2125 1,529 0,4028 0,2781 0,5979
Sexo
Masculino 0,3962 2,209 0,199 3,9630 0,0465
Cuidados na gravidez
Não vigiada 0,2012 1,495 0,4143 0,2358 0,6273
Raça
Não
0,2373 1,607 0,2949 0,6474 0,421
caucasiana
Responsável pelo
bebé
-0,1452 0,748 0,3905 0,1382 0,71
Outros
Peso à nascença
P<1000g 0,4173 2,304 0,2062 4,0978 0,0429
Problemas Sociais
Sim 0,1408 1,325 0,3147 0,2002 0,6545
Idade materna (IM). Esta variável foi medida em anos completos na altura
do parto e agregada em 4 classes, às quais correspondem 4 variáveis
12
dummy: entre 15 e 19 anos (IM<19) , de 20 a 24 anos (IM20-24), de 25 a 29
anos (IM25-39) e mais de 30 anos (IM>30). A modalidade de referência é
IM20-24.
Sexo. É uma variável dummy que assume o valor 1 se a criança é do sexo
masculino e 0 caso contrário.
A variável gravidez vigiada tem em conta o número de consultas da mãe ao
longo da gravidez. Como gravidez não vigiada considerámos as grávidas
que tiveram 2 ou menos consultas. Cuidados na Gravidez é uma variável
que assume o valor de 1 quando a gravidez em causa não foi vigiada e 0
caso contrário.
A raça é uma variável dummy que assume o valor 1 quando a criança não é
caucasiana e 0 caso contrário.
Responsável pelo bebé. É uma variável que diz respeito a quem tem a
responsabilidade de tomar conta do bebé. Podem ser os pais ou outras
pessoas (avós, amas, instituições de acolhimento). A modalidade de
referência é a relativa aos pais.
O peso à nascença foi agregado em duas classes: peso inferior e superior
a 1kg, sendo a modalidade de referência o peso superior a 1kg.
A variável problema social foi dividida em duas classes: existência de
problemas sociais ou não existência de problemas sociais na família do
recém-nascido. A modalidade de referência é a não existência de problemas
sociais. Estão incluídos nos problemas sociais, situações de:
toxicodependência, mãe e/ou pai seropositivo, álcool, prostituição,
desemprego, emprego precário, conflito familiar grave, prisão, bebé para
adopção, pais imigrantes não legalizados.
13
A interpretação da razão de odds vai ser efectuada apenas para as variáveis
que se revelaram significativas para explicar o modelo. Como se pode constatar
na tabela, um bebé, cuja mãe tem um nível de escolaridade inferior a 9 anos
quando comparado com um bebé cuja mãe tem um nível de escolaridade
superior a 12 anos (classe de referência), tem uma probabilidade 7,7 vezes
superior de sofrer atrasos no desenvolvimento, e tudo o resto constante. Ou,
dito de outra forma, o odds de sucesso quando a variável dummy passa de
0 (mãe com escolaridade superior a 12 anos) para 1 (mãe com
escolaridade inferior a 9 anos) aumenta (7,7– 1)100%, isto é, aumenta
670%.
14
intervalos também podem ser determinados ordenando os n valores ˆ i ,
Sejam:
s
n j 1
nj ;
j ̂ n nj
i 1 ji j e ˆ ji é a probabilidade estimada correspondente à i-
s o ej
2 s o n j j
2
a
~ s22
2 j j
n j j 1 j
(38)
e
HL
j 1 j 1
e j 1 j
nj
15
regressão logística, para um determinado ponto de corte (cutoff). O valor do
ponto de corte mais usual é 0,50.
TIPO DE
VALORES PREVISTOS
SANGUE
INSUCESSO SUCESSO
̂ i pc ̂ i pc
INSUCESSO
n00 (VN) n10 (FP)
Yi 0
VALORES
OBSERVADOS
SUCESSO
n01 (FN) n11 (VP)
Yi 1
16
A observação i, de acordo com o modelo, é colocada na categoria
dos insucessos, não estando esta classificação correcta em relação
ao valor observado. Estamos perante falsos negativos (FN).
FP FN n n01
100% 10 100% .
VP FP VN FN n
VP VN n n
100% 11 00 100% .
VP FP VN FN n
VP n11
.
VP FN n11 n01
17
A probabilidade de uma observação i, para um dado valor de corte,
ser classificada como pertencente à categoria dos insucessos,
sendo-o de facto, Pˆ i pc | Yi 0 , é denominada especificidade. A
VN n00
.
VN FP n00 n10
FN n01
1 .
VP FN n11 n01
FP n10
2 .
VN FP n00 n10
18
verdadeiros positivos (correspondente à sensibilidade do modelo) e a
fracção de falsos positivos (correspondente ao erro de tipo II, ou seja, ao
complementar da especificidade do modelo), obtidas para os diferentes
valores de corte.
Assim, fazendo variar o ponto de corte entre 0 e 1, para que assuma todos
os valores possíveis, a curva ROC é produzida pelos correspondentes
pontos de coordenadas:
VP
VP FN
19
que o valor de 1 significa um modelo perfeito, enquanto uma área em redor
de 0,5 indica uma fraca capacidade de aderência aos dados (modelo
aleatório). Ou, dito de outra forma, a área delimitada pela curva mede a
capacidade de discriminação do modelo, isto é, a capacidade do modelo
classificar correctamente os indivíduos pertencentes à categoria dos
insucessos e os indivíduos pertencentes à categoria dos sucessos. É
habitual considerarem-se os valores da área sob a curva, AUC (Area Under
the ROC Curve), evidenciados no quadro 5.3, para aferir a capacidade de
discriminação do modelo.
VALORES COMENTÁRIOS
Valores observados
Não tem
Tem dificuldades
dificuldades
20
A sensibilidade e especificidade para os 3 pontos de corte são dadas por:
Ponto de
c=0,3 c=0,5 c=0,7
corte
VP
Sensibilidade 95,062 80,247 41,975
VP+FN
VN
Especificidade 19,118 51,471 85,294
VN+FP
A área abaixo da curva ROC é igual a 0,71, o que significa que a capacidade de
discriminação do modelo é aceitável.
21