Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressao Linear
Regressao Linear
Porcentagem imunizada
pais
Bolivia
Brasil
Camboja
Canada
China
Republica Tcheca
Egito
Etiopia
Finlandia
Franca
dpt
77
69
32
85
94
99
89
13
95
95
Grecia
India
Italia
Japao
Mexico
Polonia
Federacao Russa
Senegal
Turquia
Reino Unido
54
89
95
87
91
98
73
47
76
90
9
124
10
6
33
16
32
145
87
9
Source |
SS
df
MS
Number of obs =
20
-------------+-----------------------------F( 1, 18) = 30.10
Model | 48497.0497 1 48497.0497
Prob > F
= 0.0000
Residual | 29000.9503 18 1611.16391
R-squared = 0.6258
-------------+-----------------------------Adj R-squared = 0.6050
Total |
77498 19 4078.84211
Root MSE
= 40.139
-----------------------------------------------------------------------------mort |
Coef. Std. Err.
t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------dpt | -2.135869 .3893022 -5.49 0.000 -2.953763 -1.317976
_cons | 224.3163 31.44034 7.13 0.000 158.2626
290.37
-----------------------------------------------------------------------------O intercepto (a) deu o valor 224 e o coeficiente de regresso (b) produziu 2,14. A
equao ento ficou:
Y= a + bx
Y= 224 + (-2,14) x
A regresso usada para previso. Supondo que um determinado pas tenha
porcentagem de imunizao contra DPT de 80% qual seria a sua mortalidade infantil esperada?
Seria 52,8, conforme clculo realizado abaixo.
Y= 224 2,14 . 80
Y= 52,8
Outras perguntas que so respondidas pela regresso:
1) O quanto a variao de x influencia na variao de y?
Respondemos a esta pergunta usando o coeficiente b. Para cada variao de uma
unidade em x (porcentagem de imunizao por DPT) a taxa de mortalidade infantil em menores
de cinco anos cai 2,14.
2) Qual a probabilidade desta reduo da taxa de mortalidade em menores de cinco anos
associada imunizao ser explicada pelo acaso?
Esta pergunta respondida realizando-se um teste t para testar se o coeficiente
angular (b) diferente de zero. Se ele for zero a reta no tem inclinao alguma, ento x no
interfere em y. Neste exemplo o teste t resultou 5,49 e o valor de P extremamente baixo (o
programa fornece p=0.0000, ou seja, bem prximo de zero). Neste caso dizemos que o acaso
uma explicao pouco provvel para este fenmeno.
b=
(x
i =1
x)( y i y )
(x
i =1
x) 2
a = y bx
Pressupostos para uso da regresso linear:
1) A varivel y deve ter distribuio normal ou aproximadamente normal. Se a distribuio no
for normal pode-se realizar uma transformao.
2) A variao de x deve ser a mesma para cada valor de y (homocedasticidade). Se no houver
homocedasticidade necessrio transformar os dados.
3) Os pontos no diagrama de disperso devem apresentar tendncia linear. Se a relao for
expressa por uma curva pode-se transformar os dados para tentar linearizar a associao
ou ento usa-se outra forma de regresso no linear.
4) Os valores de y foram obtidos ao acaso da populao e so independentes uns dos outros
5) A varivel x foi medida sem erro.
Anlise de resduos:
importante, aps se realizar a regresso, testar se os pressupostos acima se aplicam
ao nosso caso. Isto se faz com a anlise dos resduos. Resduos representam a diferena entre
o valor observado de y e o que foi predito pelo modelo de regresso.
ei = y i y i
Os pontos devem ficar distribudos de forma equilibrada acima e abaixo da linha que
passe no ponto de resduo 0, formando uma nuvem retangular de pontos. Quando no h
homocedasticidade (que o caso acima), observa-se uma nuvem em forma de cone. A disperso
dos valores maior na primeira parte da distribuio. Quando a relao no for linear, observase uma nuvem curva.
Neste caso, porm existem valores atpicos, Grcia, que tem uma baixa cobertura de
DPT e uma mortalidade infantil baixa e ndia que tem alta cobertura de DPT e uma mortalidade
alta. Pode ser que a retirada de pontos extremos, com resduos altos melhore a
homocedasticidade. Entretanto s se deve retirar pontos extremos com uma boa justificativa
(erro de leitura ou anotao dos dados, problemas durante a realizao do experimento). Se
eles realmente fazem parte da realidade melhor tentar uma transformao, pois a eliminao
do ponto vai distorcer a anlise do fenmeno.
Para realizar estes clculos no Stata, digite:
predict morte
gen res=mort-morte
EXERCCIOS
Medidas de comprimento (em cm) e de peso (em gramas) de uma amostra de 20
bebs nascidos com baixo peso esto na tabela abaixo:
Comprimento
comp
41
40
38
38
38
32
33
38
34
32
39
38
39
37
39
38
42
39
38
30
Peso
peso
1360
1490
1490
1180
1200
680
620
1060
830
880
1130
1140
1350
950
1220
980
1480
1250
1250
1320
X: peso Y: comp / OK
Ou
twoway (scatter comp peso)
4) H alguma evidncia de uma relao linear entre as variveis? H algum ponto
extremo?
5) possvel, a partir do conhecimento do peso do recm-nascido prever o seu
comprimento? Usando o comprimento como varivel resposta e o peso como varivel
explicativa, faa os clculos da regresso linear.
regress comp peso
6) Quais os valores obtidos para o intercepto e para o coeficiente angular? Ao nvel de
significncia de 0.05, teste a hiptese nula de que a verdadeira inclinao da reta (b)
igual a 0. O que voc conclui?
7) Qual o comprimento estimado pelo modelo para um beb que pesou 1320 gramas?
Qual o resduo neste caso (a diferena entre o comprimento observado, no caso 30 e
o comprimento estimado pelo modelo)?
9) Apague o ponto extremo e refaa todos os clculos. O que se alterou quando voc
removeu o ponto atpico do conjunto de dados?