Você está na página 1de 8

Regresso Linear

Algumas vezes estamos interessados no apenas se existe associao entre duas


variveis quantitativas x e y, mas ns temos tambm uma hiptese a respeito de uma provvel
relao de causa e efeito entre variveis. Desejamos saber se y depende de x. Neste caso, y
chamado de varivel dependente ou varivel resposta e x chamado de varivel independente
ou explanatria que, na linguagem epidemiolgica, denominada fator de risco. Na forma de
regresso mais comumente utilizada, a regresso linear, temos a hiptese de que o valor de y
depende do valor de x e expressamos matematicamente esta relao por meio de uma equao,
assumindo que a associao entre x e y linear, ou seja, descrita adequadamente por uma reta.
Quando temos uma varivel resposta y e uma varivel explanatria x a regresso dita simples.
Quando temos uma varivel resposta y e mais de uma varivel explanatria, x1, x2, x3... a
regresso chamada mltipla.
A regresso usada basicamente com duas finalidades: de previso (prever o valor de y
a partir do valor de x) e estimar o quanto x influencia ou modifica y.
Vejamos o exemplo abaixo. No diagrama de disperso vemos que, medida em que
aumenta a porcentagem de crianas imunizadas contra DPT (difteria, coqueluche e ttano) em
amostra de 20 pases do mundo em 1992 diminui a taxa de mortalidade infantil de crianas
menores de 5 anos. Esta relao pode ser descrita razoavelmente por uma reta. Temos a
hiptese que a percentagem de imunizao contra DPT pode influenciar a mortalidade infantil,
mas desejamos medir esta associao, que pode ser descrita com a frmula:
Y=a+bx
a= coeficiente linear (tambm chamado intercepto, o valor que y assume quando x for zero)
b= coeficiente angular ( a inclinao da reta, mede o aumento ou reduo em y para cada
aumento de uma unidade em x).
Tabela 1. Porcentagem de crianas imunizadas contra DPT e taxa de mortalidade de menores
de 5 anos para 20 pases, 1992.
Pas

Porcentagem imunizada

pais
Bolivia
Brasil
Camboja
Canada
China
Republica Tcheca
Egito
Etiopia
Finlandia
Franca

dpt
77
69
32
85
94
99
89
13
95
95

Taxa de mortalidade por 1000


nascidos vivos
mort
118
65
184
8
43
12
55
208
7
9

Grecia
India
Italia
Japao
Mexico
Polonia
Federacao Russa
Senegal
Turquia
Reino Unido

54
89
95
87
91
98
73
47
76
90

9
124
10
6
33
16
32
145
87
9

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

Vamos analisar os clculos abaixo realizados no Stata, com o comando abaixo:


regress mort dpt

Source |
SS
df
MS
Number of obs =
20
-------------+-----------------------------F( 1, 18) = 30.10
Model | 48497.0497 1 48497.0497
Prob > F
= 0.0000
Residual | 29000.9503 18 1611.16391
R-squared = 0.6258
-------------+-----------------------------Adj R-squared = 0.6050
Total |
77498 19 4078.84211
Root MSE
= 40.139
-----------------------------------------------------------------------------mort |
Coef. Std. Err.
t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------dpt | -2.135869 .3893022 -5.49 0.000 -2.953763 -1.317976
_cons | 224.3163 31.44034 7.13 0.000 158.2626
290.37
-----------------------------------------------------------------------------O intercepto (a) deu o valor 224 e o coeficiente de regresso (b) produziu 2,14. A
equao ento ficou:
Y= a + bx
Y= 224 + (-2,14) x
A regresso usada para previso. Supondo que um determinado pas tenha
porcentagem de imunizao contra DPT de 80% qual seria a sua mortalidade infantil esperada?
Seria 52,8, conforme clculo realizado abaixo.
Y= 224 2,14 . 80
Y= 52,8
Outras perguntas que so respondidas pela regresso:
1) O quanto a variao de x influencia na variao de y?
Respondemos a esta pergunta usando o coeficiente b. Para cada variao de uma
unidade em x (porcentagem de imunizao por DPT) a taxa de mortalidade infantil em menores
de cinco anos cai 2,14.
2) Qual a probabilidade desta reduo da taxa de mortalidade em menores de cinco anos
associada imunizao ser explicada pelo acaso?
Esta pergunta respondida realizando-se um teste t para testar se o coeficiente
angular (b) diferente de zero. Se ele for zero a reta no tem inclinao alguma, ento x no
interfere em y. Neste exemplo o teste t resultou 5,49 e o valor de P extremamente baixo (o
programa fornece p=0.0000, ou seja, bem prximo de zero). Neste caso dizemos que o acaso
uma explicao pouco provvel para este fenmeno.

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

3) Qual o percentual de variao de y explicado pela variao de x?


Esta resposta dada pelo coeficiente de determinao. Neste exemplo, 63% da
variao de y explicado pela variao de x.
Agora que ns j vimos resumidamente por que se usa uma regresso e demos uma
olhada em um exemplo, vamos ver como se faz os clculos.
O mtodo mais usado para estimar os parmetros A e B o mtodo dos mnimos
quadrados. Este mtodo garante que a reta obtida aquela para a qual se tem as menores
distncias (ao quadrado) entre os valores observados de y e a prpria reta.

O coeficiente angular estimado pela frmula:


n

b=

(x
i =1

x)( y i y )

(x
i =1

x) 2

O intercepto estimado pela frmula:

a = y bx
Pressupostos para uso da regresso linear:
1) A varivel y deve ter distribuio normal ou aproximadamente normal. Se a distribuio no
for normal pode-se realizar uma transformao.
2) A variao de x deve ser a mesma para cada valor de y (homocedasticidade). Se no houver
homocedasticidade necessrio transformar os dados.
3) Os pontos no diagrama de disperso devem apresentar tendncia linear. Se a relao for
expressa por uma curva pode-se transformar os dados para tentar linearizar a associao
ou ento usa-se outra forma de regresso no linear.
4) Os valores de y foram obtidos ao acaso da populao e so independentes uns dos outros
5) A varivel x foi medida sem erro.
Anlise de resduos:
importante, aps se realizar a regresso, testar se os pressupostos acima se aplicam
ao nosso caso. Isto se faz com a anlise dos resduos. Resduos representam a diferena entre
o valor observado de y e o que foi predito pelo modelo de regresso.

ei = y i y i

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

A primeira forma de se avaliar resduos plotar um grfico no qual os resduos ( y y )


so colocados no eixo vertical (y) e os valores esperados de y ( y ) no eixo horizontal (x).

Os pontos devem ficar distribudos de forma equilibrada acima e abaixo da linha que
passe no ponto de resduo 0, formando uma nuvem retangular de pontos. Quando no h
homocedasticidade (que o caso acima), observa-se uma nuvem em forma de cone. A disperso
dos valores maior na primeira parte da distribuio. Quando a relao no for linear, observase uma nuvem curva.
Neste caso, porm existem valores atpicos, Grcia, que tem uma baixa cobertura de
DPT e uma mortalidade infantil baixa e ndia que tem alta cobertura de DPT e uma mortalidade
alta. Pode ser que a retirada de pontos extremos, com resduos altos melhore a
homocedasticidade. Entretanto s se deve retirar pontos extremos com uma boa justificativa
(erro de leitura ou anotao dos dados, problemas durante a realizao do experimento). Se
eles realmente fazem parte da realidade melhor tentar uma transformao, pois a eliminao
do ponto vai distorcer a anlise do fenmeno.
Para realizar estes clculos no Stata, digite:
predict morte
gen res=mort-morte

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

gen str5 letra = substr(pais,1,5)


twoway scatter res morte, mlabel(letra)
O grfico dos resduos versus cada varivel explanatria tambm muito elucidativo
para testar os pressupostos do modelo. A presena de uma relao curvilinear, por exemplo,
sugere que a adio de um termo quadrtico varivel explanatria deve ser adicionado ao
modelo.
rvpplot dpt, mlabel(letra)
O grfico de probabilidade normal dos resduos tambm muito til. Depois que toda a
varivel sistemtica for removida do modelo, os resduos devem ter distribuio normal.
pnorm res

EXERCCIOS
Medidas de comprimento (em cm) e de peso (em gramas) de uma amostra de 20
bebs nascidos com baixo peso esto na tabela abaixo:
Comprimento
comp
41
40
38
38
38
32
33
38
34
32
39
38
39
37
39
38
42
39
38
30

Peso
peso
1360
1490
1490
1180
1200
680
620
1060
830
880
1130
1140
1350
950
1220
980
1480
1250
1250
1320

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

1) Primeiro digite os dados acima no Stata.


2) Verifique se as variveis tm distribuio normal ou se h valores extremos. Plote o
histograma, o Box-plot e o grfico da probabilidade normal para cada varivel.
Explore o menu Graphics do Stata.
Graphics / Histogram / Variable: peso / OK
Graphics / Box Plot / Variable: comp / OK
Graphics / Distributional Graphs / Normal quantile plot / Variable: peso / OK
Alternativamente voc poderia digitar:
histogram peso
graph box peso, medtype(line)
qnorm peso

3) Construa um grfico de disperso bidimensional do peso (x) versus o comprimento (y)


e avalie se esta relao pode ser descrita por uma reta.
Graphics / Twoway graphs / Type: scatter

X: peso Y: comp / OK

Ou
twoway (scatter comp peso)
4) H alguma evidncia de uma relao linear entre as variveis? H algum ponto
extremo?
5) possvel, a partir do conhecimento do peso do recm-nascido prever o seu
comprimento? Usando o comprimento como varivel resposta e o peso como varivel
explicativa, faa os clculos da regresso linear.
regress comp peso
6) Quais os valores obtidos para o intercepto e para o coeficiente angular? Ao nvel de
significncia de 0.05, teste a hiptese nula de que a verdadeira inclinao da reta (b)
igual a 0. O que voc conclui?
7) Qual o comprimento estimado pelo modelo para um beb que pesou 1320 gramas?
Qual o resduo neste caso (a diferena entre o comprimento observado, no caso 30 e
o comprimento estimado pelo modelo)?

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

8) O modelo de regresso de mnimos quadrados parece se ajustar aos dados


observados? Comente os coeficientes de determinao e o grfico dos resduos
versus os valores ajustados do comprimento, o grfico dos resduos versus a varivel
explanatria e o grfico da probabilidade normal dos resduos.
rvfplot
rvpplot peso
pnorm res

9) Apague o ponto extremo e refaa todos os clculos. O que se alterou quando voc
removeu o ponto atpico do conjunto de dados?

Ps-Graduao em Sade Coletiva UFMA Mtodos Estatsticos em Epidemiologia

Você também pode gostar