Você está na página 1de 19

ndice

INTRODUCAO ........................................................................................................................ 2 Problema .................................................................................................................................. 2 Objetivo geral ........................................................................................................................... 2 Objetivos especficos ................................................................................................................ 2 Hiptese do estudo .................................................................................................................... 2 Metodologia.............................................................................................................................. 2 Reviso da literatura ................................................................................................................. 3 Anlise de regresso.............................................................................................................. 3 Circunstncias em que se aplica ......................................................................................... 4 Modelo de Regresso Linear Mltipla ............................................................................... 4 Pressupostos ...................................................................................................................... 4 Apresentao e Discusso dos Resultados ................................................................................. 4 Teste dos coeficientes de regresso .................................................................................... 4 Equao de regresso linear mltipla ................................................................................. 5 Analise Residual ....................................................................................................................... 5 Diagnstico de linearidade ........................................................................................................ 5 Diagnstico de Normalidade ..................................................................................................... 6 Anlise grfica da normalidade.......................................................................................... 6 Teste de Kolmogorov, Shapiro e Anderson-Darling para normalidade ............................... 6 Diagnstico de Homoscedasticidade ......................................................................................... 7 Grfico dos Resduos versus Valores Ajustados ................................................................. 7 Teste de Breusch-Pagan .................................................................................................... 8 Diagnstico de Independncia ................................................................................................... 8 Grfico dos Resduos versus a Ordem de recolha de dados ................................................ 8 Teste de Durbin-Watson .................................................................................................... 9 Diagnstico de Outlier .............................................................................................................. 9 Outliers em X .................................................................................................................... 9 Outliers em Y .................................................................................................................. 10 Resduos Padronizados .................................................................................................... 10 Resduos Studentizados ................................................................................................... 10 Anlise da falta de ajuste do modelo ....................................................................................... 11 Pontos Influentes .................................................................................................................... 11

1 DFFITS........................................................................................................................... 11 DFBETA......................................................................................................................... 11 Distncia de Cook ........................................................................................................... 11 Anlise de Colinearidade e Multicolinearidade ........................................................................ 12 Colinearidade .................................................................................................................. 13 Multicolinearidade .......................................................................................................... 13 Concluso ............................................................................................................................... 14 Bibliografia............................................................................................................................. 15 Anexos ................................................................................................................................... 18

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

INTRODUCAO
Em muitos estudos estatsticos, o objetivo estabelecer relaes que possibilitem predizer uma ou mais variveis em termos de outras. Assim que se fazem estudos para predizer as vendas futuras de um produto em funo do seu preo, a perda de peso de uma pessoa em decorrer do nmero de dias que se submete a uma determinada dieta e\ou tratamento.

Problema
Este trabalho se prope a discutir se existe correlao entre a variao do peso dos indivduos com os diferentes fatores que estes esto expostos. Sendo assim o problema de pesquisa pode ser entendido como: existe correlao entre a variao do peso e o tratamento que este foi exposto e a existncia da possvel correlao entre o peso atual e o anterior do individuo?

Objetivo geral
Para discutir o problema apresentado, este estudo tem como objetivo testar empiricamente a relao entre a variao do peso com algumas variveis do individuo.

Objetivos especficos
Os seguintes objetivos especficos foram delineados: Investigar o efeito do tratamento Fatores que possivelmente esto relacionados com esse efeito

Hiptese do estudo
A aplicao do tratamento para reduo do peso tem um efeito significativo, isto , com a submisso a um dado tratamento de dieta tende se a perder o peso consideravelmente.

Metodologia
Os dados a serem usados provm dum experimento inserido um programa diettico. A amostra contm 150 indivduos, do sexo masculino e feminino, randomizados em 3 grupos de tratamento (placebo, controle e tratamento). Todos os pacientes foram observados no incio do programa e aps 6 meses, onde o seu peso foi medido. Diversas
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

outras variveis tambm foram medidas nas ocasies de medio acima mencionados, a fim de investigar sua relao com o efeito do tratamento. Para as variveis qualitativas procedeu se com a criao das suas dummys, sendo que para a varivel tipo de tratamento tomou se por referncia o grupo de controlo e para varivel fumador foi referenciada categoria do no fumador. Geralmente, tem-se o interesse em avaliar a relao de uma varivel de interesse Y (varivel dependente ou varivel resposta) em relao a k variveis (varivel

Independente), j = 1, 2,, K. Portanto, um possvel modelo para avaliar essa relao pode ser dado por

(1)

Em que, n o nmero de indivduos, simo indivduo, = ( , .

a observao da varivel dependente para o i) um vetor de observaes das variveis ) um vetor de coeficientes

independentes para o i-simo indivduo, =(

de regresso (parmetros) e "i um componente de erro aleatrio. Assume-se que esses erros so independentes e seguem distribuio normal com mdia zero e varincia desconhecida .

O modelo (1) chamado de regresso linear mltipla, pois envolve mais de um coeficiente de regresso. O adjetivo linear indica que o modelo linear em relao aos parmetros =( ), e no porque y uma funo linear dos xs.

Para fazer a anlise utilizou-se os dados dum experimento inserido num programa diettico, como auxlio de softwares estatsticos como Action, pacote estatstico livre R e M.Excell 2007. Como pressuposto de anlise partiu-se da fundamentao terica que relata a relao entre os dois pesos e o efeito do tratamento. Para mais pormenor apresentamos abaixo a discusso dos resultados e as concluses que estes nos propuseram.

Reviso da literatura
Anlise de regresso
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

A anlise de regresso aplicada para compreender a dependncia estatstica de uma varivel em relao a outras variveis. A tcnica pode mostrar que proporo de variao entre variveis se deve varivel dependente e que proporo se deve s variveis independentes. A relao entre as variveis pode ser ilustrada graficamente ou, na maioria dos casos, por via de uma equao matemtica. Circunstncias em que se aplica Esta tcnica estatstica habitualmente usada na avaliao de programas no sentido de estimar efeitos. Os efeitos lquidos do programa sob avaliao podem ser analisados com base na anlise de regresso, atribuindo parte das mudanas observadas a variveis explicativas, sendo os efeitos restantes atribudos ao programa. Modelo de Regresso Linear Mltipla Um modelo de regresso linear mltiplo (MRLM) descreve uma relao entre varias variveis independentes (explicativas) Xs e uma varivel dependente (resposta) Y, nos termos seguintes:

Onde Pressupostos
(i) Homoscedasticidade.

so constantes (parmetros) desconhecidas e

o erro aleatrio.

(ii) Os erros so no correlacionados (independncia) (iii) ~iddN (0, )

(iv) Modelo linear (v) No existir outliers (pontos atpicos) influentes (vi) No existe Colinearidade e multicolinearidade entre as variveis explicativas

Apresentao e Discusso dos Resultados


Teste dos coeficientes de regresso
Coeficientes Preditor Intercepto PESO_ANTES SEXO Placebo Tratamento Fuma Estimativa 13,4765326 0,80652027 3,32862563 -1,0898718 -7,0188435 -2,1077327 Desvio Padro 2,7351833 0,0354306 0,6270759 0,6143492 0,6360836 0,5948527 Estat. T 4,927104 22,7634 5,30817 -1,77403 -11,0345 -3,54328 P-valor 2,28E-06 2,14E-49 4,13E-07 0,078187 7,27E-21 0,000534

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

5
Fumava 1,25189541 0,7446168 1,681261 0,094895

Interpretao a nvel de significncia de 5% pode afirmar-se que os coeficientes dos fatores sexo, tratamento, peso_antes, fumador so significativamente diferentes de zero, e os ex-fumadores no se diferem dos no fumadores, como tambm os que receberam placebo no se diferem com os de controlo em termos da variao do peso. Equao de regresso linear mltipla PESO_DEPOIS=13,4765326+0,80652027* +3,32862563* -1,0898718* 7,0188435* -2,1077327* +1,25189541*

PESO_ANTES= Placebo= Fuma=

Sexo= Tratamento= Fumava=

Desvio Padro dos Resduos 3,063344308

Graus de Liberdade 143

R^2 0,8995508

R^2 Ajustado 0,895336199

INTEREPRETAO: O coeficiente de determinao ajustado (R square) igual a 0,89533, este valor indica que cerca 89,533% da variao do peso depois explicada atravs do modelo de regresso linear mltipla.

Analise Residual Diagnstico de linearidade

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

COMENTARIO Da figura acima podemos observar que a distribuio dos resduos no segue nenhum padro, mas sim esta distribudo de forma aleatria, isto indica que o pressuposto de linearidade no foi violado.

Diagnstico de Normalidade
A normalidade dos resduos uma suposio essencial para que os resultados do ajuste do modelo de regresso linear sejam confiveis. Podemos verificar essa suposio por meio do grfico de Papel de Probabilidade e por meio de testes tais como Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov. Hiptese

Anlise grfica da normalidade

Fig. Histograma e o grfico de Papel de Probabilidade para os resduos do modelo linear

COMENTARIO Como os pontos seguem o comportamento da reta (no esto distantes dela), temos indcios de que os erros so normalmente distribudos e tambm o histograma mostra uma distribuio simtrica. Teste de Kolmogorov, Shapiro e Anderson-Darling para normalidade
Teste de Normalidade Estatstica Anderson-Darling Shapiro Kolmogorov 0,504754871 0,989561491 0,053635818 P-Valor 0,200217776 0,329712745 0,36304377

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

Interpretaes Os testes acima apresentados vm complementar o resultado descrito pela anlise grfica, com base nos trs testes podemos com uma confiana de 95% dizer que os resduos seguem uma distribuio normal com media zero e varincia constante.

Diagnstico de Homoscedasticidade
Homoscedasticidade o termo para designar varincia constante dos erros para observaes diferentes. Caso a suposio de homoscedasticidade no seja vlida, podemos listar alguns efeitos no ajuste do modelo: Os erros padres dos estimadores, obtidos pelo Mtodo dos Mnimos Quadrados, so incorretos e portanto a inferncia estatstica no vlida. No podemos mais dizer que os Estimadores de Mnimos Quadrados so os melhores estimadores de mnima varincia para, embora ainda possam ser no viciados. Vale ressaltar que a ausncia de homoscedasticidade chamada de

heteroscedasticidade. Grfico dos Resduos versus Valores Ajustados

COMENTARIO O grfico dos resduos versus valores ajustados (valores preditos) uma das principais tcnicas utilizadas para verificar as suposies dos resduos, este pela forma que os pontos esto distribudos (forma aleatria) em torno da linha central mostra que no foi violado o pressuposto de homoscedasticidade. Alm da deteo de heteroscedasticidade, esse grfico pode indicar que no existe uma relao linear entra as variveis explicativas com a varivel resposta por meio de alguma tendncia nos pontos.

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

Teste de Breusch-Pagan Baseado no teste multiplicador de Lagrange, o teste de Breusch-Pagan bastante utilizado para testar a hiptese nula de que as varincias dos erros so iguais (homoscedasticidade) versus a hiptese alternativa de que as varincias dos erros so uma funo multiplicativa de uma ou mais variveis, sendo que esta(s) varivel(eis) pode(m) pertencer ou no ao modelo em questo. indicado para grandes amostras e quando a suposio de normalidade nos erros assumida.
Breusch Pagan Qui-Quadrado 0,939774035 DF 1 P-Valor 0,332335961

INTERPRETAO Em conformidade com a anlise grfica, com base no p-valor pode afirmar a nvel de significncia de 5% (p-valor=0,33> 0,05) que a varincia dos termos do erro constante.

Diagnstico de Independncia
Para verificar se os resduos so independentes, iremos utilizar tcnicas grficas e testes. A seguir, temos o diagnstico de independncia por essas duas formas. Grfico dos Resduos versus a Ordem de recolha de dados

COMENTARIO Uma anlise grfica para verificar a hiptese de independncia dos resduos pode ser feita por meio do grfico dos resduos versus a ordem da recolha dos dados. Se avaliarmos o grfico, no h uma tendncia dos pontos, ou seja, se os pontos tm um comportamento aleatrio, isto , ano seguem nenhum padro na sua distribuio em torno da linha central.

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

Teste de Durbin-Watson O teste de Durbin-Watson utilizado para detetar a presena de auto-correlao (dependncia) nos resduos de uma anlise de regresso. Este teste baseado na suposio de que os erros no modelo de regresso so gerados por um processo autorregressivo de primeira ordem, de acordo com do erro do modelo na i-sima observao, e em que o termo

o parmetro de

auto-correlao. Testamos a presena de auto-correlao por meio das hipteses

Teste de Independncia DW 2,457609819 P-Valor 0,996238551

INTERPRETAO A nvel de significncia de 5%, com base no valor p pode afirmar que h independncia entre os termos dos resduos.

Diagnstico de Outlier
Outlier uma observao extrema, ou seja, um ponto com comportamento diferente dos demais. Alm de diagnosticar heteroscedasticidade, o grfico de resduos versus valores ajustados tambm auxilia na deteo de pontos atpicos. Se um outlier for influente, ele interfere sobre a funo de regresso ajustada (a incluso ou no do ponto modifica substancialmente os valores ajustados). Mas uma observao ser considerada um outlier no quer dizer que consequentemente um ponto influente. Por isso, um ponto pode ser um outlier em relao a Y ou aos X, e pode ou no ser um ponto influente.

A deteo de pontos atpicos tem por finalidade identificar: Outlier com relao a X; Outlier com relao a Y; Observaes influentes Outliers em X Outliers em X so detetados por meio da matriz chapu H. Assim,

o i-simo

elemento da diagonal principal da matriz H e tambm chamado de leverage da


Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

10

observao

Outliers em Y Os resduos brutos so definidos como deteo em outliers em Y, eles foram melhorados.

. Entretanto, para uma melhor

Resduos Padronizados Se os erros tm distribuio normal, ento aproximadamente 95% dos resduos padronizados devem estar no intervalo de (-2,2). Resduos fora desse intervalo podem indicar a presena de outliers. Resduos Studentizados Os resduos studentizados tem varincias constantes e igual a 1 o que consequentemente torna muito prtica a procura por outliers, que so observaes distantes das demais.

Teste de Outliers Observaes 113 T-Valor 2,789462 P-valorBonferroni 0,900709263

INTERPRETAO Com base no valor p a nvel de significncia 5% no rejeita a hiptese nula de que existem outliers. Se assim h necessidade de verificar os pontos influentes para suportar a deciso de retirada destes pontos na estimao do nosso modelo.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

11

Anlise da falta de ajuste do modelo


No existem rplicas.

Pontos Influentes
Um ponto influente se sua excluso do ajuste da regresso causa uma mudana substancial nos valores ajustados. Por isso, tcnicas foram desenvolvidas para identificar essas observaes influentes. DFFITS DFFITS mede a influncia que a observao i tem sobre seu prprio valor ajustado. Assim, essa tcnica mede o quanto a incluso da observao i aumenta ou diminui seu valor estimado. Dizemos que um ponto outlier influente segundo o DFFITS se >1, para amostras pequenas ou mdias. > , para amostras grandes.

DFBETA DFBETA mede a influncia da observao i sobre o coeficiente de >1, para amostras pequenas. >2 , para amostras grandes

Distncia de Cook A distncia de Cook mede a influncia da observao i sobre todos n valores ajustados

DFFITS

D-COOK

0.2 0.4

-0.2

D-COOK
0 50 100 150

DFFITS

-0.6

0.00
0

0.02

0.04

50

100

150

Observaes

Observaes

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

12

Fig. Grficos com os valores de DFFITS, D-COOK e DFBETAS

INTERPRETAO Pelos resultados das Figuras verificamos que nenhum DFFITS, D-COOK e DFBETAS , em mdulo, maior do que 1. Assim, conclumos que nenhuma observao um ponto influente. Sendo assim no havendo necessidade de excluirmos os outliers.

Anlise de Colinearidade e Multicolinearidade


Quando trabalhamos com mais de uma varivel regressora, muito importante verificar se essas variveis explicativas so correlacionadas. Desta forma, se no houver nenhum relacionamento entre elas, dizemos que so ortogonais. Se as variveis forem muito correlacionadas, as inferncias baseadas no modelo de regresso podem ser errneas ou pouco confiveis.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

13

Por isso, necessrio verificar se as variveis so altamente correlacionadas. Na literatura, os termos Colinearidade (Multicolinearidade) so utilizados para indicar a existncia forte de correlao entre duas (ou mais) variveis independentes. Entretanto, alguns autores designam de Colinearidade a existncia de relao linear entre duas varivel explicativa (matriz de correlao) e de Multicolinearidade a existncia de relao linear entre uma varivel explicativa e as demais.

Colinearidade
Colinearidade PESO_ANTES PESO_ANTES SEXO Placebo Tratamento Fuma Fumava 1 0,58736943 -0,1061392 0,19839873 -0,271391 0,16853135 SEXO 0,5873694 1 -0,141535 0,1981485 -0,092883 0,0013893 Placebo -0,10614 -0,14153 1 -0,5 -0,066 -1,7E-21 Tratamento 0,198399 0,198148 -0,5 1 0,160292 -0,07362 Fuma -0,27139 -0,09288 -0,066 0,160292 1 -0,47481 Fumava 0,168531 0,001389 -1,7E-21 -0,07362 -0,47481 1

INTERPRETAAO Observando os valores da matriz acima apresentada em forma de tabela verificamos a existncia de correlao muito baixa entre as variveis explicativa, que nos leva a concluir que as variveis no so relacionadas. Multicolinearidade A multicolinearidade um problema no ajuste do modelo que pode causar impactos na estimativa dos parmetros. Vamos diagnosticar Multicolinearidade por meio do VIF (Variance Inflation Factor).
Multicolinearidade PESO_ANTES 1,706 SEXO 1,569 Placebo 1,341 Tratamento 1,437 Fuma 1,414 Fumava 1,308

INTERPRETAAO VIF mede a correlao da varivel com todas as outras do modelo, VIF> 5 ou VIF> 10 (depende dos autores) indicam problemas com estimao de devido multicolinearidade, no entanto no se verifica um VIF superior a um

desses valores, que significa que no h multicolinearidade das variveis explicativas.

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

14

Concluso
Com o uso da tcnica estatstica (analise de regresso) conseguimos verificar e medir a o grau de relao e o efeito da aplicao do tratamento na variao do peso dos indivduos. Podemos afirmar a 5% de significncia de que existe uma relao positiva entre o peso antes e depois do tratamento, sendo a maior parte da variao do peso depois explicada, pela equao de regresso que

PESO_DEPOIS=13,4765326+0,80652027* +3,32862563* -1,0898718* 7,0188435* -2,1077327* +1,25189541*

, Onde 13,476 o valor esperado de um individuo que tinha peso zero, do sexo feminino que fez controlo e no fumador, 0,8065 a taxa de variao media do peso depois no mesmo sentido por variao unitria de peso antes mantendo outros fatores constantes, 3,3286 Representa a diferena entre a resposta mdia do sexo masculino e a resposta mdia da categoria referncia ou do sexo feminino, isto , os indivduos do sexo masculino tendem a ter maior peso que os do sexo feminino mantendo constante outros fatores;

Se mantermos os outros fatores constantes a diferena media dos indivduos que tiveram placebo como tratamento em relao ao de controlo (referencia) de -1,0897, o sinal negativo indicando que esse tipo de tratamento influencia na perda de peso quando os demais fatores forem constantes, mas com base no teste de hiptese dos coeficiente feito a nvel de significncia 5% com base no valor p = 0,078 associado a este coeficiente verifica-se que este em termos populacionais no significativamente diferente de zero, sendo assim podem, a este nvel de significncia afirmar que no existe diferena entre os que receberam placebo e os de controlo (referencia);

Para os indivduos que se submeteram ao tratamento como sua dieta apresentam uma diferena media em relao aos de controlo (referencia) de -7,02 mantendo constante os outros fatores, visto que estes tendem a perder mais peso em relao aos que receberam placebo como sua dieta, estes chegando a perder cerca de 544,03% a mais, se os outros fatores mantiverem se constantes.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

15

Os fumadores chegam a perder 2,107 kg a mais que os no fumadores (grupo de controlo ou de referencia) mantendo constante os demais fatores, diferente dos fumadores cessantes que este estaticamente a nvel de significncia 5% com base no valor p=0,094 associado a coeficiente deste, no se diferem dos no fumadores (grupo de controlo ou referencia).

Consoante nos dados acima apresentados conclumos que a submisso do tratamento tem um efeito significativo para a reduo do peso em relao ao grupo de referencia e que os fumadores tendem a perder mais peso que os que no fumam e/ou fumavam.

Bibliografia
Gujarati D. (1988) Basic Econometrics 2nd edition, New York, London:McGraw-Hill
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

16

Internet.

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

17

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

18

Anexos
Passos a serem seguidos no suplemento Action+R no M.Excell 2007 para obteno dos outputs

Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582

Você também pode gostar