Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUCAO ........................................................................................................................ 2 Problema .................................................................................................................................. 2 Objetivo geral ........................................................................................................................... 2 Objetivos especficos ................................................................................................................ 2 Hiptese do estudo .................................................................................................................... 2 Metodologia.............................................................................................................................. 2 Reviso da literatura ................................................................................................................. 3 Anlise de regresso.............................................................................................................. 3 Circunstncias em que se aplica ......................................................................................... 4 Modelo de Regresso Linear Mltipla ............................................................................... 4 Pressupostos ...................................................................................................................... 4 Apresentao e Discusso dos Resultados ................................................................................. 4 Teste dos coeficientes de regresso .................................................................................... 4 Equao de regresso linear mltipla ................................................................................. 5 Analise Residual ....................................................................................................................... 5 Diagnstico de linearidade ........................................................................................................ 5 Diagnstico de Normalidade ..................................................................................................... 6 Anlise grfica da normalidade.......................................................................................... 6 Teste de Kolmogorov, Shapiro e Anderson-Darling para normalidade ............................... 6 Diagnstico de Homoscedasticidade ......................................................................................... 7 Grfico dos Resduos versus Valores Ajustados ................................................................. 7 Teste de Breusch-Pagan .................................................................................................... 8 Diagnstico de Independncia ................................................................................................... 8 Grfico dos Resduos versus a Ordem de recolha de dados ................................................ 8 Teste de Durbin-Watson .................................................................................................... 9 Diagnstico de Outlier .............................................................................................................. 9 Outliers em X .................................................................................................................... 9 Outliers em Y .................................................................................................................. 10 Resduos Padronizados .................................................................................................... 10 Resduos Studentizados ................................................................................................... 10 Anlise da falta de ajuste do modelo ....................................................................................... 11 Pontos Influentes .................................................................................................................... 11
1 DFFITS........................................................................................................................... 11 DFBETA......................................................................................................................... 11 Distncia de Cook ........................................................................................................... 11 Anlise de Colinearidade e Multicolinearidade ........................................................................ 12 Colinearidade .................................................................................................................. 13 Multicolinearidade .......................................................................................................... 13 Concluso ............................................................................................................................... 14 Bibliografia............................................................................................................................. 15 Anexos ................................................................................................................................... 18
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
INTRODUCAO
Em muitos estudos estatsticos, o objetivo estabelecer relaes que possibilitem predizer uma ou mais variveis em termos de outras. Assim que se fazem estudos para predizer as vendas futuras de um produto em funo do seu preo, a perda de peso de uma pessoa em decorrer do nmero de dias que se submete a uma determinada dieta e\ou tratamento.
Problema
Este trabalho se prope a discutir se existe correlao entre a variao do peso dos indivduos com os diferentes fatores que estes esto expostos. Sendo assim o problema de pesquisa pode ser entendido como: existe correlao entre a variao do peso e o tratamento que este foi exposto e a existncia da possvel correlao entre o peso atual e o anterior do individuo?
Objetivo geral
Para discutir o problema apresentado, este estudo tem como objetivo testar empiricamente a relao entre a variao do peso com algumas variveis do individuo.
Objetivos especficos
Os seguintes objetivos especficos foram delineados: Investigar o efeito do tratamento Fatores que possivelmente esto relacionados com esse efeito
Hiptese do estudo
A aplicao do tratamento para reduo do peso tem um efeito significativo, isto , com a submisso a um dado tratamento de dieta tende se a perder o peso consideravelmente.
Metodologia
Os dados a serem usados provm dum experimento inserido um programa diettico. A amostra contm 150 indivduos, do sexo masculino e feminino, randomizados em 3 grupos de tratamento (placebo, controle e tratamento). Todos os pacientes foram observados no incio do programa e aps 6 meses, onde o seu peso foi medido. Diversas
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
outras variveis tambm foram medidas nas ocasies de medio acima mencionados, a fim de investigar sua relao com o efeito do tratamento. Para as variveis qualitativas procedeu se com a criao das suas dummys, sendo que para a varivel tipo de tratamento tomou se por referncia o grupo de controlo e para varivel fumador foi referenciada categoria do no fumador. Geralmente, tem-se o interesse em avaliar a relao de uma varivel de interesse Y (varivel dependente ou varivel resposta) em relao a k variveis (varivel
Independente), j = 1, 2,, K. Portanto, um possvel modelo para avaliar essa relao pode ser dado por
(1)
a observao da varivel dependente para o i) um vetor de observaes das variveis ) um vetor de coeficientes
de regresso (parmetros) e "i um componente de erro aleatrio. Assume-se que esses erros so independentes e seguem distribuio normal com mdia zero e varincia desconhecida .
O modelo (1) chamado de regresso linear mltipla, pois envolve mais de um coeficiente de regresso. O adjetivo linear indica que o modelo linear em relao aos parmetros =( ), e no porque y uma funo linear dos xs.
Para fazer a anlise utilizou-se os dados dum experimento inserido num programa diettico, como auxlio de softwares estatsticos como Action, pacote estatstico livre R e M.Excell 2007. Como pressuposto de anlise partiu-se da fundamentao terica que relata a relao entre os dois pesos e o efeito do tratamento. Para mais pormenor apresentamos abaixo a discusso dos resultados e as concluses que estes nos propuseram.
Reviso da literatura
Anlise de regresso
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
A anlise de regresso aplicada para compreender a dependncia estatstica de uma varivel em relao a outras variveis. A tcnica pode mostrar que proporo de variao entre variveis se deve varivel dependente e que proporo se deve s variveis independentes. A relao entre as variveis pode ser ilustrada graficamente ou, na maioria dos casos, por via de uma equao matemtica. Circunstncias em que se aplica Esta tcnica estatstica habitualmente usada na avaliao de programas no sentido de estimar efeitos. Os efeitos lquidos do programa sob avaliao podem ser analisados com base na anlise de regresso, atribuindo parte das mudanas observadas a variveis explicativas, sendo os efeitos restantes atribudos ao programa. Modelo de Regresso Linear Mltipla Um modelo de regresso linear mltiplo (MRLM) descreve uma relao entre varias variveis independentes (explicativas) Xs e uma varivel dependente (resposta) Y, nos termos seguintes:
Onde Pressupostos
(i) Homoscedasticidade.
o erro aleatrio.
(iv) Modelo linear (v) No existir outliers (pontos atpicos) influentes (vi) No existe Colinearidade e multicolinearidade entre as variveis explicativas
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
5
Fumava 1,25189541 0,7446168 1,681261 0,094895
Interpretao a nvel de significncia de 5% pode afirmar-se que os coeficientes dos fatores sexo, tratamento, peso_antes, fumador so significativamente diferentes de zero, e os ex-fumadores no se diferem dos no fumadores, como tambm os que receberam placebo no se diferem com os de controlo em termos da variao do peso. Equao de regresso linear mltipla PESO_DEPOIS=13,4765326+0,80652027* +3,32862563* -1,0898718* 7,0188435* -2,1077327* +1,25189541*
R^2 0,8995508
INTEREPRETAO: O coeficiente de determinao ajustado (R square) igual a 0,89533, este valor indica que cerca 89,533% da variao do peso depois explicada atravs do modelo de regresso linear mltipla.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
COMENTARIO Da figura acima podemos observar que a distribuio dos resduos no segue nenhum padro, mas sim esta distribudo de forma aleatria, isto indica que o pressuposto de linearidade no foi violado.
Diagnstico de Normalidade
A normalidade dos resduos uma suposio essencial para que os resultados do ajuste do modelo de regresso linear sejam confiveis. Podemos verificar essa suposio por meio do grfico de Papel de Probabilidade e por meio de testes tais como Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov. Hiptese
COMENTARIO Como os pontos seguem o comportamento da reta (no esto distantes dela), temos indcios de que os erros so normalmente distribudos e tambm o histograma mostra uma distribuio simtrica. Teste de Kolmogorov, Shapiro e Anderson-Darling para normalidade
Teste de Normalidade Estatstica Anderson-Darling Shapiro Kolmogorov 0,504754871 0,989561491 0,053635818 P-Valor 0,200217776 0,329712745 0,36304377
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
Interpretaes Os testes acima apresentados vm complementar o resultado descrito pela anlise grfica, com base nos trs testes podemos com uma confiana de 95% dizer que os resduos seguem uma distribuio normal com media zero e varincia constante.
Diagnstico de Homoscedasticidade
Homoscedasticidade o termo para designar varincia constante dos erros para observaes diferentes. Caso a suposio de homoscedasticidade no seja vlida, podemos listar alguns efeitos no ajuste do modelo: Os erros padres dos estimadores, obtidos pelo Mtodo dos Mnimos Quadrados, so incorretos e portanto a inferncia estatstica no vlida. No podemos mais dizer que os Estimadores de Mnimos Quadrados so os melhores estimadores de mnima varincia para, embora ainda possam ser no viciados. Vale ressaltar que a ausncia de homoscedasticidade chamada de
COMENTARIO O grfico dos resduos versus valores ajustados (valores preditos) uma das principais tcnicas utilizadas para verificar as suposies dos resduos, este pela forma que os pontos esto distribudos (forma aleatria) em torno da linha central mostra que no foi violado o pressuposto de homoscedasticidade. Alm da deteo de heteroscedasticidade, esse grfico pode indicar que no existe uma relao linear entra as variveis explicativas com a varivel resposta por meio de alguma tendncia nos pontos.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
Teste de Breusch-Pagan Baseado no teste multiplicador de Lagrange, o teste de Breusch-Pagan bastante utilizado para testar a hiptese nula de que as varincias dos erros so iguais (homoscedasticidade) versus a hiptese alternativa de que as varincias dos erros so uma funo multiplicativa de uma ou mais variveis, sendo que esta(s) varivel(eis) pode(m) pertencer ou no ao modelo em questo. indicado para grandes amostras e quando a suposio de normalidade nos erros assumida.
Breusch Pagan Qui-Quadrado 0,939774035 DF 1 P-Valor 0,332335961
INTERPRETAO Em conformidade com a anlise grfica, com base no p-valor pode afirmar a nvel de significncia de 5% (p-valor=0,33> 0,05) que a varincia dos termos do erro constante.
Diagnstico de Independncia
Para verificar se os resduos so independentes, iremos utilizar tcnicas grficas e testes. A seguir, temos o diagnstico de independncia por essas duas formas. Grfico dos Resduos versus a Ordem de recolha de dados
COMENTARIO Uma anlise grfica para verificar a hiptese de independncia dos resduos pode ser feita por meio do grfico dos resduos versus a ordem da recolha dos dados. Se avaliarmos o grfico, no h uma tendncia dos pontos, ou seja, se os pontos tm um comportamento aleatrio, isto , ano seguem nenhum padro na sua distribuio em torno da linha central.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
Teste de Durbin-Watson O teste de Durbin-Watson utilizado para detetar a presena de auto-correlao (dependncia) nos resduos de uma anlise de regresso. Este teste baseado na suposio de que os erros no modelo de regresso so gerados por um processo autorregressivo de primeira ordem, de acordo com do erro do modelo na i-sima observao, e em que o termo
o parmetro de
INTERPRETAO A nvel de significncia de 5%, com base no valor p pode afirmar que h independncia entre os termos dos resduos.
Diagnstico de Outlier
Outlier uma observao extrema, ou seja, um ponto com comportamento diferente dos demais. Alm de diagnosticar heteroscedasticidade, o grfico de resduos versus valores ajustados tambm auxilia na deteo de pontos atpicos. Se um outlier for influente, ele interfere sobre a funo de regresso ajustada (a incluso ou no do ponto modifica substancialmente os valores ajustados). Mas uma observao ser considerada um outlier no quer dizer que consequentemente um ponto influente. Por isso, um ponto pode ser um outlier em relao a Y ou aos X, e pode ou no ser um ponto influente.
A deteo de pontos atpicos tem por finalidade identificar: Outlier com relao a X; Outlier com relao a Y; Observaes influentes Outliers em X Outliers em X so detetados por meio da matriz chapu H. Assim,
o i-simo
10
observao
Outliers em Y Os resduos brutos so definidos como deteo em outliers em Y, eles foram melhorados.
Resduos Padronizados Se os erros tm distribuio normal, ento aproximadamente 95% dos resduos padronizados devem estar no intervalo de (-2,2). Resduos fora desse intervalo podem indicar a presena de outliers. Resduos Studentizados Os resduos studentizados tem varincias constantes e igual a 1 o que consequentemente torna muito prtica a procura por outliers, que so observaes distantes das demais.
INTERPRETAO Com base no valor p a nvel de significncia 5% no rejeita a hiptese nula de que existem outliers. Se assim h necessidade de verificar os pontos influentes para suportar a deciso de retirada destes pontos na estimao do nosso modelo.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
11
Pontos Influentes
Um ponto influente se sua excluso do ajuste da regresso causa uma mudana substancial nos valores ajustados. Por isso, tcnicas foram desenvolvidas para identificar essas observaes influentes. DFFITS DFFITS mede a influncia que a observao i tem sobre seu prprio valor ajustado. Assim, essa tcnica mede o quanto a incluso da observao i aumenta ou diminui seu valor estimado. Dizemos que um ponto outlier influente segundo o DFFITS se >1, para amostras pequenas ou mdias. > , para amostras grandes.
DFBETA DFBETA mede a influncia da observao i sobre o coeficiente de >1, para amostras pequenas. >2 , para amostras grandes
Distncia de Cook A distncia de Cook mede a influncia da observao i sobre todos n valores ajustados
DFFITS
D-COOK
0.2 0.4
-0.2
D-COOK
0 50 100 150
DFFITS
-0.6
0.00
0
0.02
0.04
50
100
150
Observaes
Observaes
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
12
INTERPRETAO Pelos resultados das Figuras verificamos que nenhum DFFITS, D-COOK e DFBETAS , em mdulo, maior do que 1. Assim, conclumos que nenhuma observao um ponto influente. Sendo assim no havendo necessidade de excluirmos os outliers.
13
Por isso, necessrio verificar se as variveis so altamente correlacionadas. Na literatura, os termos Colinearidade (Multicolinearidade) so utilizados para indicar a existncia forte de correlao entre duas (ou mais) variveis independentes. Entretanto, alguns autores designam de Colinearidade a existncia de relao linear entre duas varivel explicativa (matriz de correlao) e de Multicolinearidade a existncia de relao linear entre uma varivel explicativa e as demais.
Colinearidade
Colinearidade PESO_ANTES PESO_ANTES SEXO Placebo Tratamento Fuma Fumava 1 0,58736943 -0,1061392 0,19839873 -0,271391 0,16853135 SEXO 0,5873694 1 -0,141535 0,1981485 -0,092883 0,0013893 Placebo -0,10614 -0,14153 1 -0,5 -0,066 -1,7E-21 Tratamento 0,198399 0,198148 -0,5 1 0,160292 -0,07362 Fuma -0,27139 -0,09288 -0,066 0,160292 1 -0,47481 Fumava 0,168531 0,001389 -1,7E-21 -0,07362 -0,47481 1
INTERPRETAAO Observando os valores da matriz acima apresentada em forma de tabela verificamos a existncia de correlao muito baixa entre as variveis explicativa, que nos leva a concluir que as variveis no so relacionadas. Multicolinearidade A multicolinearidade um problema no ajuste do modelo que pode causar impactos na estimativa dos parmetros. Vamos diagnosticar Multicolinearidade por meio do VIF (Variance Inflation Factor).
Multicolinearidade PESO_ANTES 1,706 SEXO 1,569 Placebo 1,341 Tratamento 1,437 Fuma 1,414 Fumava 1,308
INTERPRETAAO VIF mede a correlao da varivel com todas as outras do modelo, VIF> 5 ou VIF> 10 (depende dos autores) indicam problemas com estimao de devido multicolinearidade, no entanto no se verifica um VIF superior a um
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
14
Concluso
Com o uso da tcnica estatstica (analise de regresso) conseguimos verificar e medir a o grau de relao e o efeito da aplicao do tratamento na variao do peso dos indivduos. Podemos afirmar a 5% de significncia de que existe uma relao positiva entre o peso antes e depois do tratamento, sendo a maior parte da variao do peso depois explicada, pela equao de regresso que
, Onde 13,476 o valor esperado de um individuo que tinha peso zero, do sexo feminino que fez controlo e no fumador, 0,8065 a taxa de variao media do peso depois no mesmo sentido por variao unitria de peso antes mantendo outros fatores constantes, 3,3286 Representa a diferena entre a resposta mdia do sexo masculino e a resposta mdia da categoria referncia ou do sexo feminino, isto , os indivduos do sexo masculino tendem a ter maior peso que os do sexo feminino mantendo constante outros fatores;
Se mantermos os outros fatores constantes a diferena media dos indivduos que tiveram placebo como tratamento em relao ao de controlo (referencia) de -1,0897, o sinal negativo indicando que esse tipo de tratamento influencia na perda de peso quando os demais fatores forem constantes, mas com base no teste de hiptese dos coeficiente feito a nvel de significncia 5% com base no valor p = 0,078 associado a este coeficiente verifica-se que este em termos populacionais no significativamente diferente de zero, sendo assim podem, a este nvel de significncia afirmar que no existe diferena entre os que receberam placebo e os de controlo (referencia);
Para os indivduos que se submeteram ao tratamento como sua dieta apresentam uma diferena media em relao aos de controlo (referencia) de -7,02 mantendo constante os outros fatores, visto que estes tendem a perder mais peso em relao aos que receberam placebo como sua dieta, estes chegando a perder cerca de 544,03% a mais, se os outros fatores mantiverem se constantes.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
15
Os fumadores chegam a perder 2,107 kg a mais que os no fumadores (grupo de controlo ou de referencia) mantendo constante os demais fatores, diferente dos fumadores cessantes que este estaticamente a nvel de significncia 5% com base no valor p=0,094 associado a coeficiente deste, no se diferem dos no fumadores (grupo de controlo ou referencia).
Consoante nos dados acima apresentados conclumos que a submisso do tratamento tem um efeito significativo para a reduo do peso em relao ao grupo de referencia e que os fumadores tendem a perder mais peso que os que no fumam e/ou fumavam.
Bibliografia
Gujarati D. (1988) Basic Econometrics 2nd edition, New York, London:McGraw-Hill
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
16
Internet.
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
17
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582
18
Anexos
Passos a serem seguidos no suplemento Action+R no M.Excell 2007 para obteno dos outputs
Samuel orlando Nhantumbo Correio electrnico: nhantumbos@live.com.pt Cell: +258 84 52 18 145/ +258 82 93 07 582