Escolar Documentos
Profissional Documentos
Cultura Documentos
Roteiro Estatstico
C ONTEDO
I - INTRODUO .................................................................................................................................................................................. 2 II - O PLANEAMENTO DE EXPERINCIAS ............................................................................................................................................. 3 breve resenha histrica .................................................................................................................................................................. 3 princpios fundamentais ................................................................................................................................................................. 3 os vrios modelos de plano experimental ...................................................................................................................................... 4 III - A TCNICA DA ANLISE DE VARINCIA ......................................................................................................................................... 4 IV - TESTES DE COMPARAO MLTIPLA E CONTRASTES .................................................................................................................. 7 contrastes ....................................................................................................................................................................................... 8 testes de comparao mltipla ....................................................................................................................................................... 8 a histria por detrs dos testes de comparao mltipla ou testes post-hoc ................................................................................ 8 tipo de testes de comparao mltipla .......................................................................................................................................... 8 teste de tukey honestly significant difference (hsd ou tukey) ........................................................................................................ 9 teste de scheff............................................................................................................................................................................... 9 teste de bonferroni ....................................................................................................................................................................... 10 V - MODELOS LINEARES GENERALIZADOS .................................................................................................................................. 11 a componente aleatria ............................................................................................................................................................ 11 b componente sistemtica ....................................................................................................................................................... 11 c - funo de ligao: ................................................................................................................................................................... 11 modelos lineares discretos ........................................................................................................................................................... 13 modelos lineares continuos .......................................................................................................................................................... 13 VI-ANLISE DE REGRESSO ............................................................................................................................................................... 13 regresso logistica ......................................................................................................................................................................... 14 teste de wald................................................................................................................................................................................. 16 teste da razo de verossimilhanas .............................................................................................................................................. 16 teste de score................................................................................................................................................................................ 16 VII-MULTICOLINEARIDADE ................................................................................................................................................................ 17 VIII - A APLICABILIDADE DO R NO ESTUDO DOS MODELOS LINEARES GENERALIZADOS .................................................................. 18 IX FECHANDO COM CHAVE DE OURO ............................................................................................................................................ 22 X CONCLUSO ................................................................................................................................................................................ 26 XI-BIBLIOGRAFIA E WEBGRAFIA ........................................................................................................................................................ 27
Pgina 1
I - INTRODUO
A ARTE DA EXPERIMENTAO Uma das primeiras perguntas que um experimentador enfrenta : "Quantas observaes que eu preciso de fazer?" ou, em alternativa, " Dado o meu oramento limitado, como posso obter o mximo de informaes possvel? " Um cientista quando se empenha em desenvolver um estudo numa determinada rea deve colocar questes adicionais, nomeadamente: "Qual o principal objetivo de executar esta experincia? " ou " O que eu espero ser capaz de mostrar? " Tipicamente, uma experincia pode ser executada por uma ou mais das seguintes razes: (i) para determinar as principais causas de variao de uma resposta medida, (ii) para encontrar as condies que do origem a uma resposta mxima ou mnima, (iii) para comparar as respostas obtidas em diferentes configuraes de variveis controlveis, (iv) para se obter um modelo matemtico, a fim de prever as futuras respostas. O planeamento de experincias universal e transversal a todas as reas cientficas. Em qualquer circunstncia deve ser corretamente desenvolvido, com cuidados e a dedicao que se espera de um cientista. Nos estdios iniciais de um projeto, elaborada uma lista de todos os fatores que possivelmente poderiam ter um importante efeito sobre a resposta de interesse. Este facto pode produzir um grande nmero de factores a ser estudado. A arte de projetar uma experincia e a arte de analisar a mesma esto intimamente ligadas e devem ser estudadas em paralelo. Na concepo de uma experincia, deve tomar-se em considerao a anlise que ir ser realizada. Esta uma questo fundamental. Por outro lado, a eficincia da anlise depende do desenho experimental especfico que usado para recolher os dados. Se o cientista no tecer estas consideraes, o mais provvel investir muito do seu tempo e recursos recolhendo dados, que parecem ser relevantes para a finalidade em questo, mas que, na realidade, pouco contribuem para a(s) questo (es) de pesquisa .Um princpio orientador do projeto experimental "mant-lo simples. A interpretao e a apresentao dos resultados geralmente mais clara para experincias bem concebidas e simples. Nesta disciplina de Planeamento de experincias aprendemos no s a planear uma experincia atendendo a todos os factores que realmente importam, como tambm a trabalhar os dados dela recolhidos com o propsito de dar um valioso contributo cincia nas reas em que trabalhamos. Nem todos os cientistas dominam as tcnicas estatsticas, e, ser conhecedor de algumas delas, representa uma mais valia para qualquer investigador. Poder olhar para dados e no ver apenas nmeros, saber olhar e ver, tecer consideraes, saber por onde se comear, algo verdadeiramente importante para os eruditos. Neste trabalho, pretendo fazer uma incurso por algumas das tcnicas estatsticas desenvolvidas ao longo do semestre , combinar com os conhecimentos de que j detinha anteriormente e produzir um roteiro estatstico simples, de fcil leitura, acessvel a todos, principalmente s pessoas que no dominam esta rea. Tentarei introduzir os conceitos mais relevantes em cada uma das tcnicas , usando exemplos demonstrativos sempre que possvel.
Planeamento de Experincias e Investigao Pgina 2
II - O PLANEAMENTO DE EXPERINCIAS
BREVE RESENHA HIS TRI CA
A ideia de experimentar j muito antiga. Na Estatstica, o planeamento de experincias surge como elo de ligao entre as matemticas e as tcnicas estatsticas desenvolvidas nas diferentes reas das cincias, nomeadamente as Biologias, as Cincias da Educao, a Medicina, a Gentica e tantas outras. Curiosamente, foi com a Agricultura que tudo comeou, com o Pai da Estatstica, Sir Ronald Fisher, em 1917-1918.Fisher foi o percursor das tcnicas do planeamento experimental desenvolvendo-as e apurando-as durantes a sua passagem pela Estao Agrcola de Rothamstead. Fisher modificou a forma de tratar os dados (neste caso, dados referentes agricultura) atravs da interao com outros cientistas , o que conduziu a 3 princpios bsicos do planeamento de experincias : a randomizao, a replicao e o agrupamento (blocking). Um dos objectivos do planeamento de experincias a minimizao do erro que proveniente quer das condies ambientais do meio onde se realiza a experincia, quer do indivduo que a conduz ou at mesmo da instrumentao utilizada. Fisher foi introduzindo cuidadosamente nos outros cientistas estes princpios e tambm desenvolvendo a tcnica da Anova sobre a qual falaremos mais adiante e o conceito de planeamento factorial. A aplicao do planeamento experimental teve grande desenvolvimento no anos 30 mas, na segunda metade do sculo, com os trabalhos de Box e Wilson, a superfcie de resposta foi mais explorada nos trabalhos industriais. George Box (1999) foi o grande percursor do avano do Mtodo da Superfcie de Resposta, implementando esta tcnica na indstria qumica. Por outro lado, Gertrude Cox co-fundadora da Sociedade Biomtrica (1947) tornou-se a primeira mulher eleita para o International Statistical Institute, sendo tambm eleita para a Academia Nacional de Cincias em 1975. Os seus trabalhos na rea do planeamento de experincias foram bastante aplaudidos e receberam maior destaque quando, em 1950 Cox e William G. Cochran escreveram o livro Experimental Design que se tornou um clssico, na concepo e anlise experimental com rplicas. Outros contriburam para o desenvolvimento do planeamento experimental, nomeadamente Yates, Cochran, Bose, Kempthorne (ver bibliografia).
PRINCPIOS FUNDAMENT AIS
Muitas das cincias recorrem inevitavelmente ao planeamento experimental, pois permite o elevar do rendimento e da eficincia. Assim sendo, importante definir alguns princpios bsicos que devem ser cumpridos para optimizar os resultados obtidos por estes estudos que so levados a cabo na engenharia, na medicina, na agricultura, nas cincias da vida (nomeadamente a Biologia, a Psicologia, a Medicina e tambm a Gentica). Aqui ficam alguma regras bsicas para a conduo de um planeamento experimental. (Montegomery, 2001). So simples princpios, mas bastante teis e que, ao serem cumpridos, podem minimizar os erros e aumentar a eficincia do estudo: 1. Utilizar o nosso conhecimento no estatstico do problema . Os investigadores normalmente so experts nas suas reas de competncia. Estas competncias tcnicas podem potenciar as escolhas acertadas dos factores a estudar, dos seus nveis e das suas relaes e das respostas esperadas. A inteligncia profissional do investigador no deve ser descurada quando se conduz um planeamento. 2. Manter o planeamento o mais simples possvel . Tal como j mencionmos anteriormente, na simplificao que est o ganho. No devemos complicar pois um aumento na complexidade de um estudo aumenta tambm as dificuldades na retirada de concluses. 3. Reconhecer a diferena entre significncia prtica e estatstica. Saber distinguir estes 2 tipos de significncia. Tem que existir uma harmonizao entre o que tem significado estatstico e o que tem significado real, prtico. Se um teste estatstico devolve um resultado que difere bastante do que seria expectvel atendendo aos conhecimentos prticos do investigador, esta situao dever ser analisada antes da retirada de concluses. 4. As experincias normalmente so interactivas/sequenciais. Sugere-se que o investigador se muna de toda a informao possvel antes de levar a cabo a sua experincia. Ter um vasto conhecimento da situao permite uma optimizao na escolha dos factores e dos seus nveis conduzindo necessariamente a melhores leituras nos
Planeamento de Experincias e Investigao Pgina 3
resultados. No incio da experincia talvez ainda no estejamos na posse de todos os dados, mas vamos andando e amealhando informao e trocando ideias. Este tipo de pensamento ser o nosso aliado na leitura dos resultados. Uma experincia uma investigao em que se procura que o sistema em estudo fique sob o controle do investigador. Quando nos referimos a experincia temos que pensar em unidades experimentais (ou seja, os indivduos ou matrias-primas, as parcelas de terreno, etc.), os factores (que habitualmente apresentam nveis ou tratamentos) e a varivel-resposta (que pode ser uma ou vrias). As condies ideais para conduzir um planeamento experimental eficiente consistem em optimizar cada deciso tomada pelo investigador, no descurando detalhes de grande importncia. Desta forma, diria que o investigador deve percorrer cada um dos passos seguintes: Antes do planeamento propriamente dito, devemos identificar e definir o problema (o que pretendemos estudar), escolher os factores e nveis e seleccionar a varivel-resposta; Escolher qual o plano experimental que mais se adequa ao nosso problema; Levar ento a cabo a nossa experincia nas melhores condies; Analisar estatisticamente os resultados, i.e, recolher os dados e trabalh-los com as tcnicas apropriadas; Elaborar as concluses ou recomendaes possveis;
Mesmo que quisssemos nunca poderamos em to poucas pginas desenvolver todos os modelos de plano experimental. Podemos mencionar alguns deles (Quadrados latinos, Planos em blocos casualizados, Planos em blocos incompletos, planos factoriais, os Split Plot, e tantos, tantos outros), mas a sua descrio seria exaustiva e foge do mbito deste trabalho. Iremos apenas debruar-nos com detalhe sobre a tcnica da Anlise de Varincia.
habitual designarmos os grupos por tratamentos. Quando os grupos a utilizar so definidos logo no incio do estudo, falamos em Anova de Efeitos fixos, mas existe tambm a hiptese de constituir os grupos a partir de uma amostra aleatria retirada de um conjunto com muitas possibilidades, e, neste caso, falamos ento em Anova de efeitos aleatrios. A Anlise de Varincia, tal como muitas das outras tcnicas estatsticas que so hoje amplamente utilizadas, sofreu uma grande evoluo quando os meios informticos o permitiram. Hoje em dia, conduzimos Anovas usando softwares adequados com maior ou menor facilidade. Ainda assim, se o nmero de dados a trabalhar no for excessivo, possvel faz-lo mo conforme iremos demonstrar adiante neste trabalho. Em que consiste ento a tcnica da Anlise de Varincia? Vamos supor que queremos determinar se a diferena observada entre duas mdias amostrais devida, apenas, s variaes aleatrias de uma amostra a outra, ou se os dados vm de populaes onde as mdias so verdadeiramente diferentes. Por outras palavras, o que ns pretendemos descobrir se a diferena entre as mdias estatisticamente diferente. Mesmo que ns possamos concluir que as mdias so diferentes, tambm temos de decidir se elas diferem o suficiente para poderem ser consideradas de importncia prtica . Posto isto, fiquemos com esta ideia principal da comparao de mdias: o que importa no o quanto as mdias amostrais esto distantes , mas o quo distantes esto relativamente variabilidade de observaes individuais. A ANOVA permite a comparao da variao resultante de fontes especficas com a variao entre indivduos que deveriam ser semelhantes. Em particular, a ANOVA testa se vrias populaes tm a mesma mdia, comparando o afastamento entre as mdias amostrais com a variao existente dentro das amostras. A ANOVA pressupe que podemos decompor cada valor observado em trs termos aditivos; ou seja, ns somos capazes de escrever cada observao como uma soma de trs termos.
Em que valores observados em cada grupo - mdia geral parmetro para o tratamento termos residuais (diferena entre o valor observado e o modelo ajustado erro/resduo) - refere-se ao grupo refere-se observao dentro do grupo Quais so os pressupostos da aplicao da Anlise de Varincia? Ser que esta tcnica fantstica pode ser sempre utilizada quando queremos comparar mdias ? A resposta NO! Para se poder conduzir um estudo de anlise de varincia, necessrio que os seguintes pressupostos se verifiquem: Os grupos de observaes devem ser independentes entre si Cada grupo de observaes deve seguir uma distribuio Normal Deve existir homogeneidade de varincias
Planeamento de Experincias e Investigao Pgina 5
Chegados a este ponto, resta-nos ento tentar explicar como devemos proceder para conduzir um estudo de anlise de varincia na sua forma mais simples. Como todos os estudos estatsticos o princpio de tudo centra-se na formulao das hipteses: Todas as mdias so iguais : Pelo menos uma das mdias difere das restantes A etapa seguinte ser o clculo do valor do teste F, que posteriori dever ser comparado com o valor do teste F critico tabelado. Caso o valor do teste F calculado seja maior do que o valor da tabela, devemos rejeitar a hiptese nula e assumir ento que pelo menos uma das mdias amostrais difere das restantes. O valor do teste F calculado de acordo com os dados indicados na tabela seguinte: Origem de variao Tratamento Erro Total Em que k n amostras n total de indivduos Graus liberdade k-1 n-k n-1 Soma de quadrados SQA SQE SQT Quadrados mdios QMA QME F QMA/QME
Vamos ento exemplificar um estudo de Anlise de Varincia com um exemplo sobre o crescimento de uma espcie de peixes alimentada por 3 tipos de alimentao diferentes. Eis os nossos dados: A 75 67 70 75 65 71 67 67 76 68 B 57 58 60 59 62 60 60 57 59 61 C 58 61 56 58 57 56 61 60 57 58
Pgina 6
) (
) )
Origem de variao Tratamento Erro total Total geral : Soma dos quadrados : Valor
( )(
F QMA/QME=58.79
Concluso : como Fcalc > Ftab rejeitamos a hiptese nula de que as mdias so iguais. Ao nvel de significncia de 5% podemos afirmar que existem diferenas entre os 3 tipos de alimentao dos peixes. Atendendo aos nossos resultados, acabmos por perceber que o clculo da Anova mostra que parecem existir evidncias estatsticas de diferenas entre os tipos de alimentao dos peixes. Mas esta concluso muito vaga e teramos todo o interesse em aprofundar esta informao. Se existem diferenas, quais so os tipos de alimentao que diferem mais dos restantes? E todos diferem uns dos outros? Para investigar um pouco mais, o procedimento mais usual o dos testes de comparao mltipla sobre os quais nos iremos debruar na prxima seco.
Pgina 7
CONTRASTES
Uma comparao entre mdias de tratamentos denominada contraste quando puder ser expressa por uma funo linear destas mdias, de acordo com uma expresso do tipo:
Em que
sendo
Se, aps a aplicao da anlise de varincia formos conduzidos rejeio da hiptese nula, existem evidncias estatsticas de que existem diferenas entre as mdias populacionais. Mas ser isso suficiente para o investigador? Ser que no podemos ir um pouco mais alm? Ese fosse possvel determinar com mais exactido onde se encontram essas diferenas? Se fosse possvel encontrar quais os grupos que apresentavam maiores diferenas entre si? De facto, possvel faz-lo e de diferentes formas. Mais uma vez, tal poder ser determinado mo ou com recurso a softwares especficos. Estamos a falar de Testes de Comparao mltipla e eles so imensos, todos com critrios diferentes de aplicao, alguns que podem ser conduzidos no SPSS, por exemplo, outros no R ou na STATISTICA, e, claro, como no podia deixar de ser, alguns at so perfeitamente exequveis moda antiga, com papel e caneta.
A HISTRIA POR DETR S DOS TESTES DE COMP ARAO MLTIPLA OU T ESTES POST - HOC
O interesse no problema das comparaes mltiplas comeou na dcada de 1950 com o trabalho de Tukey e Scheff. Este interesse estendeu-se por cerca de duas dcadas e, logo em seguida, veio um declnio. Alguns at pensaram que este campo estava morto. Mas no era bem assim. Cada vez mais foram surgindo ideias , principalmente como resposta s necessidades das estatsticas mdicas. Lanaram-se novos testes que se juntaram aos que j existiam: surge o procedimento de teste Fechado (Marcus et al, 1976.), o Mtodo de Holm-Bonferroni (1979). Mais tarde, na dcada de 1980 esta questo das comparaes mltiplas ressurgiu em fora. Foram publicados livros, imensos livros por Hochberg e Tamhane (1987), Westfall and Young (1993), e Hsu (1996). Em 1996, a primeira conferncia sobre comparaes mltiplas ocorreu em Israel. Esta reunio de pesquisadores foi seguida por mltiplas conferncias em todo o mundo: Berlim (2000), Bethesda (2002), Xangai (2005), Viena (2007) e Tquio (2009). Parecia ser bvia a importncia que os testes tinham para os investigadores. As opinies no eram consensuais, mas a maior parte dos cientistas manifestava claramente preferncia por 2 ou 3 destes testes. Alguns deles ficaram mais conhecidos na dcada de 30 (tal como a Anova), outros s se desenvolveram mais tarde, nos anos 50 : Duncan (1955), o HSD de Tuckey, o teste de contrastes de Scheff (1953), o mtodo de Dunnett (1955) e uma outra proposta de SNK (Keuls, em 1952).
TIPO DE TESTES DE CO MPARAO MLTIPLA
O termo "comparaes" em comparaes mltiplas, tipicamente refere-se a comparaes entre dois grupos, tais como um grupo de tratamento e um grupo de controlo. "As comparaes mltiplas" surgem quando uma anlise estatstica engloba uma srie de comparaes formais, com a presuno de que a ateno se concentrar em mais fortes
Planeamento de Experincias e Investigao Pgina 8
diferenas entre todas as comparaes que so feitas. A falha para compensar para as comparaes mltiplas pode ter importantes. So vrios os testes de comparao mltipla que podem ser utilizados aps a no aceitao de H 0 como verdadeira, mas centremo-nos apenas naqueles que so mais utilizados e nas razes pela quais se opta por este e no por aquele. No que diz respeito ao poder do teste, legitimo afirmar que o teste t e o de Duncan so os que mais se destacam, mas no que se refere ao rigor, as opinies convergem para o de Tuckey, Benferroni e Scheff. No seria de todo possvel explanar todos os testes com o rigor e detalhe que lhe so merecidos (dada a sua importncia), mas optmos por deixar aqui as caractersticas daqueles que mais se destacam e a exemplificao das suas aplicaes.
O teste de Tuckey frequentemente utilizado para calcular as diferenas entre duas mdias (usando a distribuio de t-student). Todas as diferenas so avaliadas por meio de uma distribuio de amostragem, o que torna este mtodo bastante conservador. um teste que pode ser conduzido atravs do SPSS, e do R tambm. aplicvel quando as amostras apresentam iguais dimenses (caso equilibrado) O procedimento bastante simples na realidade e exemplificaremos com o exemplo da alimentao dos peixes que j apresentmos anteriormente e no qual rejeitmos a hiptese nula. Utilizaremos Tuckey porque as amostras tinham a mesma dimenso. Calculamos Sendo e rejeitamos a igualdade entre as mdias sempre que se verifique HSDcritico < HSDentre grupos | | e
) (
)(
Neste caso, o teste de Tuckey devolve-nos a concluso de que existem diferenas entre o tipo A e B de alimento e entre o tipo A e C (so as diferenas que verificam a condio de rejeio da igualdade entre as mdias.
TESTE DE SCHEFF
O teste de Scheff pode ser empregue para testar qualquer tipo de contraste no sendo, no entanto, recomendado para testar contraste de duas mdias por ser muito pouco conservador. habitual utilizar o teste de Scheff preferencialmente ao de Tuckey quando as amostras apresentam dimenses diferentes. A estatstica para o teste de Scheff dada por:
Planeamento de Experincias e Investigao Pgina 9
| (
| )
) Em que ( ) sendo F(k-1,n-k) () o valor tabelado da distribuio F com (k-1,n-k) graus de ( liberdade e nvel de significncia () As hipteses nulas Ho : so rejeitadas quando TS > ( )
( )(
TESTE DE BONFERRON I
Fisher foi de facto um pioneiro no seu tempo e no constitui surpresa a existncia de um teste de comparao mltipla proposto por si, denominado procedimento de Bonferroni. Este procedimento consiste na realizao de um teste t para cada par de mdias a uma taxa de erro por comparao (TPC) de
( )
famlia no mximo , para qualquer configurao (formao) das mdias da populao. Dessa forma, temos que o teste de Bonferroni protege a taxa de erro da famlia dos testes. Isso ilustra a taxa de erro conhecida como taxa de erro por famlia. O teste de Bonferroni pode ser usado para quaisquer que sejam os dados equilibrados ou no. Para casos equilibrados
)
em que
( ) e c o nmero de comparaes duas a duas (ou tambm podemos dizer que o nmero de
( )
intervalos em estudo.
Existem muitos outros testes Post Hoc (cerca de 30) mas, por uma razo ou por outra, acabamos por utilizar sempre os mesmos atendendo sua especificidade, rigor e potncia. Para o propsito deste trabalho no descreveremos os demais, mas deixamos aqui uma referncia a algumas das suas designaes: Student Neuman Keuls (SNK) Tukey Honestly Significant Difference (HSD ou Tukey) Fisher Protected Least Significant Difference (LSD) Duncan Multiple Range Test (Duncan) Teste de Ryan Teste de Peritz Teste de Scheff Teste de Dunnett
Planeamento de Experincias e Investigao Pgina 10
Correco de Bonferroni sequencial Teste T3 de Dunnet (rank based) Teste C de Dunnet (rank based) Teste de Games Howell (rank based)
COMPONENTE ALEATRIA
A varivel-resposta Y que se quer modelar, tratando-se duma varivel aleatria da qual se recolhem n observaes independentes e cuja distribuio de probabilidades faz parte da famlia exponencial de distribuies
B
COMPONENTE SISTEMTI CA
Consiste numa combinao linear das variveis preditoras (independentes) . Se tivermos p variveis preditoras e n observaes a expresso da componente sistemtica dada por
() () () ()
[
( )
FUNO DE LIGAO :
Trata-se de uma funo diferencivel e montona g que associa as componentes aleatria e sistemtica, atravs duma relao da forma: ( ) ( [ ]) ( ) ( [ ])
()
Pgina 11
...,
n)t
xi a i-sima linha da matriz X (enquanto vetor coluna), isto , o conjunto de valores das variveis preditoras para os quais se efetuou a i-sima observao da varivel-resposta. As funes de ligao para os MLG so imensas. Na tabela em anexo , algumas delas: funo identidade log inversa Inversa quadrtica Raiz quadrada logit probit log-log log-log complementar ( ) ln
( ) ( ) -ln [ ( )] ln [ ( )]
Existe uma funo de ligao cannica associada a cada distribuio da varivel-resposta. As funes de ligao cannica so teis porque simplificam consideravelmente o estudo do Modelo. A ligao cannica representa uma forma de ligao natural para o respetivo tipo de distribuio da varivel -resposta. Na tabela seguinte encontra-se resumidas algumas das funes de ligao cannica. Destacamos a identidade que habitualmente utilizada no modelo linear. A funo logit destaca-se no elo regresso logstica como iremos ver mais adiante.
Pgina 12
A aplicao dos modelos lineares generalizados muito diversificada, podendo destacar as cincias da vida (biologia, gentica, medicina),na agricultura e tambm nas cincias sociais (psicologia, antropologia, poe exemplo). Se os fenmenos que tentamos modelar so variveis discretas, ento estes modelos so denominados Discretos. Os modelos lineares generalizados discretos mais usuais so o modelo de regresso logstica, o de Poisson (bastante usado nas tabelas de contingncia para variveis categricas)e tambm o de Dose-resposta (amplamente utilizado nas cincias biomdicas).
MODELOS LINEARES CON TINUOS
Os modelos lineares generalizados so mais um caso particular dos MLG, desta feita, as distribuies que os modelam so contnuas, como a Normal , a Gama e a normal inversa. Como se sabe, qualquer modelo para se enquadrar nos modelos lineares generalizados tem de pertencer famlia exponencial e, de fato, possvel construir transformaes nestas distribuies por forma a consegui-lo. A sua demonstrao ficar para trabalhos futuros.
VI-ANLISE DE REGRESSO
A regresso tem a sua origem na tentativa de relacionar um conjunto de observaes de certas variveis, designadas genericamente por (k=1p), com as leituras de uma certa grandeza Y, ou seja, da pretenso de perceber como se comporta a varivel resposta Y quando sujeita aco das variveis causadoras. Em muitos problemas de diferentes cincias das reas mdica, biolgica ou at mesmo industrial, existe uma necessidade muito grande de se verificar de 2 ou mais variveis esto relacionadas de alguma forma. Habitualmente, tal conseguido atravs de modelos matemticos. Quando procedemos deste modo para este fim estamos a fazer um estudo de regresso. Esta relao pode ser analisada como sendo um processo. Neste processo, os valores de variveis de entrada /regressoras e o de a varivel de Sada/resposta. so as
A Anlise de Regresso possibilita encontrar uma relao razovel entre as variveis de entrada e sada, por meio de relaes empricas. Se estamos interessados na relao de apenas uma varivel de entrada com a varivel resposta temos o caso de Regresso Linear Simples. Mas se queremos relacionar a varivel resposta com mais de uma varivel regressora, a Regresso Linear Mltipla utilizada. Objetivos Os Modelos de Regresso so construdos com os objetivos: i) Predio - Uma vez que esperamos que grande parte da variao da varivel de sada seja explicada pelas variveis de entrada, podemos utilizar o modelo para obter valores de Y correspondentes a valores de X que no estavam entre os dados. Esse procedimento chamado de predio e, em geral, usamos valores de X que esto dentro do intervalo de variao estudado.
Planeamento de Experincias e Investigao Pgina 13
ii) Seleo de variveis - Frequentemente, no se tem ideia de quais so as variveis que afetam significativamente a variao de Y. Para responder a esse tipo de questo, estudos so realizados com um grande nmero de variveis. A anlise de regresso pode auxiliar no processo de seleo de variveis eliminando aquelas cuja contribuio no seja importante; iii) Estimao de parmetros - Dado um modelo e um conjunto de dados referente s variveis resposta e preditoras, estimar parmetros ou ajustar um modelo aos dados significa obter valores ou estimativas para os parmetros, por algum processo, tendo por base o modelo e os dados observados; iv) Inferncia - O ajuste de um modelo de regresso em geral tem por objetivos bsicos, alm de estimar os parmetros, realizar inferncias sobre eles, tais como, testes de hipteses e intervalos de confiana. No nosso objetivo descrever exaustivamente os mtodos de regresso, mas mostra-se importante explorar com algum cuidado a regresso logstica, principalmente pela sua ligao aos modelos lineares generalizados. A regresso logstica uma semelhante a regresso linear e usada quando temos uma varivel dependente binria. O objetivo saber quais as variveis independentes influenciam ao resultado (varivel dependente) e us-las numa equao para prever o resultado de um indivduo custa das variveis independentes.
REGRESSO LOGISTICA
A regresso logstica tambm uma tcnica estatstica cujo principal objectivo produzir, a partir de um conjunto de observaes, um modelo de predio, isto , que permita prever os valores tomados por uma varivel que habitualmente categrica e binria. Comparando este modelo de regresso com os demais, a regresso logstica distingue-se principalmente porque a varivel resposta categrica. Se atendermos aos contedos e mbito do programa do MBB, facilmente nos apercebemos que a rea das cincias da vida aquela que pode tirar maior partido das inmeras tcnicas estatsticas existentes. Quando pensamos por exemplo, em termos mdicos, tenta-se responder constantemente mesma pergunta: qual a relao entre uma ou mais variveis que reflectem a exposio e a doena? Isto , pretende-se determinar qual a probabilidade de ocorrncia conhecendo a forma como ocorre a exposio. Evidentemente, tratando-se de uma probabilidade, o seu valor situar-se- entre 0 e 1. Quando utilizamos o modelo de regresso logstica, tentamos estudar a possibilidade de ocorrncia da doena (a nossa varivel dependente) perante o conhecimento dos valores de um conjunto de variveis independentes. Expliquemos um pouco melhor. Supor que temos os dados de uma amostra de pacientes a quem se mediu o nvel de colesterol, a glicmia, o nvel de diabetes, se so fumadores/ou no, e os valores das suas tenses arteriais, por exemplo. Na posse destes dados, pretendemos determinar qual a probabilidade de ocorrncia de um enfarte do miocrdio, por exemplo. O modelo de regresso logstica permitir-nos-a conduzir um estudo como este e levar-nos-a a alguns resultados interessantes. Trata-se de um modelo de regresso para variveis dependentes. til para modelar a probabilidade de ocorrncia de um evento ocorrer devido a outros factores. A medida de associao calculada a partir do modelo logstico o odds ratio. A funo logstica varia entre 0 e 1. A funo logistica, amplamente utilizada na rea da medicina e da epidemiologia apresenta um traado caracterstico em forma de S alongado , conforme a figura:
Pgina 14
Para podermos avanar por este caminho precisamos de medidas de associao, que, no caso do modelo logstico, o Odds Ratio. Os odds ratio ajustados so obtidos atravs da comparao de indivduos que diferem apenas na caracterstica de interesse e que tenham os valores das outras variveis constantes. O ajuste apenas estatstico. Podemos assim afirmar que o modelo de regresso logstica um modelo linear generalizado que usa como funo de ligao a funo logit. A regresso logstica analisa os dados que seguem uma distribuio binomial na forma ( ) em que representa o nmero de ensaios e a probabilidade do sucesso ocorrer. O modelo obtido seguindo o pressuposto de que o conjunto de variveis explicativas poder ajudar-nos a calcular a probabilidade final de ocorrncia do sucesso/insucesso da varivel categrica binria. Podemos ento escrever as variveis explicativas na forma vectorial , k-dimensional : ( O modelo de funo linear dos ( ) ( ) | )
Os termos
Ao afirmarmos que a regresso logstica um MLG temos ento que identificar as 3 componentes que so caracterstica destes modelos:
sistemtica Funo de ligao funo Componente aleatria Y (varivel Componente resposta) combinao linear das variveis diferencivel e montona que associa Y segue uma distribuio pertencente preditoras as duas componentes anteriores famlia exponencial ( )
( )
Pgina 15
Se relativo)
( )
ento
Desta forma, se Se
Clculos de valores preditivos positivos e negativos e curvas ROC so anlises complementares que refinam a compreenso da eficcia do modelo de regresso. Grficos de disperso que mostram a probabilidade do evento ocorrer de acordo com a varivel independente escolhida devem corroborar na coerncia do modelo com a teoria. Como evidente o traado desta curva estender-se- em [0,1]. Obviamente, muito difcil termos 100% de eficcia de um modelo de regresso, afinal, h sempre indivduos mais distantes da linha (ou curva) gerada pela equao do modelo de regresso, os denominados outliers. Aps estimar os coeficientes do modelo, temos interesse em assegurar a significncia das variveis nesse mesmo modelo. Isto geralmente envolve formulao e teste de uma hiptese estatstica para determinar se a varivel independente no modelo significativamente relacionada com a varivel resposta. Essa a razo pela qual se procedem a testes . Os mais utilizados no caso da regresso logstica so os testes da Razo da Verossimilhana, Wald e Score.
TESTE DE WALD
Este teste obtido por comparao entre a estimativa de mxima verossimilhana de e a estimativa do seu erro. Formulamos as hipteses : H0 : vs H1 : e a estatstica do teste :
( )
Na regresso logstica pretendemos comparar os resultados obtidos da varivel resposta com os valores obtidos dos modelos com e sem a varivel em questo, atravs do log da verossimilhana. Desta forma podemos escrever a expresso do teste : TRV = -2 ln (Ls) + 2 ln (Lc) , sendo Ls = verossimilhana sem a varivel e LC = verossimilhana com a varivel A regra da deciso assenta na anlise do p-value como habitual, rejeitando H0 se pvalue < Se rejeitarmos a hiptese nula concluiremos que a varivel utilizada significativa para o modelo.
TESTE DE SCORE
O teste de Score tem o mesmo objectivo dos anteriores diferindo apenas na sua estatstica de teste
Pgina 16
( (
( ) (
) ) )
Sendo que representa a proporo de sucessos na amostra Tambm aqui devemos formular primeiro as hipteses que as dos outros testes, uma vez que, a questo que se coloca idntica: H0 : vs H1 :
VII-MULTICOLINEARIDADE
A multicolinearidade um problema frequente em estudos que envolvem regresso, onde as variveis independentes tm relaes lineares exatas ou quase exatas. O indcio mais forte de existncia de multicolinearidade um valor muito elevado de R2 , sendo no entanto que, nenhum dos coeficientes do modelo de regresso estatisticamente significativo quando se aplica uma estatstica t convencional. As principais consequncias da existncia de multicolinearidade na regresso so a existncia de erros padro muito elevados (multicolinearidade moderada) ou uma estimao impossvel, no caso da multicolinearidade ser perfeita. A existncia de multicolinearidade uma das premissas fundamentais para estabelecer um modelo de regresso correto. Sendo ento a multicolinearidade um aspeto essencial quando estabelecemos um modelo de regresso, como detetla e eventualmente, corrigi-la? Existem vrias formas de o fazer. Podemos identificar a sua existncia : teste F bastante significativo ou R2 muito elevado (<<1) sinais dos coeficientes diferentes do esperado identificar a correlao entre as variveis observar o comportamento dos coeficientes quando adicionamos ou retiramos variveis se houver alteraes drsticas principalmente nos sinais dos coeficientes
O que fazer para ultrapassar a situao? Retirar a varivel correlacionada se as variveis esto muito correlacionadas, o efeito da varivel retirada j capatado pelas restantes, sendo o seu uso desnecessrio Aumentar a amostra um aumento das observaes pode refletir melhor os resultados
Como podemos fazer para identificar corretamente a multicolinearidade? Podemos conduzir testes, claro! E que testes podero ser levados a cabo para este fim? Teste de Ferrar & Glauber So formuladas as hipteses, como habitual: H0: ausncia de multicolinearidade vs H1 : existe multicolinearidade
( )
Pgina 17
Em que
)]
E em que n = n de observaes k = n de variveis rij = coeficiente de correlao parcial Se teste > crtico rejeitamos a hiptese nula (h correlao entre as variveis)
Teste VIF
Se VIF: - at 1 sem colinearidade - de 1 a 10 multicolinearidade aceitvel - acima de 10 multicolinearidade problemtica Em que rk o coeficiente de correlao da varivel k com as restantes variveis Teste Tolerance Tolerancek = Se Tolerance : - at 1 sem colinearidade - de 1 a 0.10 multicolinearidade aceitvel - abaixo de 0.10 multicolinearidade problemtica Em que rk o coeficiente de correlao da varivel k com as restantes variveis
Pgina 18
Eis o output do
Pgina 19
Call: glm(formula = resp ~ alt, family = binomial, data = fragata) Deviance Residuals: Min 1Q Median 3Q Max
-1.9343 -0.5925 -0.2857 0.5805 1.8673 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -4.19548 1.65883 -2.529 0.0114 * alt 0.20341 0.08046 2.528 0.0115 *
O modelo encontrado
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 = exp(-4.19548 +0.20341 x)/ (1+ exp (-4.19548 +0.20341 x)) (Dispersion parameter for binomial family taken to be 1) Null deviance: 30.789 on 22 degrees of freedom Residual deviance: 19.914 on 21 degrees of freedom AIC: 23.914 Number of Fisher Scoring iterations: 5
A observao dos grficos dos resduos mostram que o ajuste do modelo adequado
Por fim, determinar algumas probabilidades de encontrar a espcie em estudo : > prob<-((exp(-4.19548+0.20341*x))/(1+(exp(-4.19548+0.20341*x)))) > prob15<-((exp(-4.19548+0.20341*15))/(1+(exp(-4.19548+0.20341*15)))) > prob15
Quando a altura 15 metros: [1] 0.2415263 Quando a altura 15 metros a probabilidade de encontrar esta espcie de aves cerca de 24.15% Quando a altura 5 metros: [1] 0.03998556 Quando a altura 5 metros a probabilidade de encontrar esta espcie de aves cerca de 4% Daqui se conclui que quanto mais baixa a rvore, menor a probabilidade de encontrar o ninho da espcie Fregata magnificens
Planeamento de Experincias e Investigao Pgina 21
A observao dos grficos permite-nos perceber que apenas o nmero de indstrias ter efeito sobre os nveis de poluio pois a sua nuvem de pontos encontra-se menos expandida
Como tal, vamos construir um modelo de regresso linear apenas com este efeito:
Pgina 22
> anova(pol1.mod1)
Analysis of Variance Table Response: pollution Df Sum Sq Mean Sq F value Pr(>F) indust 1 8969.2 8969.2 37.65 8.34e-07 ***
Residuals 31 7385.1 238.2 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 > summary(pol1.mod1) Call: lm(formula = pollution ~ indust, data = poluicao) Residuals: Min 1Q Median 3Q Max
-26.463 -12.188 -2.845 7.450 34.728 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 16.816787 3.528246 4.766 4.19e-05 *** indust 0.027249 0.004441 6.136 8.34e-07 *** O p-value indica que o modelo adequado
Pgina 23
Decidimos comparar este modelo com o modelo mais simples possvel aquele que no teria efeito de qualquer varivel preditora . Desta forma poderemos tentar perceber qual a influncia desta varivel nos nveis de poluio. Usaremos uma Anova novamente:
Analysis of Variance Table Model 1: pollution ~ 1 Model 2: pollution ~ indust Res.Df 1 2 RSS Df Sum of Sq F Pr(>F)
O R permite-nos realizar este tipo de anlise e manipular os dados tantas vezes quantas as necessrias. Vejamos o que acontece quando decidimos averiguar se outros factores tambm contribuem de forma significativa para os nveis de poluio:
Planeamento de Experincias e Investigao Pgina 24
Analysis of Variance Table Model 1: pollution ~ indust Model 2: pollution ~ indust + temp Res.Df RSS Df Sum of Sq 1 2 31 7385.1 30 5495.0 1 1890 10.319 0.003138 ** A incluso do fator temperatura devolve o teste F significativo F Pr(>F)
Analysis of Variance Table Model 1: pollution ~ indust + temp Model 2: pollution ~ indust + temp + wind Res.Df RSS Df Sum of Sq 1 2 30 5495.0 29 4778.3 1 716.72 4.3499 0.04592 * A incluso do vento no melhorou o modelo F Pr(>F)
> anova(pol3.mod3)
Analysis of Variance Table Response: pollution Df Sum Sq Mean Sq F value Pr(>F) indust temp wind 1 8969.2 8969.2 54.4348 3.961e-08 *** 1 1890.0 1890.0 11.4708 0.002049 ** 1 716.7 716.7 4.3499 0.045920 * Fatores que realmente se destacam
X CONCLUSO
Tentmos percorrer algumas das tcnicas estatsticas que foram desenvolvidas no mbito desta unidade curricular. No seria possvel faz-lo na totalidade nem era esse o nosso objectivo. Queramos apenas clarificar alguns aspectos que julgamos serem de grande importncia. Dado j termos desenvolvido outros trabalhos sobre Anova, Regresso e Inferncia, optmos por no nos estendermos desta vez. Em vez disso, apresentmos 3 estudos, um sobre anlise de varincia e mtodos de comparao mltipla, realizado sem recurso a software , outro mais completo, sobre a aplicao dos modelos lineares generalizados e respetiva anlise de resduos e ainda um estudo alargado sobre a aplicao da regresso mltipla+ anova, onde explormos estas duas tcnicas conjuntamente como forma de demonstrar que no podem ser independentes. A anlise de varincia uma ferramenta poderosa a que os estatsticos recorrem mltiplas vezes e com propsitos diferentes. Tentmos ser objetivos nas nossas exposies por forma a que o leitor no se sentisse nem maado nem desmotivado para prosseguir a leitura. Este foi um trabalho que deu gosto fazer principalmente pelas revises a que tivemos que proceder. Existem procedimentos que, realmente , so mais complexos de se fazer, mas outros, com o recurso ao software adequado so bastante acessveis de se executar. O importante , parece-nos, perceber o porqu da aplicao desta ou daquela tcnica e saber ler os resultados. Quando fazemos investigao, temos que focar-nos no que constitui o essencial. Devemos simplificar os nosso modelos por forma a conseguirmos ler os resultados que vamos alcanando. Sabemos que muito ficou por dizer e gostaramos de o ter feito, mas limitados pelo fator nmero de pginas, tal no foi possvel, ficando para trabalhos futuros, com certeza.
Pgina 26
XI-BIBLIOGRAFIA E WEBGRAFIA
[1] Oliveira, Teresa Paula C., Estatstica Aplicada, Universidade Aberta, 2002 [2] Montgomery, Douglas, Design and Analysis of Experiments, 5th Edition, 1997 [3] Gamst, Glenn, Meyers, Lawrence, Guarino, AJ, Analysis of Variance Designs, Cambridge, 2008 [4] Dean, Angela, Voss, Daniel, Design and Analysis of experiments,1999 [5] Correia, Helga, Anova na Educao, Tese de Mestrado, Universidade Aberta, 2010-2011 [6] Ross, Sheldon, Simulation, 2006 [7] Ferreira, Daniel Furtado, Estatstica Computacional usando R, Brasil, 2008 [8] Landeiro, Victor Lemes, Introduo ao uso do programa R, Brasil, 2011 [9] Provete, Diogo Borges, Silva, Fernando Rodrigues, Estatstica aplicada ecologia usando o R,2011 http://www.moresteam.com/toolbox/design-of-experiments.cfm http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf http://www.bio.ic.ac.uk/research/mjcraw/statcomp/data/ https://sites.google.com/site/tutorialdeanalisesestatisticas/topicos/modelos-lineares-e-modelos-linearesgeneralizados/modelos-lineares-generalizados/distribuicao-binomial/tutorial-1 http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:06-modelos http://www.pedro.unifei.edu.br/download/cap4.pdf http://www.stats.gla.ac.uk/steps/glossary/anova.html http://www.jhuapl.edu/techdigest/TD/td2703/telford.pdf https://onlinecourses.science.psu.edu/stat503/node/6 http://www.ehow.com/about_5463828_history-experimental-design.html http://pt.scribd.com/doc/33385/A-Brief-Overview-of-Design-of-Experiments-for-High-School-Math-and-Science-Students www.portalaction.com.br/919-multicolinearidade https://woc.uc.pt/fpce/getFile.do?tipo=2&id=1516
Pgina 27