Planeamento Experências

Este trabalho foi realizado no mbito da UC de Planeamento de experincias e Investigao do Mestrado em Bioestatstica e Biometria da Universidade Aberta de Lisboa
Roteiro Estatstico
Carla Noronha 1002152
[Escreva o nome da empresa] | I - INTRODUO
C ONTEDO
I - INTRODUO .................................................................................................................................................................................. 2 II - O PLANEAMENTO DE EXPERINCIAS ............................................................................................................................................. 3 breve resenha histrica .................................................................................................................................................................. 3 princpios fundamentais ................................................................................................................................................................. 3 os vrios modelos de plano experimental ...................................................................................................................................... 4 III - A TCNICA DA ANLISE DE VARINCIA ......................................................................................................................................... 4 IV - TESTES DE COMPARAO MLTIPLA E CONTRASTES .................................................................................................................. 7 contrastes ....................................................................................................................................................................................... 8 testes de comparao mltipla ....................................................................................................................................................... 8 a histria por detrs dos testes de comparao mltipla ou testes post-hoc ................................................................................ 8 tipo de testes de comparao mltipla .......................................................................................................................................... 8 teste de tukey honestly significant difference (hsd ou tukey) ........................................................................................................ 9 teste de scheff............................................................................................................................................................................... 9 teste de bonferroni ....................................................................................................................................................................... 10 V - MODELOS LINEARES GENERALIZADOS .................................................................................................................................. 11 a componente aleatria ............................................................................................................................................................ 11 b componente sistemtica ....................................................................................................................................................... 11 c - funo de ligao: ................................................................................................................................................................... 11 modelos lineares discretos ........................................................................................................................................................... 13 modelos lineares continuos .......................................................................................................................................................... 13 VI-ANLISE DE REGRESSO ............................................................................................................................................................... 13 regresso logistica ......................................................................................................................................................................... 14 teste de wald................................................................................................................................................................................. 16 teste da razo de verossimilhanas .............................................................................................................................................. 16 teste de score................................................................................................................................................................................ 16 VII-MULTICOLINEARIDADE ................................................................................................................................................................ 17 VIII - A APLICABILIDADE DO R NO ESTUDO DOS MODELOS LINEARES GENERALIZADOS .................................................................. 18 IX FECHANDO COM CHAVE DE OURO ............................................................................................................................................ 22 X CONCLUSO ................................................................................................................................................................................ 26 XI-BIBLIOGRAFIA E WEBGRAFIA ........................................................................................................................................................ 27
Planeamento de Experincias e Investigao
Pgina 1
I - INTRODUO
A ARTE DA EXPERIMENTAO Uma das primeiras perguntas que um experimentador enfrenta : "Quantas observaes que eu preciso de fazer?" ou, em alternativa, " Dado o meu oramento limitado, como posso obter o mximo de informaes possvel? " Um cientista quando se empenha em desenvolver um estudo numa determinada rea deve colocar questes adicionais, nomeadamente: "Qual o principal objetivo de executar esta experincia? " ou " O que eu espero ser capaz de mostrar? " Tipicamente, uma experincia pode ser executada por uma ou mais das seguintes razes: (i) para determinar as principais causas de variao de uma resposta medida, (ii) para encontrar as condies que do origem a uma resposta mxima ou mnima, (iii) para comparar as respostas obtidas em diferentes configuraes de variveis controlveis, (iv) para se obter um modelo matemtico, a fim de prever as futuras respostas. O planeamento de experincias universal e transversal a todas as reas cientficas. Em qualquer circunstncia deve ser corretamente desenvolvido, com cuidados e a dedicao que se espera de um cientista. Nos estdios iniciais de um projeto, elaborada uma lista de todos os fatores que possivelmente poderiam ter um importante efeito sobre a resposta de interesse. Este facto pode produzir um grande nmero de factores a ser estudado. A arte de projetar uma experincia e a arte de analisar a mesma esto intimamente ligadas e devem ser estudadas em paralelo. Na concepo de uma experincia, deve tomar-se em considerao a anlise que ir ser realizada. Esta uma questo fundamental. Por outro lado, a eficincia da anlise depende do desenho experimental especfico que usado para recolher os dados. Se o cientista no tecer estas consideraes, o mais provvel investir muito do seu tempo e recursos recolhendo dados, que parecem ser relevantes para a finalidade em questo, mas que, na realidade, pouco contribuem para a(s) questo (es) de pesquisa .Um princpio orientador do projeto experimental "mant-lo simples. A interpretao e a apresentao dos resultados geralmente mais clara para experincias bem concebidas e simples. Nesta disciplina de Planeamento de experincias aprendemos no s a planear uma experincia atendendo a todos os factores que realmente importam, como tambm a trabalhar os dados dela recolhidos com o propsito de dar um valioso contributo cincia nas reas em que trabalhamos. Nem todos os cientistas dominam as tcnicas estatsticas, e, ser conhecedor de algumas delas, representa uma mais valia para qualquer investigador. Poder olhar para dados e no ver apenas nmeros, saber olhar e ver, tecer consideraes, saber por onde se comear, algo verdadeiramente importante para os eruditos. Neste trabalho, pretendo fazer uma incurso por algumas das tcnicas estatsticas desenvolvidas ao longo do semestre , combinar com os conhecimentos de que j detinha anteriormente e produzir um roteiro estatstico simples, de fcil leitura, acessvel a todos, principalmente s pessoas que no dominam esta rea. Tentarei introduzir os conceitos mais relevantes em cada uma das tcnicas , usando exemplos demonstrativos sempre que possvel.
Planeamento de Experincias e Investigao Pgina 2
II - O PLANEAMENTO DE EXPERINCIAS
BREVE RESENHA HIS TRI CA
A ideia de experimentar j muito antiga. Na Estatstica, o planeamento de experincias surge como elo de ligao entre as matemticas e as tcnicas estatsticas desenvolvidas nas diferentes reas das cincias, nomeadamente as Biologias, as Cincias da Educao, a Medicina, a Gentica e tantas outras. Curiosamente, foi com a Agricultura que tudo comeou, com o Pai da Estatstica, Sir Ronald Fisher, em 1917-1918.Fisher foi o percursor das tcnicas do planeamento experimental desenvolvendo-as e apurando-as durantes a sua passagem pela Estao Agrcola de Rothamstead. Fisher modificou a forma de tratar os dados (neste caso, dados referentes agricultura) atravs da interao com outros cientistas , o que conduziu a 3 princpios bsicos do planeamento de experincias : a randomizao, a replicao e o agrupamento (blocking). Um dos objectivos do planeamento de experincias a minimizao do erro que proveniente quer das condies ambientais do meio onde se realiza a experincia, quer do indivduo que a conduz ou at mesmo da instrumentao utilizada. Fisher foi introduzindo cuidadosamente nos outros cientistas estes princpios e tambm desenvolvendo a tcnica da Anova sobre a qual falaremos mais adiante e o conceito de planeamento factorial. A aplicao do planeamento experimental teve grande desenvolvimento no anos 30 mas, na segunda metade do sculo, com os trabalhos de Box e Wilson, a superfcie de resposta foi mais explorada nos trabalhos industriais. George Box (1999) foi o grande percursor do avano do Mtodo da Superfcie de Resposta, implementando esta tcnica na indstria qumica. Por outro lado, Gertrude Cox co-fundadora da Sociedade Biomtrica (1947) tornou-se a primeira mulher eleita para o International Statistical Institute, sendo tambm eleita para a Academia Nacional de Cincias em 1975. Os seus trabalhos na rea do planeamento de experincias foram bastante aplaudidos e receberam maior destaque quando, em 1950 Cox e William G. Cochran escreveram o livro Experimental Design que se tornou um clssico, na concepo e anlise experimental com rplicas. Outros contriburam para o desenvolvimento do planeamento experimental, nomeadamente Yates, Cochran, Bose, Kempthorne (ver bibliografia).
PRINCPIOS FUNDAMENT AIS
Muitas das cincias recorrem inevitavelmente ao planeamento experimental, pois permite o elevar do rendimento e da eficincia. Assim sendo, importante definir alguns princpios bsicos que devem ser cumpridos para optimizar os resultados obtidos por estes estudos que so levados a cabo na engenharia, na medicina, na agricultura, nas cincias da vida (nomeadamente a Biologia, a Psicologia, a Medicina e tambm a Gentica). Aqui ficam alguma regras bsicas para a conduo de um planeamento experimental. (Montegomery, 2001). So simples princpios, mas bastante teis e que, ao serem cumpridos, podem minimizar os erros e aumentar a eficincia do estudo: 1. Utilizar o nosso conhecimento no estatstico do problema . Os investigadores normalmente so experts nas suas reas de competncia. Estas competncias tcnicas podem potenciar as escolhas acertadas dos factores a estudar, dos seus nveis e das suas relaes e das respostas esperadas. A inteligncia profissional do investigador no deve ser descurada quando se conduz um planeamento. 2. Manter o planeamento o mais simples possvel . Tal como j mencionmos anteriormente, na simplificao que est o ganho. No devemos complicar pois um aumento na complexidade de um estudo aumenta tambm as dificuldades na retirada de concluses. 3. Reconhecer a diferena entre significncia prtica e estatstica. Saber distinguir estes 2 tipos de significncia. Tem que existir uma harmonizao entre o que tem significado estatstico e o que tem significado real, prtico. Se um teste estatstico devolve um resultado que difere bastante do que seria expectvel atendendo aos conhecimentos prticos do investigador, esta situao dever ser analisada antes da retirada de concluses. 4. As experincias normalmente so interactivas/sequenciais. Sugere-se que o investigador se muna de toda a informao possvel antes de levar a cabo a sua experincia. Ter um vasto conhecimento da situao permite uma optimizao na escolha dos factores e dos seus nveis conduzindo necessariamente a melhores leituras nos
resultados. No incio da experincia talvez ainda no estejamos na posse de todos os dados, mas vamos andando e amealhando informao e trocando ideias. Este tipo de pensamento ser o nosso aliado na leitura dos resultados. Uma experincia uma investigao em que se procura que o sistema em estudo fique sob o controle do investigador. Quando nos referimos a experincia temos que pensar em unidades experimentais (ou seja, os indivduos ou matrias-primas, as parcelas de terreno, etc.), os factores (que habitualmente apresentam nveis ou tratamentos) e a varivel-resposta (que pode ser uma ou vrias). As condies ideais para conduzir um planeamento experimental eficiente consistem em optimizar cada deciso tomada pelo investigador, no descurando detalhes de grande importncia. Desta forma, diria que o investigador deve percorrer cada um dos passos seguintes: Antes do planeamento propriamente dito, devemos identificar e definir o problema (o que pretendemos estudar), escolher os factores e nveis e seleccionar a varivel-resposta; Escolher qual o plano experimental que mais se adequa ao nosso problema; Levar ento a cabo a nossa experincia nas melhores condies; Analisar estatisticamente os resultados, i.e, recolher os dados e trabalh-los com as tcnicas apropriadas; Elaborar as concluses ou recomendaes possveis;
OS VRIOS MODELOS DE PLANO EX PERIMENTAL
Mesmo que quisssemos nunca poderamos em to poucas pginas desenvolver todos os modelos de plano experimental. Podemos mencionar alguns deles (Quadrados latinos, Planos em blocos casualizados, Planos em blocos incompletos, planos factoriais, os Split Plot, e tantos, tantos outros), mas a sua descrio seria exaustiva e foge do mbito deste trabalho. Iremos apenas debruar-nos com detalhe sobre a tcnica da Anlise de Varincia.
III - A TCNICA DA ANLISE DE VARINCIA

A Anlise de Varincia (ANOVA) uma tcnica que foi desenvolvida tambm por Fisher cujo objetivo a comparao de mais do que dois grupos no que diz respeito localizao da sua mdia. Esta tcnica pode ser aplicada em diferentes circunstncias mediante o nmero de factores a estudar. Porque razo devemos conduzir um estudo recorrendo anlise de varincia e no utilizar testes t, por exemplo? Tal seria possvel mesmo que tivssemos que comparar 3 ou mais grupos. S teramos que os comparar dois a dois. Evidentemente, teramos que conduzir mais do que um teste, mas, ainda assim, poderamos faz-lo. De facto, incorreto comparar mdias de mais do que duas populaes utilizando testes t-student porque o nvel de significncia deixa de medir a probabilidade de se cometer o erro tipo I, uma vez que vai-se gerar uma acumulao de ( ) , que muito maior que . erros para k pares o que conduzir a um aumento do erro tipo I de A tcnica da Anova surge ento e permite com maior facilidade estabelecer comparaes entre 3 ou mais mdias em simultneo. A Anova veio revolucionar a Estatstica que se praticava at ao aparecimento de Fisher. Esta tcnica foi de imediato acolhida pela classe cientfica. Atendendo ento ao nmero de factores que queremos estudar, podemos conduzir uma Anova One Way (1 factor) ou Anova Two Way (2 factores). Existe ainda a possibilidade de estudarmos 3 ou mais factores nesses casos conduzimos uma Anova Three Way ou Multfatorial. A Anlise de Varincia apresenta nveis (grupos distintos).
habitual designarmos os grupos por tratamentos. Quando os grupos a utilizar so definidos logo no incio do estudo, falamos em Anova de Efeitos fixos, mas existe tambm a hiptese de constituir os grupos a partir de uma amostra aleatria retirada de um conjunto com muitas possibilidades, e, neste caso, falamos ento em Anova de efeitos aleatrios. A Anlise de Varincia, tal como muitas das outras tcnicas estatsticas que so hoje amplamente utilizadas, sofreu uma grande evoluo quando os meios informticos o permitiram. Hoje em dia, conduzimos Anovas usando softwares adequados com maior ou menor facilidade. Ainda assim, se o nmero de dados a trabalhar no for excessivo, possvel faz-lo mo conforme iremos demonstrar adiante neste trabalho. Em que consiste ento a tcnica da Anlise de Varincia? Vamos supor que queremos determinar se a diferena observada entre duas mdias amostrais devida, apenas, s variaes aleatrias de uma amostra a outra, ou se os dados vm de populaes onde as mdias so verdadeiramente diferentes. Por outras palavras, o que ns pretendemos descobrir se a diferena entre as mdias estatisticamente diferente. Mesmo que ns possamos concluir que as mdias so diferentes, tambm temos de decidir se elas diferem o suficiente para poderem ser consideradas de importncia prtica . Posto isto, fiquemos com esta ideia principal da comparao de mdias: o que importa no o quanto as mdias amostrais esto distantes , mas o quo distantes esto relativamente variabilidade de observaes individuais. A ANOVA permite a comparao da variao resultante de fontes especficas com a variao entre indivduos que deveriam ser semelhantes. Em particular, a ANOVA testa se vrias populaes tm a mesma mdia, comparando o afastamento entre as mdias amostrais com a variao existente dentro das amostras. A ANOVA pressupe que podemos decompor cada valor observado em trs termos aditivos; ou seja, ns somos capazes de escrever cada observao como uma soma de trs termos.
Em que valores observados em cada grupo - mdia geral parmetro para o tratamento termos residuais (diferena entre o valor observado e o modelo ajustado erro/resduo) - refere-se ao grupo refere-se observao dentro do grupo Quais so os pressupostos da aplicao da Anlise de Varincia? Ser que esta tcnica fantstica pode ser sempre utilizada quando queremos comparar mdias ? A resposta NO! Para se poder conduzir um estudo de anlise de varincia, necessrio que os seguintes pressupostos se verifiquem: Os grupos de observaes devem ser independentes entre si Cada grupo de observaes deve seguir uma distribuio Normal Deve existir homogeneidade de varincias
Chegados a este ponto, resta-nos ento tentar explicar como devemos proceder para conduzir um estudo de anlise de varincia na sua forma mais simples. Como todos os estudos estatsticos o princpio de tudo centra-se na formulao das hipteses: Todas as mdias so iguais : Pelo menos uma das mdias difere das restantes A etapa seguinte ser o clculo do valor do teste F, que posteriori dever ser comparado com o valor do teste F critico tabelado. Caso o valor do teste F calculado seja maior do que o valor da tabela, devemos rejeitar a hiptese nula e assumir ento que pelo menos uma das mdias amostrais difere das restantes. O valor do teste F calculado de acordo com os dados indicados na tabela seguinte: Origem de variao Tratamento Erro Total Em que k n amostras n total de indivduos Graus liberdade k-1 n-k n-1 Soma de quadrados SQA SQE SQT Quadrados mdios QMA QME F QMA/QME
Vamos ento exemplificar um estudo de Anlise de Varincia com um exemplo sobre o crescimento de uma espcie de peixes alimentada por 3 tipos de alimentao diferentes. Eis os nossos dados: A 75 67 70 75 65 71 67 67 76 68 B 57 58 60 59 62 60 60 57 59 61 C 58 61 56 58 57 56 61 60 57 58
Calculando os somatrios das observaes e as respetivas mdias :
Pgina 6
) (
) )
Origem de variao Tratamento Erro total Total geral : Soma dos quadrados : Valor
( )(
Graus liberdade 3-1=2 30-3=27 30-1=29
Soma de quadrados SQA=864.867 SQE=198.6 SQT=1063.467
Quadrados mdios QMA=864.867/2=432.434 QME=198.6/27=7.356
F QMA/QME=58.79
Concluso : como Fcalc > Ftab rejeitamos a hiptese nula de que as mdias so iguais. Ao nvel de significncia de 5% podemos afirmar que existem diferenas entre os 3 tipos de alimentao dos peixes. Atendendo aos nossos resultados, acabmos por perceber que o clculo da Anova mostra que parecem existir evidncias estatsticas de diferenas entre os tipos de alimentao dos peixes. Mas esta concluso muito vaga e teramos todo o interesse em aprofundar esta informao. Se existem diferenas, quais so os tipos de alimentao que diferem mais dos restantes? E todos diferem uns dos outros? Para investigar um pouco mais, o procedimento mais usual o dos testes de comparao mltipla sobre os quais nos iremos debruar na prxima seco.
IV - TESTES DE COMPARAO MLTIPLA E CONTRASTES

Quando o resultado do teste de F da Anlise de Varincia significativo, existem evidncias para a no aceitao de H0 como verdadeira, ao nvel % de probabilidade, isto , admite-se a existncia de efeitos diferenciados para, pelo menos dois tratamentos. O prximo passo ser a identificao das diferenas existentes entre os tratamentos. Este estudo ser feito atravs das mdias dos tratamentos obtidas. Os estudos sobre as mdias dos tratamentos levam em conta o tipo de fator que est em estudo: se o fator em estudo na experincia uma varivel qualitativa (variedades, tipos de adubos, diferentes dietas alimentares) o procedimento apropriado o das comparaes entre as mdias dos tratamentos atravs de testes de comparaes mltiplas. Se se tratar de uma varivel quantitativa (doses de adubo, espaamentos, nveis de irrigao, pocas de amostragem), utiliza-se a anlise de regresso para o estudo do efeito dos tratamentos na varivel resposta.
Pgina 7
CONTRASTES
Uma comparao entre mdias de tratamentos denominada contraste quando puder ser expressa por uma funo linear destas mdias, de acordo com uma expresso do tipo:
Em que
sendo
o nmero de repeties do tratamento i.
TESTES DE COMPARAO MLTIPLA
Se, aps a aplicao da anlise de varincia formos conduzidos rejeio da hiptese nula, existem evidncias estatsticas de que existem diferenas entre as mdias populacionais. Mas ser isso suficiente para o investigador? Ser que no podemos ir um pouco mais alm? Ese fosse possvel determinar com mais exactido onde se encontram essas diferenas? Se fosse possvel encontrar quais os grupos que apresentavam maiores diferenas entre si? De facto, possvel faz-lo e de diferentes formas. Mais uma vez, tal poder ser determinado mo ou com recurso a softwares especficos. Estamos a falar de Testes de Comparao mltipla e eles so imensos, todos com critrios diferentes de aplicao, alguns que podem ser conduzidos no SPSS, por exemplo, outros no R ou na STATISTICA, e, claro, como no podia deixar de ser, alguns at so perfeitamente exequveis moda antiga, com papel e caneta.
A HISTRIA POR DETR S DOS TESTES DE COMP ARAO MLTIPLA OU T ESTES POST - HOC
O interesse no problema das comparaes mltiplas comeou na dcada de 1950 com o trabalho de Tukey e Scheff. Este interesse estendeu-se por cerca de duas dcadas e, logo em seguida, veio um declnio. Alguns at pensaram que este campo estava morto. Mas no era bem assim. Cada vez mais foram surgindo ideias , principalmente como resposta s necessidades das estatsticas mdicas. Lanaram-se novos testes que se juntaram aos que j existiam: surge o procedimento de teste Fechado (Marcus et al, 1976.), o Mtodo de Holm-Bonferroni (1979). Mais tarde, na dcada de 1980 esta questo das comparaes mltiplas ressurgiu em fora. Foram publicados livros, imensos livros por Hochberg e Tamhane (1987), Westfall and Young (1993), e Hsu (1996). Em 1996, a primeira conferncia sobre comparaes mltiplas ocorreu em Israel. Esta reunio de pesquisadores foi seguida por mltiplas conferncias em todo o mundo: Berlim (2000), Bethesda (2002), Xangai (2005), Viena (2007) e Tquio (2009). Parecia ser bvia a importncia que os testes tinham para os investigadores. As opinies no eram consensuais, mas a maior parte dos cientistas manifestava claramente preferncia por 2 ou 3 destes testes. Alguns deles ficaram mais conhecidos na dcada de 30 (tal como a Anova), outros s se desenvolveram mais tarde, nos anos 50 : Duncan (1955), o HSD de Tuckey, o teste de contrastes de Scheff (1953), o mtodo de Dunnett (1955) e uma outra proposta de SNK (Keuls, em 1952).
TIPO DE TESTES DE CO MPARAO MLTIPLA
O termo "comparaes" em comparaes mltiplas, tipicamente refere-se a comparaes entre dois grupos, tais como um grupo de tratamento e um grupo de controlo. "As comparaes mltiplas" surgem quando uma anlise estatstica engloba uma srie de comparaes formais, com a presuno de que a ateno se concentrar em mais fortes
diferenas entre todas as comparaes que so feitas. A falha para compensar para as comparaes mltiplas pode ter importantes. So vrios os testes de comparao mltipla que podem ser utilizados aps a no aceitao de H 0 como verdadeira, mas centremo-nos apenas naqueles que so mais utilizados e nas razes pela quais se opta por este e no por aquele. No que diz respeito ao poder do teste, legitimo afirmar que o teste t e o de Duncan so os que mais se destacam, mas no que se refere ao rigor, as opinies convergem para o de Tuckey, Benferroni e Scheff. No seria de todo possvel explanar todos os testes com o rigor e detalhe que lhe so merecidos (dada a sua importncia), mas optmos por deixar aqui as caractersticas daqueles que mais se destacam e a exemplificao das suas aplicaes.
TESTE DE TUKEY HONES TLY SIGNIFICANT DIFF ERENCE ( HSD OU TUKEY )
O teste de Tuckey frequentemente utilizado para calcular as diferenas entre duas mdias (usando a distribuio de t-student). Todas as diferenas so avaliadas por meio de uma distribuio de amostragem, o que torna este mtodo bastante conservador. um teste que pode ser conduzido atravs do SPSS, e do R tambm. aplicvel quando as amostras apresentam iguais dimenses (caso equilibrado) O procedimento bastante simples na realidade e exemplificaremos com o exemplo da alimentao dos peixes que j apresentmos anteriormente e no qual rejeitmos a hiptese nula. Utilizaremos Tuckey porque as amostras tinham a mesma dimenso. Calculamos Sendo e rejeitamos a igualdade entre as mdias sempre que se verifique HSDcritico < HSDentre grupos | | e
) (
)(
Vamos ento exemplificar com o estudo dos peixes: | | | | | | ( ) ( )
Neste caso, o teste de Tuckey devolve-nos a concluso de que existem diferenas entre o tipo A e B de alimento e entre o tipo A e C (so as diferenas que verificam a condio de rejeio da igualdade entre as mdias.
TESTE DE SCHEFF
O teste de Scheff pode ser empregue para testar qualquer tipo de contraste no sendo, no entanto, recomendado para testar contraste de duas mdias por ser muito pouco conservador. habitual utilizar o teste de Scheff preferencialmente ao de Tuckey quando as amostras apresentam dimenses diferentes. A estatstica para o teste de Scheff dada por:
| (
| )
) Em que ( ) sendo F(k-1,n-k) () o valor tabelado da distribuio F com (k-1,n-k) graus de ( liberdade e nvel de significncia () As hipteses nulas Ho : so rejeitadas quando TS > ( )
( )(
TESTE DE BONFERRON I
Fisher foi de facto um pioneiro no seu tempo e no constitui surpresa a existncia de um teste de comparao mltipla proposto por si, denominado procedimento de Bonferroni. Este procedimento consiste na realizao de um teste t para cada par de mdias a uma taxa de erro por comparao (TPC) de
( )
. Usando esse teste, o nvel de significncia da
famlia no mximo , para qualquer configurao (formao) das mdias da populao. Dessa forma, temos que o teste de Bonferroni protege a taxa de erro da famlia dos testes. Isso ilustra a taxa de erro conhecida como taxa de erro por famlia. O teste de Bonferroni pode ser usado para quaisquer que sejam os dados equilibrados ou no. Para casos equilibrados
)
e para tamanhos de amostras diferentes (dados no equilibrados)

)
em que
( ) e c o nmero de comparaes duas a duas (ou tambm podemos dizer que o nmero de
( )
intervalos em estudo.
pertena da distribuio de probabilidade t-Student com parmetro N-k .
Existem muitos outros testes Post Hoc (cerca de 30) mas, por uma razo ou por outra, acabamos por utilizar sempre os mesmos atendendo sua especificidade, rigor e potncia. Para o propsito deste trabalho no descreveremos os demais, mas deixamos aqui uma referncia a algumas das suas designaes: Student Neuman Keuls (SNK) Tukey Honestly Significant Difference (HSD ou Tukey) Fisher Protected Least Significant Difference (LSD) Duncan Multiple Range Test (Duncan) Teste de Ryan Teste de Peritz Teste de Scheff Teste de Dunnett
Correco de Bonferroni sequencial Teste T3 de Dunnet (rank based) Teste C de Dunnet (rank based) Teste de Games Howell (rank based)
V - MODELOS LINEARES GENERALIZADOS

A Estatstica utiliza muitas vezes modelos que assentam no pressuposto de que os dados de que dispomos seguem uma distribuio Normal a Anova e a Regresso logstica so alguns dos exemplos em que tal acontece. Se tal no for possvel (assumir que os dados so provenientes de uma populao normal) conduzir testes usando as tcnicas habituais poder ser prejudicial ao estudo, pois a probabilidade de obtermos resultados no fiveis maior. Ao executarmos estes procedimentos aumentamos significativamente a possibilidade de ocorrncia de erros tipo I e II. Podemos utilizar modelos lineares generalizados quando a varincia no constante e/ou quando os erros no so normalmente distribudos. O uso dos modelos lineares generalizados foi difundido por Nelder e Wedderburn (1972). Os MLGs foram criados com o objetivo de reunir numa mesma famlia vrios modelos estatsticos que eram tratados separadamente. Existem inmeras razes para se utilizar MLG. Quando os usamos, assumimos que a varivel Y seja gerada a partir de uma diversidade de distribuies que tentam ultrapassar a dificuldade provocada pela no normalidade dos dados. Na denio de McCullagh e Nelder (1989), um Modelo Linear Generalizado assenta sobre trs componentes fundamentais:
A
COMPONENTE ALEATRIA
A varivel-resposta Y que se quer modelar, tratando-se duma varivel aleatria da qual se recolhem n observaes independentes e cuja distribuio de probabilidades faz parte da famlia exponencial de distribuies
B
COMPONENTE SISTEMTI CA
Consiste numa combinao linear das variveis preditoras (independentes) . Se tivermos p variveis preditoras e n observaes a expresso da componente sistemtica dada por
() () () ()
Esta notao tambm pode ser representada na forma matricial:

( )
[
( )
FUNO DE LIGAO :
Trata-se de uma funo diferencivel e montona g que associa as componentes aleatria e sistemtica, atravs duma relao da forma: ( ) ( [ ]) ( ) ( [ ])
()
Pgina 11
Em que: Y o vetor com as n observaes = E [Y ] = ( 1 ,

2,
...,
n)t
o vetor de valores esperados das n observaes de Y;
xi a i-sima linha da matriz X (enquanto vetor coluna), isto , o conjunto de valores das variveis preditoras para os quais se efetuou a i-sima observao da varivel-resposta. As funes de ligao para os MLG so imensas. Na tabela em anexo , algumas delas: funo identidade log inversa Inversa quadrtica Raiz quadrada logit probit log-log log-log complementar ( ) ln
( ) ( ) -ln [ ( )] ln [ ( )]
Existe uma funo de ligao cannica associada a cada distribuio da varivel-resposta. As funes de ligao cannica so teis porque simplificam consideravelmente o estudo do Modelo. A ligao cannica representa uma forma de ligao natural para o respetivo tipo de distribuio da varivel -resposta. Na tabela seguinte encontra-se resumidas algumas das funes de ligao cannica. Destacamos a identidade que habitualmente utilizada no modelo linear. A funo logit destaca-se no elo regresso logstica como iremos ver mais adiante.
Distribuio Normal Poisson Binomial Gama Normal Inversa
Funo de ligao cannica Identidade: Logartmica: Logstica: Recproca: Recproca do quadrado: ( ( ) ) ( )
Pgina 12
MODELOS LINEARES DIS CRETOS
A aplicao dos modelos lineares generalizados muito diversificada, podendo destacar as cincias da vida (biologia, gentica, medicina),na agricultura e tambm nas cincias sociais (psicologia, antropologia, poe exemplo). Se os fenmenos que tentamos modelar so variveis discretas, ento estes modelos so denominados Discretos. Os modelos lineares generalizados discretos mais usuais so o modelo de regresso logstica, o de Poisson (bastante usado nas tabelas de contingncia para variveis categricas)e tambm o de Dose-resposta (amplamente utilizado nas cincias biomdicas).
MODELOS LINEARES CON TINUOS
Os modelos lineares generalizados so mais um caso particular dos MLG, desta feita, as distribuies que os modelam so contnuas, como a Normal , a Gama e a normal inversa. Como se sabe, qualquer modelo para se enquadrar nos modelos lineares generalizados tem de pertencer famlia exponencial e, de fato, possvel construir transformaes nestas distribuies por forma a consegui-lo. A sua demonstrao ficar para trabalhos futuros.
VI-ANLISE DE REGRESSO
A regresso tem a sua origem na tentativa de relacionar um conjunto de observaes de certas variveis, designadas genericamente por (k=1p), com as leituras de uma certa grandeza Y, ou seja, da pretenso de perceber como se comporta a varivel resposta Y quando sujeita aco das variveis causadoras. Em muitos problemas de diferentes cincias das reas mdica, biolgica ou at mesmo industrial, existe uma necessidade muito grande de se verificar de 2 ou mais variveis esto relacionadas de alguma forma. Habitualmente, tal conseguido atravs de modelos matemticos. Quando procedemos deste modo para este fim estamos a fazer um estudo de regresso. Esta relao pode ser analisada como sendo um processo. Neste processo, os valores de variveis de entrada /regressoras e o de a varivel de Sada/resposta. so as
A Anlise de Regresso possibilita encontrar uma relao razovel entre as variveis de entrada e sada, por meio de relaes empricas. Se estamos interessados na relao de apenas uma varivel de entrada com a varivel resposta temos o caso de Regresso Linear Simples. Mas se queremos relacionar a varivel resposta com mais de uma varivel regressora, a Regresso Linear Mltipla utilizada. Objetivos Os Modelos de Regresso so construdos com os objetivos: i) Predio - Uma vez que esperamos que grande parte da variao da varivel de sada seja explicada pelas variveis de entrada, podemos utilizar o modelo para obter valores de Y correspondentes a valores de X que no estavam entre os dados. Esse procedimento chamado de predio e, em geral, usamos valores de X que esto dentro do intervalo de variao estudado.
ii) Seleo de variveis - Frequentemente, no se tem ideia de quais so as variveis que afetam significativamente a variao de Y. Para responder a esse tipo de questo, estudos so realizados com um grande nmero de variveis. A anlise de regresso pode auxiliar no processo de seleo de variveis eliminando aquelas cuja contribuio no seja importante; iii) Estimao de parmetros - Dado um modelo e um conjunto de dados referente s variveis resposta e preditoras, estimar parmetros ou ajustar um modelo aos dados significa obter valores ou estimativas para os parmetros, por algum processo, tendo por base o modelo e os dados observados; iv) Inferncia - O ajuste de um modelo de regresso em geral tem por objetivos bsicos, alm de estimar os parmetros, realizar inferncias sobre eles, tais como, testes de hipteses e intervalos de confiana. No nosso objetivo descrever exaustivamente os mtodos de regresso, mas mostra-se importante explorar com algum cuidado a regresso logstica, principalmente pela sua ligao aos modelos lineares generalizados. A regresso logstica uma semelhante a regresso linear e usada quando temos uma varivel dependente binria. O objetivo saber quais as variveis independentes influenciam ao resultado (varivel dependente) e us-las numa equao para prever o resultado de um indivduo custa das variveis independentes.
REGRESSO LOGISTICA
A regresso logstica tambm uma tcnica estatstica cujo principal objectivo produzir, a partir de um conjunto de observaes, um modelo de predio, isto , que permita prever os valores tomados por uma varivel que habitualmente categrica e binria. Comparando este modelo de regresso com os demais, a regresso logstica distingue-se principalmente porque a varivel resposta categrica. Se atendermos aos contedos e mbito do programa do MBB, facilmente nos apercebemos que a rea das cincias da vida aquela que pode tirar maior partido das inmeras tcnicas estatsticas existentes. Quando pensamos por exemplo, em termos mdicos, tenta-se responder constantemente mesma pergunta: qual a relao entre uma ou mais variveis que reflectem a exposio e a doena? Isto , pretende-se determinar qual a probabilidade de ocorrncia conhecendo a forma como ocorre a exposio. Evidentemente, tratando-se de uma probabilidade, o seu valor situar-se- entre 0 e 1. Quando utilizamos o modelo de regresso logstica, tentamos estudar a possibilidade de ocorrncia da doena (a nossa varivel dependente) perante o conhecimento dos valores de um conjunto de variveis independentes. Expliquemos um pouco melhor. Supor que temos os dados de uma amostra de pacientes a quem se mediu o nvel de colesterol, a glicmia, o nvel de diabetes, se so fumadores/ou no, e os valores das suas tenses arteriais, por exemplo. Na posse destes dados, pretendemos determinar qual a probabilidade de ocorrncia de um enfarte do miocrdio, por exemplo. O modelo de regresso logstica permitir-nos-a conduzir um estudo como este e levar-nos-a a alguns resultados interessantes. Trata-se de um modelo de regresso para variveis dependentes. til para modelar a probabilidade de ocorrncia de um evento ocorrer devido a outros factores. A medida de associao calculada a partir do modelo logstico o odds ratio. A funo logstica varia entre 0 e 1. A funo logistica, amplamente utilizada na rea da medicina e da epidemiologia apresenta um traado caracterstico em forma de S alongado , conforme a figura:
Pgina 14
Para podermos avanar por este caminho precisamos de medidas de associao, que, no caso do modelo logstico, o Odds Ratio. Os odds ratio ajustados so obtidos atravs da comparao de indivduos que diferem apenas na caracterstica de interesse e que tenham os valores das outras variveis constantes. O ajuste apenas estatstico. Podemos assim afirmar que o modelo de regresso logstica um modelo linear generalizado que usa como funo de ligao a funo logit. A regresso logstica analisa os dados que seguem uma distribuio binomial na forma ( ) em que representa o nmero de ensaios e a probabilidade do sucesso ocorrer. O modelo obtido seguindo o pressuposto de que o conjunto de variveis explicativas poder ajudar-nos a calcular a probabilidade final de ocorrncia do sucesso/insucesso da varivel categrica binria. Podemos ento escrever as variveis explicativas na forma vectorial , k-dimensional : ( O modelo de funo linear dos ( ) ( ) | )
ento criada atravs da funo logit :
O nosso modelo apresenta ento uma forma equivalente

( )
Os termos
podero ser calculados atravs do mtodo da mxima verossimilhana.
Ao afirmarmos que a regresso logstica um MLG temos ento que identificar as 3 componentes que so caracterstica destes modelos:
sistemtica Funo de ligao funo Componente aleatria Y (varivel Componente resposta) combinao linear das variveis diferencivel e montona que associa Y segue uma distribuio pertencente preditoras as duas componentes anteriores famlia exponencial ( )
( )
Pgina 15
Se relativo)
( )
ento
um odds ratio (estimativa do risco
Desta forma, se Se
o risco de Y=1 o mesmo quando
aumenta uma unidade
o risco de Y=1 maior quando o risco de Y=1 menor quando
aumenta uma unidade aumenta uma unidade
Clculos de valores preditivos positivos e negativos e curvas ROC so anlises complementares que refinam a compreenso da eficcia do modelo de regresso. Grficos de disperso que mostram a probabilidade do evento ocorrer de acordo com a varivel independente escolhida devem corroborar na coerncia do modelo com a teoria. Como evidente o traado desta curva estender-se- em [0,1]. Obviamente, muito difcil termos 100% de eficcia de um modelo de regresso, afinal, h sempre indivduos mais distantes da linha (ou curva) gerada pela equao do modelo de regresso, os denominados outliers. Aps estimar os coeficientes do modelo, temos interesse em assegurar a significncia das variveis nesse mesmo modelo. Isto geralmente envolve formulao e teste de uma hiptese estatstica para determinar se a varivel independente no modelo significativamente relacionada com a varivel resposta. Essa a razo pela qual se procedem a testes . Os mais utilizados no caso da regresso logstica so os testes da Razo da Verossimilhana, Wald e Score.
TESTE DE WALD
Este teste obtido por comparao entre a estimativa de mxima verossimilhana de e a estimativa do seu erro. Formulamos as hipteses : H0 : vs H1 : e a estatstica do teste :
( )
TESTE DA RAZO DE VE ROSSIMILHANAS
Na regresso logstica pretendemos comparar os resultados obtidos da varivel resposta com os valores obtidos dos modelos com e sem a varivel em questo, atravs do log da verossimilhana. Desta forma podemos escrever a expresso do teste : TRV = -2 ln (Ls) + 2 ln (Lc) , sendo Ls = verossimilhana sem a varivel e LC = verossimilhana com a varivel A regra da deciso assenta na anlise do p-value como habitual, rejeitando H0 se pvalue < Se rejeitarmos a hiptese nula concluiremos que a varivel utilizada significativa para o modelo.
TESTE DE SCORE
O teste de Score tem o mesmo objectivo dos anteriores diferindo apenas na sua estatstica de teste
Pgina 16
( (
( ) (
) ) )
Sendo que representa a proporo de sucessos na amostra Tambm aqui devemos formular primeiro as hipteses que as dos outros testes, uma vez que, a questo que se coloca idntica: H0 : vs H1 :
VII-MULTICOLINEARIDADE
A multicolinearidade um problema frequente em estudos que envolvem regresso, onde as variveis independentes tm relaes lineares exatas ou quase exatas. O indcio mais forte de existncia de multicolinearidade um valor muito elevado de R2 , sendo no entanto que, nenhum dos coeficientes do modelo de regresso estatisticamente significativo quando se aplica uma estatstica t convencional. As principais consequncias da existncia de multicolinearidade na regresso so a existncia de erros padro muito elevados (multicolinearidade moderada) ou uma estimao impossvel, no caso da multicolinearidade ser perfeita. A existncia de multicolinearidade uma das premissas fundamentais para estabelecer um modelo de regresso correto. Sendo ento a multicolinearidade um aspeto essencial quando estabelecemos um modelo de regresso, como detetla e eventualmente, corrigi-la? Existem vrias formas de o fazer. Podemos identificar a sua existncia : teste F bastante significativo ou R2 muito elevado (<<1) sinais dos coeficientes diferentes do esperado identificar a correlao entre as variveis observar o comportamento dos coeficientes quando adicionamos ou retiramos variveis se houver alteraes drsticas principalmente nos sinais dos coeficientes
O que fazer para ultrapassar a situao? Retirar a varivel correlacionada se as variveis esto muito correlacionadas, o efeito da varivel retirada j capatado pelas restantes, sendo o seu uso desnecessrio Aumentar a amostra um aumento das observaes pode refletir melhor os resultados
Como podemos fazer para identificar corretamente a multicolinearidade? Podemos conduzir testes, claro! E que testes podero ser levados a cabo para este fim? Teste de Ferrar & Glauber So formuladas as hipteses, como habitual: H0: ausncia de multicolinearidade vs H1 : existe multicolinearidade
( )
Pgina 17
Em que
)]
E em que n = n de observaes k = n de variveis rij = coeficiente de correlao parcial Se teste > crtico rejeitamos a hiptese nula (h correlao entre as variveis)
Teste VIF
Se VIF: - at 1 sem colinearidade - de 1 a 10 multicolinearidade aceitvel - acima de 10 multicolinearidade problemtica Em que rk o coeficiente de correlao da varivel k com as restantes variveis Teste Tolerance Tolerancek = Se Tolerance : - at 1 sem colinearidade - de 1 a 0.10 multicolinearidade aceitvel - abaixo de 0.10 multicolinearidade problemtica Em que rk o coeficiente de correlao da varivel k com as restantes variveis
VIII - A APLICABILIDADE DO R NO ESTUDO DOS MODELOS LINEARES GENERALIZADOS

Na busca de um exemplo simples que pudesse mostrar a aplicao dos modelos lineares generalizados, encontrei este ficheiro fragata.txt. Nele se encontram as medies efectuadas por um investigador no Brasil. Fregata magnificens uma espcie de ampla distribuio geogrfica, no Brasil so encontradas colnias em Fernando de Noronha, Bahia, Rio de Janeiro, So Paulo, Paran e Santa Catarina (Sick, 1997). As Ilhas Moleques dos Sul o limite austral de ocorrncia de colnia de reproduo para esta espcie e o nico sitio de nidificao no Estado de SC (Branco, 2003). Os ninhos, em geral, so construdos sobre arbustos e rvores, com gravetos retirados do local e compactados com as prprias fezes (Branco, 2003). Assim, um pesquisador quis investigar se a utilizao ou no de rvores por F. magnificens (fragatas) para construir seus nichos era dependente da altura da rvore. Ele designou sucesso (1) quando haviam fezes ao redor da rvore e falha (0) quando no haviam fezes de F. magnificens. onde alt. - a altura da rvore (metros) e resp - a resposta (sucesso ou falha).
Pgina 18
De seguida o estudo conduzido por ns no software um modelo linear generalizado:
tentando responder questo de investigao atravs de
> fragata<-read.table("C:/Users/carlinha/desktop/fragata.txt",header=TRUE) > fragata > plot (fragata$alt,fragata$resp,xlab="altura",ylab="Resposta(0 e 1)",col="red")
> mod<-glm(resp~alt,data=fragata,family=binomial) > summary(mod)
Eis o output do
Pgina 19
Call: glm(formula = resp ~ alt, family = binomial, data = fragata) Deviance Residuals: Min 1Q Median 3Q Max
-1.9343 -0.5925 -0.2857 0.5805 1.8673 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -4.19548 1.65883 -2.529 0.0114 * alt 0.20341 0.08046 2.528 0.0115 *
O modelo encontrado
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 = exp(-4.19548 +0.20341 x)/ (1+ exp (-4.19548 +0.20341 x)) (Dispersion parameter for binomial family taken to be 1) Null deviance: 30.789 on 22 degrees of freedom Residual deviance: 19.914 on 21 degrees of freedom AIC: 23.914 Number of Fisher Scoring iterations: 5
Inserindo o traado da curva logistica : > curve((exp(-4.19548+0.20341*x))/(1+(exp(-4.19548+0.20341*x))),add=T,col="blue",lwd=2)
E fazendo a anlise dos resduos : > par(mfrow=c(2,2)) > plot(mod,which=c(1,2,3,4))

A observao dos grficos dos resduos mostram que o ajuste do modelo adequado
Por fim, determinar algumas probabilidades de encontrar a espcie em estudo : > prob<-((exp(-4.19548+0.20341*x))/(1+(exp(-4.19548+0.20341*x)))) > prob15<-((exp(-4.19548+0.20341*15))/(1+(exp(-4.19548+0.20341*15)))) > prob15
> prob5<-((exp(-4.19548+0.20341*5))/(1+(exp(-4.19548+0.20341*5)))) > prob5
Quando a altura 15 metros: [1] 0.2415263 Quando a altura 15 metros a probabilidade de encontrar esta espcie de aves cerca de 24.15% Quando a altura 5 metros: [1] 0.03998556 Quando a altura 5 metros a probabilidade de encontrar esta espcie de aves cerca de 4% Daqui se conclui que quanto mais baixa a rvore, menor a probabilidade de encontrar o ninho da espcie Fregata magnificens
IX FECHANDO COM CHAVE DE OURO

Ao longo deste trabalho pudemos perceber que existe uma diversidade muito grande de tcnicas estatsticas e tambm que devemos ter redobrados cuidados ao aplic-las fundamental certificarmo-nos primeiro que todos os pressupostos necessrios so satisfeitos sob pena de adulterarmos os resultados obtidos em termos de fiabilidade. Tambm tentmos mostrar que as tcnicas se entreajudam e se complementam umas s outras. Por isso mesmo, decidimos encerrar este priplo estatstico conduzindo um estudo que envolvesse algumas das tcnicas anteriormente estudadas, desta feita, em conjunto e em perfeita harmonia. Optmos por um exemplo sobre poluio que tambm se insere no mbito dos temas do MBB. Encontrmos um ficheiro simptico no qual se encontram as medies dos nveis de poluio e uma srie de possveis factores causadores das mesmas : vento, chuva, temperatura, dias hmidos, populao e indstria. Optmos por este exemplo por nos parecer ser til para demonstrar a utilidade da anlise de regresso. Como no exemplificmos todos os modelos de regresso existentes ao longo do trabalho (porque esse no era o propsito) deixamos aqui este exemplo de um modelo de regresso mltipla no qual se pretende avaliar quais os factores que so mais determinantes para o nvel de poluio. Numa primeira etapa selecionmos como variveis preditoras a temperatura o nmero de indstrias e a velocidade mdia do vento.
> poluicao<-read.table("C:/Users/Carlinha/Desktop/pollution.csv",sep=";",header=TRUE) > par(mfrow=c(1,3)) > plot(pollution~indust,data=poluicao) > plot(pollution~temp,data=poluicao) > plot(pollution~wind,data=poluicao)
A observao dos grficos permite-nos perceber que apenas o nmero de indstrias ter efeito sobre os nveis de poluio pois a sua nuvem de pontos encontra-se menos expandida
Como tal, vamos construir um modelo de regresso linear apenas com este efeito:
Pgina 22
> pol1.mod1<-lm(pollution~indust,data=poluicao) > plot(pollution~indust,data=poluicao) > abline(pol1.mod1,col="red")
Testmos o modelo por ns criado atravs da Anova:
> anova(pol1.mod1)
Analysis of Variance Table Response: pollution Df Sum Sq Mean Sq F value Pr(>F) indust 1 8969.2 8969.2 37.65 8.34e-07 ***
Residuals 31 7385.1 238.2 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 > summary(pol1.mod1) Call: lm(formula = pollution ~ indust, data = poluicao) Residuals: Min 1Q Median 3Q Max
-26.463 -12.188 -2.845 7.450 34.728 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 16.816787 3.528246 4.766 4.19e-05 *** indust 0.027249 0.004441 6.136 8.34e-07 *** O p-value indica que o modelo adequado
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Pgina 23
Decidimos comparar este modelo com o modelo mais simples possvel aquele que no teria efeito de qualquer varivel preditora . Desta forma poderemos tentar perceber qual a influncia desta varivel nos nveis de poluio. Usaremos uma Anova novamente:
> pol0.mod0<-lm(pollution~1,data=poluicao) > anova(pol0.mod0,pol1.mod1)
Analysis of Variance Table Model 1: pollution ~ 1 Model 2: pollution ~ indust Res.Df 1 2 RSS Df Sum of Sq F Pr(>F)
32 16354.2 31 7385.1 1 8969.2 37.65 8.34e-07 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Decidimos comparar os dois modelos concorrentes:
> plot(pollution~indust,data=poluicao) > abline(pol1.mod1,col="blue") > abline(h=mean(poluicao$pollution),col="green")
O R permite-nos realizar este tipo de anlise e manipular os dados tantas vezes quantas as necessrias. Vejamos o que acontece quando decidimos averiguar se outros factores tambm contribuem de forma significativa para os nveis de poluio:
> pol2.mod2<-lm(pollution~indust+temp,data=poluicao) > anova(pol1.mod1,pol2.mod2) Fatores temperatura mdia e indstria
Analysis of Variance Table Model 1: pollution ~ indust Model 2: pollution ~ indust + temp Res.Df RSS Df Sum of Sq 1 2 31 7385.1 30 5495.0 1 1890 10.319 0.003138 ** A incluso do fator temperatura devolve o teste F significativo F Pr(>F)
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> pol3.mod3<-lm(pollution~indust+temp+wind,data=poluicao) > anova(pol2.mod2,pol3.mod3) Fatores temperatura mdia indstria e vento
Analysis of Variance Table Model 1: pollution ~ indust + temp Model 2: pollution ~ indust + temp + wind Res.Df RSS Df Sum of Sq 1 2 30 5495.0 29 4778.3 1 716.72 4.3499 0.04592 * A incluso do vento no melhorou o modelo F Pr(>F)
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Realizando uma anova apenas para este 3 modelo :
> anova(pol3.mod3)
Analysis of Variance Table Response: pollution Df Sum Sq Mean Sq F value Pr(>F) indust temp wind 1 8969.2 8969.2 54.4348 3.961e-08 *** 1 1890.0 1890.0 11.4708 0.002049 ** 1 716.7 716.7 4.3499 0.045920 * Fatores que realmente se destacam
Residuals 29 4778.3 164.8 Planeamento de Experincias e Investigao Pgina 25
X CONCLUSO
Tentmos percorrer algumas das tcnicas estatsticas que foram desenvolvidas no mbito desta unidade curricular. No seria possvel faz-lo na totalidade nem era esse o nosso objectivo. Queramos apenas clarificar alguns aspectos que julgamos serem de grande importncia. Dado j termos desenvolvido outros trabalhos sobre Anova, Regresso e Inferncia, optmos por no nos estendermos desta vez. Em vez disso, apresentmos 3 estudos, um sobre anlise de varincia e mtodos de comparao mltipla, realizado sem recurso a software , outro mais completo, sobre a aplicao dos modelos lineares generalizados e respetiva anlise de resduos e ainda um estudo alargado sobre a aplicao da regresso mltipla+ anova, onde explormos estas duas tcnicas conjuntamente como forma de demonstrar que no podem ser independentes. A anlise de varincia uma ferramenta poderosa a que os estatsticos recorrem mltiplas vezes e com propsitos diferentes. Tentmos ser objetivos nas nossas exposies por forma a que o leitor no se sentisse nem maado nem desmotivado para prosseguir a leitura. Este foi um trabalho que deu gosto fazer principalmente pelas revises a que tivemos que proceder. Existem procedimentos que, realmente , so mais complexos de se fazer, mas outros, com o recurso ao software adequado so bastante acessveis de se executar. O importante , parece-nos, perceber o porqu da aplicao desta ou daquela tcnica e saber ler os resultados. Quando fazemos investigao, temos que focar-nos no que constitui o essencial. Devemos simplificar os nosso modelos por forma a conseguirmos ler os resultados que vamos alcanando. Sabemos que muito ficou por dizer e gostaramos de o ter feito, mas limitados pelo fator nmero de pginas, tal no foi possvel, ficando para trabalhos futuros, com certeza.
Pgina 26
XI-BIBLIOGRAFIA E WEBGRAFIA
[1] Oliveira, Teresa Paula C., Estatstica Aplicada, Universidade Aberta, 2002 [2] Montgomery, Douglas, Design and Analysis of Experiments, 5th Edition, 1997 [3] Gamst, Glenn, Meyers, Lawrence, Guarino, AJ, Analysis of Variance Designs, Cambridge, 2008 [4] Dean, Angela, Voss, Daniel, Design and Analysis of experiments,1999 [5] Correia, Helga, Anova na Educao, Tese de Mestrado, Universidade Aberta, 2010-2011 [6] Ross, Sheldon, Simulation, 2006 [7] Ferreira, Daniel Furtado, Estatstica Computacional usando R, Brasil, 2008 [8] Landeiro, Victor Lemes, Introduo ao uso do programa R, Brasil, 2011 [9] Provete, Diogo Borges, Silva, Fernando Rodrigues, Estatstica aplicada ecologia usando o R,2011 http://www.moresteam.com/toolbox/design-of-experiments.cfm http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf http://www.bio.ic.ac.uk/research/mjcraw/statcomp/data/ https://sites.google.com/site/tutorialdeanalisesestatisticas/topicos/modelos-lineares-e-modelos-linearesgeneralizados/modelos-lineares-generalizados/distribuicao-binomial/tutorial-1 http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:06-modelos http://www.pedro.unifei.edu.br/download/cap4.pdf http://www.stats.gla.ac.uk/steps/glossary/anova.html http://www.jhuapl.edu/techdigest/TD/td2703/telford.pdf https://onlinecourses.science.psu.edu/stat503/node/6 http://www.ehow.com/about_5463828_history-experimental-design.html http://pt.scribd.com/doc/33385/A-Brief-Overview-of-Design-of-Experiments-for-High-School-Math-and-Science-Students www.portalaction.com.br/919-multicolinearidade https://woc.uc.pt/fpce/getFile.do?tipo=2&id=1516
Pgina 27

Planeamento Experências

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Planeamento Experências

Enviado por

Direitos autorais:

Formatos disponíveis

Este trabalho foi realizado no mbito da UC de Planeamento de experincias e Investigao do Mestrado em Bioestatstica e Biometria da Universidade Aberta de Lisboa

Carla Noronha 1002152

[Escreva o nome da empresa] | I - INTRODUO

Planeamento de Experincias e Investigao

OS VRIOS MODELOS DE PLANO EX PERIMENTAL

III - A TCNICA DA ANLISE DE VARINCIA

Calculando os somatrios das observaes e as respetivas mdias :

Planeamento de Experincias e Investigao

Graus liberdade 3-1=2 30-3=27 30-1=29

Soma de quadrados SQA=864.867 SQE=198.6 SQT=1063.467

Quadrados mdios QMA=864.867/2=432.434 QME=198.6/27=7.356

IV - TESTES DE COMPARAO MLTIPLA E CONTRASTES

Planeamento de Experincias e Investigao

o nmero de repeties do tratamento i.

TESTES DE COMPARAO MLTIPLA

TESTE DE TUKEY HONES TLY SIGNIFICANT DIFF ERENCE ( HSD OU TUKEY )

Vamos ento exemplificar com o estudo dos peixes: | | | | | | ( ) ( )

. Usando esse teste, o nvel de significncia da

e para tamanhos de amostras diferentes (dados no equilibrados)

pertena da distribuio de probabilidade t-Student com parmetro N-k .

V - MODELOS LINEARES GENERALIZADOS

Esta notao tambm pode ser representada na forma matricial:

Planeamento de Experincias e Investigao

Em que: Y o vetor com as n observaes = E [Y ] = ( 1 ,

o vetor de valores esperados das n observaes de Y;

Distribuio Normal Poisson Binomial Gama Normal Inversa

Funo de ligao cannica Identidade: Logartmica: Logstica: Recproca: Recproca do quadrado: ( ( ) ) ( )

Planeamento de Experincias e Investigao

MODELOS LINEARES DIS CRETOS

Planeamento de Experincias e Investigao

ento criada atravs da funo logit :

O nosso modelo apresenta ento uma forma equivalente

podero ser calculados atravs do mtodo da mxima verossimilhana.

Planeamento de Experincias e Investigao

um odds ratio (estimativa do risco

o risco de Y=1 o mesmo quando

aumenta uma unidade

o risco de Y=1 maior quando o risco de Y=1 menor quando

aumenta uma unidade aumenta uma unidade

TESTE DA RAZO DE VE ROSSIMILHANAS

Planeamento de Experincias e Investigao

Planeamento de Experincias e Investigao

VIII - A APLICABILIDADE DO R NO ESTUDO DOS MODELOS LINEARES GENERALIZADOS

Planeamento de Experincias e Investigao

De seguida o estudo conduzido por ns no software um modelo linear generalizado:

tentando responder questo de investigao atravs de

> fragata<-read.table("C:/Users/carlinha/desktop/fragata.txt",header=TRUE) > fragata > plot (fragata$alt,fragata$resp,xlab="altura",ylab="Resposta(0 e 1)",col="red")

> mod<-glm(resp~alt,data=fragata,family=binomial) > summary(mod)

Planeamento de Experincias e Investigao

Inserindo o traado da curva logistica : > curve((exp(-4.19548+0.20341*x))/(1+(exp(-4.19548+0.20341*x))),add=T,col="blue",lwd=2)

E fazendo a anlise dos resduos : > par(mfrow=c(2,2)) > plot(mod,which=c(1,2,3,4))

> prob5<-((exp(-4.19548+0.20341*5))/(1+(exp(-4.19548+0.20341*5)))) > prob5

IX FECHANDO COM CHAVE DE OURO

Planeamento de Experincias e Investigao

> pol1.mod1<-lm(pollution~indust,data=poluicao) > plot(pollution~indust,data=poluicao) > abline(pol1.mod1,col="red")

Testmos o modelo por ns criado atravs da Anova:

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Planeamento de Experincias e Investigao

> pol0.mod0<-lm(pollution~1,data=poluicao) > anova(pol0.mod0,pol1.mod1)

32 16354.2 31 7385.1 1 8969.2 37.65 8.34e-07 ***

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Decidimos comparar os dois modelos concorrentes:

> plot(pollution~indust,data=poluicao) > abline(pol1.mod1,col="blue") > abline(h=mean(poluicao$pollution),col="green")

Inserindo o traado da curva logistica : > curve((exp(-4.19548+0.20341x))/(1+(exp(-4.19548+0.20341x))),add=T,col="blue",lwd=2)

> prob5<-((exp(-4.19548+0.203415))/(1+(exp(-4.19548+0.203415)))) > prob5

Signif. codes: 0 * 0.001 0.01 * 0.05 . 0.1 1

Signif. codes: 0 * 0.001 0.01 * 0.05 . 0.1 1

Signif. codes: 0 * 0.001 0.01 * 0.05 . 0.1 1

Signif. codes: 0 * 0.001 0.01 * 0.05 . 0.1 1