Você está na página 1de 48

IX Curso de Ecologia Quantitativa (Bioestatstica) aplicada Biologia da Conservao

Material de Apoio

Parte 1: Estatstica e interpretao de dados Parte 2: Guia para execuo das anlises estatsticas

Nazar Paulista So Paulo Outubro/ 2007

PARTE 1 ESTATSTICA E INTERPRETAO DE DADOS Paulo De Marco Junior Departamento de Biologia Geral, Universidade Federal de Gois Adriano Pereira Paglia Analista de Biodiversidade- Conservao International do Brasil

INTRODUO O objetivo deste texto no , nem de longe, ser um manual completo para guiar as suas atividades na rea da anlise de dados. Antes, deseja-se apresentar algumas idias interessantes que possam desafiar a vontade de ser mais eficiente no uso destas ferramentas. A nfase aqui demonstrar que todos os testes estatsticos mantm a mesma estrutura lgica e, portanto, podem ser facilmente entendidos. POR QUE USAR ESTATSTICA Considere o seguinte experimento: um pesquisador est interessado em avaliar o status de conservao de duas espcies filogeneticamente prximas. Tendo recursos limitados para ser gasto no manejo destas populaes, ele considera a possibilidade de medir sua variabilidade populacional natural para escolher com qual delas vai gastar seus recursos. Aquela mais varivel deve ser, a longo prazo, mais ameaada de extino por estocasticidade demogrfica. O pesquisador escolhe utilizar estimativas do tamanho destas populaes nos ltimos 5 anos e encontra que a populao A mais varivel que a B. Existe uma pergunta que gera toda a necessidade de serem utilizados mtodos estatsticos: se outro pesquisador repetisse o experimento, qual a probabilidade de encontrar os mesmos resultados, a mesma concluso? Tratando-se de fenmenos biolgicos, cuja natureza est ligada a mltiplas causas de variao, possvel que os resultados particulares observados no sejam repetidos. Isto quer dizer que suas concluses podem ser falsas. Todo e qualquer problema para o qual a pergunta do final do pargrafo anterior possa ser formulada com significado, um problema que exige uma soluo estatstica. FILOSOFIA DE TESTES ESTATSTICOS Todos os mtodos de inferncia estatstica (testes estatsticos) so iguais no sentido de que se baseiam em uma mesma srie de argumentos lgicos. Considere ainda o problema anterior e siga os passos lgicos para um teste:

Formulao de uma hiptese Neste caso, a hiptese bsica que no h diferenas na variabilidade populacional para as duas populaes estudadas que pertencem a duas espcies. Esta hiptese pode ser considerada a mais simples hiptese que pode ser formulada sobre o problema. Qualquer outra hiptese (a espcie A varia mais; a espcie B varia mais) logicamente mais complexa, porque pressupe a existncia de no mnimo um efeito a mais (h um fator que causa a maior variabilidade da espcie A ou B). A hiptese mais simples geralmente chamada de Hiptese nula. Deduo do resultado esperado quando a hiptese nula verdadeira Este um passo obviamente simples: o esperado que a variao seja igual. Pode-se medir esta variao por uma grandeza estatstica chamada varincia. Este passo importante para que se possa operacionalizar o teste, ou seja, definir claramente o que medir na natureza para testar a hiptese. Deduo da distribuio esperada dos possveis resultados, se a hiptese nula fosse verdadeira Este passo delicado. Como seria possvel demonstrar que h uma alta probabilidade de que os resultados sustentem ou no a hiptese nula. Considere um exemplo: a espcie A apresentou uma varincia de 17,6 e a espcie B, uma varincia de 21,3. Ser que isto suficiente para assumir que a espcie B varia mais? O primeiro passo calcular um nmero que represente o resultado obtido. Uma possibilidade dividir a maior varincia pela menor. Chamemos este nmero de F (em honra a Ronald Fisher). Neste exemplo, ele vale 1,21, e representa que a variao na espcie B 1,21 vezes maior que a A. A ateno deve se voltar agora para a hiptese nula. Qual seria a distribuio esperada dos possveis valores de F se a hiptese nula fosse verdadeira? Isto equivale a dizer: como variaria F se na verdade as duas varincias fossem iguais ? Uma nova coleta de dados na mesma comunidade (ou mesmo amostragens em dias diferentes do estudo original) mostraria pequenas diferenas. Tais diferenas no significativas se devem ao acaso. O acaso rene todos os outros fatores da natureza no medidos e que podem afetar os resultados do experimento, exceto os mecanismos que esto subjacentes hiptese. Este passo agora feito por um estatsticomatemtico que desenvolve uma equao que representa a distribuio esperada se o fenmeno descrito fosse devido somente ao acaso. Esta equao usualmente chamada de funo de distribuio e descreve a probabilidade de ocorrer cada uma das possibilidades de resultado, quando o fenmeno apenas dirigido pelo acaso. A tomada de uma deciso A deciso a ser tomada a de aceitar ou rejeitar a hiptese nula. Isto equivale a decidir se as varincias podem ser consideradas iguais e suas diferenas podem ser explicadas pelo acaso ou se as varincias podem ser consideradas diferentes e preciso invocar um outro mecanismo, fora o acaso, para explicar as diferenas. O mtodo para testar simples. Se a variao de F conhecida quando a hiptese nula verdadeira, basta calcular qual a probabilidade de encontrar um resultado como 1,21 quando a hiptese nula verdadeira, usando a funo de distribuio de F. Se esta probabilidade for alta, no h nenhuma razo

para desconfiar que a hiptese nula seja falsa. Ou seja, se as diferenas encontradas so passveis de ocorrer mesmo quando as varincias so iguais, deve-se aceitar o acaso para explicar as variaes observadas. Se a probabilidade baixa, ento muito raro ocorrer um resultado como o que foi observado quando a hiptese nula verdadeira, o que mostra que ela no satisfaz como explicao para o fenmeno. Assim, faz-se necessria outra explicao, que no o acaso, para as diferenas entre as varincias. Elas so estatisticamente diferentes. Ao decidir pela rejeio ou no da hiptese nula (Ho) o pesquisador corre o risco de estar tomando uma deciso errada. Existem dois tipos de erros associados deciso em um teste de hipteses: o primeiro erro, dito Erro Tipo 1, decidir pela rejeio da hiptese nula sendo ela verdadeira. Voltando ao exemplo, Ho foi rejeitada, ou seja, as populaes A e B tm varincias diferentes. Faz-se necessrio estimar o grau de incerteza associado essa deciso. A probabilidade de se cometer o Erro Tipo 1 o chamado nvel de significncia, ou . Adotar um nvel de significncia de 5% quer dizer probabilisticamente que se a amostragem for repetida 100 vezes, em 95 delas a deciso tomada estar correta rejeitando-se Ho. A outra deciso errada aceitar a hiptese nula quando ela falsa. Esse o chamado Erro Tipo 2, cuja probabilidade definida por . O poder de um teste definido como 1 - , isto , quanto menor a probabilidade de cometer o Erro Tipo 2 mais poderoso o teste. Ambos os erros so indesejveis, porm o pesquisador tem controle mais efetivo sobre o Erro Tipo 1. Para diminuir a probabilidade de rejeitar uma hiptese nula sendo ela verdadeira, basta reduzir o nvel de significncia (geralmente de 5% para 1%). A mesma regra no se aplica para o valor de . Na verdade, quanto mais se reduz o nvel de significncia mais se aumenta a probabilidade de cometer o Erro Tipo 2. A nica maneira de reduzir simultaneamente ambos os tipos de erro de deciso aumentar o tamanho da amostra. Assim, para um dado nvel de significncia, amostras grandes produzem um teste estatstico mais poderoso. Para concluir, importante ressaltar que no rejeitar a hiptese nula no prova que ela verdadeira. Pela lgica dos testes de hipteses, quer dizer que no existem evidncias suficientes para concluir que ela falsa. TIPOS DE VARIVEIS E ESCOLHA DOS TESTES Quando procuramos testar uma hiptese, geralmente possvel identificar dois tipos de variveis: a independente e a dependente. A varivel independente ou preditora aquela que, em teoria, causa o efeito que procuramos confirmar. A varivel dependente a que mede o efeito sofrido. No exemplo, o tamanho da populao a varivel dependente e a varivel independente a espcie. Estamos investigando a possibilidade de que o tamanho populacional (e a variabilidade desta medida) seja diferente entre as espcies, como resultado de suas diferenas ecolgicas. Uma outra maneira de classificar as variveis quanto natureza de suas medidas. Os dois exemplos extremos das escalas de medidas so as variveis categricas e as quantitativas. Variveis categricas apenas representam distines de qualidade, enquanto as variveis quantitativas representam diferenas de quantidades. No exemplo anterior, as espcies so variveis categricas e o tamanho da populao uma varivel quantitativa. Esta diviso refere-se forma como os dados foram coletados: uma varivel categrica como a cor (preto, branco etc.) pode ser medida como quantitativa (o comprimento de onda da luz emitida). A Tabela 1 apresenta um modelo bastante simplificado para a escolha do teste estatstico apropriado.

Tabela 1. Sugesto de alguns testes estatsticos a empregar de acordo com o tipo de varivel observada. Entre parnteses alguns testes no-paramtricos.
Varivel Dependente Quantitativa Quantitativa Quantitativa Quantitativa Quantitativa Quantitativa Categrica Categrica Varivel Independente 1 Categrica com 2 nveis 1 Categrica com + 2 nveis 2 Categricas 1 Quantitativa 2 ou mais quantitativas 1 categrica e 1 ou mais quantitativas 1 Categrica 2 ou mais categricas Teste Teste t (teste U) ANOVA 1-fator (Kruskall-Wallys) ANOVA 2-fatores (Friedman1) Regresso simples (correlao Spearman) Regresso mltipla ANCOVA Qui-quadrado2; Teste G2 Log-linear2

(1) No caso de amostras dependentes, (2) Esses testes eventualmente verificam no a relao de dependncia entre variveis, mas sim a associao entre elas, descaracterizando, portanto a classificao de variveis dependentes e independentes.

A APRESENTAO DE RESULTADOS O cientista , em essncia, um escritor. De que realmente vale o conhecimento produzido se no for exposto com clareza comunidade que poder utilizar este conhecimento? Assim, deve-se ter a preocupao com apresentar as idias dando sempre nfase ao problema biolgico e ao tamanho do efeito atingido, e resguardando o resultado dos testes estatsticos ao bem delimitado espao interno dos parnteses. Por exemplo, no se deve dizer: As populaes tiveram diferenas de variabilidade populacional estatisticamente diferentes pelo teste F. Melhor dizer: A populao A variou 2 vezes mais que a populao B (F = 2,31; P<0.05). No se esquea que mais facilmente compreensvel o que nos for apresentado por figuras, do que por longas Tabelas. UM BREVE APANHADO DE PRESSUPOSTOS E TRANSFORMAES Sero apresentados aqui alguns testes estatsticos mais empregados, tentando demonstrar que todos eles seguem a mesma lgica de tomada de deciso. O que um teste estatstico faz fornecer uma medida de incerteza ou as chances de se tomar uma deciso errada. Para que tal rotina funcione, alguns pressupostos devem ser cumpridos. Um primeiro cuidado envolve o desenho amostral. preciso garantir que as amostras sejam tomadas ao acaso e, a menos que seja interesse explcito, que elas sejam independentes. Muitos dos problemas na anlise dos dados vm da no observncia desses pontos. Alguns testes estatsticos dependem da distribuio dos dados ou, mais precisamente, da distribuio da mdia amostral. Tais testes so classificados como "paramtricos" e, para empreg-los, deve-se garantir que alm da distribuio ser normal as varincias entre grupos (no caso de teste t e ANOVA) devem ser iguais. De maneira geral, os dois pressupostos: normalidade e homogeneidade de varincias no so requisitados para os testes noparamtricos. O problema que nem sempre existe uma alternativa no-paramtrica para cada teste paramtrico. As transformaes dos dados geralmente so empregadas para tentar corrigir a nonormalidade ou a heterocedasticidade das varincias. Como exemplo de transformaes temos a logartmica (para corrigir distribuies assimtricas e para remover a dependncia 5

entre mdia e varincia, alm de homogeneizar varincias entre grupos), a raiz-quadrada (para dados de contagens, por exemplo, nmero de filhotes por gestao) e a transformao arcoseno da raiz-quadrada ou angular (para dados em proporo). Independente da transformao escolhida, um problema comum que os dados transformados perdem seu significado biolgico, o que pode levar a interpretaes equivocadas das possveis relaes entre as variveis. UMA BREVE RESENHA DOS TESTES ESTATSTICOS Sero apresentados aqui alguns dos principais testes estatsticos tentando mostrar como so percorridos os passos lgicos definidos em nosso exemplo. Comparando categorias: O teste do qui-quadrado A Tabela 1 mostra que no estudo da dependncia entre duas variveis categricas utiliza-se o teste de Q-quadrado. Considere a seguinte questo: existe associao entre uma determinada espcie de ave frugvora e uma determinada famlia de plantas? Para dar nome ao experimento considere que a ave seja Thraupis sayaca (o sanhao) e a famlia de plantas as Melastomatceas. Seguindo-se os passos pr-definidos observa-se: Hiptese. A hiptese nula seria a de que no h associao entre o sanhao e as Melastomatceas. Como coletar dados para testar esta hiptese? Toda vez que se observar um ato de frugivoria por uma ave no campo deve-se classificar a espcie de rvore em uma das categorias: se ou no uma Melastomatacea. Da mesma forma deve-se classificar a ave como sendo ou no um sanhao. Existem agora duas variveis categricas binrias. A Tabela 2 rene os resultados deste experimento em observaes de campo no campus da Universidade Federal de Viosa: Tabela 2. Tabela de contingncia de 99 observaes de pssaros em rvores. um Sanhao? Sim No 13 34 12 25 40 74

uma Melastomatcea?

Sim No Total

Total 47 52 99

A proporo de sanhaos encontrados em Melastomatceas foi de 13/47=0,276 enquanto nas no Melastomatceas esta proporo foi de 12/52=0,231. Deduo do resultado esperado se a hiptese nula for verdadeira Qual o valor esperado para cada clula da Tabela acima sob a hiptese de que no h associao? O esperado que a proporo de que se encontre sanhao em Melastomataceae igual proporo desta espcie quando no Melastomataceae. Isto tambm quer dizer que 6

as diferenas encontradas nos nmeros observados nas clulas internas da Tabela seriam explicadas apenas por diferenas no nmero de amostras (a coluna e a linha denominadas total na Tabela). Assim, a proporo 25 sanhaos no total de 99 aves observadas deveria se manter tanto para as 47 aves encontradas em Melastomatceas quanto para as 52 encontradas em no Melastomatceas. Isto o equivalente a predizer que o resultado esperado para o nmero de sanhaos observados em Melastomatceas seria obtido pela regra de trs simples: 25 est para 99 como x est para 47. A Tabela 3 mostra os valores esperados. Tabela 3. Valores esperados da Tabela 2 se Ho for verdadeira. um Sanhao? Sim No 11,9 35,1 13,1 25 38,9 74

uma Melastomatcea?

Sim No Total

Total 47 52 99

A pergunta agora passa a ser: quo diferentes so os resultados observados em relao ao esperado pelo acaso? Para definir a estatstica deste teste usamos o Q-quadrado cujo smbolo 2. Ele seria estimado simplesmente pela diferena entre observado e esperado, elevada ao quadrado, dividida pelo esperado. Este nmero pode ser calculado para cada uma das clulas e o somatrio destes nmeros utilizado como teste estatstico. Voc pode olhar em uma Tabela de Q-quadrado com 1 grau de liberdade, calculado como: g.l. = (n linhas-1) x (n colunas-1), a um nvel de significncia de 5% e avaliar se este valor grande comparado com o da Tabela. No entanto, mais usualmente, os programas atuais de estatstica j indicam qual foi o nvel de significncia atingido. Neste caso, 2 =0,271 e o nvel de significncia atingido foi p=0,602 Tomada de Deciso. O que representa o valor de p acima? Ele a probabilidade de encontrar resultados como o que se obteve quando a hiptese nula verdadeira. Se em um experimento delineado como o que voc acaba de executar h 60,2% de chances de encontrar resultados como os que voc encontrou quando a hiptese nula verdadeira, ento h fortes razes para aceit-la. No texto da comunicao do resultado deste estudo deve, em alguma parte, estar escrito algo como: em torno de 27% das aves observadas em Melastomatceas eram sanhaos e esta proporo em no Melastomatceas foi de 23%. Tais diferenas foram consideradas como devidas ao acaso (2=0,271; gl=1; p=0,602).

O EFEITO DE UMA VARIVEL CATEGRICA COM DOIS NVEIS SOBRE UMA VARIVEL QUANTITATIVA: O TESTE T DE STUDENT Um pesquisador quer avaliar o sucesso de duas tcnicas de reintroduo de indivduos de uma espcie de macaco em uma rea. A pergunta : ser que deix-los em um local de pradaptao com fornecimento apenas de complemento alimentar aumenta as chances de sobrevivncia do indivduo? Neste ponto, sero discutidos aspectos puramente estatsticos deste problema, mas ao final deste captulo ser apresentada uma anlise mais completa deste problema como exemplo de questes mais amplas sobre Biologia da Conservao. Considerando-se este como um experimento modelo, com recursos financeiros suficientemente grandes para permitir o acompanhamento deste indivduo reintroduzido at sua morte, pouco provvel que existam muitos indivduos que possam servir de amostra. Outro fator complicante que, para as comparaes aceitveis, necessrio que todos os indivduos sejam de mesmo sexo, mesma idade e sejam aceitos por grupos sociais semelhantes (mesma estrutura social com mesmo nmero de machos, fmeas e filhotes). Assumindo todas estas variaes, acompanhou-se a vida de indivduos que foram reintroduzidos a partir de dois grupos, os que passaram e que no passaram pela pradaptao. Esta ser a varivel independente categrica binria. A varivel resposta a idade em que o indivduo morreu. A Tabela 4 resume os resultados encontrados: Tabela 4. Longevidade do primata sob duas condies experimentais. Indivduo 1 2 3 4 5 6 7 8 9 Pr-adaptao Sim Sim Sim Sim No No No No No Longevidade (anos) 2 3 3 2.5 3 2 2 1 0.5

A hiptese nula reza que no h diferenas de longevidade dos primatas com ou sem pradaptao. Propositalmente foi apresentado um conjunto de dados que apresenta dois dos principais problemas que usualmente assustam quem comea a usar os testes estatsticos. Os dados parecem muito regulares para estarem apresentando distribuio normal e a longevidade na ausncia do perodo de pr-adaptao parece variar mais que com a pradaptao. Para entender melhor o significado destes dados, h necessidade de aprofundar um pouco mais a fase da construo do teste referente deduo da distribuio esperada caso a hiptese nula seja verdadeira. Este passo exige uma deduo baseada em alguns pressupostos bsicos que podem variar entre os testes, mas so muito semelhantes para o conjunto de testes classificados como modelos lineares gerais, do qual fazem parte o teste de t, a anlise de varincia e a anlise de regresso. Na deduo, parte-se do princpio de que os dados provm de uma distribuio normal e de que a variao dos dados, em cada tratamento (a varincia com e sem a fase de pr8

adaptao), igual. Importante ressaltar que quando os pressupostos no so cumpridos, nada assegura que os resultados dos testes estejam corretos. No entanto, os estatsticos consideram que um teste robusto quando apesar de alguns pressupostos no serem cumpridos ele permanece correto. O teste de t, por exemplo, bastante robusto a desvios da normalidade. Quanto a diferenas de variao, h um teste de t para varincias iguais (homogneas) e outro para varincias diferentes, que pode ser facilmente encontrados em qualquer dos software dedicados anlises estatsticas. Sendo assim, o teste t uma ferramenta muito til e muito robusta, podendo ser utilizado mesmo em situaes como as do exemplo. A partir dos dados da Tabela 4, observa-se que, em mdia, os indivduos que receberam o tratamento de uma fase de pr-adaptao viveram 2,625 anos, enquanto os que no receberam sobreviveram 1,700 anos. Isto representa uma sobrevivncia de 0,975 anos a mais com a fase de pre-adaptao, mas a pergunta persiste, qual a probabilidade disto ter ocorrido pelo acaso? Um aspecto interessante que diferenas como estas podem ser devidas ao acaso, principalmente com poucas amostras (4 indivduos sob a fase de pr-adaptao). Conduzindo o teste, encontra-se um valor de t=1,722, que com 7 graus de liberdade (g.l.=n-1), leva a um valor de p=0,129. A um nvel de significncia de 5% aceitamos a hiptese nula de que a fase de pr-adaptao no alterou a sobrevivncia dos macacos. Este pode parecer um resultado incoerente que ser discutido em detalhes mais adiante neste captulo. O EFEITO DE UMA VARIVEL CATEGRICA COM VRIOS NVEIS SOBRE UMA VARIVEL QUANTITATIVA: A ANLISE DE VARINCIA Em algumas situaes o pesquisador quer comparar no as mdias de dois grupos, mas de 3 ou mais. A alternativa de comparar as mdias duas a duas de cada grupo pouco eficiente, uma vez que pode ser produzido um grande nmero de pares. Se existirem 6 grupos, o pesquisador necessitaria de 15 testes t para comparar as mdias de todos os grupos. Para resolver essa situao, Ronald Fisher desenvolveu, na dcada de 20, a tcnica da Anlise de Varincia, ou ANOVA. Imagine uma situao na qual o pesquisador deseja comparar a densidade populacional de uma espcie de planta ao longo de um gradiente altitudinal. Para tal, ele definiu quatro cotas de altitude e em cada uma coletou em oito pontos, perfazendo um total de 32 amostras. Estimou, ento, os parmetros mdia e varincia da densidade de plantas em cada uma das quatro cotas. A partir da ele formulou as seguintes hipteses: Ho: 1 = 2 = 3 = 4 Ha: Existe diferena na densidade mdia entre as cotas de altitude. Observe que a hiptese nula (Ho) tambm quer dizer que no h efeito da altitude sobre a densidade da espcie, com conseqncia lgica da igualdade das mdias em altitudes diferentes. Para se rejeitar a hiptese nula, basta que pelo menos, um par apresente valores mdios diferentes, para um nvel de significncia de 5% ( = 0,05). Os valores obtidos pelo pesquisador esto listados na Tabela 5.

Tabela 5. Nmero de indivduos coletados em cada uma das 4 cotas de altitude. ALTITUDE Cota 1 Cota 2 Cota 3 Cota 4 P1 19 21 16 18 P2 15 22 17 18 PONTOS DE COLETA P3 P4 P4 P6 17 21 22 23 17 20 17 21 19 18 14 20 14 16 19 15

P7 22 21 15 13

P8 19 24 17 18

A partir dos dados coletados possvel estimar os parmetros mdia e varincia da densidade populacional para cada uma das quatro cotas de altitude. A varincia em particular pode ser dividida em dois componentes: varincia entre os grupos (ou varincia devido ao tratamento) e varincia dentro dos grupos (varincia devido ao erro). Um quadro de ANOVA caracterstico, resultante do conjunto de dados apresentados no exemplo est ilustrado na Tabela 6. Tabela 6. Anlise de varincia testando o efeito da altitude sobre a abundncia da planta. Fonte de variao Efeito (Altitude) Erro amostral Total Soma de Quadrados 94,25 155,25 249,5 Graus de Liberdade 3 28 31 Quadrado mdio 31,42 5,54 F 5,66 Valor p 0,004

Uma das maneiras de se estimar quanto um conjunto de dados varia em relao ao valor mdio, somar todas as diferenas entre cada valor e a mdia, tomando o cuidado de elevar a diferena ao quadrado para evitar que a soma iguale a zero. Essa a chamada soma dos quadrados (SQ). Ao dividir esse valor pelo nmero de graus de liberdade temos o quadrado mdio (QM), ou varincia. A estatstica F calculada ao se dividir o QM do efeito (varincia entre os grupos) pelo QM do erro (varincia dentro dos grupos). Voc deve lembrar o que foi dito no incio desse texto: o valor F uma razo entre varincias. Compara-se o valor F calculado com o valor esperado sendo a hiptese nula verdadeira, e decide-se pela sua rejeio ou no. A maioria dos programas estatsticos calcula a probabilidade associada ao valor F calculado. No exemplo acima, o valor F calculado foi de 5,66, com um nvel de significncia atingido (ou valor-p estimado) de 0,004. Como o valor-p est bem abaixo do nvel de significncia adotado de 0,05 rejeitamos a hiptese nula, ou seja, existe efeito significativo da altitude sobre a densidade da planta. Uma boa maneira para ilustrar o resultado sem apresentar o quadro completo fornecer o valor F com seus graus de liberdade e o valor-p. No exemplo acima, diramos: Existe diferena na densidade ente as cotas de altitude (F3,28=5,66; p=0,004). Alm disso, a apresentao grfica dos valores mdios por grupo, com suas respectivas medidas de variao facilita a visualizao dos resultados. Grficos do tipo box-plot como o da figura 1 so bem ilustrativos.

10

Figura 1. Representao das mdias, erros-padro e desvios-padro do nmero de plantas nas quatro altitudes amostradas. O teste ANOVA indica se existe diferena, mas no informa onde esta se encontra. Para tal, tendo rejeitado a hiptese nula pela ANOVA faz-se necessrio um teste a posteriori. De uma maneira geral, existem dois grupos de testes a posteriori. Os primeiros, denominados testes de comparao mltipla, nos quais no se estabelece uma hiptese a priori, e os testes de comparao planejada, empregando a tcnica de contrastes. Este ltimo, mais "elegante", deve ser utilizado sempre quando o pesquisador j possuir, antes de iniciar o experimento, uma hiptese de como seus grupos devem se diferenciar.

Existem muitos testes de comparao mltipla, sendo os mais conhecidos, Tukey, Duncan e Scheff. Aplicando o teste de comparao mltipla de Tukey no exemplo, observa-se que as diferenas se encontram entre as cotas 1 e 4; 2 e 3; 2 e 4. A DEPENDNCIA ENTRE DUAS OU MAIS VARIVEIS QUANTITATIVAS: REGRESSO LINEAR Todos os modelos estatsticos lineares apresentam a mesma formulao. Podemos escrever o modelo do exemplo acima da ANOVA como: N de indivduos = + (altitude) + Erro, ou seja, o nmero de indivduos da planta funo da altitude. O que determina a associao entre a varivel dependente (n de indivduos) com a varivel independente (altitude) o coeficiente . Devido ao fato de que a varivel independente ser, no exemplo, categrica (quatro cotas de altitude), empregamos a tcnica de ANOVA (veja a Tabela 1). Agora imagine que o pesquisador, ao invs de coletar oito amostras em cada uma das quatro cotas de altitude, fez coletas ao longo de todo o gradiente altitudinal. Alm disso, o 11

pesquisador estimou tambm a riqueza de insetos polinizadores em cada ponto de coleta e obteve os seguintes resultados: Tabela 7. Abundncia da planta e riqueza de espcies de polinizadores por altitude. Altitude (metros) 500 550 610 680 720 770 810 890 930 990 1030 1080 1140 1200 N de espcies de Nmero de polinizadores indivdos da planta 27 31 15 32 12 28 45 29 20 30 40 20 10 15 27 15 29 13 12 12 25 10 8 8 12 7 9 9

Em primeiro lugar, cabe testar se existe associao entre a abundncia de plantas e a altitude. O modelo linear seria ento: N de indivduos = + (altitude) + , onde e so constantes, sendo o intercepto, isto o ponto onde a reta de regresso corta o eixo Y e o coeficiente da regresso, que indica o grau de associao entre as duas variveis. O erro amostral indicado por . O valor estimado do coeficiente da regresso indica a intensidade e a direo da regresso. A figura 2 ilustra as retas originadas a partir de diferentes valores de inclinao. O que a regresso linear faz estimar, atravs do mtodo chamado "quadrados mnimos", os coeficientes do modelo. Associada a essa estimativa, testase as seguintes hipteses: Ho: = 0 (no existe associao entre as duas variveis) Ha: 0, (existe associao entre as duas variveis)

12

positivo

igual a zero

negativo

Figura 2. Retas produzidas por diferentes coeficientes de regresso. > 0 indica associao positiva; < 0 associao negativa e igual a zero indica ausncia de associao entre as duas variveis. Voltando ao modelo do exemplo, o mtodo de quadrados mnimos estimou a seguinte equao: N de indivduos = 52,9 - 0,04 (altitude) + erro. Isso significa que a diminuio de 0,04 unidades da varivel independente leva a um aumento de uma unidade na varivel dependente. Com essa equao, possvel predizer quantos indivduos deve ter uma populao dessa planta numa determinada altitude. Ainda no testamos se o coeficiente de inclinao estatisticamente diferente de zero. Note que o valor -0,04 , indicado na equao acima, no o valor de . O coeficiente da regresso calculado de tal forma que varie entre -1 (alta correlao negativa) a 1 (alta correlao positiva), passando por zero (ausncia de correlao). O resultado de uma regresso pode ser visualizado na Tabela abaixo: Tabela 8. Efeito da altitude sobre a abundncia de plantas. Coeficientes Estatstica B g.l. t Valor-p Intercepto 52,928 12 15,316 < 0,001 Altitude -0,947 -0,0405 12 -10,275 < 0,001 O coeficiente de correlao estimado foi de -0,947, indicando uma alta correlao negativa. medida que aumenta a altitude, diminui a abundncia da planta. Essa diminuio se d na "velocidade" de menos 1 indivduo a cada 0,04 metros de altitude. Na Tabela 8 tambm est indicado o teste t utilizado para testar a hiptese nula de que o coeficiente de inclinao igual a zero. Com o valor calculado de -10,275 para 12 graus de liberdade rejeita-se Ho. Uma outra maneira de testar a significncia da regresso utilizar uma anlise de varincia. A Tabela 9 demonstra a sada tpica da maioria dos programas estatsticos para o procedimento. Tabela 9. Anlise de varincia para a regresso entre altitude e abundncia da planta. Fonte de variao Regresso Resduo Total Soma de Quadrados 1055,5 119,9 1175,5 Graus de Liberdade 1 12 Quadrado mdio 1055,5 9,99 F 105,57 Valor p < 0,001

13

Como foi dito no tpico sobre ANOVA, a soma dos quadrados (SQ) uma estimativa da varincia particionada entre a regresso e o resduo, ou erro. A proporo entre a SQreg e a 1055,5 SQtot indica quanto da variao explicada pela regresso. Nesse caso = 0,898 . A 1175,5 regresso explica 89,8% da variao dos dados. Esse valor o chamado R2 da regresso, e pode tambm ser calculado simplesmente elevando-se ao quadrado o valor do coeficiente de correlao (R = -0,947 R2 = 0,898). O teste segue a mesma lgica de uma ANOVA comum. Calcula-se o valor da estatstica F pela diviso dos quadrados mdios. (QMReg/QMRes). Compara-se o valor calculado com o esperado sendo verdadeira a hiptese nula e toma-se a deciso. No exemplo, o elevado valor de F indica que a regresso altamente significativa (Figura 3).

Figura 3. Regresso entre a altitude amostrada e abundncia de plantas. O pesquisador pretende testar se a altitude, assim como, tambm, a riqueza de espcies de polinizadores, determinam a abundncia da planta. O modelo agora : N de indivduos = + 1(altitude) + 2(riqueza) + , Foram incorporados ao modelo o efeito da riqueza de espcies polinizadoras sobre a abundncia de indivduos. A regresso linear agora dita regresso mltipla. Em tese, podemos tornar um modelo cada vez mais explicativo pela incluso de novas variveis, porm, dois pontos devem ser observados. Primeiro, o tamanho da amostra deve ser grande o suficiente para o nmero de variveis. Regresses com poucos pontos em relao ao nmero de variveis so altamente explicativas (apresentam altos valores de R2), mas no so confiveis. O outro problema com muitas variveis independentes que se elas estiverem correlacionadas, ento a interpretao dos coeficientes de correlao de cada uma fica prejudicada.

14

Voltando ao modelo, a regresso mltipla testa, por meio de ANOVA, a significncia do ajuste, e testa tambm atravs do teste t, os coeficientes estimados para cada termo da regresso. A sada usual de uma anlise de regresso mltipla similar da regresso simples, apenas incluindo-se as variveis adicionais (Tabela 10). Tabela 10. Efeito da altitude e da riqueza sobre a abundncia de plantas.

Intercepto Altitude Riqueza

Coeficientes B 52,495 -0,942 -0,040 0,014 0,011

g.l. 11 11 11

Estatstica t 10,984 -9,092 0,138

Valor-p < 0,001 < 0,001 0,892

Estima-se o coeficiente de correlao de cada varivel do modelo. Nesse caso, a densidade negativamente influenciada pela altitude e no sofre efeito da riqueza de espcies de polinizadores. Alm dos coeficientes parciais de correlao, calcula-se tambm o coeficiente de correlao mltipla R, nesse caso de 0,947, muito prximo do coeficiente de correlao da varivel altitude. A regresso explica cerca de 89,8% da variao total (R2 = 0,898). A analise de varincia da regresso mltipla tambm similar da regresso simples (Tabela 11). Tabela 11. Anlise de varincia para a regresso mltipla entre altitude e riqueza com a abundncia das plantas.

Fonte de variao
Regresso Resduo Total

Soma de Quadrados 1055,7 119,8 1175,5

Graus de Liberdade
2 11

Quadrado mdio 527,86 10,88

F
48,48

Valor p
<0,001

QUANDO A VARIVEL DEPENDENTE BINRIA: A REGRESSO LOGSTICA


Em algumas situaes prticas de campo difcil ter boas estimativas da abundncia de uma espcie. Isso principalmente verdadeiro quando se trata de espcies raras, ou de difcil coleta e/ou visualizao. A questo que muitas vezes so essas espcies nosso foco de interesse. Imagine, ento, que voc est interessado em discutir a influncia de fatores antrpicos sobre uma espcie rara. Imagine que tais fatores so mensurveis como, por exemplo, rea perdida ou concentrao de metais pesados na gua. Podemos imaginar um modelo preditivo (atravs da regresso linear, por exemplo) que nos fornea uma idia de qual seria a "velocidade" com que a populao perde indivduos medida que aumenta o nvel de poluio. Por se tratar de espcie rara, ou pelo menos inconspcua, as chances de voc conseguir boas estimativas dos tamanhos populacionais pequena. O mximo que se consegue afirmar se a espcie est ou no presente numa determinada amostra, se no se est preocupado com a abundncia, mas sim com a ocorrncia da espcie. Assim, a varivel resposta (dependente) categrica, e s pode assumir dois valores (presena ou ausncia). Para essa e outras situaes semelhantes (morreu/sobreviveu; tem filhotes/no tem filhotes, etc...) a anlise indicada a regresso logstica (veja a Tabela 1).

15

Uma situao mais real: algumas espcies de macro-invertebrados de gua doce da famlia Chironomidae (Diptera) podem ser indicadoras de qualidade ambiental. Certas espcies s ocorrem em ambientes preservados, enquanto que outras esto presentes em sistemas aquticos bastante eutrofizados. Os dados apresentados abaixo so de Marques et al. (1999). Os autores coletaram em 20 pontos da bacia do Rio Doce, no estado de Minas Gerais. Em cada ponto, foram medidas diversas variveis fsico-qumicas da gua, entre elas, a concentrao de nitrognio total, que indicador de grau de eutrofizao. Diversas espcies de Chironomidae foram coletadas. Abaixo apresentamos os dados de ocorrncia de duas espcies. Observe que nos dados originais a presena das espcies est categorizada em 3 classes de abundncia.

Tabela 12. Presena (1) e ausncia (0) de duas espcies de Chironomidae concentrao de nitrognio total em 20 pontos da bacia do Rio Doce.

Ponto
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Tanitarsus sp Cryptochironomus
1 1 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 1 1 0 1 1 1 0 0 1 0 1 0 1 0 0 0 0

Nitrognio total

(g/l) 262,4 420,6 1889 718,5 471,3 1219,3 1587 482,6 2132 3112 5257 454,3 1221 837,8 538,9 136,2 574,5 775,6 7283 308,8

Podemos elaborar as seguintes hipteses referentes Tanitarsus sp.: Ho: A ocorrncia de Tanitarsus na bacia do Rio Doce no depende da concentrao de nitrognio total na gua; Ha: Tanitarsus um organismo sensvel eutrofizao, e ocorre preferencialmente em ambientes menos poludos. O modelo seria: Ocorrncia de Tanitarsus + 1(N-tot) + , (o smbolo indica funo de). O modelo logstico :

16

Y=

1 1 + e ( + 1X1 + 2 X 2 +...+ i X i )

onde Y a probabilidade de ocorrncia da espcie; anlogo ao intercepto na regresso linear, e i representa o coeficiente da i-sima varivel. e os coeficientes representam os parmetros que sero estimados atravs do mtodo conhecido como Mxima Verossimilhana ("Maximum Likelihood", em ingls). A interpretao anloga regresso linear. O modelo indica a relao entre a ocorrncia de Tanitarsus e a concentrao de nitrognio total na gua. Existem duas formas para se testar essa relao em uma regresso logstica: 1) O teste LR ("Likelihood Ratio", ou Razo de Verossimilhana) e 2) O teste de Wald. O teste de razo de verossimilhana baseia-se na estatstica LR. Essa estatstica calculada a partir dos valores L = -2 Ln(Likelihood) tanto para o modelo com a varivel (chamemos de LC) e quanto para o modelo simples, sem a varivel (LS). No exemplo de Tanitarsus (com valores de N-total log-transformados) temos: valor de verossimilhana para o modelo simples = -2ln(LS) = 26,970, e valor de verossimilhana para o modelo com a varivel N-tot = 2ln(LC) = 8,695 Se fizermos LS - LC: -2 Ln(LS) - {-2 Ln(LC)}, ou, pela propriedade de subtrao de logaritmos: -2 Ln(LS/LC) = LR, por isso uma Razo de Verossimilhanas, ou LR. A maioria dos programas fornece o valor de verossimilhana para o modelo simples e para o modelo completo e calcula o valor de LR diminuindo um do outro. LR tem uma distribuio de Qui-quadrado, com o nmero de graus de liberdade definido como a diferena no nmero de parmetros entre o modelo completo (ou o nmero de variveis + ) e o modelo simples (apenas o parmetro ). Com o valor da estatstica LR e o nmero de graus de liberdade calcula-se o valor-p associado ao LR. Seguindo nosso exemplo: LR = 26,920 - 8,695 = 18,225; N de parmetros do modelo completo = 2 ( e 1); N de parmetros do modelo simples = 1 (); Graus de liberdade = 1; e Valor-p < 0,001. Assim, rejeita-se H0: A ocorrncia de Tanitarsus sp. depende da concentrao de nitrognio total na gua. Os parmetros estimados foram = 44,26 e = 15,97. Sendo negativo, a relao entre ocorrncia da espcie e concentrao de N-tot inversa. A figura 4A ilustra essa relao. A contribuio da varivel N-tot indicada pelo valor de LR. Se a varivel tem pouco peso para explicar a ocorrncia da espcie, ento o valor de verossimilhana para o modelo com essa varivel grande, prximo ao valor de verossimilhana para o modelo simples. Ao subtrair um pelo outro, o valor de LR fica pequeno. Assim, quanto mais prximo de zero for a estatstica LR, menor o peso que a varivel tm para explicar a varivel dependente. Isso pode ser visto no exemplo abaixo, a anlise para a relao entre N-total e a ocorrncia de Cryptochironomus sp.: Ho: A ocorrncia de Cryptochironomus sp. na bacia do Rio Doce no depende da concentrao de nitrognio total na gua; Ha: Cryptochironomus sp. um organismo sensvel eutrofizao, e ocorre preferencialmente em ambientes menos poludos. Valor de verossimilhana para o modelo simples = -2ln(LS) = 27,72; Valor de 17

verossimilhana para o modelo com a varivel N-tot= -2ln(LC) = 26,39; LR = 27,72 - 26,39 = 1,33; n de parmetros do modelo completo = 2 ( e 1); n de parmetros do modelo simples = 1 (); Graus de liberdade = 1; Valor-p = 0,247. Deste modo, aceita-se a hiptese nula, ou seja, a ocorrncia de Cryptochironomus sp. no depende da concentrao de nitrognio total na gua (Figura 4B).

18

A)

B)

Figura 4. Relao entre a concentrao de nitrognio total e a probabilidade de ocorrncia de A) Tanitarsus sp. e B) Cryptochyronomus sp. em 20 pontos da bacia do Rio Doce. O outro teste para a relao entre as variveis na regresso logstica, o teste de Wald, geralmente fornece resultados semelhantes ao teste de LR. A lgica do teste de Wald similar a do teste t na regresso linear usado para testar se o coeficiente de correlao R diferente de 19

zero. Quando o tamanho amostral grande os resultados de ambos os testes so iguais. Mas, se o tamanho amostral pequeno, recomenda-se utilizar o teste LR. Um outro problema do teste de Wald que sua interpretao para a situao de duas ou mais variveis mais complicada, e envolve a aplicao de lgebra matricial. Diversos estatsticos recomendam que se utilize preferencialmente o teste de LR para inferncias estatsticas associadas regresso logstica. De maneira geral, vale lembrar que os mesmos princpios lgicos e interpretativos da regresso linear podem ser aplicados aos modelos de regresso logstica, incluindo as situaes de mltiplas variveis. Nessas situaes, aplica-se rotina de avaliao do valor de LR a medida que se adicionam variveis no modelo.

RISCOS ASSIMTRICOS, PENSAMENTO DESEJOSO E A IMPORTNCIA DA ESTATSTICA NA BIOLOGIA DA CONSERVAO


Voltemos ao exemplo da longevidade de macacos reintroduzidos com ou sem uma fase de pr-adaptao, discutido na seo sobre o teste de t. H muitas questes importantes a serem analisadas ali. Em primeiro lugar vem o problema do nmero de amostras. muito comum ouvir as escusas de pesquisadores na rea da Ecologia e da Biologia da Conservao de que no possvel um nmero maior de amostras e que, portanto, deve-se trabalhar com o que se tm. Na maioria das vezes, esta observao no aceitvel e pode gerar prejuzos maiores que os custos de se aumentar o nmero de rplicas ou de pelo menos desenvolver um experimento bem planejado. Naquele caso, rejeitou-se uma hiptese (de que a pr-adaptao aumenta a longevidade dos animais) que pode ser verdadeira principalmente porque, para conseguir demonstrar um efeito com um nmero pequeno de rplicas, o tamanho deste efeito precisa ser muito grande. Isto nos leva tambm ao problema dos riscos assimtricos, discutido de forma muito interessante, se bem que ligeiramente diferente, em Caughley & Gunn (1996). Considere os dois tipos de erros estatsticos que podem ocorrer neste teste. Ns poderamos rejeitar a hiptese nula sendo ela verdadeira (Erro tipo 1) ou aceit-la sendo ela falsa (Erro tipo 2). Ao aceitar H0 quando ela falsa, est se desconsiderando uma prtica de manejo que pode aumentar a sobrevivncia do macaco no campo e contribuir para sua preservao. Ao rejeitla, sendo ela verdadeira, custos adicionais desnecessrios esto sendo introduzidos, onerando o projeto. Este procedimento pode resultar em um menor nmero de indivduos reintroduzidos, em razo resultado dos gastos adicionais. Isto mostra dificuldade na tomada de deciso. interessante notar certa assimetria entre os erros: em um caso diminui-se diretamente o sucesso do projeto por desconsiderar uma prtica til, no outro, onera-se o projeto e apenas indiretamente diminui-se o sucesso da reintroduo. Muitos conservacionistas no hesitariam em correr o primeiro risco e alguns outros fatores sustentariam esta deciso. Em uma comunidade cientfica eficiente, em que projetos desta natureza esto sendo continuamente avaliados, um possvel erro do tipo I ser facilmente detectado medida que outros experimentos vo sendo desenvolvidos e novos dados sejam adicionados. H, no entanto, um problema srio no procedimento anterior. Considerar significativo a um valor-p de 0,10, aceitando um maior erro tipo I, em funo de uma escolha de riscos dentro do panorama da assimetria descrita acima, s faz sentido se for uma deciso tomada antes do

20

experimento ser executado. Com uma freqncia muito maior que o esperado em uma comunidade cientfica madura, estas decises so tomadas aps os dados serem coletados, fruto do que os ingleses chamaram de whishful thinking -- aqui traduzido, pelo Dr Miguel Petrere Jr., como pensamento desejoso. O desejo de que nossa hiptese alternativa esteja correta o caminho mais curto para afastar a Biologia da Conservao do vacilante, mas honesto, caminho das Cincias e traz-la para o caminho do dogmatismo. Afinal, se uma hiptese considerada correta mesmo que os dados digam o contrrio, para que, ento, se coletaram os dados?

21

BIBLIOGRAFIA RECOMENDADA
Caughley, G. & Gunn, A. 1996. Conservation Biology in Theory and Practice. Blackwell Science, Inc., Cambridge, Massachusetts. 459p. Hosmer, D. W. & lemeshow, S. 1989. Applied Logistic Regression. John Wiley & Sons, New York. 307 p. Kleinbaum, D. G. 1994. Logistic Regression: A self-learning text. Springer-Verlag, New York. 282p. Krebs, C. J. 1989. Ecological Methodology. Harper & Row, Publishers, New York. 654p. Magurran, A. E. 1988. Ecological Diversity and its Measurement. Cambridge University Press, London. 179p. Neto, P. R. P.; Valentin, J. L. & Fernandez, F. (eds.). 1995. Tpicos em tratamento de dados biolgicos. Volume 2. 1 Edio. Oecologia Brasiliensis, Rio de Janeiro. 161p. Manly, B. F. J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and Hall, London. 281p. Martin, P. & Bateson, P. 1986. Measuring Behaviour. Cambridge University Press, Cambridge. 200p. Marques, M. M. G. S. M.; Barbosa, F. A. R. & Callisto, M. 1999. Distribution and abundance of Chironomidae (Diptera, Insecta) in an impacted watershed in south-east Brazil. Ver. Brasil. Biol. 59(4):553-561. Sokal, R. R. & Rohlf, 1995. Biometry. W. H. Freeman and Company, New York, USA. 887p. Tonhasca, A., Jr. 1991. The three "capital sins" of statistics used in biology. Cincia e Cultura, 43(6):417-422. Young, L. J. & Young, J. H. 1998. Statistical Ecology: a population perspective. Zar, J. H. 1984. Biostatistical analysis. Prentice-Hall, Englewood Cliffs, N.J. 218p.

22

PARTE 2 GUIA PARA EXECUO DAS ANLISES ESTATSTICAS Flvia Pereira Lima Centro de Ensino e Pesquisa Aplicada Educao, Universidade Federal de Gois Leandro Juen Laboratrio de Ecologia Terica e Sntese, Universidade Federal de Gois Paulo De Marco Jnior Departamento de Biologia Geral, Universidade Federal de Gois A PROPOSTA DO GUIA
Logo, logo, voc ir perceber o quanto dinmico o curso de estatstica: so muitas dvidas e ansiedades. Ento, qualquer ajuda nesse maravilhoso mundo da estatstica bem vinda. Muitas vezes voc sabe escolher o teste estatstico e compreende as bases tericas a ele relacionadas, mas empaca na execuo. Por isso, ns elaboramos esse guia prtico, com os passos das anlises mais importantes que vocs podem precisar. Ele deve ser utilizado como um caderno de notas, para facilitar o uso do programa e agilizar seu trabalho.

BANCO DE DADOS
A correta organizao do banco de dados essencial para a realizao das anlises estatsticas. Algumas regras auxiliam nesse processo: 1. Utilize o Excel para colocar seus dados (ou outro programa semelhante). Quando so muitos dados mais adequado utilizar a plataforma Access. 2. Nunca utilize muitos documentos ou muitas planilhas dentro de um documento. Faa o necessrio para que voc tenha no mximo trs planilhas: uma de dados brutos, uma de metadados (explicao do que representa cada coluna da sua tabela) e uma de resultados. 3. Planilha de dados brutos (DADOS): essencial que voc determine a unidade amostral da sua pesquisa. importante perceber que possvel que voc tenha, dentro da mesma pesquisa, mais de uma unidade amostral. Quando for montar a planilha DADOS coloque sempre as amostras independentes em linhas diferentes e as variveis (as informaes da mesma amostra) em colunas. Por exemplo: 23

Pretende-se testar se h diferena de riqueza de drosofildeos em frutos pequenos e frutos grandes (tamanho do fruto = varivel categrica/ riqueza = varivel quantitativa). Se: a. Forem observados frutos numa mata, cada um deles ser uma amostra: Tabela 1: Riqueza de drosofildeos em frutos grandes (G) e pequenos (P). Tamanho do fruto G P P G G G S 10 4 6 12 9 8

b. Se os frutos grandes forem colocados experimentalmente ao lado de frutos pequenos, as amostras se tornam dependentes e o ponto passa a ser a amostra, tratando-se de um experimento pareado: Tabela 2: Riqueza de drosofildeos em frutos grandes (G) e pequenos (P). Local 1 2 3 4 S do fruto pequeno S do fruto grande

4. Planilha METADADOS: nessa planilha voc deve colocar os significados dos cdigos utilizados na planilha DADOS. Pode parecer desnecessrio ou perda de tempo, mas esse cuidado lhe ser til caso sua planilha tenha muitos cdigos, se no futuro voc precisar utiliz-la (pode ser que a memria falhe) ou se uma outra pessoa necessitar. 5. Planilha RESULTADOS: nela voc colocar os resultados de suas anlises estatsticas.

24

IMPORTAR DADOS PARA O STATISTICA


Siga os seguintes passos para importar seus dados do EXCEL para o STATISTICA. No menu: 1. FILE OPEN Abrir

2. Na janela OPEN selecione Data files em Files of type 3. Selecionar a planilha:

Import all sheets to a workbook (iro todas as planilhas do documento) Import selected sheets to a Spreadsheet (voc seleciona apenas a planilha de dados) 1. Janela Open Excel File: nela aparecer o nmero de colunas e o de linhas da sua planilha. Selecione Get variable names from first row, para que os nomes que voc deu s variveis (a primeira linha do Excel) no entre como um dado. Preste ateno se o nmero de linhas e colunas confere com os da planilha do Excel. Pronto. A planilha estar importada. Agora s analisar!

LEMBRETES Varivel independente: a que causa o efeito Varivel dependente: a varivel resposta Varivel categrica: qualidade entre os diferentes dados Varivel quantitativa: varivel contnua Teste no paramtrico: no segue a distribuio normal. Teste paramtrico: segue a distribuio normal. Casas decimais: apresentar os resultados dos testes com trs casas decimais.

25

PROCEDIMENTOS PARA AS ANLISES ESTATSTICAS 1. QUI- QUADRADO


1. Statistics Basic Statistics/Tables Tables and banners OK

2. Specify tables (select variables)

3. Testar os pressupostos: i) nenhuma das freqncias esperadas pode ser menor que 1 ii) apenas 25% delas pode ser menor que 5. Options marcar Expected frequencies Summary

4. Se os pressupostos no forem feridos: - Marcar em Options - ir em Advanced liberdade. 5. Soluo do Fisher: quando a tabela de contingncia for do tipo 2 X 2, pode-se utilizar o teste exato de Fisher, que no possui os pressupostos acima apresentados. Marcar em Options (2X2) ir em Advanced 6. Volta em Options com as porcentagens). 7. Apresentao dos resultados: 2.......; gl......; p....... Detailed two-way tables verificar o valor de p. Summary (apresentar uma tabela Statistics for two-way tables Fisher exact, Yates, McNemar Statistics for two-way tables Detailed two-way tables Pearson & M-L Chi-square

verificar o valor de p, o 2 e os graus de

marcar percentages of row counts

26

2. TESTE T PARA AMOSTRAS INDEPENDENTES


1. Statistics Basic Statistics OK

2. t-test , independent, by groups (Test t para amostras independentes)

3. Variables: selecionar a varivel dependente (dependent variables) e a varivel independente (independent variables)

IMPORTANTE

Pressupostos do teste t: i) os dados devem possuir distribuio normal; ii)

a varincia deve ser homognea.

4. Para testar se as varincias so homogneas: depois de selecionar as variveis, retornar janela anterior. Escolher a aba: 4.1 Options Levenes test Summary (se p>0,05 no rejeita a H0 e, portanto, as

varincias sero homogneas).

OBS: na janela do resultado do Levene j sai o resultado do teste t.


Mas se as varincias forem heterogneas existe uma sada: o teste t com varincias separadas: 4.2 Options Test/w separate variance estimates Summary

5. Copiar para a planilha RESULTADOS: selecionar toda a planilha (clicar no espao branco mais esquerda) ir ao menu em Edit RESULTADOS. 6. Apresentao ao leitor: ao apresentar qualquer dado de uma anlise estatstica ao leitor lembre-se que o mais importante o resultado biolgico por detrs dos nmeros. No teste t voc dever apresentar o resultado do teste, os graus de liberdade e o valor de p. Analise o tamanho do efeito para apresent-lo ao leitor. Exemplo: Um fruto grande pode ter, em mdia, 2,6 espcies a mais de drosofildeos do que os frutos pequenos. Essa diferena no pode ser explicada pelo acaso (t= para varincias separadas= ; gl= ; gl= ; p= ) 27 ; p= ). Se as varincias forem separadas (t

Copy with headers. Colar na planilha

3. TESTE T PARA AMOSTRAS DEPENDENTES


1. Statistics Basic Statistics OK

2. t-test , dependent samples (Test t para amostras dependentes) 3. Variables: selecionar as variveis Summary

first variable list/ second variable list OK

OBS: Como o teste para amostras dependentes, as diferenas para cada amostra esto
sendo controladas, por isso no h o pressuposto da homogeneidade de varincia.

4. ANLISE DE VARINCIA ANOVA


1. Statistics ANOVA OK

2. One-way ANOVA

3. Variables: selecionar a varivel dependente e a varivel independente 4. Factor codes 5. More results assumidos): a. Varincias homogneas: feito um teste de Levene para verifica se as varincias so homogneas (H0= varincias so homogneas e Ha= varincias so heterogneas). Clicar em Levenes test (ANOVA) e conferir o valor de p (se p>0,05 as varincias so homogneas). b. Testar a normalidade: em Distribution of within-cell residuals Normal p-p all zoom (conferir as variveis) OK

Assumptions (Nesse passo verificar se os pressupostos esto sendo

Conferir o grfico. Se a distribuio normal os resduos seguem uma reta. Em casos de distribuio no normal comum aparecer uma curva, principalmente em S. 6. Se no houver problemas com os pressupostos clicar na aba Summary Effects/Graphs (aparece uma linha com o resultado do teste). All

28

7. Clicar duas vezes na linha que apareceu no passo anterior para observar o grfico. 8. Apresentao do resultado: F; gl tratamento; gl do erro; p 9. ATENO: Se o teste for significativo est indicando que h diferenas entre os grupos comparados. Para isso, h necessidade de se realizar comparaes que podem ser: a. Comparao a posteriori: Voltar janela Anova Results (dessa forma testa tudo contra tudo para detectar a diferena). Para fazer o grfico, voltar em All Effects/graphs. Colocar letras iguais para as mdias iguais de acordo com o teste de Tukey. b. Comparao planejada: Anova Results means. OBS: Como escolher o contraste? A comparao planejada exige fundamentao terica, pois se testa hipteses prestabelecidas. Deve-se, portanto, recorrer teoria para tomar a deciso antes de fazer o teste. Observe a figura: * Deseja-se fazer um contraste entre Fazenda e Empresa X Reserva. Para isso selecionar em Quick Fill -1 para Fazenda; -1 para Empresa e 2 para Reserva (a soma dos contrastes dever ser 0) OK Compute Planned comps Specify contrasts for LS Post Hoc Test Tukey HSD

Se a comparao for estatisticamente significativa (p 0,05) rejeita-se a hiptese nula logo h diferena entre Fazenda e Reserva contra Empresa. Continua a anlise para verificar se h diferena entre Fazenda (-1) e Reserva (+1). 3.1- Se as varincias forem heterogneas Se ao testar a homogeneidade de varincias no teste de Levene o p 0,05, voc dever recorrer a algumas transformaes na tentativa de homogeneizar as varincias. Para isso voc pode transformar os dados testados em log, raiz quadrada ou arcoseno da raiz quadrada.

29

a. Para transformar em log:


1. Na planilha importada clique duas vezes na linha de cabealho do nome da varivel (X, por exemplo). 2. Abaixo da janela escrever no espao Long name (labelo r formula with Functions): = log(Varivel).

b. Para transformar em raiz quadrada:


1. Na planilha importada clique duas vezes na linha de cabealho do nome da varivel (X, por exemplo). 2. Abaixo da janela escrever no espao Long name (labelo r formula with Functions): = Sqrt(Varivel)

c. Para transformar em arco-seno da raiz quadrada:


1. Na planilha importada clique duas vezes na linha de cabealho do nome da varivel (X, por exemplo). 2. Abaixo da janela escrever no espao Long name (labelo r formula with Functions): = Arcsin(Sqrt(Varivel)). Depois de realizadas as transformaes, repetir o teste de Levene e verificar se as varincias se tornaram homogneas. Caso isso no ocorra, voc dever buscar outra alternativa: os testes no paramtricos.

5. KRUSKAL-WALLIS
O Kruskal-Wallis um teste de ordenamento que faz um ranking dos dados, para testar diferenas no somatrio do ranking entre amostras: se a soma do ranking de cada tratamento parecida entre si, os tratamentos so estatisticamente semelhantes.

30

H0= a soma do ranking estatisticamente semelhante entre os tratamentos Ha= a soma do ranking estatisticamente diferente entre os tratamentos Passos: 1. Statistics Nonparametrics

2. Escolher o grupo de acordo com a natureza das variveis. Por exemplo: Comparing multiple idepend. samples (groups) para variveis com mais de duas categorias 3. Variables: clicar na varivel dependente e na varivel independente OK OK

4. Summary: Kruskal-Wallis ANOVA and Median test. Aparecem duas janelas. Em uma h a soma dos ranking e o valor do teste H (gl tratamento; gl erro)=.........; p=......... Exemplo: KruskalWallis test: H ( 2, N= 13) =0,231 p =0,891. 5. Para fazer o grfico: voltar janela Kruskal-Wallis varivel seleciona o tipo Median/Quart./Range OK. Box & whisker seleciona a

6. Copia o grfico para a planilha de resultados ou para o seu documento no Word e edite-o. 7. Quando os resultados so significativos voc precisa usar uma comparao a posteriori do tipo do teste de Tukey. Esse teste o teste de Nemenyi que explicado no Zar (1999), mas que precisar ser executado no Excel.

6. ANOVA TWO-WAY
1. Stattistics ANOVA Factorial ANOVA OK OK

2. Variables: depedent/ independent (duas ou mais) 3. Testar os pressupostos: * homogeneidade das varincias: More Results

Assumptions

Levenes Test (ANOVA)

* normalidade do resduo: Normal p-p (analisar o grfico) 31

4. Voltar em All Effects: aparece uma tabela e em cada linha h um valor, como no exemplo: SS Intercept "Var1" "Var2" "Var1"*"Var2" Error 3110,400 60,000 26,667 13,067 135,333 Degr. Of Freedom of 1 1 1 1 6 MS 3110,400 60,000 26,667 13,067 22,556 F 137,8995 2,6601 1,1823 0,5793 p 0,000023 0,154016 0,318633 0,475423

H0 1: varivel 1 no afeta a germinao. H0 2: a varivel 2 no afeta a germinao. H03= interao dos efeitos no afeta a germinao. OBS: se o p da interao for significativo no precisar analisar o p dos efeitos separadamente. 5. Clicar duas vezes sobre os resultados da tabela para gerar o grfico, aparecera uma caixa da ANOVA, clique em All effects/Graphs OK.

OBS1: As linhas do grfico se cruzam quando a interao for significativa. OBS2: Realizar transformaes dos dados se as varincias forem heterogneas (logaritmo ou raiz quadrada). OBS3: A ANOVA two-way no tem correspondente no paramtrico. 6. Apresentao dos resultados: A melhor maneira de apresentar os resultados da ANOVA fatorial ser um grfico com mdia e intervalo de confiana para o efeito testado. Se a interao for significativa, apenas a interao deve ser apresentada e discutida, e os efeitos individuais no podero ser compreendidos exceto luz do resultado da interao.

7- REGRESSO LINEAR
1. Statistics Advanced linear models/ Nonlinear models

2. Multiple Regression 3. Variables: dependent var./ independent variable list OK OK

32

4. Pressupostos (a distribuio dos resduos normal e a varincia dos resduos homognea) 4.1. Se a distribuio dos resduos normal: Residuals/assumptions/prediction of residuals (anlise visual) 4.2. Se a varincia dos resduos homognea Residuals/assumptions/prediction vs. independent var. Perform residuals analysis Residuals Residuals Perform residuals analysis Quick Normal plot

seleciona a varivel independente

OK (anlise visual)

OBS: se os resduos estiverem dispostos aleatoriamente o pressuposto no foi ferido. 5. Cancela a janela Residual Analysis 6. Apresentao dos resultados Graphs 2d Graphs Scatterplots Advanced Variables (X=independente e OK OK Advanced Summary Regression Results

Y=dependente)

seleciona R-square e Regression equation

8. REGRESSO MLTIPLA
1. Statistics . Multiple regression 2. Variables: dependent var./ independent variable list (as variveis independentes testadas) OK OK

3. A anlise dos pressupostos segue os procedimentos descritos para a regresso simples. 4. Cancela a janela Residual Analysis 5. Apresentao dos resultados Grfico: importante verificar se havia co-relao entre as variveis. Fazer o grfico com a(s) varivel(is) que for(em) significativa(s). Graphs Multiple 2d Graphs Scatterplots Advanced Variables OK em Graph type marcar OK Advanced Summary Regression Results

selecionar R-square e Regression equation

OBS: As variveis correlacionadas no podem entrar juntas na regresso mltipla

33

9- REGRESSO LOGSTICA
1. Statistics regression Advanced Linear/ Nonlinear models OK Nonlinear Estimation Quick Logit

2. Variables: dependent variable/ independent variable 3. Codes for dep. var: 0 and: 1 4. Advanced OK 5. Aparece na janela o valor de 2 e p. 6. Para fazer o grfico: Fitted 2D function & observed vals. Summary: Parameters & standard errors (Sempre colocar o 0 em cima e o 1 em baixo) OK

Estimation method: Quase-Newton

marcar Asymptotic standard errors

7. Para calcular a estimativa dos parmetros:

34

TUTORIAL PARA PREPARAO E IMPORTAO DE DADOS PARA ESTIMATIVAS DE RIQUEZA DE ESPCIES


Softwares utilizados: Excel, EstimateS e Statistica.

PREPARAO DOS DADOS


Os dados de suas coletas devem ser organizados em uma planilha eletrnica, pois as anlises subseqentes podem ser feitas de modo simples por meio de pequenas modificaes na estrutura das mesmas. Neste caso utilizamos as planilhas do Microsoft Excel para demonstrar como importar os dados para o programa EstimateSWin 750. Como estaremos trabalhando com estimativas sobre espcies, devemos organizar a planilha da seguinte forma:
Espcies nas colunas

Amostras nas linhas

O programa EstimateS precisa que formatemos a planilha de um modo bastante especfico, com a criao de um cabealho que o programa ler durante a importao. Antes de criar o cabealho, devemos remover todo e qualquer tipo de recurso complexo do Excel, tais como comentrios, acentos e os chamados caracteres diacrticos: ( ? / > < @ ! ~ ` ; & % # $ * { } [ ] ( ) - +).

35

Obs: a presena desses caracteres a causa mais freqente de erros de importao e anlise de dados nos mais diversos programas estatsticos. Eles no devem ser utilizados nas planilhas e nem em nome de arquivos. Removidas tais caractersticas das planilhas, devemos tambm remover as colunas que identificam as amostras e a linha que identifica o nome de cada espcie. Isso necessrio, pois o programa ir aleatorizar indivduos nas amostras, numa tentativa de remover ou diminuir o vcio de coleta presente nas mesmas antes de calcular as estimativas de riqueza ou quaisquer ndices. Como trabalhamos com riqueza, a identidade de cada espcie tambm no necessria. A planilha assumir o aspecto abaixo:

Agora devemos inserir duas linhas acima dos dados. Elas serviro para o cabealho de legenda para o EstimateS:

36

Insira duas linhas acima dos dados.

Na primeira clula (A1) devemos inserir o nome que daremos para a planilha, deve ser um nome curto, com menos de seis dgitos e que no contenha diacrticos. Na clula (A2) devemos inserir o nmero de espcies (que o nmero de colunas) e na clula (B2)o nmero de amostras (linhas) respectivamente. A planilha apresentar o seguinte aspecto:

A planilha est quase pronta. necessrio salv-la como somente texto separado por tabulaes, indo em: Arquivo Salvar como Texto separado por tabulaes. 37

O Excel apresentar algumas mensagens de alerta antes de permitir que voc salve o documento. Ignore-as e continue o processo. Pronto: agora podemos fechar o Excel e abrir o EstimateS. Logo que o programa aberto, uma tela de apresentao exibida. s dar OK e comear a usar.

IMPORTANTE: Se o programa no abrir pode ser devido a uma configurao de seu


computador. O EstimateS esta configurado no sistema Britnico cujo separador decimal o . (ponto), e no nosso sistema a vrgula. Para resolver este problema, basta ir: Iniciar Configuraes Painel de controle Opes regionais e de idioma OK Personalizar Smbolo decimal trocar vrgula por ponto OK e fecha a janela aberta. Agora s

abrir o EstimateS novamente e comear a trabalhar. Para importar os dados que preparamos, basta ir em File Load Input File

Uma janela do Explorer ir abrir e s selecionarmos o arquivo de texto que preparamos antes. Ao fazer isso o programa exibir a seguinte tela:

38

D OK. A seguinte tela aparecer:

Marque a caixa com a opo Formato 2 (linhas nas amostras e espcies nas colunas) e d OK. O programa dever carregar a planilha na memria. Se tudo der certo no haver nenhuma mensagem de erro. Prossiga ento clicando no menu DIVERSITY DIVERSITY SETTINGS...

Aparecer a seguinte tela:

39

O padro para o nmero de runs (aleatorizaes) 50. Normalmente marcamos como 100 ou mais vezes, depende do tamanho do conjunto de dados que voc possui. Como a re-amostragem do principal estimador de riqueza de espcies sem reposio, devemos manter selecionada essa opo na caixa de Protocolo de Aleatorizao. Clique em Compute. Ao fim desse tempo, voc ver uma planilha com os resultados calculados. Essa planilha no prtica e prefervel trabalhar com os dados no Excel. Clique em Export aparecer uma tela do Explorer, d um nome para seu arquivo (sugerimos que seja dado o mesmo nome do arquivo original, adicionado com a denominao res de resultado, isso evita problemas de mistura de resultados, no nosso exemplo demos o nome de teste.txt, agora passar a ser testeres.txt e feche o Estimates. hora de abrir o Excel. Com o Excel, abra o arquivo de texto que foi a sada do programa Estimates. O Excel apresentar uma tela sobre definies sobre a importao de dados no formato texto.

40

O padro do programa est correto, bastando clicar em concluir. Exclua as trs primeiras linhas da planilha, so apenas propaganda do programa EstimateS. Aps isso, s salvar como uma planilha do Excel e fechar. Agora vamos importar essa planilha para o programa Statistica 6.0 (voc j deve estar craque nessa parte!).

41

Aps importar a planilha para o Statistica, devemos escolher o estimador de riqueza de espcies desejado. Verifique que h um valor estimado para cada uma de suas amostras, o que permite a voc a criao de uma curva do coletor. Note tambm que para cada estimativa h tambm um desvio padro. De posse desse dado, possvel construir um intervalo de confiana associado estimativa, o que ir permitir a apresentao dos dados em um grfico mais informativo que poder inclusive ser utilizado na comparao de riqueza de espcies entre locais. Como construir esse intervalo e como fazer esse grfico? Basta seguir os passos adiante. Para esse exemplo, utilizaremos o estimador no paramtrico Jackknife de primeira ordem. Esse estimador bem interessante. Recomendamos a leitura dos artigos e livros que o discutem. Dentre os vrios livros, o Ecological Methodology do Krebs um bom incio. Para criar o intervalo de confiana precisamos primeiro inserir mais uma coluna na planilha dentro do Statistica, para isso selecione a coluna imediatamente posterior direita da coluna do desvio padro, no caso a coluna 30. Localize no lado direito da tela do Statistica o menu VARS, clique em adicionar.

Ser aberta a seguinte tela, onde podemos configurar o contedo da Coluna (que o Statistica sabidamente chama de varivel). Ele indica que a varivel ser adicionada aps a coluna Jack1_SD. O nome da varivel fica a seu critrio. Mas IC j diz tudo. Agora vem o importante: Vamos inserir uma frmula no campo maior dessa tela, que ser utilizada para criar o intervalo de confiana.

42

Como no Excel, toda a formula deve comear com o sinal de igual (=) e o que digitaremos o seguinte =-vstudent(0,025;v1-1)*Vn Onde vstudent diz para utilizar a distribuio de Student (a mesma distribuio do teste t) 0,025 o nosso alfa, j que o teste bicaudal (0,025 + 0,025 = = 0,05) v1-1 o nmero de amostras menos 1, ou seja, o grau de liberdade. Vn deve ser substitudo pelo nome da varivel que contm o desvio padro (no caso V24). NOTA: A frmula para clculo do intervalo de confiana deveria ser =vstudent(0,025;v1-1)*Vn/sqrt(v1), ou seja, deveramos dividir o desvio padro pela raiz quadrada de n (v1) para obter o erro padro e a sim multiplicar pelo resto da frmula para conseguirmos o intervalo desejado. Mas o programa EstimateS fornece o erro padro e o chama de desvio padro. Com a nova coluna podemos criar o nosso grfico. s ir em GRAPHS Graphs Range plots. 2D

43

Devemos marcar a opo relativo a um ponto central

E clicar em Variables para defini-las. Devemos selecionar a estimativa Jackknife como ponto central e o limite inferior e superior como o intervalo de confiana que criamos.

44

Quando clicamos em OK veremos o nosso grfico de acumulao de espcies com o IC de 95% associado estimativa.

H diversas maneiras de personalizar esse grfico para import-lo para o Word ou qualquer outro editor de texto. Vale a pena a cada um aprender qual opo se ajusta melhor s suas necessidades ou de acordo com a regra de uma revista cientfica. O mesmo grfico j trabalhado pode ficar assim, por exemplo:

45

30

Estimativa da riqueza de espcies - Jackknife

25

20

15

10

-5 1 6 11 16 21 26 31 36 41 46 51 56

Nmero de segmentos

Com poucas modificaes nas planilhas voc pode criar um grfico que apresente no eixo X os locais e no eixo Y as estimativas de riqueza de espcies. Com a presena do intervalo de confiana teremos um teste estatstico visual para comparao entre reas distintas. Duas reas sero iguais se o limite do intervalo de confiana de uma alcanar o valor central da estimativa do outro. Para criar um grfico que mescle as estimativas de riqueza (com IC associado) de duas ou mais reas, s realizar os procedimentos acima descritos para cada uma delas e reunir a ltima linha (ltimo valor estimado) de trs colunas na planilha j importada do Statistica. Primeiro vamos criar uma nova planilha:

O nmero de variveis 3 (s pela facilidade de copiar e colar entre planilhas, pegamos a varivel com o desvio padro). O nmero de cases ou amostras o nmero de locais que voc quer comparar.

46

Renomeamos as variveis:

Vamos na planilha do primeiro local e copiamos a ltima linha das 3 colunas que precisamos:

Vamos agora para a planilha que criamos e mandamos colar na linha desejada:

Clicando duas vezes sobre a coluna externa que normalmente contm o nmero das linhas, podemos modific-las e inserir o nome dos locais que desejamos comparar. Realizamos o copiar e colar para cada local sucessivamente at completar a planilha.

47

Depois dessa planilha estar pronta, s criar o grfico de range plot como explicado anteriormente para criao da curva do coletor e efetivamente comparar os locais.

Estudo de Caso:
Para exemplificar todos os passos do procedimento Jackknife, vamos usar a tabela planilha teste original. Conforme pode ser verificado, existem trs rios onde foram coletadas espcies da Ordem Odonata na Amaznia, dois rios de primeira ordem Ac12 e Ac14, e um de segunda ordem Ac22. Calculem a riqueza estimada de cada rio, e construa o grfico comparando a riqueza das trs reas, para ver qual a mais diversa. Ao final compare seus resultados com a planilha e com o grfico abaixo. Local AC12 AC14 AC22 Jackknife jack_SD IC 17.7 2.43 5.086048 18.7 3.11 6.509305 25.55 3.23 6.760468

34 32 30 28 26 24 22 20 18 16 14 12 10 AC12 AC14 AC15

48

Você também pode gostar