Escolar Documentos
Profissional Documentos
Cultura Documentos
Anlises Estatsticas
Goinia GO
Abril/ 2009
PARTE 1
INTRODUO
O objetivo deste texto no , nem de longe, ser um manual completo para guiar as suas
atividades na rea da anlise de dados. Antes, deseja-se apresentar algumas idias
interessantes que possam desafiar a vontade de ser mais eficiente no uso destas ferramentas.
A nfase aqui demonstrar que todos os testes estatsticos mantm a mesma estrutura lgica
e, portanto, podem ser facilmente entendidos.
2
Formulao de uma hiptese
Este um passo obviamente simples: o esperado que a variao seja igual. Pode-se medir
esta variao por uma grandeza estatstica chamada varincia. Este passo importante para
que se possa operacionalizar o teste, ou seja, definir claramente o que medir na natureza para
testar a hiptese.
Este passo delicado. Como seria possvel demonstrar que h uma alta probabilidade de que
os resultados sustentem ou no a hiptese nula. Considere um exemplo: a espcie A
apresentou uma varincia de 17,6 e a espcie B, uma varincia de 21,3. Ser que isto
suficiente para assumir que a espcie B varia mais? O primeiro passo calcular um nmero
que represente o resultado obtido. Uma possibilidade dividir a maior varincia pela menor.
Chamemos este nmero de F (em honra a Ronald Fisher). Neste exemplo, ele vale 1,21, e
representa que a variao na espcie B 1,21 vezes maior que a A. A ateno deve se voltar
agora para a hiptese nula. Qual seria a distribuio esperada dos possveis valores de F se a
hiptese nula fosse verdadeira? Isto equivale a dizer: como variaria F se na verdade as duas
varincias fossem iguais ? Uma nova coleta de dados na mesma comunidade (ou mesmo
amostragens em dias diferentes do estudo original) mostraria pequenas diferenas. Tais
diferenas no significativas se devem ao acaso. O acaso rene todos os outros fatores da
natureza no medidos e que podem afetar os resultados do experimento, exceto os
mecanismos que esto subjacentes hiptese. Este passo agora feito por um estatstico-
matemtico que desenvolve uma equao que representa a distribuio esperada se o
fenmeno descrito fosse devido somente ao acaso. Esta equao usualmente chamada de
funo de distribuio e descreve a probabilidade de ocorrer cada uma das possibilidades de
resultado, quando o fenmeno apenas dirigido pelo acaso.
A deciso a ser tomada a de aceitar ou rejeitar a hiptese nula. Isto equivale a decidir se as
varincias podem ser consideradas iguais e suas diferenas podem ser explicadas pelo acaso
ou se as varincias podem ser consideradas diferentes e preciso invocar um outro
mecanismo, fora o acaso, para explicar as diferenas. O mtodo para testar simples. Se a
variao de F conhecida quando a hiptese nula verdadeira, basta calcular qual a
probabilidade de encontrar um resultado como 1,21 quando a hiptese nula verdadeira,
usando a funo de distribuio de F. Se esta probabilidade for alta, no h nenhuma razo
3
para desconfiar que a hiptese nula seja falsa. Ou seja, se as diferenas encontradas so
passveis de ocorrer mesmo quando as varincias so iguais, deve-se aceitar o acaso para
explicar as variaes observadas. Se a probabilidade baixa, ento muito raro ocorrer um
resultado como o que foi observado quando a hiptese nula verdadeira, o que mostra que ela
no satisfaz como explicao para o fenmeno. Assim, faz-se necessria outra explicao, que
no o acaso, para as diferenas entre as varincias. Elas so estatisticamente diferentes.
Ao decidir pela rejeio ou no da hiptese nula (Ho) o pesquisador corre o risco de estar
tomando uma deciso errada. Existem dois tipos de erros associados deciso em um teste de
hipteses: o primeiro erro, dito Erro Tipo 1, decidir pela rejeio da hiptese nula sendo ela
verdadeira. Voltando ao exemplo, Ho foi rejeitada, ou seja, as populaes A e B tm
varincias diferentes. Faz-se necessrio estimar o grau de incerteza associado essa deciso.
A probabilidade de se cometer o Erro Tipo 1 o chamado nvel de significncia, ou . Adotar
um nvel de significncia de 5% quer dizer probabilisticamente que se a amostragem for
repetida 100 vezes, em 95 delas a deciso tomada estar correta rejeitando-se Ho.
A outra deciso errada aceitar a hiptese nula quando ela falsa. Esse o chamado Erro
Tipo 2, cuja probabilidade definida por . O poder de um teste definido como 1 - , isto ,
quanto menor a probabilidade de cometer o Erro Tipo 2 mais poderoso o teste. Ambos os
erros so indesejveis, porm o pesquisador tem controle mais efetivo sobre o Erro Tipo 1.
Para diminuir a probabilidade de rejeitar uma hiptese nula sendo ela verdadeira, basta
reduzir o nvel de significncia (geralmente de 5% para 1%). A mesma regra no se aplica
para o valor de . Na verdade, quanto mais se reduz o nvel de significncia mais se aumenta
a probabilidade de cometer o Erro Tipo 2. A nica maneira de reduzir simultaneamente
ambos os tipos de erro de deciso aumentar o tamanho da amostra. Assim, para um dado
nvel de significncia, amostras grandes produzem um teste estatstico mais poderoso. Para
concluir, importante ressaltar que no rejeitar a hiptese nula no prova que ela
verdadeira. Pela lgica dos testes de hipteses, quer dizer que no existem evidncias
suficientes para concluir que ela falsa.
Quando procuramos testar uma hiptese, geralmente possvel identificar dois tipos de
variveis: a independente e a dependente. A varivel independente ou preditora aquela
que, em teoria, causa o efeito que procuramos confirmar. A varivel dependente a que mede
o efeito sofrido. No exemplo, o tamanho da populao a varivel dependente e a varivel
independente a espcie. Estamos investigando a possibilidade de que o tamanho
populacional (e a variabilidade desta medida) seja diferente entre as espcies, como resultado
de suas diferenas ecolgicas.
Uma outra maneira de classificar as variveis quanto natureza de suas medidas. Os dois
exemplos extremos das escalas de medidas so as variveis categricas e as quantitativas.
Variveis categricas apenas representam distines de qualidade, enquanto as variveis
quantitativas representam diferenas de quantidades. No exemplo anterior, as espcies so
variveis categricas e o tamanho da populao uma varivel quantitativa. Esta diviso
refere-se forma como os dados foram coletados: uma varivel categrica como a cor (preto,
branco etc.) pode ser medida como quantitativa (o comprimento de onda da luz emitida). A
Tabela 1 apresenta um modelo bastante simplificado para a escolha do teste estatstico
apropriado.
4
Tabela 1. Sugesto de alguns testes estatsticos a empregar de acordo com o tipo de varivel
observada. Entre parnteses alguns testes no-paramtricos.
(1) No caso de amostras dependentes, (2) Esses testes eventualmente verificam no a relao de dependncia
entre variveis, mas sim a associao entre elas, descaracterizando, portanto a classificao de variveis
dependentes e independentes.
A APRESENTAO DE RESULTADOS
Sero apresentados aqui alguns testes estatsticos mais empregados, tentando demonstrar que
todos eles seguem a mesma lgica de tomada de deciso. O que um teste estatstico faz
fornecer uma medida de incerteza ou as chances de se tomar uma deciso errada. Para que tal
rotina funcione, alguns pressupostos devem ser cumpridos.
Um primeiro cuidado envolve o desenho amostral. preciso garantir que as amostras sejam
tomadas ao acaso e, a menos que seja interesse explcito, que elas sejam independentes.
Muitos dos problemas na anlise dos dados vm da no observncia desses pontos.
Alguns testes estatsticos dependem da distribuio dos dados ou, mais precisamente, da
distribuio da mdia amostral. Tais testes so classificados como "paramtricos" e, para
empreg-los, deve-se garantir que alm da distribuio ser normal as varincias entre grupos
(no caso de teste t e ANOVA) devem ser iguais. De maneira geral, os dois pressupostos:
normalidade e homogeneidade de varincias no so requisitados para os testes no-
paramtricos. O problema que nem sempre existe uma alternativa no-paramtrica para cada
teste paramtrico.
As transformaes dos dados geralmente so empregadas para tentar corrigir a no-
normalidade ou a heterocedasticidade das varincias. Como exemplo de transformaes
temos a logartmica (para corrigir distribuies assimtricas e para remover a dependncia
5
entre mdia e varincia, alm de homogeneizar varincias entre grupos), a raiz-quadrada (para
dados de contagens, por exemplo, nmero de filhotes por gestao) e a transformao arco-
seno da raiz-quadrada ou angular (para dados em proporo). Independente da transformao
escolhida, um problema comum que os dados transformados perdem seu significado
biolgico, o que pode levar a interpretaes equivocadas das possveis relaes entre as
variveis.
Sero apresentados aqui alguns dos principais testes estatsticos tentando mostrar como so
percorridos os passos lgicos definidos em nosso exemplo.
A Tabela 1 mostra que no estudo da dependncia entre duas variveis categricas utiliza-se o
teste de Q-quadrado. Considere a seguinte questo: existe associao entre uma determinada
espcie de ave frugvora e uma determinada famlia de plantas? Para dar nome ao
experimento considere que a ave seja Thraupis sayaca (o sanhao) e a famlia de plantas as
Melastomatceas. Seguindo-se os passos pr-definidos observa-se:
um Sanhao?
Sim No Total
uma Sim 13 34 47
Melastomatcea?
No 12 40 52
Total 25 74 99
6
as diferenas encontradas nos nmeros observados nas clulas internas da Tabela seriam
explicadas apenas por diferenas no nmero de amostras (a coluna e a linha denominadas
total na Tabela). Assim, a proporo 25 sanhaos no total de 99 aves observadas deveria se
manter tanto para as 47 aves encontradas em Melastomatceas quanto para as 52 encontradas
em no Melastomatceas. Isto o equivalente a predizer que o resultado esperado para o
nmero de sanhaos observados em Melastomatceas seria obtido pela regra de trs simples:
25 est para 99 como x est para 47. A Tabela 3 mostra os valores esperados.
Tabela 3. Valores esperados da Tabela 2 se Ho for verdadeira.
um Sanhao?
Sim No Total
uma Sim 11,9 35,1 47
Melastomatcea?
No 13,1 38,9 52
Total 25 74 99
7
O EFEITO DE UMA VARIVEL CATEGRICA COM DOIS NVEIS SOBRE UMA
VARIVEL QUANTITATIVA: O TESTE T DE STUDENT
A hiptese nula reza que no h diferenas de longevidade dos primatas com ou sem pr-
adaptao. Propositalmente foi apresentado um conjunto de dados que apresenta dois dos
principais problemas que usualmente assustam quem comea a usar os testes estatsticos. Os
dados parecem muito regulares para estarem apresentando distribuio normal e a
longevidade na ausncia do perodo de pr-adaptao parece variar mais que com a pr-
adaptao.
Para entender melhor o significado destes dados, h necessidade de aprofundar um pouco
mais a fase da construo do teste referente deduo da distribuio esperada caso a
hiptese nula seja verdadeira. Este passo exige uma deduo baseada em alguns pressupostos
bsicos que podem variar entre os testes, mas so muito semelhantes para o conjunto de testes
classificados como modelos lineares gerais, do qual fazem parte o teste de t, a anlise de
varincia e a anlise de regresso.
Na deduo, parte-se do princpio de que os dados provm de uma distribuio normal e de
que a variao dos dados, em cada tratamento (a varincia com e sem a fase de pr-
8
adaptao), igual. Importante ressaltar que quando os pressupostos no so cumpridos, nada
assegura que os resultados dos testes estejam corretos. No entanto, os estatsticos consideram
que um teste robusto quando apesar de alguns pressupostos no serem cumpridos ele
permanece correto. O teste de t, por exemplo, bastante robusto a desvios da normalidade.
Quanto a diferenas de variao, h um teste de t para varincias iguais (homogneas) e outro
para varincias diferentes, que pode ser facilmente encontrados em qualquer dos software
dedicados anlises estatsticas. Sendo assim, o teste t uma ferramenta muito til e muito
robusta, podendo ser utilizado mesmo em situaes como as do exemplo.
A partir dos dados da Tabela 4, observa-se que, em mdia, os indivduos que receberam o
tratamento de uma fase de pr-adaptao viveram 2,625 anos, enquanto os que no receberam
sobreviveram 1,700 anos. Isto representa uma sobrevivncia de 0,975 anos a mais com a fase
de pre-adaptao, mas a pergunta persiste, qual a probabilidade disto ter ocorrido pelo acaso?
Um aspecto interessante que diferenas como estas podem ser devidas ao acaso,
principalmente com poucas amostras (4 indivduos sob a fase de pr-adaptao). Conduzindo
o teste, encontra-se um valor de t=1,722, que com 7 graus de liberdade (g.l.=n-1), leva a um
valor de p=0,129. A um nvel de significncia de 5% aceitamos a hiptese nula de que a fase
de pr-adaptao no alterou a sobrevivncia dos macacos.
Este pode parecer um resultado incoerente que ser discutido em detalhes mais adiante neste
captulo.
Ho: 1 = 2 = 3 = 4
Ha: Existe diferena na densidade mdia entre as cotas de altitude.
Observe que a hiptese nula (Ho) tambm quer dizer que no h efeito da altitude sobre a
densidade da espcie, com conseqncia lgica da igualdade das mdias em altitudes
diferentes. Para se rejeitar a hiptese nula, basta que pelo menos, um par apresente valores
mdios diferentes, para um nvel de significncia de 5% ( = 0,05). Os valores obtidos pelo
pesquisador esto listados na Tabela 5.
9
Tabela 5. Nmero de indivduos coletados em cada uma das 4 cotas de altitude.
A partir dos dados coletados possvel estimar os parmetros mdia e varincia da densidade
populacional para cada uma das quatro cotas de altitude. A varincia em particular pode ser
dividida em dois componentes: varincia entre os grupos (ou varincia devido ao tratamento)
e varincia dentro dos grupos (varincia devido ao erro). Um quadro de ANOVA
caracterstico, resultante do conjunto de dados apresentados no exemplo est ilustrado na
Tabela 6.
Uma das maneiras de se estimar quanto um conjunto de dados varia em relao ao valor
mdio, somar todas as diferenas entre cada valor e a mdia, tomando o cuidado de elevar a
diferena ao quadrado para evitar que a soma iguale a zero. Essa a chamada soma dos
quadrados (SQ). Ao dividir esse valor pelo nmero de graus de liberdade temos o quadrado
mdio (QM), ou varincia. A estatstica F calculada ao se dividir o QM do efeito (varincia
entre os grupos) pelo QM do erro (varincia dentro dos grupos). Voc deve lembrar o que foi
dito no incio desse texto: o valor F uma razo entre varincias. Compara-se o valor F
calculado com o valor esperado sendo a hiptese nula verdadeira, e decide-se pela sua
rejeio ou no. A maioria dos programas estatsticos calcula a probabilidade associada ao
valor F calculado. No exemplo acima, o valor F calculado foi de 5,66, com um nvel de
significncia atingido (ou valor-p estimado) de 0,004. Como o valor-p est bem abaixo do
nvel de significncia adotado de 0,05 rejeitamos a hiptese nula, ou seja, existe efeito
significativo da altitude sobre a densidade da planta. Uma boa maneira para ilustrar o
resultado sem apresentar o quadro completo fornecer o valor F com seus graus de liberdade
e o valor-p. No exemplo acima, diramos: Existe diferena na densidade ente as cotas de
altitude (F3,28=5,66; p=0,004). Alm disso, a apresentao grfica dos valores mdios por
grupo, com suas respectivas medidas de variao facilita a visualizao dos resultados.
Grficos do tipo box-plot como o da figura 1 so bem ilustrativos.
10
Figura 1. Representao das mdias, erros-padro e desvios-padro do nmero de plantas nas
quatro altitudes amostradas.
O teste ANOVA indica se existe diferena, mas no informa onde esta se encontra. Para tal,
tendo rejeitado a hiptese nula pela ANOVA faz-se necessrio um teste a posteriori. De uma
maneira geral, existem dois grupos de testes a posteriori. Os primeiros, denominados testes de
comparao mltipla, nos quais no se estabelece uma hiptese a priori, e os testes de
comparao planejada, empregando a tcnica de contrastes. Este ltimo, mais "elegante",
deve ser utilizado sempre quando o pesquisador j possuir, antes de iniciar o experimento,
uma hiptese de como seus grupos devem se diferenciar.
Existem muitos testes de comparao mltipla, sendo os mais conhecidos, Tukey, Duncan e
Scheff. Aplicando o teste de comparao mltipla de Tukey no exemplo, observa-se que as
diferenas se encontram entre as cotas 1 e 4; 2 e 3; 2 e 4.
11
pesquisador estimou tambm a riqueza de insetos polinizadores em cada ponto de coleta e
obteve os seguintes resultados:
12
positivo igual a zero negativo
Figura 2. Retas produzidas por diferentes coeficientes de regresso. > 0 indica associao
positiva; < 0 associao negativa e igual a zero indica ausncia de associao entre as
duas variveis.
O coeficiente de correlao estimado foi de -0,947, indicando uma alta correlao negativa.
medida que aumenta a altitude, diminui a abundncia da planta. Essa diminuio se d na
"velocidade" de menos 1 indivduo a cada 0,04 metros de altitude. Na Tabela 8 tambm est
indicado o teste t utilizado para testar a hiptese nula de que o coeficiente de inclinao
igual a zero. Com o valor calculado de -10,275 para 12 graus de liberdade rejeita-se Ho. Uma
outra maneira de testar a significncia da regresso utilizar uma anlise de varincia. A
Tabela 9 demonstra a sada tpica da maioria dos programas estatsticos para o procedimento.
Total 1175,5
13
Como foi dito no tpico sobre ANOVA, a soma dos quadrados (SQ) uma estimativa da
varincia particionada entre a regresso e o resduo, ou erro. A proporo entre a SQreg e a
1055,5
SQtot indica quanto da variao explicada pela regresso. Nesse caso = 0,898 . A
1175,5
regresso explica 89,8% da variao dos dados. Esse valor o chamado R2 da regresso, e
pode tambm ser calculado simplesmente elevando-se ao quadrado o valor do coeficiente de
correlao (R = -0,947 R2 = 0,898). O teste segue a mesma lgica de uma ANOVA
comum. Calcula-se o valor da estatstica F pela diviso dos quadrados mdios.
(QMReg/QMRes). Compara-se o valor calculado com o esperado sendo verdadeira a hiptese
nula e toma-se a deciso. No exemplo, o elevado valor de F indica que a regresso
altamente significativa (Figura 3).
14
Voltando ao modelo, a regresso mltipla testa, por meio de ANOVA, a significncia do
ajuste, e testa tambm atravs do teste t, os coeficientes estimados para cada termo da
regresso. A sada usual de uma anlise de regresso mltipla similar da regresso
simples, apenas incluindo-se as variveis adicionais (Tabela 10).
Coeficientes Estatstica
B g.l. t Valor-p
Intercepto 52,495 11 10,984 < 0,001
Altitude -0,942 -0,040 11 -9,092 < 0,001
Riqueza 0,014 0,011 11 0,138 0,892
Tabela 11. Anlise de varincia para a regresso mltipla entre altitude e riqueza com a
abundncia das plantas.
Em algumas situaes prticas de campo difcil ter boas estimativas da abundncia de uma
espcie. Isso principalmente verdadeiro quando se trata de espcies raras, ou de difcil coleta
e/ou visualizao. A questo que muitas vezes so essas espcies nosso foco de interesse.
Imagine, ento, que voc est interessado em discutir a influncia de fatores antrpicos sobre
uma espcie rara. Imagine que tais fatores so mensurveis como, por exemplo, rea perdida
ou concentrao de metais pesados na gua. Podemos imaginar um modelo preditivo (atravs
da regresso linear, por exemplo) que nos fornea uma idia de qual seria a "velocidade" com
que a populao perde indivduos medida que aumenta o nvel de poluio.
Por se tratar de espcie rara, ou pelo menos inconspcua, as chances de voc conseguir boas
estimativas dos tamanhos populacionais pequena. O mximo que se consegue afirmar se a
espcie est ou no presente numa determinada amostra, se no se est preocupado com a
abundncia, mas sim com a ocorrncia da espcie. Assim, a varivel resposta (dependente)
categrica, e s pode assumir dois valores (presena ou ausncia). Para essa e outras situaes
semelhantes (morreu/sobreviveu; tem filhotes/no tem filhotes, etc...) a anlise indicada a
regresso logstica (veja a Tabela 1).
15
Uma situao mais real: algumas espcies de macro-invertebrados de gua doce da famlia
Chironomidae (Diptera) podem ser indicadoras de qualidade ambiental. Certas espcies s
ocorrem em ambientes preservados, enquanto que outras esto presentes em sistemas
aquticos bastante eutrofizados. Os dados apresentados abaixo so de Marques et al. (1999).
Os autores coletaram em 20 pontos da bacia do Rio Doce, no estado de Minas Gerais. Em
cada ponto, foram medidas diversas variveis fsico-qumicas da gua, entre elas, a
concentrao de nitrognio total, que indicador de grau de eutrofizao. Diversas espcies
de Chironomidae foram coletadas. Abaixo apresentamos os dados de ocorrncia de duas
espcies. Observe que nos dados originais a presena das espcies est categorizada em 3
classes de abundncia.
Tabela 12. Presena (1) e ausncia (0) de duas espcies de Chironomidae concentrao de
nitrognio total em 20 pontos da bacia do Rio Doce.
16
1
Y=
1 + e ( + 1X1 + 2 X 2 +...+ i X i )
17
verossimilhana para o modelo com a varivel N-tot= -2ln(LC) = 26,39; LR = 27,72 - 26,39 =
1,33; n de parmetros do modelo completo = 2 ( e 1); n de parmetros do modelo simples
= 1 (); Graus de liberdade = 1; Valor-p = 0,247. Deste modo, aceita-se a hiptese nula, ou
seja, a ocorrncia de Cryptochironomus sp. no depende da concentrao de nitrognio total
na gua (Figura 4B).
18
A)
B)
19
zero. Quando o tamanho amostral grande os resultados de ambos os testes so iguais. Mas,
se o tamanho amostral pequeno, recomenda-se utilizar o teste LR. Um outro problema do
teste de Wald que sua interpretao para a situao de duas ou mais variveis mais
complicada, e envolve a aplicao de lgebra matricial. Diversos estatsticos recomendam que
se utilize preferencialmente o teste de LR para inferncias estatsticas associadas regresso
logstica.
De maneira geral, vale lembrar que os mesmos princpios lgicos e interpretativos da
regresso linear podem ser aplicados aos modelos de regresso logstica, incluindo as
situaes de mltiplas variveis. Nessas situaes, aplica-se rotina de avaliao do valor de
LR a medida que se adicionam variveis no modelo.
20
experimento ser executado. Com uma freqncia muito maior que o esperado em uma
comunidade cientfica madura, estas decises so tomadas aps os dados serem coletados,
fruto do que os ingleses chamaram de whishful thinking -- aqui traduzido, pelo Dr Miguel
Petrere Jr., como pensamento desejoso. O desejo de que nossa hiptese alternativa esteja
correta o caminho mais curto para afastar a Biologia da Conservao do vacilante, mas
honesto, caminho das Cincias e traz-la para o caminho do dogmatismo. Afinal, se uma
hiptese considerada correta mesmo que os dados digam o contrrio, para que, ento, se
coletaram os dados?
21
BIBLIOGRAFIA RECOMENDADA
Caughley, G. & Gunn, A. 1996. Conservation Biology in Theory and Practice. Blackwell
Science, Inc., Cambridge, Massachusetts. 459p.
Hosmer, D. W. & lemeshow, S. 1989. Applied Logistic Regression. John Wiley & Sons,
New York. 307 p.
Krebs, C. J. 1989. Ecological Methodology. Harper & Row, Publishers, New York. 654p.
Neto, P. R. P.; Valentin, J. L. & Fernandez, F. (eds.). 1995. Tpicos em tratamento de dados
biolgicos. Volume 2. 1 Edio. Oecologia Brasiliensis, Rio de Janeiro. 161p.
Manly, B. F. J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and
Hall, London. 281p.
Sokal, R. R. & Rohlf, 1995. Biometry. W. H. Freeman and Company, New York, USA.
887p.
Tonhasca, A., Jr. 1991. The three "capital sins" of statistics used in biology. Cincia e
Cultura, 43(6):417-422.
22
PARTE 2
A PROPOSTA DO GUIA
BANCO DE DADOS
1. Utilize o Excel para colocar seus dados (ou outro programa semelhante). Quando
so muitos dados mais adequado utilizar a plataforma Access.
23
dentro da mesma pesquisa, mais de uma unidade amostral. Quando for montar a
planilha DADOS coloque sempre as amostras independentes em linhas
diferentes e as variveis (as informaes da mesma amostra) em colunas. Por
exemplo: Pretende-se testar se h diferena de riqueza de drosofildeos em frutos
pequenos e frutos grandes (tamanho do fruto = varivel categrica/ riqueza =
varivel quantitativa). Se:
a. Forem observados frutos numa mata, cada um deles ser uma amostra:
Tamanho do fruto S
G 10
P 4
P 6
G 12
G 9
G 8
b. Se os frutos grandes forem colocados experimentalmente ao lado de frutos
pequenos, as amostras se tornam dependentes e o ponto passa a ser a amostra,
tratando-se de um experimento pareado:
24
IMPORTAR DADOS PARA O STATISTICA
Siga os seguintes passos para importar seus dados do EXCEL para o STATISTICA.
No menu:
1. FILE OPEN
3. Selecionar a planilha:
1. Janela Open Excel File: nela aparecer o nmero de colunas e o de linhas da sua planilha.
Selecione Get variable names from first row, para que os nomes que voc deu s variveis
(a primeira linha do Excel) no entre como um dado. Preste ateno se o nmero de linhas e
colunas confere com os da planilha do Excel.
LEMBRETES
25
PROCEDIMENTOS PARA AS ANLISES ESTATSTICAS
1. QUI- QUADRADO
4. Summary
28
4. ANLISE DE VARINCIA ANOVA
1. Statistics ANOVA
2. One-way ANOVA OK
30
1. Na planilha importada clique duas vezes na linha de
cabealho do nome da varivel (X, por exemplo).
31
5. KRUSKAL-WALLIS
Passos:
1. Statistics Nonparametrics
3. Testar os pressupostos:
SS Degr. Of MS F p
Freedom
of
Intercept 3110,400 1 3110,400 137,8995 0,000023
"Var1" 60,000 1 60,000 2,6601 0,154016
"Var2" 26,667 1 26,667 1,1823 0,318633
"Var1"*"Var2" 13,067 1 13,067 0,5793 0,475423
Error 135,333 6 22,556
7- REGRESSO LINEAR
1. Statistics
2. Multiple Regression
3. Variables: dependent/independente OK
8. REGRESSO MLTIPLA
1. Statistics
2. Multiple regression
34
3. Variables: dependent variable list e predictor variables (as variveis independentes
testadas) OK OK
5. Summary Coefficients
5.1. Verificar o valor de p das variveis (quando for significativo observar o tamanho do
efeito de acordo com os parmetros).
5.2. Observar tambm o intervalo de confiana (a 95%) ao redor dos parmetros (a inclinao
da reta).
5.3. o valor de o R2
7. Grfico: importante verificar se havia co-relao entre as variveis. Fazer o grfico com
a(s) varivel(is) que for(em) significativa(s).
9- REGRESSO LOGSTICA
35
5. Aparece na janela o valor de 2 e p.
7. Para calcular a estimativa dos parmetros: Summary: Parameters & standard errors
36
b. Testar a normalidade: em Distribution of within-cell residuals Normal p-p
OK
37
TUTORIAL PARA PREPARAO E IMPORTAO DE DADOS PARA
ESTIMATIVAS DE RIQUEZA DE ESPCIES
Os dados de suas coletas devem ser organizados em uma planilha eletrnica, pois as
anlises subseqentes podem ser feitas de modo simples por meio de pequenas modificaes
na estrutura das mesmas. Neste caso utilizamos as planilhas do Microsoft Excel para
demonstrar como importar os dados para o programa EstimateSWin 750.
Amostras nas
linhas
38
Obs: a presena desses caracteres a causa mais freqente de erros de importao e
anlise de dados nos mais diversos programas estatsticos. Eles no devem ser utilizados nas
planilhas e nem em nome de arquivos.
Agora devemos inserir duas linhas acima dos dados. Elas serviro para o cabealho
de legenda para o EstimateS:
39
Na primeira clula (A1) devemos inserir o nome que daremos para a planilha, deve
ser um nome curto, com menos de seis dgitos e que no contenha diacrticos.
A planilha est quase pronta. necessrio salv-la como somente texto separado por
tabulaes, indo em: Arquivo Salvar como Texto separado por tabulaes.
O Excel apresentar algumas mensagens de alerta antes de permitir que voc salve o
documento. Ignore-as e continue o processo.
40
IMPORTANTE: Se o programa no abrir pode ser devido a uma configurao de seu
computador. O EstimateS esta configurado no sistema Britnico cujo separador decimal o
. (ponto), e no nosso sistema a vrgula. Para resolver este problema, basta ir: Iniciar
Configuraes Painel de controle Opes regionais e de idioma Personalizar
Smbolo decimal trocar vrgula por ponto OK OK e fecha a janela aberta. Agora s
abrir o EstimateS novamente e comear a trabalhar.
Para importar os dados que preparamos, basta ir em File Load Input File
41
Marque a caixa com a opo Formato 2 (linhas nas amostras e espcies nas colunas)
e d OK. O programa dever carregar a planilha na memria. Se tudo der certo no haver
nenhuma mensagem de erro.
42
O padro para o nmero de runs (aleatorizaes) 50. Normalmente marcamos
como 100 ou mais vezes, depende do tamanho do conjunto de dados que voc possui. Como a
re-amostragem do principal estimador de riqueza de espcies sem reposio, devemos
manter selecionada essa opo na caixa de Protocolo de Aleatorizao. Clique em Compute.
Ao fim desse tempo, voc ver uma planilha com os resultados calculados. Essa
planilha no prtica e prefervel trabalhar com os dados no Excel. Clique em Export
aparecer uma tela do Explorer, d um nome para seu arquivo (sugerimos que seja dado o
mesmo nome do arquivo original, adicionado com a denominao res de resultado, isso evita
problemas de mistura de resultados, no nosso exemplo demos o nome de teste.txt, agora
passar a ser testeres.txt e feche o Estimates. hora de abrir o Excel.
Com o Excel, abra o arquivo de texto que foi a sada do programa Estimates. O Excel
apresentar uma tela sobre definies sobre a importao de dados no formato texto.
43
44
Aps importar a planilha para o Statistica, devemos escolher o estimador de riqueza
de espcies desejado. Verifique que h um valor estimado para cada uma de suas amostras, o
que permite a voc a criao de uma curva do coletor. Note tambm que para cada estimativa
h tambm um desvio padro. De posse desse dado, possvel construir um intervalo de
confiana associado estimativa, o que ir permitir a apresentao dos dados em um grfico
mais informativo que poder inclusive ser utilizado na comparao de riqueza de espcies
entre locais. Como construir esse intervalo e como fazer esse grfico? Basta seguir os passos
adiante.
Para criar o intervalo de confiana precisamos primeiro inserir mais uma coluna na
planilha dentro do Statistica, para isso selecione a coluna imediatamente posterior direita da
coluna do desvio padro, no caso a coluna 30. Localize no lado direito da tela do Statistica o
menu VARS, clique em adicionar.
Ser aberta a seguinte tela, onde podemos configurar o contedo da Coluna (que o
Statistica sabidamente chama de varivel). Ele indica que a varivel ser adicionada aps a
coluna Jack1_SD. O nome da varivel fica a seu critrio. Mas IC j diz tudo.
Agora vem o importante: Vamos inserir uma frmula no campo maior dessa tela, que
ser utilizada para criar o intervalo de confiana.
45
Como no Excel, toda a formula deve comear com o sinal de igual (=) e o que
digitaremos o seguinte =-vstudent(0,025;v1-1)*Vn
Vn deve ser substitudo pelo nome da varivel que contm o desvio padro (no caso
V24).
46
Devemos marcar a opo relativo a um ponto central
47
Quando clicamos em OK veremos o nosso grfico de acumulao de espcies com o
IC de 95% associado estimativa.
48
30
25
15
10
-5
1 6 11 16 21 26 31 36 41 46 51 56
Nmero de segmentos
Com poucas modificaes nas planilhas voc pode criar um grfico que apresente no
eixo X os locais e no eixo Y as estimativas de riqueza de espcies. Com a presena do
intervalo de confiana teremos um teste estatstico visual para comparao entre reas
distintas. Duas reas sero iguais se o limite do intervalo de confiana de uma alcanar o
valor central da estimativa do outro.
49
Renomeamos as variveis:
Vamos na planilha do primeiro local e copiamos a ltima linha das 3 colunas que
precisamos:
Vamos agora para a planilha que criamos e mandamos colar na linha desejada:
Clicando duas vezes sobre a coluna externa que normalmente contm o nmero das
linhas, podemos modific-las e inserir o nome dos locais que desejamos comparar.
Realizamos o copiar e colar para cada local sucessivamente at completar a planilha.
50
Depois dessa planilha estar pronta, s criar o grfico de range plot como
explicado anteriormente para criao da curva do coletor e efetivamente comparar os locais.
Estudo de Caso:
32
30
Riqueza de espcies estimadas (Jackknife)
28
26
24
22
20
18
16
14
12
10
AC12 AC14 AC15
51