Escolar Documentos
Profissional Documentos
Cultura Documentos
Verso 3.0
Pavel Dodonov
Lab. Ecologia e Conservao, Departamento de Botnica, UFSCar
Para o software Past 2.04
O PaSt Palaeontological Statistics um software estatstico desenvolvido por Oyvind
Hammer, da Universidade de Oslo (Noruega), e colaboradores. disponvel online,
constantemente atualizado, e faz boa parte das anlises mais comuns em ecologia, alm
de muitas outras de que nunca ouvimos falar. Pode ser baixado em
http://folk.uio.no/ohammer/past/. A nica coisa que os desenvolvedores pedem que,
quando forem utilizar ele para alguma publicao, citar o seguinte trabalho: Hammer,
., Harper, D.A.T., and P. D. Ryan, 2001. PAST: Paleontological Statistics Software
Package for Education and Data Analysis. Palaeontologia Electronica 4(1):
9pp. http://palaeo-electronica.org/2001_1/past/issue1_01.htm.
Inserindo dados
- Dados organizados em colunas; se for arquivo txt (texto), as colunas devem ser separadas por
TAB.
- Past entende apenas nmeros; missing data podem ser codificados por ? ou, em algumas
anlises, por -1. No deixem clulas vazias!
- Para modificar os nomes das colunas e das linhas: selecionar a opo edit labels. Com ela
selecionada, podemos colar os cabealhos das colunas e os nomes das linhas para a planilha do
Past.
- Para selecionar uma coluna: clicar nela; para selecionar mais de uma coluna: clicar na primeira,
segurar SHIFT, e clicar na ltima coluna a ser selecionada.
- Para mudar colunas de lugar: clicar em uma coluna, manter o boto esquerdo pressionado, e
arrastar ela para o local desejado.
- Para selecionar algumas clulas: selecionar a primeira com o mouse e selecionar as outras com
SHIFT e setas; ou desmarcar a opo Edit mode, selecionar a primeira, segurar shift e selecionar a
ltima (ou arrastar o mouse com o boto esquerdo e SHIFT pressionados).
- Para deletar dados ou colunas: a tecla Delete no funciona! H duas formas. 1) Selecionar os
dados que quer remover e apertar ctrl+x (ou seja, recort-los). a forma que costumo usar.
Fazendo isso com uma coluna selecionada, os dados somem mas a coluna fica. 2) Selecionar
dados, ir no medu Edit, e clicar em remove. Se tiver uma coluna selecionada, a coluna inteira
removida. (mesma coisa para as linhas)
- Para adicionar mais colunas: selecionar a coluna depois da qual vc quer adicionar mais colunas;
ir no menu edit; insert more columns. Mesma coisa para as linhas (insert more rows)
- Para desfazer alguma besteira que voc fez sem querer : ctrl+z! Importante: nisso, s vezes o
programa vai para a ltima clula da planilha. Mas no se assuste, apenas arraste a barra de
rolagem para o comeo novamente. s vezes ele desfaz uma operao mais antiga. Enfim, na
dvida, insira os dados novamente e refaa tudo!
- A rodinha do mouse mexe a clula selecionada, no a tela. Se voc tem a coluna inteira
selecionada, a rodinha do mouse vai mexer a partir da clula de baixo; se tiver toda a linha
selecionada, vai ser a partir da ltima clula da linha. Isso costuma ser bem irritante, ento
melhor esquecer que a rodinha do mouse existe e usar a boa e velha barra de rodagem.
Opes de visualizao
- Edit mode: permite editar dados; quanto desmarcado, permite selecionar clulas com mais
facilidade (selecionando a primeira, segurando SHIFT e selecionando a ltima, ou arrastando com
o boto esquerdo pressionado).
- Edit labels: editar cabealhos. Boa para colar dados contendo cabealhos (nomes das linhas
e das colunas).
- Square mode: neste modo, clulas com nmeros aparecem cheias; clulas com zero aparecem
com um pontinho; clulas sem nada ou com texto aparecem vazias. Bom para achar erros de
digitao.
Transformando dados
O menu Transform oferece vrias opes de transformao.
As mais legais so:
- Log: calcula logaritmo na base 10.
- Remove trend: digamos que voc quer tirar o efeito que a varivel X tem na varivel Y. A
opo remove trend calcula a frmula de regresso linear entre X (primeira coluna) e Y (segunda
coluna), depois calcula os valores esperados para Y a partir dessa regresso, e subtrai estes
valores dos valores originais.
- Subtract mean: subtrai a mdia da coluna de todos os valores
- Row percentage: converte todos os valores para porcentagem da somatria da linha.
- Abundance to presence/absence: converte tudo que for maior que 0 em 1, para
transformar dados contnuos em presena/ausncia.
- Column difference: subtrai duas colunas e coloca o resultado em uma terceira coluna.
- Evaluate expression: permite transformar dados como voc quiser! Digite a expresso
embaixo, selecione onde voc quer a transformao, e clique em Compute.
Funes disponveis: (colocar o valor desejado dentro de parnteses; para transformar o contedo
da clula, usar a letra x.
abs(): valor absoluto
atan(): arco-tangente
cos(): coseno
exp(): e elevado a alguma coisa
ln(): logaritmo neperiano
round(): arredondar at um nmero inteiro
sin(): seno
sqrt(): raiz quadrada
trnc(): tira a parte decimal de um nmero, sem a aproximao.
Operadores matemticos:
+ (soma), - (subtrao), * (vezes), ^ (elevado a), / (diviso).
Estatstica descritiva
Estatstica descritiva
Algo bem interessante que o Past faz a estatstica descritiva, de uma ou mais colunas: Statistics
Hbroto
4036
1
180
192876
47.7888
0.496875
996.429
31.5663
40
24
65
1.10522
213.823
37.8078
O nome da coluna
Nmero de clulas ou tamanho amostral
Valor mnimo encontrado
Valor mximo encontrado
Soma de todos os valores, uai
Mdia
Erro padro (desvio / raiz da mdia)
Varincia
Desvio padro (raiz da varincia)
Mediana metade dos valores acima/abaixo
25% dos valores abaixo desse
75% dos valores abaixo desse
Assimetria: >0 = cauda pra direita,
Curtose: quanto maior, mais rpido cresce
Mdia geomtrica
Grficos descritivos
O Past tambm tem duas opes interessantes de grficos que podem ser usados para descrever os
dados: histograma e box plot. (disponveis no menu Plot).
Histogram: mostra a frequencia de diferentes classes de tamanho da varivel em questo. Pode
ser aplicado a mais de uma coluna; neste caso, diferentes colunas ficam com cores diferentes.
Box plot: legal para dados no paramtricos. A linha central a mediana (ou seja, metade dos
dados t abaixo e metade t acima). A caixa representa os quartis 25% (25% dos dados t abaixo)
e 75% (75% dos dados t abaixo). Linhas pequenas so os valores mnimo e mximo. Caixa
outliers: as linhas finas representam os pontos mais altos ou mais baixos que estejam a no
mximo 50% da largura da caixa acima ou abaixo dela; valores mais altos ou mais baixos so
crculos, valores mais de 3 vezes a altura da caixa mais altos ou mais baixos so estrelas. Pode ser
aplicado a vrias colunas por vez.
43.2
42
40.8
38.4
37.2
36
34.8
Assis
33.6
StaBarba
Temperatura
39.6
Normalidade
Verificando normalidade
Anlises estatsticas paramtricas, como teste t, ANOVA, MANOVA, e outras, assumem que os
dados apresentam uma distribuio normal gaussiana, caracterizada por uma curva em sino. Uma
distribuio normal pode ser descrita perfeitamente pela mdia e pelo desvio padro. A mdia,
mediana e moda coincidem.
Algumas anlises multivariadas assumem normalidade multivariada. Isso quer dizer que, se as
variveis forem combinadas linearmente em uma nica varivel composta, esta ir apresentar
distribuio normal. Em outras palavras, as variveis x, y, z apresentaro normalidade
multivariada se, por exemplo, a varivel composta 2x + 3y + z apresentar distribuio.
Caso a premissa de normalidade (uni- ou multivariada, dependendo do teste) for violada, h trs
opes: 1) confiar na robustez do teste: por exemplo, ANOVA um teste robusto se tiver um N
grande (maior que 30); 2) transformar os dados, por exemplo, em log, para tentar criar uma
distribuio normal; 3) aplicar um teste no-paramtrico ou um teste baseado em permutaes.
27
24
Frequency
21
18
15
12
9
6
3
0
33.6 34.8 36 37.2 38.4 39.6 40.8 42 43.2
Temperature
40.8
39.6
38.4
37.2
36
34.8
33.6
-3 -2.4 -1.8 -1.2 -0.6 0
como se os valores observados fossem plotados em relao ao que seria observado em uma
distribuo normal (centrada no zero). O valor de PPCC o coeficiente de correlao entre os
dados observados e o esperado em uma curva normal (probability plot correlation coefficient).
Quanto mais alto, maior a correlao e mais prximos os dados so de uma distribuio normal.
Estas anlises grficas, no entanto, so subjetivas. Uma forma objetiva de testar normalidade
por meio de testes de normalidade. O Past oferece trs deles.
Testando normalidade (univariada): Para verificar estatisticamente a normalidade dos dados:
selecionar a(s) coluna(s) e clicar em Statistics Normality tests. Mais de uma coluna por vez
podem ser selecionadas.
Aparece algo assim:
0
N
Shapiro-Wilk W
p(normal)
Jarque-Bera JB
p(normal)
p(Monte Carlo)
Chi^2
p(normal)
Chi^2 OK (N>20)
StaBarbara
75
0.9595
0.01712
6.345
0.0419
0.0366
1.5333
0.21561
YES
Nome da coluna
Tamanho amostral
Valor do teste de Shapiro-Wilk
Probabilidade de ser normal
Valor do teste de Jarque-Bera
Probabilidade de ser normal
Idem, por simulao de Monte-Carlo
Valor do qui-quadrado, com 4 classes
Probabilidade de ser normal
O N suficiente para um qui-quadrado?
Para qualquer desses testes, quanto menor o p(normal), menor a probabilidade da distribuio
ser normal. Normalmente consideramos que a distribuio no normal se p(normal) < 0.05.
O teste de Shapiro-Wilk considerado o mais exato e, portanto, o mais confivel. Calcula uma
estatstica W, cujo valor pequeno em distribuies no-normais. O manual do Past recomenda
que se baseiem neste teste.
O teste de Jarque-Bera testa se a assimetria e a curtose so significativamente diferentes de
zero. pouco confivel em amostras pequenas.
O teste de Qui-quadrado feito com quatro classes. Tem baixo poder e sua validade
questionvel, e recomenda-se no utilizar ele. includo como referncia.
Testando normalidade multivariada: selecionar as colunas com as diferentes variveis, ir em
Multivar Multivariate normality. O Past realiza trs testes. Se ao menos um deles der p<0.05,a
hiptese de normalidade multivariada rejeitada. Lembrem-se que, por exemplo 2.43E-120 quer
dizer 2.43*10-120, ou seja, muito maior que 0.05.
StaBarbara
N:
75
Mean: 37.889
95%: (37.474 38.304)
Var.: 3.2553
N:
Mean:
95%:
Var.:
Assis
75
35.533
(35.14 35.927)
2.9224
(1.7889 2.9231)
p(same):
p(same):
p(same):
p(same):
0.64389
1.0074E-13
1.0214E-13
< 0.0001
No topo, aparece a descrio de cada amostra: tamanho amostral (N), mdia (Mean), intervalo de
confiana de 95% para a mdia (95%), e varincia (Var). O intervalo de confiana calculado a
partir da mdia, do desvio padro, e da distribuio do t.
Os testes feitos so (diferenas significativas quando p(same)<0.05):
F: tesate F, compara as varincias
t: teste T, compara as mdias; assume distribuio normal.
Uneq. var t: teste t para amostras com varincias desiguais (teste de Welch). Prefervel ao teste t
clssico nesta situao. No entanto, a validade de comparao de mdias quando varincias so
desiguais questionvel.
Permutation t test: teste t de permutao. No assume normalidade, j que compara o valor do t
calculado com uma distribuio obtida por permutao dos prprios dados. Ainda assim
sensvel a desigualdade de varincias. Tem mais poder com tamanhos amostrais grandes.
Testes pareados
Testes pareados so aqueles em que h certa depedncia entre as duas amostras. Por exemplo, as
duas amostras podem ser compostas pelos mesmos indivduos medidos sob condies diferentes.
Um exemplo muito bom dado por Richard Lowry no seu livro Inferential Statistics (disponvel
online) comparar estatisticamente a altura de pessoas descalas e usando sapatos. Obviamente,
cada pessoa usando sapato mais alta; no entanto, como a variao pr-existente entre as pessoas
provavelmente vai ser maior do que a variao entre elas descalas e usando sapatos, o teste t no
acusaria diferea.
Para fazer o teste: selecionar as duas colunas, Statistics Paired tests.
O resultado vai ser parecido com isso:
SAMPLES
N, mdia e mediana de cada amostra. O N um s porque um teste pareado
impossvel com Ns diferentes.
Comprimento1
N:
149
Comprimento2
10
Mean: 107.38
Median:
108
Mean: 119.8
Median:
118
T TEST
Teste T pareado; a hiptese nula de que a diferena mdia entre as duas
amostras zero. baseado na diferena entre os dois valores corespondentes a cada objeto
(linha). Assume normalidade da distribuio das diferenas (no dos valores originais!).
t:
-11.68
p(same):
9.478E-23
SIGN TEST
Teste no-paremtrico; a hiptese nula de que amostra x maior do que
amostra y metade das vezes. Bbaseado no nmero de vezes que x>y ou y>x. Compara o maior
destes nmeros com uma distribuio binomial. Tem menos poder que outros testes, mas tambm
tem menos premissas.
r:
132
p(same):
3.017E-25
WILCOXON TEST
Teste de Wilcoxon; hiptese nula de que a diferena mediana entre as
duas amostras zero. Remove as linhas onde as duas amostras so iguais; depois ranqueia os
valores absolutos das diferenas. A seguir, soma os ranks das diferenas positivas e os ranks das
diferenas negativas, e compara o maior destes nmeros com uma distribuio terica. Para
N>10, o valor p(same) pode ser usado;para Ns menores, usar o p(same) de Monte Carlo.
W:
9686
z:
8.443
p(same):
3.1034E-17
Monte Carlo
p(same):
<0.00001
Comparaes multi-variadas
Podemos tambm comparar duas populaes levando em conta diversas variveis
simultaneamente. O Past oferece trs testes para isso: Hotelling, Paired Hotelling, e Two-Groups
Permutation.
Para fazer os testes, as variveis precisam estar em colunas e as amostras em linhas, com o
segundo grupo abaixo do primeiro. As linhas correspondentes aos dois grupos precisam ser
identificadas com cores diferentes.
O Discriminant/Hotelling anlgo ao teste t. Em resumo, o programa constri um eixo
composto a partir das variveis de modo que este eixo maximize a diferena entre os grupos, e a
seguir testa igualdade das mdias. O programa tambm mostra um histograma com a distribuio
das duas populaes ao longo do eixo construdo:
11
18
16
14
Frequency
12
10
8
6
4
2
0
-4
-3.2
-2.4
-1.6
-0.8
0.8
1.6
2.4
3.2
Discriminant
12
ANOVA
Statistics One-way ANOVA
O output vai ser algo parecido com isso:
13
14
Correlao e Regresso
Correlao uma medida da tendncia que duas variveis tm de variar conjuntamente ou seja,
valores mais elevados da varivel X tendem a ser associados com valores mais elevados (ou
menos elevados) da varivel Y. Em outras palavras, quando a varivel X aumenta, a varivel Y
tambm aumenta (ou diminui). No primeiro caso falamos de correlao positiva, no segundo caso
falamos de correlao negativa.
A correlao caracterizada por duas medidas estatsticas: o coeficiente de correlao r e o
coeficiente de determinao r2. O r simplesmente uma medida estatstica, e usado
principalmente para ver se a correlao positiva ou negativa. O r2 diz a porcentagem da variao
em uma varivel que pode ser explicada ou prevista pela outra varivel ou seja, a porcentagem
da variao que conjunta s duas variveis.
Para fazer uma correlao no Past:
- Selecionar duas ou mais colunas, Statistics Correlation. O output vai ser algo assim:
Aqui de novo a tabela autoexplicativa. Reparem que, acima dessa tabela, est escrito
Correlation \ p(uncorr). A barra representa a diagonal da tabela. De modo que no tringulo
inferior esquerdo esto os valores da estatstica r (coeficiente de correlao de Pearson), e no
tringulo superior direito esto as significncias, ou as probabilidades de no haver correlao.
No caso, o p(uncorr) quer dizer probaility of being uncorrelated. Normalmente consideramos
que a correlao significativa se p<0.05 (mas podem ser necessrias correes para
comparaes mltiplas). As correlaes no-paramtricas de Spearman e Kendall tambm podem
ser escolhidas.
15
16
Outras opes:
- log-log: transforma os dois eixos em log e faz a anlise. Selecionem para fazer uma regressopotncia (Y=aXb)
- 95% confidence: coloca no grfico intervalos de confiana da reta, apenas para OLS.
- Labels: coloca os nomes dos pontos; bom para encontrar pontos estranhos.
Output:
RMA Regression
Tipo de regresso
Slope a:
Intercept b:
Std. err. a:
Std. err. b:
Chi squared:
-0.43341
54.327
0.036533
1.9445
0
Inclinao da reta
Intercepto valor de Y para X=0
Erro padro da inclinao; paramtrico
Erro padro do intercepto; paramtrico
r:
r squared:
t statistic:
p(uncorrel):
Permutat. p:
p(a=1):
-0.69888
0.48843
-8.2911
4.3862E-12
< 0.0001
2.4287E-50
17
Regresso mltipla
uma forma de verificar simultaneamente o efeito de mais de uma varivel independente
(preditora) sobre a varivel dependente (resposta). Permite ver, por exemplo, qual das varivel
explicativas (preditoras) explica uma maior porcentagem da varivel dependente (resposta).
Assim como a regresso linear simples, cria um modelo linear que explica a varivel dependente.
Mas, diferentemente dela, mais de uma varivel independente includa:
Y = AX1 + BX2 + CX3+...+ intercepto
Para fazer: a primeira coluna deve conter a varivel dependente (varivel-resposta), e as outras
contm as variveis independentes (explicativas ou preditores).
Output:
Dependent variable: Temperatura
N: 74 tamanho amostral
F: 12.791
p: 0.017621
Coeff.
Std.err.
R^2
Constant
25.12
2.4534
10.239
1.7469E-15
Transecto
0.16017
0.12083
1.3256
0.1893
0.018159
Distncia
-0.015003
0.003087
-4.8602
7.0801E-06
0.21043
Tempo
0.014247
0.0032884
4.3326
4.9007E-05
0.16069
0.00030069
1.8701
0.065707
0.067477
Luminosidade 0.00056234
Coeff.: o coeficiente que multiplica cada varivel explicativa na funo da regresso mltipla.
Constant o valor do intercepto, ou seja, valor de Y quanto todos os X so iguais a zero.
Std.err.: erro padro daquele coeficiente.
t, p: valores da estatstica t (assume normalidade de resduos) e do p associado. Quanto menor o
p, mais significativa a relao com aquela varivel.
R^2: coeficiente de determinao daquela varivel ou seja, quanto ela, por si s
(desconsiderando suas relaes com as outras variveis) explica da variao na varivel-resposta?
18
19
Eigenvalue
%variance
2053.8
56.017
927.19325.289
528.36
144.3463.937
8.306470.22656
14.411
PC o componente principal eixo que uma combinao das variveis originais. Eigenvalue
uma coisa complicada e estranha de estatstica de matrizes. %variance a porcentagem de
variao que o dado eixo principal explica. No caso, 56% no primeiro eixo, e 25% no segundo
eixo, d 81% de explicao, o que quer dizer que a PCA funcionou, ou seja, os dois primeiros
eixos explicam uma bela porcentagem da variao!
Colocando um nmero maior que 0 no Boot N e apertando Enter, ele faz um bootstrapping,
recalculando os eigenvalues e as porcentagens de explicao, e d intervalos de confiana para as
porcentagens (95% de confiana de que a porcentagem de explicao real esteja entre o 2.5% e
o 97.5%).
(No ponham um valor alto demais, seno demora um eternidade calculando!)
SVD: usa um outro algoritmo, que em alguns aspectos superior anlise clssica por
eigenvalues.
20
Scree plot: ver as porcentagens de explicao dos eixos. Broken stick: o esperado em um modelo
aleatrio (broken stick como se quebrasse um cajado em vrias partes).
View loadings: os eixos so combinaes das variveis; o View loadings mostra os pesos de cada
varivel, ou seja, quais variveis so mais importantes para o eixo em questo. O boto view
numbers mostra elese numericamente.
Para ver o grfico: clicar em View scatter...
Row labels: mostra os nmeros (ou nomes) das linhas de todos os pontos.
Minimal stem tree: conecta os pontos... pode facilitar a visualizao.
Biplot: mostra tambm as direes em que cada varivel aumenta.
21
Menu Diversity:
Este menu oferece opes muito interessantes para eclogos, pois permite calcular, rapidamente,
os principais ndices de diversidade. Tambm permite comparar os ndices de diferentes reas.
O output algo como isso:
0
Taxa_S
Individuals
Dominance_D
Shannon_H
Simpson_1-D
Evenness_e^H/S
Menhinick
Margalef
Equitability_J
Fisher_alpha
Berger-Parker
Taxa_S: riqueza
Individuals: abundncia total
Dominance_D: 1-Simpson; Simpson: soma(pi2). Vai de 0 (alta equitabilidade) at 1 (um
txon muito dominante)
Simspon: 1 ndice de dominncia; ou seja, soma(pi2).
Shannon: ndice de Shannon, uai
Evenness: equitabilidade de Shannon
Menhinick: S/raiz(N)
Margalef: S/ln(N)
Para os outros, consultem o manual do Past!
E para saber se dois Hs, ou outros ndices, so diferentes?
- Pode ser feito usando Compare Diversities usa bootstrapping e permutao;
- Ou usando Diversity t test compara os ndices de Shannon.
Ambos funcionam para duas colunas apenas.
p(eq): probability of having equal diversities. Se for maior que 0.05, no h diferena
significativa.
Diversidade Beta: calcular diversos ndices de diversidade beta; pode ser feito para mais
de duas colunas.
E, finalmente, rank-abundncia:
Ir em model abundance. Faz o encaixe e testes para os modelos geomtrico, log-series,
log-normal e broken stick. No entanto, os valores de p no podem ser usados para ver
qual modelo melhor, pois, para cada modelo, a anlise feita para parmetros
diferentes.
22