Você está na página 1de 22

Highlights de PaSt para Ecologia

Verso 3.0
Pavel Dodonov
Lab. Ecologia e Conservao, Departamento de Botnica, UFSCar

Para o software Past 2.04

O PaSt Palaeontological Statistics um software estatstico desenvolvido por Oyvind


Hammer, da Universidade de Oslo (Noruega), e colaboradores. disponvel online,
constantemente atualizado, e faz boa parte das anlises mais comuns em ecologia, alm
de muitas outras de que nunca ouvimos falar. Pode ser baixado em
http://folk.uio.no/ohammer/past/. A nica coisa que os desenvolvedores pedem que,
quando forem utilizar ele para alguma publicao, citar o seguinte trabalho: Hammer,
., Harper, D.A.T., and P. D. Ryan, 2001. PAST: Paleontological Statistics Software
Package for Education and Data Analysis. Palaeontologia Electronica 4(1):
9pp. http://palaeo-electronica.org/2001_1/past/issue1_01.htm.

Como instalar o Past

A forma mais fcil procurar por Past software no google; a primeira pgina que aparece o site
do programa. Entrando l, clicar em Download PAST.
Tambm h um manual, disponvel em pdf ou online, no link Documentation and case studies.
Os estudos de caso (exemplos) so da rea de paleontologia, portanto de menos interesse para ns
eclogos. O site tambm oferece a opo de se cadastrar na lista de emails do Past, onde so
enviados avisos de atualizao do software, e onde podem ser tiradas dvidas e feitas sugestes a
seu respeito. O pessoal da lista costuma ser bem educado e prestativo.

Inserindo dados
- Dados organizados em colunas; se for arquivo txt (texto), as colunas devem ser separadas por
TAB.
- Past entende apenas nmeros; missing data podem ser codificados por ? ou, em algumas
anlises, por -1. No deixem clulas vazias!
- Para modificar os nomes das colunas e das linhas: selecionar a opo edit labels. Com ela
selecionada, podemos colar os cabealhos das colunas e os nomes das linhas para a planilha do
Past.
- Para selecionar uma coluna: clicar nela; para selecionar mais de uma coluna: clicar na primeira,
segurar SHIFT, e clicar na ltima coluna a ser selecionada.

1
- Para mudar colunas de lugar: clicar em uma coluna, manter o boto esquerdo pressionado, e
arrastar ela para o local desejado.
- Para selecionar algumas clulas: selecionar a primeira com o mouse e selecionar as outras com
SHIFT e setas; ou desmarcar a opo Edit mode, selecionar a primeira, segurar shift e selecionar a
ltima (ou arrastar o mouse com o boto esquerdo e SHIFT pressionados).
- Para deletar dados ou colunas: a tecla Delete no funciona! H duas formas. 1) Selecionar os
dados que quer remover e apertar ctrl+x (ou seja, recort-los). a forma que costumo usar.
Fazendo isso com uma coluna selecionada, os dados somem mas a coluna fica. 2) Selecionar
dados, ir no medu Edit, e clicar em remove. Se tiver uma coluna selecionada, a coluna inteira
removida. (mesma coisa para as linhas)
- Para adicionar mais colunas: selecionar a coluna depois da qual vc quer adicionar mais colunas;
ir no menu edit; insert more columns. Mesma coisa para as linhas (insert more rows)
- Para desfazer alguma besteira que voc fez sem querer : ctrl+z! Importante: nisso, s vezes o
programa vai para a ltima clula da planilha. Mas no se assuste, apenas arraste a barra de
rolagem para o comeo novamente. s vezes ele desfaz uma operao mais antiga. Enfim, na
dvida, insira os dados novamente e refaa tudo!
- A rodinha do mouse mexe a clula selecionada, no a tela. Se voc tem a coluna inteira
selecionada, a rodinha do mouse vai mexer a partir da clula de baixo; se tiver toda a linha
selecionada, vai ser a partir da ltima clula da linha. Isso costuma ser bem irritante, ento
melhor esquecer que a rodinha do mouse existe e usar a boa e velha barra de rodagem.

Opes de visualizao
- Edit mode: permite editar dados; quanto desmarcado, permite selecionar clulas com mais
facilidade (selecionando a primeira, segurando SHIFT e selecionando a ltima, ou arrastando com
o boto esquerdo pressionado).
- Edit labels: editar cabealhos. Boa para colar dados contendo cabealhos (nomes das linhas
e das colunas).
- Square mode: neste modo, clulas com nmeros aparecem cheias; clulas com zero aparecem
com um pontinho; clulas sem nada ou com texto aparecem vazias. Bom para achar erros de
digitao.

2
Dando cores a linhas:
Facilita pra visualizar resultados! E necessrio para algumas anlises multivariadas.
Duas formas:
- Fazer manualmente, escolhendo as linhas, indo no menu Edit, row color/symbol, e escolhendo
uma cor. Algumas anlises exigem cores determinadas (preto e vermelho), especialmente em
verses mais antigas, ento no viagem muito.
- Pintar de acordo com uma coluna: e.g., inserir uma coluna com valores de 1 para cor 1, 2 para
cor 2, etc. Importante: o Past s entende valores de 1 a 12 para isso; valores maiores so
ignorados na hora de dar a cor, assim como zeros. Tambm no funciona se tiver missing data (?).
Selecionar a coluna que tem estas cores, Edit, Numbers to colors/symbols.
Em um grfico, por padro, as linhas coloridas aparecem com smbolos e cores diferentes.
possvel deixar apenas os diferentes smbolos (opo colors do grfico) ou apenas as cores (opo
point symbols do grfico). Os smbolos e cores correspondentes a diferentes nmeros so esses:

3
Transformando dados
O menu Transform oferece vrias opes de transformao.
As mais legais so:
- Log: calcula logaritmo na base 10.
- Remove trend: digamos que voc quer tirar o efeito que a varivel X tem na varivel Y. A
opo remove trend calcula a frmula de regresso linear entre X (primeira coluna) e Y (segunda
coluna), depois calcula os valores esperados para Y a partir dessa regresso, e subtrai estes
valores dos valores originais.
- Subtract mean: subtrai a mdia da coluna de todos os valores
- Row percentage: converte todos os valores para porcentagem da somatria da linha.
- Abundance to presence/absence: converte tudo que for maior que 0 em 1, para
transformar dados contnuos em presena/ausncia.
- Column difference: subtrai duas colunas e coloca o resultado em uma terceira coluna.
- Evaluate expression: permite transformar dados como voc quiser! Digite a expresso
embaixo, selecione onde voc quer a transformao, e clique em Compute.
Funes disponveis: (colocar o valor desejado dentro de parnteses; para transformar o contedo
da clula, usar a letra x.
abs(): valor absoluto
atan(): arco-tangente
cos(): coseno
exp(): e elevado a alguma coisa
ln(): logaritmo neperiano
round(): arredondar at um nmero inteiro
sin(): seno
sqrt(): raiz quadrada
trnc(): tira a parte decimal de um nmero, sem a aproximao.
Operadores matemticos:
+ (soma), - (subtrao), * (vezes), ^ (elevado a), / (diviso).

4
Estatstica descritiva
Estatstica descritiva
Algo bem interessante que o Past faz a estatstica descritiva, de uma ou mais colunas: Statistics
 Univariate. D os seguintes valores:
0 Hbroto O nome da coluna
N 4036 Nmero de clulas ou tamanho amostral
Min 1 Valor mnimo encontrado
Max 180 Valor mximo encontrado
Sum 192876 Soma de todos os valores, uai
Mean 47.7888 Mdia
Std. error 0.496875 Erro padro (desvio / raiz da mdia)
Variance 996.429 Varincia
Stand. dev 31.5663 Desvio padro (raiz da varincia)
Median 40 Mediana metade dos valores acima/abaixo
25 prcntil 24 25% dos valores abaixo desse
75 prcntil 65 75% dos valores abaixo desse
Skewness 1.10522 Assimetria: >0 = cauda pra direita,
Kurtosis 213.823 Curtose: quanto maior, mais rpido cresce
Geom. mean 37.8078 Mdia geomtrica

Grficos descritivos
O Past tambm tem duas opes interessantes de grficos que podem ser usados para descrever os
dados: histograma e box plot. (disponveis no menu Plot).
Histogram: mostra a frequencia de diferentes classes de tamanho da varivel em questo. Pode
ser aplicado a mais de uma coluna; neste caso, diferentes colunas ficam com cores diferentes.
Box plot: legal para dados no paramtricos. A linha central a mediana (ou seja, metade dos
dados t abaixo e metade t acima). A caixa representa os quartis 25% (25% dos dados t abaixo)
e 75% (75% dos dados t abaixo). Linhas pequenas so os valores mnimo e mximo. Caixa
outliers: as linhas finas representam os pontos mais altos ou mais baixos que estejam a no
mximo 50% da largura da caixa acima ou abaixo dela; valores mais altos ou mais baixos so
crculos, valores mais de 3 vezes a altura da caixa mais altos ou mais baixos so estrelas. Pode ser
aplicado a vrias colunas por vez.
43.2

42

40.8

39.6
Temperatura

38.4

37.2

36

34.8

33.6
StaBarba

Assis

5
Normalidade
Verificando normalidade
Anlises estatsticas paramtricas, como teste t, ANOVA, MANOVA, e outras, assumem que os
dados apresentam uma distribuio normal gaussiana, caracterizada por uma curva em sino. Uma
distribuio normal pode ser descrita perfeitamente pela mdia e pelo desvio padro. A mdia,
mediana e moda coincidem.
Algumas anlises multivariadas assumem normalidade multivariada. Isso quer dizer que, se as
variveis forem combinadas linearmente em uma nica varivel composta, esta ir apresentar
distribuio normal. Em outras palavras, as variveis x, y, z apresentaro normalidade
multivariada se, por exemplo, a varivel composta 2x + 3y + z apresentar distribuio.
Caso a premissa de normalidade (uni- ou multivariada, dependendo do teste) for violada, h trs
opes: 1) confiar na robustez do teste: por exemplo, ANOVA um teste robusto se tiver um N
grande (maior que 30); 2) transformar os dados, por exemplo, em log, para tentar criar uma
distribuio normal; 3) aplicar um teste no-paramtrico ou um teste baseado em permutaes.

Anlises grficas de normalidade


O Past oferece duas formas de verificar visualmente a normalidade dos dados.
A primeira por meio de um histograma (grfico que mostra a frequencia das diferentes classes
de valores).
Selecionar a coluna desejada, ir em Plot  Histogram.
No grfico, existe a opo de modificar o nmero de classes: modificar o nmero na caixa Bins e
apertar ENTER. Se no apertar ENTER no muda.
Tambm existe a opo de sobrepr uma curva normal aos dados. Para isso, marcar a opo Fit
normal.
O resultado algo assim:

6
27
24
21
Frequency

18
15
12
9
6
3
0
33.6 34.8 36 37.2 38.4 39.6 40.8 42 43.2
Temperature

A segunda forma um grfico de probabilidade normal. Selecionar os dados, ir em Plot 


Normal Probability Plot. O resultado algo assim:

43.2
42
40.8
Sample values

39.6
38.4
37.2
36
34.8
33.6

-3 -2.4 -1.8 -1.2 -0.6 0 0.6 1.2 1.8 2.4


Normal order statistic medians

como se os valores observados fossem plotados em relao ao que seria observado em uma
distribuo normal (centrada no zero). O valor de PPCC o coeficiente de correlao entre os
dados observados e o esperado em uma curva normal (probability plot correlation coefficient).
Quanto mais alto, maior a correlao e mais prximos os dados so de uma distribuio normal.

Estas anlises grficas, no entanto, so subjetivas. Uma forma objetiva de testar normalidade
por meio de testes de normalidade. O Past oferece trs deles.

Testando normalidade (univariada): Para verificar estatisticamente a normalidade dos dados:


selecionar a(s) coluna(s) e clicar em Statistics  Normality tests. Mais de uma coluna por vez
podem ser selecionadas.
Aparece algo assim:

7
0 StaBarbara Nome da coluna
N 75 Tamanho amostral
Shapiro-Wilk W 0.9595 Valor do teste de Shapiro-Wilk
p(normal) 0.01712 Probabilidade de ser normal
Jarque-Bera JB 6.345 Valor do teste de Jarque-Bera
p(normal) 0.0419 Probabilidade de ser normal
p(Monte Carlo) 0.0366 Idem, por simulao de Monte-Carlo
Chi^2 1.5333 Valor do qui-quadrado, com 4 classes
p(normal) 0.21561 Probabilidade de ser normal
Chi^2 OK (N>20) YES O N suficiente para um qui-quadrado?

Para qualquer desses testes, quanto menor o p(normal), menor a probabilidade da distribuio
ser normal. Normalmente consideramos que a distribuio no normal se p(normal) < 0.05.
O teste de Shapiro-Wilk considerado o mais exato e, portanto, o mais confivel. Calcula uma
estatstica W, cujo valor pequeno em distribuies no-normais. O manual do Past recomenda
que se baseiem neste teste.
O teste de Jarque-Bera testa se a assimetria e a curtose so significativamente diferentes de
zero. pouco confivel em amostras pequenas.
O teste de Qui-quadrado feito com quatro classes. Tem baixo poder e sua validade
questionvel, e recomenda-se no utilizar ele. includo como referncia.

Testando normalidade multivariada: selecionar as colunas com as diferentes variveis, ir em


Multivar  Multivariate normality. O Past realiza trs testes. Se ao menos um deles der p<0.05,a
hiptese de normalidade multivariada rejeitada. Lembrem-se que, por exemplo 2.43E-120 quer
dizer 2.43*10-120, ou seja, muito maior que 0.05.

8
Comparando duas amostras

Comparaes univariadas
Para comparar duas amostras ou populaes, cada amostra/populao precisa estar em uma
coluna, e as duas colunas precisam estar lado a lado.
Selecionamos as duas colunas, vamos no menu Statistics, e escolhemos o teste desejado.

F and T tests (two samples)


Realiza o teste F (comparao de varincias) e o teste T (comparao de mdias).
SAMPLES

StaBarbara Assis
N: 75 N: 75
Mean: 37.889 Mean: 35.533
95%: (37.474 38.304) 95%: (35.14 35.927)
Var.: 3.2553 Var.: 2.9224

95% conf. for difference between means: (1.7889 2.9231)

TESTS
F: 1.1139 p(same): 0.64389
t: 8.209 p(same): 1.0074E-13
Uneq. var t 8.209 p(same): 1.0214E-13
Permutation t test (N=10000): p(same): < 0.0001

No topo, aparece a descrio de cada amostra: tamanho amostral (N), mdia (Mean), intervalo de
confiana de 95% para a mdia (95%), e varincia (Var). O intervalo de confiana calculado a
partir da mdia, do desvio padro, e da distribuio do t.

Os testes feitos so (diferenas significativas quando p(same)<0.05):


F: tesate F, compara as varincias
t: teste T, compara as mdias; assume distribuio normal.
Uneq. var t: teste t para amostras com varincias desiguais (teste de Welch). Prefervel ao teste t
clssico nesta situao. No entanto, a validade de comparao de mdias quando varincias so
desiguais questionvel.
Permutation t test: teste t de permutao. No assume normalidade, j que compara o valor do t
calculado com uma distribuio obtida por permutao dos prprios dados. Ainda assim
sensvel a desigualdade de varincias. Tem mais poder com tamanhos amostrais grandes.

9
- Mann-Whitney: alternativa no-paramtrica ao teste t (ou seja, no requer normalidade).
Ranqueia os valores (ou seja, d valor de 1 ao maior, 2 ao segundo maior etc) e realiza o teste
sobre os valores ranqueados. Compara medianas. Perde confiabilidade quando h valores
repetidos (ties ou tied values).
Apresenta trs valores de p:
p(same): aproximao assinttica do valor do p com base em uma distribuio normal; vlido
para Ns grandes
Monte Carlo p: baseado em 10 000 simulaes de Monte Carlo. Em cada simulao, cada
amostra atribuda aleatoriamente a um dos grupos, e a estatstica U recalculada;
Exact p: disponvel apenas para amostras pequenas (Ntotal <= 30, ou Ngrupo <= 15). Compara a
estatstica U calculada com a sua distribuio quando todas as combinaes possvel amostras e
grupos so feitas.

- Kolmogorov-Smirnov: um teste no-paramtrico que, ao contrrio dos testes anteriores,


compara a distribuio de valores, e no a mdia ou a mediana. A estatstica calculada a
diferena mxima entre duas funes de distribuio cumulativas

Testes pareados

Testes pareados so aqueles em que h certa depedncia entre as duas amostras. Por exemplo, as
duas amostras podem ser compostas pelos mesmos indivduos medidos sob condies diferentes.
Um exemplo muito bom dado por Richard Lowry no seu livro Inferential Statistics (disponvel
online) comparar estatisticamente a altura de pessoas descalas e usando sapatos. Obviamente,
cada pessoa usando sapato mais alta; no entanto, como a variao pr-existente entre as pessoas
provavelmente vai ser maior do que a variao entre elas descalas e usando sapatos, o teste t no
acusaria diferea.
Para fazer o teste: selecionar as duas colunas, Statistics  Paired tests.
O resultado vai ser parecido com isso:

SAMPLES N, mdia e mediana de cada amostra. O N um s porque um teste pareado


impossvel com Ns diferentes.

Comprimento1 Comprimento2
N: 149

10
Mean: 107.38 Mean: 119.8
Median: 108 Median: 118

T TEST Teste T pareado; a hiptese nula de que a diferena mdia entre as duas
amostras zero. baseado na diferena entre os dois valores corespondentes a cada objeto
(linha). Assume normalidade da distribuio das diferenas (no dos valores originais!).
t: -11.68 p(same): 9.478E-23

SIGN TEST Teste no-paremtrico; a hiptese nula de que amostra x maior do que
amostra y metade das vezes. Bbaseado no nmero de vezes que x>y ou y>x. Compara o maior
destes nmeros com uma distribuio binomial. Tem menos poder que outros testes, mas tambm
tem menos premissas.
r: 132 p(same): 3.017E-25

WILCOXON TEST Teste de Wilcoxon; hiptese nula de que a diferena mediana entre as
duas amostras zero. Remove as linhas onde as duas amostras so iguais; depois ranqueia os
valores absolutos das diferenas. A seguir, soma os ranks das diferenas positivas e os ranks das
diferenas negativas, e compara o maior destes nmeros com uma distribuio terica. Para
N>10, o valor p(same) pode ser usado;para Ns menores, usar o p(same) de Monte Carlo.
W: 9686
z: 8.443 p(same): 3.1034E-17
Monte Carlo p(same): <0.00001

Comparaes multi-variadas
Podemos tambm comparar duas populaes levando em conta diversas variveis
simultaneamente. O Past oferece trs testes para isso: Hotelling, Paired Hotelling, e Two-Groups
Permutation.
Para fazer os testes, as variveis precisam estar em colunas e as amostras em linhas, com o
segundo grupo abaixo do primeiro. As linhas correspondentes aos dois grupos precisam ser
identificadas com cores diferentes.
O Discriminant/Hotelling anlgo ao teste t. Em resumo, o programa constri um eixo
composto a partir das variveis de modo que este eixo maximize a diferena entre os grupos, e a
seguir testa igualdade das mdias. O programa tambm mostra um histograma com a distribuio
das duas populaes ao longo do eixo construdo:

11
18

16

14

12
Frequency

10

0
-4 -3.2 -2.4 -1.6 -0.8 0 0.8 1.6 2.4 3.2
Discriminant

Como nos outros testes, consideramos que h diferenas significativas se p<0.05.

O paired hotelling anlogo ao teste t pareado. Para o Hotelling pareado, a primeira linha do
primeiro grupo deve ser correspondente primeira linha do segundo grupo, e assim por diante.

O Hotelling (normal e pareado) assume normalidade multivariada e homogeneidade das matrizes


de covarincia. A homogeneidade das matrizes de covarincia pode ser testada pelo teste Boxs
M. um teste muito sensvel, ou seja, valores altos de p podem ser considerados bons
indicadores de homogeneidade das matrizes, mas valores muitos baixos de p podem ser um
indicador sensvel demais de heterogeneidade.
Para fazer este teste, depois de selecionar as colunas e ir em Multivar  Boxs M, clicar
Compute.

Se as premissas de normalidade multivariada e homogeneidade das matrizes de covarincia so


violadas, o Past oferece um teste no-paramtrico baseado em permutaes. Selecionar os dados e
ir em Multivar  Two-group permutation. Este teste calcula uma distncia (a distncia de
Mahalanobis) entre os dois grupos e a seguir a compara com a distribuio de distncias
calculadas com as amostras distribudas aleatoriamente entre os grupos.

12
ANOVA
Statistics  One-way ANOVA
O output vai ser algo parecido com isso:

O resultado acima se refere a uma ANOVA entre trs reas.


O valor embaixo de F o valor da estatstica;
O valor debaixo de p(same) a probabilidade de que as trs amostras venham da mesma
populao. A maior parte dos testes do Past d o valor de p(same). como o nome diz: a
probabilidade de que as amostras sejam a mesma coisa, ou venham da mesma populao.
Normalmente consideramos significativo se for menor que 0.05.

13
Fazendo grficos (menu Plot)

Selecionar a(s) coluna(s); ir no menu Plot.


Para mudar opes do grfico: clicar nele com o boto esquerdo.
Tipos de grficos:
Graph: plota os valores em sequncia (x colocado como 1, 2, 3... automaticamente). Como
linhas, pontos, pontos + linhas ou barras. Pode plotar mais de uma coluna.
- Selecionar as duas primeiras colunas e plotar; com e sem a caixinha LogY selecionada.

XY graph: X (primeira coluna), Y (segunda coluna).


XY graph with error bars: primeira coluna (X), segunda coluna (Y), terceira coluna (erro do X),
quarta coluna (erro do Y). Os erros so desenhados simetricamente para os lados.

Histogram: freqncia de distribuio (em classes). possvel mudar o nmero de classes


(bins); apertar enter depois de mudar, seno no muda! Bin como se fosse classe.
Fit normal: encaixa uma normal a partir dos parmetros dos dados (ou seja, mdia, desvio etc).

Box plot: legal para dados no paramtricos. A linha central a mediana (ou seja, metade dos
dados t abaixo e metade t acima). A caixa representa os quartis 25% (25% dos dados t abaixo)
e 75% (75% dos dados t abaixo). Linhas pequenas so os valores mnimo e mximo.
Caixa outliers: as linhas finas representam os pontos mais altos ou mais baixos que estejam a
no mximo 50% da largura da caixa acima ou abaixo dela; valores mais altos ou mais baixos so
crculos, valores mais de 3 vezes a altura da caixa mais altos ou mais baixos so estrelas.

Percentiles: mostra os percentis: p % do valor do Y est abaixo do Y.

Normal probability plot: uma forma grfica de ver se os dados so normais. Quanto mais
perto da linha reta, mais normais.
Exerccio: fazer o normal probability plot com uma coluna qualquer; e com essa mesma coluna
log-transformada.

Bubble plot: um grfico trivariado; a terceira varivel representa o tamanho das bolhas.

Landmarks 3D: permite fazer um grfico XYZ, que pode ser rotacionado pelos eixos.

14
Correlao e Regresso

Correlao uma medida da tendncia que duas variveis tm de variar conjuntamente ou seja,
valores mais elevados da varivel X tendem a ser associados com valores mais elevados (ou
menos elevados) da varivel Y. Em outras palavras, quando a varivel X aumenta, a varivel Y
tambm aumenta (ou diminui). No primeiro caso falamos de correlao positiva, no segundo caso
falamos de correlao negativa.
A correlao caracterizada por duas medidas estatsticas: o coeficiente de correlao r e o
coeficiente de determinao r2. O r simplesmente uma medida estatstica, e usado
principalmente para ver se a correlao positiva ou negativa. O r2 diz a porcentagem da variao
em uma varivel que pode ser explicada ou prevista pela outra varivel ou seja, a porcentagem
da variao que conjunta s duas variveis.

Para fazer uma correlao no Past:


- Selecionar duas ou mais colunas, Statistics  Correlation. O output vai ser algo assim:

Aqui de novo a tabela autoexplicativa. Reparem que, acima dessa tabela, est escrito
Correlation \ p(uncorr). A barra representa a diagonal da tabela. De modo que no tringulo
inferior esquerdo esto os valores da estatstica r (coeficiente de correlao de Pearson), e no
tringulo superior direito esto as significncias, ou as probabilidades de no haver correlao.
No caso, o p(uncorr) quer dizer probaility of being uncorrelated. Normalmente consideramos
que a correlao significativa se p<0.05 (mas podem ser necessrias correes para
comparaes mltiplas). As correlaes no-paramtricas de Spearman e Kendall tambm podem
ser escolhidas.

15
Regresses (Model  Linear)
Enquanto a correlao linear diz quo forte a relao entre duas variveis, a regresso linear cria
um modelo (linear) que descreve esta relaco. Ou seja, ela cria uma equao do tipo
Y = AX + B
Onde Y a varivel dependente, X a varivel independente, A uma medida de quanto Y varia
quando X varia (inclinao da reta), e B o valor de Y quando X igual a zero (intercepto).
Selecionar duas colunas; a primeira o X (varivel independente na regresso ordinria) e a
segunda o Y (varivel dependente).

Importante! Missing data s permitido se estiver nas duas colunas. Se estiver em uma coluna s,
aparece mensagem de erro.
No selecionem a caixa Robust!!!! Demora muuuuito.
Opes do grfico:
- X start, X end, Y start, Y end: onde comeam e terminam os eixos. Depois de mudar o valor,
apertar Enter, seno no muda.
Method: so os mtodos de regresso que o Past utiliza.
- Ordinary LS: Ordinary Least Sum of Squares. A regresso que todos conhecemos, minimiza a
distncia pelo eixo Y. Usada se h uma varivel independente (por exemplo, profundidade X
quantidade de plncton: a profundidade no vai depender do plncton, mas o plncton pode
depender da profunidade). Tambm usada se as duas variveis so interdependentes (ou seja, no
h uma varivel claramente independente por exemplo, dimetro e altura de uma planta), mas o
seu objetivo prever uma a partir da outra (e.g., prever que altura uma planta de dado dimetro
vai ter).
- RMA: Reduced Major Axis; tambm conhecida como Standardized Major Axis ou Geometric
Mean Functional Relationship, ou mais uns par de nomes. Usada quando no h uma varivel
independente e o objetivo descobrir como a relao entre elas, e no prever uma a partir da
outra. Por exemplo, descobrir como comprimento de braos est relacionado ao comprimento das
pernas, e no prever o comprimento dos braos a partir do comprimento das pernas.
- MA: Major Axis: Similar a RMA. Regresso RMA prefervel na maior parte dos casos.
- Robust: a regresso OLS muito influenciada por outliers pontos fora do padro geral. Para a
robust regression estes outliers so selecionados estatisticamente e retirados. Muuuito demorada!
No recomendo usar com mais de 20 pontos. O Past pode travar, de modo que seja necessrio
fechar e abrir ele novamente.

16
Outras opes:
- log-log: transforma os dois eixos em log e faz a anlise. Selecionem para fazer uma regresso-
potncia (Y=aXb)
- 95% confidence: coloca no grfico intervalos de confiana da reta, apenas para OLS.
- Labels: coloca os nomes dos pontos; bom para encontrar pontos estranhos.

Output:
RMA Regression Tipo de regresso

Umidade vs. Temperatura Varivel independente X var. dependente

Slope a: -0.43341 Inclinao da reta


Intercept b: 54.327 Intercepto valor de Y para X=0
Std. err. a: 0.036533 Erro padro da inclinao; paramtrico
Std. err. b: 1.9445 Erro padro do intercepto; paramtrico
Chi squared: 0

r: -0.69888 Coefic. de correlao linear de Pearson


r squared: 0.48843 Coeficiente de determinao de Pearson
t statistic: -8.2911 Valor do t para o r testa significncia
p(uncorrel): 4.3862E-12 Prob. da correlao ser nula, com base no t
Permutat. p: < 0.0001 Idem, com base em permutaes
p(a=1): 2.4287E-50 Prob da inclinao ser igual a 1

95% bootstrapped confidence intervals: Intervalos de confiana, por bootstrap


a: [-0.5087; -0.3664] Limites inf e sup do intervaldo de confiana, para incl
b: [51.69; 57.08] Idem, para o intercepto

Os erros da inclinao e do intercepto pressupem distribuio normal dos resduos (no dos
valores originais) e homoscedasticidade (os erros so constantes por toda a distribuio). Se os
resduos no tiver distribuio normal, prefervel usar os intervalos de confiana obtidos por
bootstrap.

- Para verificar normalidade dos resduos: clicar em resduos, copy, colocar no Past, e testar a
normalidade.

- Embaixo, tem uma caixinha para copiar o grfico, e uma outra para copiar o output.

Linear 1 indep, n dep: faz vrias regresses comuns simultaneamente. No regresso mltipla!

17
Regresso mltipla
uma forma de verificar simultaneamente o efeito de mais de uma varivel independente
(preditora) sobre a varivel dependente (resposta). Permite ver, por exemplo, qual das varivel
explicativas (preditoras) explica uma maior porcentagem da varivel dependente (resposta).
Assim como a regresso linear simples, cria um modelo linear que explica a varivel dependente.
Mas, diferentemente dela, mais de uma varivel independente includa:
Y = AX1 + BX2 + CX3+...+ intercepto
Para fazer: a primeira coluna deve conter a varivel dependente (varivel-resposta), e as outras
contm as variveis independentes (explicativas ou preditores).
Output:
Dependent variable: Temperatura
N: 74 tamanho amostral
F: 12.791 Valor da estatstica da ANOVA testa se a explicao da regr. significativa.
p: 0.017621 Probabilidade da regresso mltipla no ser significativa, com base na ANOVA
Multiple R: 0.65252 Coefic. de correlao mltipla
Multiple R2: 0.42579 Coefic. de determinao multiplo quanto o conjunto das
variaveis explicativas explica da varivel-resposta
Multiple R2 adj.: 0.3925 Coefic. de determinao mltiplo ajustado

0 Coeff. Std.err. t p R^2


Constant 25.12 2.4534 10.239 1.7469E-15 0
Transecto 0.16017 0.12083 1.3256 0.1893 0.018159
Distncia -0.015003 0.003087 -4.8602 7.0801E-06 0.21043
Tempo 0.014247 0.0032884 4.3326 4.9007E-05 0.16069
Luminosidade 0.00056234 0.00030069 1.8701 0.065707 0.067477

Coeff.: o coeficiente que multiplica cada varivel explicativa na funo da regresso mltipla.
Constant o valor do intercepto, ou seja, valor de Y quanto todos os X so iguais a zero.
Std.err.: erro padro daquele coeficiente.
t, p: valores da estatstica t (assume normalidade de resduos) e do p associado. Quanto menor o
p, mais significativa a relao com aquela varivel.
R^2: coeficiente de determinao daquela varivel ou seja, quanto ela, por si s
(desconsiderando suas relaes com as outras variveis) explica da variao na varivel-resposta?

18
19
Multivariada PCA (Anlise de componentes principais)
(Menu Multivar)

Multivar  Principal Components.


Escolher Var-covar se todas as variveis so medidas na mesma escala (e.g., nmero de
espcies...)
Escolher Correlation se so medidas em escalas diferentes (e.g. peso, comprimento,
rea....). Ento os dados so normalizados (subtrai mdia e divide pelo desvio padro da
coluna).
Aparece algo assim:
PC Eigenvalue %variance
1 2053.8 56.017
2 927.19325.289
3 528.36 14.411
4 144.3463.937
5 8.306470.22656

PC o componente principal eixo que uma combinao das variveis originais. Eigenvalue
uma coisa complicada e estranha de estatstica de matrizes. %variance a porcentagem de
variao que o dado eixo principal explica. No caso, 56% no primeiro eixo, e 25% no segundo
eixo, d 81% de explicao, o que quer dizer que a PCA funcionou, ou seja, os dois primeiros
eixos explicam uma bela porcentagem da variao!

Colocando um nmero maior que 0 no Boot N e apertando Enter, ele faz um bootstrapping,
recalculando os eigenvalues e as porcentagens de explicao, e d intervalos de confiana para as
porcentagens (95% de confiana de que a porcentagem de explicao real esteja entre o 2.5% e
o 97.5%).

(No ponham um valor alto demais, seno demora um eternidade calculando!)

SVD: usa um outro algoritmo, que em alguns aspectos superior anlise clssica por
eigenvalues.

20
Scree plot: ver as porcentagens de explicao dos eixos. Broken stick: o esperado em um modelo
aleatrio (broken stick como se quebrasse um cajado em vrias partes).

View loadings: os eixos so combinaes das variveis; o View loadings mostra os pesos de cada
varivel, ou seja, quais variveis so mais importantes para o eixo em questo. O boto view
numbers mostra elese numericamente.

Para ver o grfico: clicar em View scatter...

Row labels: mostra os nmeros (ou nomes) das linhas de todos os pontos.

Minimal stem tree: conecta os pontos... pode facilitar a visualizao.

Biplot: mostra tambm as direes em que cada varivel aumenta.

21
Menu Diversity:
Este menu oferece opes muito interessantes para eclogos, pois permite calcular, rapidamente,
os principais ndices de diversidade. Tambm permite comparar os ndices de diferentes reas.
O output algo como isso:
0 PERC MR11 MB2B MR9 MB2A MR7
Taxa_S 4 6 7 3 5 5
Individuals 357 142 435 59 138 79
Dominance_D 0.5662 0.4631 0.5456 0.6553 0.525 0.3616
Shannon_H 0.8055 1.169 0.8767 0.646 0.8971 1.222
Simpson_1-D 0.4338 0.5369 0.4544 0.3447 0.475 0.6384
Evenness_e^H/S 0.5595 0.5362 0.3433 0.636 0.4905 0.679
Menhinick 0.2117 0.5035 0.3356 0.3906 0.4256 0.5625
Margalef 0.5104 1.009 0.9876 0.4905 0.8118 0.9154
Equitability_J 0.5811 0.6522 0.4506 0.5881 0.5574 0.7595
Fisher_alpha 0.6309 1.27 1.185 0.6678 1.017 1.187
Berger-Parker 0.7283 0.662 0.7011 0.7966 0.6884 0.5063

Taxa_S: riqueza
Individuals: abundncia total
Dominance_D: 1-Simpson; Simpson: soma(pi2). Vai de 0 (alta equitabilidade) at 1 (um
txon muito dominante)
Simspon: 1 ndice de dominncia; ou seja, soma(pi2).
Shannon: ndice de Shannon, uai
Evenness: equitabilidade de Shannon
Menhinick: S/raiz(N)
Margalef: S/ln(N)

Para os outros, consultem o manual do Past!

E para saber se dois Hs, ou outros ndices, so diferentes?


- Pode ser feito usando Compare Diversities  usa bootstrapping e permutao;
- Ou usando Diversity t test compara os ndices de Shannon.
Ambos funcionam para duas colunas apenas.
p(eq): probability of having equal diversities. Se for maior que 0.05, no h diferena
significativa.

Diversidade Beta: calcular diversos ndices de diversidade beta; pode ser feito para mais
de duas colunas.

E, finalmente, rank-abundncia:
Ir em model  abundance. Faz o encaixe e testes para os modelos geomtrico, log-series,
log-normal e broken stick. No entanto, os valores de p no podem ser usados para ver
qual modelo melhor, pois, para cada modelo, a anlise feita para parmetros
diferentes.

22

Você também pode gostar