Você está na página 1de 79

ECOLOGIA NUMRICA

Fonte: http://www.intechopen.com/source/html/45411/media/image1.png (adaptada)

Autores:
Elies Idalino Rodrigues
Elildo Idalino Rodrigues

Curso de Ps-Graduao Lato Sensu em Ecologia

2015
Dedico este livro aos grandes mestres
de Estatstica e Ecologia Numrica que
tive ao longo de minha vida acadmica,
a saber: Prof. Antnio Carlos Leal de
Castro (UFMA), Prof. Dr. Miguel Petrere
Jr (UNESP), Prof Dr Sigrid Neumann
Leito (UFPE) e Prof. Dr. Luiz Carlos
Gomes (UEM).
Elies Idalino Rodrigues
NDICE

CAPTULO 1 - Conceitos iniciais


1.1 Conceito de Ecologia Numrica ..................................................................... 11
1.2 Amostragem ................................................................................................... 11
1.3 Princpios da aleatoriedade e da independncia dos dados ........................... 13
1.4 Dados e variveis ........................................................................................... 14
1.5 Estatstica Descritiva (medidas de tendncia central e medidas de
disperso) ............................................................................................................ 15
1.5.1 Medidas de tendncia central (de posio) ................................................. 15
1.5.2 Medidas de variao (de disperso) ............................................................ 16
1.6 Fatores ........................................................................................................... 17
1.7 Distribuio de dados / Probabilidade ............................................................ 17
1.7.1 Distribuies adequadas estatstica no-paramtrica (testes alternativos
ou anlise prvia para a estatstica paramtrica, com base na mediana) ............. 17
1.7.2 Distribuies adequadas estatstica paramtrica (com base na mdia) ... 19
1.8 Estatstica ...................................................................................................... 20
1.8.1 Os mtodos cientficos ................................................................................ 21
1.8.1.1 Mtodos que levam em conta o teste de hipteses ................................... 21
1.8.1.2 Outros mtodos ........................................................................................ 24
1.8.2 Estatstica paramtrica x no-paramtrica .................................................. 24
1.8.3 Teste de homocedasticidade ....................................................................... 25
1.8.4 Teste de normalidade .................................................................................. 25
1.8.5 Transformao de dados ............................................................................. 25
1.8.6 Estandardizao (padronizao) de dados ................................................. 25
1.8.7 Teste unicaudal x bicaudal .......................................................................... 25
Exerccios ............................................................................................................ 26
CAPTULO 2 Reviso de Anlise Univariada
2.1 Testes T e Z .................................................................................................... 27
2.2 Anlise de Varincia (ANOVA) ....................................................................... 27
2.3 Correlao ..................................................................................................... 31
2.4 Regresso ...................................................................................................... 32
Exerccios ............................................................................................................ 33
CAPTULO 3 Medidas de semelhana ecolgica
3.1 Para estudos em modo Q ............................................................................... 37
3.1.1 Coeficientes de similaridade ........................................................................ 37
3.1.2 Coeficientes de distncia (dissimilaridade) .................................................. 38
3.2 Para estudos em modo R ............................................................................... 38
3.2.1 Coeficientes de dependncia ...................................................................... 38
3.2.2 Associaes de espcies (Dice e teste do qui-quadrado) ............................ 39
Exerccios ............................................................................................................
39
CAPTULO 4 - Matrizes para anlise multivariada ........................................... 40
Exerccios ............................................................................................................ 41

CAPTULO 5 Anlise Multivariada (multidimensional)


5.1 Introduo ...................................................................................................... 42
5.2 Comparao de mdias multivariadas ........................................................... 45
5.3 Classificao .................................................................................................. 47
5.3.1 Anlise de agrupamento .............................................................................. 47
5.3.2 Anlise Discriminante .................................................................................. 49
5.4 Ordenao ..................................................................................................... 50
5.4.1 Ordenao por anlise indireta de gradientes ............................................. 51
5.4.1.1 Anlise em Componentes Principais (ACP, PCA) .................................... 51
5.4.1.2 Anlise Fatorial ........................................................................................ 55
5.4.1.2.1 Anlise Fatorial Stricto Sensu (AF) ........................................................ 55
5.4.1.2.2 Anlise Fatorial de Correspondncia (AFC) .......................................... 58
5.4.1.2.3 Anlise Fatorial de Postos (AFP) ........................................................... 57
5.4.1.3 Anlise em Coordenadas Principais (PCoA) ............................................ 58
5.4.1.4 Escalonamento Multidimensional (MDS) e Escalonamento
Multidimensional no-mtrico (NMDS) ................................................................ 59
5.4.2 Ordenao por anlise direta de gradientes ................................................ 61
Exerccios ............................................................................................................ 64
CAPTULO 6 Diversidade biolgica e seus ndices
6.1 Introduo ...................................................................................................... 68
6.2 ndices de riqueza .......................................................................................... 70
6.3 ndices de diversidade .................................................................................... 70
6.4 ndices de equitabilidade ................................................................................ 72
Exerccios ............................................................................................................ 73
CAPTULO 7 - Guia de orientao para escolha do teste ................................ 75

Respostas dos exerccios ................................................................................. 77

Bibliografia ......................................................................................................... 84
CAPTULO 1 - Conceitos iniciais

1.1 Conceito de Ecologia Numrica


Segundo Valentin (2000), a Ecologia Quantitativa se divide em trs facetas: Ecologia
Numrica (anlise multivariada), Bioestatstica (anlise univariada, testes inferenciais)
e Modelagem Ecolgica (frmulas que explicam a variao nos dados ecolgicos). Para
ele, a prpria natureza de caracterstica multifatorial, o que destaca a importncia da
Ecologia Numrica.
Aliada a essa necessidade de considerar a natureza como multifatorial, h hoje em dia
a disponibilizao de programas de computador capazes de rodar clculos complexos
com imensa rapidez (Figura 1). A grande diferena entre anlise multivariada e anlise
univariada que nesta ltima h apenas duas ou poucas variveis, e quando h uma
varivel dependente (resposta) ela nica, e geralmente envolve algum teste estatstico
de hiptese; na Ecologia, no entanto, as abordagens multivariadas tm sido
consideradas mais adequadas. Mais adiante, apresentado um maior detalhamento
acerca dessa diferena.
Figura 1 Logo de alguns dos principais programas de computador utilizados em Ecologia
Numrica.

As tcnicas multivariadas so essencialmente descritivas e levam o pesquisador


formulao de hipteses, mas normalmente no as testam, o que, por outro lado, uma
atribuio da estatstica inferencial (VALENTIN, 2000).
necessrio ter cautela no uso de tais anlises matemticas, uma vez que tambm
devem ser consideradas as reflexes ecolgicas, o olhar do pesquisador. Nenhum dos
dois extremos (Matemtica x Reflexo ecolgica) deve ser utilizado sozinho. Alm disso,
muitas vezes no se tem a quantidade de dados necessria para rodar uma anlise
multivariada.
Lembre-se: se voc no capaz de compreender pelo menos parcialmente seus dados
por meio de uma observao direta, uma anlise explanatria visual, provavelmente no
utilizar corretamente a estatstica.

1.2 Amostragem
Uma das primeiras preocupaes ao se planejar uma pesquisa a metodologia que
ser adotada para se alcanar os objetivos. Muitas dessas pesquisas envolvem
amostragem, e esta deve ser feita com cautela; lana-se mo de amostragem quando
no possvel ou no eficiente amostrar todo um conjunto de dados (populao), o

11
que seria um censo. O nmero de elementos de uma populao inteira representando
por N, enquanto que o nmero de elementos de uma amostra o n.
As caractersticas estudadas da populao so chamadas parmetros, em letras latinas
maisculas, enquanto que as caractersticas da amostra so chamadas de estimadores
(variveis), em letras gregas minsculas.
) um estimador da mdia da populao ().
Exemplo: A mdia da amostra (X
Sobre o nmero de repeties na amostragem (o n amostral), falaremos mais adiante
(na seo sobre anlise multivariada), sendo este ponto essencial para a aplicao de
anlises estatsticas (tanto univariada como multivariadas). Em uma ANOVA, por
exemplo (teste estatstico descrito mais frente), deve haver pelo menos 10 repeties
para cada categoria a ser testada; essa a famosa regra do 10 citada por Gotelli e
Ellison (2011).
Um outro ponto importante em uma amostragem evitar o desbalanceamento (Fig. 2).
Uma amostragem balanceada aquela em que o nmero de repeties idntico para
todos os tratamentos, ou blocos etc. Amostras desbalanceadas so estatisticamente
mais difceis de serem utilizadas.
Figura 2 Exemplo de amostragem com repeties balanceadas e no-balanceadas: amostras
de gua de uma lagoa foram coletadas em 3 pontos durante 3 meses, para que fossem medidas
as concentraes de fsforo e nitrognio. O objetivo da pesquisa saber se h diferena nas
concentraes desses dois elementos entre os 3 pontos ou entre os 3 meses.

Aps coletados, os dados precisam ser tabulados (colocados em uma tabela), para
depois serem utilizados em um programa de estatstica. Cada programa exige um
formato especfico de tabela e antes de utilizar o programa preciso saber de que forma
ser a entrada de dados. Abaixo, foi criado um exemplo de tabela com os resultados da
amostragem balanceada do exemplo da lagoa (Tab. 1).

12
Tabela 1 Exemplo de tabulao de dados.

Pontos Meses Fsforo Nitrognio


1 1 34 128
1 2 38 150
1 3 70 130
2 1 56 103
2 2 28 180
2 3 37 164
3 1 35 146
3 2 64 128
3 3 23 104

No exemplo acima, h dois fatores que esto sendo pesquisados, o fator PONTOS e o
fator MESES. Ou seja, essa pesquisa envolve as dimenses espacial e temporal. O
fator pontos possui 3 nveis (1 = ponto 1; 2 = ponto 2; 3 = ponto 3), e o fator meses
tambm possui 3 nveis (1 = janeiro; 2 = fevereiro; 3 = maro). Para testar diferenas
dentro dos fatores, esto sendo analisadas duas variveis da gua (fsforo e nitrognio).

1.3 Princpios da aleatoriedade e da independncia dos dados


A coleta de dados em uma pesquisa cientfica deve ser feita com o mximo de critrio
e rigor possvel. So vrios princpios a serem seguidos, os ticos, os de imparcialidade
etc... Um dos mais importantes deles o princpio da aleatoriedade na obteno dos
dados. A amostra precisa ser aleatria (probalstica), isto , todos os indivduos da
populao precisam ter a mesma chance de pertencer amostra.
H vrios mtodos de amostragem, mas neles, pelo menos parcialmente, deve haver
aleatoriedade (dados randmicos), evitando-se ao mximo a subjetividade da escolha
humana. Para isso, so utilizadas vrias ferramentas, como as de sorteios de pontos de
coleta. Essa aleatoriedade pode ser conseguida de vrias formas, como moeda, lista,
urna, tabela de nmeros aleatrios, e vrias outras possibilidades com o mnimo de
subjetividade.
Os dados coletados precisam ser independentes, uma observao no deve influenciar
a outra. Para isso, necessrio evitar a pseudo-replicao ou pseudo-repetio. um
conceito de difcil entendimento, pois muitas vezes sofre influncia da perspectiva e da
escala.
O maior problema da pseudo-replicao se d nas pesquisas experimentais, pois nelas
possvel eliminar esse problema, embora seja necessrio um planejamento rigoroso
para controlar os fatores interferentes no objeto de estudo e tambm para aleatorizar o
experimento de forma a evitar possveis efeitos no imaginveis. Nas pesquisas
observacionais (de campo), quase impossvel eliminar completamente a dependncia
entre amostras, porm devem ser tomados alguns cuidados tambm. Hurlbert (1984)
traz vrias consideraes a respeito das pseudo-replicaes (Fig. 3).

13
Figura 3 Esquemas que ilustram pseudo-replicao em pesquisa experimental e em pesquisa
observacional, respectivamente.

(Fonte: Hurlbert, 1984 Adaptado)


Erros de delineamentos experimentais so tidos como erros fatais (fatal error), e
geralmente so irreversveis, sendo necessrio refazer todo o experimento ou todas as
coletas de campo. Na verdade, somado ao erro de planejamento (desenho amostral),
surgem erros na escolha das anlises estatsticas, muitas delas no sendo adequadas
para aquele delineamento falho. Em alguns casos, a escolha correta da anlise pode
reduzir o erro do desenho amostral.
importante lembrar que o grande problema da pseudo-replicao trata-la como
replicao real (amostras independentes) e utilizar testes estatsticos paramtricos que
precisam do pressuposto de independncia dos dados, como a ANOVA e a regresso;
tais testes acabariam rejeitando erroneamente a hiptese nula (erro tipo 1, erro ),
enquanto que seus equivalentes no-paramtricos no levariam a tal erro. Os tipos de
erro sero discutidos mais adiante.

1.4 Dados e variveis


As informaes (dados) obtidas se referem a variveis. Tais variveis, como j foi dito,
representam os parmetros observados da natureza. A varivel pode ser: numrica
(quantitativa) ou nominal (qualitativa, categrica).
Quando a varivel quantitativa, pode ser contnua (dados de medio) ou
discreta/merstica (dados de contagem). Quando ela qualitativa, seus valores podem
ser quantificados (quando, por exemplo, representam dados binrios, como sim/no,
presente/ausente, ou de intensidade, como 1 = pouco, 2 = mdio, 3 = muito) ou serem
simplesmente categricos (como a denominao de pontos ou meses: ponto 1, ponto
2, ms 1, ms 2, ms 3 etc).
Exemplos: Temperatura (uma varivel numrica, quantitativa e contnua); ponto de
coleta (uma varivel categrica); presena (1) e ausncia (0) de uma espcie em cada
ponto de coleta (qualitativa e binria).
s vezes, a variao de uma varivel influenciada pela outra varivel. A varivel
dependente tambm chamada de explicada ou resposta, e a independente de
explicativa ou explanatria. possvel tambm ocorrer semelhanas entre as variaes
das variveis independentes, e assim elas so chamadas covariveis, pois variam
juntas, geralmente havendo uma relao de linearidade entre elas. A melhor ferramenta

14
para verificar de antemo tais comportamentos o diagrama de disperso (scatterplot),
no qual as duas variveis so plotadas, uma no eixo X e outra no eixo Y (Fig. 4).
Figura 4 Grfico de disperso entre duas variveis. possvel observar que no h uma
relao aparente entre as variveis nitrognio e fsforo, pois seu posicionamento est bem
espalhado, no formando uma reta crescente ou decrescente ou nenhum outro tipo de grfico
curvilneo conhecido.

Disperso entre N e P
200
180
Nitrognio (mg/L)

160
140
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80

Fsforo (mg/L)

1.5 Estatstica Descritiva (medidas de tendncia central e medidas de disperso)


possvel se descrever um conjunto de dados por meio de alguns de seus atributos,
mas a escolha de quais atributos utilizar deve ser feita com prudncia.

1.5.1 Medidas de tendncia central (de posio)


Representam um conjunto de dados por meio de um valor central, no meio da
distribuio.
a) Mdia
Se os dados so distribudos de forma normal, com muitos valores intermedirios e
poucos valores extremos, ela o atributo de posio mais indicado. A mdia pode ser
), geomtrica (GM) ou harmnica (H). A mdia aritmtica diviso da soma
aritmtica (X
dos elementos pela quantidade desses elementos. A mdia geomtrica o antilog da
mdia aritmtica e se aplica, por exemplo, a dados de crescimento populacional e o a
mdia harmnica o inverso da mdia dos inversos dos elementos, e se aplica, por
exemplo, conservao. Os valores da mdia geomtrica so menores que os da mdia
aritmtica, e os da mdia harmnica so menores ainda. As mdias so sensveis a
dados extremos, sobretudo as geomtricas e harmnicas; quando h muitos dados
extremos, prefervel utilizar, por exemplo, a mediana.
Quanto maior a amostra, mais real a mdia aritmtica, ou seja,
X amostral se
aproxima mais de populacional (Lei dos Grandes Nmeros).
b) Mediana
o valor central de uma sequncia crescente ou decrescente de dados.

15
c) Moda
o valor que mais ocorre em um conjunto de dados. Ela pode ser nica ou haver mais
de uma moda (bimodal, multimodal).
Conforme a simetria de uma distribuio de dados, as medidas de posio aparecem
em pontos diferentes (Fig. 5).
Figura 5 Posio relativa das medidas de posio conforme a simetria da distribuio.

(Fonte: TRIOLA, 1999)

1.5.2 Medidas de variao (de disperso)


Mostram a variao em um conjunto de dados. Sempre vm associadas a uma medida
de posio.
a) Amplitude
Diferena entre o valor mximo e o valor mnimo.
b) Varincia (Var., s2)
Soma dos quadrados (SQ) das diferenas entre cada dado e a mdia. Usa-se o
quadrado para eliminar o efeito das diferenas negativas, que fariam a varincia ser
zero. A unidade da varincia a unidade da mdia elevada ao quadrado.
c) Desvio-padro amostral (s, DP, SD)
Para representar a variao de forma mais entendvel, tira-se a raiz quadrada da
varincia, voltando a unidade mesma da mdia, esse valor chamado de desvio-
padro amostral. Uma forma rpida de ter uma previso do DP dividindo a amplitude
por 4.
d) Erro-padro da mdia (s, EP, SE)
a distncia estimada entre a mdia amostral e populacional (real). a diviso do
desvio-padro amostral pela raiz quadrada do n.

Obs.: Pelo fato de o erro-padro da mdia ser bem menor do que o desvio-padro
amostral, muitos preferem utiliza-lo para esconder a variao dos dados, porm essa
conduta condenvel. Somente deve ser utilizado o erro-padro da mdia quando se
tem uma amostra muito grande e que se queira destacar no a variao dentro dessa
amostra e sim o quanto sua mdia se aproxima da mdia populacional.

16
1.6 Fatores
As variveis categricas so denominadas de fatores. Os principais fatores na rea de
ecologia so o tempo (ms, dia), ou seja, os momentos de coleta, e os pontos de coleta
(locais). Assim, testa-se se ocorre variao temporal e/ou variao espacial.

1.7 Distribuio de dados / Probabilidade


Quando se coloca um conjunto de dados de uma varivel em um grfico (histograma)
de distribuio de classes e suas frequncias, tem-se uma distribuio de dados. Alguns
padres foram evidenciados na natureza e tais padres dependem do nmero e do tipo
dos dados.
Exemplo de dados: Medio da altura (cm) de 20 plantas em uma parcela, 150, 150,
151, 155, 160, 160, 162, 165, 165, 170, 170, 172, 174, 176, 178, 180, 180, 182, 189,
190 (Tab. 2 e Fig. 6).
Tabela 2 e Figura 6 Distribuio de dados em classes.

i Classes fi
1 150 160 4
2 160 170 5
3 170 180 6
4 180 190 4
5 190 200 1
20

H vrios tipos de distribuies de dados importantes para a Ecologia, dentre eles:


normal, t, qui-quadrado e F. Os testes estatsticos e suas tabelas oficiais de comparao
se baseiam nelas; por isso, um teste s deve ser aplicado a um conjunto de dados que
segue a mesma distribuio que deu origem a ele, e esse o ponto chave na distino
entre estatstica paramtrica, para dados baseados na distribuio normal, e no-
paramtrica, aplicvel a praticamente todos os tipos de distribuio.
Distribuio uma organizao em um grfico de como os dados se encontram. Ela
importante, dentre outras finalidades, para se escolher o tratamento ideal para o
conjunto de dados.
H 4 principais tipos de distribuio:
1.7.1 Distribuies adequadas estatstica no-paramtrica (testes alternativos
ou anlise prvia para a estatstica paramtrica, com base na mediana)
a) Distribuio Binomial (com dados binomiais: sucesso/fracasso, sim/no,
presena/ausncia)
Ex.: Probabilidade de um animal recolhido ao acaso em 1000 locais delimitados na
caatinga apresentar uma mancha na cauda (Fig. 7).

17
Figura 7 Exemplo de distribuio binomial.

(Fonte: PORTAL-ACTION, 2015)

b) Distribuio de Poisson ( uma distribuio relacionada ao tempo)


Ex.: Nmero dirio de novos casos de cncer de mama ao longo de 365 dias (Fig. 8).
Figura 8 Exemplo de distribuio de Poisson.

(Fonte: SHIMAKURA, 2015)

As distribuies binomial e de Poisson so discretas.


c) Qui-quadrado (x2) Quando se verifica se dados qualitativos esto relacionados a
algum fenmeno. Ocorre geralmente com dados genticos. uma distribuio contnua.
Ela representa o quadrado da distribuio normal.
Ex.: 556 ervilhas foram analisadas com relao textura e cor das sementes, e obteve-
se o seguinte: (A=amarela / V=verde; R=redonda / E=enrugada) (Fig. 9).

18
Figura 9 Exemplo de distribuio qui-quadrado.

(Fonte: DE-LACERDA, 2015)

Alm da distribuio qui-quadrado, a distribuio log-normal e a distribuio exponencial


tambm so contnuas.

1.7.2 Distribuies adequadas estatstica paramtrica (com base na mdia)


Distribuio Normal (de Gauss, em sino, Z) Da estatstica paramtrica (testes com
base na mdia). Qualquer distribuio que tiver o nmero de observaes aumentado
tende a ficar normal.
Ocorre com dados de grandes amostras e geralmente no relacionados ao tempo.
Ex.: Estatura (em m) dos alunos do 7 ano de 20 escolas pblicas de Teresina (Fig. 10).
Figura 10 Exemplo de distribuio notmal.

(Fonte: TUTOR-TEDDY, 2015 - Adaptado)

Ao se obter um conjunto de dados em uma pesquisa, a primeira coisa a ser feita ver
como eles esto distribudos (em histogramas de classes de frequncia) e se eles se
relacionam entre si (por meio de grficos de disperso, nuvem de pontos, scatterplots).
Somente depois de se conhecer perfeitamente o conjunto de dados de cada varivel
possvel se pensar o que ser feito com eles. Deve-se seguir o projeto de pesquisa o

19
mximo possvel, o que foi planejado de estatstica, mas desde que o conjunto de dados
seja adequado para o que foi planejado. Este um motivo legtimo para se modificar a
estatstica usada nos dados, e no pelo fato de haver utilizado um teste que aceitou a
hiptese nula.
Em uma distribuio normal, h uma previsibilidade de onde se encontram os dados
(Fig. 11).
Figura 11 Regra emprica em uma distribuio normal. Normalmente, 2 DP negativos costuma
ser o valor mnimo dos dados coletados e 2 DP positivos o valor mximo. Por esta razo, falamos
que uma forma de prever o DP (aproximado) dividir a amplitude dos dados por 4.

(Fonte: TRIOLA, 1999)


Alm da distribuio normal, outras como a distribuio t (semelhante normal) e a
distribuio F (razo entre duas qui-quadrado) tambm so contnuas.

1.8 Estatstica
A Estatstica so mtodos matemticos utilizados para analisar dados de forma
independente da subjetividade humana, evitando-se, assim, a mera opinio pessoal do
pesquisador. Envolve desde conhecimentos de coleta de dados, processamento at a
sua correta anlise.
De uma forma mais restrita, alguns autores relacionam a estatstica apenas aos casos
em que h um teste de probabilidade embutido, um valor de P; neste caso restritivo,
um clculo de comparao entre os dados de sua amostra com valores idealizados
como naturais e expressos por meio das distribuies (padres) j abordadas.
No entanto, necessrio ter cautela com o uso da estatstica, pois ela sozinha no
capaz de produzir um bom trabalho cientfico; a viso e experincia do pesquisador se
fazem necessrias interpretao dos resultados obtidos por meio da estatstica.
De acordo com a quantidade de variveis dependentes (resposta), ela pode ser
univariada (apenas uma dependente) ou multivariada (mais de uma dependente), o que
ser abordado mais adiante.

20
1.8.1 Os mtodos cientficos
A cincia trabalha com vrios mtodos cientficos. Estes, segundo Gotelli e Ellison
(2011), podem ser:

1.8.1.1 Mtodos que levam em conta o teste de hipteses


a) Mtodo Indutivo (1 hiptese; executa-se a verificabilidade da hiptese;
tambm conhecido como bayesianismo, do estatstico ingls Thomas Bayes,
1701-1761). de mais fcil entendimento, pois testa-se a chance de estar
correto, porm muito criticada. Para Guttman (1985), citado por Magnusson e
Mouro (2005), uma cura pior que a doena. Ainda usada, por exemplo,
nos mtodos de Monte Carlo, Boortstrap e de reamostragem, uma espcie de
probabilidade aps as anlises de ordenao multivariada.

b) Mtodo Hipottico-dedutivo, frequentista (hiptese nula + 1 ou vrias


hipteses alternativas; executa-se a falseabilidade das hipteses; baseado no
popperianismo, de Karl Popper, filsofo cientista austraco, 1902-1994). Baseia-
se na chance de estar errado (valor de P, ou seja, erro alfa, que ser explicado
mais adiante). Esta a estatstica mais comum, a empregada na maioria dos
testes estatsticos de computador. Para Popper, no se pode provar nada,
apenas desprovar, ou seja, falsear a hiptese mais simples, nula.
Aceitar uma hiptese nula no significa que o trabalho est perdido, um resultado to
importante quanto a rejeio dessa hiptese.
No mtodo hipottico-dedutivo (frequentista), tem-se uma hiptese, que ser testada.
Essa hiptese uma afirmao diante do que est sendo estudado. A hiptese sugerida
na pesquisa a hiptese alternativa (H1), que afirma acontecer determinado fenmeno;
contra ela, formulada uma hiptese nula (H0), que diz que nega a afirmao da
hiptese alternativa. A hiptese nula a representao da simplicidade (parcimnia), do
que mais provvel, e se baseia no pensamento filosfico chamado de navalha de
Ockham (do franciscano ingls William de Ockham, 1290-1349).
As anlises estatsticas servem para testar hipteses. Para isso, h um valor de P
(probabilidade), que se relaciona ao nvel de significncia pretendido e isso est
diretamente ligado aos tipos de erro possveis em um teste estatstico (erro alfa ou I e
erro beta ou II).
Suponhamos que dez cobaias foram submetidas ao tratamento de engorda com certa
rao (Tab. 3). Os pesos em gramas, antes e aps o teste, so dados a seguir (supe-
se que provenham de distribuies normais). A 1% de significncia, podemos concluir
que o uso da rao contribuiu para o aumento do peso mdio dos animais?
Tabela 3 Pesos (g) de cada cobaia antes e depois do tratamento de engorda.
Cobaia 1 2 3 4 5 6 7 8 9 10
Antes 635 704 662 560 603 745 698 575 633 669
Depois 640 712 681 558 610 740 707 585 635 682

Formulam-se, ento, as hipteses:


H0: d = 0
H1: d < 0
Onde: d = antes depois
= 0,01 1 a = 0,99

21
Com a aplicao da frmula do teste T pareado (usado para esse tipo de exemplo),
obteve-se um valor calculado de t = - 2,96.
O valor tabelado (baseado em uma distribuio padro de dados, como a distribuio
normal) obtido da tabela na qual se baseou o referido teste (Fig. 12).
Figura 12 Exemplo de tabela de teste estatstico (tabela t de Student).

O valor tabelado para 9 graus de liberdade e 0,01 (1%) de erro 2,82. Esse valor do
grau de liberdade significa o nmero de elementos que so livres para variar. No
exemplo acima, so 10 cobaias, ento retira-se 1 desse total, ficando 10 1 = 9 graus
de liberdade. Um outro conceito de grau de liberdade o nmero de observaes
menos o nmero de parmetros j calculados; ou seja, para o clculo de mdia, se
divide por n, mas para o clculo da varincia dessa mdia, se divide por n-1, pois um
parmetro (a mdia) j foi calculado previamente.
Confrontando os valores calculado e tabelado, possvel aceitar ou rejeitar a hiptese
nula (Fig. 13).
Figura 13 Distribuio t de dados e posicionamento dos valores obtidos.

-2,96

22
Desta forma, quando se executa um teste estatstico mo, confronta-se um valor
calculado, obtido por meio da aplicao das frmulas do teste, com um valor tabelado
(esperado como limite para a aceitao da hiptese nula). No se consegue saber
exatamente o valor de P, mas se consegue dizer se h ou no uma significncia; j por
meio de um software (no computador), o resultado exibido mais exato, com o valor de
P (Fig. 14).

Figura 14 Resultado da anlise acima por meio de um programa de computador.

Em uma publicao cientfica, preciso observar a maneira correta de expor os


resultados dos testes, por meio de notao especfica. No caso acima, seria dizer que
o peso depois significativamente maior (Teste t, t=-2,96; gl=9; p=0,006).
Voltando a falar dos erros dos testes estatsticos, eles podem ser erro alfa (tipo I),
quando se nega-se erroneamente uma hiptese nula correta, ou beta (tipo II), quando
se aceita erroneamente uma hiptese nula incorreta (Quadro 1).
Quadro 1 Tipos de erros nos testes estatsticos.
Manter H0 Rejeitar H0
H0 verdadeira Deciso correta Erro Tipo I ()
H0 falsa Erro Tipo II () Deciso correta
(Fonte: GOTELLI; ELLISON, 2011)
O valor de P, desta forma, se relaciona ao erro alfa (tipo I), que aquele de mais fcil
controle, que o pesquisador consegue perceber mais facilmente. Normalmente, no h
como se calcular o erro tipo II, por isso geralmente ele ignorado (o que se costuma
fazer optar sempre pelo melhor teste, para se reduzir as chances desse erro, preciso
sempre escolher o teste mais robusto para aquele caso em estudo).
Erroneamente, h a prtica de modificar a estatstica para forjar um resultado positivo,
que comprove a hiptese, no entanto esse procedimento no cientfico. De fato, toda
a estatstica j deve estar planejada desde o projeto de pesquisa.

23
1.8.1.2 Outros mtodos
Dentre eles, podem-se citar os das Cincias Sociais e o de estimativa de parmetros
(quantifica-se a contribuio de cada fator em vez de testar hiptese).

1.8.2 Estatstica paramtrica x no-paramtrica


Paramtrico (mtrico, frequentista, assinttico) significa baseado na mdia e no desvio-
padro da distribuio de frequncia, seguindo a lei de Gauss (normalidade), ou seja,
simtrica em relao mdia, que central. No-paramtrico = no-mtrico, so
medidas no-ordinais, em postos (rankings).
O bilogo estatstico ingls Ronald Fisher (1890-1962) tido como o pai da estatstica
paramtrica. A estatstica paramtrica (mais robusta, mais confivel do ponto de vista
matemtico) so os testes que se baseiam na mdia, tendo um valor cientfico mais
eficiente. No entanto, s pode ser aplicada em dados que tm distribuio normal
(normalidade). Caso no seja comprovada a normalidade da distribuio, apela-se para
uma transformao dos dados (normalmente utiliza-se a logartmica, mas depende da
natureza dos dados veja abaixo). Se essa transformao no normalizar os dados,
necessrio utilizar a estatstica no-paramtrica (baseada na mediana, nos rankings).
Para cada anlise paramtrica, h uma equivalente no-paramtrica. Cientificamente,
melhor utilizar uma estatstica no-paramtrica em dados no-normais do que utilizar
foradamente uma estatstica paramtrica.
Na realidade, o que se pretende com a escolha do teste a ser empregado que haja
uma maior probabilidade de o resultado ser o correto, que faa sentido e responda
pergunta que foi feita. Porm nenhuma estatstica ser capaz de substituir a mente do
pesquisador, no devendo as discusses se basearem somente em estatstica, e sim
no conhecimento do pesquisador.
Os grficos dos resultados de uma anlise paramtrica no so idnticos aos de uma
anlise no-paramtrica (Fig. 15).
Figura 15 - Comparativo dos grficos anlises paramtricas x anlises no-paramtricas.

(Fonte: GOTELLI; ELLISON, 2011 - Modificado).

A estatstica paramtrica, mais robusta do que a no-paramtrica, s pode ser utilizada


quando h homodedasticidade (homogeneidade de varincias) e normalidade da

24
amostra. Esta homocedstica e normal quando os valores para cada teste ficam com
P>0,05. Os testes mais comuns so citados a seguir.

1.8.3 Teste de homocedasticidade


Pode-se usar o teste de Fmax para amostras balanceadas e Bartlett para amostras
desbalanceadas. H outros testes possveis, como qui-quadrado, Hartley e Cochran.
Uma outra opo fazer o teste de Levene.

1.8.4 Teste de normalidade


Pode-se aplicar G1 (simetria) e G2 (curtose). Mas o ideal usar o teste Kolmogorof-
Smirnoff KS, ou o teste de Lilliefors (uma adaptao estandardizada do KS). Outra
opo para testar a normalidade fazer o teste de Shapiro-Wilk (Estatstica W) nos
resduos.

1.8.5 Transformao de dados


A transformao de dados a aplicao de uma frmula matemtica para suavizar a
discrepncia entre os valores. Muitas vezes, essa transformao capaz de normalizar
os dados e homogeneizar as varincias.
H vrios tipos de transformao: logartmica, raiz quadrada etc.
Log (x) ou log (x+1), para dados contnuos (sem ou com zero, respectivamente) a mais
usada. usada para dados de contagem (discretos). Arcoseno usada para
propores em decimal (de 0 a 1; preciso converter se estiver em %). 1/x para taxas,
que so em hiprbole.
s vezes, necessrio eliminar valores extremos (aberrantes, atpicos), chamados
outliers. Mas necessrio justificar sua eliminao, sendo uma justificativa um erro de
procedimento ou um acontecimento momentneo que tenha gerado tal valor. Para isso,
fundamental sempre ter mo uma ficha para observaes durante as coletas.

1.8.6 Estandardizao (padronizao) de dados


Muitas anlises multivariadas exigem que os dados sejam antes estandardizados, ou
seja, deve ocorrer uma adimensionalidade dos dados que, originalmente, pertenciam a
variveis bem diferentes, com diferentes unidades e escalas. Isso feito por meio de
uma transformao dos dados de cada varivel em unidades (z) de desvio-padro,
conforme a frmula abaixo (LEGENDRE; LEGENDRE, 1998):

Isso significa que o valor bruto de cada observao da varivel transformado no


nmero de desvios-padro em que este se afasta da mdia dessa varivel.

1.8.7 Teste unicaudal x bicaudal


Alguns testes estatsticos tm duas opes de direcionamento na distribuio de dados.
Assim, em um teste t, por exemplo, quando a hiptese alternativa apenas de que h

25
uma diferena entre as mdias (uma mdia diferente da outra, sem importar quem
a maior), o teste bicaudal; por outro lado, se afirmarmos de antemo para que lado
ser essa diferena (uma mdia ser maior ou menor que a outra), teremos um teste
unicaudal (cuja chance de rejeitar H0 ainda menor).

Exerccios

1) Qual a diferena entre parmetro e estimador?


2) Considere um pesquisador fazendo a contagem de lagartos encontrados em 50
armadinhas (baldes) enterrados no cho e comparando essa quantidade com a
temperatura local do micro-habitat, ao longo de cada um dos 20 dias em que esteve em
coleta. Neste caso, quais so as variveis envolvidas e de que tipo elas so?
3) Considere o conjunto de variveis abaixo relacionadas e responda ao que se pede.
De preferncia, utilize algum programa de estatstica. Os dados foram obtidos em 14
locais ao redor do mundo, sendo medida a temperatura mdia do ar (C), a umidade
relativa mdia do ar (%) e a pluviosidade mdia (mm), referentes s mdias histricas
de um perodo de 10 anos em cada um dos locais, e o nmero mdio de rvores
encontradas nas 10 parcelas construdas em cada um desses locais.
Local Temp (C) Umid (%) Pluv (mm) Nmero mdio de rvores na parcela
01 44 9 540 84
02 25 8 500 70
03 40 50 280 43
04 13 98 1500 180
05 10 60 800 100
06 42 15 460 61
07 5 16 950 125
08 28 86 800 100
09 25 60 520 67
10 31 80 780 108
11 30 96 1600 180
12 20 84 860 101
13 42 12 590 89
14 11 16 1360 156

a) Apresente a estatstica descritiva para cada varivel quantitativa.


b) Teste a normalidade (Lilliefors) para cada uma dessas variveis.
c) Caso alguma das variveis no apresente distribuio normal, aplique uma
transformao logartmica aos dados dessa varivel e verifique novamente a
normalidade.
d) Construa um grfico de frequncia para a varivel biolgica.
e) Apresente uma tabela com a padronizao (estandardizao) dos dados dessas
variveis.
f) Construa um grfico de disperso (nuvem de pontos com as variveis pluviosidade e
nmero de rvores. possvel observar alguma tendncia (padro) nesse grfico?

26
CAPTULO 2 Reviso de Anlise Univariada

Como j foi falado, as anlises estatsticas univariadas so aquelas em que h apenas


uma varivel resposta (dependente, explicada), que alterada pelo efeito das variveis
exploratrias (independentes, explicativas).

2.1 Testes T e Z
O teste T um teste para saber se duas mdias (variveis quantitativas) so
estatisticamente iguais ou diferentes. Sempre usado para duas mdias. Ele pode ser
de vrios tipos: homocedstico / heterocedstico, pareado (amostras relacionadas) /
no-pareado (amostras independentes), balanceado / desbalanceado.
O teste T indicado principalmente para amostras menores que 30, que teoricamente
no seguem a distribuio normal. Caso seja uma amostra acima de 30, pode-se utilizar
o teste Z. Um exemplo de teste T foi mostrado anteriormente.
O equivalente ao teste T na estatstica no-paramtrica so os testes de Wilcoxon
(pareado) e Mann-Whitney (no-pareado, teste-U).

2.2 Anlise de Varincia (ANOVA)


Aplica-se uma ANOVA quando se tem duas variveis, sendo uma quantitativa
(dependente) e outra independente categrica/fator (perodo, local, por exemplo) e se
quer saber se h diferena significativa entre tais categorias (Quadro 2). Mas, para
aplicar uma ANOVA (uma estatstica paramtrica, baseada na mdia), preciso antes
testar se a distribuio dos dados normal (normalidade) e se as varincias entre as
categorias so homogneas (homocedasticidade). Caso no sejam, tenta-se aplicar
uma transformao (como a logartmica); repete-se ento o teste de normalidade e
homocedasticidade. Caso persista o problema, ser necessrio utilizar uma anlise no-
paramtrica. O Teste de Kruskal Wallis um substituto no-paramtrico para a ANOVA.
Se a ANOVA for em blocos, o equivalente no-paramtrico o teste de Friedman.

27
Quadro 2 Caractersticas de uma ANOVA em relao a uma regresso e outros testes
semelhantes.

INDEPENDENTE Contnua Categrica


DEPENDETE
Regresso ANOVA
(Verifica se a (Verifica se h diferena entre os
varivel nveis da varivel categrica)
Contnua independente
responsvel pela
variao da
dependente)
1 varivel independente
Tabelas de contingncia de 2
fatores (LxC)
Chi-quadrado
Teste G
Teste exato de Fisher
(Testam a dependncia entre os 2
fatores ou se h aderncia, se a
Categrica Regresso logstica proporo observada a
esperada)
2 ou mais variveis
independentes
Tabela de contingncia
multifatorial
rvores de classificao
Modelo log linear
Anlise bayesiana

A ANOVA apenas aponta se h pelo menos uma das categorias que seja diferente das
demais. Caso isso seja comprovado pela ANOVA, ser necessrio executar um ps-
teste (teste a posteriori de comparao mltipla de mdias, testes post hoc). Em
Ecologia, costuma-se utilizar o Teste de Tukey.
A ANOVA ou anlises equivalentes so aplicveis quando se quer comparar mais de
duas mdias. At duas mdias, utiliza-se o Teste T ou equivalente. Mas a ANOVA
tambm pode ser usada para duas mdias.
importante aplicar o tipo correto de ANOVA para os dados disponveis, de preferncia
j planejar a pesquisa de forma que depois possa aplicar a ANOVA ideal. Isso evita um
maior nvel de erro no teste e valoriza ainda mais os dados coletados.
H vrios tipos de ANOVA. Para delineamentos fatoriais, se ela tem apenas um fator,
dita unifatorial (One Way ANOVA), se tem dois fatores, bifatorial (Two Way ANOVA) e
assim por diante. No caso de haver mais de um fator, caso seja percebida interao
entre os fatores, no se pode avaliar o efeito individual de cada fator, somente o efeito
conjunto.

28
A ANOVA tambm pode ser em blocos (grupos de tratamentos), quando j se conhece
uma relao entre tratamentos ou alguma diferena entre eles. Quando os blocos so
ao acaso, pode ser chamado tambm de split-plot. Pode ser tambm aninhada
(hierrquica, ramificada, nested); a ANOVA aninhada quando h uma diferenciao
prvia entre os nveis de um fator em relao aos nveis do outro fator (por exemplo,
duas mquinas sendo manipuladas por um trio de funcionrios diferentes cada uma).
preciso ter cuidado para no confundir ANOVA em blocos com ANOVA aninhada. Na
ANOVA em blocos, h uma perfeita repetio dos tratamentos, j na aninhada similar
mas no exatamente igual (Fig. 16).
Figura 16 Delineamento experimental: em blocos x aninhado.

Quando se tem pseudo-rplicas (ou dados pareados com mais de duas mdias) e o
pesquisador pretende diminuir seu efeito negativo, possvel aplicar a ANOVA de
medidas repetidas.
H alguns outros delineamentos mais comuns agronomia, como o de parcelas
subdivididas, no qual sorteiam-se os tratamentos principais e depois os tratamentos
secundrios so aplicados dentro dessas parcelas.
Ela pode ser dividida tambm em modelo I (efeito fixo), quando os tratamentos so o
total dos possveis planejados ou que existem, ou modelo II (efeito aleatrio), quando
se sorteiam alguns tratamentos para representar todos os possveis de uma populao
(exemplo: sortear algumas escolas para se testar algo de forma que seja extrapolado
para todas), geralmente usado em Gentica, ou misto (quando, por exemplo, os
tratamentos so fixos mas os blocos so aleatrios, ou vice-versa). No modelo misto,
pode ocorrer, por exemplo, de um fator com efeito fixo e outro com efeito aleatrio.
Por no saber escolher o tipo correto de ANOVA, muitos pesquisadores acabam
fazendo ANOVA comum, o que gera um prejuzo na anlise dos dados, por no serem
aproveitadas informaes importantes nos clculos.
Os delineamentos apresentados acima se aplicam principalmente a pesquisas
experimentais, mas tambm podem acontecer em pesquisas observacionais, como o
caso da maioria dos trabalhos em Ecologia.
Se, em uma pesquisa experimental, h uma ANOVA cujo um dos tratamentos controle
(branco), aconselhvel que esse grupo controle tenha mais repeties que os demais
grupos, mesmo isso levando a um desbalanceamento do experimento. Exemplo: Em
um experimento no qual h 5 grupos, um deles sendo controle e os demais tendo 10
repeties (nmero mnimo admissvel em uma ANOVA), o nmero mnimo de
repeties no grupo controle ser dado pela frmula abaixo:

Onde a o nmero total de grupos.


Desta forma, deve haver 2x mais repeties no controle que nos demais grupos. No
exemplo acima, deveriam ser 20 repeties no grupo controle e 10 nos outros quatro
grupos. Alm disso, o teste de comparao de mdias no deve ser o Tukey, o ideal,
para casos assim, o teste de Dunnett, que considera a diferena dos grupos em
relao ao controle, no importando diferenas dos grupos entre si.

29
Exemplo de uma ANOVA:
Desejando saber se o tamanho do bico (cm) de trs espcies de aves da mesma famlia
era ou no estatisticamente diferente, um pesquisador piauiense resolveu medir, ao
acaso, 7 aves de cada espcie, sendo todos os indivduos notadamente j adultos (Tab.
4).
Tabela 4 Dados de tamanho do bico (cm) de 3 aves piauienses.

Tamanho do bico (cm)


Ave 1 Ave 2 Ave 3
10 25 7
20 27 5
15 29 8
16 33 9
22 40 9
17 38 4
12 34 6

Para tanto, aps confirmar os pressupostos para aplicao de uma ANOVA, ele
executou esse teste e obteve o seguinte resultado (Fig. 17).

Figura 17 Resultado da ANOVA e do ps-teste de Tukey.

O resultado da ANOVA mostrou que havia diferena entre as 3 mdias (P=0,0000) e


que todas as mdias so diferentes entre si em um nvel de significncia de 1%
(P<0,01).
Quando, alm do fator (independente categrico) que se est testando, h o efeito
tambm de uma outra varivel (independente contnua), faz-se a anlise de covarincia
(ANCOVA). Ela pode ser paramtrica ou ANCOVA Quade, que no-paramtrica.
Tanto a ANOVA como a regresso (que ser vista mais adiante) podem ter sua robustez
averiguada com base na anlise de resduos (erros). Por meio dessa anlise, possvel
verificar a normalidade, a homocedasticidade e a existncia de outliers.

30
2.3 Correlao
Um teste de correlao a comparao entre duas variveis quantitativas, ponto a
ponto. Nele, nenhuma das variveis tida como dependente (resposta). Para se realizar
a correo, preciso antes ver se a disperso dos dados aponta alguma tendncia
(correlao linear, parablica, hiperblica). Caso haja uma tendncia linear ou no seja
observada tendncia, aplica-se a correlao linear, sendo o teste mais comum o de
Pearson (se os dados forem paramtricos) ou de Spearman (caso no sejam
paramtricos e nem seja possvel normaliz-los). Se no for linear, preciso transformar
os dados para aplicar Pearson ou Spearman.
A correlao medida entre 0 (nenhuma correlao) e 1 (correlao total), podendo ser
positiva (as variveis aumentam juntas) ou negativa (quando uma varivel aumenta a
outra diminui).
Exemplo: Para testar se o comprimento das folhas de uma rvore tem relao com a
largura dessas folhas, um pesquisador coletou aleatoriamente 10 folhas e mediu suas
dimenses (Tab. 5).
Tabela 5 Dados das dimenses de 10 folhas.

Dimenses (cm)
Comp Larg
3,0 1,0
2,0 1,0
5,0 2,0
10,0 2,0
6,0 4,0
7,0 3,0
7,0 5,0
10,0 2,0
2,0 1,0
6,0 2,0

Supondo que o pesquisador observou que os dados so normais, o mesmo aplicou uma
correlao de Pearson (Fig. 18).
Figura 18 Resultado da correlao de Pearson.

possvel observar que no houve correlao entre a largura e o comprimento das


folhas (P=0,19) nem mesmo no nvel de significncia de 5%. Tanto pode ser que
realmente no haja ou porque o n amostral esteja baixo para constatar tal correlao.

31
2.4 Regresso
O teste de regresso semelhante ao de correlao, porm nele temos uma varivel
dependente (resposta), sempre uma, que modificada pela(s) varivel(is)
independente(s). Quando h apenas uma varivel independente, a regresso dita
simples; quando h mais de uma, ela denominada mltipla. Assim, possvel de
construir uma frmula (equao) que represente o grfico de regresso. Mais uma vez,
preciso ver a disperso dos dados para saber se o melhor teste a ser empregado o
de regresso linear ou no.
Uma outra diferena que a regresso uma estatstica paramtrica, portanto exige
que seja obedecido o requisito de independncia dos dados (rplicas e no
pseudorplicas), de normalidade e homocedasticidade.
Exemplo: testar se existe uma regresso entre a quantidade de rao disponibilizada
para os girinos e o tamanho final deles ao atingirem determinada fase de
desenvolvimento (Tab. 6); caso haja regresso, possvel determinar a equao dessa
regresso. Se for uma regresso linear, teremos a equao de uma reta (Fig. 19).
Tabela 6 Dados de tamanho dos girinos em relao quantidade de rao.
Quantidade
diria de rao Tamanho do
(mg) girino (cm)
100 2
120 5
140 7
160 8
180 9
200 10
100 3
120 6
140 6
160 7
180 9
200 9

Figura 19 Resultado da regresso linear simples.

32
Observa-se que h uma regresso linear (P=0,0000) e que possvel fazer uma
modelagem por meio da frmula da reta (Y = 0,07 * X 3,21). Desta forma, colocando-
se a quantidade de rao no valor de X possvel prever o tamanho dos girinos nessa
fase de desenvolvimento.
Alguns testes estatsticos so englobados no conceito de GLM (General Linear Models,
Modelos Lineares Gerais); so eles: ANOVA, ANCOVA, MANOVA, MANCOVA,
regresso, teste-t e teste-F. Alguns programas de estatstica j trazem tais testes em
uma seo parte (GRAFEN; HAILS, 2002).

Exerccios
4) Considerando as informaes em cada situao abaixo, defina qual seria o melhor
mtodo estatstico (teste) para ser empregados na anlise dos resultados (pode ser
consultada o guia do Captulo 7 deste livro, bem como o texto do contedo):
a) Em uma pesquisa para saber se um determinado tipo de rao (A) era mais eficiente
que um outro tipo de rao (B), um cientista resolveu marcar e pesar (massa inicial), em
kg, 20 araras. Em um primeiro momento, cada uma das 20 araras foi alimentada
somente com a rao A. Efetuou-se novamente a pesagem. Aps alguns dias at que
as araras voltassem ao peso inicial com rao comum, todas comearam um novo
perodo de alimentao especial, s que desta vez com a arao B. Efetuou-se, ento,
uma nova medio nas araras. Como saber se uma rao ou no mais eficiente que
a outra em termos de ganho de massa corprea?
b) Um pesquisador amigo do anterior resolveu realizar a mesma pesquisa porm com
uma metodologia diferente. Ele resolveu marcar e pesar (massa inicial), em kg, 20
araras, que foram separadas em 2 grupos de 10 indivduos cada. Um grupo foi
alimentado somente com a rao A e o outro somente com a rao B. A quantidade de
rao era sempre a mesma em cada refeio. Os dados apresentaram distribuio
normal. Como saber se uma rao ou no mais eficiente que a outra em termos de
ganho de massa corprea?
c) Em uma pesquisa de campo, pretendeu-se saber se havia diferena na quantidade
de silcio (em mg/L) entre 4 pontos de coleta em uma barragem. Esses pontos foram
identificados por meio de GPS e foram revisitados quinzenalmente durante um ano. Os
dados, considerados independentes, inicialmente no apresentaram distribuio
normal, porm, aps transformados, a normalidade foi conseguida, bem como a
homocedasticidade. De que forma possvel saber, estatisticamente, se h diferena
entre os valores de concentrao de silcio dos 4 pontos?
d) Um pesquisador dispunha de uma tabela de dados que apresentava 5 colunas, 4
delas com dados de variveis explanatrias contnuas e a outra coluna com dados
biolgicos (varivel resposta), tambm quantitativos e contnuos. Os dados
apresentavam distribuio normal. De que forma possvel testar se as variveis
explanatrias exercem influncia sobre a varivel resposta, considerando que a relao
entre elas linear?
e) Uma ecloga, com o intuito de testar se a temperatura (C) de um lago se relacionava
com o pH, resolveu medir essas duas variveis por 20 dias em um rio que passava
prximo a sua casa, realizando duas medies dirias, uma no final da manh e outra
noite. Aps uma tentativa malsucedida de normalizar os dados, ela resolveu utiliza-los
como estavam (dados brutos). Qual seria a anlise mais indicada neste caso,
considerando que no se soubesse se o pH exerce influncia na temperatura ou vice-
versa?

33
f) Considerando os dados do caso anterior, porm se fossem normais e se soubesse
que a temperatura afeta de forma linear o pH, qual seria ento a anlise mais
apropriada?
g) Jorge Maurcio, fazendo um mestrado em Ecologia, pretendia compreender o que
mais influencia os peixes em 3 barragens de sua regio, se eram as diferenas entre
perodo de cheia e de seca ou a intensidade de pesca. Ento, resolveu realizar uma
pesquisa de 12 meses, sendo que em cada ms ele coletava peixes em cada uma das
3 barragens, com um mesmo esforo amostral, e fazia um levantamento da intensidade
de pesca realizada em cada uma naquele ms (dados disponveis em uma cooperativa
de pescadores da regio). Os dados so independentes, homocedsticos e normais. De
que maneira pode ser feita essa anlise?
h) Ruth e Raquel, duas irms, dispem de 100 observaes feitas em cada uma de duas
rvores de seu quintal (um p de manga e um p de caju). Elas observavam, todo dia,
com um mesmo esforo amostral, quantas formigas passavam no comeo da tarde (no
perodo entre 14h:00min e 15h:00min) em um dos galhos de cada uma dessas duas
rvores. E elas revezavam entre elas todos os dias, um dia era Ruth que ficava no p
de manga e no outro era Raquel. Considerando que os dados apresentam uma
distribuio normal (Lilliefors, p>0,05) e possuem varincias homogneas, qual(is)
(so) o(s) teste(s) mais indicados para se ter um melhor aproveitamento estatstico
desses dados?
i) Considerando o caso do item e, se os dados fossem normais mas ainda no se
soubesse se a temperatura que exerce influncia no pH ou vice-versa, qual seria ento
o teste mais indicado?

5) Utilize mais uma vez a tabela da questo 3, e realize os testes mais apropriados em
algum programa de estatstica, conforme o caso:
a) Testar se existe relao entre a temperatura (C) e a umidade do ar (%).
b) Testar se a pluviosidade (mm) influencia o nmero de rvores em cada local.
c) Testar se existe relao entre a umidade do ar (%) e a pluviosidade (mm).

6) Observe o resultado de um teste estatstico, exibido na figura abaixo, e explique o


seu significado.

34
7) Em um experimento, pretende-se saber se as mdias dos tratamentos A, B, C e D
so diferentes, ou seja, se a temperatura produziu alguma influncia sobre o tamanho
das lagartas. Desenvolva a anlise em algum programa de estatstica e apresente os
resultados. Foram medidas 100 lagartas, 25 para cada tratamento, sendo que o
tamanho inicial (cm) era o mesmo, bem como a alimentao foi a mesma para todas.
Considere que todas comeram igualmente a quantidade de alimento disponibilizada.
Considere a independncia dos dados, ou seja, que a colocao do experimento tenha
sido feita de forma coerente para garantir isso).

Tratamentos
A B C D
15C 20C 25C 30C
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,2 2,6 4,0 1,5
1,1 2,4 3,7 1,4
1,1 2,4 3,7 1,4
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,3 2,8 4,3 1,6
1,7 3,6 5,5 2,1
1,8 3,8 5,8 2,2
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,3 2,8 4,3 1,6
1,7 3,6 5,5 2,1
1,8 3,8 5,8 2,2
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7

8) Diferencie um experimento em bloco de um experimento aninhado.


9) Qual a diferena entre uma ANOVA unifatorial e uma ANOVA bifatorial?

35
CAPTULO 3 Medidas de semelhana ecolgica
Uma anlise de agrupamento ou uma anlise multivariada pode ser uma anlise
comparativa dos objetos (anlise em modo R) ou dos descritores (anlise em modo Q).
No modo R, ordenam-se os objetos (pontos de coleta, meses de coleta etc), enquanto
que no modo Q, so ordenadas as variveis envolvidas (bitias, abiticas).
Normalmente, as linhas (raws) so os objetos (pontos, meses) e as colunas so os
descritores (as variveis ambientais, as espcies). A planilha de dados deve ser feita
com base no formato requerido pelo programa. Normalmente os programas aceitam a
importao de dados do Excel, desde que devidamente formatados.
preciso tambm observar se a tabela de dados homognea (contingncia) ou
heterognea (descritores com unidades diferentes).
Alm dos modos R e Q, Cattell (1966 citado por LEGENDRE; LEGENDRE, 1998) ainda
definiu outros quatro modos (Fig. 20): O (entre tempos, com base em vrios descritores
e um s objeto), P (entre descritores, baseado em vrios tempos e um s objeto), S
(entre objetos, com base em vrios tempos e um s descritor) e T (entre tempos, com
base em vrios objetos e um s descritor).
Figura 20 A caixa tridimensional de dados (objetos x descritores x tempos).

(Fonte: LEGENDRE; LEGENDRE, 1998)


Os valores dos ndices (coeficientes) de similaridade agrupam os objetos (amostras,
pontos, meses) semelhantes e variam geralmente de 0 (menos semelhantes) a 1 (mais
semelhantes).

36
3.1 Para estudos em modo Q
3.1.1 Coeficientes de similaridade
H vrios ndices possveis, cada um com suas caractersticas e sendo indicado para
um tipo de dados. Segundo Valentin (2000), os ndices que incluem dupla-ausncia no
so indicados para dados ecolgicos, pois a ausncia da espcie naquele ponto ou
momento de coleta pode ser por conta da metodologia ou outros fatores.
Ponto A
Ponto_A Ponto_B 1 0
Especie_1 1 0 Ponto 1 a b
Especie_2 0 1 B 0 c d
Especie_3 1 1
Especie_4 0 0
Especie_5 0 1 Ponto A
Especie_6 1 1 1 0
Especie_7 1 1 Ponto 1 3 2
Especie_8 0 0 B 0 1 2

a (nmero de espcies comuns aos dois objetos)


b (nmero de espcies presentes somente no segundo objeto)
c (nmero de espcies presentes somente no primeiro objeto)
d (nmero de duplas-ausncias)

So exemplos de ndices de similaridade para dados binrios (Romesburg, 1984):


Incluindo dupla-ausncia Sem incluir dupla-ausncia
ndice de coincidncia simples ndice de Jaccard

ndice de Sokal & Sneath ndice de Sorensen / Dice

37
Para dados quantitativos, h tambm vrios ndices de similaridade, com clculos bem
mais complexos (Legendre & Legendre, 1998):
Incluindo dupla-ausncia Sem incluir dupla-ausncia
ndice de Gower ndice de Czekanowski / Steinhaus
(semelhante ao de Sorensen)

ndice de Estabrook & Rogers ndice de Morisita

3.1.2 Coeficientes de distncia (dissimilaridade)


Os ndices de distncia tambm agrupam os objetos semelhantes, porm com base na
distncia (dissimilaridade). Assim, pode-se obter a distncia com base na similaridade:
D = 1 S. Os mais usados so a distncia Euclidiana e a de Bray-Curtis. Mas h vrios
outros ndices, bastante detalhados em livros como Legendre e Legendre (1998).
A distncia Euclidiana inclui dupla-ausncia e por isso deve ser evitada quando se tem
muitas espcies raras. Seu clculo se baseia no tringulo retngulo de Pitgoras
(Valentin, 2000):

A distncia de Bray-Curtis, por outro lado, pouco afetada pelas espcies raras, j que
no inclui dupla-ausncia. Por isso, mais indicada para dados ecolgicos. Ela equivale
ao coeficiente de Czekanowski (Valentin, 2000).

3.2 Para estudos em modo R

3.2.1 Coeficientes de dependncia


Para testar a relao entre descritores; no caso das variveis ambientais com base nos
valores medidos e no caso das espcies com base na abundncia.
Para descritores paramtricos
Matriz de correlao de Pearson
Para descritores no-paramtricos
Matriz de correlao de Spearman

38
3.2.2 Associaes de espcies
muito comum haver espcies raras, e nos dados de abundncia aparecem muitos
zeros. No aconselhvel aplicar Pearson nem Spearman neles, pois para isso seria
necessrio modifica-los eliminando as espcies raras ou eliminar os zeros como se
fossem dados faltando (Valentin, 2000). Por isso, adota-se a tcnica de considerar
somente presena e ausncia e testa-se, ento, associaes de espcies. H duas
maneiras principais para se fazer isso:
a) Coeficiente de coincidncia (Dice, o mesmo de Sorensen)

b) Teste de qui-quadrado

O teste de qui-quadrado (LEGENDRE; LEGENDRE, 1998; VALENTIN, 2000) tambm


muito utilizado pela gentica, pois testa se a frequncia de determinado fentipo na
prole de um cruzamento ou no a esperada teoricamente (como nos experimentos de
Mendel, para saber se a frequncia era de 9:3:3:1). Por essas aplicaes, ele dito
teste de aderncia, ou seja, um teste de adequao. Ele tambm til para se testar
a independncia entre linha e coluna de uma tabela de dados; por exemplo, em uma
pesquisa de opinio, para descobrir se a resposta (a favor ou contra determinada ao),
linhas, depende ou no da classe social (baixa, mdia ou alta), colunas. Por isso, ele
chamado de teste de independncia.

Exerccios
10) O que um estudo em modo R?
11) O que distncia euclidiana?
12) Diferencie os ndices de Bray-Curtis e Sorensen.
13) Para que servem os coeficientes de similaridade e de distncia?
14) Observando as frmulas de Jaccard e Dice, qual seria a distino matemtica entre
ambas?

39
CAPTULO 4 - Matrizes para anlise multivariada
Matriz um conjunto retangular de nmeros (elementos) organizados em linhas e
colunas. As linhas e colunas representam categorizaes desses elementos, tornando-
se possvel organiza-los de forma simples no espao bidimensional como em uma
tabela.
Usam-se matrizes para dados multivariados porque tm linhas e colunas e suas
notaes podem ser usadas na maioria das frmulas da estatstica univariada.
Considere as trs variveis abaixo, medidas em um ambiente aqutico (Tab. 7):
Tabela 7 Exemplo de dados ambientais (temperatura, pH e luz) medidos em 5 pontos (A, B, C,
D e E).
Variveis abiticas
Varivel contnuas
categrica 1 2 3
PONTOS Temperatura pH Luz
A 30.0 7.6 100.0
B 31.0 8.2 105.0
C 29.5 7.3 110.0
D 28.0 7.1 102.0
E 28.8 7.2 104.0

A partir destes dados, possvel formar matrizes, iguais quelas utilizadas na estatstica
multivariada, empregando-se as frmulas de varincia, covarincia e correlao. Tais
matrizes comparam as variveis com elas mesmas, e por esta razo so matrizes
simtricas em relao diagonal principal.
Os dois principais tipos de matrizes usadas na anlise multivariada so:
a) Matriz de varincia e covarincia (C), tambm chamada de disperso.

b) Matriz de correlao (P)

As matrizes podem ser criadas com valores de similaridade ou de distncia assunto j


bem explanado no captulo anterior. Uma matriz de distncia denominada de matriz
cofentica.

40
Exerccios
15) Os indivduos de 5 espcies foram inventariados em 10 locais e os dados foram
tabulados. Construa uma matriz de correlao para as variveis abaixo e depois
descreva a matriz com base nos tipos de dados que a geraram.

Espcies
Locais
sp1 sp2 sp3 sp4 sp5
1 5 0 40 39 20
2 50 90 130 42 11
3 143 276 316 0 56
4 80 150 190 5 12
5 82 154 194 0 0
6 70 130 170 12 49
7 44 78 118 17 37
8 150 290 330 0 43
9 48 86 126 26 50
10 61 112 152 37 18

41
CAPTULO 5 Anlise Multivariada
(multidimensional)

5.1 Introduo
H vrios entendimentos diferentes sobre o que seja uma anlise multivariada. Alguns
autores as consideram qualquer anlise em que vrias variveis so includas. Para
outros autores, como Gotelli e Ellison (2011), por exemplo, nas anlises multivariadas,
temos mais de uma varivel dependente (resposta) e tais variveis dependentes so
relacionadas entre si; por exemplo: peso e altura de um mesmo indivduo, espcies de
uma mesma comunidade etc. Caso no haja uma relao entre as variveis
dependentes, os testes podem ser univariados, considerando cada dependente por vez.
Para esses autores, no importa o nmero de variveis independentes, podendo ser at
mesmo uma s. Considerando essa controvrsia do que seja uma anlise multivariada,
fica difcil, s vezes, enquadrar como multivariadas algumas anlises de componentes
principais (ACP) ou regresses mltiplas de uma s varivel dependente.
Na anlise multivariada, normalmente h pelo menos duas variveis dependentes. Mas
possvel tambm realizar anlise multivariada quando se tem uma grande quantidade
de variveis (sem considerar se h ou no dependncia entre elas, como nas tabelas
de contingncia).
Essas anlises no so exatamente estatsticas, uma vez que no envolvem um valor
de P (probabilidade). No entanto, nas ordenaes, por exemplo, possvel aplicar seus
resultados (eixos) em testes estatsticos e ento se obtm um P.
Na estatstica univariada, o n amostral ideal varia muito dependendo do conjunto de
dados e da anlise a ser empregada, sendo n = 30 considerado um mnimo para alguns
autores e em alguns programas (softwares) geralmente o tamanho amostral mnimo
para que o teste seja rodado de n = 5, o que no significa que uma quantidade
aceitvel para se ter um resultado estatisticamente importante. J com relao ao
nmero mnimo de observaes para se aplicar uma anlise multivariada, Sartorio
(2008) discorre que, em tcnicas de ordenao, preciso n - p > 50, ou seja, o nmero
total de observaes menos o nmero de variveis deve ser maior que 50 observaes.
J em tcnicas de comparao de grupos (MANOVA, Anlise Discriminante), preciso
considerar o n de cada grupo, que no pode ser inferior a 20.
Considerando essa regra do n p > 50, em uma tabela de dados para anlise
multivariada, deve haver muitos objetos para poucos descritores, ou seja, o formato da
tabela ideal o mais retangular possvel, quanto mais repeties melhor.
Nas anlises multivariadas, exigida a normalidade (distribuio normal multivariada ou
multinormal) quando envolve testes como Pearson (Fig. 21). Por isso, costuma-se fazer
a estandardizao e a transformao na planilha de dados originais antes de aplica-la
a tais anlises. Essa normalidade geralmente ignorada. Embora haja vrios testes
(como o de Doornik & Hansen) para calcula-la, estes so conflitantes e ainda no se
chegou a um consenso. Ento, ao menos preciso testar a normalidade individual de
cada varivel, embora nem sempre isso garanta a multinormalidade.

42
Figura 21 - Comparao entre a normalidade univariada e a multivariada. O mais prximo que
se pode visualizar de uma distribuio multivariada na verdade uma bivariada (sino 3D).

(Adaptao de imagens: Joo da Mata)


Muitos dos clculos de multivariadas envolvem medidas de distncia multivariada. Essa
distncia pode ser calculada de vrias formas, similarmente anlise univariada. A mais
importante delas a distncia euclidiana (Fig. 22).
Figura 22 Distncia euclidiana em um espao tridimensional.

(Fonte: GOTELLI; ELLISON, 2011)


A distncia euclidiana e algumas outras so sensveis aos valores zero, juntando os
duplos zeros. Portanto, ela mais indicada para variveis numricas (quantitativas)
contnuas. Para dados de contagem com muitos zeros, por exemplo, essa distncia gera
srios problemas. H vrias outras distncias que tambm podem ser usadas (Tab. 8).

43
Tabela 8 Medidas de distncia (dissimilaridade) mais comumente usadas por eclogos.

(Fonte: GOTELLI; ELLISON, 2011)

Algumas variveis devem ser evitadas para anlises multivariadas, como a


produtividade, a diversidade, a equitabilidade etc. Isso pelo fato de serem variveis
compostas, que resultam do efeito de vrias variveis somadas, alm do mais dois
pontos terem a mesma diversidade no quer dizer que sejam semelhantes, pois o que
importa quais espcies os compem (MAGNUSSON; MOURO, 2005). No entanto,
muitas vezes, eliminados uma varivel pelo simples fato de ela estar diretamente
correlacionada com outra; isso pode mascarar padres primrios e gerar uma ateno
a padres secundrios; ao contrrio, manter tal varivel pode supervalorizar um padro
bvio, embora primrio. Em resumo, a figura do pesquisador precisa predominar nesse
momento de anlise de resultados, principalmente quando se usa uma estatstica
multivariada. melhor usar bem a estatstica univariada do que usar de forma
equivocada a multivariada. Na verdade, muitas pesquisas publicadas nem apresentam
o n amostral mnimo para a execuo dessas anlises.

44
H vrios 3 tipos de anlises multivariadas:
a) Comparao de mdias multivariadas (MANOVA, MANCOVA, PERMANOVA,
ANOSIM)
b) Classificao (anlise de agrupamento e anlise discriminante)
c) Ordenao
* Anlise indireta de gradiente (PCA, AF, AC, PCoA, MDS, NMDS)
* Anlise direta de gradiente (RDA, CCA e CCorA)

Tanto as tcnicas de classificao como as de ordenao utilizam matrizes (Fig. 23).


Figura 23 Resumo esquemtico das tcnicas multivariadas de agrupamento e ordenao.

(Fonte: LEGENDRE; LEGENDRE, 1998 Adaptado).

5.2 Comparao de mdias multivariadas


Quando se tem variveis contnuas independentes e duas ou mais variveis contnuas
dependentes relacionadas entre si e se quer testar uma possvel diferena entre mdias
de uma varivel categrica (fatores como pontos de coleta ou perodos), necessrio
fazer uma comparao de mdias multivariadas, MANOVA (Quadro 3). A inteno
testar grupos (mdias), por exemplo, em uma pesquisa experimental (experimento
controlado). Surge ento um problema. Igualmente ANOVA, os pressupostos para tais
anlises a independncia dos dados, a homocedasticidade e a normalidade. No
entanto, diferentemente da estatstica univariada, na estatstica multivariada esse
clculo se torna bem mais complexo (reveja a discusso anterior sobre
multinormalidade).

45
Quadro 3 Testes utilizados para comparao de mdias univariadas e multivariadas.
NMERO DE
MDIAS (=N DE
UNIVARIADA MULTIVARIADA
NVEIS DOS
FATORES)
Independncia dos dados
Independncia dos dados Igualdade de matrizes de
covarincia / esfericidade
Igualdade de varincias
(teste M de Box, que a razo
Pressupostos (Fmax, Bartlett, Levene)
de verossimilhana, extenso
Normalidade (G1 e G2, KS, do de Bartlett)
Lilliefors, Shapiro-Wilk)
Multinormalidade (teste de
Doornik & Hansen)
2 mdias Teste T Teste T2 (Hotelling)
ANOVA MANOVA
(comparam-se mdias) (comparam-se centroides)

SQ (soma dos quadrados) Matriz SQPC (soma dos


quadrados e produtos
cruzados)

SQ dentro
SQPC dentro (matriz E)
> 2 mdias SQ entre
SQPC entre (matriz H)

Estatstica F (resultado)
4 estatsticas (semelhantes)
- Lambda de Wilk
- Trao de Pillai (mais sensvel)
- Trao de Hotteling-Lawley
- Maior raiz de Roy

Ps-testes:
Ps-testes:
- Tukey
- Teste T2 corrigido por
- LSD (teste T) Bonferroni (intervalos
- Bonferroni simultneos)
- Anlise discriminante
(Fonte: GOTELLI; ELLISON, 2011 - Informaes)

46
Da mesma forma que para a ANOVA existe uma variao que chamamos de ANCOVA,
para a MANOVA tambm existe a MANCOVA. Na MANCOVA, as variveis
dependentes (relacionadas entre si) sofrem influncia tanto do fator (varivel
independente categrica) como de uma outra varivel (independente contnua).
A ANOSIM (anlise de similaridade) uma alternativa no-paramtrica para a
MANOVA, porm s serve para delineamentos de 1 fator ou de 2 fatores aninhados. A
PERMANOVA (MANOVA por permutao) semelhante ANOSIM, porm uma
anlise mais robusta.
Quando o foco da pesquisa mais confrontar as variveis do que testar grupos, faz-se
uma anlise multivariada de classificao (que classifica descritores ou objetos em
grupos) ou de ordenao (que ordena descritores ou objetos em gradientes). o que
veremos a partir de agora.
Na classificao, os dados so geralmente discretos, enquanto que, na ordenao, so
geralmente contnuos.

5.3 Classificao
H dois tipos de classificao: anlise de agrupamento e anlise discriminante.

5.3.1 Anlise de agrupamento


A anlise de agrupamento (ou de cluster, de conglomerados) uma tcnica multivariada
em que os descritores (modo Q) ou objetos (modo R) so subdivididos em grupos
conforme sua similaridade ou dissimilaridade. Esses grupos so formados com base em
dados contnuos, binrios, discretos ou qualitativos. Tais grupos, aps evidenciados por
essa tcnica, devem ser explicados pelo eclogo. Uma anlise de agrupamento uma
anlise indireta de gradiente, sendo que sua funo principal evidenciar grupos,
enquanto que a ordenao mais usada para plotar gradientes.
Mais frente, falaremos dessas tcnicas multivariadas de ordenao, que geralmente
so preferidas na Ecologia em detrimento das anlises de agrupamento. Assim, embora
falemos agora sobre este tipo de anlise, tambm chamado de cluster (do seu nome
em ingls, cluster analysis), na ecologia, ela ultimamente tem cado em desuso, pois as
tcnicas de ordenao so tidas como mais eficientes e geram um resultado semelhante
ao da anlise de agrupamento. Acontece que a anlise de agrupamento ideal para
estudos evolutivos (como nos programas de sistemtica filogentica, de taxonomia),
porm, para estudos de comunidades ecolgicas, so mais adequadas as tcnicas de
ordenao.
No entanto, Legendre e Legendre (1998) lembram que o fato de, na ordenao, serem
considerados somente os 2 ou 3 primeiros eixos, h um comprometimento na formao
dos grupos (classificao), o que poderia ser resolvido por uma anlise de agrupamento.
Por conta disso, em alguns casos importante executar tambm a anlise de cluster,
que, para estes autores, s frgil quando se usa a aglomerao por ligao simples
sem se utilizar tambm uma tcnica de ordenao.

47
Segundo Nonato (2015), a anlise de agrupamento deve considerar:
a) Medidas de similaridade ou distncia
Podem ser usadas quaisquer medidas, como Jaccard, Sorensen (Dice), para dados
qualitativos (binrios), ou Distncia Euclidiana, Bray-Curtis (para dados quantitativos,
contnuos). O coeficiente de Sorensen o mais utilizado para dados binrios porque
enfatiza as coincidncias e as espcies dominantes.
b) Algoritmo de aglomerao
UPGMA (mtodo da associao mdia, para amostras balanceadas), WPGMA (mtodo
dos pesos proporcionais, para amostras no-balanceadas), Wards (mtodo da varincia
mnima), Neighbor-joining (mais parcimonioso, usado na Filogenia). Alm desses, h o
mtodo de ligaes simples, que apresenta fragilidades, e o mtodo de ligaes
completas.
Conforme Gotelli e Ellison (2011), uma anlise de agrupamento pode ser descrita com
base em dois critrios:
a) Aglomerativas x Divisivas
Nas aglomerativas, os objetos comeam separados e vo sendo agrupados conforme
as semelhanas at ficarem em um s grupo maior. Geralmente formam-se muitos
grupos com poucos objetos em cada.
Nas divisivas, os objetos comeam juntos em um s grupo e vo sendo separados
conforme as diferenas at que cada um forme um grupo individual. Geralmente,
formam-se poucos grupos, com muitos objetos em cada.
O resultado final semelhante em ambos os mtodos.
b) Hierrquicas x No-hierrquicas
Nas hierrquicas, h uma hierarquia externa a priori, como o sistema de Lineu (Fig. 24).
So as mais usadas.
Figura 24 Hierarquia do sistema de classificao de Lineu.

Nas no-hierrquicas, h a formao livre de grupos, como na ordenao. Um mtodo


bem conhecido o agrupamento por k-mdia (k-means), em que preciso pr-
determinar a quantidade de grupos desejados, e o software ajusta os objetos em um
centroide para que minimize a somatria do quadrado das distncias entre tais objetos.
Para diminuir a subjetividade, pode-se definir o nmero de grupos ideal por meio da
frmula de Hartigan (1975 apud GOTELLI; ELLISON, 2011).
No exemplo abaixo (Fig. 25), por meio de uma tabela de dados de espcies encontradas
em cada um dos pontos amostrados, foi produzido um dendrograma que evidenciou
alguns grupos.

48
Figura 25 Exemplo de dendrograma obtido com anlise de agrupamento. O coeficiente usado
foi o de Bray-Curtis e o algoritmo de aglomerao foi o UPGMA. possvel observar que as
reas B e E formaram um grupo bem semelhante (cerca de 80% de semelhana), e que a rea
C se mostrou bem diferente das demais em relao s espcies, com uma semelhana de pouco
mais de 11%.

Nas anlises de agrupamento, testes de Monte Carlo e bootstrap so usados para testar
a significncia estatstica da diferena entre grupos. possvel tambm fazer um teste
de coeficiente de correlao cofentica, que a comparao entre a matriz de
similaridade original e a matriz produzida com base no dendrograma escolhido.
Para se obter uma interpretao ecolgica mais apurada, as parties do agrupamento
de uma matriz podem ser usadas para comparar com a outra, por regresso, correlao
ou algum outro teste estatstico. Esse tipo de procedimento tambm pode ser aplicado
nas ordenaes (vista mais adiante).

5.3.2 Anlise Discriminante


Essa anlise tambm denominada anlise de funo discriminante (DFA, AFD) deve
ser evitada para formar grupos, a menos que seja utilizada randomizao (como
jacknife); caso contrrio, ela induz formao de grupos, por meio do ajuste dos
resultados atravs de uma relao forada entre variveis explanatrias e resposta.
A anlise discriminante pode ser simples (ADS, SDA), com 2 grupos, ou mltipla (ADM,
MDA), com mais de 2 grupos.
Diferentemente da anlise de agrupamento, a anlise discriminante uma tcnica de
classificao usada geralmente para definir / interpretar a qual grupo (j determinado a
priori por uma anlise de agrupamento ou ordenao) uma amostra pertence (ou se
adequa mais). Uma MANOVA usada para testar a significncia da incluso no grupo
(Fig. 26).

49
Figura 26 Exemplo de representao grfica de uma anlise discriminante. O resultado pode
ser apresentado em forma de tabelas, semelhante ao de uma ANOVA, ou em forma grfica.

(Fonte: SCHWARDT; PREEZ, 2015 - Adaptado)


Segundo Valentin (2000), suas funes so:
(a) Atribuir uma amostra isolada a um ou outro grupo, conhecendo suas caractersticas
ecolgicas (valores dos descritores) e a funo discriminante;
(b) Calcular uma distncia D2 entre dois grupos de amostras, chamada distncia
generalizada de Mahalanobis, e verificar se ela significativa;
(c) Determinar a percentagem explicativa de cada varivel ambiental na separao de
dois grupos de amostras.

5.4 Ordenao
As tcnicas de ordenao (anlise de gradiente) projetam (plotam) em um espao
reduzido (bidimensional) os objetos ou os descritores, enfatizando os gradientes,
conforme sua distncia. Caso a ordenao evidencie grupos, da mesma forma que nas
tcnicas de agrupamento, preciso que o eclogo explique que grupos so esses, que
fatores os principais eixos da ordenao representam.

Algumas das tcnicas de ordenao tm a finalidade de reduzir o nmero de variveis,


transformando vrias delas em poucos fatores (eixos), como o caso da anlise fatorial
(AF, AFC, AFP) e da anlise em componentes principais (ACP). Esses eixos so novas
variveis, que resumem as variveis originais e por isso so de mais fcil interpretao.

O eixo medido em escores-Z (coordenada do objeto naquele eixo), calculados pela


frmula, com base nas variveis (Y). Os nmeros na frmula abaixo so os coeficientes
(cargas, loadings), que juntos formam o autovetor do eixo.

Z1 = 0,21Y1 + 0,40Y2 0,88Y3 + 0,02Y4 + 0,52Y5 + 0,58Y6

50
Desta forma, uma ordenao tem a finalidade de pelo menos uma das funes: reduzir
o nmero de variveis originais, evidenciar padres ou separar amostras.

A ordenao pode ser classificada em dois tipos: (a) anlise indireta de gradiente e (b)
anlise direta de gradiente.

5.4.1 Ordenao por anlise indireta de gradientes

Apresenta padres de ordenao explicados por variveis ambientais no analisadas


diretamente, ou seja, so tcnicas que evidenciam at padres que no imaginamos
inicialmente. Nesses tipos de anlise, no h variveis dependentes e independentes,
sendo feita ento uma explanao geral das variveis. Tais anlises so:
Anlise em Componentes Principais;
Anlise de Correspondncia;
Anlise de Coordenadas Principais;
Escalonamento Multidimensional.
Para se obter uma interpretao ecolgica mais apurada, os eixos da ordenao so
usados para comparar com a outra, por regresso, correlao ou algum outro teste
estatstico.

5.4.1.1 Anlise em Componentes Principais (ACP, PCA)


uma anlise paramtrica, baseada em Pearson. Possui autovetores (eixos, fatores,
componentes) e autovalores (tamanho de cada eixo, valor usado para determinar, por
proporo, a % de explicao de cada um desses eixos). A ACP foi a primeira anlise
baseada em vetores eigen (autovetores) e o mais importante tipo de ordenao.
Ela exige normalidade (s vezes a transformao j est embutida no algoritmo usado
pelo programa) e padronizao (geralmente j vem no algoritmo). A normalidade de
todos os descritores teoricamente exigida, porm se alguns no forem no h muito
problema para a anlise. A padronizao (estandardizao) evita que as variveis com
valores altos sejam automaticamente as mais explicativas.
Uma vez que a PCA trabalha com distncia euclidiana, deve ser usada somente com
dados quantitativos. A ACP no deve ser usada para dados puramente qualitativos (s
se for codificado, como nos binrios, ou transformados em classes, mas a tem de usar
Spearman e mesmo assim no to aconselhvel).
uma anlise em modo R (plota os objetos, que ficam geralmente nas linhas da tabela
de dados), evidenciando a distncia entre eles e no entre os descritores. Caso sejam
plotados os descritores junto com os objetos, a relao entre descritores e entre estes
e os eixos dada pelos ngulos formados e no pela distncia entre eles.
Para dados de contagem em que todas as espcies esto presentes em quase todas
as amostras (variando somente na quantidade), pode-se usar ACP porm onde h
muitos zeros, usar anlise de correspondncia (AC) em vez de ACP. Segundo
Magnusson e Mouro (2005), esses zeros levam a longos gradientes, causando o efeito
em arco (ferradura), que ser citado quando abordarmos a Anlise de Correspondncia
(AC, AFC). Alm da possiblidade do uso da AC para tais dados, algumas outras
alternativas tambm foram criadas, como a DCA (anlise de correspondncia
destendeciada), que tambm ser discutida mais adiante.
Um outro motivo que impossibilita uma ACP em modo Q o fato de os descritores so
diferentes uns dos outros, no possvel se estandardizar um vetor de objetos.
Em uma ACP, h n objetos i, p descritores j, p componentes principais k (que
tambm podem ser representados pela letra C ou Z). O valor de n no pode ser igual

51
nem menor que p (tabela tem de ser retangular), porm isso afetaria mais os ltimos
eixos, que so descartveis, por terem uma importncia residual em termos de varincia
dos dados.
H dois tipos de matrizes que podem ser utilizadas em uma ACP:

a) Matriz de disperso C (covarincia original de descritores)


A soma dos autovalores a soma das varincias s2. Usada com dados originais, quando
os descritores tm a mesma ordem/escala de magnitude e mesma unidade, ou quando
os dados foram transformados e estandardizados previamente, ou quando se quer
inserir dados transformados mas preservar as grandezas (sem estandardizar).

b) Matriz de correlao P (covarincia de descritores estandardizados, tornando-se


correlao)
A soma dos autovalores o nmero de descritores p. Usada quando os descritores
tm magnitude e unidades diferentes e desejvel que haja uma estandardizao. Este
mtodo far uma estandardizao automtica dos dados originais.

A ACP resume variveis originais correlacionadas em novas variveis (eixos) no


correlacionadas. Quando no houver correlao entre as variveis originais, de nada
servir a ACP, ento torna-se melhor trabalhar com as variveis originais.
O eixo Z1 o primeiro eixo ou eixo maior, e explica a maior parte da varincia dos dados;
esse eixo construdo no sentido de maior variao das variveis originais (Fig. 27).

Figura 27 Processo de construo de um eixo principal que resume 2 variveis originais, para
efeito de entendimento, j que visualmente no possvel explicar com mais de duas variveis
originais ao mesmo tempo, embora matematicamente a ACP normalmente funcione com esse
tipo de situao.

(Fonte: GOTELLI; ELLISON, 2011)

52
Os eixos (ortogonais entre si) so novas variveis fantasmas (variveis-chave) sem
correlao, o que permite serem usadas em regresso mltipla, ANOVA (no
apresentam multicolinearidade).
O autovetor do eixo formado por coeficientes (cargas, factor loadings, saturaes)
para cada varivel naquele eixo. A coordenada de cada objeto nesse eixo, calculada
por meio da frmula com as cargas do autovetor, so os scores.
Uma varivel (descritor) s pode ser considerada importante para o eixo se 2/m,
sendo d a coordenada dessa varivel no eixo e m o nmero de variveis na ACP.
Uma ACP no mostra a relao entre variveis biticas e abiticas, e no se deve
colocar nela espcies, pois muito afetada pelas raras (tabela com muitos zeros) e
eliminar as espcies raras muito subjetivo.

Significncia dos eixos (quantos eixos devem ser considerados)


Para decidir quantos eixos devem ser includos nos resultados, considere seus
autovalores; normalmente so considerados no mximo at o 3 eixo, mas preciso
fazer uma deciso minimamente subjetiva. Uma opo usar o critrio broken-stick, por
permutao (randomizao por Monte Carlo, Jacknife, Bootstrap) dos dados originais,
descobre-se o decaimento aleatrio (modelo nulo) dos autovalores, que progressivo.
Esse decaimento diferente do decaimento dos autovalores fatoriais, em que ocorre
um decaimento abrupto a partir de certo ponto, ficando abaixo do valor aleatrio (Fig.
28).
Figura 28 Decaimento dos autovalores para dados aleatrios (A) e dados com eixos I e II
significativos (B). Observe que, a partir do 3 eixo o valor fica abaixo do aleatrio, sendo assim
desconsiderado.

(Fonte: VALENTIN, 2000)

H outros critrios possveis, como: scree-plot (montanha-abaixo, inclui-se at o


primeiro autovalor da regio vertical do grfico) ou pelo critrio da raiz latente / Keiser-
Guttman (consideram-se somente os eixos com autovalores >1, que a mdia dos
autovalores quando se usa uma matriz de correlao). Uma outra forma por meio do

53
diagrama de Shepard (usando, por exemplo, o teste de esfericidade de Bartlett), porm
exige algo raro: normalidade de todos os descritores.
Os valores (cargas) que aparecem para cada varivel em cada componente so usados
para calcular o autovetor do componente (frmula apresentada na explicao de
ordenao). Alguns autores escolhem um corte para interpretar o eixo (os 3 maiores
positivos e os 3 maiores negativos; os maiores que 0,70 etc) mas h controvrsia se
deve haver corte. Uma coisa certa: se for usar o componente para testar hiptese
(ANOVA, regresso), tem de usar todos.
O tamanho do eixo (componente) o autovalor, que a proporo da varincia
explicada por cada componente.
Ao final da ACP, aconselhvel a aplicao de um teste de significncia baseado em
modelo nulo (citado acima). Variveis que ficarem de fora (por algum motivo), podem
ser inseridas mo nos resultados pelas suas coordenadas.
Abaixo, colocamos como exemplo um resultado de ACP (Fig. 29), feita com os dados
coletados em duas represas, A e B (Tab. 9).
Tabela 9 Para caracterizar o ambiente em duas represas (A e B), foram feitas medies de
variveis limnolgicas em 25 pontos, alguns deles na represa A e outros na represa B. As
variveis medidas foram: condutividade eltrica (Cond, em S/cm), alcalinidade (Alc, em
mgCaCO3/L) e alguns nutrientes (em g/L): o nitrotnio inorgnico (N_in), o nitrognio total (N_t),
o ortofosfato (PO4) e o fsforo total (P_t).
Ponto Cond alcal Ninor Ntot Porto Ptot
A 1817,1 157,3 63,2 598,2 12,6 33,1
A 341,1 173,8 73,7 417,7 10 16,3
A 330,3 165 73,7 588,7 11,3 29,9
A 1773 148,5 84,2 598,2 10 29,1
A 756,9 150,7 94,7 498,45 8,7 17,9
A 150,3 11 94,7 598,2 11,3 37,1
A 55,8 17,6 147,2 826,2 10 36,3
A 1207,8 140,8 168,2 569,7 23 33,9
A 230,4 173,8 336,2 484,2 6,1 12,3
A 84,6 53,9 346,7 579,2 7,4 17,9
A 200,7 144,1 399,2 503,2 4,8 12,3
A 132,3 82,5 577,7 854,7 20,4 31,5
A 270,9 119,9 609,2 892,7 39,9 47,5
A 345,6 196,9 630,2 740,7 4,8 8,3
A 1163,7 125,4 724,7 1139,7 124,4 109,1
A 227,7 106,7 777,2 1073,2 49 69,9
B 48,33 21,12 215,471 491,724 21,648 17,756
B 62,352 29,15 280,193 568,712 24,755 19,3
B 40,5 26,301 424,148 973,64 16,032 18,668
B 109,296 36,85 508,978 826,276 11,716 21,572
B 88,884 34,1 514,826 649,69 12,678 18,124
B 96,57 31,625 604,003 1065,73 22,727 36,012
B 99,216 37,675 680,611 998,587 15,434 17,284
B 133,83 27,5 684,296 1273,12 44,775 53,988
B 135,927 42,35 999,443 2062,51 33,79 66,988

54
Figura 29 Exemplo de ACP feita no PC-Ord. Por meio do critrio de Brocken-stick, foram
considerados somente os 2 primeiros eixos. O eixo 1, que responde por 49,8% da varincia dos
dados, foi mais influenciado pelos valores de nitrognio, enquanto que o eixo 2 (responsvel por
29,7% da varincia) sofreu mais influncia da condutividade eltrica e da alcalinidade. A
separao entre as represas A e B ficou mais bem evidente no eixo 2. Desta forma, pode-se
concluir que a condutividade eltrica e a alcalinidade so os principais responsveis pela
diferenciao das duas reservas.

5.4.1.2 Anlise Fatorial

Igualmente ACP, reduz o nmero de variveis, porm de forma diferente; nela, usam-
se somente as variveis com fatores perceptveis por trs delas, enquanto que na ACP
a reduo por criao de novas variveis fantasmas (eixos, componentes principais).

Uma vez que trabalha com distncia euclidiana, deve ser usada com dados
quantitativos.

Os dados de uma anlise fatorial so de difcil interpretao e dependem de mtodos


de rotao subjetivos.

H 3 tipos de anlise fatorial: anlise fatorial stricto sensu (AF), anlise fatorial de
correspondncia (AFC) e anlise fatorial de postos (AFP). Originalmente, a anlise de
correspondncia foi criada para tabelas de contingncia, e se baseia nas frequncias.

5.4.1.2.1 Anlise Fatorial Stricto Sensu (AF)


Baseia-se nas comunalidades (comunidades, semelhanas) entre os fatores (variveis).
As comunalidades devem ser acima de 0,5 para serem consideradas significativas. As
unicidades (diferenas) no so relevantes (Fig. 30). Foi muito utilizada pela Psicologia.
Legendre e Legendre (1998) classificam a anlise fatorial em exploratria (resume os
descritores covariantes em poucos fatores) e confirmatria (testa o efeito de um
descritor em um fator especfico), porm lembram que ela no utilizada em Ecologia
(apenas em cincias sociais), exceto raros casos de uso da anlise fatorial exploratria;
isso se deve ao fato de a anlise fatorial considerar apenas as covarincias entre
descritores, ou seja, apenas fatores que explicam a variao de mais de um descritor.
Isso significa que a AF tenta encontrar fatores no perceptveis (desconhecidos) que
so responsveis pela variao de um conjunto de descritores ao mesmo tempo. J a
ACP considera a varincia geral e tenta resumir vrios descritores em fatores (eixos).

55
Figura 30 Formao de fatores comuns por meio de uma AF. Os fatores nicos so
descartados.

(Fonte: LEGENDRE; LEGENDRE, 1998)

O objetivo da AF no plotar um mapa de distncia entre descritores e sim gerar uma


frmula em que os descritores (y) so funo dos fatores (f), como em uma regresso:

y1 = 10.4 x f1
y2 = 1.5 x f1 0.3 x f2
y3 = 4.0 x f1 1.7 x f2
y4 = 6.1 x f2
y5 = - 9.3 x f2

Na realidade, o que se costuma usar de AF em Ecologia a rotao varimax, por


exemplo, na ACP (Fig. 31). Segundo alguns eclogos, isso facilitaria, s vezes, a
interpretao dos resultados. H vrias outras rotaes possveis em uma AF:
quartimax, equimax, biquartimax, oblimax, quartimin, oblimin, covarimin, biquartimin,
binormamin, radial, promax, vetores prolongados.
Figura 31 Aplicao da rotao varimax a uma ACP ( esquerda, a ACP original e direita a
ACP com eixos rotacionados).

(Fonte: LEGENDRE; LEGENDRE, 1998)

56
5.4.1.2.2 Anlise Fatorial de Correspondncia (AFC)
Tambm chamada de anlise de correspondncia (AC, CA), anlise de tabela de
contingncia, anlise RQ, mdias recprocas (RA).
Semelhante ACP (com autovetores e autovalores), porm pode plotar objetos e
descritores ao mesmo tempo, em um bi-plot (Figs. 32 e 33). Serve para qualquer tipo de
dados (qualitativos, quantitativos, binrios) e pode incluir espcies raras, pois os dados
precisam ser homogneos mas no exige que haja normalidade. A homogeneidade
pode ser advinda do fato de serem de mesma natureza como nas tabelas de
contingncia, ou transformados, ou estandardizados ou colocados em classes
ordenadas. Esta anlise pode ser feita com dados de contingncia (contagem ou
binrios), sendo uma tabela do tipo espcie x local; na verdade, inicialmente foi pensada
para esta finalidade, at porque nesse tipo de tabela ocorrem muitos zeros, o que
inviabiliza uma ACP. Ela pode tambm ser feita com dois conjuntos de descritores
(biticos e abiticos), porm o mais adequado neste caso uma anlise de
correspondncia cannica (CCA), feita com a agregao da ordenao cannica AFC.
Enquanto que a ACP geralmente feita com distncia euclidiana, a AFC feita com
distncia qui-quadrado (frequncias) e padronizar os objetos pela amplitude
(MAGNUSSON; MOURO, 2005).
Figura 32 - Exemplo de Anlise de Correspondncia (AFC). Uma espcie foi analisada em 100
locais, sendo estes agrupados em frio (1), mdio (2) e quente (3), conforme a temperatura
medida. A presena da espcie em questo foi codificada como ausente/rara (0), abundante (+)
e muito abundante (++). Os resultados da AC so mostrados com os 2 primeiros eixos (os que
mais explicam a variao dos dados, neste caso, somaram 70,1%). Uma AC pode ser plotada
com os dados das linhas no centro (a), escalonamento tipo I, ou os dados das colunas no centro
(b), escalonamento tipo II; isso no interfere no resultado. Percebe-se que as maiores
abundncias esto ligadas aos locais mais frios.

(Fonte: LEGENDRE; LEGENDRE, 1998)

57
Figura 33 Exemplo de anlise de correspondncia (CA). (A) locais, (B) espcies e (C) bi-plot
de locais e espcies.

(Fonte: GOTELLI; ELLISON, 2011)

A distribuio das espcies para esta anlise deve ser unimodal (em forma de sino) e
quase normal. Esses dados de distribuio de espcies ao longo de gradientes
ambientais, que so unimodais com um timo e os extremos, costumam apresentar o
chamado efeito em arco (curva, ferradura, Guttman) e alguns eclogos preferem
elimin-lo (linearizando os dados), o que se denomina de "detrending"
(destendenciamento).
Antigamente, essa correo era feita pela DCA (anlise de correspondncia
destendenciada), porm isso foi criticado e desaconselhvel, uma vez que modifica
muito as distncias originais, distorcendo demais a ordenao em funo dessa
correo de arco.
Na verdade o uso de distncia qui-quadrada para espcies distribudas de forma
unimodal que gera o efeito de arco, como na CA. De fato, quase todas as distncias,
nessas condies, geram esse efeito, mas h algumas distncias alternativas, que so
aconselhveis para corrigir o problema.
A bondade de ajuste usada para testar o ajuste da CA.

5.4.1.2.3 Anlise Fatorial de Postos (AFP)


uma ACP com base em Spearman (no-paramtrica) para dados no-normais ou
quando so ordinais (postos).

58
5.4.1.3 Anlise em Coordenadas Principais (PCoA)
semelhante ACP, porm, segundo Magnusson e Mouro (2005), com o uso de
outros tipos de distncia (em vez da distncia do coeficiente de correlao de Pearson)
e com a matriz de associao transformada para possuir propriedades mtricas. Desta
forma, serve tambm para dados para os quais a PCA no se aplica: binrios, genticos
(distncia entre bandas de eletroforese, por exemplo), ou seja, para dados de qualquer
tipo. Na verdade, no s a PCoA mas tambm a anlise de correspondncia (CA) e o
escalonamento multidimensional no-mtrico (NMDS) servem para esse tipo de dados.
importante notar que uma PCoA usando distncia euclidiana equivale a uma ACP, e
usando distncia qui-quadrado equivale a uma CA.
A PCoA substitui a PCA quando os descritores no so quantitativos ou quando h
muitos duplos-zeros. Paramtrica (em contraste com a MDA ou ADM, vista mais
adiante, que no-paramtrica). Diferentemente da PCA, no serve para mostrar a
relao entre descritores e eixos, s plota os objetos (Fig. 34).
Figura 34 Exemplo de PCoA. Com dados de Marcelino Ramos - RS, em 25 reas amostrais
com rvores adultas e em 20 reas com rvores (plntulas) regenerantes, foi analisada a
abundncia das espcies, a partir de uma matriz de abundncia de cada componente,
empregando-se o ndice de similaridade Bray-Curtis entre unidades amostrais. A finalidade era
averiguar uma relao entre as abundncias das espcies das duas fitofisionomias. Aps a
PCoA, que mostrou a separao das reas conforme sua composio, foi utilizado o teste de
Mantel (9.999 iteraes) com a finalidade de comparar as similaridades entre ambas as matrizes
e verificar se houve associao entre elas, esperando-se encontrar uma relao de dependncia
derivada do componente regenerante para o adulto, porm no foi constatada essa similaridade,
confirmando a separao apontada pela PCoA (r= 0,19; p = 0,11).

(Fonte: LEYSER; ZANIN; BUDKE; MLO; HENKE-OLIVEIRA, 2012)

5.4.1.4 Escalonamento Multidimensional (MDS) e Escalonamento


Multidimensional no-mtrico (NMDS)
O escalonamento multidimensional (MDS) usado para plotar objetos em termo de
distncia, quando h muitos dados faltando (matriz no-simtrica) ou quando o efeito
das variveis ambientais sobre as biolgicas no linear). Como no produz

59
autovetores, pode ser rotacionado e gerar vrios outros resultados. A MDS capaz de
evidenciar padres ecolgicos no imaginados pelo eclogo (Fig. 35).
Figura 35 - Exemplo de ordenao MDS, mostrando uma sequncia de 19 locais de coleta de 3
espcies fictcias, imaginadas com um gradiente de distribuio ao longo desses 19 locais. A
anlise, por conta disso, mostrou somente as semelhanas entre os locais 4,5,6 entre si e
14,15,16 entre si, e a diferenciao gradual e sequencial de todos os locais.

(Fonte: LEGENDRE; LEGENDRE, 1998)

O escalonamento multidimensional no-mtrico (NMDS) no tem a inteno de reduzir


o nmero de variveis (nisso difere da PCA, da PCoA, da CA e da AF). A inteno
mostrar a semelhana ou diferena entre objetos ou descritores, pela distncia na
ordenao. No possvel fazer bi-plot, pois cada ordenao tem escala arbitrria e
no-mtrica, no h unidades nos eixos (Fig. 36). A NMDS usa qualquer medida de
distncia, e o estresse a medida de ajuste dessa anlise.
Figura 36 Exemplo de NMDS. (A) ordenao dos locais, (B) ordenao das espcies.

(Fonte: GOTELLI; ELLISON, 2011)

Nas anlises indiretas de gradiente, vistas at agora, no h uma disposio preliminar


de varivel dependente. Se quisermos usar a MDS para testar efeito de uma varivel
explanatria sobre variveis resposta em tais anlises, preciso usar, por exemplo, uma
regresso mltipla multivariada (RMM).

60
5.4.2 Ordenao por anlise direta de gradientes

Nas anlises diretas de gradientes, ocorre a comparao direta entre tabelas ou


matrizes originais de dados (por teste de Mantel ou anlise cannica, por exemplo); h
uma relao de dependncia entre matrizes: dados abiticos com biticos; ou seja,
servem, por exemplo, para descobrir de que maneira as variveis abiticas (que so
independentes) agem sobre as biticas (dependentes).
Os padres de ordenao so calculados a partir de dados biticos e ambientais
concomitantemente, ou seja, quando j sabemos quais so os padres (quem modifica
quem) e queremos averiguar tais padres, tais influncias:
Anlise de Redundncia;
Anlise de Correspondncia Cannica;
Anlise de Correlao Cannica.
No adianta simplesmente utilizar uma tcnica de agrupamento ou de ordenao e
descrever o resultado. preciso fazer uma interpretao ecolgica. Em uma ACP,
possvel ver claramente que descritor foi o principal responsvel pelo eixo 1, por
exemplo; j em uma anlise de agrupamento, no fica claro que descritor separou
aquele grupo, e uma tcnica a posteriori (posterior) deve ser adotada para elucidar isso,
ajudando a entender os grupos formados. H tcnicas matemticas especficas que
podem auxiliar o eclogo nessa interpretao. As principais tcnicas de apoio so:
regresso (simples ou mltipla; linear, no-linear, polinomial, logstica, stepwise), path
analysis (anlise de trilha, de caminho, modelagem por diagramas), comparao de
matrizes (teste de Mantel, teste ANOSIM, anlise Procrustes), quarto-quadrante e
anlise cannica (ordenao + regresso). A regresso mltipla aplicada assim se
denomina regresso mltipla multivariada (RMM) e a regresso entre as variveis
explanatrias e os eixos da ordenao das variveis resposta. O teste da sobreposio
de Procrustes mais poderoso que o de Mantel e faz o alinhamento simultneo em
vrias dimenses.
O teste de Mantel um teste de permutao que serve para examinar o efeito de
variveis contnuas, categricas ou substitudas (dummy) sobre uma matriz de
associao. Obs.: a varivel substituda (dummy variable) uma varivel numrica
contnua que foi categorizada (ex;: compartimentar a varivel pluviosidade em 3
perodos: seco, intermedirio e chuvoso).
Segundo Legendre e Legendre (1998), h 3 objetivos bsicos possveis em uma
interpretao: (1) explanao, (2) previso e (3) predio. A modelagem matemtica
feita com base nestes dois ltimos objetivos, havendo os modelos de previso
(extrapolao futura) e os modelos preditivos (causa/efeito).
Uma diferenciao esquemtica entre anlises indiretas e diretas de gradiente pode ser
observada na Fig. 37.

61
Figura 37 Tcnicas de comparao posteriori direta ou indireta, para interpretao dos
resultados de anlises de agrupamento ou de ordenao. X e Y (tabelas originais de dados), S
(matriz de similaridade) e D (matriz de distncias).

(Fonte: LEGENDRE; LEGENDRE, 1998 Adaptado)

Regresso Mltipla Multivariada (RMM)


As tcnicas puras de ordenao (PCA, FA, PCoA, AC) e classificao so anlises
geralmente explanatrias, descritivas. MANOVA se limita a variveis categricas.
Assim, se a inteno determinar uma relao de variveis independentes sobre
variveis dependentes, preciso executar uma regresso mltipla multivariada (RMM).
H 3 tipos principais de RMM: anlise de redundncia (RDA), anlise de
correspondncia cannica (CCA) e anlise de correlao cannica (CCorA).

62
A anlise cannica um mtodo de comparao direta, ento melhor do que a indireta,
j que maximiza a comparao entre as tabelas originais de dados.
Cnon vem do grego e significa "regra", e na matemtica um termo usado como
representao mais simples de uma frmula ou funo matemtica. Uma matriz de
autovalores a forma cannica de uma matriz de covarincia.
A anlise cannica compara cada descritor resposta (dependente) com a tabela de
descritores explanatrios (independentes), por meio de regresso.
As anlises cannicas podem ser simtricas ou assimtricas. Nas simtricas (anlise
de redundncia, anlise de correspondncia cannica e anlise de correlao
cannica), no h dependncia, enquanto que nas assimtricas (anlises de
discriminante cannicas), h dependncia, a tabela Y dependente e a X
independente; os objetos so divididos em grupos por meio de descritores qualitativos;
so usadas quando a varivel resposta qualitativa.

a) Anlise de redundncia (RDA)


Regresso propriamente dita entre uma ou vrias independentes sobre as dependentes.
Ela deve ser executada, por exemplo, quando se tem dados de locais, espcies (ou
caractersticas de uma espcie) e variveis ambientais. usada com dados
multinormais e medida de distncia euclidiana.
Na anlise de redundncia (RDA), a ordenao como na ACP (paramtrica), porm
vem automaticamente combinada com uma ordenao cannica (Fig. 38); serve para
comparar abiticos com biticos que tm relao linear; redundncia significa "varincia
explicada".
Figura 38 Tri-plot dos dois primeiros eixos de uma Anlise de Redundncia (RDA) da regresso
dos dados de conchas de caramujos (circularidade, proporcionalidade e altura do espiral),
smbolos pretos, contra os dados ambientais (altura do dossel, meses secos, precipitao e
temperatura), smbolos verdes, medidos em 9 pases. possvel notar que as conchas de Belize,
Flrida, Haiti e Bahamas tm maior proporcionalidade e maior altura do espiral do que as dos
outros locais, enquanto as conchas da frica, do Brasil e da Nicargua so mais circulares. O
ngulo das setas indica seu peso sobre os dois eixos.

(Fonte: GOTELLI; ELLISON, 2011)

63
O teste de significncia (hiptese) feito por Monte Carlo.
Obs.: A db-RDA (RDA com base em distncias) um mtodo alternativo, podendo ser
usada para dados no-normais, com qualquer medida de distncia.

b) Anlise de correspondncia cannica (CCA)


Tambm denominada de Anlise de Ordenao Cannica (AOC). a regresso entre
um eixo unimodal das dependentes (ocorrncia ou abundncia de espcies) em relao
a um eixo linear das independentes. Ou seja, os eixos nesta anlise exigem uma
configurao preliminar, o que difere em relao RDA.
Na anlise de correspondncia cannica (CCA), a ordenao como na anlise de
correspondncia (AC, AFC, no paramtrica), por distncia qui-quadrado (frequncias)
e por isso mais complexa; essa AC acoplada automaticamente a uma ordenao
cannica; serve para comparar abiticos com biticos quando estes ltimos se adequam
a uma anlise de correspondncia.
O grfico de uma CCA semelhante ao de uma RDA, a diferena se restringe aos
clculos utilizados internamente no software para realizar a anlise.
Da mesma forma que na RDA, o teste de significncia (hiptese) feito por Monte Carlo.

c) Anlise de correlao cannica (CCorA)


Baseia-se nas relaes lineares simtricas entre as duas variveis. Procura a correlao
mxima entre dois conjuntos de dados (como biticos e abiticos). Correlaes
cannicas so feitas com a raiz quadrada dos autovalores. Difere das demais por no
usar regresso e sim correlao.
Por exigir normalidade e ser complexa, aconselhvel que, em vez de fazer esta
anlise, se compare bitico e abitico por meio de RDA ou CCA.

Exerccios
16) Quando se deve utilizar uma Anlise de Varincia Multivariada (MANOVA)?
17) Pretende-se averiguar as relaes entre 6 variveis ambientais (dados climticos de
pluviosidade, umidade relativa do ar, temperatura, radiao solar, velocidade dos ventos
e presso atmosfrica) em uma regio do interior do Piau. Dispe-se, para tal, de dados
mdios dirios referentes a 1 ano de registro. Que tipo(s) de anlise pode(m) ser
indicado(s) para tal finalidade, sabendo que no h dados faltando e que todos seguem
uma distribuio normal, tendo sido a nica exceo a pluviosidade, porm esta foi
normalizada por transformao?
18) Que tipo de anlise(s) multivariada(s) pode(m) ser sugerido(s) para uma tabela de
dados em que h uma varivel resposta e 3 variveis explanatrias, todas distribudas
de forma normal e com a inteno de saber se as variveis explanatrias influenciam (e
de que forma) na varivel resposta.
19) O que um eixo em uma ordenao? Que atributos ele possui em uma ACP, por
exemplo, e o que significam?
20) Relacione a 2 coluna de acordo com a 1 conforme o tipo de anlise multivariada
por ordenao mais indicada em cada caso, conforme os dados disponveis. possvel
que haja mais de um tipo de ordenao indicado para cada caso. Pode utilizar como
auxlio o guia do Captulo 7.

64
(1) ACP ( ) Uma tabela com dados binrios (no normais) de 20 espcies
(2) AC em 50 pontos e se pretende comparar os pontos.
(3) PCoA ( ) Duas tabelas, uma com dados (normais) de 5 variveis
limnolgicas em 15 pontos e outra com dados de contagem de
(4) MDS
10 espcies de peixe para esses 15 pontos e se deseja saber
(5) RDA que variveis limnolgicas mais interferem nos peixes.
(6) CCA ( ) Uma tabela com 8 variveis da morfologia de 12 espcies de
rvores da caatinga. Alguns dados em algumas dessas
variveis esto ausentes e a inteno comparar as espcies.
( ) Duas tabelas referente a dados de 30 pontos amostrais, uma
tabela com 6 variveis explanatrias no normalizveis e a
outra com dados de presena e ausncia de 8 espcies. A
inteno saber se existe relao entre as variveis biticas e
abiticas.
( ) Pretende-se fazer uma avaliao prvia das 10 parcelas
pesquisadas em uma rea de cerrado (comparao entre as
parcelas) e, para isso, dispe-se de uma tabela contendo
dados quantitativos contnuos de 4 variveis explanatrias com
distribuio que foi normalizada por transformao logartmica.
21) Observe o resultado da ordenao abaixo e o interprete da forma como for mais
apropriada com as informaes disponveis somente por meio da imagem.

(KUMMER; MELO; BARROS; AZEVEDO, 2011)

65
22) Observe o grfico abaixo, resultado de uma anlise de agrupamento (cluster
analysis) e responda ao que se pede com base nele.

(SOARES; LEMOS; KIKUCHI, 2009)


a) O que representam as letras A e B?
b) Qual a similaridade Bray-Curtis entre Corais e Crustceos?
c) Qual a distncia Bray-Curtis entre Briozorios e Millepora alcicomis?
d) Qual a similaridade Bray-Curtis entre A e B?
e) Que tipo de dados deve ter originado a esse grfico?
f) possvel dizer que a anlise foi em modo R ou modo Q? Justifique.

23) Assinale corretamente V (verdadeiro) ou F (falso):


( ) Uma PCoA pode substituir uma CA.
( ) A PCA serve para dados no-normalizveis.
( ) RDA uma boa opo para plotar os locais de coleta de uma matriz binria.
( ) A anlise discriminante serve para testar os grupos de uma PCA.
( ) Em uma PCA, os eixos so ortogonais entre si e nunca relacionados.
( ) Aconselha-se sempre eliminar o efeito em ferradura de dados biticos.
( ) A anlise discriminante relaciona matrizes explanatria e resposta.
( ) Uma PCA pode ser feita para relacionar dados ambientais e biticos binrios.
( ) Uma regresso mltipla multivariada pode relacionar duas matrizes de dados.
( ) sempre necessrio estandardizar os dados antes de se comear uma PCA.

66
24) Utilizando a tabela abaixo, realize uma anlise multivariada apropriada aos dados e
exponha os resultados, sabendo que o intuito foi relacionar os dados biticos aos dados
abiticos. Os locais so X e Y e foram feitas coletas nos meses de janeiro a setembro.
Os dados so quantitativos (contnuos nas variveis explanatrias e discretos nas
variveis resposta).
LOCAL/MS PH Turbidez Nitrato Fosfato Esp_1 Esp_2 Esp_3
X-jan 9,0 47,0 126,5 1,9 100 250 3
X-fev 8,0 57,0 125,0 4,5 120 245 5
X-mar 7,0 62,0 139,0 8,4 130 270 8
X-abr 6,0 49,5 134,5 3,2 105 265 4
X-mai 8,0 32,0 10,5 5,8 70 15 6
X-jun 9,0 34,0 7,0 3,2 74 10 4
X-jul 6,0 37,0 7,0 5,8 80 8 6
X-ago 6,0 37,5 8,0 1,9 81 13 3
X-set 8,0 40,5 10,0 9,7 87 11 9
Y-jan 9,0 22,0 255,0 37 50 480 30
Y-fev 8,0 25,5 265,5 38,3 57 500 31
Y-mar 8,0 17,0 255,0 42,2 40 476 34
Y-abr 6,0 28,5 270,0 47,4 63 502 38
Y-mai 7,0 2,0 30,0 47,4 10 22 38
Y-jun 9,0 2,5 27,5 48,7 11 16 39
Y-jul 8,0 1,5 25,5 40,9 9 18 33
Y-ago 6,0 1,5 30,5 43,5 9 26 35
Y-set 8,0 2,0 25,5 39,6 10 19 32

25) Dada a matriz de distncias abaixo, faa uma anlise de agrupamento construindo
o dendrograma manualmente:

67
CAPTULO 6 Diversidade biolgica e seus
ndices

6.1 Introduo
O conceito de diversidade biolgica pode abranger diversos nveis de abrangncia,
desde a diversidade no nvel gentico at a diversidade de populaes (espcies) e
comunidades / ecossistemas. Certamente a quantidade de espcies de uma regio o
conceito mais populao de biodiversidade, embora seja bem restrito.
Ao se realizar um levantamento de espcies de uma regio, a cada nova investida de
esforo amostral, a quantidade total de espcies encontradas aumenta, no entanto essa
quantidade de novas espcies comea a ter uma queda de crescimento, gerando um
grfico conhecido como curva de rarefao (Fig. 39)
Figura 39 Exemplo de curva de rarefao (curva do nmero cumulativo de espcies); a partir
de determinado ponto, ela pode ser um indicativo de que o n amostral em uma coleta j
suficiente.

(Fonte: VASSILIOU, 2010)

possvel medir a diversidade conforme o nvel taxonmico, por exemplo: diversidade


de espcies de peixes de um rio, diversidade de gneros de borboletas de determinada
mata, diversidade de famlias de plantas encontradas na caatinga, etc.
A diversidade pode ser dividida em alfa, beta, gama e psilon (Fig. 40). A diversidade
alfa (ou diversidade local) a riqueza da comunidade, dentro de um hbitat
homogneo. A diversidade beta (ou diversidade regional) so os gradientes
ambientais, a riqueza entre os hbitats da regio cujas espcies se intercomunicam. A
diversidade gama (ou diversidade geogrfica, do ecossistema) so as paisagens, a
riqueza total, em todos os hbitats da regio cujas espcies se intercomunicam. A
diversidade psilon chamada tambm de biogeogrfica, e representa um nvel ainda
mais amplo / genrico de biodiversidade.

68
Figura 40 Nveis da biodiversidade.

(Fonte: JURASINSKI; RETZER; BEIERKUHNLEIN, 2009)


Agora falaremos de alguns ndices matemticos que so utilizados para descrever uma
comunidade, dando-nos uma ideia de seus atributos de biodiversidade. Eles no so
considerados estatsticos, mas apenas um tratamento numrico para alguns dos dados
coletados. E, como j foi mencionado antes, preciso ter cuidado ao utilizar tais ndices
como variveis em anlises multivariadas, pois s vezes eles so somente variveis
complexas, formadas a partir de outras variveis que j esto na matriz dessas anlises.
Os trs principais atributos de uma comunidade so a riqueza, a equitabilidade e a
diversidade. A riqueza de espcies o nmero de espcies presentes em uma regio.
A equitabilidade, por sua vez, o balano entre as espcies presentes, a abundncia
relativa (Fig. 41). J a diversidade um clculo que leva em conta tanto a riqueza como
a equitabilidade, consideradas ao mesmo tempo.
Figura 41 Esquema representando duas reas com equitabilidades diferentes. Na rea da
direita, a equitabilidade menor, pois h um grande nmero de indivduos (espcimes) de
perereca, provavelmente por conta de algum impacto antrpico.

(Fonte: OLUBUSOLA; ORJI; ADAMS, 2010)

69
6.2 ndices de riqueza
O ndice de riqueza (richness) de Margalef (1958) representado pela letra S. Serve
tambm para calcular as diversidades alfa, beta e gama.
S = (s 1) / ln N
Onde: s = Nmero de total de espcies;
N = Nmero total de indivduos.
Valores maiores que 5,0 significam grande riqueza de espcies.
Como exemplo, observe o inventrio de espcies de uma regio (Tab. 10):
Tabela 10 Nmero de indivduos de cada espcie encontrada em uma regio.
N de
Espcies
indivduos (Ni)
Croton salutares 100
Aloysia virgata 120
Peltrophorum dubium 10
Terminalia triflora 50
Trichilia catiqua 60
Metrodorea nigra 5

Aplicando a frmula:

S = (6 1) / ln 345 = 5 / 5,84 = 0,86 (uma riqueza muito baixa, obviamente).

Alm do ndice de riqueza de Margalef, h vrios outros, como: Chao, ACE, ICE e
Jacknife (GOTELLI; CHAO, 2013).

6.3 ndices de diversidade


Os ndices de Berger-Parker (1970, citado por May, 1975), representado pelo cdigo
BP, de Simpson (1949) e de Shannon (1948) medem a diversidade, com base na
abundncia das espcies componentes da comunidade.
Pelo ndice de dominncia de Berger-Parker, conforme Baumgrtner (2003), h uma
ateno voltada apenas abundncia relativa da espcie mais comum, sendo
negligenciadas as demais. A baixa equitabilidade pode elevar os valores deste ndice.
Embora para May (1975) esse ndice caracterize a distribuio to bem quanto qualquer
outro, e melhor que a maioria, ele de pouco uso, uma vez que despreza as demais
espcies da comunidade.
Segundo Baumgrtner (2003), o ndice de uniformidade de Simpson (D), sensvel s
diferenas apenas entre as abundncias maiores, tem seu valor bastante afetado pelas
espcies raras e costuma ser chamado de nmero efetivo de espcies; sua anlise
simples e o resultado de fcil entendimento.
O ndice de Shannon (H), por usar uma logaritmizao, sensvel tambm s
diferenas entre as abundncias pequenas. Ele amortece o efeito da grande
quantidade de espcies raras.

70
O ndice de Shannon (H) pode considerar propores (abundncia relativa), enquanto
que os demais ndices utilizam como base de clculo os valores absolutos de contagem
(Valentin et al., 1989).
H = - (Pi ln Pi)
Onde:
Pi = Probabilidade de coleta da espcie i na populao (Pi = Ni / N);
Ni = Nmero de indivduos de cada espcie;
N = Nmero total de indivduos;
H = ndice de diversidade de Shannon, em nits/cel (1 nit/cel = 0,693 bit/cel).

Sendo os valores (MARGALEF, 1958):


2,1 nits/ind representando uma alta diversidade;
1,4 a < 2,1 nits/ind representando uma mdia diversidade;
0,7 a < 1,4 nit/ind representando uma baixa diversidade (estgio 1 de sucesso);
< 0,7 nit/ind representando uma diversidade muito baixa.

Os valores em nits/ind so obtidos quando se usa a ase logartmica neperiana; se a


base utilizada for a base 2, o resultado passa a ser em bits/ind, e os valores de referncia
sero os seguintes:
1,5 bit/ind representando uma alta diversidade;
1,0 a < 1,5 bit/ind representando uma mdia diversidade;
0,5 a < 1,0 bit/ind representando uma baixa diversidade (estgio 1 de sucesso);
< 0,5 bit/ind representando uma diversidade muito baixa.

Um valor de H < 1,50 bit/ind significa, para a maioria dos autores, um ambiente
desequilibrado, indicando que h uma espcie com dominncia muito elevada, o que
representa um valor crtico.
Outra opo de referncia por Cavalcanti e Larrazbal (2004), que consideram a
diversidade de Shannon alta quando est acima de 3,0 bits/ind, mdia entre 2,0 e 3,0
bits/ind, baixa entre 1,0 e 2,0 bits/ind e muito baixa quando menor que 1,0 bit/cel.
Considerando o exemplo da Tabela 10, foram feitos os clculos do H (Tab. 11):
Tabela 11 ndice de Shannon (H) para os valores do exemplo da Tabela 10.

Ni Pi lnPi Pi x lnPi
100 0,29 -1,23837 -0,35895
120 0,35 -1,05605 -0,36732
10 0,03 -3,54096 -0,10264
50 0,14 -1,93152 -0,27993
60 0,17 -1,7492 -0,30421
5 0,01 -4,23411 -0,06136 H
345 -1,47441 1,474411

O valor do ndice de Shannon para os dados do exemplo 1,47 nit/ind (= 1,01 bit/ind),
que representam uma mdia diversidade conforme Margalef (1958) e uma baixa
diversidade segundo Cavalcanti e Larrazbal (2004).

71
6.4 ndices de equitabilidade
Para verificar a equitabilidade (ou equidade, ou uniformidade, ou evenness), geralmente
se usa o ndice de Pielou (1966), representado pela letra J; valores variam de 0 a 1,
sendo que os valores altos (acima de 0,50) refletem um equilbrio da comunidade, o que
pode significar serem reas de pouca interveno humana direta.
J = H / ln S
Onde: H = ndice de Shannon (em nits/ind);
S = Nmero total de espcies.
Com os dados do exemplo, tem-se:
J = 1,47 / 1,79 = 0,82 (comunidade com uma boa equitabilidade).
Observe que, embora a riqueza de espcies e a diversidade tenham ficado com um
valor baixo, a equitabilidade assumiu um valor alto.
Alm do ndice de Pielou, h vrios outros ndices de equitabilidade, sendo os mais
importantes: Hurlbert, Heip e Bulla (BEISEL et al., 2003).

As tabelas abaixo auxiliaro nos clculos dos ndices, pois apresenta os valores mais
importantes de ln (Tabs. 12 e 13).
Tabela 12 Valores de ln (logaritmo natural) para os nmeros de 0,0 a 1,0.

0 1 2 3 4 5 6 7 8 9
0.0 -4.61 -3.91 -3.51 -3.22 -3.00 -2.81 -2.66 -2.53 -2.41
0.1 -2.30 -2.21 -2.12 -2.04 -1.97 -1.90 -1.83 -1.77 -1.71 -1.66
0.2 -1.61 -1.56 -1.51 -1.47 -1.43 -1.39 -1.35 -1.31 -1.27 -1.24
0.3 -1.20 -1.17 -1.14 -1.11 -1.08 -1.05 -1.02 -0.99 -0.97 -0.94
0.4 -0.92 -0.89 -0.87 -0.84 -0.82 -0.80 -0.78 -0.76 -0.73 -0.71
0.5 -0.69 -0.67 -0.65 -0.63 -0.62 -0.60 -0.58 -0.56 -0.54 -0.53
0.6 -0.51 -0.49 -0.48 -0.46 -0.45 -0.43 -0.42 -0.40 -0.39 -0.37
0.7 -0.36 -0.34 -0.33 -0.31 -0.30 -0.29 -0.27 -0.26 -0.25 -0.24
0.8 -0.22 -0.21 -0.20 -0.19 -0.17 -0.16 -0.15 -0.14 -0.13 -0.12
0.9 -0.11 -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01
1.0 0.00

72
Tabela 13 Valores de ln (logaritmo natural) para os nmeros de 1 a 200.

0 1 2 3 4 5 6 7 8 9
0 0.00 0.69 1.10 1.39 1.61 1.79 1.95 2.08 2.20
1 2.30 2.40 2.48 2.56 2.64 2.71 2.77 2.83 2.89 2.94
2 3.00 3.04 3.09 3.14 3.18 3.22 3.26 3.30 3.33 3.37
3 3.40 3.43 3.47 3.50 3.53 3.56 3.58 3.61 3.64 3.66
4 3.69 3.71 3.74 3.76 3.78 3.81 3.83 3.85 3.87 3.89
5 3.91 3.93 3.95 3.97 3.99 4.01 4.03 4.04 4.06 4.08
6 4.09 4.11 4.13 4.14 4.16 4.17 4.19 4.20 4.22 4.23
7 4.25 4.26 4.28 4.29 4.30 4.32 4.33 4.34 4.36 4.37
8 4.38 4.39 4.41 4.42 4.43 4.44 4.45 4.47 4.48 4.49
9 4.50 4.51 4.52 4.53 4.54 4.55 4.56 4.57 4.58 4.60
10 4.61 4.62 4.62 4.63 4.64 4.65 4.66 4.67 4.68 4.69
11 4.70 4.71 4.72 4.73 4.74 4.74 4.75 4.76 4.77 4.78
12 4.79 4.80 4.80 4.81 4.82 4.83 4.84 4.84 4.85 4.86
13 4.87 4.88 4.88 4.89 4.90 4.91 4.91 4.92 4.93 4.93
14 4.94 4.95 4.96 4.96 4.97 4.98 4.98 4.99 5.00 5.00
15 5.01 5.02 5.02 5.03 5.04 5.04 5.05 5.06 5.06 5.07
16 5.08 5.08 5.09 5.09 5.10 5.11 5.11 5.12 5.12 5.13
17 5.14 5.14 5.15 5.15 5.16 5.16 5.17 5.18 5.18 5.19
18 5.19 5.20 5.20 5.21 5.21 5.22 5.23 5.23 5.24 5.24
19 5.25 5.25 5.26 5.26 5.27 5.27 5.28 5.28 5.29 5.29
20 5.30

Exerccios
26) Observe o ecossistema abaixo, onde foram coletadas informaes quanto s
espcies de plantas presentes em cada um dos seus hbitats intercomunicantes,
representados pelos nmeros de 1 a 5. As espcies foram representadas por letras.
Considerando essas informaes, responda:

73
a) Qual hbitat apresenta o maior valor de -diversidade?
b) Qual o valor para a -diversidade desse ecossistema?
c) Qual a -diversidade do ecossistema?

27) Ainda considerando o ecossistema da questo anterior, responda ao que se pede,


utilizando os ndices para riqueza de espcies (Margalef), diversidade (Shannon) e
equitabilidade (Pielou):
a) Que hbitat apresenta o maior ndice de riqueza de espcies?
b) Que hbitat possui o maior ndice de diversidade?
c) Qual o hbitat com o menor ndice de diversidade?
d) Onde est a mais baixa equitabilidade?
e) Agora, considerando o ecossistema como um todo, o que podemos dizer, por meio
dos ndices calculados, sobre sua riqueza, equitabilidade e diversidade de espcies?

74
CAPTULO 7 - Guia de orientao para escolha do
teste
Antes de mais nada, faa uma descrio de seus dados, de cada varivel, incluindo
dizer de que tipo so. Faa a estatstica descritiva de suas variveis (mdia, varincia,
desvio-padro etc). Teste se cada uma das variveis contnuas (caso as possua) segue
ou no a distribuio normal, ou se segue alguma outra distribuio padro. Veja se
cada varivel possui ou no mais de uma moda. Monte grficos de disperso de seus
dados, comparando as variveis par a par para ver se elas tm alguma relao (linear
ou no). Reflita sobre esses resultados. Voc precisar conhecer muito bem seus dados
para saber o que fazer com eles.
Agora, pense nos objetivos de seu estudo e siga a chave abaixo, que poder ser til na
escolha do que fazer com seus dados. Pode acontecer de voc ter mais de um objetivo,
mais de uma abordagem estatstica (s vezes, para cada objetivo necessrio realizar
uma ou mais de uma anlise). O ideal j ter a previso de que anlises sero utilizadas
desde o projeto, porm muitas vezes preciso fazer adaptaes nas escolhas. Quando
h vrias opes de testes no-paramtricos, isso foi representado pela sigla NP na
chave abaixo.

1a. Voc possui dados de listagem de gneros ou espcies?


Calcule riqueza, equitabilidade, diversidade e/ou prossiga .......................................... 1b
1b. Seus dados so s variveis explanatrias (abiticos, por exemplo) ...................... 2
1c. Seus dados so variveis explanatrias e resposta ................................................. 4
2a. Voc tem somente 2 variveis explanatrias e quer compara-las ........................... 3
2b. Voc possui mais de 2 variveis explanatrias e quer compara-las ou h variveis
respostas e varivel(is) explanatria(s) e voc quer relaciona-las .... (Multivariada) .... 10
3a. As variveis possuem distribuio normal ou normalizada ..... Correlao de Pearson
3b. As variveis no possuem distribuio normal nem normalizvel ..... Correlaes NP
4a. As variveis explanatrias e resposta so categricas, qualitativas ou discretas ......
Tabela de contingncia (chi-quadrado, teste G)
4b. As variveis explanatrias e resposta so contnuas ............................................... 5
4c. H uma varivel resposta categrica de 2 nveis e variveis explanatria contnua ...
Regresso logstica
4d. H varivel(is) explanatria(s) categrica(s) e 1 varivel resposta contnua ........... 7
4e. H 1 varivel resposta, varivel(s) categrica(s) e 1 varivel contnua explanatria ..
ANCOVA
4f. H 2 ou mais variveis resposta ................................................... (Multivariada) ... 10
5a. As variveis possuem distribuio normal ou normalizada ...................................... 6
5b. As variveis no possuem distribuio normal nem normalizvel ..... Regresses NP
6a. H uma varivel resposta e somente uma explanatria ................ Regresso simples
6a. H uma varivel resposta e mais de uma explanatria.................. Regresso mltipla
7a. A varivel resposta possui distribuio normal ou normalizada ............................... 8

75
7b. A varivel resposta no possui distribuio normal nem normalizvel .................... 9
8a. Somente 1 varivel categrica, com somente 2 nveis, e n < 30 ................... Teste T
8b. Somente 1 varivel categrica, com somente 2 nveis, e n 30 ................... Teste Z
8c. Somente 1 varivel categrica mas com mais de 2 nveis .. ANOVA 1 fator (one way)
8d. Mais de 1 varivel categrica ...................................................... ANOVA 2, 3 fatores
9a. Somente 1 varivel categrica e com somente 2 nveis ........................... Teste T NP
9b. Somente varivel(is) categrica(s) e com mais de 2 nvei .... Kuskal Wallis / Friedman
10a. H mais de 2 variveis explanatrias e quer compara-las (plotar descritores) ..... 11
10b. H mais de 2 variveis explanatrias e quer plotar os objetos ............................. 14
10c. H variveis explanatrias e resposta e quer plotar descritores e objetos ........... 18
10d. H 2 ou mais variveis resposta e varivel(is) categrica(s) ................................ 19
10e. H 2 ou mais varivel resposta e varivel(is) explanatria(s) e voc quer relaciona-
las................................................................................................................................. 17
11a. A inteno dar nfase formao de grupos ..... Anlise de agrupamento (cluster)
11b. A inteno reduzir o nmero de variveis em eixos ou ver os gradientes ......... 12
12a. A matriz simtrica (com todos os valores) ......................................................... 13
12b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
13a. A distribuio das variveis normal ou normalizvel ..................................... PCoA
13b. A distribuio das variveis no normal nem normalizvel ......... PCoA / AC (AFC)
14a. A inteno dar nfase formao de grupos ..........................................................
Anlise de agrupamento (cluster) ou 19
14b. A inteno ver os gradientes entre os objetos ................................................... 15
15a. A matriz simtrica (com todos os valores) ......................................................... 16
15b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
16a. A distribuio das variveis normal ou normalizvel ........................... PCoA / PCA
16b. A distribuio das variveis no normal nem normalizvel ......... PCoA / AC (AFC)
17a. A distribuio normal ou normalizvel ............................................................ RDA
17b. A distribuio no normal nem normalizvel (unimodal e quase normal) ....... CCA
18a. A matriz simtrica (com todos os valores) ............................................ PCoA / AC
18b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
19a. H tambm varivel(is) explanatria(s) contnua(s) ............................... MANCOVA
19b. Somente as variveis resposta e a(s) categrica(s) ............................................. 20
20a. Dados normais ou normalizveis .............................................................. MANOVA
20b. Dados no normais e nem normalizveis ......................... PERMANOVA / ANOSIM

Aps uma ordenao ou anlise de agrupamento, se tambm h a inteno de testar a


separao dos grupos ou atribuir uma amostra a algum dos grupos com base em
frmula (como na regresso), faz-se em seguida uma anlise discriminante.

76
Respostas dos exerccios
1) Parmetro uma caracterstica estudada da populao, representado por letra latina
maiscula. Estimador a varivel medida na amostra, representado por letra grega
minscula.
2) As variveis so: nmero de lagartos (quantitativa discreta), temperatura do micro-
hbitat (quantitativa contnua) e tempo (qualitativa categrica).
3)
a)

b)

Percebe-se que a varivel umidade do ar a nica que no segue a distribuio normal,


pois o valor de p > 0,05.

c)

Mesmo aps aplicar a transformao logartmica, no foi obtida a normalizao dos


dados de umidade, pois o teste de Lilliefors continuou apresentando valor de p < 0,05.

77
d)

e)
Temp Umid Pluv rvores
1.37 -1.32 39.47 4.44
-0.09 -1.39 36.39 3.37
1.06 1.83 19.50 1.29
-1.01 5.52 113.20 11.82
-1.24 2.60 59.44 5.67
1.22 -0.86 33.32 2.68
-1.62 -0.78 70.96 7.59
0.14 4.60 59.44 5.67
-0.09 2.60 37.93 3.14
0.37 4.14 57.90 6.29
0.30 5.37 120.88 11.82
-0.47 4.44 64.04 5.75
1.22 -1.09 43.31 4.83
-1.16 -0.78 102.45 9.97

f)

possvel observar que existe uma linearidade nos dados, uma varivel varia de forma
correlacionada outra. Provavelmente, a pluviosidade (independente) influencia
positivamente no nmero de rvores (dependente). A varivel dependente deve ser
colocada no eixo Y e a independente no eixo X.

78
4)
a) Teste T pareado ou ANOVA de medida repetida
b) Teste T ou ANOVA
c) ANOVA 1 fator (one way)
d) Regresso linear mltipla
e) Correlao de Spearman
f) Regresso linear simples
g) ANCOVA
h) Teste Z ou ANOVA
i) Correlao de Pearson

5)
a) No existe relao significativa estatisticamente (correlao de Spearman, t=1,13,
p=0,28).
b) Sim, existe. A pluviosidade influencia o nmero de rvores (Regresso Linear
Simples, F=547,28, p=0,00) e essa relao dada pela frmula da reta Y = 0,10*X +
18,9 (ou seja, "Nmero de rvore" = 0,10 * "pluviosidade" + 18,9.
c) Sim, existe (correlao de Spearman, t=2,63, p=0,02).

6) Na ANOVA bifagorial (two way) cujo resultado foi apresentado, possvel perceber
que houve interao dos fatores (locais e meses), cujo P<0,05, portanto no possvel
considerar o fator locais sozinho nem o fator tempo (meses), e sim a interao entre
ambos, ou seja, em um local ocorre de uma forma e no outro ocorre de outra.

7) Garantida a independncia dos dados, preciso testar a normalidade (Lilliefors) e a


homocedasticidade (Levene). Foi necessrio fazer a transformao dos dados:
normalidade (Lilliefors, p>0,05) e homocedasticidade (Levene, p=0,96). Ento, no
necessrio transformar os dados originais, o que ainda melhor. Comprovados os pr-
requisitos para uma anlise robusta, no caso para testar 4 mdias, que a ANOVA.
Veja o resultado:

A ANOVA mostrou diferena entre as mdias (ANOVA, F=443,09, gl=96, p=0,00), e o


subsequente teste de Tukey evidenciou que todas as mdias so diferentes entre si. Ou

79
seja: a temperatura faz diferena no crescimento das lagartas, sendo que a temperatura
mais favorvel ao crescimento foi a de 25C, podendo ser considerado o ponto timo
em relao aos demais.

8) Um experimento em bloco aquele em que as subdivises do fator (fatores


secundrios) so repetidos para formarem os tratamentos, enquanto que, em um
experimento em bloco, essa repetio exata no acontece, uma vez que os fatores
secundrios so formados por itens apenas semelhantes.

9) Em experimentos unifatoriais (com somente 1 fator como varivel categrica), realiza-


se a ANOVA unifatorial. A ANOVA bifatorial serve para experimentos com 2 fatores,
como por exemplo, pontos de coleta e meses de coleta; neste caso, a primeira coisa a
ser testada na ANOVA a interao entre esses 2 fatores.

10) um estudo em que se analisa descritores para relacionar os objetos (que ficam
nas linhas, raws), como ocorre na PCA.

11) a distncia baseada no Teorema de Pitgoras (o quadrado da hipotenusa igual


soma dos quadrados dos catetos), distncia real em um plano cartesiano.

12) Enquanto que o ndice de similaridade de Bray-Curtis serve para dados


quantitativos, o de Sorensen (Dice) serve para dados qualitativos binrios.

13) Servem para agrupar amostras, variveis, em estatstica de um modo geral; na


estatstica multivariada, servem para agrupar descritores ou objetos.

14) Dice d um peso maior para o valor de a (nmero de coincidncias).

15)

uma matriz de dados de espcies, construda com as correlaes entre as variveis


originais de contagem de indivduos. Esse tipo de matriz pode ser utilizada, por exemplo,
em uma anlise multivariada do tipo ordenao, para plotar os descritores (espcies) ou
objetos (locais).

16) Quando se tem dados com distribuio normal e com varincias iguais e o propsito
maior for a separao em grupos, saber se existe ou no tal separao / diferenciao.

80
17) Pode ser aplicada uma PCoA com distncia euclidiana, que equivale a uma ACP,
ou a prpria ACP, ou pode ser feita uma anlise de agrupamento (cluster) por meio de
distncia de Bray-Curtis ou ento Euclidiana.

18) Neste caso, no se aplica anlise multivariada, pois s h uma varivel resposta e
3 explanatrias (insuficientes para uma ACP, por exemplo). O que se pode indicar
uma regresso mltipla, que vai gerar, inclusive, uma frmula (modelo) do efeito das
explanatrias sobre a resposta, caso haja tal efeito significativo estatisticamente.

19) Um eixo uma representao proporcional de todas as variveis originais em uma


ordenao. Em uma PCA, o eixo formado por um autovetor, que a sequncia de
cargas de cada varivel que o compe, ou seja, o peso que cada varivel tem nesse
eixo; o tamanho do eixo depende da importncia que ele tem na explicao total da
varincia dos dados, e isso se chama autovalor.

20) 2/3, 5, 4, 6, 1

21) o grfico (plotagem) 2D (bidimensional) bi-plot (com objetos representados por


crculos e descritores representados por setas, plotados ao mesmo tempo) de uma
ordenao do tipo PCA (Principal Component Analysis, Anlise de Componentes
Principais) em que o eixo 1 (PCA-1) separou o objeto 6 (A, B e C) dos demais e as
principais variveis responsveis por essa separao so a %PbMO e a %Pbx.Al
(contribuio negativa) e a %PbTroc (contribuio positiva). O eixo 2 (PCA-2), por sua
vez, separou o ponto 3 (A, B e C) dos demais, sendo que a principal varivel responsvel
por tal separao foi a %PbCarb (contribuio positiva). possvel falar mais sobre o
grfico, porm isso o que mais evidente e importante.

22)
a) Os grupos separados pela anlise.
b) Cerca de 80%.
c) Cerca de 20%.
d) Cerca de 40%.
e) Dados quantitativos contnuos (ou da quantidade desses organismos em cada ponto
ou de variveis medidas neles).
f) No. Se foram medidas variveis desses organismos para se chegar a essa
separao, o estudo foi em modo R, pois as variveis seriam os descritores e o grfico
(dendrograma) seria a plotagem dos organismos (objetos). Porm se o estudo foi em
modo Q, estaramos plotando os descritores (organismos) com base nos dados de
meses ou pontos de coleta (objetos).

23) V-F-F-V-V-F-F-F-V-F.

24) O primeiro passo perceber que a tabela mista, com dados de variveis
explanatrias (pH, turbidez, nitrato e fosfato) e resposta (espcies 1 a 3). A turbidez e a
espcie 1 seguem uma distribuio normal, mas nenhuma das outras variveis pode ser
normalizada. Portanto, para comparar as duas matrizes (explanatria e resposta) ser
utilizada uma anlise multivariada do tipo ordenao por CCA (anlise cannica de

81
correspondncia), j que no poderemos usar RDA, que seria a outra opo para esse
tipo de anlise. Trabalharemos ento com os dados originais (sem transformao).
O segundo passo ser separar a tabela em 2, uma explanatria e outra resposta, e
adapta-la ao formato exigido no programa de estatstica que vamos utilizar para a
anlise.
Em seguida, s importar os dados para o programa e aplicar a anlise
adequadamente. Veja os resultados obtidos com o programa PC-Ord:

Apenas os 2 primeiros eixos da CCA so cannicos (mostram relao pela regresso


mltipla entre explanatrias e resposta). O eixo 1, que explica 50% da varincia, separou
as espcies 1 e 3 da espcie 2, sendo o nitrato a varivel que mais contribuiu
(negativamente) com esse eixo. A espcie 3 tem maior relao com o local Y nos meses
de maio a setembro, enquanto que a espcie 1 se relaciona mais com o local X. O eixo
2 separou as espcies 1 e 3, bem como os locais X e Y, tendo sido mais influenciado
pela turbidez positivamente e pelo fosfato negativamente. Como pode ser visto, o pH
no exerceu influncia nos demais dados.

25)

82
26)
a) 1 (biodiversidade alfa = 8)
b) 10 (possui 10 espcies no total: a, b, c, d, e, f, g, h, t, x)
c) = 10 / 5,4 = 1,85

27)
a) 1 (riqueza = 2,12)
b) 1 (diversidade H = 2,01)
c) 3 (diversidade H = 0,46)
d) 3 (equitabilidade J = 0,45)
e)
Riqueza S = 1,91
Diversidade H = 2,00 nits/ind
Equitabilidade J = 0,83 (boa, bem equilibrada, pois acima de 0,5).

83
Bibliografia
BAUMGRTNER, S. Measuring the diversity of what? And for what purpose? A
conceptual comparison of ecological and economic measures of biodiversity.
Verhandlungen der Gesellschaft fr kologie 33: 490. 2003.
BEISEL, Jean-Nicolas; USSEGLIO-POLATERA, Philippe; BACHMANN, Vincent;
MORETEAU, Jean-Claude. A comparative analysis of evenness index sensitivity.
Internat. Rev. Hydrobiol. 88(1): 3-15. 2003.
CAVALCANTI, E.A.H.; LARRAZBAL, M.E.L. Macrozooplncton da zona econmica
exclusiva do Nordeste do Brasil (segunda expedio oceanogrfica - REVIZEE/NE II)
com nfase em Copepoda (Crustacea). Revista Brasileira de Zoologia, v.21, p.467-
475, 2004.
DE-LACERDA, Anthony. Testes qui-quadrado: aderncia e independncia. Disponvel
em: <http://slideplayer.com.br/slide/1574738/#>. Acesso em 15 nov 2015.
LEYSER, Gabriela; ZANIN, Elisabete Maria; BUDKE, Jean Carlos; MLO, Mida Ariane;
HENKE-OLIVEIRA, Carlos. Regenerao de espcies arbreas e relaes com
componente adulto em uma floresta estacional no vale do rio Uruguai, Brasil. Acta
Botanica Brasilica 26(1): 74-83. 2012.
GOTELLI, Nicholas J.; CHAO, Anne. Measuring and estimating species richness,
species diversity and biotic similarity from sampling data. In: LEVIN, S.A. (Ed.).
Encyclopedia of Biodiversity, 2.ed., Vol.5, Waltham: Elsevier, 2013.
GOTELLI, Nicholas J.; ELLISON, Aaron M. Princpios de Estatstica em Ecologia.
Porto Alegre: Artmed, 2011. 528p.
GRAFEN, Alan; HAILS, Rosie. Modern statistics for the life sciences. Nova Iorque:
Oxford, 2002. 349p.
HURLBERT, Stuart H. Pseudoreplication and the design of ecological field experiments.
Ecological Monographs, 54(2), p.187-211, jun.1984.
JURASINSKI, Gerald; RETZER, Vroni; BEIERKUHNLEIN, Carl. Inventory,
differentiation, and proportional diversity: a consistent terminology for quantifying
species diversity. Oecologia 159: 15-26. 2009.
KREBS, Charles J. Ecological Methodology. 2.ed. Menlo Park: Benjamin/Cummings,
1999. 620p.
KUMMER, Larissa; MELO, Vander; BARROS, Yara Jurema; AZEVEDO, Jlio Csar
Rodrigues. Extraes sequenciais de chumbo e zinco em solos de rea de minerao e
metalurgia de metais pesados. R. Bras. Ci. Solo, 35: 2005-2018, 2011.
LEGENDRE, Pierre; LEGENDRE, Louis. Numerical Ecology. 2.ed. Amsterdan:
Elsevier, 1998. 853p.
MAGNOSSUN, Willian E.; MOURO, Guilherme de Miranda. Estatstica sem
Matemtica. Londrina: Planta, 2005. 138p.
MANLY, Bryan Frederick John. Multivariate Statistical Methods. 2.ed. London:
Chapman & Hall, 1994. 215p.
MARGALEF, R. Temporal sucession and spatial heterogeneity in phytoplankton. In:
BUZZATI-TRAVERSO, A.A. (Ed.). Perspectives in Marine Biology. Berkeley:
Universidade California Press, p.323-349. 1958.
MAY, R. M. Patterns of species abundance and diversity. In: CODY, M.L.; DIAMOND,
J.M. (Ed.). Ecology and Evolution of Communities. Harvard: Harvard University
Press. pp 81-120. 1975.

84
NONATO, E.F. Universidade Federal do Rio de Janeiro / Departamento de Zoologia /
Laboratrio de Plychaeta. Delineamentos multivariados e mtodos de
reamostragem e permutao. Disponvel em <
http://www.biologia.ufrj.br/labs/labpoly/delin6.pdf>. Acesso em 02 jul 2015.
OLUBUSOLA, Adeoye N.; ORJI, Edward C.; ADAMS, Abiodun Emmanuel. Biodiversity
conservation: course guide. Lagos: National Open University of Nigeria, 2010. 69p.
PIELOU, E. C. The measure of diversity in different types of biological collections. J.
Theor. Biol., 13: 133-144. 1966.
PORTAL-ACTION. Distribuio aleatria de uma varivel aleatria binomial.
Disponvel em: <http://www.portalaction.com.br/inferencia/22-distribuicao-amostral-de-
uma-variavel-aleatoria-binomial>. Acesso em 15 nov 2015.
QUINN, Gerry P.; KEOUGH, Michael J. Experimental design and data analysis for
biologists. Cambridge: Cambridge University Press, 2005. 537p.
SARTORIO, Simone Daniela. Aplicaes de tcnicas de anlise multivariada em
experimentos agropecurios usando o software R. Dissertao (Mestrado), Escola
Superior de Agricultura Luiz de Queiroz, Piracicaba, 2008. 130p.
SCHWARDT, Ludwig; PREEZ, Johan. Linear Discriminant Analysis. PR414 / PR813
Lecture 1. Disponvel em:
<http://courses.ee.sun.ac.za/Pattern_Recognition_813/lectures/lecture01/nod e6.html>.
Acesso em: 19 nov 2015.
SHANNON, C.E. A mathematical theory of communication. Bulletin of System
Tecnology Journal, v. 27, p.379-423, 1948.
SHIMAKURA, Slvia. A distribuio Poisson. Disponvel em:
<http://leg.ufpr.br/~silvia/CE701/node35.html>. Acesso em 15 nov 2015.
SIMPSON, E. H. Measurement of diversity. Nature 163: 688. 1949.
SOARES, Marcelo de Oliveira; LEMOS, Valesca Brasil; KIKUCHI, Ruy Kenji Papa.
Sedimentos carbonticos bioclsticos do Atol das Rocas, Atlntico Sul Equatorial.
Revista Brasileira de Geocincias, 39(4): 624-634, dezembro de 2009.
TRIOLA, Mrio F. Introduo Estatstica. 7.ed. Rio de Janeiro: LTC, 1999. 410p.
TUTOR-TEDDY. Basic Statistics. Disponvel em
<http://tutorteddy.com/statistics/basic-statistics.php>. Acesso em 15 nov 2015.
VALENTIN, Jean Louis. Ecologia Numrica: uma introduo anlise multivariada de
dados ecolgicos. Rio de Janeiro: Intercincia, 2000. 117p.
VALENTIN, Jean Louis; MACEDO-SAIDAH, F. E.; TENENBAUM, D. R.; SILVA, N. M.
L. A diversidade especfica para a anlise das sucesses fitoplanctnicas. Aplicao ao
ecossistema da ressurgncia de Cabo Frio (RJ). Nertica, Curitiba, v.6, n.1/2, p. 7-26,
1989.
VASSILIOU, Miguel. 13 relatrio de monitoramento: Rev. 01. Programa de
Monitoramento do Projeto de Recuperao Ambiental Lotes 42 e 44. Siderpolis:
UNESC, 2010.
VIEIRA, Snia. Estatstica Experimental. 2.ed. So Paulo: Atlas, 1999. 185p.

85