Você está na página 1de 21

In: Bicudo, C. & D. Bicudo. Amostragem em Limnologia (no prelo).

Suficincia amostral
Valrio De Patta Pillar
Departamento de Ecologia, Universidade Federal do Rio Grande do Sul
Porto Alegre, RS, 91540-000, Brasil
E-mail: vpillar@ecologia.ufrgs.br
Resumo. A escolha de procedimentos de amostragem deve ser guiada pelos objetivos do
estudo e caractersticas do meio a ser amostrado. Em estudos limnolgicos, e em ecologia em
geral, o meio e os objetivos nem sempre se enquadram nas condies ideais consideradas
pela estatstica convencional. Este captulo define termos, discute procedimentos de
amostragem, e apresenta novos mtodos para a determinao de suficincia amostral
baseados na reamostragem dos prprios dados coletados. Mtodos de reamostragem so
descritos para avaliao de suficincia amostral quando o objetivo a estimativa de
parmetros simples, tais como mdias de uma varavel, e quando o objetivo do levantamento
o reconhecimento de padres e sua interpretao, com o uso de anlise de agrupamentos e
ordenao.
Palavras-chave: Amostragem, Anlise de agrupamentos, Anlise multivariada, Auto-
reamostragem, Bootstrap, Delineamento, Estimao, Intervalos de confiana, Ordenao,
Reamostragem, Suficincia.
INTRODUO
A amostragem necessria porque em geral no possvel ou no conveniente
acessar a totalidade de um dado universo amostral ou populao. Assim, tomam-se
informaes sobre uma parte deste, uma amostra, para inferir atributos sobre o todo. As
unidades que compem o universo amostral e a amostra, ou seja, as unidades amostrais,
podem ser objetos perfeitamente distinguveis, tais como um indivduo vegetal ou animal, ou
um ponto, ou um evento (relacionado a comportamentos, por exemplo). As unidades
amostrais em levantamentos de ecossistemas, porm, so comumente agregados de objetos,
com limites arbitrrios, tais como um volume de gua, de solo ou de sedimentos, ou uma rea
de vegetao. O universo amostral especificado pelo(a) pesquisador(a). Em limnologia,
dependendo do contexto, o universo amostral pode ser um pequeno tanque experimental,
uma poro de um rio, lago ou banhado, ou at toda uma bacia hidrogrfica. Da mesma
forma, procedimentos de laboratrio podem envolver amostragem; e.g., contagem de
organismos em uma placa de Petry, cujas unidades amostrais so campos selecionados para
contagem.
Quando a nica informao disponvel de uma amostra tomada de um universo
amostral, no possvel saber se o estado de um atributo obtido a partir da amostra coincide
exatamente com o estado verdadeiro desse atributo no universo amostral. Porm, quanto
maior o nmero de unidades amostrais, i.e., o tamanho da amostra, maior a probabilidade
de que novas amostras tomadas do mesmo universo amostral permitiro as mesmas
concluses. A avaliao da preciso da estimativa indicar a amplitude de estados em que
mais provvel que se encontre o estado verdadeiro do atributo no universo amostral.
Portanto, em qualquer levantamento ser sempre necessrio avaliar se o tamanho da amostra
suficiente para uma dada preciso requerida. Deve ser tambm considerado que a
quantidade de trabalho e materiais utilizados em um levantamento em grande parte funo
do tamanho da amostra, sendo portanto a avaliao de suficincia amostral uma ferramenta
importante para o uso racional desses recursos.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 2
A nfase deste captulo em mtodos para a determinao de suficincia amostral.
Para avaliar suficincia amostral, poderamos seguir as orientaes da teoria amostral
clssica (Cochran 1977, Green 1979, Krishnaiah & Rao 1988). Entretanto, no caso de
levantamentos ecolgicos, as solues clssicas no so adequadas, pois estas assumem um
universo amostral bem-comportado e no to complexo como em sistemas ecolgicos
(Pillar 1998). Tal complexidade resulta de alta diversidade, respostas no-lineares, interaes
complicadas e, mais importantes do ponto de vista de amostragem, arranjos no-aleatrios
nos espaos geogrfico e ecolgico (Orlci 1993, Kenkel et al. 1989). Ademais, os mtodos
tradicionais no oferecem alternativas para avaliar suficincia amostral quando o objetivo do
levantamento o reconhecimento de padres e sua interpretao. A preciso de estimativas
obtidas por amostragem tem sido geralmente avaliada com base em distribuies tericas de
freqncias, e.g., distribuio normal, as quais nas condies acima descritas tm valor
limitado (Patil et al. 1988, Orlci 1993). Existem, porm, outros mtodos que utilizam
intensivamente a computao, tais como o mtodo de reamostragem bootstrap que gera
uma distribuio emprica a partir dos prprios dados (Efron 1979, Efron & Tibshirani 1993).
A suficincia da amostra pode ser avaliada com base em limites de confiana ou
probabilidades obtidas de tais distribuies empricas (Pillar 1998, 1999a, 1999b).
Ao amostrar, tambm necessrio decidir quanto ao mtodo de seleo e, em alguns
casos, tamanho e forma das unidades amostrais que iro compor a amostra. Discutirei mais
adiante que essas decises devem ser guiadas pelo contexto, especialmente em ecologia, em
que o meio amostrado nem sempre se enquadra nas condies ideais tratadas pela estatstica
convencional.
OBJETIVOS DA AMOSTRAGEM
Podemos distinguir duas categorias de objetivos em levantamentos limnolgicos. O
objetivo de um levantamento pode se restringir a uma estimativa de quantidades, tais como
variveis limnolgicas fsicas e qumicas, biomassa, densidade de uma ou mais espcies, em
que o resultado final obtido consiste geralmente em mdias de cada uma dessas variveis. Os
levantamentos, porm, freqentemente tm como objetivo estudar a variao desses ou de
outros atributos dentro do universo amostral, buscando o reconhecimento de padres no
espao e/ou no tempo e sua interpretao. Neste caso geralmente so utilizadas tcnicas de
anlise multivariada, tais como classificao e ordenao (Orlci 1978, Pielou 1984, Podani
1994, Legendre & Legendre 1998).
importante notar, entretanto, que amostragens em diferentes nveis hierrquicos e
com diferentes objetivos, podem estar envolvidas num mesmo estudo. Por exemplo, digamos
que o objetivo principal de um levantamento seja descrever e interpretar a variao espacial e
temporal entre zonas de um lago ao longo de um ano; um delineamento amostral sistemtico
ser adotado, sendo que em cada ponto ao longo de cada dia de amostragem sero coletadas
vrias unidades amostrais para determinaes de variveis limnolgicas; h aqui dois nveis
de amostragem: (1) em cada ponto o objetivo da amostragem obter uma estimativa das
caractersticas mdias ao longo de um dia, pois decidiu-se ignorar as variaes horrias, (2) a
anlise conjunta dos dados mdios dos pontos em vrios dias ao longo do ano permitir
revelar padres de variao no espao e no tempo, os quais sero interpretados em relao a
fatores externos, tais como clima e ao antrpica.
O EFEITO DA ESCALA
As unidades amostrais em levantamentos de ecossistemas so em geral agregados de
organismos e de substrato, representando subdivises arbitrrias de um meio contnuo
(Orlci 1993). O tamanho e forma da unidade amostral definido pelo(a) pesquisador(a),
pois em geral no possvel distinguir unidades amostrais com limites naturais. Por exemplo,
Pillar, V.D. Suficincia amostral em estudos limnolgicos 3
cada unidade amostral pode ser definida como uma determinada rea, ou um determinado
volume de gua ou de sedimentos coletado utilizando um determinado tipo de equipamento.
Esse elemento complicador da amostragem evidente em ecologia de comunidades,
manifestando-se na profcua discusso sobre o conceito de comunidade (vide Palmer &
White 1994) e no fato de que as concluses sero dependentes da escala ou tamanho da
unidade amostral (Juhsz-Nagy & Podani 1983, Greig-Smith 1983, Palmer 1988, Kenkel et
al. 1989, Camiz & Gergely 1990, Podani et al. 1993).
Uma das caractersticas de sistemas ecolgicos a sua variao no-aleatria, o que
se manifesta na existncia de padres no espao e no tempo. A possvel estratificao vertical
e horizontal em lagos e cursos dgua um exemplo. Nessas condies, medidas
comparativas entre unidades amostrais tais como similaridade, dissimilaridade, e diferenas
em diversidade, sero dependentes do tamanho das unidades amostrais. Nessas condies,
parmetros tais como a varincia tambm sero dependentes do tamanho da unidade
amostral: unidades maiores tendero a ser menos variveis entre si do que unidades menores.
Sabe-se que quanto menor a varincia, menor o nmero de unidades amostrais necessrias
para uma mesma preciso da estimativa de uma mdia (ver, e.g., Cochran 1977). Logo, se o
objetivo estimar a mdia de uma varivel, unidades amostrais maiores e mais heterogneas
internamente permitem atingir suficincia amostral com um menor nmero de unidades
amostrais. A deciso sobre o tamanho das unidades amostrais, neste caso, deve considerar
tambm viabilidade e custo entre usar um menor nmero de unidades amostrais maiores, ou
um maior nmero de unidades menores. Entretanto, se o objetivo da amostragem revelar e
interpretar padres de variao, o procedimento provavelmente o oposto, pois unidades
amostrais muito grandes podero borrar aspectos importantes da variao no sistema.
Portanto, as condies de amostragem que satisfazem o objetivo de estimar atributos simples
podem no coincidir com as que satisfazem o objetivo de estudar padres (Orlci & Pillar
1989).
Se a variao em sistemas ecolgicos for, ao contrrio, aleatria, o que raramente
parece ser o caso em sistemas naturais, o universo amostral ser homogneo, no haver
efeito de escala, e os resultados no sero afetados pelo tamanho e forma das unidades
amostrais (Palmer 1988). Um sistema homogneo quando, ao ser subdividido, as suas
partes mantm-se semelhantes (Palmer 1988). A homogeneizao artificial do universo
amostral perfeitamente aceitvel quando o objetivo da amostragem obter um estimativa
de uma mdia com o menor nmero possvel de unidades amostrais. Por exemplo, na
determinao de teores de fsforo, a agitao do material coletado permite reduzir
drasticamente a varincia entre determinaes de um mesmo volume de material e at
eliminar a necessidade de rplicas. Podemos dizer que o efeito da homogeneizao
semelhante ao de utilizar uma unidade amostral de maior tamanho. Da mesma forma, a coleta
de sub-unidades amostrais as quais so misturadas em uma unidade amostral composta
equivalente a aumentar o tamanho da unidade amostral.
comum fazer-se a distino entre variao espacial e variao temporal. Essa
distino, porm, ambgua em ecossistemas muito dinmicos, como em determinados
ambientes aquticos (Legendre & Legendre 1998). Tal particularidade de alguns sistemas
aquticos tem conseqncias importantes para a amostragem. A primeira que unidades
amostrais coletadas num mesmo ponto ao longo de um dado perodo de tempo podero
apresentar variao semelhante ao de vrias unidades amostrais coletadas simultaneamente
em vrios pontos. Alm disso, a utilizao de uma janela temporal mais longa, que pode
ser definida, por exemplo, como o tempo decorrido entre a primeira e a ltima coleta dentro
de uma unidade amostral composta, tem efeito semelhante ao de um aumento do tamanho da
unidade amostral. Outra conseqncia que unidades amostrais coletadas num mesmo ponto
Pillar, V.D. Suficincia amostral em estudos limnolgicos 4
ao longo de um dia sero provavelmente independentes, um dos requisitos exigidos para
alguns tipos de anlises.
importante notar que se as unidades amostrais so agregados, o universo de
amostragem contnuo, havendo teoricamente um nmero infinito de possveis unidades
amostrais, com infinitas opes de tamanho, forma, e localizao dentro do universo
amostral. Porm, quando as unidades amostrais so naturais, distintas, reconhecveis, tais
como organismos animais ou vegetais individuais ou unidades geogrficas isoladas (ilhas,
lagos), o universo amostral assim definido tem um tamanho finito e um nmero finito de
amostras possveis. O problema de amostragem nesse caso mais simples; apenas uma
questo de definir o nmero e o mtodo de seleo das unidades amostrais; o efeito da escala
no estar presente.
SELEO DAS UNIDADES AMOSTRAIS
Uma amostra de n unidades tomada de um universo amostral de N unidades ser uma
possibilidade entre C=
N!
n!(N ! n)!
diferentes amostras. Como selecionar a amostra? O uso de
amostragem sistemtica, estratificada ou no, ou mesmo preferencial, freqente em
levantamentos de ecossistemas; raramente utilizada amostragem aleatria irrestrita (Orlci
1978, Jongman et al. 1995, Goedickemeier et al. 1997). A seleo aleatria irrestrita
quando todas as unidades amostrais tm a mesma probabilidade de serem includas na
amostra. Amostragem aleatria irrestrita tem sido considerada pouco prtica no campo pela
dificuldade em localizar os pontos de amostragem, os quais devem ser previamente
escolhidos ao acaso sobre o mapa da rea; mas atualmente essa dificuldade pode estar
superada com o uso de sistemas automatizados de determinao de coordenadas geogrficas
(GPS). A amostragem sistemtica quando apenas o primeiro membro da amostra, ou do
estrato, selecionado ao acaso, sendo os demais tomados a intervalos regulares. A
amostragem estratificada quando o universo amostral dividido em estratos, ou segmentos,
o que pode ser feito de forma subjetiva, e dentro de cada estrato feita a seleo aleatria ou
sistemtica das unidades amostrais. Quando o objetivo a estimativa de atributos, por
exemplo, de mdias, a seleo das unidades amostrais deve seguir um desses mtodos, pois
do contrrio a estimativa do atributo ser viciada.
Exemplos
1. Amostragem aleatria irrestrita: Para avaliar o grau de contaminao da gua captada para abastecimento
urbano numa dada regio a amostra foi selecionada aleatoriamente a partir de uma lista de pontos de captao.
2. Amostragem aleatria irrestrita: O objetivo do levantamento descrever comunidades vegetais quanto a
interaes de espcies entre si e com fatores de ambiente. Mapeiam-se os limites da rea. H um nmero
infinito de pontos para localizar quadros (unidades amostrais) aleatoriamente atravs de coordenadas
geogrficas. A definio do tamanho e forma da unidade amostral arbitrria. Poder ocorrer sobreposio de
unidades amostrais.
3. Amostragem sistemtica: Em uma lagoa pretende-se estudar as relaes entre composio do fitoplancton e
variveis fsicas e qumicas da gua. No mapa da lagoa marca-se um pivot aleatoriamente, sobre o qual
posiciona-se um dos ns de uma grade quadriculada. A amostra ser composta por unidades amostrais
localizadas em todos os ns da grade que estiverem sobre a lagoa. A densidade de amostragem definida pela
distncia entre-ns. Alternativamente, marcam-se transeces localizadas sistematicamente sobre a lagoa, as
quais so percorridas, sendo as unidades amostrais localizadas sistematicamente ao longo de cada transeco.
4. Amostragem estratificada sistemtica: No exemplo 3, a lagoa dividida em estratos, de forma subjetiva ou de
acordo com algum critrio, e.g., profundidade. Uma amostragem sistemtica ento realizada dentro de cada
estrato. A estratificao garante que todas as reas de interesse sejam includas na amostra.
No entanto, grande parte do que se sabe a respeito de processos biolgicos,
organismos, populaes e comunidades resultado de pesquisas em que foi usada
amostragem preferencial, em que as unidades so selecionadas porque parecem tpicas ao
Pillar, V.D. Suficincia amostral em estudos limnolgicos 5
pesquisador (Orlci 1991). Nesse caso, ou a propriedade considerada uniforme na
populao (e.g., nmero de cromossomas) no sendo importante o mtodo de seleo das
unidades estudadas, ou o objetivo da amostragem confirmar padres mais ou menos
evidentes. Por exemplo, em taxonomia tm sido usados espcimens tipo; em fitossociologia,
e.g. Braun-Blanquet (1979), selecionam-se stios homogneos para delimitar a comunidade
vegetal a ser descrita, porque padres de vegetao so muitas vezes bvios ao pesquisador,
sendo mais eficiente descrever cada mancha onde as comunidades parecem mais tpicas,
homogneas, do que descrever e analisar um sem nmero de unidades amostrais aleatrias. A
amostragem preferencial portanto tem sido aceita em ecologia quando se objetiva estudar ou
confirmar padres percebidos subjetivamente (Pillar 1998).
SUFICINCIA AMOSTRAL
Soluo tradicional
A soluo tradicional (ver, e.g., Cochran 1977), aplicvel quando o objetivo a
estimativa de mdias, baseada na varincia da mdia
S
x
2
=
S
X
2
n
1 !
n
N
"
#
$
%
onde S
X
2
a varincia da varivel X, n o tamanho da amostra e N o tamanho do universo
amostral.
Sendo o universo amostral muito grande, logo
n
N
! 0 , e usando a distribuio t de Student, o
tamanho da amostra pode ser determinado por
t =
!
S
x
2
"t =
!
S
x
2
n
"t =
! n
S
X
2
"t
2
=
!
2
n
S
X
2
"n =
t
2
S
x
2
!
2
onde ! a diferena mnima a ser detectada e t o valor da distribuio de Student para n-1
graus de liberdade correspondente a uma dada probabilidade P(t
0
!t) = ". Como t depende de
n, o valor de n encontrado iterativamente.
Essa soluo problemtica para levantamentos de ecossistemas porque (1) assume
distribuio normal da varivel X; e (2) o objetivo da amostragem pode no ser estimativa de
mdias e varincias.
Amostragem iterativa
A amostragem iterativa encontra suporte na relao entre preciso e estabilidade.
Quanto mais precisa a estimativa de um atributo, mais estvel ser a medida do atributo
obtida de outras amostras de maior tamanho. A interpretao da amostragem como um
processo de sucessivas aproximaes tem precedentes em Greig-Smith (1983) para a
estimativa de atributos simples e em Orlci & Pillar (1989) para o estudo de padres. Nessa
abordagem o estado de um dado atributo obtido a partir da amostra evolui e atinge
estabilidade na medida em que se aumenta o nmero de unidades amostrais na amostra. O
tamanho suficiente de amostra aquele no qual o atributo simples ou complexo de interesse
comea a ter estabilidade, ou seja, quando o fato de agregar-se novas unidades amostrais
amostra resulta em alteraes relativamente menores no valor do atributo considerado.
Assim, se por um lado o objetivo estimar a mdia de alguma varivel, o tamanho suficiente
da amostra ser aquele em que a mdia da amostra atinge estabilidade. Um exemplo simples
o caso em que a mdia na amostra monitorado para tamanhos sucessivos de amostra
(Figura 1).
Definindo mais formalmente o mtodo utilizado na Fig. 1, a estabilidade da amostra
percebida pela magnitude relativa da alterao do atributo de interesse entre passos de
Pillar, V.D. Suficincia amostral em estudos limnolgicos 6
amostragem com tamanhos crescentes de amostra n
1
, n
2
, ..., n
k
, ... n, onde n
1
um tamanho
inicial de amostra (no primeiro passo de amostragem). O incremento constante do tamanho
de amostra s, que o nmero de unidades amostrais agregadas amostra a cada um dos
passos de amostragem seguintes. O nmero total de passos de amostragem t = 1+INT((n-
n
1
)/s), mais 1 se n
k
no ltimo passo de amostragem no coincidir com n. INT indica a poro
inteira do quociente. A escolha de um valor de s pequeno produzir um grande nmero de
passos de amostragem e uma curva mais regular do atributo de interesse.
Outra aplicao dessa abordagem a curva "nmero de espcies versus nmero de
unidades amostrais", muito usada em ecologia de comunidades para, entre outros objetivos,
indicar suficincia de amostragem; o atributo considerado o nmero de espcies. A curva
"nmero de espcies versus tamanho da unidade amostral", usada para determinar a rea
mnima fitossociolgica, um caso anlogo; o processo nesse caso pode ser entendido como
uma agregao de novas unidades amostrais sistematica e contiguamente s que j esto na
amostra. Quaisquer outros atributos, simples ou complexos (e.g., medidas de diversidade),
poderiam tambm ser considerados nessas curvas.
A limitao da utilizao da amostragem iterativa que a ordem na qual as unidades
amostrais so agregadas amostra afeta a percepo de estabilidade da curva. Tambm,
dependendo da preciso requerida, a amostra pode ser suficiente mesmo sem que a curva
tenha atingido estabilidade. O mtodo bootstrap, discutido a seguir, simula reamostragem
da prpria amostra, permitindo avaliar o grau de estabilidade quando combinado a uma
amostragem iterativa.
Reamostragem bootstrap
O mtodo bootstrap, inventado por Efron (1979, Efron & Tibshirani 1993), baseia-
se no princpio de que no havendo melhor informao, a distribuio de freqncias na
amostra a melhor indicao da sua distribuio no universo amostral. Bootstrap poderia
ser literalmente traduzido como cadaro de bota, mas o termo usado em linguagem
figurada (Efron 1979). Creio ser aut o-reamost ragem um termo que expressaria
adequadamente o significado do mtodo bootstrap em portugus, ou seja, a reamostragem
dos prprios dados; entretanto, deixo ao leitor a tarefa de adotar o neologismo. A
reamostragem dos dados da amostra, com reposio, simula a reamostragem do universo
amostral. Cada amostra obtida por reamostragem uma amostra bootstrap. A amostra sendo
reamostrada define um pseudo universo amostral. A reamostragem permite calcular a
preciso de estimativas atravs de limites de confiana ou probabilidades.
O mtodo bootstrap pode ser integrado amostragem iterativa. Descrevo aqui o
mtodo aplicado a levantamento de ecossistemas, conforme Pillar (1998): Os dados obtidos
esto arranjados em uma matriz com n unidades amostrais e p variveis. Esses dados podem
representar uma amostra num dado ponto de um processo de amostragem iterativa, amostra
que poder ser expandida se os resultados da avaliao de suficincia amostral assim
indicarem. Dados j existentes podem tambm ser o ponto de partida, caso em que ser
avaliado se a amostra suficiente para o objetivo desejado. As unidades amostrais podem ser
de qualquer tipo, como explicado anteriormente. As variveis podem ser atributos do
substrato ou componentes biolgicos, e.g., espcies, descritos nas unidades amostrais. O
conjunto de n unidades amostrais tomado como pseudo universo amostral. O algoritmo
computacional reamostra com reposio o pseudo universo amostral, gerando amostras
bootstrap com um nmero crescente de unidades amostrais n
k
" n, e calcula para cada passo k
de reamostragem, com tamanho de amostra n
k
, o atributo !
k
*
. Este o atributo do universo
amostral que se tem interesse em inferir a partir da amostra. O atributo de interesse pode ser
Pillar, V.D. Suficincia amostral em estudos limnolgicos 7
simples, como a mdia ou a varincia de alguma varivel, ou mais complexo como a
correlao entre duas variveis, a medida da nitidez da classificao da amostra em um dado
nmero de grupos (Pillar 1999a), ou a medida do estado da ordenao das unidades amostrais
(Pillar 1999b). Avalia-se se o atributo de interesse atinge o nvel mnimo de preciso dentro
da amplitude de tamanhos de amostra n
k
" n avaliados; sendo o resultado positivo, conclui-se
que o tamanho de amostra suficiente. O detalhamento dos mtodos para diferentes atributos
ser apresentado a seguir.
Suficincia amostral avaliada com base em limites de confiana
O mtodo pode ser aplicado a qualquer atributo ! da amostra para o qual a
suficincia amostral possa ser avaliada pela preciso da estimativa indicada por intervalos de
confiana. Nesta categoria incluem-se atributos tais como a mdia ou a varincia de alguma
varivel, a correlao entre duas variveis, e outros que possam ser derivados a partir dos
dados. Atributos adequados ao uso de intervalos de confiana so aqueles cujos valores
podem ser interpretados diretamente, tais como os coeficientes de correlao (se o intervalo
inclui zero ou no um indicativo de significncia), ou que sero comparados entre si
diretamente, tais como mdias.
O intervalo de confiana para um dado tamanho de amostra n
k
" n obtido atravs do
seguinte algoritmo de reamostragem bootstrap (Pillar 1998):
1. Seleciona-se aleatoriamente no pseudo universo amostral uma amostra bootstrap de
tamanho n
k
com reposio. Sendo a seleo com reposio, a mesma unidade amostral
poder aparecer mais de uma vez na mesma amostra bootstrap.
2. Computa-se na amostra bootstrap o parmetro !
k
*
de interesse. O valor resultante
armazenado.
3. Repetem-se os passos 1 e 2 um grande nmero de vezes (indica-se no mnimo 1000
vezes).
4. Ordenam-se os valores de !
k
*
do menor ao maior. Determinam-se limites de confiana
para uma especificada probabilidade ". Se forem 1000 iteraes e " = 0.05, o limite
inferior ser o valor de !
k
*
na 25 posio e o limite superior aquele na 976 posio. Na
verdade, nesse caso, somente necessrio armazenar os 25 valores menores e os 25
valores maiores de !
k
*
.
5. Pode-se ento afirmar, com uma probabilidade " de estar errado, que o valor verdadeiro
do parmetro ! avaliado encontra-se entre os limites de confiana.
A determinao de intervalos de confiana para uma srie de amostras bootstrap de
tamanho n
k
# n permite examinar a estabilidade da amplitude entre limites superior e
inferior. A Tabela 1 ilustra com um pequeno exemplo a obteno de limites de confiana. A
Figura 2 mostra outro exemplo e a sua interpretao.
Suficincia amostral em anlise de agrupamentos
A anlise de agrupamentos aplicada em ecologia objetiva classificar unidades
amostrais (ecossistemas, comunidades, ou indivduos) permitindo simplificar em tipologias a
variao complexa comum em sistemas naturais. Mtodos de anlise de agrupamentos so
discutidos no captulo ??. A Fig. 3 mostra um exemplo. Um problema sempre presente em
anlise de agrupamentos a escolha do nvel de partio, e essa deciso est relacionada a
suficincia amostral como veremos mais adiante. Um dado nvel de classificao (nmero de
grupos) ser considerado ntido se os tipos revelados aparecerem consistentemente quando o
levantamento for repetido no mesmo universo amostral. A reamostragem do universo
amostral pode ser simulada atravs de reamostragem bootstrap.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 8
A avaliao de suficincia amostral atravs de reamostragem bootstrap em anlise de
agrupamentos baseada no mtodo usado para a determinao da significncia de grupos em
anlise de agrupamentos descrito em Pillar (1999a). Dados multivariados podem ser
representados em um espao geomtrico, abstrato, multidimensional; neste as variveis so
as suas dimenses e as unidades amostrais os pontos no espao. Quanto mais ntida for a
estrutura de grupos no espao abstrato, os grupos revelados por anlise de agrupamentos de
amostras bootstrap sero mais estveis; como conseqncia, suficincia amostral ser
atingida com um tamanho menor de amostra. O atributo medido em cada amostra bootstrap
de tamanho k para um dado nvel m de partio em grupos
G
k
*
= 1 !
S
T
onde T a soma de quadrados total, envolvendo (n + n
k
)(n + n
k
1)/2 dissimilaridades ao
quadrado de n + n
k
unidades amostrais, sendo n unidades amostrais originalmente do pseudo
universo amostral e n
k
unidades amostrais da amostra bootstrap. S

a soma de quadrados de
contrastes aos pares entre grupos na amostra bootstrap e o grupo mais prximo no pseudo
universo amostral. A determinao de S envolve um processo iterativo de anlise com o
objetivo de encontrar pares exclusivos formados por grupos da amostra bootstrap com grupos
do pseudo universo amostral de forma a minimizar o valor de S. Para maior detalhamento do
mtodo consultar Pillar (1999a, 1999c).
Diferentemente do mtodo anterior, em que intervalos de confiana so
deterrminados, aqui o valor deG
k
*
comparado a G
k
0
gerado a cada iterao de bootstrap sob
a hiptese nula (Ho) de que os grupos so ntidos. Se Ho verdadeira, cada grupo encontrado
pela anlise de agrupamentos nas amostras bootstrap ser uma amostra aleatria do grupo
correspondente (mais prximo) no pseudo universo amostral. A probabilidade P(G
k
0
#G
k
*
) a
proporo de iteraces bootstrap em que G
k
0
#G
k
*
. A determinao de P( G
k
0
#G
k
*
) para uma
srie de amostras bootstrap de tamanho n
k
# n permite examinar a estabilidade de
P(G
k
0
#G
k
*
). Se para um dado tamanho de amostra n
k
a probabilidade P(G
k
0
#G
k
*
) no for
maior do que um limiar de probabilidade ", digamos " = 0,05, Ho ser rejeitada e a
classificao em m grupos ser considerada difusa e pouco ntida, logo instvel. Neste caso,
de rejeio de Ho, a amostra de tamanho n
k
suficiente, pois tamanhos de amostra maiores
do que n
k
tendem a determinar probabilidades P(G
k
0
#G
k
*
) consistentemente menores do que
". Ou seja, as concluses a respeito da falta de estrutura ntida de grupos nos dados no se
alteraram ao se aumentar o tamanho da amostra. Caso contrrio, se P(G
k
0
#G
k
*
) > ", Ho
aceita, e duas alternativas so possveis: (1) se as probabilidades P(G
k
0
#G
k
*
) so
consistentemente maiores do que " e estveis para tamanhos de amostra maiores do que n
k
, a
amostra suficiente, e a classificao ser considerada ntida; (2) se a magnitude de
P(G
k
0
#G
k
*
) ainda instvel ou decrescente para tamanhos de amostra maiores do que n
k
, a
amostra considerada insuficiente, no sendo possvel nenhuma concluso a respeito da
nitidez da estrutura de grupos. Casos tpicos com dados artificiais esto na Fig. 4. Um
exemplo com dados limnolgicos mostrado na Fig. 5.
Suficincia amostral em ordenao
Mtodos de ordenao, discutidos no captulo ??, permitem obter uma sntese da
variao observada em um espao geomtrico, abstrato, multidimensional, no qual dados
ecolgicos podem ser representados. A sntese obtida pode ser visualizada em diagramas de
Pillar, V.D. Suficincia amostral em estudos limnolgicos 9
disperso como na Fig. 6. Qual a probabilidade de que tendncias de variao observadas
atravs da ordenao de dados obtidos de um levantamento se mantenham ao se repetir o
levantamento no mesmo universo amostral? A questo est vinculada significncia dos
eixos de ordenao, mas somente poder ser respondida se a amostra for suficiente. H
antecedentes na aplicao de reamostragem bootstrap na determinao de significncia de
eixos de ordenao (Stauffer et al. 1985, Knox & Peet 1989, Jackson 1993).
Em Pillar (1999b) descrevo mtodo baseado em reamostragem bootstrap para avaliar
a significncia de eixos de ordenao. O procedimento inicia-se pela aplicao do mtodo de
ordenao ao pseudo universo amostral, armazenando-se os escores das unidades amostrais
como escores de referncia. A seguir, para cada tamanho k de amostra, o seguinte
procedimento seguido e repetido um grande nmero de vezes (iteraes): tomada uma
amostra bootstrap de tamanho n
k
a qual submetida ao mtodo de ordenao. Os escores de
ordenao da amostra bootstrap para um dado nmero de eixos da ordenao so
armazenados em uma matriz X
k
*, e os escores das unidades amostrais que esto na amostra
bootstrap, mas extrados dos escores de referncia, so armazenados em uma matriz X
k
. Um
ajuste Procrusteano (Schnemann & Carroll 1970) envolvendo os primeiros i eixos da
ordenao torna os escores das duas ordenaes comparveis; tal ajuste envolve rotao,
translao e dilatao do subespao de ordenao na amostra bootstrap, de tal forma a
maximizar o ajuste com a ordenao do pseudo universo amostral. Os escores no eixo de
ordenao i em X
k
* e X
k
so comparados pelo coeficiente de correlao
!
ki
*
= r(x
ki
*, x
ki
)
Quanto mais alta a correlao, melhor a concordncia entre os escores bootstrap e de
referncia, e mais estvel so as tendncias de variao observadas na ordenao da amostra
de tamanho k. A cada iterao a correlao !
ki
*
comparada a uma correlaco !
ki
0
gerada sob
a hiptese nula de que os dados no tm estrutura. Ou seja, as matrizes X
k
* e X
k
so agora
obtidas atravs de reamostragem bootstrap dos dados observados com as observaes
permutadas aleatoriamente dentro de variveis. Se !
ki
0
$ !
ki
*
, o algoritmo soma 1 freqncia
acumulada F(!
ki
0
$ !
ki
*
). Aps B iteraes bootstrap, a probabilidade P(!
ki
0
$ !
ki
*
) a
proporo F(!
ki
0
$ !
ki
*
)/B. Mais detalhes do mtodo podero ser encontrados em Pillar
(1999b).
CONSIDERAES FINAIS
Apresentei neste captulo mtodos recentes de avaliao de suficincia amostral
baseados em reamostragem bootstrap, computacionalmente intensivos, mas que superam
limitaes impostas pelos mtodos oferecidos pela teoria amostral clssica. A limitao
destes ltimos evidente em ecologia quando o objetivo da amostragem freqentemente o
reconhecimento de padres e sua interpretao. O problema computacional, presente h
poucos anos atrs, est superado com a generalizao de microcomputadores com
processadores cada vez mais rpidos, combinados com o uso de algoritmos eficientes.
Resultados com o programa SAMPLER (Pillar 1999d) podem ser obtidos em um
microcomputador em questo de segundos ou poucos minutos, dependendo do tamanho da
amostra. Apesar de fortes argumentos a favor da utilizao desses novos mtodos
computacionalmente intensivos, o seu conhecimento e uso ainda no generalizado, havendo
uma evidente inrcia manifestada nos livros textos bsicos e softwares de estatstica.
Os exemplos usando dados de levantamentos limnolgicos mostraram que, com os
mesmos dados, a suficincia amostral pode ser indicada com diferentes tamanhos de amostra
dependendo dos objetivos. Um dado tamanho de amostra pode ser suficiente, por exemplo,
Pillar, V.D. Suficincia amostral em estudos limnolgicos 10
para interpretar os primeiros eixos de ordenao mas no para revelar grupos com um certo
nvel de partio. Quando o objetivo da anlise o reconhecimento de padres e sua
interpretao, deve-se distinguir claramente suficincia amostral de significncia de parties
ou de eixos de ordenao. O tamanho da amostra pode ser suficiente para avaliar a
significncia de um dado eixo de ordenao, mas o teste poder indicar que tal eixo de
ordenao no-significativo por apresentar padres inconsistentes na reamostragem. Por
outro lado, uma amostra pode ser suficiente para avaliar nitidez de estrutura de grupos a um
dado nvel de partio, mas a estrutura de grupos pode no ser necessariamente ntida.
AGRADECIMENTOS
O autor agradece a Ronaldo Padilha por ter gentilmente cedido seus dados para serem
utilizados em exemplos neste trabalho, e a Albano Schwarzbold por sugestes no texto.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 11
BIBLIOGRAFIA
Braun-Blanquet, J. 1979. Fitosociologia; bases para el estudio de las comunidades
vegetales. Madrid: Blume. 819p.
Camiz, S. & Gergely, A. 1990. An exploratory method for determining optimal plot size in
plant community studies. Abstracta Botanica 14: 83-108.
Cochran, W.G. 1977. Sampling Techniques, 3 ed. New York: Wiley. 428p.
Efron, B. 1979. Bootstrap methods: another look at the jackknife. The Annals of Statistics 7:
1-25.
Efron, B. & Tibshirani, R. 1993. An Introduction to the Bootstrap. London: Chapman &
Hall. 436p.
Goedickemeier, I., Wildi, O. & Kienast, F. 1997. Sampling for vegetation survey: Some
properties of a GIS-based stratification compared to other statistical sampling methods.
Coenoses 12: 43-50.
Green, R.H. 1979. Sampling Design and Statistical Methods for Environmental Biologists.
New York: Wiley. 257p.
Greig-Smith, P. 1983. Quantitative Plant Ecology 3rd ed. Oxford: Blackwell.
Jackson, D.A. 1993. Stopping rules in principal components analysis: a comparison of
heuristical and statistical approaches. Ecology 74: 2204-2214.
Jongman, R.H.G., ter Braak, C.J.F. & van Tongeren, O.F.R. (eds.). 1995. Data Analysis
in Community and Landscape Ecology. Cambridge: Cambridge University Press. 299p.
Juhsz-Nagy, P. & Podani, J. 1983. Information theory methods for the study of spatial
processes and succession. Vegetatio 51: 129-140.
Kenkel, N.C., Juhsz-Nagy, P. & Podani, J. 1989. On sampling procedures in population
and community ecology. Vegetatio 83: 195-207.
Knox, R.G., & Peet, R.K. 1989. Bootstrapped ordination: a method for estimating sampling
effects in indirect gradient analysis. Vegetatio 80: 153-165.
Krishnaiah, P.R. & Rao, C.R. (eds.). 1988. Sampling. Amsterdam: North-Holland. 594p.
Legendre, L. & Legendre, P. 1998. Numerical Ecology 2nd ed. New York: Elsevier. 853p.
Orlci, L. 1978. Multivariate Analysis in Vegetation Research. The Hague: Junk. 450p.
Orlci, L. 1993. The complexities and scenarios of ecosystem analysis. In: Patil, G.P. &
Rao, C.R. (eds.) Multivariate Environmental Statistics. Amsterdam: North-Holland.
p.423-432.
Orlci, L. & Pillar, V.D. 1989. On sample size optimality in ecosystem survey. Biomtrie-
Praximetrie 29: 173-184.
Padilha, R.S. 1997. Limnologia de pequenas lagoas e arroios da Reserva Ecolgica do
Morro Santana, Porto Alegre, Rio Grande do Sul. Dissertao de Bacharelado. Porto
Alegre: Universidade Federal do Rio Grande do Sul, 128p.
Palmer, M.W. 1988. Fractal geometry: a tool for describing spatial patterns of plant
communities. Vegetatio 75: 91-102.
Palmer, M.W. & White, P.S. 1994. On the existence of ecological communities. Journal of
Vegetation Science 5: 279-282.
Patil, G.P., Babu, G.J., Hennemuth, R.C., Myers, W.L., Rajarshi, M.B. & Taillie, C.
1988. Data-based sampling and model-based estimation for environmental resources. In:
Krishnaiah, P.R. & Rao, C.R. (eds.). Sampling. Amsterdam: North-Holland. p. 489-513.
Pielou, E.C. 1984. The interpretation of Ecological Data. A primer on Classification and
Ordination. New York: Wiley-Interscience. 263p.
Pillar, V.D. 1998. Sampling sufficiency in ecological surveys. Abstracta Botanica 22: 37-48.
Pillar, V.D. 1999a. How sharp are classifications? Ecology 80: 2508-2516.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 12
Pillar, V.D. 1999b. The bootstrapped ordination reexamined. Journal of Vegetation Science
10(6): ???-??? (no prelo).
Pillar, V.D. 1999c. Software for testing classification sharpness combined with sampling
sufficiency evaluation. Ecological Archives E080-014-S1.
Pillar, V.D. 1999d. SAMPLER software for bootstrap resampling and evaluation of
sampling sufficiency. Porto Alegre: Departamento de Ecologia, UFRGS.
Podani, J. 1994. Multivariate data analysis in ecology and systematics. The Hague: SPB.
316p.
Podani, J., Czrn, T. & Bartha, S. 1993. Pattern, area and diversity: the importance of
spatial scale in species assemblages. Abstracta Botanica 17: 37-51.
Schnemann, P.H., & Carroll, R.M. 1970. Fitting one matrix to another under choice of a
central dilation and a rigid motion. Psychometrika 35: 245-256.
Stauffer, D.F., Garton, E.O. & Steinhorst, R.K. 1985. A comparison of principal
components from real and random data. Ecology 66: 1693-1698.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 13
Tabela 1. Determinao de intervalos de confiana atravs de reamostragem bootstrap
ilustrada atravs de um exemplo numrico. A amostra contm 11 unidades amostrais,
descritas por uma varivel apenas, cujas observaes so as seguintes: 41, 29, 3, 42, 42, 42,
16, 11, 6, 42, 42. Neste exemplo, intervalos de confiana de 80% foram determinados para
amostras com 3, 5, 7, 9 e 11 unidades amostrais, atravs de 10 iteraes bootstrap.
Recomenda-se que em situaes reais o nmero de iteraes seja pelo menos 1000. A cada
iterao mdias foram computadas com as unidades amostrais tomadas na ordem indicada.
Por exemplo, na primeira iterao a mdia de uma amostra bootstrap com 3 unidades
amostrais foi (11+42+41)/3 = 31,33, de uma amostra com 5 unidades amostrais foi
(11+42+41+42+42)/5 = 35,6 e assim sucessivamente. Tendo arranjado em ordem crescente
as mdias para cada tamanho de amostra, os limites inferior e superior foram respectivamente
os valores nas posies w e B-w+1, sendo w = B"/2 = 10(1-0,8)/2 = 1, B o nmero de
iteraes bootstrap e " a probabilidade especificada para a zona de excluso do intervalo de
confiana. Neste exemplo os limites coincidem com os valores mnimo e mximo.
a) Resultados intermedirios em 10 iteraes de reamostragem bootstrap:
Tamanho da amostra bootstrap
Amostras bootstrap 3 5 7 9 11
1 11 42 41 42 42 42 42 29 3 11 6 31,33 35,6 37,43 32,67 28,27
2 41 16 42 41 41 6 29 42 11 42 6 33 36,2 30,86 29,89 28,82
3 42 3 41 41 42 42 42 11 41 42 42 28,67 33,8 36,14 33,89 35,36
4 16 42 3 29 29 42 42 42 42 11 3 20,33 23,8 29 31,89 27,36
5 6 6 29 42 6 42 42 41 16 42 42 13,67 17,8 24,71 25,56 28,55
6 41 42 16 29 3 6 6 42 11 41 3 33 26,2 20,43 21,78 21,82
7 16 29 42 42 3 29 6 3 42 16 42 29 26,4 23,86 23,56 24,55
8 6 6 41 16 42 11 11 29 29 42 6 17,67 22,2 19 21,22 21,73
9 16 16 42 29 3 42 42 16 42 42 42 24,67 21,2 27,14 27,56 30,18
10 42 6 29 42 42 42 11 41 42 11 42 25,67 32,2 30,57 33 31,82
b) Intervalos de confiana (80%):
Tamanho de amostra
3 5 7 9 11
Limite inferior 13,67 17,8 19 21,22 21,73
Limite superior 33 36,2 37,43 33,89 35,36
Mdia das mdias geradas nas 10 iteraes 25,7 27,54 27,91 28,1 27,85
Tamanho da amostra
M

d
i
a

d
a

a
m
o
s
t
r
a

Figura 1. A estimativa do atributo ser mais acurada quanto mais prximo do estado
verdadeiro do universo amostral for o estado inferido via amostragem.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 14
Tamanho de amostra
Tamanho de amostra

X

X

X
0.25
0.75
0.5
5 60
C
0.25
0.75
0.5
5 60
Tamanho de amostra
A
0.25
0.5
0.75
5 60
B
Figura 2. Valores mdios de uma varivel X obtidos por reamostragem com reposio de um
conjunto de dados com 60 unidades amostrais. Os tamanhos de amostra variam de 5 a 60.
Duas das muitas seqncias de possveis mdias das amostras so mostradas em A-B. Em C
90% intervalos de confiana foram definidos com base em 1000 iteraes de reamostragem
para cada tamanho de amostra. Para ilustrar, so mostrados com os limites em C o caso em A
Pillar, V.D. Suficincia amostral em estudos limnolgicos 15
e a mdia das 1000 mdias a cada tamanho de amostra (quase uma linha reta e num valor
idntico mdia da varivel X). Para estimar a mdia da varivel X, usando, e.g., uma
amostra com 5 unidades amostrais a mdia esperada estar em 90% dos casos 0,36 e 0,67, ou
seja, mdias com uma diferena de at 0,31 podem no ser significativamente diferentes
(assumindo que as populaes tm as mesmas distribuies de freqncias). Diferenas bem
menores podem ser detectadas com 30 unidades amostrais; a mdia estar entre 0,42 e 0,60.
H uma vantagem muito pequena em tomar 60 unidades amostrais; o intervalo de confiana
estar entre 0,45 and 0,58. Adaptado de Pillar (1998).
Pillar, V.D. Suficincia amostral em estudos limnolgicos 16
Soma de quadrados dentro de grupos
1-3
1-2
1-1
1-4
2-1
2-2
2-4
3-1
3-2
3-3
3-4
4-1
4-2
4-3
4-4
5-1
5-2
5-3
5-4
0 1000 2000
Figura 3. Dendrograma de anlise de agrupamentos, obtida pelo mtodo da varincia
mnima, com dados contendo 19 unidades amostrais descritas pela composio de algas (109
espcies). Dados de Padilha (1997). A anlise utilizou distncias euclidianas calculadas com
os dados transformados por log (x+1). A anlise de agrupamentos oferece vrias
possibilidades de classificao (partio em grupos).
Pillar, V.D. Suficincia amostral em estudos limnolgicos 17
Tamanho de amostra
0.25
5
0
0.05
A
0.5
5
60
B
P(G!G*)
30
0.05
P(G!G*)
0
Tamanho de amostra
60 30
3 grupos
4 grupos
Figura 4. Avaliao de suficincia amostral e significncia de nveis de partio em grupos
atravs de probabilidades P(G
k
0
#G
k
*
) em diferentes dados. Probabilidades geradas em 10000
iteraes de reamostragem bootstrap a cada tamanho de amostra. Dados e nvel de partio
so os seguintes: (A) Dados artificiais com 60 unidades amostrais descritas por 60 variveis
geradas por nmeros aleatrios (no h grupos ntidos), nvel de partio 2; (B) Dados
artificiais gerados com 3 grupos bem ntidos, nveis de partio em 3 e 4 grupos. A anlise de
agrupamentos pelo mtodo de varincia mnima. Adaptado de Pillar (1998). Os dados em
A, sem nenhuma estrutura de grupos, foram corretamente identificados como tal (adotando
um limiar " = 0,05) em amostras com 6 ou mais unidades amostrais. Os dados em B,
gerados com uma estrutura ntida de 3 grupos, foram corretamente identificados como tal em
amostras com 8 ou mais unidades amostrais (para um limiar " = 0,05), sendo que amostras
menores indicariam 4 grupos ntidos. Adotando-se um limiar " = 0,1, concluses corretas
seriam obtidas para amostras com 5 ou mais unidades amostrais.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 18
0.5
Tamanho de amostra
0
0.1
0.25
2 grupos
3 grupos
4 grupos
6 10 15 19
P(G!G*)
Figura 5. Avaliao de suficincia amostral e significncia de nveis de partio em grupos
atravs de probabilidades P(G
k
0
#G
k
*
) geradas por reamostragem bootstrap (Pillar 1999a). Os
dados (Padilha 1997) foram obtidos em 19 unidades amostrais descritas pela composio de
algas (109 espcies). Probabilidades foram geradas em 10000 iteraes de reamostragem a
cada tamanho de amostra. Os grupos foram obtidos por anlise de agrupamentos pelo mtodo
de varincia mnima; a Fig. 3 mostra dendrograma obtido com as 19 unidades amostrais.
Considerando um limiar " = 0,1, o teste indica que parties em 2 e 3 grupos so ntidas,
enquanto parties em 4 grupos ou mais (estes no mostrados) so difusas. Porm, as curvas
para 2 ou 3 grupos ainda so levemente decrescentes at 19 unidades amostrais, indicando
que a amostra com 19 unidades amostrais insuficiente para concluses definitivas a respeito
da nitidez dos grupos nesses nveis de partio. A curva para 4 grupos tambm levemente
decrescente at 19 unidades amostrais, mas a concluso de que os grupos so difusos no se
alterar se a curva continuar decrescendo com tamanhos maiores de amostra.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 19
Eixo 1 (28,1%)
E
i
x
o

2

(
1
4
,
4
%
)
1-3
1-2
1-1
1-4
2-1
2-2
2-4
3-1
3-2
3-3
3-4
4-1
4-2
4-3
4-4
5-1
5-2
5-3
5-4
0
0
Figura 6. Diagrama de disperso obtido por ordenao de 19 unidades amostrais. Os dados
(Padilha 1997) foram obtidos em 19 unidades amostrais descritas pela composio de algas
(109 espcies). Os pontos so as unidades amostrais; os eixos foram obtidos por anlise de
coordenadas principais a partir de distncias euclidianas calculadas com os dados
transformados por log (x+1). Os dois eixos contm 28,1 + 14,4 = 42,5% da varincia total.
Os taxons cuja variao est mais correlacionada com o eixo 1 so as seguintes:
Sphaerocystis sp. (r = -0.89), Cymbella sp. (r = -0.88), Hyaloraphidium sp. (r = -0.85),
Rhizosolenia sp. (r = -0.85), Micrasterias sp. (r = -0.85) e Stenopterobia sp. (r = -0.82). Com
o eixo 2 esto mais correlacionados os seguintes taxons: Scenedesmus sp. (r = -0.80), Eunotia
sp. (r= -0.79), Radiococcus sp. (r = -0.79) e Kirchneriella sp. (r = -0.78). Qual a
probabilidade de que essas tendncias de variao observadas no diagrama se mantenham ao
se repetir o levantamento no mesmo universo amostral?
Pillar, V.D. Suficincia amostral em estudos limnolgicos 20
P(!!!*)
P(!!!*)
5 30 60
Tamanho de amostra
5 30 60
Tamanho de amostra
A
B
0,5
0,5
0
0
Figura 7. Avaliao de suficincia amostral e significncia de eixos de ordenao em um
conjunto de dados artificiais com 60 unidades amostrais e 60 variveis geradas por nmeros
aleatrios. O mtodo de ordenao por anlise de coordenadas principais. Em A avaliado
o eixo 1 da ordenao, e em B o eixo 2. As probabilidades P(!
ki
0
$ !
ki
*
) foram geradas em
1000 iteraes de reamostragem bootstrap (Pillar 1999b). Probabilidades prximas de 0,5
indicam que os eixos de ordenao, como esperado, no representam tendncias consistentes
de variao. A estabilidade das curvas indica que uma amostra com 5 ou mais unidades
amostrais seria suficiente neste caso.
Pillar, V.D. Suficincia amostral em estudos limnolgicos 21
0.5
0
0.25
0.1
Tamanho de amostra
eixo 1
Probabilidade P(! " !*)
19 6 10 15
eixo 2
Figura 8. Efeito do tamanho da amostra na significncia de eixos de ordenao, obtidos por
anlise de coordenadas principais. Os dados, que so os mesmos de exemplos anteriores
(Padilha 1997), foram obtidos em 19 unidades amostrais descritas pela composio de algas
(109 espcies). O mtodo envolve reamostragem bootstrap e ordenao com tamanhos
crescentes de amostra (Pillar 1999b). Para um limiar " = 0,1, o teste indica que amostras com
13 ou mais unidades amostrais so suficientes para interpretar como consistentes as
tendncias de variao reveladas sobre o eixo 1 da ordenao. O teste indica que o eixo 2 da
ordenao no significativo; conseqentemente interpretaes deste eixo quanto a
correlao com taxons ou variveis fsicas e qumicas sero provavelmente inconsistentes se
o levantamento for repetido. A curva para o eixo 2 estabiliza com amostras de 13 ou mais
unidades amostrais, indicando que a amostra suficiente para uma concluso definitiva a
respeito desse eixo.