Você está na página 1de 141

INSTITUTO NACIONAL DE PESQUISAS DA AMAZNIA

COORDENAO DE PESQUISAS EM SILVICULTURA TROPICAL

LABORATRIO DE MANEJO FLORESTAL - LMF

BIOMETRIA
FLORESTAL

Niro Higuchi
Joaquim dos Santos
Adriano Jos Nogueira Lima

Manaus AM
Maro, 2008

PARTE 1

Captulo 1
Introduo - Conceitos gerais
A estatstica uma ferramenta importante para o manejo florestal, seja pra quem est
interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,
executar e acompanhar um projeto. Difcil separar a estatstica pra essas duas frentes. O
objetivo desta Parte da apostila aprofundar em conceitos dos indicadores estatsticos mais
freqentemente utilizados pelos florestais e ajudar na interpretao dos resultados.
Estatstica um ramo do conhecimento cientfico que consta de conjunto de processos
que tm por objeto a observao, a classificao formal e a anlise dos fenmenos coletivos
ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferncias
indutivas vlidas a partir dos dados observados e buscar mtodos capazes de permitir esta
inferncia (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo
conceito para estatstica que, segundo Edgard, "a arte de torturar os nmeros at que eles
confessem aquilo que voc quer ouvir."
Em inventrio florestal, produto sem estatstica no produto. Em inventrios, o
principal produto o intervalo de confiana para a mdia estimada. Na pesquisa cientfica, a
estatstica pode ser vista como um instrumento de comunicao e, embora o seu uso seja
absolutamente opcional, ela fornece os modelos que so necessrios para estudar as situaes
que envolvem incertezas, mas a palavra final sua.
O exerccio, a anlise e a interpretao do pensamento cientfico normalmente so
feitos por meio da linguagem operacional dos conceitos e hipteses cientficas. Isso implica
na formulao de hipteses estatsticas e estabelecimento dos procedimentos de observaes
diretas ou de medies.
Linguagem terica: quanto mais grossa a rvore, mais madeira ser oferecida
indstria de transformao. Neste caso, dois conceitos so envolvidos: espessura e madeira.
Com definir esses dois conceitos? Espessura pode ser o dimetro de uma rvore. Madeira
pode ser a quantidade de material lenhoso disponvel para a indstria.
E da? Que fazemos agora? Temos que operacionalizar as observaes e medies de
espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em
centmetros de dimetro altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por
sua vez, pode ser traduzida como volume cbico da rvore.
Agora, a hiptese cientfica pode ser enunciada, em termos de hiptese estatstica, da
seguinte maneira: Quanto maior o DAP, maior ser o volume da rvore. Dessa forma, o
pica-pau fica mais vontade.
Depois de formulada a hiptese, o passo seguinte consiste em test-la. Para se testar as
hipteses sero precisos: planejar a coleta de dados, coletar os dados, tratar os dados,
processar os dados, analisar os resultados e, finalmente, tomar decises para rejeitar ou no a
hiptese estatstica formulada (Ver figura 1.1).
O papel da estatstica na pesquisa cientfica ajudar o pesquisador pica-pau a
formular as hipteses e a fixar as regras de deciso.

Um pouco de filosofia.
- Aristteles escreveu: A verdade um alvo to grande que dificilmente algum
deixar de toc-lo, mas, ao mesmo tempo, ningum ser capaz de acert-lo em cheio, num s
tiro.
- A meta da cincia a organizao sistemtica do conhecimento sobre o universo,
baseado nos princpios explanatrios que so genuinamente testveis.
- O pesquisador tem os dons da instituio e criatividade para saber que o problema
importante e quais questes devem ser levantadas; a estatstica, por sua vez, o assistir por
meio da maximizao de output no ambguos enquanto minimiza os inputs.
- O pesquisador tem que ter em mente que a pesquisa freqentemente levanta mais
questes do que respostas. Os resultados quase sempre so meramente uma demonstrao de
nossa ignorncia e uma declarao mais clara do que no sabemos.
- O pesquisador tem que manter os olhos abertos, sua mente flexvel e estar preparado
para surpresas.
- A pesquisa est na cabea do pesquisador; o laboratrio ou o campo meramente
confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as
questes certas para fazer e no nas certas respostas.
- A aplicao indiscriminada dos mtodos quantitativos sobre inesgotveis
quantidades de dados no significa que o entendimento cientfico vai emergir s por causa
disso.

1.1. A Natureza da Estatstica:


Basicamente, so dois tipos de estatstica: descritiva e de inferncia.
A cincia da estatstica inclui ambas, descritiva e de inferncia. A estatstica descritiva
apareceu primeiro, nos censos feitos na poca do imprio romano. A de Inferncia mais
recente e baseada na teoria da probabilidade que, por sua vez, no se estabeleceu antes da
metade do sculo XVII.
a) Estatstica descritiva => consiste de mtodos para organizar e sumarizar as
informaes.
O propsito da organizao e sumarizao te ajudar na interpretao de um monte de
informaes. Os mtodos descritivos incluem a construo de grficos, figuras e tabelas,
como tambm, o clculo de vrios tipos de mdias e ndices. Exemplos: resultado final de
uma eleio apresentado pelo Tribunal Superior Eleitoral (TSE) Quadro 1.1, desmatamento
na Amaznia Figura 1.2., reas desmatadas com autorizao e sem autorizao Figura 1.3
e as origens da madeira amaznica Figura 1.4.
b) Estatstica de inferncia => consiste de mtodos para inferir sobre uma populao
baseada na informao de uma amostra da populao.
A estatstica de inferncia moderna praticamente surgiu aps as publicaes cientficas
de Karl Pearson e Ronald Fisher, no incio do sculo passado (XX). Depois disso, houve uma
evoluo fantstica dessa cincia, tornando-se aplicvel a vrias reas de conhecimento, tais
como: Eng. Florestal, Agronomia, Biologia, Histria, Fsica, Qumica, Psicologia etc.
Exemplo 1: Pesquisas de opinio realizadas pelas empresas (DATAFOLHA, IBOPE,
VOX POPULI etc), pouco antes de eleies. A Figura 1.5 mostra a dinmica de opinio de
eleitores brasileiros na eleio para presidente de 2002 com base em pesquisas de opinio
realizadas pelo IBOPE. O resultado do 1 turno apresentado na ltima coluna como TSE,

tirado do Quadro 1.1. Os resultados do IBOPE, do ltimo dia de pesquisa (com margem de
erro igual a 1,8%), so praticamente iguais aos oficiais do TSE. A informao do TSE sobre
votos vlidos enquanto que os da pesquisa de opinio so de inteno de votos. Na pesquisa
de opinio do 1 turno difcil identificar o voto nulo.
Exemplo 2: Pesquisas de opinio sobre o 2 turno da eleio presidencial 2002,
realizadas pelo Datafolha. Neste caso, foi possvel estimar os percentuais sobre os votos
vlidos. No ltimo dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos vlidos
para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinmica de opinio de eleitores para
o2 turno da eleio de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7%
para o Serra Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos),
as estimativas do ltimo dia seriam 62% (para menos) para o Lula e 38% (para mais) para o
Serra.
Esta parte da estatstica de inferncia evoluiu muito no Brasil. A prova disso so os
resultados finais do primeiro e do segundo turno da eleio presidencial de 2002 que tem
muito a ver com as previses feitas pelas pesquisas de opinio dos vrios institutos. O sucesso
tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de
dados e processamento & anlise dos resultados A evoluo da informtica tambm
contribuiu muito para o sucesso das pesquisas; o rpido processamento e, conseqente,
anlise dos resultados, permitiu a repetio em intervalos de tempo menores isso
fundamental para a validao dos mtodos utilizados que, por sua vez, d a robustez
necessria para a pesquisa e a sociedade ganha com a maior preciso e confiabilidade das
pesquisas de opinio.
Exemplo 3: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com
base no intervalo de confiana (95%) da srie histrica de 1978 a 2005 Figura 1.7. Apesar
da confuso das estatsticas e de sua interpretao, com boa vontade e profissionalismo, as
causas do desmatamento poderiam ser identificadas. O desafio entender a direo que o
desmatamento pode tomar no futuro. Sem entender as causas, a direo s pode ser
estocstica. A Figura 1.7 ilustra o uso do intervalo de confiana IC (nvel de probabilidade
de 95%) para a mdia do perodo 1978-2005. De acordo com dinmica do desmatamento at
2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) so: 29%
de ficar acima da estimativa mxima provvel (maior do que 20.983 km2), 29% abaixo da
estimativa mnima provvel (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de
confiana (entre 16.296 a 20.983 km2) com 95% de chance de acertar.
Exemplo 4: Todos os trabalhos de equaes de volume que utilizam os modelos
destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em
modelos matemticos que sero utilizados, posteriormente, para estimar o volume da rvore
em p.
Para concluir a discusso, em torno da natureza da estatstica, importante no perder
de vista que a opo por uma das duas estatsticas pode ser pessoal. Entretanto, se a escolha
recair sobre a de inferncia, o pesquisador deve se sujeitar as suas regras e condicionantes. A
estatstica de inferncia, por sua vez, deve ficar sob as condicionantes da teoria da
probabilidade, da normalidade e da independncia; a violao de uma dessas condicionantes
implica em um comprometimento muito srio de todo o seu trabalho.

1.2. Conceitos Bsicos:


Talvez, os conceitos mais importantes para os florestais so erros amostrais e no
amostrais. Se voc conseguir distinguir esses dois conceitos, voc sempre far um trabalho
confivel e, por conseguinte, a estatstica ser uma ferramenta til na execuo de seus

trabalhos de pesquisa, encurtando caminhos para a produo de cincia e de resultados de


inventrio florestal.
(i) Erro Amostral => o erro que voc comete por no medir toda a populao. Este
parmetro mensurvel e, dependendo da escolha dos mtodos, voc tem condies de
aumentar ou diminuir este erro. De qualquer modo, trata-se de um parmetro que pode ser
controlado e avaliado por voc. o desvio padro da mdia ou, simplesmente, erro padro e
tem frmula para o seu clculo. a nica medida de preciso, por mais paradoxal que possa
parecer, em qualquer trabalho de pesquisa ou de inventrio florestal.
(ii) Erro no-amostral => o erro humano, que pode ser cometido acidental ou
deliberadamente. o tipo de erro que voc comete ao alocar uma amostra no lugar errado
ex.: no escritrio voc faz a opo pela amostragem inteiramente aleatria e sorteia as
unidades amostrais e distribui em sua rea estudo; no campo, entretanto, voc no consegue
aloc-las de acordo com as coordenadas pr-estabelecidas e aloc-as em outro lugar. Voc
tambm comete erro no-amostral quando utiliza um equipamento defeituoso ou, por
preguia, voc chuta as medidas de uma determinada varivel. O problema desse erro que
voc no consegue dimension-lo e, neste caso, no h estatstica que d jeito para consertar o
mal-feito. A estatstica e o computador s so teis na interpretao de fenmenos observados
quando os dados so de absoluta confiana e sem erros no-amostrais.
Moral: Busque sempre a melhor metodologia para conseguir a maior preciso de seu
trabalho sem, contudo, aumentar a possibilidade de cometer erros no-amostrais. BOM
PESQUISADOR aquele que no entrega sua coleta de dados para qualquer PEO.
(iii) Populaes, Parmetros e Estimativas
A noo central em qualquer problema de amostragem a existncia de uma
populao. Pense em uma populao como um agregado de valores unitrios, onde a
unidade a coisa sobre a qual a observao feita e o valor a propriedade observada
sobre aquela coisa. Populao ento o conjunto de todos os indivduos ou itens sob
considerao. Ou ainda: populao o universo de seu interesse.
Ilustrando:
- se voc est interessado em estudar o potencial quantitativo da floresta da Reserva
Ducke, a POPULAO o conjunto de todas as rvores acima de um determinado DAP,
existentes naquela rea de 10.000 hectares.
- se para voc potencial quantitativo significa volume cbico obtido de equaes
simples (DAP como varivel independente), o volume mdio (por hectare, por ex.) de todas as
rvores da Reserva Ducke o PARMETRO.
- se voc, no entanto, decidir pela avaliao por amostragem e lanar naquela rea
algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribudas), o volume mdio
dessas amostras a ESTIMATIVA.
AMOSTRA aquela parte da populao da qual a informao coletada.
(iv) Tendncia (bias), Exatido e Preciso
TENDNCIA ou VIS (bias, em ingls) uma distoro sistemtica. Ela pode ser
devido a alguma falha na medio, ou no mtodo de selecionar a amostra, ou na tcnica de
estimar o parmetro.
Se voc medir o DAP com uma fita diamtrica faltando um pedao na ponta (2 cm),
voc medir todas as rvores com 2 cm a mais, ou seja, voc superestimar esta varivel. Uma
maneira prtica de minimizar as tendncias em medies por meio de checagens peridicas

dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado
com eles.
Tendncia devido o mtodo de amostragem ocorre quando certas unidades ganham
maior ou menor representao na amostra do que na populao. Ex.: se voc excluir 20
metros de bordadura do lado oeste da Reserva Ducke por causa de um igarap. Neste caso,
voc est introduzindo tendncia em sua avaliao simplesmente porque voc no deu a
mesma oportunidade, para as rvores que ocorrem naquela faixa, em aparecer no seu trabalho.
Outro exemplo: quando a equipe econmica faz uma pesquisa nos supermercados do centrosul e extrapola o custo de vida para todo o Brasil; isso uma medida tendenciosa que no
reflete o que se passa em Manaus.
Tendncia na forma de estimar determinado parmetro pode ser introduzida quando
voc, por exemplo, toma o volume mdio da Reserva Ducke e junta com o volume mdio do
Distrito Agropecurio da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro
da regio de Manaus. Um volume mdio no tendencioso seria uma mdia ponderada
considerando os diferentes tamanhos de cada rea, em vez de usar a mdia aritmtica simples
(tendenciosa, neste caso).
Importante: A tendncia a me do erro no-amostral, por esta razo, evit-la sinal
de prudncia e sensatez.
PRECISO E EXATIDO uma estimativa tendenciosa pode ser PRECISA, mas
nunca EXATA. Ainda que o Aurlio (dicionrio) pense diferente, para os estatsticos,
EXATIDO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade;
PRECISO refere-se distribuio dos valores amostrais em torno de sua prpria mdia que,
se for tendenciosa, no pode ser o valor verdadeiro Ver figura 1.8. Exatido ou estreiteza ao
valor verdadeiro pode estar ausente por causa da tendncia, falta de preciso ou por causa de
ambas.

PENSAMENTO

OPERACIONALIZAR

HIPOTETIZAR

planejar

coletar
co
letar

tratar

processar

rejeitaa ?
rejeit

sim, concluir!

Figura 1.1: Pesquisa cientfica do pensamento inferncia.

analisar

no, concluir!

Quadro 1.1: Resultados das eleies para presidente de 2002.


RESULTADOS DAS ELEIES DE 2002
Total de eleitores = 115.254.113
Resultado do 1 turno: n de votantes = 94.804.126
ordem
1
2
3
4
5
6

Nmero
13
45
40
23
16
29

Candidato
Lula
Jos Serra
Garotinho
Ciro Gomes
Z Maria
Rui Pimenta

total votos
39.454.692
19.705.061
15.179.879
10.170.666
402.232
38.619

% vlidos
46,44
23,20
17,87
11,97
0,47
0,05

total votos
52.793.364
33.370.739

% vlidos
61,27
38,73

Resultado do 2 turno: n de votantes = 91.664.259


ordem
1
2

Nmero
13
45

Candidato
Lula
Jos Serra

fonte: www.tse.gov.br => consultas: 1 turno em 21/10/02 e 2 turno em 29/10/02

18.900

04/05

27.200
24597
23.266

03/04
02/03
01/02

18.165
18.226
17.269
17.383

ano ou perodo

00/01
99/00
98/99
97/98
96/97

13.227
18.161

95/96

29.059

94/95
92/94
91/92
90/91
89/90
87-89
78/87

14.896
13.786
11.030
13.730
17.770
21.050

rea desmatada em km2


fonte: www.inpe.br
Figura 1.2: Desmatamento anual (km2) na Amaznia.

45
40
35
30
25
20
15
10
5
0

2.500
2.000
1.500
1.000
500
0

relao A:D (%)

rea desmatada (km2)

3.000

1997 1998 1999 2000 2001 2002 2003 2004


ano
A

A:D (%)

Fonte: www.ibama.gov.br sisprof. A = rea desmatada com autorizao; D = rea


desmatada total e A:D relao entre autorizado e no autorizado.
Figura 1.3: Relao entre reas (em km2) desmatadas com autorizao e sem autorizao na
Amaznia.

sem origem
63%

d autorizado
20%
PMFS
17%

Fonte: www.ibama.gov.br sisprof


Figura 1.4: Origem da madeira da Amaznia planos de manejo florestal sustentvel
(PMFS), desmatamento autorizado e sem origem definida.

50

inteno de voto (%)

45
40

41

39

43

41

39

46

45

35
30
25

23,2
19

19

19

15

12

13

14

10

15

20

12

14

18
15

19
16

12

11

20

17,9

15

12
9

0
6 a 9/9

14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10

TSE

perodo da pesquisa
Lula

Serra

Garotinho

Ciro

Figura 1.5: Pesquisas de opinio realizadas pelo IBOPE para o 1 turno da eleio
presidencial de 2002.

70

inteno de votos (%)

60

61

58

59

58

31

32

23/out

26/out

50
40

32

32

30
20
10

11 out

18/out

data
Lula

Serra

indecisos

nulos/brancos

Figura 1.6: Pesquisas de opinio realizadas pelo Datafolha para o 2 turno da eleio
presidencial de 2002.

rea

mdia

mnima

mxima

30.000

IC(95%) = 18.689 2.372

28.000

rea desmatada (km2)

26.000
24.000
22.000

21.060

20.000

18.689

18.000

16.317

16.000

Acima = 29%

14.000

2005/06?

Dentro = 42%

12.000

05/06

04/05

03/04

02/03

00/01

99/00

98/99

97/98

96/97

95/96

94/95

92/94

91/92

90/91

89/90

87-89

78/87

01/02

Abaixo = 29%

10.000

ano ou perodo

Figura 1.7: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no
intervalo de confiana (95%) da srie histrica de 1978 a 2005.

impreciso

preciso

preciso

Figura 1.8: Diferena entre preciso e exatido.

exato

Captulo 2
Organizao dos dados
2.1. Dados:
A informao coletada e analisada pelo estatstico chamada de DADOS. H vrios
tipos de dados e a escolha da metodologia, pelo estatstico , parcialmente, determinada pelo
tipo de dados que ele tem em mos.
Exemplo 1: No exame de seleo para turma 90/91 do Manejo Florestal, tivemos 15
candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6
candidatos, 5 homens e 1 mulher. Joo da Silva tirou o primeiro lugar com nota 6,7 e Joaquim
Moreira tirou o ltimo lugar com a nota 5,0.
No exemplo acima, ns podemos destacar os seguintes tipos de dados:
QUALITATIVO o tipo mais simples de dados, a informao que coloca cada
candidato em uma das duas categorias homem ou mulher ou tipo florestal I ou tipo II ou
estocada ou no estocada etc. Esses dados do informaes sobre um indivduo ou um item.
ORDINAL A informao sobre classificao, dados que colocam os indivduos ou
objetos em ordem, rankeados. No exemplo, as classificaes de Joo e Joaquim so dados
ordinais.
MTRICO O termo mtrico se refere aos dados mensurveis e no deve ser
confundido com os dados em unidades mtricas. No exemplo, as notas dos candidatos (6,7 e
5,0 e outras notas) so dados mtricos.
Resumindo:
Dados qualitativos: dados que se referem qualidade no numricas ou atributos, tais
como: tipo florestal, gnero ou espcie florestal, cor de alguma coisa etc.
Dados ordinais: dados sobre classificao, ordem ou rank, tais como: classificao
de toras, ordem de chegada etc.
Dados mtricos: dados obtidos de medies de certas quantidades como: tempo,
altura, DAP, volume, peso etc.
Um outro importante tipo de dados o chamado DADOS CONTVEIS. A contagem
do numero de indivduos ou itens que caem em vrias categorias, tais como homem e
mulher fornece os dados contveis. Por exemplo, a informao dada no exemplo anterior
que foram aprovados 5 homens e 1 mulher, so dados contveis.
DADOS CONTVEIS so dados sobre o nmero de indivduos ou itens que caem
em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados
(qualitativo, ordinal ou mtrico).
Os dados QUALITATIVO e ORDINAL so referidos pelos estatsticos como dados
DISCRETOS porque eles classificam coisas em classes separadas e discretas. Na
classificao dos candidatos ao mestrado no h como colocar ningum entre o primeiro lugar
e o segundo. Tambm no h como classificar ningum entre homem e mulher. So
exemplos tpicos de dados discretos, porque no h como dizer que algum ficou em
primeiro lugar e meio ou o que fulano homem e meio. No caso de ordem de chegada ou
rank h possibilidade de empate, mas isso outra coisa e ser discutido na estatstica noparamtrica.

Por outro lado, a maioria dos dados mtricos considerada DADOS CONTNUOS
porque eles envolvem medies sobre uma escala contnua. A escala fica por conta da
preciso do aparelho de medio: na suta ou na fita diamtrica, o mximo que podemos
chegar dcimo de centmetros, ou seja, entre os DAPs 20 e 21 cm ns podemos ter DAPs
com 20.1, 20.2, ... , 20.9; nos cronmetros da Frmula 1, no entanto, o nvel de preciso
impensvel para os nossos relgios de pulso.

2.2. Dados grupados:


A quantidade de dados que pode ser coletada do mundo-real simplesmente
fantstica.
Exemplo 1: O censo brasileiro. Voc j imaginou a trabalheira que d para cadastrar
aproximadamente 180 milhes de pessoas, anotando o nome, sexo, idade, ocupao,
escolaridade etc. Apenas para ilustrar, se voc usar qualquer software (Excel ou Word) para
listar toda essa gente, voc gastar mais de 600 quilmetros de papel apenas para imprimir as
informaes bsicas, Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente voc
teria uma boa fotografia da populao brasileira. Ento, o que fazem os especialistas do
IBGE? Eles nos proporcionam variadas informaes: quantidades de homens e de mulheres
(X1); X1 por classe idade (X2); X2 por estado e por regio; X1 por nvel de escolaridade;
populao ativa etc.
Isso um exemplo tpico da aplicao da estatstica DESCRITIVA, por meio da
organizao e simplificao dos dados.
Exemplo 2: Dados sobre DAP das rvores da parcela-testemunha do bloco 2 (apenas
as 40 primeiras rvores).
Os pica-paus normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc.
Para ver quantos DAPs h em cada classe voc faz o seguinte:
Quadro 2.1. Dados de DAPs de 40 rvores.
rv. n
1
2
3
4
5
6
7
8
9
10

DAP
25.0
27.0
45.0
36.0
39.0
36.0
33.0
47.0
34.0
53.0

rv. n
11
12
13
14
15
16
17
18
19
20

DAP
33.0
38.5
31.8
52.0
37.0
27.7
35.0
33.0
47.0
33.0

rv. N
21
22
23
24
25
26
27
28
29
30

DAP
32.0
63.0
34.0
30.0
29.0
32.0
27.0
28.0
27.0
40.0

rv. n
31
32
33
34
35
36
37
38
39
40

DAP
37.0
41.0
40.0
32.0
58.0
28.0
77.0
58.0
43.0
30.0

Quadro 2.2. Clculo de freqncia de cada classe de dimetro.


classes de DAP
20 < 30
30 < 40
40 < 50
50 < 60
60 < 70
70 < 80
total

Contagem
IIIII III
IIIII IIIII IIIII IIII
IIIII II
IIII
I
I

n de rvores (f)
8
19
7
4
1
1
40

O nmero de indivduos (rvores) em cada categoria ou de DAP chamada de


FREQUNCIA daquela classe. O quadro 2.2 uma tabela de distribuio de freqncia. No
confundir distribuio de freqncia em estatstica com o termo freqncia da Ecologia
Vegetal. Nem sempre voc trabalha com quantidade to pequena de indivduos (n = 40, neste
caso). Com n maiores mais seguro montar a distribuio de freqncia utilizando a tabela
dinmica do Excel aplicao no Captulo 17 (Cadeia de Markov).
Algumas dicas para estabelecer distribuies de freqncia:
- o nmero de classes no deve ser nem muito pequeno e nem muito grande, ao
contrrio, no meio. Sugere-se um nmero entre 5 e 12 regra do olhmetro. Outra forma
atravs da seguinte frmula:
n classes 1 + 3,33 log N (N = nmero de dados)
- cada classe tem que ter a mesma dimenso. Do quadro 2.2, as dimenses so: 20 a
29.9, 30 a 39.9 etc.
- cada pedao de dados tem que pertencer a apenas a uma nica classe.
Essa lista poderia continuar, mas isso seria artificial. O propsito de grupar dados
distribu-los em um nmero razovel de classes de igual tamanho para facilitar a interpretao
dos mesmos. Se possvel, os intervalos que tem uma interpretao natural, devem ser
utilizados, como por exemplo: dados em DAP que so normalmente divididos em mltiplos
de 10.
20

freqncia absoluta

18
16
14
12
10
8
6
4
2
0
Freq

Figura 2.1: Histograma de freqncia para os mesmos dados do quadro 2.1.

A freqncia pode ser tambm apresentada em porcentagem ou decimal, conhecida


como FREQUNCIA RELATIVA. No quadro 2.3 para obter a freqncia relativa de cada
classe, bastou dividir a freqncia de cada classe por 40 (nmero total de indivduos
contados). Se multiplicarmos essas fraes por 100, teremos a freqncia em %, caso
contrrio, em decimais.
Quadro 2.3. - Distribuio de Freqncia relativa do quadro 2.1.
classes DAP
20 < 30
30 < 40
40 < 50
50 < 60
60 < 70
70 < 80

pt mdio
25
35
45
55
65
75

Freq
8
19
7
4
1
1

freq rel
0,200
0,475
0,175
0,100
0,025
0,025

freq acum
8
27
34
38
39
40

Algumas terminologias:
Classe uma categoria para o grupamento de dados.
Freqncia o nmero de indivduos ou objetos numa classe. Por exemplo, a
freqncia da classe 30-39.9 19.
Freqncia relativa a porcentagem, expressa como um decimal, do nmero total de
indivduos de uma determinada classe. A freqncia relativa da classe 50-59.9 0.1 ou 10%.
Freqncia acumulada a soma das freqncias dos valores inferiores ou iguais a
valor dado.
Distribuio de Freqncia a listagem das classes com suas freqncias.
Limite inferior da classe o menor valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite inferior 20.
Limite superior da classe o maior valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite superior 29.9. Se a preciso fosse de duas casas decimais, o limite superior
poderia ser 29.99 e assim por diante.
Intervalo de classe a diferena entre o limite superior e o limite inferior de uma
dada classe. No nosso exemplo, o intervalo 10, ou seja, 30 20 =10.
Ponto mdio da classe a mdia aritmtica entre o limite superior e limite inferior
da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto mdio 35 e assim
por diante.

2.3. Grficos e figuras:


Uma outra maneira de dar sentido a um conjunto de dados por meio da representao
grfica dos mesmos.
O grfico mais simples dos dados o HISTOGRAMA DE FREQUNCIA. A altura
de cada barra igual a freqncia que ela representa. Tem tambm o HISTOGRAMA DE
FREQUNCIA RELATIVA. H muitas outras formas de representao grfica de seus
dados. Hoje em dia, uma forma muito usada a PIE (torta). De qualquer modo, fique a
vontade e use de sua imaginao para dar a representao mais conveniente dos seus dados.

Captulo 3
Medidas descritivas
H muitos critrios, por sinal, bem avanados, para a descrio sucinta dos fenmenos
naturais. Apesar disso, a maioria das caractersticas usadas na estatstica, para descrever as
variveis aleatrias, em populaes particulares, caem em uma das trs categorias: (1)
medidas da tendncia central (alocao de um valor ordinrio); (2) medidas de disperso
(distncia relativa de valores extremos de um valor central); (3) medidas de relacionamento
entre as variveis (grau de similaridade ou dissimilaridade em magnitude).
Em geral, o volume de dados de uma pesquisa muito grande. Os mtodos de grficos
e grupamento de dados so teis no manuseio de um grande conjunto de dados. Uma outra
forma de sumarizar os dados por meio da computao de um nmero, tal como a mdia, a
qual substitui um grande volume de dados por um simples nmero.

3.1 Medidas de tendncia central:


As medidas de alocao mais comumente utilizadas so mdia aritmtica e a mediana.
Menos freqentemente usadas so: moda, percentil, mdia geomtrica e mdia harmnica.
A mdia comum ou mdia aritmtica ou simplesmente mdia, a mais freqentemente
usada de todas as medidas estatsticas.
Mdia simplesmente a soma de todas observaes (DAP, altura, idade) dividida
pelo nmero total de observaes. a medida que tem a menor variabilidade de amostra para
amostra, fcil de ser manuseada matematicamente e tem as propriedades mais desejveis em
conexo com as distribuies de probabilidade.
Mediana o valor de uma varivel aleatria que, em ordem crescente ou
decrescente, est rankeado no meio, entre os valores maiores e menores. Em amostras com
nmero par de observaes, a mediana a mdia aritmtica dos 2 valores que esto
rankeados no meio. Estimativas da mediana de pequenas amostras no so muito
confiveis.
Moda o valor mais freqente, ou seja, a categoria ou classe com a maior
freqncia. uma medida fcil e rpida de ser obtida, mas, por outro lado, fica sempre sujeita
a variao extrema de uma amostra para outra, ao menos que a amostra seja bem grande.
Percentil para um melhor entendimento pense na mediana como o 50-simo
percentil.
Mdia geomtrica a n-sima raiz de um produto de n valores, ou antilog da mdia
aritmtica dos logs de um conjunto de valores e sempre to pequeno ou menor que a mdia
do mesmo conjunto de dados.
Mdia harmnica a recproca da mdia de um conjunto de dados recprocos e
to pequena ou menor que a mdia geomtrica para um mesmo conjunto de dados.
Para dados ordinais, prefervel utilizar-se da mediana, apesar de que a mdia , as
vezes, utilizada.
Para dados mtricos pode ser usada a mdia ou a mediana. Como com dados ordinais,
a mediana preferida para propsitos descritivos. A maioria das teorias estatsticas para dados
mtricos usa a mdia.

Computao de Mdia, Mediana e Moda


_

Mdia a estimativa da mdia, x ou , do parmetro , obtida da seguinte maneira:


Dos dados do quadro 2.1, a mdia ser:
x =

( x 1 + x 2 + .... + x 40 )
40

x = 38,225
Mediana do quadro 2.1, primeiro preciso ordenar em ordem crescente,
(1)

(2)

(3)

(4)

(5)

25

27

27

27

27.7

(11)

(12)

(13)

(14)

31.8

32

32

(21)

(22)

35

(6)

(7)

(8)

(9)

(10)

28

28

29

30

30

(15)

(16)

(17)

(18)

(19)

(20)

32

33

33

33

33

34

34

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

36

36

37

37

38.5

39

40

40

41

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

43

45

47

47

52

53

58

58

63

77

Neste caso, o nmero total de observaes, n, par, a mediana ser a mdia aritmtica
dos vigsimo e vigsimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5.
Moda simplesmente o ponto mdio da classe que tem a maior freqncia, que no
nosso caso, quadro 2.2, 35, que tem a freqncia = 19.
Resumo das estimativas das medidas:
Mdia

= 38,225

Mediana = 34,5
Moda

35,0

Interpretao: um conjunto de dados pode ter mais de uma moda, mas sempre ter
somente uma mdia ou mediana. Como voc pode ver, de um mesmo conjunto de dados, voc
tem diferentes medidas de tendncia central. Qual delas a melhor? A deciso vai depender,
principalmente, do objetivo de sua informao. Quando a gente vende madeira em volume,
normalmente truncada a um determinado dimetro mnimo, a mdia deve prevalecer tendo em
vista a maior facilidade para os clculos posteriores. Se a rvore vendida em p, a moda
pode ser mais interessante, porque ela d uma noo tambm da distribuio de freqncia. A
utilizao da mediana mais prtica na tomada de decises quanto a tratamentos
silviculturais, desbastes etc., quando voc precisa priorizar o tamanho que precisa sofrer
intervenes.

3.2. Medidas de disperso:


Uma medida de disperso um nmero usado para mostrar quanto de variao existe
num conjunto de dados.
At agora discutimos somente as medidas de tendncia central. Entretanto, 2 conjuntos
de dados podem ter a mesma mdia ou a mesma mediana e, mesmo assim, ser bastante
diferente.
Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1
Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA
Manejo (CFT)
aluno
idade
1
25
2
28
3
30
4
29
5
28
mdia
28

Ecologia
aluno
idade
1
22
2
30
3
28
4
21
5
39
mdia
28

As mdias dos dois grupos so iguais. No entanto, claro que estamos nos referindo a
dois grupos diferentes em idade. D para perceber que o grupo do Manejo mais uniforme
em termos de idade. Neste caso, para ver a variao que h dentro de cada conjunto de dados,
podemos usar a amplitude total ou o desvio padro, as duas medidas de disperso mais
comuns.
AMPLITUDE TOTAL a medida da variao olhando apenas a diferena entre o
maior e o menor valor. Esta medida de fcil computao porque depende apenas do maior e
do menor valor, mas, em compensao ela no diz o que acontece entre esses dois valores.
Alm disso, considerada muito limita, sendo uma medida que depende apenas dos valores
externos, instvel, no sendo afetada pela disperso dos valores internos.
Do quadro 3.1, as amplitudes so:
-

Manejo: 30 25 = 5

Ecologia: 39 21 = 18

DESVIO PADRO nos d a disperso dos indivduos em relao mdia. Ele nos
d uma idia se os dados esto prximos da mdia ou muito longe. O desvio padro dos
indivduos de uma populao freqentemente simbolizado pela letra grega minscula ().
Dificilmente a gente trabalha com o parmetro. Entretanto, dado uma amostra de valores
individuais de uma populao, podemos fazer uma estimativa de que comumente
simbolizada por s.
n

Frmula : s =

2
(x i - x)

i =1

n -1
n

ou, mais simples : s =

x
i =1

2
i

- (( x i ) 2 ) / n
i =1

n -1

Por que o denominador (n-1) em vez (n)?

Porque os n desvios, (xi x ), so


_

necessariamente conectados pela relao linear ( xi x ) = 0. Se voc especifica o valor da


_

x e os ( n-1 ) valores de xi, ento o valor do ltimo xi fixo; isto , uma informao
_

redundante. Por esta razo, ao usar a mdia amostral x em vez da mdia da populao
como um ponto central no clculo de s, voc perde um grau de liberdade (gl) e a estimativa de
dita ter ( n 1 ) gl associados com ela. O uso de (n 1) em vez de (n) no clculo de s
tambm fornece uma estimativa no-tendenciosa; isto , em uma srie infinita de amostras
aleatrias, o valor mdio do estimador igual a .
Os desvios padres dos dados do quadro 3.1 so:
-

Manejo: s = 1.87

Ecologia: s = 7.25

Resumindo: quanto maior a variao dentro de um conjunto de dados, maior ser o


desvio padro. Do exemplo 1 ns constatamos agora, que apesar dos dois terem as mesmas
medidas de tendncia central, mdia e mediana, as medidas de disperso so totalmente
diferentes. Isto quer dizer que o grupo de Manejo mais homogneo em idade, comprovada
pela menor variao encontrada.
Clculo da mdia e desvio dos dados grupados:

A mdia calculada da seguinte maneira:


_

x = ( xi * fi ) / n
onde: xi = ponto mdio da classe, fi = freqncia de cada classe e n = nmero de classes
E o desvio padro segue o mesmo princpio da mdia em relao s classes.
Do quadro 2.2, essas medidas sero:
_

x = 38,5 e s = 11,45

3.3. Medidas de relacionamento:


As medidas mais comumente utilizadas para relacionamento so correlao e
regresso. Vrios tipos de correlao podem ser usados para medir o grau de associao
(similaridade ou dissimilaridade) entre 2 (ou mais) variveis aleatrias, independente das
unidades de medida e mudanas lineares em escala. Estas medidas sero vistas, em detalhe,
num captulo especfico.

3.4 Percentil:
Ns j vimos um exemplo de percentil. A mediana divide um conjunto de dados em
duas partes, 50% de um lado e 50% de outro, depois de coloc-los em ordem crescente. Por
esta razo ela se refere ao qinquagsimo percentil de um conjunto de dados. Alm dos
percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador
pode tambm querer encontrar o quartil e o decil.
Quartil a separatriz que divide a rea de uma distribuio de freqncia em
domnios de rea igual a mltiplos inteiros de um quarto da rea total.
Decil a separatriz correspondente ao valor do argumento que divide a distribuio
numa razo decimal.

Exemplo: dados do quadro 2.1 em ordem crescente.

Primeiro quarto
25

27

27

27

27.7

28

28

29

30

30

32

33

33

33

33

34

34

37

37

38.5

39

40

40

41

47

52

53

58

63

77

Segundo quarto
31.8 32

32

Terceiro quarto
35

36

36

Quarto quarto
43

45

47

58

Computaes:
Primeiro quartil = (30 + 31.8) / 2 = 30.9
Segundo quartil = (34 + 35) / 2 = 34.5
Terceiro quartil = (41 + 43) / 2 = 42.0

3.5. Consideraes finais:


Neste captulo no poderamos deixar de mencionar trs outros conceitos muito
importantes na nossa rea de conhecimento, coeficiente de variao, varincia e covarincia.
COEFICIENTE DE VARIAO a razo entre o desvio padro e a mdia. Ele
nos d uma idia de variao relativa de nossa populao, permitindo a comparao de 2
populaes diferentes independentes das unidades de medida.

Do quadro 3.1, estimamos as mdias (28 para manejo e 28 para Ecologia) e os desvios
padres (1.87 e 7.25). Agora temos os coeficientes de variao (CV):
CV = 1.87/28 = 0.0668 ou 6.68 %

- Manejo

CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia

Do nosso exemplo do quadro 2.1, temos uma populao de rvores, com as seguintes
estimativas: mdia = 38,225 e desvio = 11,28
CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2

Mesmo se tratando de populaes diferentes podemos concluir com base nos CVs: A
populao Manejo mais homognea e a mais heterognea a floresta da ZF-2. Isto
possvel porque o CV uma medida relativa, que independente da unidade de medida
utilizada.
VARINCIA - Varincia uma medida da disperso dos valores unitrios
individuais em torno de sua mdia. A varincia no s parece com o desvio padro, como o
prprio, apenas ao quadrado . Se voc tirar da frmula do desvio, a raiz quadrada, voc tem
a frmula da varincia. Por que ao quadrado? Simplesmente porque a soma de todos os
desvios tem que se anular, tendendo a zero e, da, voc no teria condies de ver a amplitude
de variao dos seus dados em relao mdia.

COVARINCIA - uma medida de como 2 variveis variam juntas, em


relacionamento (covariabilidade). Suponha duas variveis x e y. Se os maiores valores de x
tende a ser associados com os maiores valores y, ns dizemos que a covarincia positiva.
Quando os maiores se associam com os menores, ou vice-versa, a covarincia negativa.
Quando no h uma associao particular de x e y, a covarincia tende a zero.

As frmulas so:
Varincia, s2 = SQCx /(n-1)
Covarincia, sxy = SPCxy / (n-1)

Sendo:
SQC = Soma dos Quadrados Corrigidos
SPC = Soma dos Produtos Corrigidos

Frmulas teis
Mdia Aritmtica

Varincia
n

(x

x=

x
i =1

s2 =

Desvio padro

x)

n 1
Erro padro

s= s

sx = s / n

n
xi
n
2
i =1

SQC x = xi
n
i =1

SPC xy = xi y i

i
n
2
i =1

SQC y = y i
n
i =1

( x )( y )

i =1

Coeficiente de correlao

r=

i =1

SPCxy
SQC X SQCY

Captulo 4
Probabilidade
No captulo 1 ns distinguimos dois tipos de estatsticas: descritiva e de inferncia. A
estatstica descritiva envolve a organizao e a sumarizao dos dados. A estatstica de
inferncia lida com inferncias (predies educadas) sobre uma populao baseada em uma
amostra da populao.
Desde que a estatstica de inferncia envolve predies (educadas), sempre possvel
fazer uma inferncia incorreta. preciso saber o quanto a nossa inferncia est correta. Para
medir a chance de estar certo na nossa inferncia estatstica, precisamos entender a teoria de
probabilidade, que a fundamentao matemtica para a estatstica de inferncia.
Para entender os princpios da teoria de probabilidade no h como fugir dos exemplos
clssicos de cara & coroa, dos dados e do jogo de baralho. A propsito, a teoria foi
desenvolvida por causa de jogos de azar. O objetivo deste captulo dar uma base geral para
facilitar o entendimento da aplicao de testes de hipteses, paramtrica e no-paramtrica.
O processo de computao (clculo) de probabilidades depende de sua capacidade de
contar, 1, 2, 3 e assim por diante. A seguir vamos discutir alguns mtodos de contagem.

4.1. Contagem:
Primeiro vamos estabelecer as seguintes definies dentro da teoria de probabilidade.
Resultado - no caso de cara ou coroa, 2 resultados so possveis e no caso do jogo de
dados, 6 resultados.
Teste - (ou tentativa) - a ao de jogar a moeda e ver se ela cai com a cara ou

coroa.
Experimento - o conjunto de testes (tentativas); se a moeda jogada uma vez, ou
duas, ou n vezes, no interessa o procedimento deve ser considerado um experimento.
Eventos - so os possveis resultados de um teste, vrios testes ou de todo o
experimento. Exemplo de evento: uma coroa em 4 jogadas ou pelo menos um cara.
REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos
k possveis resultados, afirmamos que h kn possveis resultados de todo o experimento.
Exemplo 1: no jogo da moeda voc tem dois resultados, cara (C) ou coroa (c), k=2.
Se voc jogar apenas uma vez, n=1, voc ter 21 = 2 possveis resultados, C ou c. Se voc
jogar duas vezes, n = 2, voc ter 22 = 4 possveis resultados, CC cc Cc cC.
REGRA 2: H n! (fatorial) maneiras de arranjar n objetos distinguveis em uma seqncia.
Exemplo 2: considere o nmero de maneiras de arranjar as letras A, B e C numa
seqncia. A primeira letra pode ser qualquer uma das trs, a segunda pode ser escolhida de
duas maneiras diferentes uma vez que a primeira j foi escolhida, e a letra remanescente se
torna a ltima letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6
possveis arranjos so: ABC ACB BAC BCA CAB e CBA.
Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. H 8 maneiras de
qualquer um deles chegar em primeiro lugar, tendo nas outras colocaes qualquer outro. Se
voc quiser saber quantos arranjos so possveis tendo, no primeiro e segundo lugar, qualquer
um deles e, as demais colocaes, de qualquer jeito, voc far (8) (7) = 56 arranjos. Se voc,

no entanto, quiser saber todos os possveis arranjos do primeiro ao oitavo lugar voc far 8! =
40320 arranjos.
REGRA 3: se um grupo de n objetos composto de k objetos idnticos de um tipo e o
restante (n-k) so objetos idnticos de um segundo tipo, o nmero de arranjos distinguveis
dos n objetos numa seqncia, denotado por meio de

n
dado por
k

n
n!
=
k! (n - k)!
k

Ou: se um grupo de n objetos composto de n1 objetos idnticos do tipo 1, n2 objetos


idnticos do tipo 2, ..., nr objetos idnticos do tipo r, o nmero de arranjos distintos numa
seqncia ser:
n
dado por
ni

n
n!
=
n1! n2! ... nr!
ni

3
(3) (2) (1)
3!
=
=
= 3
2! 1!
(2) (1) (1)
2
Exemplo 4: no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numa
seqncia. Suponha agora que as letras A e B so idnticas e chame-as de X. Assim, os
arranjos ABC e BAC se tornam indistintos, XXC para os dois. Tambm ACB e BCA se
tornam XCX. O arranjo original reduzido para arranjos distintos, que so XXC, XCX e
CXX.

4.2. Definies de probabilidade:


Primeiro vamos ver algumas definies:
(i) Espao amostral
experimento.

a coleo de todos os possveis resultados de um

(ii) Ponto no espao amostral - um resultado possvel de um experimento.

Cada experimento tem o seu prprio espao amostral, que consiste essencialmente de
uma lista de diferentes resultados possveis de um experimento. O espao subdividido e
cada subdiviso um ponto. Cada possvel resultado representado por um ponto e somente
um ponto.
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espao
amostral consiste de 4 pontos CC cc Cc cC.
Exemplo 2: uma prova consistindo de 10 questes falsa ou verdadeira passada
a um aluno como um experimento. H 210 = 1024 pontos no espao amostral, onde cada ponto
consiste da seqncia das possveis respostas para as 10 questes sucessivas, tais como:
FFFFVVFFVV.

Agora, ento, possvel definir evento, em termos dos pontos do espao amostral.
(iii) Evento - um evento qualquer conjunto de pontos no espao amostral.

No exemplo 1 ao falarmos do evento duas caras, estamos nos referindo a um


simples ponto CC; o evento uma cara consiste de dois pontos Cc e cC; o evento pelo
menos uma cara consiste de trs pontos CC, Cc e cC.

Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos pelo menos
uma cara e pelo menos uma coroa tem os pontos Cc e cC em comum. Se dois eventos no
tm pontos em comuns eles so chamados de eventos mutuamente exclusivos porque a
ocorrncia de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao
mesmo tempo.
Para cada ponto no espao amostral h um nmero correspondente chamado de
probabilidade do ponto ou probabilidade do resultado. Estas probabilidades podem ser
quaisquer nmeros entre 0 a 1. A definio da probabilidade de um evento inclui a definio
da probabilidade de um resultado como um caso especial, desde que o evento possa ser
considerado como que se consistisse de um resultado simples.
Na prtica, o conjunto de probabilidades associadas com um particular espao
amostral raramente conhecido, mas as probabilidades so atribudas de acordo com as
noes pr-concebidas do pesquisador, isto , o pesquisador formula um modelo como uma
verso ideal do experimento. Ento, o espao amostral do modelo experimental examinado e
as probabilidades so atribudas aos vrios pontos do espao amostral de alguma maneira que
o pesquisador sinta que pode ser justificada.
Exemplo 3: Num experimento consistindo de uma nica jogada de uma moeda no
viciada, razovel assumir que o resultado cara (C) tem metade da chance de ocorrer.
Assim, podemos atribuir a probabilidade de para o resultado C e o mesmo para c. Isso pode
ser escrito da seguinte maneira: P (C) =1/2 e P (c) = 1/2 .
Exemplo 4: Num experimento consistindo de 3 jogadas (testes), razovel assumir
que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma
chance de ocorrer. Assim, a probabilidade de cada resultado 1/8. Tambm P (3 caras) = 1/8,
P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = .
(iv) Funo de Probabilidade: uma funo que atribui probabilidades aos vrios
eventos no espao amostral.

Vrias propriedades dessas funes so aparentes. Considere S como espao amostral


e A, B ou C como qualquer evento em S. Ento, se P a funo de probabilidade, P(S) = 1,
P(A) > 0 e P(a) = 1 P(A), onde a o evento o evento no ocorre.
(v) Probabilidade Condicional: a probabilidade de ocorrer A dado B.

P (A | B) = [ P (AB) ] / [ P (B) ]
onde P (B) > 0, caso contrrio, indefinido.
Exemplo 5: Considere o jogo de dados, tal que cada um dos 6 possveis resultados
tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento a ocorrncia de 4, 5
ou 6 e B o evento a ocorrncia de um nmero par . Ento P (AB) = P (4 ou 6) = 2/6 = 1/3.
Tambm, P (B) = 3/6 = . Ento, a probabilidade condicional P (A|B) dada por

P (A | B) =

1/ 3
= 2/3
1/ 2

(vi) Eventos independentes: Dois eventos A e B so independentes se

(1)

P (AB) = P (A) P (B)

Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espao


amostral assumem ter a mesma probabilidade. Deixe A ser o evento uma cara ocorre na
primeira jogada e B ser o evento uma cara ocorre na segunda jogada. Ento A tem os
pontos CC e Cc. B tem os pontos CC e cC. AB tem os pontos CC. Tambm P (A) = 2/4, P (B)
= 2/4 e P (AB) = 1/4.

P (AB) = (2/4) (2/4) = 4/16 = 1/4


satisfaz a condio (1) e, por esta razo, A e B so independentes.
(vii) Experimentos Mutuamente Independentes: so mutuamente independentes se
todos os conjuntos de n eventos formados tiverem a seguinte equao como verdadeira:

P ( A1, A2, ..An) = P (A1) P(A2) ...P (An)


onde Ai representa um resultado do i-simo experimento para i = 1, 2, ....n.
Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem
a probabilidade p e o evento c tem a probabilidade q = 1 p. Considere 3 repeties
independentes do experimento, onde o subscrito ser usado para diferenciar o experimento
com o qual o resultado est associado. Dessa maneira, C1 c2 C3 significa que o primeiro
experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hiptese de
independncia,

P (C1 c2 C3) = P (C1) P (c2) P (C3) = pqp


Se considerarmos o evento exatamente 2 caras associado aos experimentos
combinados, o seguinte pode ocorrer
3
6
=
= 3 maneiras e conseqentemente
2
2
P ( exatamente 2 caras) = 3p 2 q

Obviamente o anterior pode ser descrito simplesmente como um experimento com 3


tentativas independentes. Por extenso, podemos considerar um experimento consistindo de n
jogadas independentes. A probabilidade de obter exatamente k caras , ento, igual ao
termo pkqn - k vezes o nmero de vezes que o termo pode aparecer. Por esta razo, em n
jogadas independentes de uma moeda
n
P (exatamente k caras) = p k q n - k
k
onde p = P(C) em qualquer jogada.

Outras consideraes: Conceito de probabilidade usando distribuies de


freqncias relativas.
Exemplo 8: Um diretor de escola numa pequena cidade de 40 famlias classificou
cada famlia de acordo com o nmero de crianas (menores que 18 anos). As informaes
obtidas so sumarizadas no quadro 4.1.

Quadro 4.1: Distribuio de nmero de crianas por famlia.


n de crianas
0
1
2
3
4

n de famlias
18
8
7
4
3
40

%
45,0
20,0
17,5
10,0
7,5
100,0

freq. relativa
0,450
0,200
0,175
0,100
0,075
1,000

O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famlias possuem 2 crianas.
Agora, suponha que uma das famlias tenha sido selecionada aleatoriamente, ou seja,
cada famlia teve igual chance de ser escolhida. Qual a probabilidade que a famlia
selecionada tenha 3 crianas? A resposta 4/40, que a mesma frequncia relativa.
Suponha que h N resultados possveis num experimento. A probabilidade que um
evento ocorra o nmero de vezes, f, que o evento pode ocorrer, dividido pelo nmero total,
N, de possveis resultados.

4.3. Variveis aleatrias:


No exemplo 8 ns vimos um levantamento que classificou cada uma das 40 famlias
de acordo com o nmero de crianas na famlia. Desde que o nmero de crianas varia de
famlia para famlia, ela chamada de varivel. Quando selecionamos uma famlia
aleatoriamente, o nmero de crianas uma varivel aleatria desde que o seu valor (um
nmero real) depende de uma chance.
Definio 1: Uma varivel aleatria uma funo que atribui nmeros reais aos
pontos num espao amostral.

As variveis aleatrias so normalmente representadas pelas letras maisculas X, W,


Y ou Z com ou sem subscritos. Os nmeros reais atribudos pelas variveis aleatrias sero
representados por letras minsculas.
Exemplo 1: Num experimento onde ao consumidor dada a chance de escolher 3
produtos, sabonete, detergente ou marca A, o espao amostral consiste dos 3 pontos
representando as 3 possveis escolhas. Deixe a varivel aleatria atribuir o nmero 1 para a
escolha marca A e o nmero 0 (zero) para os outros 2 possveis resultados. Ento, P(X = 1)
igual a probabilidade do consumidor escolher a marca A.
Exemplo 2: Para 6 meninas e 8 meninos perguntado se eles se comunicam mais
facilmente com suas mes ou com seus pais. Deixe X ser o nmero de meninas que pensam
que se comunicam melhor com suas mes e deixe Y ser o nmero total de crianas que
pensam que se comunicam melhor com suas mes. Se X = 3, ns sabemos que ocorreu o
evento 3 meninas pensam que se comunicam melhor com suas mes. Se, ao mesmo tempo,
Y = 7, ns sabemos que ocorreu o evento 3 meninas e 7 3 = 4 meninos pensam que se
comunicam melhor com suas mes.

Se X uma varivel aleatria, X = x uma notao simplificada que usamos para


corresponder ao mesmo evento no espao amostral, especificamente o evento que consiste do
conjunto de todos os pontos para os quais varivel X foi atribudo o valor x.
Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o
nmero de caras. Ento, X = 1 corresponde ao evento contendo os pontos Cc e cC.

Dessa maneira, X = x , s vezes, referida como o evento X = x, quando, na


realidade, pretendeu-se dizer o evento consistindo de todos os resultados atribudos o nmero
x pela varivel aleatria X.
Por causa desta estreita correspondncia entre variveis aleatrias e eventos, as
definies de probabilidade condicional e independncia se aplicam igualmente bem s
variveis aleatrias.
Definio 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), a
probabilidade que a varivel aleatria X assume o valor x, dado que a varivel aleatria Y j
assumiu o valor y.
(1)

P(X = x | Y = y) =

P (X = x, Y = y)
se P(Y = y) > 0
P(Y = y)

Exemplo 4: Deixe X ser o nmero de meninas que se comunicam bem com suas
mes, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o nmero total de
crianas que se comunicam bem com suas mes. Por convenincia, deixe Z=Y-X, tal que Z
igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mes. Assuma que
as respostas dadas pelas crianas so independentes de cada outra e que cada criana tem a
mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua me.
Encontre a probabilidade condicional P ( X=3 | Y=7).

Primeiro, pelas suposies anteriores, X=3 e Z=4 so eventos independentes. Desde


que o evento (X=3, Y=7) o mesmo que o evento (X=3, Z=4), temos a probabilidade
P(X=3, Y=7) = P(X=3, Z=4)
= P(X=3) P(Z=4)
(2)

6
= p 3 (1 - p) 3
3

8 4
p (1 - p) 4
4

por causa do exemplo 7 do item 4.2.


Pelo mesmo exemplo, conclumos que
(3)

14
P(Y = 7) = p 7 (1 - p) 7
7

tal que a probabilidade condicional

6 8

3 4
P(X = 3 | Y = 7) =
14

7

(4)

6!
8!

3! (6 - 3)! 4! (8 - 4)!
=
= 0.408
14!

7! (14 - 7)!

Como os pontos no espao amostral so mutuamente exclusivos, os valores que uma


varivel aleatria pode assumir so tambm mutuamente exclusivos. Para um simples
resultado de um experimento, a varivel aleatria definida por apenas um nmero. Assim,
todo o conjunto de valores que uma varivel aleatria pode assumir tem as mesmas
propriedades do espao amostral. Os valores individuais assumidos pela varivel aleatria
correspondem aos pontos no espao amostral, um conjunto de valores corresponde a um
evento e a probabilidade da varivel aleatria assumir qualquer valor dentro de um conjunto
de valores igual a soma das probabilidades associadas com todos os valores dentro do
conjunto. Por exemplo:
P (a < X < b) =

P(X = x)

a < x <b

onde o somatrio se estende a todos os valores de x entre, no incluindo os nmeros a e b,


P (X = nmero par) =

P (X = x)

x par

onde o somatrio se aplica a todos os valores de x que so pares. Por causa dessa similaridade
entre o conjunto de valores possveis de X e um espao amostral, a descrio do conjunto de
probabilidades associadas com os vrios valores que X pode assumir, freqentemente
chamado de funo de probabilidade da varivel aleatria X, assim como um espao amostral
tem uma funo de probabilidade. Entretanto, a funo de probabilidade de uma varivel
aleatria no uma atribuio arbitrria de probabilidades, como a funo de probabilidade
para um espao amostral. Isto porque uma vez que as probabilidades so atribudas aos pontos
num espao amostral e uma vez que a varivel aleatria X definida no espao amostral, as
probabilidades associadas com os vrios valores de X so conhecidas e a funo de
probabilidade de X , dessa maneira, j determinada.
Definio 3: A funo de probabilidade da varivel aleatria X, usualmente
representada por f(x) ou de outra maneira qualquer, a funo que d a probabilidade de X
assumir o valor x, para qualquer nmero real x, ou seja,

(5)

f(x) = P(X = x)

Vimos at aqui que a distribuio de probabilidades associadas com uma varivel


aleatria pode ser descrita por uma funo de probabilidade. Uma outra maneira de dizer a
mesma coisa atravs de uma funo de distribuio que descreve as probabilidades
acumuladas.

Definio 4: A funo de distribuio de uma varivel aleatria, usualmente


representada por F(x), a funo que d a probabilidade de X ser menor ou igual a qualquer
nmero real x, ou seja,

(6)

F(x) = P (X x) =

f(t)

t x

onde o somatrio se estende a todos os valores de t que no forem superiores a x.


Definio 5: Deixe X ser uma varivel aleatria. A distribuio binominal a
distribuio de probabilidade representada pela funo de probabilidade

(7)

n
f(x) = P(X = x) = p x q n -x para x = 0,1, .., n
x

onde: n nmero inteiro positivo, 0 p 1 e q = 1 p. Note que usaremos a conveno usual


que 0! = 1.
A funo de distribuio ser ento
(8)

F(x) = P(X x) =

i p i q n-i

i x

onde o somatrio se estende a todos os possveis valores de i menor ou igual a x. H tabelas


prontas para alguns valores selecionados dos parmetros n e p.
Exemplo 5: Um experimento com n testes independentes, onde cada teste pode
resultar em um dos dois resultados sucesso ou insucesso, com probabilidade P e q,
respectivamente. Deixe X ser igual ao nmero total de sucessos nos n testes. Ento, como
mostrado na equao (7),

n
P (X = x) = p x q n -x
x
para x inteiro de 0 a n. Desta maneira, o experimento tem a distribuio binominal.
Definio 6: Deixe X ser uma varivel aleatria. A distribuio discreta uniforme a
distribuio de probabilidade representada pela funo de probabilidade.

(9)

f(x) = 1/N para x = 1,2, ... , N

Desta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual


probabilidade, se X tem a funo de probabilidade discreta uniforme.
Exemplo 6: H em um saco N papeletas numeradas de 1 a N. O experimento consiste
de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espao
amostral tem N pontos, representando as N papeletas que podem ser tiradas. Deixe X ser igual
ao nmero da papeleta tirada. Ento X tem a distribuio uniforme discreta.
Definio 7: A funo de probabilidade conjunta f (x1, x2, .. xn ) das variveis
aleatrias x1, x2, .. xn a probabilidade da ocorrncia conjunta de X1 = x1, X2 = x2, ... , Xn = xn.

(10)

f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn )

Definio 8: A funo de distribuio conjunta F(x1, x2, .. xn ) das variveis


aleatrias x1, x2, .. xn a probabilidade da ocorrncia junta de X1 x1, X2 x2, ... , Xn xn .

(11)

F(x1, x2, .. xn ) = P (X1 x1, X2 x2, ... , Xn xn )

Exemplo 7: Considere as variveis aleatrias X e Y como definidas no exemplo 2.


Considere f(x,y) e F(x,y) como as funes de probabilidade conjunta e de distribuio,
respectivamente.

(12)

6
f(3, 7) = P (X = 3, Y = 7) =
3

(13)

F(3, 7) = P (X 3, Y 7) =

8 7
p (1 - p) 7
4

f(x, y)

0 x 3
x y7

onde
6
f(x, y) = p x (1 - p) 6 - x
x

8 y- x
p (1 - p) 8 - (y - x)

y
x

e onde o somatrio na equao (13) se estende a todos os valores de x e y tal que x 3 e y


7, com a usual restrio de que x e y x so inteiros no negativos. Note que as equaes (12)
e (13) no podem ser avaliadas sem conhecer o valor de p.
Definio 9: A funo de probabilidade condicional de X dado Y, f(x | y)

(14)

f(x | y) = P(X = x | Y = y)

Da equao 1 vemos que


(15)

f(x | y) = P(X = x | Y = y) =

P(X = x, Y = y)
P(Y = y)
f(x, y)
f(y)

onde f(x, y) a funo de probabilidade conjunta de X e Y e f(y) a funo de probabilidade


de Y em si.
Exemplo 8: Como uma continuao do exemplo 7, considere f(x | y) como a funo
de probabilidade condicional de X dado Y.

F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equao (4)

Para encontrar a frmula geral para f(x | y) (isto , para qualquer valor de x e y),
primeiro deixe f(x, y) ser a funo de probabilidade conjunta de X e Y. Isto dado no
exemplo 7 como
6
f(x, y) = p x (1 - p) 6 - x
x

8 y- x
p (1 - p) 8 - (y - x)

y - x

que originalmente era uma forma geral da equao (2). Tambm, deixe f(y) ser a funo de
probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira
14
f(y) = P(Y = y) = p y (1 - p)14 - y
y
Pela definio 9 podemos agora escrever a funo de probabilidade condicional de X dado Y
=y

(16)

6 8

f(x, y)
x y - x
f(x y) =
=
f(y)
14

y

para

0x6
0 y-x 8

onde todos os termos que envolvem o parmetro desconhecido p foram convenientemente


cancelados.
Definio 10: Considere X1, X2, ... , Xn como variveis aleatrias com as respectivas
funes de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a funo de probabilidade conjunta f
(x1, x2, ... , xn ). Ento X1, X2, ... , Xn so mutuamente independentes

(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn)


para todas as combinaes dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Ento, a funo de
probabilidade de X dada por

6
f1 (x) = P (X = x) = p x (1 - p ) 6 - x
x
e a funo de probabilidade de Y dada por
(18)

(19)

Desde que:

14
f 2 (y) = P (Y = y) = p y (1 - p)14 - y
y

f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y)


O uso das equaes (16) e (19) resulta na funo de probabilidade conjunta de X e Y,
sendo dada por

f(x, y) =

6

x

y - x
14

y

14 y
p (1 - p)14 - y
y

6 8 y
p (1 - p)14 - y
=
x y - x
desde que:
6
f 1 (x) f 2 (y) =
x

14 x + y
p (1 - p) 20 - x + y
y

vemos que:
f(x, y) diferente de f1(x) f2(y)
e, por esta razo, X e Y no so independentes.

CAPTULO 5
DISTRIBUIO NORMAL
Uma funo de distribuio mostra, para uma populao, a freqncia relativa
(probabilidade) com que diferentes valores (nmeros reais) de uma varivel aleatria
ocorrem. Em geral, cada populao tende a ter a sua prpria distribuio. No entanto, a
distribuio normal a mais popular de todas por causa de sua grande aplicabilidade na
aproximao do comportamento de um grande nmero de variveis aleatrias naturais que so
contnuas. Ela conhecida como distribuio de Gauss (difusor) ou distribuio com a forma
de sino V. Figura 5.1. abaixo.
Funo:

n( x; , ) =
Para:

0.5

(( x ) )
2

< x < +

-3

-2

-1

68,27%
95,45%
99,73%

Figura 5.1: Curva normal padro


Propriedades:
9
9
9
9
9

A curva normal padro (CNP) tem = 0 e = 1


rea sob a CNP igual a 1
A CNP se estende indefinidamente em ambas direes
A CNP simtrica em torno de zero
A maior parte (99,73%) da CNP fica entre -3 e +3

Toda a estatstica paramtrica foi desenvolvida com base nos pressupostos da


distribuio normal. Se voc usar os testes desenvolvidos com base na distribuio normal,
sem atender a condicionante da normalidade, o teste perde a robustez e a consistncia e os

seus resultados podem perder toda a confiabilidade. Entretanto, nem sempre as variveis
aleatrias distribuem-se na forma perfeita de um sino ( = 0 e = 1). H vrias maneiras
de superar este tipo de obstculo, como aumentar o nmero de amostras e fazer
transformaes. S no pode ignorar o detalhe da normalidade.

5.1. Estimando a mdia da populao:


Na estatstica de inferncia tudo gira em torno da obteno da estimativa da mdia
verdadeira da populao, . Por exemplo, podemos estar interessados em saber:
9 o volume mdio, , de uma determinada rea florestal
9 a idade mdia, , dos estudantes da turma-2006 do CFT

Se a populao pequena, calculada sem problemas; no caso de populaes


maiores, a mdia tem que ser estimada usando amostragem de parte da populao. No caso do
CFT, 18 estudantes, obter a idade mdia uma tarefa muito fcil. No h necessidade de fazer
amostragem, basta somar a idade de cada um e dividir por 18. Entretanto, em nossa rea de
conhecimento, a gente s trabalha com populaes muito grandes com tendncia ao
infinito. Neste caso, fica muito difcil e caro, seno impossvel, obter a mdia verdadeira da
populao, . Levando em conta os princpios e as condicionantes da amostragem, possvel
obter informao suficientemente precisa (e confivel) sobre tomando apenas parte da
_

populao para estimar a mdia amostral x .


Exemplo 1: queremos saber a idade mdia dos estudantes da ps-graduao do INPA,
que tem uma populao igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes e
anotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma
populao de 200 - hipoteticamente.

Quadro 5.1. idades de 10 estudantes de ps-graduao do INPA


estudante

10

idade

23

25

26

28

26

24

25

27

30

26

A idade mdia (amostral) ser:


_

x = ( xi ) / n

para: n = 10 e i = 1, 2, ... n
_

x = 26 anos
Se voc utilizou uma amostra representativa da populao, voc estar afirmando que
a mdia verdadeira da populao dos 200 estudantes, , deve ser em torno de 26 anos.
Diante disso, surgem algumas questes:
_

Qual a justificativa para utilizar a mdia amostral x para estimar a mdia da


(i)
populao ?
_

Qual a confiana sobre a preciso envolvida ao usar x para estimar ? No


(ii)
exemplo 1, se uma amostragem com 10 estudantes utilizada, qual a probabilidade da idade

mdia amostral, x , estar dentro de um intervalo (vamos dizer, 1 ano) da mdia da populao,
?
(iii) Qual a necessria intensidade de amostragem para assegurar uma certa
preciso com grande confiana? No exemplo 1, quo grande deveria ser uma amostragem
_

(10? 20 estudantes?) para assegurar que 95% de todos os possveis x cassem dentro de um
intervalo de 1 ano da mdia da populao, ?
Vamos responder todas estas questes nesta apostila. A primeira ser respondida,
parcialmente, neste captulo e completada no captulo 6. As outras duas (ii e iii) sero
respondidas nos captulos 6 e 7, respectivamente.
_

Ao amostrar uma populao, a mdia amostral, x , uma varivel aleatria. No


captulo 6, vamos ver, em detalhes, como este valor parecido com a mdia da populao.
A incerteza da estimativa depende de uma chance sobre a qual a amostra foi selecionada.
Apesar disso, a incerteza diminui com o aumento da intensidade de amostragem. Isto uma
sentena de um teorema matemtico chamado a lei dos grandes nmeros e a nossa
_

justificativa para usar x para estimar .

5.2. Curva normal padro (CNP) ou curva-z:


_

A lei dos grandes nmeros a nossa justificativa matemtica para usar x para
estimar ...justifica, mas no explica. Da mesma forma, ela no particularmente til para
responder questes prticas envolvendo a preciso de tais estimativas. Esta lei, por exemplo,
_

no informa sobre a probabilidade de x estar dentro do intervalo de 1 ano de

. As

probabilidades para x podem ser obtidas aproximadamente usando reas sob certas curvas
em forma de sino.
H vrias curvas normais, que variam de acordo com a mdia e desvio padro, e .
No entanto, a curva que norteia todas as outras curvas, a curva normal padro (Figura 5.1).
Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. S existe uma
nica curva normal padro, com = 0 e = 1. Quando voc tem pela frente situaes com
mdias e desvios diferentes de 0 e 1, respectivamente ... no entre em pnico! Tudo que tem
que ser feito padronizar a sua varivel aleatria e, em seguida, usar a CNP para obteno
das probabilidades (ou reas).
A curva apresentada na Figura 5.1. foi desenhada depois de integrar a funo de
distribuio, de z = 0 a z = 3,9 para a primeira metade da curva direita de 0. Como a parte da
curva esquerda de 0 espelho da parte direita, as probabilidades da esquerda foram
calculadas de z = -3,9 a z = 0. Portanto, o trabalho braal j est feito. A Tabela 1 (anexo da
apostila) tem todas as probabilidades (reas sob a CNP) calculadas com preciso de dois
dgitos.
Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As
figuras que ilustram o uso da Tabela 1 esto no anexo deste captulo.
Exemplo 2: Achar a rea sob a curva normal padro (CNP) esquerda de z = -0,97.
9 A soluo grfica est na Figura 5.2-a.
9 Voc vai direto tabela 1 e procure z = -0,9 (sentido vertical), depois o centsimo
(7) (sentido horizontal) e no encontro dos dois nmeros (0,97), voc tem a rea (que a
probabilidade) sob a CNP.

9 Neste caso, a rea igual a 0,1660. Isto quer dizer que 16,6% da rea est
esquerda de z = -0,97 ou que 83,4% est direita de z = -0,97.
9 No esquecer que a rea total sob a CNP igual a 1.
Exemplo 3: Achar a rea sob a CNP direita de z = 2,5.
9 Veja a soluo grfica na Figura 5.2-b.
9 De novo, voc vai tabela 1 e procure z = 2,5, depois o centsimo 0 e no encontro
dos dois nmeros (2,50), voc tem a rea (que a probabilidade) sob a CNP.
9 Neste caso, voc est calculando a rea sob a CNP de - at 2,5, que d 0,9938 ...
esquerda de z = 2,5.
9 Como voc quer saber a rea direita de z = 2,5, voc tem que subtrair de 1 (rea
total da CNP) e a sim voc ter a rea direita de z = 2,5. Assim, a rea direita ser 1
0,9938 = 0,0062, ou seja, 0,62% da rea est direita da CNP.
Exemplo 4: Achar a rea sob a CNP entre z = -1,04 e z = 2,06.
9 Veja a soluo grfica na Figura 5.2-c.
9 Neste caso, so necessrios os seguintes passos: (1) achar a rea esquerda de z =
-1,04, que igual a 0,1492; (2) achar a rea direita de z = 2,06, que igual a 0,9803; (3)
calcular a rea entre z = -1,04 e z = 2,06, que dada pela diferena (0,9803 0,1492), que
igual a 0,8311.
9 Portanto, a resposta : a rea sob a CNP entre z = -1,04 e z = 2,06 0,8311, ou seja,
83,11% da rea da CNP est entre os dois pontos de z.

5.3. reas sob outras curvas normais:


Na seo anterior mostramos como encontrar as reas sob a curva normal padro
(CNP). No entanto, h vrias curvas normais, que variam de acordo as variaes da mdia e
do desvio padro . Para calcular as probabilidades (reas sob a CNP) para a mdia amostral
_

x (o principal objetivo), precisamos ser capazes de encontrar as reas sob qualquer curva

normal.
Cada curva normal pode ser identificada por 2 nmeros chamados parmetros. Estes
dois parmetros so usualmente representados por mdia e desvio padro . O parmetro
nos diz onde a curva est centrada e indica a disperso da curva normal. Como vimos na
Figura 5.1, quando = 0 e = 1, temos a curva normal padro.
No entanto, no mundo real esta condio de = 0 e = 1 praticamente impossvel
de ser verificada. Os parmetros e variam entre populaes diferentes. Igual CNP, a
curva normal (ou curvas normais) centrada na e quanto maior for , mais dispersa
(achatada ou esparramada) ser a curva. A curva normal tem as mesmas propriedades da
CNP. A nica diferena que o eixo horizontal da CNP z e das outras curvas normais, o
eixo x.
As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c
ilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como
platicrtica, mesocrtica e leptocrtica. bvio que existe um limite de achatamento para que
a curva seja considerada normal. Este limite pode ser determinado usando o teste de
achatamento ou curtose. Da mesma maneira, a curva normal pode ser simtrica ou
assimtrica. A assimtrica pode ser negativa (maior freqncia dos dados tendendo direita

do eixo horizontal) e positiva (maior freqncia tendendo esquerda do eixo) V. Figura 5.4.
Tambm neste caso, h limite para a assimetria, que pode ser definido usando o teste de
assimetria.

Exemplo 5: Achar rea sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1.


9 Veja a soluo grfica na Figura 5.5-a.
9 Primeiro de tudo preciso padronizar a varivel aleatria x.
9 Os resultados da padronizao so: z = 3,0 (para x = 1) e z = 1 (para x = -1).
9 Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z =
3,0, que igual a 0,9987; (2) achar a rea direita de z = 1, que igual a 0,8413; (3) calcular
a rea entre z = 3,0 e z = 1,0, que dada pela diferena (0,9987 0,8413), que igual a
0,1574.
9 Portanto, a resposta : a rea sob a curva normal entre x = -1,0 e x = 1,0 0,1574,
ou seja, 15,74% da rea sob a curva normal est entre os dois pontos de x.
Exemplo 6: Achar a rea sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7.
9 Veja a soluo grfica na Figura 5.5-b.
9 Primeiro de tudo preciso padronizar a varivel aleatria x.
9 Os resultados da padronizao so: z = -0,5 (para x = 2) e z = 2,0 (para x = 7).
9 Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea esquerda de z
= - 0,5, que igual a 0,3085; (2) achar a rea direita de z = 2, que igual a 0,9772; (3)
calcular a rea entre z = -0,5 e z = 2,0, que dada pela diferena (0,9772 0,3085), que
igual a 0,6687.
9 Portanto, a resposta : a rea sob a curva normal entre x = 2,0 e x = 7,0 0,6687, ou
seja, 66,87 % da rea sob a curva normal est entre os dois pontos de x.
Exemplo 7: Achar rea sob a curva normal ( = 6 e = 3) entre x = 0 e x = 12.
9 Veja a soluo grfica na Figura 5.5-c.
9 Primeiro de tudo preciso padronizar a varivel aleatria x.
9 Os resultados da padronizao so: z = -2,0 (para x = 0) e z = 2 (para x = 12).
9 Agora, voc vai Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z =
2,0, que igual a 0,9772; (2) achar a rea esquerda de z = -2, que igual a 0,0228; (3)
calcular a rea entre z = 2,0 e z = -2,0, que dada pela diferena (0,9772 0,0228), que
igual a 0,9544.
9 Portanto, a resposta : a rea sob a curva normal entre x = 0 e x = 12 0,9544, ou
seja, 95,44 % da rea sob a curva normal est entre os dois pontos de x.

5.4. Populaes normalmente distribudas e variveis aleatrias:


Agora chegou a vez de ver como se usa as reas sob as curvas normais para encontrar
_

as probabilidades para x (aproximadamente). Antes, porm, vamos fazer algumas


consideraes sobre populaes e variveis aleatrias normalmente distribudas.

A grande maioria (no todas) das populaes e variveis aleatrias que so


representadas por quantidades como peso, volume, rea basal, DAP etc. tem distribuio de
probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvas
normais. Em outras palavras, as probabilidades para tais quantidades podem ser encontradas
por meio da interpretao das reas sob as curvas normais. Vamos ver isso com exemplos.
Exemplo 8: Uma populao consistindo do peso (em kg) de um grupo de 100
estudantes de mestrado. Os dados da populao esto sumarizados no quadro abaixo.

Quadro 5.2: distribuio de pesos de uma populao em intervalos de 1 kg.


Peso (x)

69

70

71

72

73

74

75

76

77

78

79

freqncia (f)

13

17

20

18

12

,01

,02

,06

,13

,17

,20

,18

,12

,07

,03

,01

f relativa (prob)

O histograma e o polgono de freqncias (absoluta e relativa) dos dados contidos no


quadro 5.2 so apresentados na Figura 5.6.
Como em qualquer populao, podemos associar a esta populao de pesos, uma
varivel aleatria x, como o peso de um estudante selecionado ao acaso. Neste caso, as
probabilidades de x so simplesmente as freqncias relativas. Exemplo: qual probabilidade
de pegar um estudante com peso igual a 72 kg? Resposta: 13% ou 0,13 (freqncia relativa do
quadro 5.2).
O ponto importante deste exemplo que o histograma de freqncia (Figura 5.6) tem
uma quase perfeita forma de sino. Por causa disto, seremos capazes de aproximarmos das
probabilidades para x usando as reas sob uma curva normal. Como voc pode notar, a curva
normal apropriada simplesmente aquela com os parmetros e , onde a mdia da
populao (ou da varivel aleatria x) e o seu desvio padro.
Do quadro 5.2, a mdia () da varivel aleatria x igual a 70,06 kg e o seu desvio
padro () igual a 1,95. Estes dois parmetros podem ser sobrepostos Figura 5.6 para
trabalhar com uma curva normal com = 74,06 e = 1,95. Podemos querer saber, por
exemplo, qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72 kg. Do
quadro 5.2, temos a probabilidade exata disto acontecer, olhando apenas para a freqncia
relativa desta classe (72), que 0,13 ou 13%. A propsito, a classe 72 vai de 71,5 a 72,5.
Desta forma, podemos escrever assim: P (71,5 < x < 72,5) = 0,13.
No entanto, o mundo real diferente. Nem sempre voc tem uma populao to
pequena e to bem organizada que permite ter e e as freqncias relativas. Vamos
trabalhar, agora, sem as freqncias relativas. Voc tem uma populao com = 74,06 e =
1,95 e quer saber qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72
kg.
Passos necessrios: (1) desenhar a curva normal com = 74,06 e = 1,95; (2) definir
o qu voc est procurando, que a probabilidade P (71,5 < x < 72,5); (3) padronizar as
variveis aleatrias, x = 71,5 e x = 72,5; (4) achar as reas para os respectivos z sob a CNP
(Tabela 1 do anexo da apostila).
Soluo: a padronizao das variveis aleatrias x = 71,5 e x = 72,5 resulta em z = 1,31 e z = -0,80, respectivamente. Agora, voc vai Tabela 1 para encontrar as reas sob a
CNP para z = -1,31 e z = -0,80, obtendo as reas 0,0951 e 0,2119, respectivamente. O
resultado ento: 0,2119 - 0,0951 = 0,1168, ou seja, a probabilidade de selecionar,
aleatoriamente, um estudante com peso igual a 72 kg (71,5 a 72,5) de 11,68%.

Sumarizando: a probabilidade exata de selecionar, aleatoriamente, um estudante com peso


igual a 72 kg de 13% e a estimada de 11,68%.
Um importante ponto do exemplo 8 que, para certas populaes e certas variveis
aleatrias, podemos usar as reas sob a curva normal para determinar as probabilidades. Neste
caso, podemos dizer que a populao ou a varivel aleatria normalmente distribuda. Dizer
que uma populao ou varivel aleatria normalmente distribuda (aproximadamente)
significa que as probabilidades para a populao ou varivel aleatria so aproximadamente
iguais s reas sob a curva normal.

5.5. Padronizando a varivel aleatria:


J vimos que para encontrar as reas sob a curva normal com parmetros diferentes de
= 0 e = 1 preciso usar a padronizao, ou seja, converter os valores de x para valores de
z por meio da seguinte frmula:

z=

antes de usar a curva normal padro (CNP). Vamos ver o significado de z e seus
desdobramentos com exemplos.
Exemplo 9: Considere o DAP de uma rvore selecionada ao acaso. Ento, DAP uma
varivel aleatria x com mdia = 100 cm e desvio padro = 10. Por meio da padronizao
da varivel x teremos

z=

x 100
10

e se pegarmos, aleatoriamente, uma rvore qualquer da ZF-2, com 120 cm de DAP, por
exemplo, o que acontece?
z = (120 100) / 10 = 2

Qual o significado deste nmero, z = 2? Isto significa que a rvore selecionada,


aleatoriamente, com DAP = 120 cm est a dois desvios () da mdia da populao.
O processo pode ser tambm invertido, ou seja, temos o z e queremos encontrar o
valor da varivel aleatria x. Vamos ao exemplo.
Exemplo 10: temos z = 1,5; isto , a varivel x est 1,5 vez da mdia. Qual x?
1,5 = (x 100) / 10 = ?
x = 100 + 10(1,5) = 115

ou seja, nesta populao, uma rvore para estar 1,5 vez do desvio, tem que ter DAP igual a
115 cm.
Agora, vamos ao principal ponto desta seo. Considere x uma varivel aleatria
normalmente distribuda com mdia e desvio padro . Ento, a varivel aleatria, que pode
ser padronizada da seguinte maneira:

z=

tem a distribuio normal padronizada. Desta maneira, ns calculamos as probabilidades para


a varivel x por meio da interpretao das reas sob a CNP. Daqui para frente, este fato ser
usado como guia.
Exemplo 11: pense na floresta adulta (DAP 25 cm) do Distrito Agropecurio da
Suframa, onde todos os DAPs so normalmente distribudos com = 35 cm e = 5.

Sabemos que a varivel x padronizada

z=

x 35
5

tem a distribuio normal padro. Isto quer dizer que, de acordo com as propriedades da CNP
temos

P( 3 < z < 3) = 0,9973


P( 2 < z < 2 ) = 0,9545
P( 1 < z < 1) = 0,6827

Considerando que z simplesmente o nmero de desvios padres que x se afasta de


sua mdia, podemos dizer que as probabilidades para intervalos contendo 1 desvio, 2
desvios e 3 desvios so, respectivamente, 0,6827, 0,9545 e 0,9973.
No caso da floresta do Distrito, isto quer dizer, com base nos parmetros de mdia =
35 cm e desvio = 5, temos o seguinte:
(i) P (-1 < z < 1)
35 1 (5) = 30 => limite inferior do intervalo
35 + 1 (5) = 40 => limite superior do intervalo
(ii) P (-2 < z < 2)
35 2 (5) = 25 => limite inferior do intervalo
35 + 2 (5) = 45 => limite superior do intervalo
(iii) P (-3 < z < 3)
35 3 (5) = 20 => limite inferior do intervalo
35 + 3 (5) = 50 => limite superior do intervalo
Sumarizando:
a) 68,26% das rvores do Distrito tm DAPs entre 30 e 40 cm
b) 95,44% das rvores do Distrito tm DAPs entre 25 e 45 cm
c) 99,74% das rvores do Distrito tm DAPs entre 20 e 50 cm

rea = 0,1660

z
-3

-2

-1

=0
Z = -0,97

Figura 5.2-a: rea esquerda de z = -0,97

rea = 0,9938

z
-3

-2

-1

=0
Z = 2,5

Figura 5.2-b: rea direita de z = 2,5

Passo 1: rea para z = -1,04

Passo 2: rea para z = 2,06

rea = 0,9803

rea = 0,1492

z
-3

-2

-1

-3

-2

=0

-1

=0

Z = -1,04

Z = 2,06

Final: rea entre z = - 1,04 e z = 2,06

z
-3

-2

-1

=0
Z = -1,04

Z = 2,06

rea = 0,9803 0,1492 = 0,8311

Figura 5.2-c: entre z = - 1,04 e z = 2,06

= -2
=1

x
-5

-4

-3

-2

-1

Figura 5.3-a: curva normal com

=3
=2

x
-3

-1

Figura 5.3-b: curva normal com

=6
=3

-3

Figura 5.3-c: curva normal

12

15

ASSIMETRIA

POSITIVA

NEGATIVA

Figura 5.4: Assimetria das curvas normais

rea sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1)


Padronizando x
x-
z = -----------
1 (-2)
z = ------------ = 3,0
1
-1 - (-2)
z = ------------ = 1,0
1
x
z

-5

-4

-3

-2

-3
-1

-2

-1

3
z=3

z=1

Figura 5.5-a: Exemplo 5


rea sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7)
Padronizando x
x-
z = -----------

7 - (3)
z = ------------ = 2,0
2

2 (3)
z = ------------ = -0,5
2

x
-3

-1

-3

-2

-1

z
z = - 0,5

z=2

Figura 5.5-b: Exemplo 6


rea sob a curva normal ( = 6 e = 3) entre x = 0 e x = 12)
Padronizando x
0 (6)
x-
z = ------------ = -2,0
z = -----------3

12 - (6)
z = ------------ = 2,0
3

x
-3

12

15

-3

-2

-1

z = -2,0

z = 2,0

Figura 5.5-c: Exemplo 7

0,25

20

0,2

15

0,15

10

0,1

0,05

freq relativa (prob)

freq absoluta

25

0
69

70

71

72

73

74

75

76

77

78

79

peso (kg)

Figura 5.6: Histograma e polgono de freqncia (absoluta e relativa).

Captulo 6 Distribuio amostral da mdia ( x )


Todo eng florestal sabe que o inventrio florestal o primeiro passo para planejar o
manejo sentido lato de uma floresta, nativa ou artificial. O inventrio, por sua vez, consiste
em obter uma mdia representativa da populao de interesse, seja em termos de volume, rea
basal ou outra varivel de interesse.
O que uma mdia representativa?
Por analogia, mdia (volume) de uma floresta o mesmo que a mdia usada para
definir caf-com-leite em muitos bares do sul e sudeste do Brasil. Em um copo de 100 ml,
uma mdia deveria ter 50 ml de caf e 50 de leite. Certo? Errado ... porque se fosse assim, o
balconista no teria na ponta da lngua aquela pergunta: mais caf ou mais leite? Mais leite
ou mais caf vai depender do gosto do fregus e da mo do balconista. Voc tem que confiar
ou parar de tomar aquela mdia naquele bar. De qualquer modo, o total do copo no passar
de 100 ml, ou seja, o excedente de caf (+) ser anulado pelo que falta de leite (-) ou viceversa.
Vamos mostrar neste captulo que a estimativa de uma mdia tende sempre a ser
parecida com a mdia verdadeira da populao. O que muda o desvio padro, que base de
clculo da incerteza. A tendncia diminuir a incerteza (que bom) com o aumento da
intensidade de amostragem. Portanto, mdia representativa aquela que proporciona
confiana (incerteza sob controle) e conforto ($) para quem vai us-la.

6.1. Amostras aleatrias


Amostra pode ser um nico indivduo ou um conjunto deles. No caso de pesquisas de
opinio, cada eleitor uma amostra. No caso de inventrio florestal, um conjunto de rvores
corresponde a uma amostra. Na Amaznia, vrios estudos apontam que parcela de 2.500 m2
suficiente para cobrir as variaes (volume) de uma determinada rea florestal com DAP 20
cm, ou seja, um conjunto com aproximadamente 50 rvores.
Em geral, as amostras tm que ser tomadas de forma aleatria, pois foi assim que a
estatstica de inferncia foi concebida. No entanto, a amostragem aleatria pode ser
desdobrada em: inteiramente aleatria e aleatria restrita. Tanto nos inventrios, como em
pesquisas de opinio, a aleatria restrita a mais utilizada por causa dos custos de coletas de
dados e tem produzido bons resultados. No caso de eleies presidenciais, a populao de
eleitores brasileiros estratificada por sexo, idade e, principalmente, por densidade eleitoral.
Em inventrios na Amaznia, a maioria utiliza a amostragem em dois estgios, ou seja,
seleciona aleatoriamente a unidade primria e distribui as unidades secundrias de forma
sistemtica.
Intensidade de amostragem o nmero total de amostras ( n ) dividido pelo nmero
total de possveis amostras em uma populao ( N ). Por exemplo: os institutos de pesquisas
(Ibope, Datafolha etc.) ao realizar uma pesquisa de opinio sobre eleies presidenciais no
Brasil, tm utilizado em torno de 4.000 eleitores de um total de 115 milhes; neste caso, n =
4.000 e N = 115 milhes. No nosso caso, se voc tem uma rea de 1.000 hectares e quer
instalar 100 amostras de 2.500 m2 cada ( hectare) para realizar o inventrio florestal; neste
caso n = 100 e N = 4.000 (n total de possveis amostras de, ha, ou seja, 20x125m).
_

Do ponto de vista terico, vamos mostrar como calcular as probabilidades de x


usando as reas sob as curvas normais. Isso quer dizer que temos que determinar a
_

distribuio da probabilidade da varivel aleatria x . A distribuio de probabilidade de x


chamada de distribuio amostral da mdia.

6.2. A mdia da mdia ( x ) e o desvio padro de ( x )


O primeiro passo para descrever a distribuio amostral da mdia saber como
_

encontrar a mdia e o desvio padro da varivel aleatria x . Isto necessrio para usar os
_

mtodos da curva normal para encontrar as probabilidades para x .


As frmulas para calcular essas duas variveis so:

xi p
xi
e

i =1

(x )

xi

n 1

p
xi

Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades
(congelada em 2003) de cada membro de minha famlia (eu, mulher e 3 filhos) como uma
populao, ou seja, N = 5. Esta situao nunca ser encontrada na vida real porque para saber
a idade mdia dessa famlia basta somar as 5 idades e dividir por 5 ... ningum vai utilizar os
recursos da amostragem. No entanto, se voc entender o significado da estimativa da mdia
da populao e o comportamento do erro padro da mdia conforme se aumenta intensidade
de amostragem, para uma pequena populao (N = 5), fica mais fcil entender essas duas
variveis aleatrias quando for trabalhar com uma populao grande ou infinita (nmero de
eleitores do Brasil, N = 115 milhes, floresta da ZF-2 etc.).
Temos 3 situaes ilustrando a utilizao de 3 intensidades diferentes de amostragem
anexos 1, 2 e 3. A situao 1 se refere a uma amostragem considerando n = 2, ou seja,
escolha aleatria de 2 pessoas para estimar a mdia da populao. Primeiro voc tem que
saber quantas combinaes so possveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. S
para lembrar: fatorial de zero (0!) igual a 1 e fatorial de nmeros negativos ou no inteiros
no existe. Isto mostrado na pgina que ilustra a situao 1. Depois disso, voc tem que
_

estimar a mdia de cada combinao possvel. Aplicando a frmula de x voc vai encontrar
a mdia da mdia de todas as possveis combinaes. Voc vai notar que a mdia da mdia
exatamente igual mdia verdadeira da populao.
Repetindo as mesmas operaes para as situaes 2 e 3, respectivamente, amostragens
de n = 3 e n = 4, voc vai notar que a mdia da mdia ser sempre igual mdia da
populao, mudando apenas o desvio padro da mdia. Resumindo: a mdia da amostra ser
sempre muito parecida com a da populao e conforme voc aumenta o n, o desvio padro da
mdia (ou erro ou incerteza) diminui. Voc se convenceu desta afirmativa? Se no, melhor
tentar a vida em outra praia.
Se sim, vamos pensar agora em termos de populao de verdade. Vamos falar de
eleitores brasileiros. Em geral, os institutos utilizam aproximadamente 4.000 eleitores para
inferir sobre a populao de 115 milhes de eleitores brasileiros. Quantas possveis
combinaes so possveis quando a gente utiliza n = 4000 de N = 115 milhes? s fazer as
contas ... mas no as faa.

115.000.000
4.000

115.000.000 !
= ------------------------------------possveis combinaes
4.000 ! (115.000.000-4.000) !

bvio que ningum vai fazer todas as possveis combinaes. Se fizesse, a mdia da
mdia seria exatamente igual mdia da populao. Ento, o que feito? As empresas tomam
apenas uma nica combinao de 4000 eleitores para inferir sobre a populao de eleitores
pressupondo que a mdia estimada na pesquisa ser igual da populao e que n = 4000
produzir uma incerteza (erro) menor que n = 3.999.
Em uma floresta de porte mdio como a da ZF-2, por exemplo, com 21.000 hectares,
temos N = 84.000 (21000 x 4) amostras possveis de ha cada. Se a gente usar n = 50,
quantas possveis combinaes seriam possveis? Vrias. Quantas combinaes a gente faria
no caso de um inventrio florestal? Certamente, apenas uma. A nossa expectativa ter uma
mdia (volume ou outra varivel) representativa da populao com uma margem de erro
aceitvel.
A mdia importante porque sem ela no h planejamento. No entanto, mais
importante mesmo saber com que margem de erro (incerteza) a gente est trabalhando.
importante tambm no perder de vista que a intensidade de amostragem est diretamente
relacionada com os custos. No caso de inventrios, voc tem duas alternativas: (1) fixa a
incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda
alternativa a mais freqente. H meios para se prevenir de incertezas indesejadas.
Em inventrios florestais, voc pode se prevenir utilizando boas imagens, bons mapas,
bons equipamentos e mtodos adequados de amostragem, em combinao com planejamento
de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que
voc comete por medir apenas parte da populao). No confundir com erros no-amostrais
(humanos, principalmente), que no so tratados aqui. No esquecer tambm que n
denominador.

6.3. Teorema do limite central


Vimos at aqui que a confiana na mdia passa pela confiana nas probabilidades que
a gente trabalha. No prximo captulo vamos ver como calcula a incerteza de uma estimativa.
Aqui, vamos nos concentrar nas probabilidades obtidas usando as reas sob as curvas
normais.
Temos a curva normal padro com = 0 e = 1. Com a integrao da funo que
descreve esta curva, a gente obtm as probabilidades. Estas reas j foram calculadas por
vrios autores e esto disponveis em apndices de livros de estatstica, tabela-z. No mundo
real, a curva normal com estas caractersticas no existe. Por esta razo, a gente tem que
padronizar as possveis curvas normais para utilizar a tabela-z. As curvas normais podem ser,
dentro de limites bem definidos, assimtricas ou achatadas, diferentes da forma de sino. Para
isso, h testes para saber se as suas variveis de interesse esto dentro desses limites.
Difcil mesmo fazer a nossa varivel ficar dentro dos limites da distribuio normal.
No entre em pnico ainda! O remdio para essa situao o teorema do limite central. O
que diz este teorema?
Quando uma amostragem aleatria de tamanho n (onde n pelo menos igual a 30)
_

tomada de uma populao, a x aproximadamente normalmente distribuda com x = e


_

desvio padro da mdia x = /

n . Nestas condies, as probabilidades para x podem ser

encontradas, aproximadamente, utilizando as reas sob a curva normal com os parmetros e


_

x .
Isto quer dizer que: independentemente da forma que a distribuio de sua varivel
aleatria assumir, voc pode calcular as probabilidades usando a tabela-z, desde que n 30.
Significa tambm que para as amostras aleatrias de qualquer distribuio com mdia e
_

desvio padro x , a mdia amostral dessas unidades de tamanho n aproximadamente


normal e esta aproximao melhora conforme se aumenta o n. Para se chegar a este nmero
mgico igual a 30, foram feitas inmeras simulaes at constatar que acima deste nmero
no se percebe diferenas entre as reas sob a curva normal e de outras funes.
Tanto em trabalhos de pesquisas ou de inventrios florestais, o ideal utilizar uma
amostragem com, pelo menos, 30 unidades amostrais. Se voc fizer assim, a incerteza que
voc encontrar, consistente; caso contrrio, voc ter que comprovar a normalidade antes de
inferir. A propsito, uma amostragem com n < 30 considerada pequena e a curva-t a que
tem que ser utilizada para a obteno das probabilidades.

Anexo 1

Situao 1
Tomando uma amostragem com n = 2 de uma populao com N = 5
Quantas combinaes so possveis?

N!
5!
120
N
=
=
= 10 combinaes
=
n n!( N n )! 2!(5 2)! 12
Populao

Amostragem

nome

idade

comb.

NH
MIGH
IGH
FGH
GGH
mdia
desvio

51
46
22
20
12
30,2
17,21

1
2
3
4
5
6
7
8
9
10

idade1 idade2

51
51
51
51
46
46
46
22
22
20

46
22
20
12
22
20
12
20
12
12

x*p

Desvio

48,5
36,5
35,5
31,5
34,0
33,0
29,0
21,0
17,0
16,0

0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1

4,85
3,65
3,55
3,15
3,40
3,30
2,90
2,10
1,70
1,60

33,49
3,97
2,81
0,17
1,44
0,78
0,14
8,46
17,42
20,16

30,2

88,86

x
_

= 30,2
_

x = 30,2
Coincidncia? No!

9,43

Anexo 2

Situao 2
Amostragem de n = 3 da populao com N = 5
Quantas combinaes so possveis?

N!
5!
120
N
=
=
= 10 combinaes
=
n n!(N n )! 3!(5 3)! 12
Populao

Amostragem

nome

idade

comb.

idade1

NH

51

51

46

MIGH

46

51

IGH

22

FGH

20

GGH

idade2 idade3

x*p

Desvio

22

39,67

3,97

8,96

46

20

39,00

3,90

7,74

51

46

12

36,33

3,63

3,76

51

22

20

31,00

3,10

0,06

12

51

22

12

28,33

2,83

0,35

mdia

30,2

51

20

12

27,67

2,77

0,64

desvio

17,21

46

22

20

29,33

2,93

0,08

46

22

12

26,67

2,67

1,25

46

20

12

26,00

2,60

1,76

10

22

20

12

18,00

1,80

14,88

30,20

39,49

x
_

= 30,2
_

x = 30,2
Coincidncia de novo? No!

6,28

Anexo 3

Situao 3
Amostragem de n = 4 da populao de N = 5
Quantas combinaes so possveis?

5!
120
N!
N
=
=
= 5 combinaes
=
n n!( N n )! 4!(5 4 )! 24
Populao

Amostragem
idade3 idade4

x*p

desvio

34,75
32,75
32,25
26,25
25

0,2
0,2
0,2
0,2
0,2

6,95
6,55
6,45
5,25
5

4,141
1,301
0,841
3,121
5,408

30,2

14,812

idade

idade1

idade2

NH
MIGH
IGH
FGH
GGH

51
46
22
20
12

51
51
51
51
46

46
46
46
22
22

mdia

30,2

desvio

17,21

22
22
20
20
20

20
12
12
12
12

nome

3,85

= 30,2
_

x = 30,2
Coincidncia? No! Por que no?
_

1) Se voc usar todas as possveis combinaes, a mdia da mdia x ser sempre igual
a mdia da populao , independentemente do tamanho da amostragem.
2) O que muda o desvio padro da mdia ou erro padro, ou seja, conforme aumenta a
intensidade de amostragem, diminui o erro, aumenta a preciso e diminui a incerteza
da sua estimativa.

CAPTULO 7
Estimando a mdia da populao
7.1. Intervalos de confiana:
_

Vimos no captulo 5 que razovel usar uma mdia amostral x para estimar a mdia
da populao ( ). A Lei dos Grandes Nmeros diz que: se uma grande amostragem
_

aleatria tomada de uma populao, a x tende a ser parecida com .


No captulo 6 discutimos o Teorema de Limite Central que diz: se uma amostragem
aleatria de tamanho n (n 30) tomada de uma populao com mdia e desvio padro ,
_

ento x (aproximadamente) normalmente distribuda e, por esta razo, podemos encontrar


_

as probabilidades para x usando as reas sob a curva normal com parmetros e /

n.

E AGORA??
_

Qual a confiana sobre a preciso envolvida ao usar x para estimar ?

Estamos falando do Intervalo de Confiana (IC), que ser definido com exemplos.
Exemplo 1: Um estatstico est interessado em obter informaes sobre a mdia em
altura de uma populao, , de todos os adultos masculinos de uma grande cidade.

Com base em experincia anterior ele sabe que o igual a 2,5. Se ele tomar uma
_

amostragem aleatria de 30 adultos, qual a probabilidade da altura mdia x estar dentro de


1 da altura mdia da populao, ?
_

Soluo: Queremos encontrar a probabilidade da x estar dentro de 1 de ; que , P


( - 1 <

< + 1 ). Como n 30, recorremos ao Teorema de Limite Central para


_

encontrar as probabilidades para x usando as reas sob a curva normal com parmetros
(que no conhecemos) e / n = 2,5 / 30 = 0,46.
_

Ento, para encontrar P ( - 1 < x < + 1 ), precisamos encontrar a rea sob a


curva normal (com parmetros e 0,46) entre - 1 e + 1.
Desta vez no conhecemos - 1 e + 1, ao contrrio de exemplos anteriores. Mas,
mesmo assim, podemos resolver o problema pela padronizao de nossa varivel aleatria, da
seguinte maneira:

z = x 0,46

O valor de z para x = - 1
z = [ ( - 1) - ] / 0,46 = -1 / 0,46 = -2,17
_

E o valor de z para x = + 1
z = [ ( + 1) - ] / 0,46 = 1 / 0,46 = 2,17

Da tabela 1, tiramos as reas sob a curva para z = -2,17 e z = 2,17, que so


respectivamente 0,0150 e 0,9850. A rea, ento, compreendida entre -2,17 e 2,17 :
rea = 0,9850 - 0,0150 = 0,97
Conseqentemente,
_

P ( - 1 < x < + 1 ) = 0,97


_

Quer dizer: a probabilidade da x estar entre 1 da de 0,97.


_

Vamos colocar a expresso anterior de outra maneira: que a x deve estar 1 da ,


_

que o mesmo que dizer que est entre 1 de x . Isto pode ser re-escrito da seguinte
maneira:
_

P ( x - 1 < < x + 1) = 0,97

Em outras palavras, sabemos que se uma amostragem aleatria de 30 adultos masculinos


_

tomada, ento a probabilidade do intervalo de x - 1 a x + 1 conter de 0,97.

Suponha agora, por exemplo, que quando o pesquisador tomar uma amostragem
_

aleatria, ele consegue x = 67, ento


_

x - 1 = 66 e x + 1 = 68
Ele sabe que, 97% destes intervalos contero e, por esta razo, ele pode estar 97% certo de
que a estar entre 66 e 68. Desta forma, o intervalo de 66 a 68 chamado de IC 97% para
.

7.2. Especificando o nvel de confiana:


Na seo anterior vimos como encontrar o IC para uma mdia da populao , com
_

base na informao obtida de mdia amostral x . No exemplo anterior especificamos o


tamanho da amostragem e a forma do IC e, com estas especificaes, calculamos a confiana.
Entretanto, freqentemente desejvel especificar a confiana a priori.
Exemplo 2: A companhia de telefone est interessada em obter informaes sobre o
tempo mdio, , de cada chamada. Um levantamento preliminar indicou que o desvio padro
das chamadas = 4,4 minutos. Ao monitorar (no grampear) aleatoriamente 100 chamadas,
_

n = 100, chegou-se a um tempo mdio x = 5,8 minutos.


_

Sabendo que x = 5,8, encontrar o IC 95% para

Nesta questo (ao contrrio das questes consideradas previamente) a confiana


especificada a priori: queremos um IC a 95%. A soluo para este problema o inverso do
procedimento usado para resolver o exemplo 1, o que implica em usar a tabela 1 no sentido
inverso, ou seja, voc tem a rea sob a curva (rea = 0,05) e precisa encontrar o valor de z.

Soluo: Encontrar o valor-z, para o qual a rea sob a CNP (curva normal padro)
direita deste z, 0,025 (rea/2) e esquerda de z. Note que a rea total sob a CNP 1, ento
estamos falando de uma rea equivalente a [1 - 0,025 ] = 0,975 e 0,025. Dessa maneira, para

resolver este problema precisamos encontrar o valor-z que tem uma rea entre 0,975 e 0,025
sua esquerda.
Na tabela 1, o valor-z que tem uma rea de 0,975 sua esquerda 1,96 - no encontro
da linha 1,9 com a coluna 6, voc tem uma rea de 0,9750. Neste caso, voc tem o valor
exato de 0,9750 (1 - 0,025) na tabela. Se o valor exato no for encontrado, faa interpolaes.
O valor-z que tem uma rea de 0,025 sua esquerda -1,96.
Agora, voltando companhia telefnica: sabemos que n = 100 e, em funo podemos
_

recorrer ao TLC (teorema de limite central) para assumir que x aproximadamente


_

normalmente distribuda com x = (que no conhecemos) e o desvio padro:

n = 4,4

100 = 0,44

Assim, a varivel aleatria z ter a seguinte frmula

z = ( x ) 0,44
e ter aproximadamente uma distribuio normal padro.
Como queremos o IC 95% para , podemos coloc-lo da seguinte maneira:
P ( -1,96 < z < 1,96 ) = 0,95
_

P ( -1,96 < [ x - ] / 0,44 < 1,96 ) = 0,95


_

P ( x - 1,96*0,44 < < x + 1,96*0,44 ) = 0,95


_

P ( x - 0,86 < < x + 0,86 ) = 0,95


_

substituindo o valor de x = 5,8, teremos os seguintes intervalos:


_

x - 0,86 = 5,8 - 0,86 = 4,94


e
_

x + 0,86 = 5,8 + 0,86 = 6,66


Concluindo que o intervalo entre 4,94 e 6,66 minutos o IC 95% para . A companhia pode
ter 95% de confiana que a durao mdia de uma chamada, , da cidade est entre 4,94 e
6,66 minutos.

7.3. Intervalos de confiana para mdias: grandes amostras


No exemplo anterior encontramos o IC 95%. O nmero 0,95 conhecido como o nvel
de confiana ou coeficiente de confiana. Em estatstica, costuma-se escrever 0,95 como 1 0,05. Este nmero subtrado de 1 para obter o nvel de confiana que representado pela
letra grega . Para IC 95%, = 0,05; para IC 90%, o nvel de confiana = 0,10 e assim
por diante.

Procedimento para encontrar o IC para , baseado em x :


Requisitos: (1) n 30 e (2) conhecido
Passo 1: Se o nvel de confiana desejado 1 - , use a tabela 1 para encontrar
z /2
Passo 2: O IC desejado para :
_

x -z

/2

*(/

n ) para x + z

/2

*(/

n )
_

onde z /2 obtido seguindo o passo 1, n o tamanho da amostragem e x


obtida dos dados da amostragem.
Exemplo 3: Uma empresa florestal est interessada em obter informaes sobre o
dimetro mdio, , de sua floresta. Um estudo preliminar indicou que = 10 cm. O
empresrio decidiu verificar esta informao com base em uma amostragem de 30 rvores.
_

Ele encontrou uma mdia amostral das 30 rvores, x = 40 cm. Baseado nestas informaes,
vamos encontrar o IC 90% para a .
Soluo: Checando primeiro: n 30 - OK!; e conhecido. Podemos, ento,
aplicar os passos necessrios:

1. O nvel de confiana 0,90 = 1 - 0,90; logo = 0,10 e da tabela 1 tiramos


z
2. Desde que z

/2

= z 0,05 = 1,64
_

/2
_

= 1,64, n = 30, = 10 e x = 40, o IC 90% para ser:

x - z

/2* /

a x + z

/2*

substituindo os valores conhecidos


40 - 1,64 * 10 /

30 a

40 + 1,64 * 10 /

30

37 a 43
Concluindo: o empresrio pode ter 90% de confiana que o dimetro mdio, , de sua
floresta est entre 37 a 43 cm.
At agora assumimos que o conhecido. Entretanto, na maioria dos casos, isto
no possvel. Uma maneira de lidar com isto fazer um levantamento piloto para estimar
o . Quer dizer: podemos usar o desvio padro amostral s no lugar do . Isto aceitvel
porque, para grandes amostras ( n 30 ), o valor de s extremamente parecido a ser uma
boa aproximao de . A conseqncia matemtica disso a seguinte (recorrendo tambm
aoTLC):

x
s

em vez de

E os outros procedimentos so os mesmos apresentados no quadro anterior, substituindo


apenas por s .
Exemplo 4: No Quadro 7.1 so apresentadas informaes sobre rea basal por hectare
de 30 unidades amostrais (ua) selecionadas aleatoriamente de 2 transectos de 20 x 2.500 m,
distribudos nas seguintes classes topogrficas: plat, encosta e baixio. Os procedimentos so
os mesmos utilizados anteriormente e os resultados so:
_

plat =>

IC (95%) = x 2,5 = 31,2 2,5 = 28,7 < < 33,6

encosta =>

IC (95%) = x 2,3 = 28,5 2,5 = 26,2 < < 30,8

baixio =>

IC (95%) = x 2,1 = 26,5 2,5 = 24,4 < < 28,6

O segundo termo aps o sinal () pode ser considerado como incerteza ou margem
de erro. Assim, as incertezas para plat, encosta e baixio so, respectivamente: 0,0799,
0,0808 e 0,0785, ou seja, as incertezas (em %) so de 7,99%, 8,08% e 7,85%.

7.4. A distribuio t (de student):


Nas sees anteriores deste captulo vimos como encontrar o IC para , quando
lidamos com grandes amostras ( n 30 ). Entretanto, em muitos casos, quando grandes
amostras no esto disponveis, extremamente caras ou, por alguma razo, simplesmente
indesejvel, voc tem que dar outro jeito porque a curva-z no se aplica nestas condies.
Neste caso, recorremos curva-t em vez da curva-z.
Detalhe importante: para obter IC para a mdia da populao, a partir de pequenas
amostras ( n < 30 ), a populao, por si s, tem que ser aproximadamente normalmente
distribuda.

Se n < 30, no podemos usar a CNP para encontrar as probabilidades para o IC.
Entretanto, um pesquisador chamado W.S. Gosset desenvolveu curvas de probabilidade que
podem ser usadas, em vez da CNP. Estas curvas so conhecidas como curvas-t de student ou
simplesmente curvas-t. A forma de uma curva-t depende do tamanho da amostra. Se a
amostra de tamanho n, ns identificamos a curva-t em questo dizendo que a curva-t com
(n-1) graus de liberdade.
Se tomamos uma amostra aleatria de tamanho n de uma populao que
aproximadamente normalmente distribuda com mdia , a varivel aleatria

t = (x ) s

tem a distribuio-t com (n - 1) graus de liberdade. As probabilidades para esta varivel


aleatria pode ser encontrada usando as reas sob a curva-t com (n - 1) graus de liberdade tabela 2.
As curvas-t variam conforme os graus de liberdade, como ilustrado na figura 7.1.

E as curvas-t tm as seguintes propriedades:

9
A rea total sob qualquer curva-t igual a 1.
9
As curvas-t so simtricas em torno de zero.
9
As curvas-t se estendem indefinidamente em ambas as direes.
9
Conforme aumenta o nmero de graus de liberdade, as curvas-t ficam
mais parecidas com a CNP.
A maneira de encontrar a rea sob a curva-t a mesma usada na CNP.

7.5. Intervalos de confiana para mdias - pequenas amostras:


_

Vamos ver agora os procedimentos para encontrar os IC para baseada em x ,


quando o tamanho da amostra menor que 30 ( n < 30 ). Vamos ilustrar o procedimento com
um exemplo.
_

Procedimento para encontrar o IC para , baseado em x :


Requisitos: Populao normal
Passo 1: Se o nvel de confiana desejado 1 - , use a tabela 2 para encontrar
t /2
Passo 2: O IC desejado para :
_

x -t

/2

*(s/

n ) para x + t

/2

*(s/

n )
_

onde t /2 obtido seguindo o passo 1, n o tamanho da amostragem e x


e s so obtidas dos dados da amostragem.
Exemplo 4: Um vendedor de pneus est interessado em obter informaes a respeito
da durabilidade mdia ( ) de uma nova marca. O fabricante diz que a nova marca foi feita
para aguentar 40.000 milhas, ou seja, = 40.000. O vendedor quer testar, por sua conta, a
durabilidade dos pneus.

Para isto, ele decide tomar uma amostragem aleatria de 16 pneus e conferiu a
milhagem de cada um.Os resultados deste teste o seguinte:
Pneu
1
2
3
4
5
6
7
8

milhagem
43.725
40.652
37.732
41.868
44.473
43.097
37.396
42.200

Pneu
9
10
11
12
13
14
15
16

Milhagem
39.783
44.652
38.740
39.385
39.686
44.019
40.220
40.742

Usando estes dados, vamos encontrar o IC 95% para , considerando que a


durabilidade do pneu normalmente distribuda.

Soluo: Vamos usar o procedimento definido anteriormente; neste caso com n = 16.
1. O nvel de confiana desejado 0.95, isto , = 0,05. Usando a tabela 2 para (16-1)
= 15 graus de liberdade.
t /2 = t 0,025 = 2,13
2. O IC 95% :
_

x - 2,13*( s /

n ) para x + 2,13*( s /

n )

Dos dados deste exemplo (dos pneus) temos:


_

x = 41.148,13
e
s = 2.360, 32
Conseqentemente
_

x - 2,13*( s /
_

x + 2,13*( s /

n ) = 41.148,13 - 2,13 * (2.360,32/ 16 ) = 39.891,26


n ) = 41.148,13 + 2,13 * (2.360,32/ 16 ) = 42.405,00

Isto quer dizer que o vendedor pode ter 95% de confiana que a (durabilidade mdia
da nova marca) est entre 39.891 a 42.405 milhas. Desta forma, o fabricante est correto em
afirmar que a nova marca tem = 40.000 milhas.

Quadro 7.1: Dados de rea basal (m2/ha) em dois transectos na ZF-2 distribudos em classes
topogrficas (plat, encosta e baixio).
transecto
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
mdia
desvio
IC(95%)

ua
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

plat
41,4
43,7
26,1
33,8
33,3
37,2
31,0
18,6
33,2
32,4
26,2
41,3
19,6
34,8
27,3
39,5
30,1
24,6
36,6
34,7
60,7
44,7
26,3
24,5
26,6
22,2
35,7
19,4
17,0
52,6
26,6
36,7
33,3
20,6
57,7
38,8
43,2
23,6
28,4
17,6
18,9
27,6
47,7
23,9
21,1
22,3
19,7
27,4
39,2
27,7
28,5
18,0
39,0
28,1
34,0
25,3
26,4
40,6
21,3
31,1
31,2
9,8
2,5

encosta
21,8
28,2
22,1
14,9
21,9
27,5
30,9
36,5
21,9
28,5
28,4
31,5
32,7
30,8
29,9
23,5
18,4
18,4
24,0
16,3
15,9
35,0
19,9
31,3
18,4
31,1
11,3
24,3
47,0
24,8
27,0
30,9
23,8
27,9
28,2
36,6
17,6
33,5
30,2
39,9
38,0
26,6
32,7
56,0
59,8
34,7
29,8
28,5
25,3
9,4
32,3
31,2
28,1
28,1
39,7
21,5
38,7
29,4
25,5
34,0
28,5
9,1
2,3

baixio
28,2
22,1
29,6
39,3
43,2
39,7
40,7
22,6
12,4
15,8
25,6
40,6
26,4
21,8
35,8
34,6
20,6
21,1
24,3
41,6
29,6
41,9
36,7
23,5
27,4
28,1
12,3
23,5
29,6
23,4
6,4
26,9
21,1
17,2
25,2
23,7
14,5
27,7
28,6
37,5
26,1
25,7
18,6
24,2
19,2
15,2
42,3
20,4
26,1
27,0
35,6
24,9
25,2
20,8
23,1
24,9
23,1
23,5
21,3
30,7
26,5
8,2
2,1

Curva normal

-3

-2

-1

0 1

Curva-t com 12 gl

-3 -2 -1 0 1

Curva-t com 3 gl

-3 -2 -1 0 1

Figura 7.1.: Diferentes curvas-t com diferentes graus de liberdade (gl).

Captulo 8
Testes de hipteses para mdias
8.1. Introduo:
No Captulo 7 aprendemos como fazer uma predio educada1 (inferncia) sobre
_

uma mdia da populao olhando a mdia amostral x de uma amostra aleatria da


populao. Neste captulo, vamos fazer o inverso; vamos fazer uma predio educada ou
_

levantar uma hiptese sobre a e ento vamos usar a x para fazer inferncia concernente a
_

nossa hiptese. Em outras palavras, usaremos x para decidir se a nossa hiptese concernente
correta.
Exemplo 1: O DAP mdio da floresta do Distrito Agropecurio da SUFRAMA (rea
de 600.000 ha) = 38 cm. Vamos ver neste captulo como usar o DAP mdio tomado de
_

uma amostragem aleatria (por ex., n = 30, correspondente a 30 hectares), x , para decidir se
aquilo que hipotetizamos ( = 38 cm) est correto ou no.
Dizemos ento que = 38 cm a hiptese nula (h0), que pode ser escrita da seguinte
maneira:
Hiptese nula: = 38
Que pode ser testada contra a hiptese de que a no igual a 38 cm, conhecida como
hiptese alternativa (h1), que pode ser escrita da seguinte maneira:
Hiptese alternativa: 38
(que pode ser tambm < 38 ou > 38)
_

A questo agora : como usar a x para tomar a deciso? A idia simplesmente a


_

seguinte: sabemos que x dever ser aproximadamente igual a , ou seja, se = 38


_

(assumindo que h0 verdadeira), podemos esperar que a x (o DAP estimado) seja mais ou
menos igual a 38 cm. E agora? O quo prximo de 38 precisa estar o DAP mdio para ser
considerado estatisticamente igual a ? Se a gente olhar para h1, precisamos responder: o
quo distante de 38 precisa estar o DAP mdio para ser considerado diferente da ? Ou ento:
o quo menor ou o quo maior para testar as hipteses alternativas ( < 38 ou > 38)?
Matematicamente falando, precisamos encontrar um ponto para tomada de deciso, d,
_

tal que se x d ou se x < d ou se x > d, ento rejeitamos h0 ( = 38). Geralmente os


estatsticos usam 1, 5 ou 10% como limites para d antes de rejeitar h0. Os nmeros 0,01 (1%),
0,05 (5%) e 0,10(10%) so chamados de nveis de significncia do teste e so geralmente
denotados como .
Como escolher as hipteses para serem testadas??

Em geral a escolha das hipteses nula (h0) e alternativa (h1) bastante subjetiva.
Como regra bsica podemos dizer que h0 leva sempre o sinal de ( = ); exemplos: = 38, 1 =
2 (mdia da populao 1 igual a mdia da populao 2) e assim por diante.
1

predio educada pode ser traduzida como um chute certeiro de um Romrio por exemplo.

A h1 pode ser quebrada em duas situaes:


- teste uni-caudal: neste caso, ou olhamos direita de d quando temos h1: > 38, ou
esquerda de d quando temos h1: < 38. Outra situao 1 < 2 ou 1 > 2.
- teste bi-caudal: olhamos simultaneamente direita e esquerda de d e o qu
acontecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez
de ns temos que usar /2.
Observao: Desde que o nvel de significncia seja a probabilidade de rejeitar uma h0
verdadeira, improvvel que h0 ser rejeitada quando ela for verdadeira. Conseqentemente,
se podemos rejeitar h0 num teste de hiptese, ento podemos estar razoavelmente confiantes
que h1 verdadeira. Por outro lado, se no podemos rejeitar h0, isto no prova que h0 seja
verdadeira, simplesmente quer dizer que ela razovel, nada mais.

H dois tipos de erros quando aceitamos a hiptese que no verdadeira, Tipo I e Tipo
II, que ilustramos no quadro abaixo:
hiptese que

hiptese que verdadeira

Aceita

H0

h1

h0

OK!

erro Tipo II

h1

erro Tipo I

OK!

8.2. Montando um Teste de Hiptese: Grandes Amostras


Veremos agora o procedimento para montar um teste de hiptese referente mdia de
uma populao, , quando o tamanho da amostragem considerado grande (n 30). Para
executar este teste podemos recorrer a curva normal padro (distribuio), vista
anteriormente, que diz que quando tomamos uma amostra aleatria de n 30 de uma
populao com mdia , ento a varivel aleatria tem aproximadamente a distribuio
normal padro.

z=

(x )
s

8.2.1. Testes de Hipteses para uma mdia simples: teste unicaudal para
grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:

Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: < 0
3. Condicionante: tamanho da amostragem n 30
4. Escolher o nvel de significncia2 . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = - z. Usar Tabela 1 para encontrar o valor de z.
2

hoje em dia a maioria dos pacotes estatsticos j do diretamente o valor exato de .

6. Calcular o valor de

z=

(x 0 )

(s n )

7. Se z < d, rejeitar a hiptese nula.


(ii) Olhando apenas o lado direito da curva:

Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: > 0
3. Condicionante: tamanho da amostragem n 30
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = z. Usar Tabela 1 para encontrar o valor de z.
6. Calcular o valor de

z=

(x 0 )

(s n )

7. Se z > d, rejeitar a hiptese nula.

8.2.2. Testes de Hipteses para uma mdia simples: teste bi-caudal para
grandes amostras.
Neste caso vamos olhar esquerda e direita da curva e, por esta razo, temos dois
nveis crticos ou pontos de deciso d.
Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: 0
3. Condicionante: tamanho da amostragem n 30
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. Os valores crticos so d = - z/2 e d = z/2. Usar Tabela I para encontrar os valores
de z/2.
6. Calcular o valor de

z=

(x 0 )

(s n )

7. Se z < - d ou z > d, rejeitar a hiptese nula.

8.2.3. Testes de Hipteses para Diferena entre Mdias de Amostras


Independentes Grandes Amostras:
Neste caso estamos considerando a possibilidade de comparar dois stios diferentes.
Queremos, por exemplo, comparar (querer saber) e o DAP mdio da floresta do Distrito

Agropecurio da SUFRAMA (municpio de Manaus) igual ao DAP mdio da FLONA


(Floresta Nacional) do Tapajs (Santarm, Par).
Estatisticamente podemos fazer isso da seguinte maneira:
Hiptese nula: 1 = 2
Hiptese alternativa: 1 2 ou 1 < 2 ou 1 > 2
sendo: 1 = mdia da populao 1 (Manaus) e 2 = mdia da populao 2 (Santarm).
_

Agora, vamos usar a x de cada populao para fazer inferncia concernente a nossa
_

hiptese. Considere x 1 a mdia amostral da populao 1 tirada de uma amostra aleatria de


_

tamanho n1 de uma populao com mdia 1; e x 2 a mdia amostral da populao 2 tirada de


uma amostra aleatria de tamanho n2 de uma populao com mdia 2. Assumindo tambm
que as duas amostras so independentes e, se n1 e n2 so ambas maiores que 30, ento a
varivel aleatria


x1 x 2 (1 2 )

z=
s12 n1 + s 22 n 2

) (

tem aproximadamente a distribuio normal padro. Aqui s1 e s2 so os desvios padres


amostrais das respectivas populaes.
Agora, se a hiptese nula verdadeira ( 1 = 2 ), ento a frmula de z fica assim


x1 x 2 (1 2 )

z=
2
s1 n1 + s 22 n 2

) (

e tem aproximadamente a distribuio normal padro.


Procedimentos:
1. Hiptese nula: 1 = 2
2. Hiptese alternativa: 1 < 2
3. Condicionante: n1 e n2 30
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = - z. Usar Tabela I para encontrar o valor de z.
6. Calcular o valor de

z=


x1 x 2

2
s1 n1 + s 22 n 2

7. Se z < d, rejeitar a hiptese nula.

) (

Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo


que o anterior, mudando apenas o valor crtico d que d = z e, conseqentemente, a rea de
rejeio da h0 passa a ser z > d.
Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo
tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar
em funo do qu ocorrer primeiro, ou z < d ou z > d.

8.3. Montando um Teste de Hiptese para Pequenas Amostras:


Nem sempre possvel fazer um trabalho de pesquisa usando uma intensidade de
amostragem considerada grande (n 30), ou simplesmente no tem muitas amostras
disponveis, ou so extremamente caras, ou, por qualquer outra razo, so indesejveis. Para
isso, existe teste para pequenas amostras, e o teste t o contraparte para o teste z. A nica e
principal diferena que, neste caso, temos que comprovar a normalidade de nossos dados.
Vimos em captulos anteriores que para pequenas amostras (n < 30), a varivel
aleatria no tem a distribuio normal padro. Mas, se assumirmos que a populao que
estamos amostrando aproximadamente normalmente distribuda, ento a varivel aleatria
tem a distribuio t de Student com (n-1) graus de liberdade. Conseqentemente, quando
consideramos populaes normalmente distribudas, podemos fazer testes de hipteses para
mdias usando pequenas amostras, da mesma maneira como foi feito para grandes amostras.

t=

x
s n

8.3.1. Teste de Hiptese para uma Mdia Simples de Pequenas Amostras:


Procedimentos:
1. Hiptese nula: = 0
2. Hiptese alternativa: > 0
3. Pressuposto: populao normal
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
5. O valor crtico d = t. Usar Tabela II para encontrar o valor de t com (n-1) gl.
6. Calcular o valor de

t=

x 0
s

7. Se t > d, rejeitar a hiptese nula.


Para o teste uni-caudal com hiptese alternativa 1 < 0, o procedimento o mesmo
que o anterior, mudando apenas o valor crtico d que d = - t e, conseqentemente, a rea de
rejeio da h0 passa a ser t < d.
Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo
tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar
em funo do qu ocorrer primeiro, ou t < d ou t > d.

8.3.2. Teste de Hiptese para Diferenas entre Mdias de Amostras


Independentes (e Varincia igual) de Pequenas Amostras:
Vimos anteriormente como fazer este teste quando temos amostras independentes com
n1 e n2 30. Agora, vamos ver como lidar com este teste quando n1 e n2 so menores que 30.
Assim como no caso de mdia simples, podemos usar a distribuio t de Student; a diferena
aqui que, alm de assumir que as duas populaes so aproximadamente normalmente
distribudas, temos tambm que (i) considerar quando as varincias das populaes ( 12 e 22
) so iguais e (ii) quando as varincias no so iguais.
Neste captulo vamos trabalhar apenas com a condio de varincias iguais porque
vamos ver como aplicar teste para saber se duas varincias so iguais ou no, no prximo
captulo. As condicionantes sero as seguintes: (1) amostras aleatrias independentes tomadas
de duas populaes; (2) as duas populaes so aproximadamente normalmente distribudas;
(3) as duas populaes tm varincias iguais.
Recapitulando: quando temos uma nica populao, usamos o desvio padro amostral
s como a estimativa do desvio padro da populao . Quando trabalhamos com amostras
aleatrias independentes de duas populaes com o mesmo desvio padro da populao (i.e.,
mesma varincia), a melhor estimativa do desvio padro comum (s duas populaes)

(n1 1)s12 + (n2 1)s 22

sp =

n1 + n 2 2

Onde s1 e s2 so desvios padres amostrais obtidos de amostragem da populao 1 e 2,


respectivamente. O subscrito p em sp para indicar que estamos referindo a um desvio
combinado de duas populaes.
Se as populaes so normalmente distribudas e 12 = 22, ento a varivel aleatria
tem a distribuio t de Student com (n1 + n2 2) graus de liberdade.

t=

(x1 x2 ) (1 2 )
s p (1 n1 ) + (1 n2 )

Considerando 1 = 2, ento 1 - 2 = 0 e se a hiptese nula verdadeira, ento tem a


distribuio t de Studente com (n1 + n2 2) graus de liberdade.

t=

sp

(x1 x2 )
(1 n1 ) + (1 n2 )

Procedimentos:
1. Hiptese nula: 1 = 2
2, Hiptese alternativa: 1 < 2
3. Condicionantes: (i) amostras independentes; (ii) populaes normais; (iii) varincias
das populaes iguais.
4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10
gl.

5. O valor crtico d = - t. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2)
6. Calcular o valor de

t=

sp

(x1 x2 )
(1 n1 ) + (1 n2 )
sendo:

sp =

(n1 1)s12 + (n2 1)s 22


n1 + n 2 2

7. Se t < d, rejeitar a hiptese nula.


Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo
que o anterior, mudando apenas o valor crtico d que d = t e, conseqentemente, a rea de
rejeio da h0 passa a ser t > d.
Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo
tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar
em funo do qu ocorrer primeiro, ou t < d ou t > d.

Sum
umrio dos Procedimentos para Testar as Hipteses Discutidas neste Captulo
Tipo
Mdia Simples
(grandes amostras)

Condicionantes

Duas Mdias
(grandes amostras)

(1) n1 30, n2 30
(2) amostras independentes

Mdia Simples
(Pequenas
Amostras)

populao
normal

Duas Mdias
(Pequenas
Amostras)

(1) amostras independentes


(2) populaes normais
(3) varincias iguais

n 30

h0

= 0

1 = 2

= 0

1 = 2

h1
> 0
< 0
0

teste estatstico
_

[ x - 0 ]
z = ------------[s / n ]

1 > 2
1 < 2
1 2
> 0
< 0
0

[x 1- x 2]
z = ------------------------ [ s12 / n1 ] + [ s22 / n2 ]

1 > 2
1 < 2
1 2

[x 1- x 2]
t = --------------------------sp (1 / n1) + (1 / n2 )

[ x - 0]
t = -----------[s / n ]
_

rea de rejeio
rejeio
z > z
z < -z
z > z/2 ou z < -z/2

z > z
z < -z
z > z/2 ou z < -z/2
t > t
t < -t
t > t/2 ou t < -z/2
t > t
t < -t
t > t/2 ou t < -t/2

Captulo 9
Inferncias sobre as varincias
9.1. Introduo:
Neste captulo vamos ver os mtodos usados para os testes de hipteses e intervalos de
confiana para a varincia. No confundir com anlise de varincia (ANOVA), que utilizada
para teste (comparao) de mdias e ser vista no captulo 11. Vamos apresentar o teste quiquadrado (2) e o teste-F.
Na rea florestal, ainda no comum fazer este tipo de inferncia. Em qu situao
podemos estar interessados em controlar a variao? J vimos que a mdia muito mais
popular que a varincia; por essa razo, a maioria das inferncias feita com base nesta
varivel.
No caso de uma indstria de carro, por exemplo, temos um grande nmero de
diferentes fornecedores (parafusos, porcas, rodas, espelhos etc.). Neste caso, podemos ter um
fornecedor de rodas diferente de um fornecedor de parafuso. O encaixe da roda ao carro, no
justo e tem sempre uma certa margem de segurana tanto no comprimento como na
espessura do parafuso. Aquele que fabrica o parafuso fornece para vrios outros fabricantes e
nem sempre consegue fazer os parafusos exatamente iguais. Neste caso, o controle de
qualidade pode ser feito usando a inferncia sobre a varincia, seja do comprimento ou da
espessura.

9.2. Teste estatstico 2 e a curva 2:


Exemplo 1: Um fabricante precisa produzir parafusos de aproximadamente 10 mm em
dimetro para ajustar em buracos de 10,4 mm. Em princpio, sabe-se que as linhas de
produo produzem parafusos com dimetros que se distribuem normalmente, mas a linha 1
mais barata do que a linha 2.

O fabricante avisa que a margem de segurana de 0,1 mm, ou seja, parafusos com
dimetros variando de 9,9 e 10,1 mm passam pelo controle de qualidade. Chama-se uma
estatstica e ela faz uma amostragem aleatria nas duas linhas de produo concluindo que o
dimetro mdio em torno de 10 mm, mas alerta que um ou outro parafuso pode estar fora da
especificao (da margem de segurana). Sendo assim, preciso testar as varincias antes de
apresentar o relatrio de controle de qualidade das linhas de produo. Foram coletados 20
parafusos de cada linha de produo e tomadas as medidas de dimetro de cada um (Quadro
9.1).
Aqui, duas questes precisam ser respondidas: (1) qual a varincia apropriada? (2) se
as duas linhas de produo tm a mesma varincia, igualmente apropriada?
Margem de segurana igual a 0,1 mm o mesmo que dizer que o desvio de 0,1
mm e varincia de 0,01 mm. Ento, para responder a questo 1, formulamos as seguintes
hipteses para a linha de produo 2:

Hiptese nula:

2 = 0,01

Hiptese alternativa: 2 > 0,01


Para aplicar o teste, primeiro preciso estimar 2 usando s2. Depois, preciso escolher
o teste estatstico. Neste caso, vamos usar o 2 (qui-dradrado). O 2 uma varivel aleatria,
isto , o seu valor depende de uma chance para ocorrer. Tomando diferentes amostras, temos

diferentes valores de 2. A maneira de encontrar as probabilidades para 2 a mesma usada


para determinar as probabilidades para a varivel aleatria z.
Se uma varivel aleatria de tamanho n tomada de uma populao que
normalmente distribuda com varincia 2, ento as probabilidades para a
varivel aleatria

2 =

(n 1) s 2
2

podem ser encontradas usando as reas sob curvas especiais conhecidas como curvas de 2.

As principais caractersticas das curvas 2 so:


9 diferentes para diferentes graus de liberdade;
9 a curva comea no ponto-zero sobre o eixo horizontal e se estende direita;
9 no so simtricas;
9 a rea total sob a curva igual a 1 (um).

Os valores de 2 podem ser obtidos diretamente na Tabela III. A Figura 9.1 apresenta
trs diferentes curvas para diferentes graus de liberdade (GL).

9.3. Testes de hipteses para uma nica varincia:


Voltando ao exemplo 1, temos o seguinte:
Suponha que uma varivel aleatria de tamanho n tomada de uma populao
que normalmente distribuda com varincia 2, ento a varivel aleatria

2 =

(n 1) s 2
2

tem a distribuio qui-quadrado com (n 1) GL; ou seja, as probabilidades


para a varivel aleatria 2 podem ser determinadas usando reas sob a curva
2 com (n 1) GL.
O nosso exemplo consiste de 20 parafusos escolhidos aleatoriamente da linha de
produo 2. A varincia estimada s2 = 0,058. Para testar as hipteses, temos que calcular o
valor de 2:

2 =

(n 1) s 2
02

onde 02 o valor de 2 hipotetizada (neste caso, 02 = 0,01). Queremos saber se esta s2 est
muito longe da 02 hipotetizada ou no, ou seja, se 0,058 igual a 0,01, do ponto de vista
estatstico. Precisamos tambm escolher o nvel de significncia ().
Para 19 (20 - 1) GL, 20,05 = 30,14 (Tabela III)

Assim, se a hiptese nula verdadeira, ento a probabilidade que o nosso 2 calculado


seja maior do que 30,14 de 0,05. Em smbolos matemticos, podemos escrever P(2tabelado >
30,14) = 0,05. Dessa maneira, se a hiptese nula verdadeira, os valores 2 podem ocorrer
apenas em 5% das vezes. Classificaremos os 2 > 30,14 como muito grandes (Figura 9.2).
Como em captulos anteriores, vamos chamar 30,14 como valor crtico do teste.

Podemos agora executar o teste de hiptese:

2 = 0,01

Hiptese nula:

Hiptese alternativa: 2 > 0,01


Como a amostragem de 20 parafusos da linha de produo 2 produziu s2 = 0,058,
temos

2 =

(n 1) s 2 = (20 1) 0,058 = 110,20


02

0,01

Desde 2 > 30,14, temos que rejeitar a hiptese nula e concluir que 2 > 0,01 para a
linha de produo 2.
O procedimento geral para montar o teste de hiptese para uma nica varincia o
seguinte:
1. Definir as hipteses:
- Hiptese nula:

2 = 02

- Hiptese alternativa: 2 > 02


2. Pressuposto: Populao normal
3. Definir o nvel de significncia ()
4. O valor crtico c = 2 com (n-1) GL, obtido na Tabela III
5. Calcular o valor de

2 =

(n 1) s 2
02

onde 02 o valor hipotetizado na hiptese nula, n o nmero de amostras (ou


observaes) e s2 a varincia amostral (estimada).
6. Deciso: Se 2 > c, rejeitar a hiptese nula.

9.4. Intervalos de Confiana para Varincias:


No captulo 7 aprendemos como encontrar o intervalo de confiana (IC) para uma
_

mdia da populao, , baseado em uma mdia amostral, x . Neste seo vamos ver como
encontrar o IC para a varincia da populao, 2, baseado em uma varincia amostral, s2. Para

montar o IC, vamos usar o fato que, se uma amostra aleatria de tamanho n tomada de uma
populao que normalmente distribuda com varincia 2, ento a varivel aleatria

2 =

(n 1) s 2
02

tem a distribuio qui-quadrado com (n-1) GL.


O procedimento geral para montar o IC o seguinte:
1. Pressuposto: Populao normal
2. Se o nvel de confiana desejado 1 - , usar a Tabela III para encontrar

21- e 2/2 com (n-1) GL


3. O IC desejado para 2

(n 1)s 2
2 2

para

(n 1)s 2
2

1 2

Exerccio 1: Voltando ao exemplo 1, vamos determinar o IC para a varincia da


populao, 2, com base na varincia estimada, s2. Vamos usar o nvel de significncia de 10%
( = 0,10) e podemos escrever como 90% IC. Como estamos trabalhando com IC, temos que
olhar para os dois lados (caudas) da curva-2 e, em vez de , usamos /2.

Primeiro, vamos Tabela III para encontrar 2/2 e 21-/2


2/2 = 20,05 = 30,14
21-/2 = 21-0,05 = 20,95 = 10,12
O 90% IC ser ento:
19 x (0,058)

19 x (0,058)

----------------- a

-------------------

30,14

10,12

0,037 a 0,109 ou IC (0,037<2<0,109) = 90%

Em outras palavras: com 90% de confiana, podemos afirmar que a varincia da


populao de parafusos da linha de produo 2 est entre 0,037 a 0,109 mm.

9.5. O teste-F e as curvas-F:


Nas sees anteriores discutimos as situaes envolvendo somente uma varincia
desconhecida. H ocasies que queremos comparar duas varincias desconhecidas. Neste caso,
o melhor recurso usar o teste-F.
Os valores de F so encontrados usando as curvas-F. Essas curvas dependem dos graus
de liberdade (GL). As caractersticas das curvas-F so:
9 as curvas so diferentes para diferentes GL;
9 cada curva comea no ponto-zero no eixo horizontal e se estende direita;

9 no so simtricas;
9 a rea total sob a curva-F igual a 1.

As reas sob as curvas-F so apresentadas nas Tabelas IV ( = 0,01) e VI ( = 0,05).


Se for preciso usar outros , preciso recorrer aos livros especializados. Para cada
preciso uma tabela diferente porque so necessrios valores crticos especficos para cada
combinao de GL.
(i) Uso do teste-F para comparao de duas varincias:

Imagine duas amostras aleatrias independentes de duas populaes que so


normalmente distribudas. Vamos considerar:
n1 = tamanho da amostragem da populao 1
s12 = varincia amostral da populao 1

12 = varincia da populao 1
e n2, s22 e 22 so os valores correspondentes para a populao 2. Se 12 = 22, ento, a varivel
aleatria
F = s12 / s22

tem a distribuio-F com (n1-1, n2 - 1) GL; ou seja, as probabilidades para a varivel aleatria
F pode ser determinada usando as reas sob a curva-F com (n1-1, n2 - 1) GL.
O procedimento geral para montar um teste de hiptese usando o F o seguinte:
1. Definir as hipteses:
- Hiptese nula, H0: 12 = 22
- Hiptese alternativa, H1: 12 > 22
2. Pressupostos: (1) amostras independentes e (2) populaes normais
3. Escolher o nvel de significncia
4. O valor crtico c = F com (n1 - 1, n2 - 1) GL, onde n1 e n2 so os tamanhos
das amostragens.
5. Calcular o valor de
F = s12 / s22;

onde s12 e s22 so as varincias amostrais das populaes 1 e 2.


6. Deciso: se F > c, rejeitar a hiptese nula.
Exerccio 2: Vamos comparar as varincias das linhas de produo 1 e 2.

Hiptese nula, H0: 12 = 22


Hiptese alternativa, H1: 12 > 22
A amostragem foi feita de forma independente e os dados so oriundos de uma
populao normalmente distribuda. Dessa maneira, podemos usar o procedimento dado
anteriormente assumindo = 0,05.

Para (19, 19) GL, o valor crtico F (ou c) aproximadamente 2,16. Quando s12 > s22
recomenda-se a inverso da frmula de F-estatstico, mantendo os mesmos GL. E o Festatstico
F = s22 / s12 = 0,058 / 0,008 = 7,25

Como F > c, podemos rejeitar H0, portanto, 22 > 12.


Como sempre, o procedimento para o uso das duas caudas da curva-F basicamente o
mesmo que para uma cauda, exceto que precisamos de dois valores crticos em vez de um s.
Neste caso, precisamos olhar os dois lados da curva [/2 e (1 - /2)]. No primeiro lado, vamos
encontrar nas tabelas IV e VI, para = 0,02 e = 0,10, respectivamente, ou seja, no temos
nenhum problema. No entanto, o outro lado da curva (1 - /2), no h como tirar das tabelas.
Por exemplo, se vamos definir = 0,10, um lado da curva (/2) ser 0,05 (Tabela VI) e o
outro ser 1 - /2 = 0,95. Neste caso, o clculo do F0,95 pode ser feito da seguinte maneira:
1. Vamos considerar = 0,10 e os seguintes graus de liberdade (GL):
numerador = 9 e denominador = 8.
2. Calcular o lado direito da curva, /2, F0,05, 9, 8 na Tabela VI, que igual a
3,39.
3. Calcular, ento, o lado esquerdo da curva, 1 - /2, F0,95, 9, 8, da seguinte
maneira:
- F0,95 para GL = (9,8) a recproca do valor F1-0,95 = F0,05 com os GL trocados
(8,9).
- Na Tabela VI, F0,95, 8, 9 igual a 3,23
- O F0,95, 9, 8 , ento igual a 1 / 3,23 = 0,31
4. Os valores de F para as duas caudas so: 0,31 e 3,39

Quadro 9.1: Dimetros (mm) de parafusos em duas linhas de produo.


Parafuso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Mdia
Varincia

Produo 1
9,91
9,97
9,84
9,97
10,18
10,08
10,03
10,02
9,88
10,03
10,05
10,18
10,06
9,98
9,91
10,07
9,98
10,1
9,99
9,97
10,01
0,008

Produo 2
10,48
10,07
9,89
10,38
9,5
9,95
9,81
9,87
10,13
10,03
10,26
9,73
10,29
9,97
10,38
9,94
10,14
10,17
10,17
10,09
10,06
0,058

F
0
Figura 9.1: Curva-F com (3,20) gl

2
0

10

15

20

Figura 9.2: Curva qui quadrado

25

30

Captulo 10
Teste de Qui-quadrado ( 2 )
10.1. Introduo:
Neste captulo vamos ver um teste estatstico baseado na distribuio de Qui-quadrado
( 2 ), conhecido como teste de qui-quadrado. Este teste pode ser usado tanto na estatstica
paramtrica como na no paramtrica. O teste estatstico 2 e a curva 2 j foram descritos no
captulo anterior (Captulo 9). Aqui, vamos enfatizar a aplicao deste teste para:
(i) Ajuste de curvas ou de distribuies:
Exemplos:

1) Distribuio de dimetro: voc desenvolve uma funo para descrever a relao


entre classes de dimetro e freqncia. Ao testar a confiabilidade dessa funo em outra rea,
voc deve coletar novos dados e produzir a nova distribuio de freqncia. O passo seguinte
confrontar a sua verdade de campo distribuio observada - com a distribuio
hipotetizada (desenvolvida em outro local, por outro pesquisador) distribuio esperada.
2) Projeo da distribuio de dimetro: voc usa a cadeia de transio probabilstica
Markov para fazer a projeo da dinmica da floresta de seu interesse. Voc usa, por
exemplo, ano 2000 como hoje e 1997 como seu passado imediato perodo de 3 anos para
fazer a projeo para um futuro imediato, 2003. Portanto, em 2003, voc tem condies de
avaliar se a Cadeia de Markov confivel para este tipo de trabalho. Basta comparar a
projeo feita (hipotetizada ou esperada) e confrontar com medies feitas em 2003
(observada). Se der no significante, significa que a projeo , estatisticamente, igual
verdade de campo (medies realizadas em 2003) e voc pode confiar na Cadeia de Markov.
(ii) Independncia:
Exemplos:

3) Ocorrncia de espcies nas diferentes classes topogrficas: imagine que voc no


sabe nada disso, ento, voc vai hipotetizar que a distribuio seja a seguinte: 1/3 das espcies
ocorrem no plat; 1/3 na encosta e 1/3 no baixio. Faa um levantamento em algumas
toposseqncias e distribua as espcies de acordo com as classes topogrficas. Compare os
valores observados seu levantamento com os valores hipotetizados (1/3, 1/3 e 1/3). Se der
no significante, isso quer dizer a distribuio de espcies na sua rea de trabalho ocorre
independentemente das classes topogrficas.
(iii) Homogeneidade:
Exemplos:

4) Usando o exemplo (3): se voc quiser comparar uma toposseqncia da ZF-2 com
uma da Reserva Ducke pra saber se essas toposseqncias so homogneas em relao a
distribuio de nmero de espcies por classe topogrfica. Imagine que na ZF-2, a
distribuio seja 40% no plat, 30% na encosta e 30% no baixio. A, voc faz o levantamento
na Ducke e descobre que a distribuio 36% no plat, 32% na encosta e 32% no baixio.

Aplica o teste qui-quadrado pra checar se a distribuio da ZF-2 igual a da Ducke. Se der
no significante, isso quer dizer as toposseqncias so homogneas.

10.2. Procedimentos para aplicar os testes em diferentes situaes:


Valor esperado => E
Valor observado => O
O valor crtico c tirado da Tabela III => c = 2
9.2).

=> descritos no Captulo 9 (item

10.2.1. Qui-quadrado ( 2 ) para teste de ajuste:


Passos necessrios:
Passo 1: formular as hipteses cientficas:

H0 => A populao grupada de acordo com uma determinada distribuio de probabilidade.


H1 => A populao no grupada de acordo com uma determinada distribuio de
probabilidade.
Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5
Passo 3: Definir o => 10%, 5% ou 1%.
Passo 4: Determinar o valor crtico c com (k 1) graus de liberdade, na Tabela III => k =
nmero de grupos ou nmero de classes de dimetro.
Passo 5: Calcular o 2

=
2

(O E )2
E

Passo 6: Deciso => Se 2 > c => rejeitar H0

Agora, vamos exemplificar com nmeros. Imagine uma populao de rvores com 120
indivduos tendo a seguinte distribuio de dimetro.
classes DAP
25
35
45
55
> 65
Total

freqncia
24
48
24
12
12
120

probabilidade
0,2
0,4
0,2
0,1
0,1
1

Em seguida, voc faz um levantamento usando apenas parte da populao (neste caso
40 rvores) e quer saber se a amostra representativa. A distribuio de dimetro dessa
amostragem apresentada abaixo incluindo a freqncia de acordo com a distribuio da
populao (n = 120) e o 2.

classes DAP
25
35
45
55
>65

Freq obs. (O)


8
20
13
5
4
50

Freq esperada (E)


50 x 0,2 = 10
50 x 0,4 = 20
50 x 0,2 = 10
50 x 0,1 = 5
50 x 0,1 = 5

(OE)
(8-10) = -2
(20-20) = 0
(13-10) = 3
(5-5) = 0
(4-5) = -1

(O-E)2 / E
0,4
0,0
0,9
0,0
0,2
1,5

k = 5 => 5 classes de DAP

H0: A distribuio de probabilidades das classes DAP da amostragem (n=50) igual a da


populao (n=120).
H1: A distribuio de probabilidades das classes DAP da amostragem (n=50) no igual a da
populao (n=120).
= 0,05

Valor crtico c (tabela III com GL = 4) igual a 9,49


2 igual 1,5

Deciso => c (9,49) maior do que 2calculado (1,5); portanto, no rejeitar H0. Concluir que a
distribuio da amostragem , estatisticamente, igual a da populao e, por essa razo, a
amostragem representativa da populao.
10.2.2. Qui-quadrado ( 2 ) para teste de independncia ou tabela de contingncia.

Neste caso, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada
clula calculado da seguinte maneira:
(total da linha) x (total da coluna)
E = -----------------------------------------total de observaes
Passos necessrios:
Passo 1: formular as hipteses cientficas:

H0 => As duas caractersticas so independentes.


H1 => As duas caractersticas no so independentes
Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5
Passo 3: Definir o => 10%, 5% ou 1%.
Passo 4: Determinar o valor crtico c com (L-1) x (C-1) graus de liberdade, na Tabela III.
Passo 5: Calcular o 2

=
2

(O E )2
E

Passo 6: Deciso => Se 2 > c => rejeitar H0

Exemplificando com nmeros: Pesquisa com acidentes em relao ao sexo das pessoas
envolvidas. Veja quadro abaixo com 2 colunas e 3 linhas.

local acidente
no trabalho
em casa
Outros
Total

homem
40
49
18
107

mulher
5
58
13
76

total
45
107
31
183

H0: a circunstncia de um acidente independente do sexo da vtima.


H1: a circunstncia de um acidente no independente do sexo da vtima.
Calculando os valores esperados (E):
primeira linha e primeira coluna => (45 x 107) / 183 = 26,3
primeira linha e segunda coluna => (45 x 76) / 183 = 18,7
segunda linha e primeira coluna => (107 x 107) / 183 = 62,6
segunda linha e segunda coluna => (107 x 76) / 183 = 44,4
terceira linha e segunda coluna => (31 x 76) / 183 = 12,9
terceira linha e primeira coluna => 31 x 107) / 183 = 18,1
E o quadro com os valores observados e esperados o seguinte:
local acidente

no trabalho
em casa
outros
total

homem
O
E
40
26,3
49
62,6
18
18,1
107

mulher
O
E
5
18,7
58
44,4
13
12,9
76

total
45
107
31
183

O = valor observado e E = valor esperado

Checando: nenhum E menor do que 1 e no tem E < 5 => OK


= 0,01

Valor crtico c (tabela III com GL=2) igual a 9,21. GL = 2 => (L-1)(C-1) = (3-1)(2-1) = 2
Calcular 2 = (40-26,3)2/26,3 + ...... + (13-12,9)2/12,9 = 24,30
Deciso: 2 > c; logo, rejeitamos a H0.
10.2.3. Qui-quadrado ( 2 ) para teste de homogeneidade

Como para o teste de independncia, vamos trabalhar com linhas (L) e colunas (C). O
valor esperado de cada clula calculado da seguinte maneira:
(total da linha) x (total da coluna)
E = -----------------------------------------total de observaes
Passos necessrios:
Passo 1: formular as hipteses cientficas:

H0 => As duas caractersticas so homogneas.

H1 => As duas caractersticas no so homogneas


Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5
Passo 3: Definir o => 10%, 5% ou 1%.
Passo 4: Determinar o valor crtico c com (L-1) x (C-1) graus de liberdade, na Tabela III.
Passo 5: Calcular o 2

=
2

(O E )2
E

Passo 6: Deciso => Se 2 > c => rejeitar H0

Exemplificando: Comparando duas cidades estratificadas por cor da pele. Duas amostragens
(n = 100 para as duas) so consideradas e o resultado apresentado no quadro abaixo.
amostragem

brancos

negros

Outros

total

cidade 1

83

12

100

cidade 2

87

100

total

170

11

19

200

Calculando o valor esperado (E) para cada clula, o resultado o seguinte:


amostragem
cidade 1
cidade 2
total

brancos
85
85
170

negros
5,5
5,5
11

Outros
9,5
9,5
19

total
100
100
200

Hipteses:
H0: Cidade 1 e cidade 2 tm a mesma % para cada cor de pele
H1: Cidade 1 e cidade 2 no tm a mesma % para cada cor de pele
Checando: nenhum E menor do que 1 e no tem E < 5 => OK
= 0,05

Valor crtico c (tabela III com GL=2) igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2
Calcular 2 = (83-85)2/85 + ...... + (7-9,5)2/9,5 = 1,52
Deciso: 2 < c; logo, no rejeitamos a H0, ou seja, cidade 1 e cidade 2 tm a mesma
distribuio de cor de pele.

Captulo 11
Anlise de Varincia ANOVA
11.1. Introduo:
Apesar do nome, a anlise de varincia (ANOVA) usada para comparao de
mdias. Vimos, anteriormente, que h vrios testes usados na comparao de mdia (teste t,
Tukey, Bonferroni, Duncan etc). Por que usar a ANOVA? Usamos a ANOVA quando
queremos compreender melhor a natureza da variao natural das diferentes fontes, alm de
comparar as mdias. No fundo, ANOVA a partio (ou desdobramento) da variao total de
acordo com as fontes de variao.
A ANOVA aplicada para testar hipteses quando a pesquisa envolve mais de duas
mdias. Trata-se de uma ferramenta estatstica amplamente utilizada e com um grau de
sofisticao muito alto. Podemos, de forma muito simplista, definir os seguintes tipos de
ANOVA:
a) ANOVA de simples entrada => fontes de variao ou grupos classificados por um
simples critrio como ENTRE os transectos e DENTRO (ou resduo ou erro) dos
transectos => aplicado em experimentos inteiramente casualizados.
b) ANOVA de dupla entrada => aplicao clssica em experimentos blocos
casualizados => fontes de variao: BLOCO, TRATAMENTO e RESDUO (ou
erro).
c) ANOVA de tripla ou mltiplas entradas => aplicao clssica em experimentos
fatoriais incluindo as interaes como fontes de variao.
d) ANOVA aninhada (nested): aplicao em experimentos com parcelas subdivididas
tipo Split Plot (clssico) ou quando o adapta para anlise de parcelas repetidas.
e) ANOVA para regresso: tanto para as regresses lineares (simples e mltiplas) e
no lineares (simples e mltiplas) => para explicar o quanto da variao dos dados
explicado pelo modelo utilizado.
f) MANOVA => anlise de varincia de vrias variveis, simultaneamente.
Na verdade, voc arma a ANOVA de acordo com as fontes de variao estabelecidas,
ou seja, desmembrando a variao total; o teste aplicado para testar as suas hipteses o testeF (Captulo 9, item 9.5). Em seguida, apresentamos os quadros auxiliares usados para
ANOVA de simples entrada e para ANOVA de dupla entrada.
ANOVA de simples entrada:
Fontes de Variao
Entre
Dentro (Resduo)
Total
GL = graus de liberdade
SQ = soma dos quadrados
MQ = mdia quadrtica
F = calculado

GL

SQ

MQ

ANOVA de dupla entrada:


Fontes de Variao
Blocos
Tratamentos
Resduos
Total

GL

SQ

MQ

No primeiro caso (de simples entrada), voc determina o valor de F dividindo MQentre
pela MQdentro. Antigamente, muito antigamente mesmo, voc pegava o Fcalculado e comparava
com o Ftabela (funo dos GLs ENTRE e DENTRO e nvel de significncia ). Atualmente, os
softwares estatsticos vo te dar o valor exato da probabilidade para inferncia => ento, em
vez do valor de F no quadro auxiliar, o software vai te fornecer a probabilidade.
No segundo caso (de dupla entrada), voc quer ver, separadamente, os efeitos dos
blocos e dos tratamentos. Para isso, voc aplica o teste-F para blocos e para os tratamentos,
separadamente. O valor de F para blocos voc consegue dividindo MQblocos pela MQresduos e
para os tratamentos dividindo MQtratamentos pela MQresduos.

11.2. Procedimentos para aplicar a ANOVA de simples entrada:


n = nmero total de observaes (g * k)
k = nmero de grupos
g = nmero de observaes por grupo

Passos necessrios:
(i) Formular as hipteses
H0 => 1 = 2 ...... = n
H1 => nem todas as so iguais ou, pelo menos, uma diferente.
(ii) Definir os tipos de dados que voc vai utilizar => dados mtricos
(iii) Condies => as k populaes so normais com a mesma varincia.
(iv) Definir o nvel crtico
(v) Determinar o valor crtico c => c = F com (k-1) GL no numerador e (n-k) GL no
denominador.
(vi) Calcular F

MQentre
F = -------------MQdentro
(vii) Deciso => Se F > c, rejeitar H0

11.3. Exemplo com aplicao das frmulas necessrias para o preenchimento


do quadro de ANOVA:
a) Frmulas:

Variao entre os grupos:

Soma dos Quadrados => SQentre ou SQE


2

x ij

2
n
( xij )2
i =1 i =1

SQE = ( x media ) ou

g
n
i =1
k

> GL para SQE => (k 1)


Mdia Quadrtica => MQentre ou MQE
MQE = (SQE) / (k 1)
Variao dentro dos grupos:

Soma dos Quadrados => SQdentro ou SQD


g

xij

i =1
i =1


g
k

SQD = xij

i =1

> GL para SQD => (n - k)


Mdia Quadrtica => MQdentro ou MQD
MQD = (SQD) / (n - k)
Teste Estatstico => teste-F
F = (MQE)/(MQD)
b) Exemplo 1:

Estamos interessados em comparar a renda mdia anual de 4 companhias


diferentes.Vamos s companhias e, aleatoriamente, pegamos a declarao de renda para o
Imposto de Renda de 5 empregados de cada uma. O resultado apresentado no quadro
seguinte (em R$ 1.000,00):
H0: 1 = 2 = 3 = 4
H1: nem todas so iguais
n = 20
g=5
k=4
= 0,05

empreg
1
2
3
4
5
subtot

CIA1
46
53
54
29
27
209

CIA2
65
59
17
18
37
196

CIA3
37
13
65
42
33
190

CIA4
11
35
57
56
40
199

subtot
159
160
193
145
137
794

Quadro auxiliar
Fontes de Variao
Entre
Dentro (Resduo)
Total

GL
3
16
19

SQ
37,8
5486,6
5524,4

MQ
12,6
342,9

F
0,04

SQE = [ (2092 + 1962 + 1902 + 1992) / 5 ] [ (46 + 53 + 54 + .....56 + 40)2 ] / 20 = 37,8


SQD = [ 462 + 532 + ... 562 + 402 ] - [ (2092 + 1962 + 1902 + 1992) / 5 ] = 5.486,6
MQE = 37,8 / 3 = 12,6
MQD = 5.486,6 / 16 = 342,9
F = 12,6 / 342,9 = 0,04
Deciso => F0,05 = 3,24 para GL = 3, 16; logo, no rejeitar H0
c) Exemplo 2: Utilizando os dados do Quadro 7.1 vamos ver se h diferenas entre as
estimativas de rea basal das diferentes classes topogrficas. Neste caso, vamos direto sada
(output) do Systat, que a seguinte:
Fontes de Variao
Entre classes
Dentro (Resduo)
Total

GL
2
177
179

SQ
659,83
14582,04

MQ
329,92
82,38

F
4,005

p
0,02

O resultado da ANOVA mostra p = 0,02. Se usssemos os nveis crticos tradicionais


( = 0,05 e = 0,01), a concluso poderia ser a seguinte: as diferenas em rea basal entre as
classes topogrficas so significantes a 0,05, mas no a 0,01. Com esta facilidade o valor
exato de voc deve concluir com aquilo que voc est vendo, ou seja, 0,02.

Captulo 12
Regresso e correlao
12.1 Introduo:
O objetivo da regresso obter uma expresso da dependncia de uma varivel Y
sobre uma ou mais variveis independentes X. Tal expresso , matematicamente, conhecida
como funo, logo, Y uma funo de X. Funo um relacionamento matemtico que nos
capacita predizer quais valores de uma varivel Y, para dados valores de uma varivel X.
Resumindo: Y = f (X).
A regresso define o relacionamento estatstico entre as variveis tomadas e, a
correlao, a estreiteza deste relacionamento. Na regresso estima-se o relacionamento de
uma varivel com uma outra, expressando-se em termos de uma funo linear (ou uma outra
mais complexa), enquanto que na anlise de correlao, s vezes, confundida com regresso,
estima-se o grau para o qual duas ou mais variveis variam juntas.
Os mtodos de regresso so de grande utilidade na derivao das relaes empricas
entre vrios fenmenos, sendo aplicveis para: (i) encontrar uma funo estatstica que possa
ser utilizada para descrever o relacionamento entre uma varivel dependente e uma ou mais
variveis independentes e (ii) testar hipteses sobre a relao entre uma varivel dependente e
uma ou mais variveis independentes. No manejo florestal, o uso da regresso fundamental
na derivao de modelos matemticos: (i) para explicar o comportamento de uma espcie ou
povoamento submetido a um determinado tipo de interveno; (ii) para desenvolver modelos
de crescimento; (iii) desenvolvimento de equaes de volume e de biomassa; (iv)
desenvolvimento de relaes hipsomtricas; (v) para alguns estudos da estrutura da floresta
(distribuio em dimetro, por exemplo) etc.
Ao olhar um povoamento florestal, voc pode achar que quanto maiores forem o
dimetro e altura, maior ser o volume ou peso da rvore. Entretanto, voc no poder afirmar
nada alm disso. Com o auxlio da regresso, voc ser capaz de expressar o relacionamento
entre as variveis independentes dimetro e altura e o volume (ou peso) da rvore na forma de
um modelo estatstico. Desta maneira, voc ser capaz de predizer o volume (ou peso) de uma
rvore em p tendo apenas as medies de dimetro e altura.
Dependendo do nmero de variveis independentes, a regresso pode ser simples (uma
varivel) ou mltipla (mais de duas variveis) e, dependendo da natureza da equao bsica, a
regresso pode ser linear ou no linear.

12.2. Equaes bsicas das curvas de ajuste:


Linear => Y = a + bX => linha reta
Quadrtica => Y = a + bX + cX 2 => parbola
Cbica => Y = Y = a + bX + cX 2 + dX 3 => curva do 3 grau
Genrica => Y = Y = a + bX + cX 2 + ... + xX n => curva do n-simo grau
Hiprbole => Y = 1 (a + bX )
Exponencial => Y = Y = ae bX
Geomtrica => Y = Y = aX b

Todas as equaes bsicas podem ser linearizadas e, deste modo, as estimativas dos
coeficientes de regresso podem ser obtidos usando procedimento tradicional de regresso
linear. Este truque utilizado para facilitar o processamento dos dados. Entretanto, quando
se tem recurso da informtica que permite trabalhar com processos iterativos para
convergncia das estimativas dos coeficientes, o truque perde o sentido.
Neste captulo, vamos demonstrar como so estimados os coeficientes de regresso e
de correlao para a regresso linear simples. Sabendo como estimar os coeficientes de
regresso e correlao da simples, voc poder, por analogia, estimar os coeficientes da
regresso mltipla. No caso de regresso no linear, h duas alternativas: (i) linearizar a
equao original e adotar os procedimentos das regresses simples ou mltipla e (ii) manter a
equao original e estimar os coeficientes de regresso e correlao utilizando um dos
seguintes mtodos: Gauss-Newton, Quasi-Newton e Simplex opes do software Systat.

12.3. Regresso linear simples:


Para se ter uma idia de regresso linear simples necessrio considerar uma
populao com n indivduos, cada um com caractersticas xi e yi. Se a informao desejada
uma expresso numrica para o relacionamento entre os valores x e y, o primeiro passo
marcar os valores num sistema de coordenadas. Isto feito para dar uma evidncia visual do
relacionamento das duas variveis. Se existir um relacionamento simples, os pontos marcados
tendero a formar um modelo (uma linha reta ou uma curva). Se o relacionamento fraco, os
pontos sero mais dispersos e, o modelo, menos definido.
Uma linha reta representa a regresso linear simples, a qual geralmente definida pela
equao
Y = a + bX

sendo: a = coeficiente de interseo (onde o valor de X corta o valor de Y) e b = coeficiente


angular ou de inclinao (estimativa de Y para cada unidade de X acrescentada) Ver figura
12.1. Em regresso, um relacionamento funcional no significa que, dado um valor de X, o
valor de Y tem que ser igual a a + b X, mas que o valor esperado de Y igual a a + b X.
Em um exemplo real, as observaes no permanecem perfeitamente ao longo da linha
de regresso. Isto devido ao erro aleatrio () e outros fatores no quantificveis. A forma
mais utilizada de ajuste dos dados linha reta (regresso linear simples) por meio do
mtodo dos mnimos quadrados (MMQ), que requer uma soma mnima dos desvios ao
quadrado, entre os pontos observados e os estimados (sobre a reta).
(i) Condicionantes para o uso da regresso linear:
9 - Homogeneidade da varincia => a varincia de Y sobre a linha de regresso
a mesma para todos os valores de X. Isto pode ser resolvido aplicando o teste
de Bartlett.
9 - Normalidade => o simples ajuste dos dados regresso (ou a descrio do
relacionamento entre as variveis Y e X) no requer a distribuio normal de
Y, mas se a anlise de varincia for realizada (o que bvio), preciso
comprovar a normalidade ou utilizar o expediente do teorema de limite central
(Captulo 6).
9 - Independncia => independncia dos erros (afastamento da linha de
regresso) das observaes. A validade desta condicionante melhor
assegurada por meio de seleo das unidades de amostra de forma aleatria. No

caso de usar parcelas repetidas ou srie temporal, o teste Durbin-Watson a


soluo.
(ii) Mtodo dos Mnimos Quadrados (MMQ):

Assume-se, tentativamente, que a linha de regresso de varivel Y sobre a varivel X


tem a forma a + b X, que assume a seguinte expresso matemtica

Y = 0 + 1 X + i
o que quer dizer: para um dado X, um valor correspondente de Y consiste do valor 0 + 1 X
mais uma quantidade i, o incremento pelo qual algum indivduo Y pode desviar-se da linha
de regresso.
Os coeficientes 0 e 1 so desconhecidos. O erro i muito difcil de ser encontrado
porque ele varia para cada observao Y. Entretanto, 0 e 1 permanecem fixos e, apesar de
no poder encontr-los exatamente sem o exame de todas as possveis ocorrncias de Y e X,
pode-se utilizar as informaes disponveis para obter as estimativas a e b de 0 e 1,
respectivamente. Desta maneira, podemos escrever o modelo acima, como um modelo
estatstico da seguinte maneira

Ye = a + bX
onde Ye o valor estimado de Y para um dado X, quando a e b so conhecidos.
A questo, agora, saber como determinar os coeficientes a e b. Como falamos
anteriormente, ser utilizado o MMQ para a determinao dos coeficientes. Vamos fazer esta
demonstrao a partir da figura 12.1.:

Figura 12.1: Valores observados versus valores estimados pela regresso.

Vamos considerar
Yi = valor observado
Yei = valor estimado
Nesta figura temos 6 valores de X. A equao da reta ajustada passa exatamente entre
os pontos (X) observados. O desvio () a diferena entre o valor observado (Y) e o valor
estimado (Ye) pela equao da reta para o mesmo valor de X.
Vamos comear a demonstrao adiantando que vamos chamar a soma dos desvios ao
quadrado de S e S tem que ser mnimo (zero), assim
(i)2 = S = 0 => i variando de 1 a n
sem esquecer que
i = Yi - Yei
sendo:
Yei = a + b Xi
logo
i = Yi (a + b Xi)
Continuando o desenvolvimento do MMQ.
(1)2 + (2)2 + (3)2 + ... (n)2 tem que ser mnimo
logo
S = (i)2 = (Yi Yei)2 tem que ser mnimo
e
S = (Yi (a + b Xi))2

O passo seguinte derivar esta expresso S para a e b, da seguinte maneira:


S/a = 2 ( Yi a b Xi) (-1)
S/b = 2 ( Yi a b Xi) (-1Xi)
Como S tem que ser mnimo, S/a e S/b podem ser igualados a zero, tal que as estimativas
sejam dadas da seguinte maneira:
-2 ( Yi a b Xi) = 0
-2 Xi ( Yi a b Xi) = 0
e dividindo tudo por (-2) e completando as outras operaes algbricas, as expresses ficam
assim
Yi a b Xi = 0
Xi Yi a Xi b Xi2 = 0
e, finalmente, temos as seguintes equaes normais:

an

+ b Xi = Yi

a Xi + b Xi2 = XiYi
Pelo mtodo de substituio, os coeficientes sero:
a = ( Yi b X i ) n

b = (SPC xy ) (SQC x )
Ento, para estimar os coeficientes de regresso a e b, voc tem que saber os seguintes
somatrios: Yi, Xi, XiYi e Xi2. Para facilitar os clculos manuais, monte a seguinte
quadro auxiliar. As frmulas de SPC e SQC so encontradas no Captulo 3.
Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regresso.
obs

Y2

X2

XY

(Y-Ye)2

Y2

X2

XY

(Y-Ye)2

1
2
.
.
.
N

Comentrios:

i)

Com os coeficientes de regresso estimados temos condies de descrever o


relacionamento linear entre a varivel dependente Y e a independente X. Mais para
a frente, vamos mostrar como se estima o coeficiente de correlao e a preciso da
equao.

ii)

A reta dos MMQ passa pelo ponto (Xmdio, Ymdio), isto , quando X = Xmdio temse Ye = Ymdio

iii)

O coeficiente de regresso b, coeficiente angular ou de inclinao, fornece a


variao que ocorre em Y, por unidade de X.

12.4. Correlao linear:


Depois da determinao dos coeficientes de regresso, vamos verificar o quo estreito
o relacionamento linear entre as variveis Y e X. De uma amostragem aleatria (X e Y) de
tamanho n de uma populao normalmente distribuda, a estimativa do coeficiente de
correlao, r, obtida da seguinte maneira:

r=

SPCxy
SQC X SQCY

O coeficiente de correlao tem o mesmo sinal do numerador e, conseqentemente, o


mesmo sinal do coeficiente de regresso b. E mais, o r independe das unidades de medida das
variveis Y e X.
O coeficiente de correlao varia de -1 a +1
r positivo => os maiores valores de Y esto relacionados com os maiores valores de X
ou os menores de Y esto relacionados com os menores de X.
r negativo => os maiores valores de Y esto relacionados com os menores valores de
X ou vice-versa.
r = 0 => Y no tem relacionamento linear com X.
r = 1 => perfeito relacionamento linear entre a varivel dependente (Y) e a
independente (X).

12.5. Preciso da regresso estimada:


Depois de estimar os coeficientes de regresso e de correlao, podemos descrever o
relacionamento entre Y e X e sabemos o quo estreito este relacionamento linear. O passo
seguinte saber o quo precisa a equao resultante. Primeiro, considere a seguinte
identidade
Yi - Yei = ( Yi - ) - ( Yei - )
elevando ao quadrado os dois lados e somando de i = 1 at n, tem-se
(Yi - Yei)2 = [(Yi - ) (Yei - )]2
= [(Yi - )2 (Yei - )2 2 (Yi - ) (Yei - )]
= (Yi - )2 (Yei - )2 2 (Yi - ) (Yei - )
e re-escrevendo o 3 termo de modo a ter
( Yi Yei)2 = (Yi - )2 (Yei - )2
tal que, o resultado final desta operao
(Yi - )2 = ( Yi Yei)2 + (Yei - )2
SQCY

SQRES

SQREG

Qual o significado de cada termo?


(Yi - )2 => SQCY = soma dos quadrados corrigidos de Y
( Yi Yei)2 => soma dos quadrados sobre a regresso = SQRES
(Yei - )2 => soma dos quadrados devido a regresso = SQREG

Portanto, em anlise de varincia (ANOVA), a grande vantagem a possibilidade de


decompor a variao total (SQCY) em outras fontes de variao. Estes so os principais
elementos para montar o quadro de anlise de varincia (ANOVA) para regresso:

Quadro 12.2: Quadro de anlise de varincia (ANOVA)


Fontes de variao

GL

SQ

MQ

Devido regresso

c1

b * (SPCxy)

SQREG/(c-1)

Sobre a regresso (resduo)

nc

por subtrao

SQRES/(n-c)

Total (corrigido)

n-1

SQCY

sendo: c = nmero de coeficientes de regresso.


O valor de F dado pela razo entre MQREG e MQRES. Quanto maior for o numerador
MQREG, maior ser o valor de F. Quanto maior for o F, mais significante ser o modelo
testado. Antigamente, voc pegava o F calculado e ia tabela-F para comparar os dois
valores; se o valor calculado fosse maior do que o tabelado (para os 3 principais nveis
crticos de 10%, 5% e 1%), voc conclua que o seu modelo era significante, caso contrrio,
no significante. Hoje, os programas de estatstica j do os valores exatos da probabilidade
(ou a rea sob a curva-F). Portanto, hoje voc pode tomar decises baseadas na sua
capacidade de discernimento. Por exemplo: se p for igual a 0,03 (ou 3%), voc pode dizer
que significante a 5% mas no a 1% ou, ento, dizer qualquer coisa sobre o 0,03 da sua
prpria cabea sem ficar no maniquesmo do significante ou no significante.
A MQRES igual a s2 e fornece uma estimativa da varincia residual, baseada em (n-2)
graus de liberdade (GL). Se a equao de regresso foi estimada de um nmero grande de
observaes, a varincia residual representa uma medida do erro com a qual qualquer valor
observado de Y poderia ser estimado de um dado valor de X, usando a equao ajustada.
Por ltimo, vamos apresentar a varivel que mede a preciso da equao ajustada que
o erro padro de estimativa (SY.X):
s y. x = s 2

No Captulo 13 ser visto como se trabalha com equaes mltiplas. Um exemplo


prtico ser visto no Captulo 15 (biomassa florestal), que o manuscrito de um artigo j
publicado na Acta Amazonica.

Captulo 13
Estatstica no Paramtrica
13.1. Introduo:
At o captulo 12, vimos vrias situaes da estatstica paramtrica. Basicamente, a
estatstica paramtrica foi desenvolvida sob a teoria da distribuio normal. No entanto, os
fenmenos naturais tendem a no seguir a distribuio normal padro ( = 0 e 2 = 1) e,
muitas vezes, no h nem como normalizar os dados da populao uso da padronizao da
varivel aleatria. Quando os seus dados teimam em no seguir a distribuio normal, temos
ainda o recurso do uso do teorema do limite central para driblar a condio
normalidade da maioria dos testes estatsticos.
Se voc achou que acabaram os recursos estatsticos para analisar os seus resultados,
restou o ltimo e derradeiro recurso que o uso da estatstica no paramtrica. A estatstica
no paramtrica usada quando as condies impostas ao uso da estatstica paramtrica so
muito violadas. Alm disso, quando no d para repetir a pesquisa de campo ou de
laboratrio e voc tem que analisar o material que voc em suas mos. Para alvio de sua
conscincia, existe a estatstica no paramtrica que a estatstica de distribuio livre e os
seus testes podem ser aplicados s populaes com qualquer distribuio.
Qual o preo que voc paga por usar a estatstica no paramtrica? O preo a
limitao de sua comunicao. No d pra voc ir muito longe com as decises tomadas com
base nos testes no paramtricos, alm do significante ou no significante. No entanto, a
estatstica no paramtrica requer poucos dados (portanto, a pesquisa mais barata), os
clculos so simples e voc pode trabalhar diretamente (sem transformaes) com dados
ordinais e qualitativos.
A estatstica no paramtrica assim conhecida porque no trabalha com parmetros
( e ). Este conceito, no entanto, ganhou uma certa flexibilidade com o passar do tempo.
Hoje, quando viola as condies impostas pela estatstica paramtrica, voc corre atrs de um
teste similar na no paramtrica e usa at para comparao de mdias.
2

Neste captulo vamos ver alguns testes no paramtricos, principalmente aqueles que
tm contrapartidas (correspondentes) na estatstica paramtrica.

13.2. Distribuio Binomial:


Este teste j foi visto no captulo 4 (Probabilidade).
Sabemos, ento, que:

n k
n p
P( x = k ) = p (1 p )
k
Numa pesquisa incluindo n experimentos independentes do tipo sucesso e
insucesso, teremos:
p = probabilidade de sucesso
x = o nmero de sucessos

(1 - p) = probabilidade de insucesso

Exemplo 1 => Uma pessoa em uma sala tem cartes numerados de 1 a 10. Ela pega
um carto ao acaso e uma outra pessoa (em outra sala) tenta adivinhar o nmero que foi
pego. Este experimento repetido 3 vezes. A pergunta : qual a probabilidade de acertar 2
vezes.
Resolvendo => sabemos que:
n=3
p = probabilidade de sucesso = 1/10 = 0,1
q = (1 p) = probabilidade de insucesso = 9/10 = 0,9
P (x = 2) = ? => probabilidade de acertar 2 vezes
Portanto:
3
P (x = 2) =

(1/10)2 (9/10)3-2 = 3 * 0,01 * 0,9 = 0,027

2
ou seja, a probabilidade de outra pessoa acertar 2 vezes em 3 tentativas 0,027 ou
2,7%.
A Tabela VIII d direto essas probabilidades, desde que haja coincidncia em termos
de n, k e p. Pra se garantir, melhor saber como calcular a probabilidade exata da
distribuio binomial.
Voc obtm a probabilidade usando a Tabela VIII => n = 3, k = 2 e p = 0,1
na primeira coluna tem o n (nmero de tentativas ou experimentos)
na segunda coluna tem o k (nmero de sucessos)
para n = 3, temos k = 0, k = 1, k = 2 e k =3
para cada k, temos uma probabilidade de acordo com a probabilidade de
sucesso, p, pr-estabelecida =>
o
o
o
o

pra k = 0 => p = 0,7290


pra k = 1 => p = 0,2430
pra k = 2 => p = 0,0270
pra k = 3 => p = 0,0010

Respondendo, ento, a pergunta: P (x = 2) = ?


P (x = 2) igual a 0,0270
E se eu quisesse saber: P (x < 2) e P (x 2)
P (x < 2) => fcil, basta somar as probabilidades de sucessos (no
incluindo k = 2), ou seja, 0,7290 + 0,2430 = 0,9720 => A
probabilidade de acertar uma ou nenhuma vez de 0,9720 ou
97,2%.

P (x 2) => tenho que somar a probabilidade de k = 2 e k = 3, ou


seja, 0,0270 + 0,0010 = 0,0280 => a probabilidade de acertar mais
de 2 vezes de 2,8%.

13.3. Teste de sinal para medianas:


Mediana valor da varivel aleatria que, em ordem crescente ou decrescente, est
rankeado no meio. Vamos ilustrar a aplicao desse teste com um exemplo sobre renda
familiar. Fixo (arbitro) ou hipotetizo uma renda familiar e vou verificar se rejeito ou no a
hiptese. Pego, aleatoriamente, 12 famlias e registro a renda anual de cada uma e o resultado
o seguinte (em R$ 1.000,00):
60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1
> 14.000

10,4 6,2
< 14.000

Como estamos trabalhando com a mediana, sabemos que:


probabilidade de sucesso => p = 0,5 (acima da mediana)
probabilidade de insucesso => q = (1-p) = 0,5 (menor do que a mediana)

Quais so as nossas hipteses?


H0: Mediana (MD) = 14.000
H1: MD > 14.000

Podemos utilizar a Tabela VIII para calcular a probabilidade, considerando que:


n = 12
k = 10 (so 10 rendas maiores do que 14.000) => de acordo com H0, sucesso
significa que a renda tem que ser menor que 14.000; renda > 14.000 significa
insucesso.
p = 0,5 e, conseqentemente, q = 0,5

Neste caso, temos tambm que fixar (aproximadamente) o nvel crtico para
estabelecer a rea de rejeio de nossa hiptese nula.
Ento, vamos a tabela VIII
temos que olhar na primeira coluna com n = 12 (temos 12 rendas familiares,
terceira pgina, o k est na segunda coluna e como p = 0,5 (sucesso) temos que ver
as probabilidades de cada k na oitava coluna.
como o nosso = 0,05 (aproximadamente), temos que, num processo inverso,
determinar a nossa rea de rejeio e seu correspondente k que seria, ento, o
nosso valor crtico a ser usado na tomada de deciso.

pra k = 12 => p = 0,0002 e = 0,0002


pra k = 11 => p = 0,0029 e = 0,0002 + 0,0029 = 0,0031
pra k = 10 => p = 0,0161 e = 0,0031 + 0,0161 = 0,0192
pra k = 9 => p = 0,0537 e = 0,0192 + 0,0537 = 0,0729

Se a opo for = 0,05 (aproximadamente), o seu valor crtico pode ser k = 10 ou


k = 9, ou seja, se o nmero de famlias que tm renda maior ou igual a R$
14.000,00 for maior ou igual a 10 voc rejeita H0 para = 0,0192 e se for maior ou
igual a 9, voc rejeita H0 para = 0,0729.
Voltando ao exemplo, n = 12 e vamos atribuir o sinal (+) para as rendas superiores
ao valor hipotetizado (14.000) e o sinal (-) para as rendas inferiores a 14000.

60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1
+
+
+
+
+
+
+
+
+
+

10,4 6,2
-

Quantos sinais (+) temos? Temos 10, ou seja, o nosso ponto de deciso 10 =>
Considerando = 0,0192, temos que rejeitar H0 porque k 10. Como o k s pode
ser inteiro, o nosso valor crtico estaria entre 0,0192 e 0,0729.
Concluso: Rejeitamos H0, a nossa mediana no igual a R$ 14.000,00 com =
0,0192.

13.4. Teste de sinal-rankeado Wilcoxon:


um teste similar ao anterior, mas a operao executada usando as diferenas entre
o valor observado e o valor hipotetizado. E mais: as diferenas so expressas em valores
absolutos e o rankeamento feito a partir disso.
Procedimentos:
Formular as hipteses

H0: MD = M
H1: MD < M (MD > M)
Em uma amostra de tamanho n, usar a Tabela IX para encontrar e o valor crtico
d.
Tomar uma amostra de tamanho n e montar o seguinte quadro:

val obs (x)


x1

dif (x M)

|D|

rank de |D|

xn
Calcular:

para H1: MD < M => R+ = soma dos R com sinais positivos


para H1: MD > M => R- = soma dos R com sinais negativos

rank c/ sinal R

Decises:

para H1: MD < M => R+ d => rejeitar H0


para H1: MD > M => R- d => rejeitar H0
Vamos a um exemplo prtico. Tomamos o DAP de 8 rvores (isso uma coisa que
voc nunca vai fazer entrar na floresta e medir apenas 8 rvores um desperdcio
inaceitvel) e queremos saber se a mediana igual a 50 cm. O quadro seguinte apresenta os
dados observados (x) e as demais colunas necessrias para a execuo do teste.
val obs (x)
50,2
50,1
49,6
49,5
49,2
49,0
48,4
47,0

dif (x M)
+ 0,2
+ 0,1
- 0,4
- 0,5
- 0,8
- 1,0
- 1,6
- 3,0

|D|
0,2
0,1
0,4
0,5
0,8
1,0
1,6
3,0

rank de |D|
2
1
3
4
5
6
7
8

rank c/ sinal R
+2
+1
-3
-4
-5
-6
-7
-8

Soluo:
Da tabela IX, para n = 8, tiramos que o mais prximo de 0,05 0,055; portanto o
valor crtico d igual a 6 para = 0,055.
Calculamos, ento, o R+ somando os ranks com sinais positivos (+) => na ltima
coluna tem apenas 2 ranks (+), que so 2 e 1, logo R+ = 2 + 1 = 3
Deciso: Como d = 6 e R+ = 3, rejeitamos H0

13.5. Teste de Mann-Whitney: comparao de duas medianas (ou mdias de


duas populaes):
Procedimentos:
Formular as hipteses:

H0: As duas populaes tm a mesma mediana => MD1 = MD2


H1: As duas populaes no tm a mesma mediana => MD1 > MD2 (ou menor)
Considere n como o tamanho da amostra da populao 1 e k como o tamanho da
amostra da populao 2.
Usar a Tabela 13.11 para encontrar o valor crtico d para = 0,05.
Coletar os dados, rankear e calcular S1 que a soma dos ranks da populao 1.
Calcular T = S1 [ n (n+1) ] / 2
Deciso: Rejeitar H0 se T d

Exemplificando:
diferenciados:

Considere

duas

populaes

de

escolas

com

tratamentos

Pop 1: tempo de aprendizagem para todos os trabalhadores com experincia


comprovada.

Pop 2: tempo de aprendizagem para todos os trabalhadores sem experincia


comprovada
Hipteses:

H0: MD1 = MD2


H1: MD1 < MD2
Tamanhos das amostras =>

n = 8 da populao 1
k = 7 da populao 2
Da tabela 13.11, para = 0,05, n = 8 e k = 7, o valor crtico d igual a 13.

Vamos aos clculos:


Populao 1
Tempo
rank
2,33
11
1,81
5
2,17
8
1,78
4
1,74
3
1,46
1
1,58
2
1,92
6

Populao 2
tempo
rank
2,31
10
1,96
7
2,73
14
2,51
13
3,04
15
2,34
12
2,24
9

Primeiro, calculamos S1 = 11 + 5 + 8 + .....+ 6 = 40


Calculamos, ento, o T
T = 40 [ 8 (8+1) ] / 2 = 4
Deciso: Como T < d; rejeitamos H0 e conclumos que MD1 < MD2

13.6. Consideraes finais:


Evidentemente, a estatstica no paramtrica no se resume nos testes apresentados
neste captulo. Isso foi apenas um aperitivo acrescentado a sua disciplina de Biometria
Florestal. Estatstica no paramtrica tem um vasto repertrio de testes; por exemplo, do tipo
Kolmogorov-Smirnov:
o Teste Kolmogorov para ajuste da distribuio
o Teste Lilliefors para normalidade
o Teste Shapiro-Wilk para normalidade
o Teste Smirnov para teste de 2 amostras independentes
o Teste Cramr-von Mises para teste de 2 amostras independentes
o Teste Birnbaum-Hall para teste de vrias amostras independentes

PARTE 2

Captulo 14
Algumas variveis aleatrias utilizadas em manejo florestal
14.1 Dimetro altura do peito (DAP)
14.1.1 Notas preliminares

Na engenharia florestal, o dimetro da rvore DAP e ponto final. DAP se mede a 1,3
m acima do nvel do solo. O objetivo desta seo no ensinar como medir o DAP porque
isto est muito bem explicado nos livros de Machado & Figueiredo Filho (2003)3 e Campos &
Leite (2002)4. Em plantios de eucalipto, o DAP tende a ser medido quase sempre a 1,3 m do
solo. Na Amaznia, a situao um pouco diferente porque h sapopemas e outras
irregularidades no tronco que nem sempre a parte a 1,3 m do solo est disponvel para medir.
Em inventrios em uma nica ocasio, esta situao pode ser superada utilizando
equipamentos especiais ou a projeo do dimetro altura do DAP. Por compensao de
erros, o resultado final no ser afetado. Em inventrios contnuos, a subjetividade na
medio de um mesmo indivduo em ocasies sucessivas, no bem-vinda. Neste caso,
necessrio medir sempre no mesmo local (altura em relao ao solo) e a o recurso medir
aonde possvel e marcar (com tinta) este ponto da medio. Dessa forma, ser possvel
estimar as mudanas ocorridas entre duas ou mais ocasies.
Como a pronncia correta desta varivel to importante para a engenharia florestal;
D-A-P ou Dape ou Dapi? Segundo o Manual de Estilos da Abril, temos os seguintes
conceitos:
Sigla a reunio das iniciais de um nome prprio composto de vrias palavras e deve
ir, quase sempre, em caixa alta: CNBB, CPI, CPMF, IBGE, BNDS, CBF etc. Certas siglas
silabveis, mesmo estrangeira, so escritas em caixa alta e baixa: Vasp, Ibope, Inpa, Incra,
Aids etc.

Diante disso, o nosso dimetro altura do peito tem que ser pronunciado como Dape
ou Dapi. Certos esto os bilogos, eclogos e outros no florestais e errados esto os
engenheiros florestais. Por conta disso, quero dedicar esta seo queles que pronunciam
errado esta varivel, D-A-P. No critiquem (e nem tripudiem) queles que falam Dape ou
Dapi porque eles esto certos, mas continuem pronunciando D-A-P., que uma tradio
florestal de mais de 40 anos no Brasil.
Acrnimo a reunio de elementos (iniciais, primeiras letras e slabas) dos
componentes de um nome, com a inteno de formar uma palavra silabvel e, deve ir, sempre,
em caixa alta e baixa: Ibama, Cacex, Varig etc. Chichu um acrnimo.
14.1.2 DAP usado na estrutura da floresta

A curva do tipo J-invertido a que melhor descreve a estrutura diamtrica das


florestas da regio amaznica. Os valores observados de DAP podem ser ajustados por
funes matemticas que produzem curvas que se assemelham ao tipo J-invertido. A mais
popular na Amaznia a funo de Weibull. No anexo 4 est disponvel uma reviso sobre as
funes Weibull e exponencial.

3
4

Machado, S.A. e Figueiredo Filho, A. 2003. Dendrometria. 309p.


Campos, J.C.C. e Leite, H.G. 2002. Mensurao florestal. UFV. 407p.

Como o DAP a principal varivel independente para o setor florestal da Amaznia,


uma funo de distribuio bem ajustada pode facilitar o inventrio florestal sem perder a
preciso. Com uma boa funo, que apresenta a distribuio de probabilidade de cada classe
de DAP, o inventrio usando a contagem de indivduos por unidade de rea perfeitamente
possvel. Dessa forma, o tempo de coleta seria muito mais rpido e, conseqentemente, o
inventrio ficaria mais barato.
14.1.3 DAP como varivel independente de equaes de volume e de biomassa

Tanto para volume e biomassa os seguintes modelos logartmicos podem ser utilizados
para descrever a relao entre volume e DAP e ou H e biomassa e DAP e ou HT:
1) ln V = a + b ln (DAP ) ou ln PF = a + b ln (DAP )
2) ln V = a + b ln (DAP ) + c ln (H ) ou ln PF = a + b ln (DAP ) + c ln (HT )
onde: V = volume do tronco em m3
D = DAP em cm
H = altura comercial ou comprimento do tronco em m
PF = peso fresco da parte area em kg
HT = altura total da rvore em m
ln = logaritmo natural
Todo o desenvolvimento desses modelos ser detalhado na prxima seo. Aqui,
queremos apenas mostrar os indicadores usados na escolha do melhor modelo, como erro
padro da estimativa syx, coeficiente de correlao (r) e coeficiente de determinao (r2), para
advogar em favor do uso do DAP apenas. Vamos considerar modelo 1 como aquele que tem
apenas o DAP como varivel independente e modelo 2 o que tem DAP e altura (comercial ou
total), separadamente para volume e biomassa.
Volume (n = 959):

Modelo 1: syx = 1,46%

r = 0,971

r2 = 0,943

Modelo 2: syx = 1,04%

r = 0,988

r2 = 0,977

Modelo 1: syx = 6,54%

r = 0,984

r2 = 0,967

Modelo 2: syx = 5,32%

r = 0,989

r2 = 0,978

Biomassa (n = 498):

Voc v alguma diferena entre os modelos 1 e 2, para volume e biomassa? Neste


captulo queremos enfatizar apenas essas diferenas, sem se preocupar com o significado de
cada indicador (ser explicado na prxima seo). No caso do volume, acrescentar a varivel
H significa um ganho muito pequeno na preciso. O mesmo acontece com a biomassa.
Entretanto, acrescentar a altura (H ou HT) ao modelo uma outra coisa. Em um
hectare de floresta amaznica primria podemos ter: (i) 600-700 indivduos arbreos com
DAP 10 cm dividindo o espao com lianas, epfitas e palmeiras; (ii) alta diversidade em
espcies; (iii) arquitetura de copa de mltiplas formas; (iv) dossel com vrios estratos em
altura; (v) espcies com idades diferentes, que podem variar de 1 a 100 anos.
Como medir a altura desses indivduos? Para o desenvolvimento dos modelos, o
mtodo destrutivo empregado; portanto, temos as rvores no cho e medimos as alturas
(comprimentos) com trena. Durante o inventrio florestal, a situao outra, ou seja, temos

que medir as alturas da rvore em p. Mesmo com equipamentos sofisticados, muito difcil,
seno impossvel, medir precisamente a altura total. A altura comercial pode at ser medida
precisamente com equipamentos, mas diferentes medidores podem apresentar diferentes
medidas para a mesma rvore por causa da subjetividade em definir o que "altura
comercial". Nunca, mas nunca mesmo, "chutar" a altura para utilizar o modelo 2.
Nos exemplos com equaes de volume e de biomassa, temos o seguinte: (i)
acrescentar a altura comercial (H) ao modelo 1, significa melhorar a preciso em 0,42% (1,46
1,04) e (ii) acrescentar altura total (HT) ao modelo, significa melhorar a preciso em 1,22%
(6,54 5,32). Vale a pena acrescentar a altura? Pense nisso, sobretudo, nos custos de coleta de
dados para o inventrio florestal.

14.2. rea basal


a projeo dos DAPs ao solo, que indica a densidade da floresta. Do ponto de vista
tcnico, a soma da rea transversal de todos os indivduos em um hectare. rea transversal
a rea do crculo altura do DAP. Isto conseguido fazendo (imaginrio) um corte
transversal no DAP e medindo o raio ou o dimetro do crculo. a rea de um plano sobre o
tronco, disposto em ngulo reto ao eixo longitudinal. Portanto, a rea transversal
(classicamente representada pela letra "g") obtida da seguinte maneira:
g i = (DAP ) 4
2

e a rea basal, ento:


AB = g i (i = 1,2,...n )

Na rea experimental de manejo florestal da ZF-2, a rea basal mdia est em torno de
30 m /ha. Isso quer dizer que se projetarmos todos os DAPs 10 cm sobre uma rea de
10.000 m2 (um hectare), as rvores ocuparo 30 m2. Algumas estimativas (m2/ha) para
diferentes stios na Amaznia: UHE de Santa Izabel (regio do Araguaia) = 15,2; Projeto Rio
Arinos (norte de MT) = 1,6; Floresta Estadual do Antimary (Acre) = 15,2, Trombetas (Par) =
24,8; PIC Altamira (Par) = 22, Sul de Roraima = 20,9 e Alto Solimes (Fonte Boa e Juta no
AM) = 27 m2/ha.
2

Com esses poucos exemplos, podemos dizer que a floresta da ZF-2 mais densa do
que as outras florestas. A estimativa de rea basal, de forma isolada, diz muito pouco sobre
uma determinada floresta. Com esses poucos exemplos, difcil afirmar que a floresta da ZF2, por exemplo, muito densa ou pouco ou mdio, porque deve haver florestas mais densas
do que esta. De qualquer modo, no custa nada estimar a rea basal da rea inventariada j
que as medies de DAP so obrigatrias em inventrios florestais.
Antigamente (at incio dos anos 90), era comum ver inventrios florestais com
volumes estimados a partir da rea basal, ou seja, AB x altura x fator de forma. O fator de
forma utilizado era igual a 0,7 proposto por peritos da FAO (Food and Agriculture
Organization) que realizaram os primeiros inventrios na Amaznia nas dcadas de 50 e 60. A
altura era, invariavelmente, "chutada". O engenheiro florestal deve utilizar-se de equaes
prprias para estimar o volume de madeira.

14.3. Volume
No setor florestal, as decises so tomadas baseadas no volume de madeira. Isto to
forte que, muitas vezes, o engenheiro florestal at se esquece que numa floresta h muitas
outras coisas alm da madeira. Aqui, o objetivo mostrar como se estima o volume de

madeira nos inventrios florestais. Para isto, voc precisa ter equaes confiveis e us-las
para estimar o volume de rvores em p medidas em parcelas fixas do inventrio florestal.
Volume real

Para desenvolver equaes de volume, voc precisa ter o volume real de vrios
indivduos. Este volume pode ser obtido por meio do mtodo destrutivo (aproveitando reas
exploradas ou desmatadas, autorizadas pelo Ibama) ou utilizando o relascpio de Bitterlich
(por exemplo). O mais comum o mtodo destrutivo. Antes de derrubar a rvore, o DAP
medido. Com a rvore no cho, as alturas ou comprimentos (comercial e total) so
determinados e o tronco dividido em pequenas toras, tentando se aproximar forma do
cilindro.
Em geral, o tronco dividido em 10 toras (ou sees) e duas medidas so tomadas em
cada tora, na base e no topo. Com estas duas medidas, voc tem condies de calcular as reas
transversais da base e do topo; a, voc estima a mdia (g da base + g do topo dividido por 2)
e multiplica pelo comprimento da tora [lembrando que m2 de g vezes m do comprimento,
voc ter m3] para ter o volume da tora ou seo. A soma dos volumes das 10 toras
considerada "volume real" da rvore. Melhores explicaes voc vai encontrar nos livros de
Machado & Figueiredo Filho (2003) e Campos & Leite (2002).
Quantas rvores so necessrias para desenvolver os modelos estatsticos para
volume ou equaes de volume ou modelos alomtricos?
Alometria => (do grego: allos outra e metron medida) => o estudo das variaes
das formas e dos processos dos organismos e tem dois significados: (i) o crescimento de uma
parte do organismo em relao ao crescimento do organismo inteiro ou de parte dele e (ii) o
estudo das conseqncias do tamanho sobre as formas e os processos.

Voc pode usar uma funo conhecida de distribuio em dimetro (Weibull, por
exemplo) e ver se os dados j coletados se ajustam a esta funo. Teste simples como o quiquadrado (confrontao entre freqncia esperada e freqncia observada) d conta disso. Se
o teste for significante, colete mais dados das classes que esto faltando e refaa o teste quiquadrado. Se o resultado for no significante, voc tem, em mos, uma amostra representativa
de sua populao de interesse. H tambm a possibilidade de utilizar-se do recurso do
inventrio florestal quanto intensidade de amostragem; neste caso, cada indivduo uma
amostra. A frmula a seguinte:

n = t 2s2 2
sendo: t = valor obtido na tabela-t ( p = 0,05 ou outro e n-1 graus de liberdade)
s2 = estimativa da varincia
2 = expectativa do erro = (LE x mdia)2. Em geral, o LE (limite de erro) igual a
0,10 ou 10%.
Observaes: use z em vez de t. Como vimos anteriormente, os valores de z para os nveis
crticos mais freqentes, = 0,10, = 0,05 e = 0,01 so, respectivamente, 1,64, 1,96 e
2,57. Outra coisa: h tambm o fator de correo para populaes finitas, ou seja, neste caso
ao denominador da frmula (2) deve ser acrescentado ( 1 n/N ). A populao considerada
finita quando a frao n/N menor do que 0,05, segundo Freese (1962)5.
5

Freese, F. 1962. Elementary forest sampling. Agriculture Handbook n 232. USDA-Forest Service.
91p.

Equaes de volume ou modelo alomtrico

O passo seguinte testar modelos matemticos. Antigamente (fim dos anos 70), o
grande desafio era encontrar o melhor modelo para descrever a funo V = f (DAP, H).
Depois de vrias dissertaes e artigos cientficos, verificou-se que qualquer modelo, seja de
simples entrada (apenas DAP como varivel independente) ou de dupla entrada (DAP e H
como variveis independentes, combinadas ou no) produzem bons ajustes. A deciso para
escolher o melhor modelo ficou nos detalhes.
Hoje em dia, qualquer modelo que voc venha a testar, utilizando DAP e H, voc vai
conseguir uma alta e significativa correlao, um modelo que explica mais de 75% da
variao de seus dados (r2) e um erro padro de estimativa aceitvel. O padro de hoje o
modelo que apresenta r > 0,90, r2 > 0,90 e syx (%) < 10. Alm disso, o modelo tem que ter
uma boa distribuio de resduos, que : as diferenas entre os valores estimados e
observados, positivos e negativos, tm que se distribuir uniformemente ao longo da curva (ou
reta) estimada, ou seja, estas diferenas no podem aumentar (ou diminuir) conforme aumenta
o tamanho da rvore. Por exemplo: se o seu modelo produzir uma diferena de 0,5 m3 para
uma rvore com DAP = 10 cm, esta mesma diferena (mais ou menos) tem que ser verificada
para outra rvore com DAP = 70 cm ou DAP = 150 m.
Os modelos que apresentam as melhores distribuies de resduos so os modelos
logartmicos. Os mais usados so os seguintes, do item 1.1.3:
1) ln V = a + b ln (DAP )
2) ln V = a + b ln (DAP ) + c ln (H )
A abordagem para estimar os coeficientes de regresso a do mtodo dos mnimos
quadrticos (MMQ) e depois da obteno das equaes normais, os coeficientes podem ser
estimados usando o mtodo da substituio ou por meio do clculo matricial. As explicaes
sobre as operaes necessrias para se chegar aos coeficientes podem ser encontradas em
qualquer livro de estatstica bsica. No computador, basta entrar com as variveis ln V, ln D e
ln H e voc ter, alm dos coeficientes de regresso, erro padro de estimativa, coeficiente de
correlao, coeficiente de determinao e distribuio de resduos.
Regresso => descreve apenas o relacionamento linear entre uma varivel dependente
(Y) e uma ou mais variveis independentes (X1 = DAP, X2 = altura etc.).

Antes de derivar a equao em relao a a e b, primeiro preciso linearizar as


variveis aleatrias, da seguinte maneira: ln V = Y, ln D = X1 e ln H = X2. Para o modelo 1, as
equaes normais so:
an

+ b X1 = Y

a X1 + b X12 = X1Y
Pelo mtodo de substituio, os coeficientes sero:
a = [ Y - b X1 ] / n
b = [ SPCX1Y ] / [ SQCX1 ]
Para o modelo 2, as equaes normais so
an

+ b X1

a X1 + b X12

+ c X2

= Y

+ c X1 X2 = X1 Y

a X2 + b X1 X2 + b X22

= X2 Y

Neste caso, melhor estimar os coeficientes apelando para o clculo matricial.


matriz de Y (nx1) = matriz de X (nxp) x matriz de coeficientes "b" (px1)
(X'X) b = X'Y
b = (X'X)-1 X'Y
Hoje, com o Excel ficou fcil inverter matrizes de qualquer tamanho e a multiplicao
mais fcil ainda. Mesmo assim, no h necessidade de trabalhar com matrizes para a
obteno dos coeficientes. Os programas de estatstica, em geral, calculam automaticamente
os coeficientes. Sei que para regresses simples (com dois coeficientes), o Excel d conta do
recado. Para regresses mltiplas e as no lineares, melhor usar outro software (Systat, SAS
etc.).
Vamos aproveitar as sadas (outputs) do Systat, por exemplo, para explicar os
significados de alguns indicadores da regresso.
1) Coeficiente de correlao => r => a regresso descreve o relacionamento e este
coeficiente mostra o grau de estreiteza que existe entre as variveis Y e X1, X2 etc.. Este
coeficiente varia de -1 a +1. Igual a -1 ou +1, h uma correlao perfeita, ou seja, a cada
unidade acrescentada X, haver um aumento proporcional em Y (uma, duas, ou menos 2
unidades). Sinal (-) significa que os menores valores de Y tendem aos maiores valores de X
ou vice-versa. Sinal (+) significa que os menores Y tendem aos menores X e os maiores Y
tendem aos maiores X. O teste-t geralmente utilizado para testar a significncia de r.
2) Coeficiente de determinao => r2 => multiplicado por 100 mostra a percentagem
da variao dos dados que explicada pelo modelo testado. No caso de regresso mltipla,
prefira sempre o coeficiente ajustado.
3) Erro padro de estimativa => syx => a raiz quadrada da mdia quadrtica dos
resduos (MQR), logo o desvio padro da relao. Ao comparar duas equaes, o uso deste
indicador direto, ou seja, aquela que apresentar o menor erro a melhor. Isoladamente,
preciso ainda alguns clculos. Dividindo syx pela raiz quadrada de n voc ter o erro padro da
mdia e dividindo o mesmo pela mdia da varivel dependente Y, voc ter o seu erro em
percentagem. Melhor ainda apresentar a incerteza de seu modelo. Neste caso, voc tem
estimar o intervalo de confiana (IC) e aquela poro (z * erro padro) dividida pela mdia
vai te fornecer a incerteza de seu modelo. Em geral, uma incerteza de 10% considerada
aceitvel.
4) Coeficientes de regresso => O Systat apresenta a constante ( a ) e os coeficientes
associados s outras variveis independentes (b, c, d etc.) => o Systat apresenta tambm a
significncia de cada coeficiente; se for no significante, voc deve remov-lo do modelo.
5) Anlise de varincia (ANOVA) => a regresso descreve, a correlao mostra a
estreiteza entre as variveis e a ANOVA mostra a significncia do seu modelo de regresso. O
teste-F o que determina se o modelo significante ou no. No Systat, o valor p o mesmo
que , ou seja, o valor crtico para a tomada de deciso. Os valores clssicos de p so 0,01,
0,05 e 0,10; portanto quando o p < 0,01, o modelo testado significante para os trs nveis.
6) Durbin-Watson D Statistics e First Order Autocorrelation => No caso de
equaes de volume (e biomassa), no h envolvimento de sries temporais. Portanto, no
precisa se preocupar com isto. Estes dois testes so usados para verificar se os termos dos
erros no modelo de regresso no so correlacionados e nem dependentes. Os termos dos
erros correlacionados com o passar do tempo so conhecidos como "autocorrelacionados" ou
"serialmente correlacionados".

7) Distribuio de resduos => o grfico pode ser interpretado diferentemente por


diferentes eng florestais, mas ele fundamental para a deciso final do melhor modelo
conforme foi explicado anteriormente.
Aplicao da equao de volume

Com o melhor modelo em mos, voc vai aplic-lo em inventrios florestais. Num
inventrio na Amaznia, para rvores com DAP 10 cm, voc deve utilizar uma parcela de,
no mnimo, 2.500 m2 (10 x 250 m ou 20 x 125 m). Numa parcela deste tamanho, voc deve
encontrar entre 100 e 150 indivduos. Lembre-se que, de acordo com o conceito de intervalo
de confiana (IC), em 95 vezes (se o seu p = 0,05, por exemplo) a sua estimativa estar dentro
do seu IC e em 5 vezes, a estimativa estar fora do IC. Portanto, no se surpreenda e confie na
estatstica (na incerteza que o seu modelo declarou). No esquecer que os seus modelos so
logartmicos e, por esta razo, ao estimar o volume de madeira voc tem que usar o inverso do
logaritmo natural que a exponencial.

14.4. Biomassa
Estimar a biomassa importante para compreender a produo primria de um
ecossistema e avaliar o potencial de uma floresta para produo de energia. No manejo
florestal sustentvel na Amaznia, a biomassa usada para estimar a quantidade de nutrientes
que exportada do sistema via explorao de madeira e que devolvida via inputs
atmosfricos. No entanto, depois da Rio-92, a biomassa ganhou uma nova dimenso. O
carbono da vegetao passou a ser um elemento importante nas mudanas climticas globais.
O eng florestal sabe (ou deveria saber) que aproximadamente 50% da madeira secada (em
estufa) carbono e que os compostos de carbono so: celulose (45%), hemicelulose (28%) e
lignina (25%).
De acordo com o IPCC (Painel Intergovernamental de Mudanas Climticas), os
componentes de biomassa e carbono da vegetao so: (i) biomassa ou C na matria viva
acima do nvel do solo (tronco, galhos, folhas, frutos e flores); (ii) biomassa ou C na matria
viva abaixo do nvel do solo (razes) e (iii) biomassa ou C na matria morta em p ou no cho.
Quem foi treinado para estimar o volume de madeira tem todas as condies para
estimar a biomassa tambm. O anexo 5 um artigo (manuscrito) sobre biomassa que j foi
publicado na Acta Amazonica6. Este artigo cobre o componente 1 do IPCC.
O componente 2 envolve razes e isto est sendo realizado pelo LMF (laboratrio de
manejo florestal do INPA) e ser includo em uma tese de doutorado. O trabalho de campo
para obteno do peso de razes muito trabalhoso, mas nada que assuste o verdadeiro eng
florestal. Como o solo da Amaznia muito pobre em nutrientes, as rvores tendem a
desenvolver razes superficiais raramente ultrapassam 50 cm de profundidade. Mesmo na
Amaznia, em regies que tm as estaes do ano (chuvosa e seca) bem definidas, as rvores
tendem a desenvolver razes mais profundas para procurar gua, o que no o caso da
Amaznia Central.
O componente 3 pode ser estimado com preciso combinando as taxas de mortalidade
com os modelos usados no componente 1.
Coleta de dados => verdade de campo => mtodo destrutivo

Higuchi, N., Santos, J. dos, Ribeiro, R.J., Minette, L. e Biot, Y. 1998. Biomassa da parte area da
vegetao da floresta tropical mida de terra-firme da Amaznia brasileira. Acta Amazonica,
28(2):152-166.

Os procedimentos para o componente 1 so apresentados no Anexo 2. Ao incluir o


componente 2 em coletas de biomassa, preciso incluir as razes. preciso escavar, separar
as razes do tronco e pes-las. A metodologia de coleta de amostras para as determinaes dos
teores (concentraes) de gua e carbono a mesma utilizada na parte area. Aqui tambm,
exige-se mais transpirao do que inspirao.
Equaes de biomassa

Procedimentos iguais aos de volume.


Aplicao da equao de biomassa

O pargrafo apresentado para o volume deve ser repetido aqui.


Para o caso de biomassa, cabem ainda as seguintes consideraes: (i) voc estima o
peso fresco; portanto, voc tem que transform-lo em peso seco e depois em carbono basta
multiplicar o peso pelas concentraes de gua e carbono obtidas em laboratrio; (ii) o
carbono como commodity (mercadoria) em bolsas de mercadorias significa estoque e
diferena de estoque; portanto, voc precisa trabalhar com inventrio florestal contnuo com,
pelo menos, duas ocasies; (iii) voc precisa separar o peso nos trs componentes definidos
pelo IPCC.

Captulo 15
Distribuio de dimetro: Weibull versus Exponencial
15.1. Introduo:
Como a altura da rvore difcil de ser medida, com preciso, o dimetro passa a ser a
varivel mais importante e mais segura para estimar o volume e a biomassa de florestas
tropicais de uma regio como a Amaznia. Alm disso, o dimetro consagrou-se como uma
varivel importante na descrio da estrutura florestal, como tambm na comercializao de
madeira. Assim, a quantificao de distribuies de dimetro fundamental para o
entendimento da estrutura da floresta e do estoque da floresta, que so pr-requisitos nas
decises do manejo florestal.
Bailey and Dell (1973), Clutter et al. (1983) e Higuchi (1987) apresentam revises
compreensivas sobre distribuies de dimetro. De acordo com Clutter et al. (1983) e
Lawrence e Shier (1981), entre as vrias distribuies estatsticas, a distribuio Weibull tem
sido a mais usada pelo setor florestal, depois da distribuio exponencial.
A introduo da funo de distribuio Weibull aos problemas relacionados com
silvicultura e manejo florestal, atribuda Bailey e Dell em 1973 (Zarnoch et al., 1982;
Little, 1983; Clutter et al., 1983 e Zarnoch e Dell, 1985). Desde ento, esta distribuio tem
sido extensivamente utilizada para descrever a distribuio de dimetro, tanto em
povoamentos equianos como multianos, especialmente nos Estados Unidos.
No Brasil, especialmente na floresta amaznica, a Weibull foi utilizada por Higuchi
(1987), Umaa (1998), mas segundo Barros et al. (1979) e Hosokawa (1981), a distribuio
mais popular a exponencial.

15.2. As funes de distribuio de dimetro:


Nesta comparao entre Weibull e exponencial, usaremos a metodologia proposta por
Zarnoch e Dell (1985), Cohen (1965) e Einsensmith (1985), respectivamente tcnica dos
percentis, da mxima verossimilhana e exponencial, para a obteno estimadores
(coeficientes) das funes.
(i) Weibull Mxima Verossimilhana (WMV)

A distribuio Weibull, que tem a seguinte funo de densidade probabilstica:

f ( x ) = (c b )x c 1 exp ( x ) / b
c

); para x0, c>0 e b>0

= 0, em outras circunstncias

tem a seguinte funo de verossimilhana para uma amostragem de n observaes


L (xi, ....., xn; c, b) = n (c/b) xic-1 exp (-xic/b) (1)
Tirando o logaritmo de (1), teremos
ln L = ln [(c/b)xic-1 exp (-xic/b)]
ln L = [ln (c/b) + ln xic-1 (xic/b)]
ln L = n ln (c/b) + (c-1) ln xi (1/b) xic
Por meio da diferenciao em relao a c e b e igualando a zero as derivadas, as
seguintes equaes sero obtidas:

d ln L/d c = n/c + ln xi (1/b) xic ln xi = 0

(2)

d ln L/d b = -(n/b) + (1/b2) xic = 0 (3)


Tirando b de (3), temos
b = ( xic ) / n

(4)

e substituindo em (2), temos


n/c + ln xi [1/(xic/n)] xic ln xi = 0
n [(1/c) ( xic ln xi) / xic] = - ln xi
[( xic ln xi) / xic] (1/c) = (1/n) ln xi

(5)

Dessa forma, o coeficiente c pode ser estimado por meio de qualquer processo
iterativo ou via tentativa-e-erro para igualar os dois lados da equao (5). O coeficiente b
pode ser estimado pela equao (4), depois de estimado o c.
A freqncia esperada pode ser determinada atravs da seguinte funo de distribuio
cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a sua funo de
densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al., 1982)

{[

F (x ) = 1 exp (x a ) b]

ii. Weibull Percentis (PERC):

A funo de Weibull usando o mtodo dos percentis, tem a seguinte funo de


densidade probabilstica
f (x) = (c/b) [(x-a)/b)c-1 exp {-[(x-a)/b]c; para xa0, b>0 e c>0
f (x) = 0, em outras circunstncias

Os parmetros a, b e c so estimados da seguinte maneira:

a = x1 x n x 22

) (x

+ x n 2x 2 )

b = a + x(0,63n )
c=

ln[ln(1 p k )] [ln(1 pi )]
ln(x npk a ) (x npi a )

onde:
x i ( i = 1, 2, ... n) = o i-simo DAP em ordem crescente
x 1 = o menor DAP e x n = o ltimo DAP, ou seja, o maior DAP.
x (0,63n) = o DAP rankeado em ( 0,63 * nmero total de DAP observados). Exemplo: num
conjunto de dados de 100 DAPs, x (0,63n) o 63 DAP.
p i = 0,16731 e p k = 0,97366
A freqncia esperada pode ser determinada por meio da seguinte funo de
distribuio cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a

sua funo de densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al.,
1982).

{[

F (x ) = 1 exp (x a ) b]

(iii) Exponencial:

As estimativas dos parmetros da primeira ordem da funo exponencial

Y = ae bx
podem ser obtidos pela linearizao (srie de Taylor) ou por meio do mtodo iterativo
(Marquardt, por exemplo), segundo Draper e Smith (1981). O software Systat pode calcular
os coeficientes pelos dois mtodos.
3. Clculo das probabilidades (freqncia esperada): caso Weibull percentis para DAP10
cm

P (x < 10) =

1 {exp [(10 a)/b]c}

P ( 10 x < 20 ) =

{exp [(10 a)/b]c} - {exp [(20 a)/b]c}

P ( 20 x < 30 ) =

{exp [(20 a)/b]c} - {exp [(30 a)/b]c}

P ( 30 x < 40 ) =

{exp [(30 a)/b]c} - {exp [(40 a)/b]c}

etc at o ltimo intervalo.

3. Bibliografia:

Bailey, R.L. e T.R. Dell. 1973. Quantifying Diameter Distributions with the Weibull
Function. Forest Science 19:97-104.
Barros, P.L.C., S.A. Machado, D. Burger e J.D.P. Siqueira. 1979. Comparao de Modelos
Descritivos da Distribuio Diamtrica em uma Floresta Tropical. Floresta 10(2):19-31.
Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Cohen, A.C. 1965. Maximum Likelihood Estimation in the Weibull Distribution Based on
Complete and on Censored Samples. Technometrics 7(4):579-588.
Draper, N.R. e H. Smith. 1981. Applied Regression Analysis. John Wiley and Sons, Inc. New
York. Segunda edio. 709p.
Einsesmith, S.P. 1985. PLOTIT: Users Guide.
Higuchi, N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor, Michigan State University. 129p.
Hosokawa, R.T. 1981. Manejo de Florestas Tropicais midas em Regime de Rendimento
Sustentado. UFPr, Relatrio Tcnico.
Lawrence, K.D. e D.R. Shier. 1981. A Comparison of Least Squares and Least Absolute
Deviation Regression Models for Estimating Weibull Parameters. Commun. Statist.
Simula Computa. B10(3):315-326.
Little, S.N. 1983. Weibull Diameter Distribution for Mixed Stands of Western Confiers.
Can.J.For.Res. 1:85-88.
Umana, C.L.A. e Alencar, J.C. 1998. Distribuies Diamtricas da Floresta Tropical mida
em uma rea no Municpio de Itacoatiara AM. Acta Amazonica 28(2):167-190.
Zarnoch, S.J. e T.R. Dell. 1973. An Evaluation of Percentile and Maximum Likelihood
Estimators of Weibull Parameters.
Zarnoch, S.J., C.W. Ramm, V.J. Rudolph e MW. Day. 1982. The effects of Red Pine
Thinning Regimes on Diameter Distribution Fitterd to Weibull Function. MSU
Agricultural Experiment Station East Lansing. RI-423. 11p.

Captulo 16
Biomassa da Parte Area da Vegetao da Floresta Tropical
mida de Terra-Firme da Amaznia Brasileira.
Niro Higuchi1 , Joaquim dos Santos1 , Ralfh Joo Ribeiro1,
Luciano Minette1 e Yvan Biot2
Resumo

Usando um banco de dados com 315 rvores, com DAP5 cm, foram testados quatro
modelos estatsticos - linear, no linear e dois logartmicos - para estimar a biomassa de
rvores em p. Os dados foram coletados, de forma destrutiva, na regio de Manaus, Estado
do Amazonas, em um stio coberto por floresta de terra-firme sobre plats de latossolo
amarelo. Em diferentes simulaes com diferentes intensidades de amostragem, os quatro
modelos estimam precisamente a biomassa, sendo que o afastamento entre a mdia observada
e a estimada, em nenhuma ocasio ultrapassou 5%. As equaes para estimar a biomassa de
rvores individuais em uma parcela fixa, distintamente para rvores com 5DAP<20 cm e
com DAP20 cm, so mais consistentes do que o uso de uma nica equao para estimar,
genericamente, todas as rvores com DAP5 cm. O modelo logartmico com apenas uma
varivel independente, o DAP, apresenta resultados to consistentes e precisos quanto os
modelos que se utilizam tambm da varivel altura total da rvore. Alm do modelo
estatstico para estimar o peso da massa fresca total de uma rvore, outras informaes so
apresentadas, estratificadas nos diferentes compartimentos (tronco, galho grosso, galho fino,
folhas e, eventualmente, flores e frutos) de uma rvore, como: concentrao de gua para
estimar o peso da massa seca, concentrao carbono e a contribuio do peso de cada
compartimento no peso total.
palavras-chaves: Carbono, manejo florestal, modelo estatstico.
Aboveground Biomass of the Brazilian Amazon Rainforest
Abstract

Data set with 315 trees with diameter at breast height (dbh) greater than 5 cm was used to
test four statistical models - linear, non-linear and two logarithmics - to estimate aboveground
biomass of standing trees. The data were collected destructively in Manaus region, Central
Amazonia, in a site covered by a typical dense terra-firme moist forest on plateaus
dominated by yellow latosols. The difference between observed and estimated biomass was
always below 5%. The logarithmic model using a single independent variable (dbh) produced
results as consistent and precise as those with double-entry (dbh and total height). Besides
statistical models to estimate aboveground biomass, the following information are also
presented in this paper: the contribution of each tree compartment (stem, branch, twigs, leaves
and flowers or fruits) to the total weight of a standing tree, water concentration to estimate the
dry weight and carbon concentration of each tree compartment.
Key words: Carbon, forest management, statistical model

Instituto Nacional de Pesquisas da Amaznia - Cx. Postal, 478 - Manaus - Am.


U. K. Overseas Development Administration (ODA). Victoria Street, 94 - London. SW1E5JL England.
2

Introduo:

O objetivo deste trabalho o desenvolvimento de modelos estatsticos para estimar a


biomassa individual, de rvores em p, de espcies da floresta densa de terra-firme, regio de
Manaus (AM), assim como a apresentao de informaes necessrias para a converso de
massa fresca para massa seca e de biomassa para estoque de carbono. So testados quatro
modelos, linear, no-linear e dois logartmicos, tendo como varivel dependente, o peso da
massa fresca (no seca) e, como variveis independentes, dimetro altura do peito (DAP) e
altura total, de rvores individuais. O principal atributo dos modelos testados o tamanho da
rvore e, por esta razo, tm que absorver a alta diversidade florstica e as diferentes
associaes botnicas, distribuies espaciais e densidades da madeira (intra e
interespecficas), da vegetao de terra-firme.
As estimativas de biomassa florestal so informaes imprescindveis nas questes
ligadas, entre outras, s reas de manejo florestal e de clima. No primeiro caso, a biomassa
est relacionada com os estoques de macro e micronutrientes da vegetao, que so obtidos
pelo produto da massa pelas concentraes de cada mineral. No caso do clima, a biomassa
usada para estimar os estoques de Carbono, que, por sua vez, so utilizados para estimar a
quantidade de CO2 que liberada atmosfera durante um processo de queimadas.
O manejo florestal est associado ao uso sustentvel dos recursos florestais existentes,
para atender s demandas da sociedade, por produtos madeireiros e no-madeireiros.
Tratando-se de Amaznia, os cuidados tm que ser redobrados porque estes recursos esto em
ecossistemas heterogneos, complexos e frgeis. Os solos da Amaznia so antigos e, em sua
maioria, pobres em nutrientes (especialmente para a agropecuria) e cidos. A contrastante
exuberncia de sua cobertura florestal est associada s estratgias de conservao e de
ciclagem de nutrientes dentro do prprio sistema. importante conhecer a distribuio de
nutrientes nos diferentes compartimentos (tronco, galho, casca, folha), para controlar a
exportao dos mesmos pela colheita florestal e entrada via inputs atmosfricos e, com isto,
minimizar os impactos ambientais da produo madeireira.
Para as questes climticas, h grande interesse em quantificar a biomassa que
convertida, principalmente em dixido de carbono, pelas diferentes formas de uso do solo
amaznico (Fearnside et al., 1993, Foster Brown et al., 1995, Higuchi & Carvalho Jr., 1994,
Skole et al., 1994, Schroeder & Winjum, 1995 e Fearnside, 1996). Esta informao
necessria para uma correta avaliao da contribuio dos projetos de desenvolvimento da
regio, no processo de mudanas climticas globais, no mbito da Conveno do Clima,
assinada pelo Governo Brasileiro durante a Conferncia das Naes Unidas sobre
Desenvolvimento e Meio Ambiente, Rio-92.
As estimativas de biomassa, atualmente disponveis na literatura, dos diversos tipos
florestais da Amaznia, vm de estudos que se utilizam de mtodos diretos e indiretos. O
mtodo direto consiste na derrubada e pesagem de todas as rvores que ocorrem em parcelas
fixas, fornecendo estimativas, que segundo Brown et al. (1989), no so confiveis porque
baseiam-se em poucas parcelas, pequenas e tendenciosamente escolhidas. No mtodo indireto,
as estimativas tm sido produzidas a partir de dados de inventrios florestais, que foram
executados com a finalidade de planejar a explorao e o manejo florestal, sendo o volume da
madeira, a principal varivel. Neste mtodo, a biomassa estimada a partir do volume da
madeira, usando-se a densidade mdia da madeira e um fator de correo para rvores com
DAP < 25 cm.
Estes dois mtodos ainda geram muita polmica e controvrsias e produzem
estimativas desencontradas, mesmo quando se usa o mesmo banco de dados (Fearnside et al.,
1993, Brown et al., 1989 e Higuchi et al., 1994 e Foster Brown et al., 1995). A tabela 1 ilustra

o que foi posto anteriormente. Esta tabela foi parcialmente reproduzida de FEARNSIDE et al.
(1993), considerando apenas a biomassa viva acima do nvel do solo. So produzidas
estimativas diferentes, com o passar do tempo, pelos mesmos autores e para o mesmo banco
de dados (montado nos anos 70). Alm disso, Foster Brown et al. (1995) criticam estes
bancos de dados, afirmando que as alturas das rvores foram obtidas sem aparelhos de
medio e que, estes erros no amostrais no so mencionados.
O consenso existente entre os pesquisadores que trabalham com biomassa de que
praticamente impossvel determinar a biomassa de cada rvore, pelo mtodo direto, ao
executar um inventrio florestal. Por esta razo, os recursos da anlise de regresso para o
desenvolvimento de modelos estatsticos, para estimar a biomassa de rvores em p, devem
ser empregados para superar este problema. Salomo et al. (1996) citam apenas dois modelos
estatsticos utilizados na Amaznia; um proposto por Sandra Brown e colaboradores e, outro,
proposto por Christopher Uhl e colaboradores. O primeiro requer o conhecimento da
densidade da madeira de cada indivduo, que praticamente impossvel obte-la durante o
inventrio; e o segundo, recomendado para florestas secundrias. Alm destes, h o modelo
de Overman et al. (1994), para a floresta amaznica colombiana, desenvolvido principalmente
para rvores de pequenos dimetros.
Materiais e Mtodos
(i) Coleta de Dados:

Os dados foram coletados na Estao Experimental de Silvicultura Tropical (EEST)


do INPA, aproximadamente 90 km ao norte de Manaus, em reas derrubadas para
experimentos com liberao de dixido de carbono, usando-se queimadas tradicionalmente
praticadas por pequenos produtores da regio, e em reas especialmente designadas para esta
pesquisa. Nos dois casos foram escolhidas reas de plats sobre latossolo amarelo. Estes
dados constituem o banco de dados de biomassa do INPA.
No total, foram derrubadas e pesadas 315 rvores-amostras com DAP5 cm. O peso
total de todos os indivduos amostrados foi compartimentado em tronco e copa (incluindo
galhos e folhas e, eventualmente, frutos). Alm do peso da rvore, foram tambm medidos o
DAP, altura total, altura comercial, altura da copa e dimetro da copa. A distribuio de
freqncia e a estatstica descritiva dos dados observados encontram-se nas tabelas 2a e 2b).
Na tabela 2c observam-se as estatsticas descritivas para as variveis DAP, altura total e peso
total, quando os dados so divididos em algumas classes de dimetro. Nesta tabela fica
evidente que a varivel peso total tem uma variabilidade natural bem maior que as outras duas
variveis, mesmo em mais classes de dimetro.
Para obteno das concentraes de gua e nutrientes de cada compartimento da
rvores, 38 indivduos (dos 315 amostrados) foram coletados diferentemente, baseando-se no
esquema apresentado por Higuchi & Carvalho Jr. (1994) e Santos (1996). Foram retiradas
amostras (discos) a 0% (base), 25, 50, 75 e 100% (topo) do tronco e do galho grosso
(dimetro de base10 cm). Do tronco foi retirado tambm um disco altura do DAP. Todos
os discos retirados foram imediatamente pesados e enviados ao laboratrio para secagem em
estufas calibradas a 105o C. O mesmo procedimento foi adotado para os galhos finos e folhas,
mas que em vez de discos, foram retiradas, de vrias partes da copa, amostras de 5 e 3 kg,
respectivamente. A estimativa da concentrao de carbono na vegetao das espcies mais
abundantes, no stio estudado, foi feita tendo ainda as amostras coletadas por Higuchi &
Carvalho Jr. (1994).
O peso total de cada uma destas 38 rvores foi compartimentado em tronco, casca,
galho grosso, galho fino (dimetro<10 cm), folha e, eventualmente, flores e frutos. Alm

destas concentraes, a coleta compartimentada permite ainda a determinao da contribuio


de cada um dos compartimentos no peso total da rvore. A estatstica descritiva destes dados e
a contribuio de cada compartimento no peso total e a porcentagem do Peso da massa fresca
que transformado em Peso da massa seca, visualizam-se nas tabelas 3a e 3b.
Um desdobramento da pesquisa de Nutrientes o estudo de densidade da madeira
(g/cm ), nos sentidos base-topo e casca-medula da rvore (utilizando-se das amostras
coletadas a 0, 25, 50, 75 e 100% da altura comercial e do DAP). Resultados preliminares
deste estudo encontram-se na tabela 4, de 12 rvores analisadas.
3

O banco de dados de biomassa do INPA vem sendo completado ao longo do tempo e


j foi utilizado preliminarmente por Higuchi et al. (1994), Higuchi & Carvalho Jr. (1994),
Arajo (1995) e Santos (1996).
(ii) Modelos Testados:

Os modelos estatsticos foram selecionados a partir do trabalho de SANTOS (1996),


que testou 34 diferentes modelos em diferentes combinaes.
O banco de dados foi dividido em dois, para rvores com 5DAP<20 cm e DAP20
cm. Foram testados os seguintes modelos estatsticos, para todas as rvores com DAP5 cm,
equao nica, e para as duas classes de tamanho, (a) 5DAP<20 cm e (b) DAP20 cm:
1. ln Pi = 0 + 1 ln Di + ln i
2. ln Pi = 0 + 1 ln Di + 2 ln Hi + ln i
3. Pi = 0 + 1 Di2Hi + i
4. Pi = 0 D 1 H 2 + i
para i = 1, 2, ... 315 - equao nica
i = 1, 2, ... 244 - equao (a)
i = 1, 2, ... 71 - equao (b)
onde:
Pi = peso da massa fresca de cada rvore, em quilograma (para modelos 1, 2 e 4) e em
toneladas mtricas (para o modelo 3).
Di= dimetro altura do peito de cada rvore, DAP, em centmetros (para modelos 1,
2 e 4) e em metros (para o modelo 3)
Hi = altura total de cada rvore, em metros
0, 1 e 2 = coeficientes de regresso
i = erro aleatrio
ln = logartimo natural
Os modelos estatsticos propostos por Brown e Lugo (Foster Brown et al., 1995,
Salomo et al., 1996) e aqueles que apresentaram os melhores resultados no trabalho de
Saldarriaga et al. (1988), que incluem densidade da madeira, no foram testados porque esta
varivel de difcil obteno para cada indivduo em p. Alm disso, segundo Higuchi &
Carvalho Jr. (1994), a densidade da madeira (g/cm3) apresenta significativas variaes intra e
inter-especficas. Pelas mesmas razes, Overman et al. (1994) descartam esta varivel, apesar
do bom desempenho dos modelos que a contm.

Na tabela 4, onde visualizam-se as densidades de 12 rvores, observa-se que: a menor


densidade de 0,480 e a maior de 1,031; a densidade tende a diminuir no sentido base-topo;
a densidade mdia, considerando base-topo, de 0,756; e esta ltima varivel sempre menor
que a densidade mdia obtida na altura do DAP. A densidade mdia do DAP igual a 0,803,
que, por sua vez, diferente de todas as estimativas fornecidas por Foster Brown et al. (1995)
e a de Saldarriaga et al. (1988). As variaes no sentido casca-medula tambm so
significativas (Higuchi & Carvalho Jr., 1994).
(iii) Escolha do Melhor Modelo Estatstico:

Para a escolha do melhor modelo estatstico visando-se estimar a biomassa em p da


rea em estudo, foram adotados os procedimentos tradicionais da cincia florestal, que so:
maior coeficiente de determinao, menor erro padro de estimativa e melhor distribuio dos
resduos (Santos, 1996). Alm destes procedimentos, foram simuladas amostras de diferentes
intensidades, para testar a consistncia dos modelos na estimativa da biomassa. Foram
tomadas 15 amostras com 50 rvores selecionadas aleatoriamente do banco de dados original;
10 amostras com n = 100; 5 amostras com n = 200; e 5 amostras com n = 300.
Resultados e Discusso:

Do trabalho de Higuchi & Carvalho Jr. (1994), as seguintes informaes quantitativas


do stio estudado so importantes para uma melhor interpretao destes resultados e para
futuras comparaes com outros stios:
- Em uma parcela fixa de 2.000 m2, o peso da biomassa fresca distribui-se da seguinte
maneira, em relao ao peso total: a vegetao (exceto cips) com DAP5 cm contribui com
86,9% do peso total; a vegetao com DAP<5 cm contribui com 2,4%; os cips contribuem
com 1,3% e a liteira (toda a vegetao morta sobre a superfcie do solo) contribui com 9,4%.
- Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%),
galhos finos (47%), folhas (39%), plntulas - at 50 cm de altura - (47%), mudas - altura>50
cm e DAP<5 cm - (49%), cips (48%) e liteira (39%).
Os coeficientes de regresso e de determinao e os erros padres de estimativa de
todos os quatro modelos estatsticos testados (rvores com DAP5 cm), incluindo as
variaes (a) para rvores com 5DAP<20 cm e (b) DAP20 cm, verificam-se na tabela 5. De
um modo geral, os quatro modelos (incluindo as variaes a e b) esto aprovados nos quesitos
coeficiente de determinao (r2) e erro padro de estimativa (sy.x) e, por esta razo, poderiam
ser utilizados para estimar a biomassa de rvores em p da rea em estudo.
Todos os modelos apresentam coeficientes de correlao (r) altamente significantes
(<0,01). De um modo geral, os modelos nicos para rvores com DAP 5 cm apresentam
os maiores coeficientes de determinao (r2), exceto para o modelo 3. Com relao ao (sy.x), o
modelo 4 o que tem o melhor desempenho, apresentado os menores erros, seguido do
modelo 2. Combinando as equaes a e b, no mesmo banco de dados, os erros (em
quilogramas) produzidos foram: 949, 693, 356 e 537, respectivamente para os modelos 1, 2, 3
e 4. Nesta situao, o melhor desempenho do modelo 3, seguido do modelo 4.
O exame da distribuio dos resduos mostra que os modelos 1, 2 e 3 no apresentam
nenhum padro, distribuindo-se aleatoriamente ao longo do eixo da biomassa observada e
estimada, ordenada de forma crescente pela varivel DAP. O modelo 4, no entanto, apresenta
um claro padro, aumentando os desvios conforme aumentam os DAPs.
As equaes resultantes so:
Modelo 1:

- Equaes a & b: (a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm


(b) ln P = -0,151 + 2,170 ln D; para DAP20 cm
- Equao nica: ln P = -1,497 + 2,548 ln D; para para DAP5 cm
Modelo2:

- Equaes a & b: (a) ln P = -2,668 + 2,081 ln D + 0,852 ln H; para 5DAP<20


(b) ln P = -2,088 + 1,837 ln D + 0,939 ln H; para DAP20 cm
- Equao nica: ln P = -2,694 + 2,038 ln D + 0,902 ln H; para DAP5 cm
Modelo 3:

- Equaes a & b: (a) P = 0,0056 + 0,621 D2H; para 0,05DAP<0,20 m


(b) P = 0,393 + 0,473 D2H; para DAP0,20 m
- Equao nica: P = 0,077 + 0,492 D2H; para DAP0,05 m
Modelo 4:

- Equaes a & b: (a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm


(b) P = 0,0009 * D1,585*H2,651; para DAP20 cm
- Equao nica: P = 0,001 * D1,579*H2,621; para DAP5 cm
A verificao da consistncia de cada um dos modelos estatsticos para estimar a
biomassa em p, sobre amostras simuladas (tiradas aleatoriamente do banco de dados
original), encontram-se na tabela 6. Nesta tabela verificam-se as mdias observadas e
estimadas em cada simulao. A anlise feita sobre o afastamento da mdia estimada em
relao observada, em percentagem, utilizando-se equaes distintas para estimar a
biomassa de rvores com 5DAP<20 cm e DAP20 cm e uma nica equao para todas as
rvores contidas na amostra com DAP5 cm.
(i) Modelo 1:

- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a


mdia estimada afasta-se -1,9% da mdia observada, ou seja, o desvio7 de -1,9%. Quando
utiliza-se uma s equao para estimar a biomassa das duas classes de dimetro, o
desempenho anterior no repetido, apresentando um desvio de +16%. Excepcionalmente, na
simulao com n = 50, o uso de uma s equao resulta em um desvio mdio de +2,8%, que
poderia ser considerado bom se no fosse a amplitude de variao entre o menor e o maior
desvio, que foi de 0,1 a 24,9%.
- Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n
= 300, n = 200 e n = 100, respectivamente, com desvios de -1,9% (1,6 e 2,3, menor e maior
desvio, em valores absolutos), +0,5% (2,7 e 11,6) e +2,6% (3,7 e 22,1). A simulao com n =
50, o desvio mdio de -10,2%.
- A equao nica para estimar a biomassa, usando este modelo estatstico, no
alternativa para as duas equaes, ou seja, o uso deste modelo requer as duas equaes para
estimar a biomassa de rvores com 5DAP<20 cm e DAP20 cm, separadamente.
7

Desvio afastamento, em %, do peso mdio estimado pelas diferentes equaes, em relao ao


peso mdio observado. Entre parntesis, os desvios aparecem em valores absolutos e o primeiro
sempre o menor e, o segundo, o maior desvio.

- Trata-se de um modelo com apenas o DAP como varivel independente, que uma
varivel fcil de ser medida no campo, sem erros no amostrais. O nico problema deste
modelo que o peso ser sempre o mesmo, para um determinado dimetro,
independentemente da altura da rvore, da espcie e de outros atributos da rvore.
(ii) Modelo 2:

- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a


mdia estimada afasta-se -3,6% da mdia observada. Quando utiliza-se uma s equao para
estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o
anterior, com desvio de +2,9%.
- Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n
= 300, n = 200 e n = 100, respectivamente, com desvios de -3,6% (3,2 e 4,3, menor e maior
desvio, em valores absolutos), -1,8% (5,2 e 6,7) e -1,1% (0,9 e 12,7). A simulao com n =
50, o desvio mdio de 9,4%. O uso de uma s equao tem um desempenho razovel para
todas as simulaes, que exceto para n = 50, apresenta desvio menor do que quando se
utilizam as equaes a e b.
- Apesar do bom desempenho da equao nica, em relao aos desvios mdios, onde
as diferenas so negligveis, as amplitudes de variao dos mesmos nas equaes a e b so
menores, sendo, por esta razo, mais apropriadas para a estimativa da biomassa.
- A incorporao da altura total neste modelo permite estimar diferentes pesos para
iguais DAPs, ao contrrio do modelo 1.
(iii) Modelo 3:

- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a


mdia estimada afasta-se +1,2% da mdia observada. Quando se utiliza uma s equao para
estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o
anterior, com desvio de +0,1%. Apesar de um claro padro na distribuio dos resduos, este
modelo tem uma boa capacidade de compensao quando se utiliza todo o banco de dados,
tanto com as equaes a e b como com a equao nica para as duas classes de dimetro.
- Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n
= 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de +1,2% (0,4 e 1,6, menor e
maior desvio, em valores absolutos), +3,1% (1,1 e 1,7), +3,8% (0,8 e 20,3) e -4,8% (0,4 e
19,4). O uso de uma s equao tem um desempenho to consistente quanto ao anterior, com
desvios de +0,1% (0,2 e 0,9), +2,2% (0,6 e 11,5), +2,4% (0,7 e 17,6) e -6,8% (0,4 e 16,2),
respectivamente para n = 300, n = 200, n = 100 e n = 50.
- A equao nica para este modelo a melhor alternativa para estimar a biomassa,
principalmente considerando apenas a estimativa da biomassa mdia de uma parcela fixa, sem
preocupar-se com as estimativas individuais. Em todos os tamanhos da amostragem, esta
equao demonstrou-se bastante consistente e precisa.
- Sem preocupar-se com as estimativas individuais, prestando ateno apenas no total
ou na mdia das parcelas fixas, este o melhor modelo entre os testados. De um modo geral,
este modelo superestima o peso das menores classes de dimetro. Para grandes inventrios
para estimativa de biomassa, este modelo o mais preciso.
(iv) Modelo 4:

- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a


mdia estimada afasta-se -4,6% da mdia observada. Quando utiliza-se uma s equao para

estimar a biomassa das duas classes de dimetro, o desempenho anterior no repetido, com
desvio de -7,3%.
- Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n
= 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de -4,3% (3,4 e 5,1, menor e
maior desvio, em valores absolutos), +0,3% (0,6 e 3,7), -4,0% (1,2 e 7,6) e -7,7% (4,2 e 16,1).
O uso de uma s equao tem um desempenho inferior a todos os outros modelos testados e,
por esta razo, no uma alternativa para as duas equaes. Neste caso, a opo tem que ser
pelas duas equaes, 4 a para rvores com 5DAP<20 cm e 4b para DAP20 cm.
- De todos os modelos testados, este modelo o que apresenta as menores amplitudes
de variao, demonstrando uma boa consistncia na estimativa da biomassa. um modelo
bastante conservador e que apresenta poucas surpresas na estimativa da biomassa das
diferentes classes de dimetro.
Consideraes finais:

1. Os quatro modelos estatsticos testados produzem estimativas confiveis de


biomassa de rvore em p, todos com desvios inferiores a 5% em relao mdia.
2. As equaes distintas para rvores com 5DAP<20 cm e com DAP20 cm so
mais consistentes que a equao nica para todas as rvores com DAP5 cm.
3. Dentre os modelos testados, os melhores so os modelos 1 e 4, respectivamente com
as seguintes equaes:
(a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm
(b) ln P = -0,151 + 2,170 ln D; para DAP20 cm

e
(a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm
(b) P = 0,0009 * D1,585*H2,651; para DAP20 cm

- O modelo 1 tem a vantagem de ser dependente de apenas uma varivel, o


DAP, que uma varivel fcil de ser medida no campo, com poucos riscos de erros no
amostrais;
- O modelo 4 tem a vantagem de ser muito consistente e de poder estimar mais
realisticamente rvores individuais, com mesmos DAPs e diferentes alturas. Alm disso, este
modelo j foi preliminarmente utilizado por Arajo (1995), em Tom-Au (Par), para
confrontar com os resultados obtidos pelo mtodo direto. Em Tom-Au, a biomassa estimada
por este modelo ficou tambm a menos de 5% da observada.
4. A eficincia das equaes est associada utilizao de parcelas fixas para o
inventrio de biomassa de um determinado stio, com as dimenses mnimas recomendadas
para os inventrios florestais na Amaznia.
5. O peso do tronco seco corresponde a 61% de seu peso antes da secagem; e o da
copa corresponde a 58% de seu peso fresco.
6. Do peso total de uma rvore, 65,6% tronco e 34,4% copa. A contribuio de
cada compartimento da rvore em seu peso total a seguinte: tronco (65,6%), galho grosso
(17,8%), galho fino (1,5%), folhas (2,03%) e flores/frutos (0,01%).
7. Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%),
galhos finos (47%) e folhas (39%).

Tabela 1: Algumas estimativas de biomassa para a floresta densa da Amaznia brasileira*.


Tipo de floresta
Densa (RADAMBRASIL)

local
Amaznia

biomassa (t)
fonte
268
Brown & Lugo (1992a) ) cf.
fonte*
Densa (FAO)
Amaznia
162
Brown & Lugo (1992a) - cf.
fonte*
Densa (RADAMBRASIL)
Amaznia
289
Brown & Lugo (1992b) - cf.
fonte*
Densa (FAO)
Amaznia
227
Brown & Lugo (1992b) - cf.
fonte*
Densa (presente)
Amaznia
12.3
Fearnside (1992a) - cf. fonte*
Densa (presente)
Amaznia
319.9
Fearnside (unpub. 1993) - cf.
fonte*
(*) Fonte: parcialmente reproduzida de Fearnside et al. (1993)
Tabela 2: Banco de Dados de Biomassa, do INPA (n = 315).
(a) Distribuio de Freqncia dos Dados Observados (n = 315).
Limites de classe
5 < 10
10 < 20
20< 30
30< 40
40< 50
50< 60
60< 70
70< 80
80< 90
90< 100
100< 110
110< 120
120
total

Freq.
154
90
28
18
9
8
3
3
0
1
0
0
1
315

%
48,89
28,57
8,89
5,71
2,86
2,54
0,95
0,95
0,32
0,32
100

(b) Estatstica Descritiva dos Dados Observados:


varivel
DAP (cm)
H-total (m)
H-com (m)
P-tronco (kg)
P-copa (kg)
P-total (kg)
copa (%)

mdia
16,0
17,0
10,7
476,3
306,4
782,7
31

desvio
15,3
7,7
5,2
1299,3
1031,5
2271,1
1

CV(%)
96
45
49
273
337
290
45

Mnimo
5,0
5,6
2,4
4,5
0,6
9,1
2

mximo
120,0
41,4
26,1
12736,5
12897,9
25634,4
70

(c) Estatstica Descritiva dos Dados Observados, Divididos em Algumas Classes de Dimetro:
Classes de
dimetro
5 < 10
10 < 15
15 < 20
20 < 30
30 < 50
>= 50

nmero
casos
154
62
28
28
27
16

DAP
mdia
CV(%)
7,0
20
12,0
12
17,5
9
23,6
11
37,2
1
65,9
29

altura Total
mdia
CV(%)
11,4
27
16,4
20
20,8
18
23,7
1
29,3
11
34,1
10

Peso Total
mdia
CV(%)
35,7
68
15,0
42
407,5
34
852,0
43
2449,2
35
8205,4
72

Tabela 3: Dados Utilizados para estudos de Nutrientes (n = 38).


(a) Estatstica Descritiva dos Dados Observados:
varivel
DAP (cm)
alt. total (m)
alt. com (m)
P-tronco (kg)
P-copa (kg)
P-total (kg)
copa (%)

mdia
39,9
28,8
17,3
217,4
1595,3
3742,6
34

desvio
20,3
6,0
3,7
2449,1
2429,5
3005,4
1

CV(%)
51
56
22
11
152
128
22

Mnimo
9,5
11,4
7,5
48,7
15,2
63,9
9

mximo
98,0
41,4
25,0
12736,5
12898,3
25634,4
63

(b) Contribuio de cada compartimento (tronco, galho grosso, galho fino, folhas e flor/frutos)
no peso total de uma rvore e % do PF de cada um que transformado em PS:
PESOS

tronco
g.grosso
g.fino
folhas
flor/frutos
TOTAL
m
217,36 1109,68
434,24
50,30
1,07
3742,61
VERDE
s
2449,1 1985,66
432,65
48,87
5,41
4793,77
n
38
38(34)
38
38
38(8)
38
m
65,60
17,83
1,52
2,03
0,01
% total
s
1,19
1,43
7,21
1,28
0,03
n
38
38(34)
38
38
38(8)
m
101,65
665,63
246,64
23,58
0,80
2238,30
SECO
s
1552,45 1243,55
253,6
23,01
4,60
3005,38
n
38
38(34)
38
38
38(8)
38
m
61,11
60,56
57,22
47,56
36,73
60,28
% PF
s
8,27
7,98
5,75
7,21
20,62
7,41
n
38
34
38
38
8
38
m = mdia aritmtica; s = desvio padro amostral; n = nmero de observaes.
% total = contribuio do peso de cada compartimento da rvore em relao ao seu peso total.
% PF = % do Peso Fresco da rvore ou do compartimento que corresponde ao Peso Seco.

Tabela 4: Informaes sobre Densidade da Madeira.


Espcie
1
2
3
4
5
6
7
8
9
10
11
12
mdia
desvio
mn.
mx.

0%
0,856
0,696
0,879
0,536
0,681
0,818
0,725
1,027
0,891
0,571
1,077
0,891
0,804
0,167
0,536
1,077

25%
0,790
0,697
0,903
0,521
0,678
0,807
0,707
0,990
0,870
0,533
1,033
0,870
0,783
0,163
0,521
1,033

50%
0,757
0,683
0,866
0,509
0,640
0,806
0,711
0,946
0,862
0,485
1,000
0,807
0,756
0,159
0,485
1,000

75%
0,753
0,650
0,741
0,499
0,640
0,653
0,693
0,929
0,862
0,445
0,987
0,716
0,71
0,159
0,445
0,987

100%
0,718
0,684
0,724
0,471
0,615
0,704
0,704
0,961
0,846
0,367
1,056
0,846
0,725
0,191
0,367
1,056

mdia
0,775
0,682
0,823
0,507
0,651
0,758
0,708
0,971
0,866
0,480
1,031
0,826
0,756
0,165
0,480
1,031

DAP
0,824
0,706
0,91
0,546
0,700
0,838
0,717
1,015
0,896
0,528
1,059
0,896
0,803
0,168
0,528
1,059

Tabela 5: Coeficientes de Regresso e de Determinao, Erro Padro de Estimativa dos


Modelos Estatsticos para Estimar a Biomassa (Peso total) de rvores em p.
b1
B2
r2
Modelo
b0
1
-1,497
2,548
0,97
1a
-1,754
2,665
0,92
1b
-0,151
2,170
0,90
2
-2,694
2,038
0,902
0,98
2a
-2,668
2,081
0,852
0,95
2b
-2,088
1,837
0,939
0,91
3
0,077
0,492
0,90
3a
0,0056
0,621
0,94
3b
0,393
0,473
0,86
4
0,001
1,579
2,621
0,94
4a
0,0336
2,171
1,038
0,94
4b
0,0009
1,585
2,651
0,92
b0, b1 e b2 = estimadores dos parmetros 0, 1 e 2, respectivamente.
r 2 = coeficiente de determinao ajustado
ry.x = erro padro de estimativa.

sy.x
1729
43
2035
812
35
197
716
34
1508
540
31
1159

- modelo 1: ln Pi = b0 + b1 ln Di; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para
5DAP<20 cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71.
- modelo 2: ln Pi = b0 + b1 ln Di + b2 ln Hi; sendo (2) para DAP5 cm e i = 1,..., 315; (2a) para
5DAP<20 cm e i = 1,..., 244; e (2b) para DAP20 cm e i = 1,..., 71.
- modelo 3: Pi = b0 + b1 Di2Hi; sendo (3) para DAP0,05 m e i = 1,..., 315; (3a) para
0,05DAP<0,20 m e i = 1,..., 244; e (3b) para DAP 0,20 m e i = 1,..., 71.
- modelo 4: Pi = b0 D b1 H b2; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para 5DAP<20
cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71.

Tabela 6: Resumo das simulaes utilizando diferentes intensidades de amostragem (tomadas


aleatoriamente do banco de dados).
Biomassa
(observada e estimada)
observada
banco de dados
modelo 1
modelo 2
(n = 315)
modelo 3
modelo 4
observada
amostra com n = 300
modelo 1
modelo 2
(5 repeties)
modelo 3
modelo 4
observada
amostra com n = 200
modelo 1
modelo 2
(5 repeties)
modelo 3
modelo 4
observada
amostra com n = 100
modelo 1
modelo 2
(10 repeties)
modelo 3
modelo 4
observada
amostra com n = 50
modelo 1
modelo 2
(15 repeties)
modelo 3
modelo 4

Observada
equaes a & b
equao nica
782,7
768,2 [ -1,9 ]
907,7 [+16,0 ]
754,6 [ -3,6 ]
805,2 [ +2,9 ]
792,1 [ +1,2 ]
783,3 [ +0,1 ]
746,9 [ -4,6 ]
725,3 [ -7,3 ]
794,1
779,1 [ -1,9 ]
924,1 [ +16,4 ]
765,5 [ -3,6 ]
817,0 [ +2,9 ]
803,3 [ +1,2 ]
794,7 [ +0,1 ]
760,2 [ -4,3 ]
738,9 [ -7,0 ]
784,2
788,3 [ +0,5 ]
944,2 [ +20,4 ]
770,0 [ -1,8 ]
826,4 [ +5,4 ]
808,1 [ +3,1 ]
801,3 [ +2,2 ]
786,3 [ +0,3 ]
740,2 [ -5,6 ]
844,8
866,9 [ +2,6 ]
1052,4 [ +24,6 ]
835,4 [ -1,1 ]
900,5 [ +6,6 ]
876,6 [+3,8 ]
865,1 [ +2,4 ]
811,3 [ -4,0 ]
790,8 [ -6,4 ]
836,2
750,8 [ -10,2 ]
859,3 [ +2,8 ]
757,2 [ -9,4 ]
799,8 [ -4,4 ]
795,8 [ -4,8 ]
779,1 [ -6,8 ]
771,8 [ -7,7 ]
750,8 [ -10,2 ]

Bibliografia

Arajo, T.M. 1995. Investigao das Taxas de Dixido de Carbono Gerado em Queimadas na
Regio Amaznica. Tese de Doutorado, Universidade Estadual Paulista, Faculdade de
Engenharia de Guaratinguet, 212 p..
Brown, S., A.J.R. Gillespie e A.E. Lugo. 1989. Biomass Estimation Methods for Tropical
Forests with Applications to Forest Inventory Data. Forest Science, 35(4):881-902.
Carvalho Jr., J.A., J.M. Santos, J.C. Santos, M.M. Leito e N. Higuchi. 1995. A Tropical
Rainforest Clearing Experiment by Biomass Burning in the Manaus Region. Atmospheric
Environment 29(17):2301-2309.
Fearnside, P.M., N. Leal Filho e F.M Fernandes. 1993. Rainforest Burning and the Global
Budget: Biomass, Combustion Efficiency, and Charcoal Formation in the Brazilian
Amazon. J. of Geophysical Research, 98(D9):16733-16743.
Fearnside, P.M. 1996. Amazonian Deforestation and Global Warming: Carbon Stocks in
Vegetation Replacing Brazils Amazon Forest. Forest Ecology and Management 80:2134.
Foster Brown, I., D.C. Nepstad, I.O. Pires, L.M. Luz e A.S. Alechandre. 1992. Carbon
Storage and Land-use in Extractive Reserves, Acre, Brazil. Environmental Conservation
19(4):307-315.
Foster Brown, I., L.A. Martinelli, W. Wayt Thomas, M.Z. Moreira, C.A. Cid Ferreira e R.A.
Victoria. 1995. Uncertainty in the Biomass of Amazonian Forests: an Example from
Rondnia, Brazil. Forest Ecology and Management, 75:175-189.
Higuchi, N. e J.A. Carvalho Jr. 1994. Fitomassa e Contedo de Carbono de Espcies Arbreas
da Amaznia. Em: Anais do Seminrio Emisso x Seqestro de CO2 - Uma Nova
Oportunidade de Negcios para o Brasil:127-153.
Higuchi, N., J.M. dos Santos, M. Imanaga e S. Yoshida. 1994. Aboveground Biomass
Estimate for Amazonian Dense Tropical Moist Forests. Memoirs of the Faculty of
Agriculture, Kagoshima, 30(39):43-54.
Overman, J.P.M., H.J.L. Witte e J.G. Saldarriaga. 1994. Evaluation of Regression Models for
Above-ground Biomass Determination in Amazonia Rainforest. Forest Ecology and
Management, 10:207-218.
Saldarriaga, J.G., D.C. West, M.L. Tharp e C. Uhl. 1988. Long-term Chronosequence of
Forest Sucession in the Upper Rio Negro of Colombia and Venezuela. Journal of Ecology
76:938-958.
Salomo, R.P., D.C. Nepstad e I.C.G. Vieira. 1996. Como a Biomassa de Florestas Tropicais
Influi no Efeito Estufa. Cincia Hoje, 21(122):38-47.
Santos, J. dos. 1996. Anlise de Modelos de Regresso para Estimar a Fitomassa da Floresta
Tropical mida de Terra-firme da Amaznia Brasileira. Tese de Doutorado,
Universidade Federal de Viosa, 121 p..
Schroeder, P.E. e J.K. Winjum. 1995. Assessing Brazils Carbon Budget: II. Biotic Fluxes
and Net Carbon Balance. Forest Ecology and Management, 75(87-99).
Skole, D.L., W.H. Chomentowski, W.A. Salas e A.D. Nobre. 1994. Physical and Human
Dimensions of Deforestation in Amazonia. BioScience, 44(5):31-321.

Captulo 17
Cadeia de Markov para predizer a dinmica da floresta amaznica
17.1. Introduo:
Estudar a dinmica da floresta tropical mida amaznica, manejada ou no, um
grande desafio para os florestais. Os modelos clssicos de produo florestal foram
desenvolvidos para florestas temperadas e tm como principais variveis, o ndice de stio e
idade da rvore ou do povoamento (Sullivan e Clutter, 1972; Ferguson e Leech, 1978; Alder,
1980; Smith, 1983 e Clutter et al., 1983). Essas duas variveis so limitantes para o
desenvolvimento de modelos de produo para as florestas da Amaznia porque so
praticamente indisponveis para o setor florestal, num curto prazo. Apesar de inmeras
tentativas, por meio da dendrocronologia ou da datao com 1C, a determinao das idades
das inmeras espcies que ocorrem numa determinada rea, continua sendo um grande
obstculo para a cincia florestal.
Sem a idade da rvore ou do povoamento ou com muita dificuldade para obte-la, a
alternativa prognosticar a dinmica da floresta com o uso de parcelas permanentes. Na
Amaznia, entretanto, as parcelas instaladas e devidamente monitoradas so poucas, mal
distribudas e recentes (as mais antigas esto na Flona de Tapajs, desde 1978). Considerando
que as idades de rvores com DAP > 50 cm, na regio de Manaus, podem variar de 200 a 100
anos, segundo Chambers et al. (1998), 20-30 anos de observaes podem parecer insuficientes
para descrever, com confiana, a dinmica de uma floresta da Amaznia.
Apesar de todas essas dificuldades, aproximadamente 1 milho de hectares de floresta
amaznica so manejados, anualmente, para produo madeireira sob algum tipo de manejo
em regime de rendimento sustentvel. difcil imaginar como os empresrios florestais vo
planejar os ciclos de corte subseqentes, sem um modelo de produo. Se nada for feito, o
manejo florestal tomar a mesma forma da agricultura itinerante. A melhor sada para esta
situao usar modelos de curto prazo que dependem exclusivamente da situao
imediatamente anterior ao atual, tendo como objetivo a projeo apenas para uma situao
imediatamente posterior. Dentre os vrios modelos disponveis, o que melhor se ajusta s
caractersticas das florestas da Amaznia, a cadeia de Markov.

17.2. Cadeia de Markov:


A cadeia de Markov de primeira ordem um processo estocstico no qual as
probabilidades de transio durante o intervalo de tempo (t e t+1) dependem apenas no estado
do indivduo no tempo t ou no conhecimento do passado imediato no tempo t+1 e no em
qualquer outro estado prvio (Horn, 1975; Chiang, 1980 e Bruner e Moser, 1973). Shugart
(1984) enfatiza que a natureza invarivel em tempo de cada uma das probabilidades de
transio uma importante caracterstica da cadeia de Markov, tendo muita afinidade com o
comportamento dos ecossistemas florestais.
De acordo com Bierzychudek (1982), um modelo de matriz de transio um modelo
classificado em tamanho ou uma forma da matriz de Leslie. A nica exigncia deste modelo
divisibilidade da populao em grupo de estados e que existam probabilidades de movimento
de um estado para outro, com o passar do tempo (Enright e Ogden, 1979).
Shugart e West (1981) apontam que a importncia do entendimento dos ecossistemas
florestais no baseada nas idades, mas sim nas mudanas conhecidas no presente. Os
modelos determinsticos consistindo de uma simples funo matemtica (linear, polinomial ou

exponencial) no demonstraram ainda que so comprovadamente adequados, quando sries de


tempo so envolvidas (Morrison, 1976).
Segundo Enright e Ogden (1979), nas florestas tropicais, o atributo tamanho pode ser
mais importante do que a idade. Uma razo para isso que o tamanho pode ser mais
ecologicamente informativo do que a idade, quando esta difcil de ser obtida com preciso.
Alm disso, segundo ainda os mesmos autores, a diviso de ciclos de vida em estgios de
desenvolvimento pode permitir a predio do comportamento futuro mais precisamente do
que a diviso em puras classes de idade. Usher (1966) usou o atributo tamanho no lugar da
idade para desenvolver um modelo para o manejo de recursos renovveis. Ele afirma que um
organismo que est na i-sima classe no tempo t, pode permanecer na mesma classe, mudar
para a classe seguinte (mais de uma classe tambm) ou morrer, no tempo t+1.
Os modelos que usam matriz de transio so apropriados para anlise de muitos
problemas biolgicos, principalmente em estudos relacionados com a dinmica da floresta
(Enright e Ogden, 1979). Esses modelos tm sido usados intensivamente em estudos de
dinmica de populaes de plantas ou animais em vrias regies do mundo. Alguns exemplos
so: a demografia do jack-in-the-pulpit em Nova York (Bierzychudek, 1982); dinmica
florestal de uma populao de Araucaria numa floresta tropical mida de Papua Nova Guinea
e Nothofagus em floresta montana temperada da Nova Zelndia (Enright e Ogden, 1979);
sucesso de trmitas em Gana (Usher, 1979); sucesso florestal na Nova Jersey (Horn, 1975);
aplicao da Cadeia de Markov em estudos de dinmica florestal em florestas tropicais
(Acevedo, 1981) e a aplicao de Markov para predizer o desenvolvimento de um
povoamento florestal (Usher, 1966; Usher, 1969, Bruner e Moser, 1973; Peden et al., 1973 e
Buogiorno e Michie, 1980).
Alder (1980) tambm descreve a matriz de transio como uma possvel ferramenta
para anlise de dados de crescimento e incremento de povoamentos multianos de florestas
tropicais mistas. Na regio de Manaus, Higuchi (1987) usou Markov para estudar a dinmica
das parcelas testemunhas do projeto de manejo florestal (Projeto Bionte) e Rocha (2001) nos
transectos do projeto Jacaranda. A maioria dos trabalhos citados anteriormente inclui revises
razoveis da teoria do mtodo de Markov. H tambm outras leituras teis sobre o assunto,
como Grossman e Turner (1974), Chiang (1980) e Anderson e Goodman (1957).
3. Aplicao de Markov aos dados das parcelas permanentes da ZF-2:
Primeiro vamos considerar: (i) estados i e j = 1, 2, ..., m; (ii) tempos de observao t =
0, 1, .., T; (iii) p ij (t+1) (i, j = 1, 2, ..., m) = probabilidade do estado j no tempo t+1, dado o
estado i no tempo t.
Um processo Markov considerado homogneo em relao ao tempo ou tempo
homogneo, se a probabilidade de transio
p ij (t, t+1) = Pr [x(t+1) = j | x(t) = i], para i, j = 1, 2, ...., m.
depender apenas da diferena entre t e t+1, mas no de t e t+1 separadamente (Chiang, 1980).
A montagem da matriz comea com o clculo de
p ij = n ij / n j
onde: n ij = nmero de indivduos na classe j no tempo t+1, dada a classe i no tempo t e n j =
nmero total de indivduos na classe i no tempo t.
A matriz de transio probabilstica de uma cadeia de Markov para um processo de n
estados pode ser montada da seguinte maneira:

P = (p ij) =

i=1
i=2
i =3
.
.
i=m

j=1
p11
p21
p31
.
.
pm1

sendo que as probabilidades p


igual a 1.

ij

j=2
p12
p22
p32
.
.
pm2

j=3
p1
p23
p33
.
.
pm3

......
......
......
......
.
.
......

j=m
p1m
p2m
p3m
.
.
pmm

so no-negativos e a soma de pi1 + pi2 + ... + pim deve ser

A probabilidade de transio p ij pode ser de n passos, tomando a forma de p ij (n) onde


n indica o nmero de tentativas, ou seja, a probabilidade que a populao vai de um estado i
de uma tentativa para o estado j, n tentativas depois.
Exemplo didtico: Projees da dinmica de Parcelas Permanentes usando Markov
(transectos Leste-Oeste e Norte-Sul)

No caso dos dados da parcela permanente do exemplo, vamos considerar 17 estados (i,
j = 1, 2, ...17), onde:
estado 1 = recrutamento (R)
estados de 2 a 16 = classes de dimetro. As classes de DAP so de 5-5 cm e vo de 10,
passando pela classe truncada DAP 75 at classe prxima depois de DAP 75. A
movimentao de uma classe para outra, no caso da classe DAP 75, pode ser uma rvore
com DAP = 78, em 2000, que passou para a classe seguinte (podendo ser DAP = 80 ou DAP
= 81), em 2004 ou tambm uma com DAP = 119, em 2000, que passou para a classe seguinte,
em 2004.
estado 17 = mortalidade (M)

so considerados: t = 2000 e t+1 = 2004.


Passos para o clculo matricial:

1. Matriz A (Quadro 1) => transio entre a 1 ocasio (2000) e 2 ocasio (2004) => tabelas
dinmicas do Excel (V. Box). Daqui uns 10 anos, bem provvel que algum no veja
nenhuma importncia nas instrues contidas no Box por achar completamente obsoleta.
Hoje, em 2007, apesar deste recurso ser pouco conhecido pelos florestais, um poderoso e
prtico instrumento para organizar os dados. Quando se trabalha com parcelas permanentes,
re-medidas em vrias ocasies sucessivas, a tabela dinmica serve tambm para conferir o
arquivo de dados. A matriz A simtrica; portanto, h 19 colunas e 19 linhas.
1.1. => total 1 ocasio = (total, freqncia da linha 19 e coluna 19 ou f19,19 =6251)
menos recrutas (R, linha 3 e coluna 19 ou f3,19 = 396) = 5623
1.2. => total 2 ocasio = (total, f19,19 = 6251) menos mortas (M, f19,18 = 264) = 5987
2. Matriz B1 e B2 (Quadro 2) => probabilidades de mudanas de um estado (i) para outro (j).
A matriz de probabilidade repetida pra facilitar a multiplicao de matrizes no Excel.
Portanto B1 = B2.
2.1. Recrutas (R) => das 396 rvores recrutadas em 2004 => 385, 7 e 4,
respectivamente, foram recrutadas para a 1 classe (10<15), 2 (15<20) e 3 (20<25).
2.2. Probabilidades de 2.1. => 385/396, 7/396 e 4/396.

2.3. 1 classe (10<15) => das 2167 rvores que estavam na 1 classe na 1 ocasio
(2000) => na 2 ocasio (2004), 1869 permaneceram na 1 classe, 205 mudaram para a
2 classe, 2 passaram para a 3 classe e 91 morreram.
2.4. Probabilidades de 2.3. => 1869/2167, 205/2167, 2/2167 e 91/2167.
2.5. 2 classe (15<20) => das 1319 rvores que estavam na 2 classe na 1 ocasio
(2000) => na 2 ocasio (2004), 1126 permaneceram na 2 classe, 144 mudaram para a
3 classe, 1 passou para a 4 classe e 48 morreram.
2.6. Probabilidades de 2.5. => 1126/1319, 144/1319, 1/1319 e 48/1319.
3. Matriz de probabilidade 2 passos adiante (at 2004) => matriz de transio probabilstica
(Matriz B) elevada ao quadrado que resultar na Matriz C (Quadro 3). Se quiser 3 passos
adiante, a matriz de transio probabilstica ser elevada ao cubo.
3.1. Multiplicao de matrizes (B1*B2) => No Excel:
- blocar (passando o cursor em toda a sua extenso) um espao igual matriz
que ser multiplicada (Matriz B), ou seja, mesmo nmero de linhas e mesmo nmero
de colunas;
- ir ao menu Inserir, selecionar a opo Funo e escolher Matriz.Mult;
- definir matriz 1 (B1), blocando a matriz B;
- definir matriz 2 (B2), blocando novamente a matriz B e OK;
- truque pra ver o resultado (matriz C) => segurar juntos Ctrl, Shift e Enter
mantendo o cursor dentro da barra de funo (fx) que fica acima da planilha.
- Obs.: a matriz B no deve estar como frmula e sim como Somente Valores.
4. Projeo para 2008 => Matriz D (Quadro 4) =>
4.1. A multiplicao de matrizes (B1 e B2) no inclui a coluna TOTAL, portanto,
necessrio copi-la da Matriz A e col-la na Matriz C para facilitar o clculo da
freqncia esperada por classe (Matriz D);
4.2. A Matriz D calculada multiplicando a probabilidade de ocorrncia de rvores
em uma classe dois passos a diante (Matriz C) pelo nmero total de rvores daquela
classe. Ex.:
- classe 10<15 => C2*T2 = 0,8395 * 396 = 332,05
C3*T3 = 0,7439 * 2167 = 1612
- classe 15 < 20 => D2*T2 = 0,1071 * 396 = 42,39
D3*T3 = 0,1624 * 2167 = 351,81
D4*T4 = 0,7288 * 1319 = 961,24
e assim por diante para todas as classes.
4.3. O total da freqncia esperada por classe ou estado (que a projeo para 2008)
calculado da seguinte forma (dados da Matriz D):
- classe 10<15 => C2 + C3 = 332,05 + 1612 = 1944.
- classe 15<20 => D2 + D3 + D4 = 42,39 + 351,81 + 961,24 = 1355,5
e assim por diante para todas as classes.

4.4. Classe PRX. => esta classe criada apenas para descrever a dinmica das
rvores truncadas ao DAP 75 cm. No quadro com as freqncias esperadas (E) (5b)
a freqncia da classe PRX deve ser acrescentada classe DAP 75 cm. Portanto,
a freqncia esperada da classe DAP 75 cm deve ser somada da classe PROX:
- classe DAP 75 cm => Q19 + R19 = 11,56 + 4,407 = 15,963 (Quadro 5a)
5. Ajustes necessrios => a cadeia de Markov no faz projees do recrutamento. Portanto, h
necessidade de fazer ajustes para que a probabilidade de recrutamento das rvores em 2004
possa ser includa na projeo de 2008. Enquanto no tiver uma srie histrica de
recrutamento, o nico recurso usar o n de indivduos recrutados de uma ocasio para outra.
5.1. O ajuste feito com os dados do Quadro 5a: (prob do n de arv da 1 classe
prob da mortalidade da 1 classe) + (Total de recrutas de 2004 * projeo da 1 classe
para 2008). Ex.:
- classe 10<15 => (1944 86) + (396 * 0,9722) 2242,3
- classe 15<20 => (1355,5 47) + (396 * 0,0177) 1316
- classe 20<25 => (865,8 33) + (396 * 0,0101) 837
5.2. Para as classes onde no houve recrutamento em 2004, basta diminuir a prob do n
de arv da classe sem recrutamento prob da mortalidade dessa mesma classe. Ex.:
- classe 25<30 => 543,4 24 519
...
- classe DAP 75 cm => 15,96 - 3 13
6. Se 3 ocasies esto disponveis, o certo usar a mdia [ R = (R1+R2)/2 ], sendo que R1 o
n indivduos recrutados entre a 1 e 2 ocasio e R2 o n entre a 2 e 3 ocasio, ou seja,
seriam necessrios 3 inventrios.
7. Comparao entre freqncias esperadas (E), para 2008, fornecida pela Cadeia de Markov
e as freqncias observadas de fato em 2004 (Quadro 6) => teste qui-quadrado ( 2 ).
Neste exemplo, como o 2 tabelado com 13 graus de liberdade e p = 0,05 igual a
22,36, isso significa dizer que h fracas evidncias para afirmar que E seja diferente de O.
Usando p = 0,01, o valor de 2 igual a 27,69 e, do ponto de vista de estatstica, pode-se
afirmar que o teste no significante.
O certo seria usar um intervalo de tempo maior para fazer projees para um perodo
imediatamente posterior, para confirmar a eficincia de Markov. O exemplo foi usado para
comprovar que Markov eficiente para fazer projees da dinmica de uma floresta
manejada. Essa comprovao j tinha sido realizada em florestas no perturbadas (Rocha,
2001).

Bibliografia:
Acevedo, M.F. 1981. On Horns Markovian Model of Forest Dynamics with Particular Reference to
Tropical Forests. Theoretical Population Biology 19:230-250.

Alder, D. 1980. Forest Volume Estimation and Yield Prediction. V.2 Yield Prediction.
FAO Forestry Paper 22/2. 194 p.
Anderson, T.W. e L.A. Goodman. 1957. Statistical Inference about Markov Chains. Annals
of Mathematical Statistics 28:89-110.
Bierzychudek, P. 1982. The Demography of Jack-in-the-pulpit, a Forest Perennial that
Changes Sex. Ecol. Monographs 52(4):333-351.
Bruner, H.D. e J.W. Moser Jr.. 1973. A Markov Chain Approach to the Prediction of
Diameter Distributions in Uneven-aged Forest Stands. Can.J.For.Res. 3:409-417.
Buogiorno, J. e B.C. Michie. 1980. A Matrix Model of Unever-aged Forest Management.
Forest Science 26:609-625.
Chambers, J.Q., N. Higuchi e J.P. Schimel. 1998. Ancient Trees in Amazonia. Nature,
391:15-16.
Chiang, C.L. 1980. An Introduction to Stochastic Processes and their Applications. Robert E.
Krieger Publ. Co., Huntington, New York.
Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Enright, N. e J. Ogden. 1979. Applications of Transition Matrix Models in Forest Dynamics:
Araucaria in Papua New Guinea and Nothofagus in New Zealand. Australian J. of
Ecology 4:3-23.
Ferguson, I.S. e J.W. Leech. 1978. Generalized Least Squares Estimation of Yield Functions.
Forest Science 24:27-42.
Grossman, S.I. e J.E. Turner. 1974. Mathematics for the Biological Sciences. Macmillan Publ.
Co., Inc. New York. 512p.
Higuchi. N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor. MSU. 129p.
Horn, H.S. 1975. Markovian Properties of Forest Succession. In: Ecology and Evolution of
Communities (M. Cody e J. Diamond, editores), pp.196-211. Harvard University Press.
Cambridge, Mass.
Morrison, D.F. 1976. Multivariate Statistical Methods. McGraw-Hill Inc.. 415p.
Peden, L.M., J.S. Williams e W.E. Frayer. 1973. A Markov Model for Stand Projection.
Forest Science 19:303-31.
Rocha, R.M. 2001. Taxas de recrutamento e mortalidade da floresta de terra-firme da bacia do
rio Cueiras na regio de Manaus-AM. Dissertao de mestrado CFT-INPA. 49p.
Shugart, H.H. 1984. A Theory of Forest Dynamics: The Ecological Forest Succession
Models. Springer-Verlag Inc. New York. 278p.
Shugart, H.H. e D.C. West. 1981. Long-term Dynamics of Forest Ecosystems. Am. Scientist
69:647-652.

Smith, V.G. 1983. Compatible Basal Area Growth and Yield Models Consistent with Forest
Growth Theory. Forest Science 29:279-288.
Sullivan, A.D. e J.L. Clutter. 1972. A Simultaneous Growth and Yield Model for Loblolly
Pine. Forest Science 18:76-86.
Usher, M.B. 1966. A Matrix Approach to the Management of Renewable Resources, with
Special Reference to Selection Forests. J. of Applied Ecology 3(2):355-367.
Usher, M.B. 1969. A Matrix Model for Forest Management. Biometrics, June:309-315.
Usher, M.B. 1979. Markovian Approaches to Ecological Succession. J. of Animal Ecology
48:41-426.

Box 1

Tabela dinmica do Excel usando o mesmo arquivo de dados do T2-B2SB4.


Passos necessrios:

1. Neste arquivo h as seguintes colunas: nome comum da espcie, DAP90, DAP97 e DAP04
2. Inserir trs novas colunas entre DAP90 e DAP97, entre DAP97 e DAP04 e depois de
DAP04 e nomear como CD1, CD2 e CD3, respectivamente.
3. Clicar em DADOS => FILTRAR => AUTO-FILTRO => apenas para a transio entre
1990 e 1997. Para a transio entre 1997e 2004, o procedimento o mesmo.
4. Identificar as recrutas => so clulas que aparecem em branco ou zero na coluna do
DAP90 em DAPs registrados na coluna DAP97 => clicar em DAP90 e procurar branco e
zero e nomear com R na prpria coluna DAP90 e na coluna CD1 atribuir o cdigo 1 =>
para todas as rvores nessas condies.
5. Calcular as freqncias das classes 10<15, 15<20 ... at 65 => continuar com o
FILTRAR nas colunas DAP90 e DAP97. Comear com 1990 clicando em DAP90 e ir para
PERSONALIZAR. Lembrar que a primeira classe (10<15) o segundo estado. Em
PERSONALIZAR, a primeira condio maior ou igual a 10 (digitando) e a segunda
menor do que 15 (digitando). Depois de OK, digitar em CD1 o nmero da classe (2, neste
caso). Repetir isso at a ltima classe ( 65), que ser a classe nmero 1.
6. Identificar as mortas => so clulas que aparecem em branco ou zero na coluna do
DAP97 e tinham DAPs na coluna DAP90 => clicar em DAP97 e nomear com M na prpria
coluna DAP97 e na coluna CD2 atribuir o cdigo 15 => para todas as rvores nessas
condies.
7. Repetir passo 5 para DAP97. Em DAP97 tem que incluir a classe 1 (PRX). Neste caso, o
trabalho tem que ser feito manualmente (no olho), ou seja, tem que olhar para as colunas
DAP90 e DAP97 e verificar quais rvores que estavam na classe 1 em 1990 e mudaram de
classe em 1997.
8. Ir pra DADOS, clicar em FILTRAR e retirar o AUTO-FILTRO.
9. Em DADOS, clicar em RELATRIOS DE TABELA E GRFICOS DINMICOS e
seguir as instrues lgicas.
10. Pra ter a tabela dinmica:
- arrastar CD1 at a coluna onde est escrito solte campos de linha aqui
- arrastar CD2 at a linha onde est escrito solte campos de coluna aqui
- arrastar DAP97 em cima de solte itens de dados aqui

Quadro 1: Matriz (A) => transio do estado i para o estado j durante o perodo de 2000 a 2004.
A

estados

10 < 15

15 < 20

20 < 25

25 < 30

30 < 35

35 < 40

40 < 45

45 < 50

50 < 55

55 < 60

60 < 65

65 < 70

70 < 75

>=75

PROX

Total

385

396

10 < 15

1869

205

91

2167

15 < 20

1126

144

48

1319

20 < 25

711

104

33

853

25 < 30

419

59

24

502

30 < 35

276

59

26

361

35 < 40

195

23

10

228

40 < 45

119

27

155

10

45 < 50

72

14

93

11

50 < 55

36

46

12

55 < 60

28

41

13

60 < 65

19

28

14

65 < 70

12

17

15

70 < 75

15

18

16

>=75

15

27

17

PROX

18

19

Total

2254

1338

861

524

339

254

143

99

51

35

25

21

19

17

264

6251

Quadro 2: Matriz B (B1 e B2) transio probabilstica do estado i para o estado j durante o perodo de 2000 a 2004.
A
1

estados

T
Total

10 < 15

15 < 20

20 < 25

25 < 30

30 < 35

35 < 40

40 < 45

45 < 50

50 < 55

55 < 60

60 < 65

65 < 70

70 < 75

>=75

PROX

0,9722

0,0177

0,0101

10 < 15

0,8625

0,0946

0,0009

15 < 20

0,8537

0,1092

0,0008

20 < 25

0,8335

0,1219

0,0047

0,0012

25 < 30

0,8347

0,1175

30 < 35

0,7645

0,1634

0,1

35 < 40

0,8553

0,1009

40 < 45

0,7677

0,1742

0,0065

0,1

10

45 < 50

0,7742

0,1505

0,1

11

50 < 55

0,7826

0,1522

0,1

12

55 < 60

0,6829

0,1463

0,0244

0,1

13

60 < 65

0,6786

0,2857

14

65 < 70

0,7059

0,2353

0,1

15

70 < 75

0,8333

0,11

0,1

16

>=75

0,56

0,259

0,2

17

PROX

18

19

Total

Quadro 3: Matriz C ou [B]2 - Matriz de transio probabilstica dois passos adiante (at 2008)
A
1

estados

T
Total

10<15

15<20

20<25

25<30

30<35

35<40

40<45

45<50

50<55

55<60

60<65

65<70

70<75

>=75

PROX

0,0000

0,8385

0,1071

0,0112

0,0012

5E-05

1E-05

0,042

396

10<15

0,0000

0,7439

0,1624

0,0119

0,0002

4E-06

1E-06

0,0000

0,04

2167

15<20

0,0000

0,7288

0,1842

0,0146

0,0006

0,0001

0,0000

0,035

1319

20<25

0,0000

0,6948

0,2034

0,0218

0,0008

0,0019

0,0002

8E-06

0,0000

0,038

853

25<30

0,0000

0,6967

0,188

0,0192

0,0000

0,048

502

30<35

0,0000

0,5845

0,2647

0,0165

0,0000

0,062

361

35<40

0,0000

0,7315

0,1637

0,0176

0,0007

0,0000

0,043

228

40<45

0,0000

0,5894

0,2686

0,0362

0,001

0,0000

0,053

155

10

45<50

0,0000

0,5994

0,2344

0,0229

0,0000

0,068

93

11

50<55

0,0000

0,6125

0,223

0,0223

0,0037

0,0000

0,073

46

12

55<60

0,0000

0,4664

0,1992

0,0757

0,0057

0,0000

0,107

41

13

60<65

0,0000

0,4605

0,3956

0,0672

0,0000

0,041

28

14

65<70

0,0000

0,4983

0,3622

0,026

0,0000

0,055

17

15

70<75

0,0000

0,6944

0,154

0,0288

0,067

18

16

>=75

0,0000

0,3086

0,1440

0,103

27

17

PROX

18

19

Total

Quadro 4: Matriz D - Clculo das freqncias esperadas de cada classe ou estado


A

estados

10 < 15

15 < 20

20 < 25

25 < 30

30 < 35

35 < 40

40 < 45

45 < 50

0,000

332,056

42,397

4,454

0,493

0,019

0,005

16,577

10 < 15

0,000

1611,980

351,813

25,773

0,399

0,009

0,002

0,000

86,023

15 < 20

0,000

961,240

242,958

19,245

0,793

0,169

0,000

46,595

20 < 25

0,000

592,639

173,492

18,615

0,654

1,601

0,174

0,006

0,000

32,818

25 < 30

0,000

349,723

94,353

9,643

0,000

24,281

30 < 35

0,000

211,014

95,569

5,952

0,000

22,466

35 < 40

0,000

166,776

37,329

4,006

0,148

0,000

9,740
8,239

L
50 <
55

M
55 <
60

N
60 <
65

O
65 <
70

P
70 <
75

>=75

PROX

Total

40 < 45

0,000

91,361

41,632

5,615

0,152

0,000

10

45 < 50

0,000

55,742

21,795

2,130

0,000

6,332

11

50 < 55

0,000

28,174

10,259

1,024

0,171

0,000

3,372

12

55 < 60

0,000

19,122

8,169

3,103

0,235

0,000

4,371

13

60 < 65

0,000

12,893

11,076

1,882

0,000

1,149

14

65 < 70

0,000

8,471

6,157

0,444

0,000

0,928

15

70 < 75

0,000

12,500

2,778

0,519

1,204

16

>=75

0,000

8,333

3,889

2,778

17

PROX

18

19

Total

1944,036

1355,450

865,823

543,352

324,803

272,641

136,419

101,555

55,739

31,663

22,086

22,820

20,775

11,556

4,407

266,874

Quadro 5a: Dados para calcular 2008 (E).


CD
10 < 15
15 < 20
20 < 25
25 < 30
30 < 35
35 < 40
40 < 45
45 < 50
50 < 55
55 < 60
60 < 65
65 < 70
70 < 75
>=75

Prob
Arv
1944,04
1355,45
865,82
543,35
324,80
272,64
136,42
101,55
55,74
31,66
22,09
22,82
20,77
15,96

Prob
Mort
86,02
46,60
32,82
24,28
22,47
9,74
8,24
6,33
3,37
4,37
1,15
0,93
1,20
2,78

proj
0,97
0,02
0,01

Quadro 5b: Freqncias esperadas (E) para 2008 incluindo ajustes feitos para o recrutamento
(R)
Estado
CD
10 < 15
15 < 20
20 < 25
25 < 30
30 < 35
35 < 40
40 < 45
45 < 50
50 < 55
55 < 60
60 < 65
65 < 70
70 < 75
>=75
Prxima
Total

rvores
2000
2167
1319
853
502
361
228
155
93
46
41
28
17
18
27
5855

2004 (O)
2254
1338
861
524
339
254
143
99
51
35
25
21
19
17
7
5987

2008 (E)
2243,0
1315,9
837,0
519,1
302,3
262,9
128,2
95,2
52,4
27,3
20,9
21,9
19,6
13,2
5857,6

Mortalidade
2004
2008
(O)
(E)
91
86,02
48
46,60
33
32,82
24
24,28
26
22,47
10
9,74
8
8,24
7
6,33
3
3,37
6
4,37
1
1,15
1
0,93
1
1,20
5
2,78
264

250

Quadro 6: Comparao entre freqncias observadas (O) e esperadas (E) em 2008.

estado
10 < 15
15 < 20
20 < 25
25 < 30
30 < 35
35 < 40
40 < 45
45 < 50
50 < 55
55 < 60
60 < 65
65 < 70
70 < 75
>=75
Total

O
2254
1338
861
524
339
254
143
99
51
35
25
21
19
24
5987

E
2243
1316
837
519
302
263
128
95
52
27
21
22
20
13
5859

2tab 0,05;13gl = 22,36


2tab 0,01;13gl = 27,69
P

2
0,05
0,37
0,69
0,05
4,45
0,30
1,71
0,15
0,04
2,18
0,79
0,04
0,02
2,08
20,13
P

Você também pode gostar