Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila Biometria
Apostila Biometria
BIOMETRIA FLORESTAL
Manaus AM
Maro, 2008
PARTE 1
Um pouco de filosofia.
- Aristteles escreveu: A verdade um alvo to grande que dificilmente algum deixar de toc-lo, mas, ao mesmo tempo, ningum ser capaz de acert-lo em cheio, num s tiro. - A meta da cincia a organizao sistemtica do conhecimento sobre o universo, baseado nos princpios explanatrios que so genuinamente testveis. - O pesquisador tem os dons da instituio e criatividade para saber que o problema importante e quais questes devem ser levantadas; a estatstica, por sua vez, o assistir por meio da maximizao de output no ambguos enquanto minimiza os inputs. - O pesquisador tem que ter em mente que a pesquisa freqentemente levanta mais questes do que respostas. Os resultados quase sempre so meramente uma demonstrao de nossa ignorncia e uma declarao mais clara do que no sabemos. - O pesquisador tem que manter os olhos abertos, sua mente flexvel e estar preparado para surpresas. - A pesquisa est na cabea do pesquisador; o laboratrio ou o campo meramente confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as questes certas para fazer e no nas certas respostas. - A aplicao indiscriminada dos mtodos quantitativos sobre inesgotveis quantidades de dados no significa que o entendimento cientfico vai emergir s por causa disso.
tirado do Quadro 1.1. Os resultados do IBOPE, do ltimo dia de pesquisa (com margem de erro igual a 1,8%), so praticamente iguais aos oficiais do TSE. A informao do TSE sobre votos vlidos enquanto que os da pesquisa de opinio so de inteno de votos. Na pesquisa de opinio do 1 turno difcil identificar o voto nulo. Exemplo 2: Pesquisas de opinio sobre o 2 turno da eleio presidencial 2002, realizadas pelo Datafolha. Neste caso, foi possvel estimar os percentuais sobre os votos vlidos. No ltimo dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos vlidos para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinmica de opinio de eleitores para o2 turno da eleio de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7% para o Serra Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos), as estimativas do ltimo dia seriam 62% (para menos) para o Lula e 38% (para mais) para o Serra. Esta parte da estatstica de inferncia evoluiu muito no Brasil. A prova disso so os resultados finais do primeiro e do segundo turno da eleio presidencial de 2002 que tem muito a ver com as previses feitas pelas pesquisas de opinio dos vrios institutos. O sucesso tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de dados e processamento & anlise dos resultados A evoluo da informtica tambm contribuiu muito para o sucesso das pesquisas; o rpido processamento e, conseqente, anlise dos resultados, permitiu a repetio em intervalos de tempo menores isso fundamental para a validao dos mtodos utilizados que, por sua vez, d a robustez necessria para a pesquisa e a sociedade ganha com a maior preciso e confiabilidade das pesquisas de opinio. Exemplo 3: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005 Figura 1.7. Apesar da confuso das estatsticas e de sua interpretao, com boa vontade e profissionalismo, as causas do desmatamento poderiam ser identificadas. O desafio entender a direo que o desmatamento pode tomar no futuro. Sem entender as causas, a direo s pode ser estocstica. A Figura 1.7 ilustra o uso do intervalo de confiana IC (nvel de probabilidade de 95%) para a mdia do perodo 1978-2005. De acordo com dinmica do desmatamento at 2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) so: 29% de ficar acima da estimativa mxima provvel (maior do que 20.983 km2), 29% abaixo da estimativa mnima provvel (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de confiana (entre 16.296 a 20.983 km2) com 95% de chance de acertar. Exemplo 4: Todos os trabalhos de equaes de volume que utilizam os modelos destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em modelos matemticos que sero utilizados, posteriormente, para estimar o volume da rvore em p. Para concluir a discusso, em torno da natureza da estatstica, importante no perder de vista que a opo por uma das duas estatsticas pode ser pessoal. Entretanto, se a escolha recair sobre a de inferncia, o pesquisador deve se sujeitar as suas regras e condicionantes. A estatstica de inferncia, por sua vez, deve ficar sob as condicionantes da teoria da probabilidade, da normalidade e da independncia; a violao de uma dessas condicionantes implica em um comprometimento muito srio de todo o seu trabalho.
trabalhos de pesquisa, encurtando caminhos para a produo de cincia e de resultados de inventrio florestal. (i) Erro Amostral => o erro que voc comete por no medir toda a populao. Este parmetro mensurvel e, dependendo da escolha dos mtodos, voc tem condies de aumentar ou diminuir este erro. De qualquer modo, trata-se de um parmetro que pode ser controlado e avaliado por voc. o desvio padro da mdia ou, simplesmente, erro padro e tem frmula para o seu clculo. a nica medida de preciso, por mais paradoxal que possa parecer, em qualquer trabalho de pesquisa ou de inventrio florestal. (ii) Erro no-amostral => o erro humano, que pode ser cometido acidental ou deliberadamente. o tipo de erro que voc comete ao alocar uma amostra no lugar errado ex.: no escritrio voc faz a opo pela amostragem inteiramente aleatria e sorteia as unidades amostrais e distribui em sua rea estudo; no campo, entretanto, voc no consegue aloc-las de acordo com as coordenadas pr-estabelecidas e aloc-as em outro lugar. Voc tambm comete erro no-amostral quando utiliza um equipamento defeituoso ou, por preguia, voc chuta as medidas de uma determinada varivel. O problema desse erro que voc no consegue dimension-lo e, neste caso, no h estatstica que d jeito para consertar o mal-feito. A estatstica e o computador s so teis na interpretao de fenmenos observados quando os dados so de absoluta confiana e sem erros no-amostrais. Moral: Busque sempre a melhor metodologia para conseguir a maior preciso de seu trabalho sem, contudo, aumentar a possibilidade de cometer erros no-amostrais. BOM PESQUISADOR aquele que no entrega sua coleta de dados para qualquer PEO. (iii) Populaes, Parmetros e Estimativas A noo central em qualquer problema de amostragem a existncia de uma populao. Pense em uma populao como um agregado de valores unitrios, onde a unidade a coisa sobre a qual a observao feita e o valor a propriedade observada sobre aquela coisa. Populao ento o conjunto de todos os indivduos ou itens sob considerao. Ou ainda: populao o universo de seu interesse. Ilustrando: - se voc est interessado em estudar o potencial quantitativo da floresta da Reserva Ducke, a POPULAO o conjunto de todas as rvores acima de um determinado DAP, existentes naquela rea de 10.000 hectares. - se para voc potencial quantitativo significa volume cbico obtido de equaes simples (DAP como varivel independente), o volume mdio (por hectare, por ex.) de todas as rvores da Reserva Ducke o PARMETRO. - se voc, no entanto, decidir pela avaliao por amostragem e lanar naquela rea algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribudas), o volume mdio dessas amostras a ESTIMATIVA. AMOSTRA aquela parte da populao da qual a informao coletada. (iv) Tendncia (bias), Exatido e Preciso TENDNCIA ou VIS (bias, em ingls) uma distoro sistemtica. Ela pode ser devido a alguma falha na medio, ou no mtodo de selecionar a amostra, ou na tcnica de estimar o parmetro. Se voc medir o DAP com uma fita diamtrica faltando um pedao na ponta (2 cm), voc medir todas as rvores com 2 cm a mais, ou seja, voc superestimar esta varivel. Uma maneira prtica de minimizar as tendncias em medies por meio de checagens peridicas
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado com eles. Tendncia devido o mtodo de amostragem ocorre quando certas unidades ganham maior ou menor representao na amostra do que na populao. Ex.: se voc excluir 20 metros de bordadura do lado oeste da Reserva Ducke por causa de um igarap. Neste caso, voc est introduzindo tendncia em sua avaliao simplesmente porque voc no deu a mesma oportunidade, para as rvores que ocorrem naquela faixa, em aparecer no seu trabalho. Outro exemplo: quando a equipe econmica faz uma pesquisa nos supermercados do centrosul e extrapola o custo de vida para todo o Brasil; isso uma medida tendenciosa que no reflete o que se passa em Manaus. Tendncia na forma de estimar determinado parmetro pode ser introduzida quando voc, por exemplo, toma o volume mdio da Reserva Ducke e junta com o volume mdio do Distrito Agropecurio da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro da regio de Manaus. Um volume mdio no tendencioso seria uma mdia ponderada considerando os diferentes tamanhos de cada rea, em vez de usar a mdia aritmtica simples (tendenciosa, neste caso). Importante: A tendncia a me do erro no-amostral, por esta razo, evit-la sinal de prudncia e sensatez. PRECISO E EXATIDO uma estimativa tendenciosa pode ser PRECISA, mas nunca EXATA. Ainda que o Aurlio (dicionrio) pense diferente, para os estatsticos, EXATIDO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade; PRECISO refere-se distribuio dos valores amostrais em torno de sua prpria mdia que, se for tendenciosa, no pode ser o valor verdadeiro Ver figura 1.8. Exatido ou estreiteza ao valor verdadeiro pode estar ausente por causa da tendncia, falta de preciso ou por causa de ambas.
PENSAMENTO
OPERACIONALIZAR
HIPOTETIZAR
planejar
coletar co letar
tratar
processar
analisar
rejeita rejeit a?
no, concluir!
sim, concluir!
Quadro 1.1: Resultados das eleies para presidente de 2002. RESULTADOS DAS ELEIES DE 2002 Total de eleitores = 115.254.113 Resultado do 1 turno: n de votantes = 94.804.126 ordem 1 2 3 4 5 6 Nmero 13 45 40 23 16 29 Candidato Lula Jos Serra Garotinho Ciro Gomes Z Maria Rui Pimenta total votos 39.454.692 19.705.061 15.179.879 10.170.666 402.232 38.619 % vlidos 46,44 23,20 17,87 11,97 0,47 0,05
Resultado do 2 turno: n de votantes = 91.664.259 ordem 1 2 Nmero 13 45 Candidato Lula Jos Serra total votos 52.793.364 33.370.739 % vlidos 61,27 38,73
18.900 27.200 24597 23.266 18.165 18.226 17.269 17.383 13.227 18.161 29.059 14.896 13.786 11.030 13.730 17.770 21.050
ano ou perodo
99/00 98/99 97/98 96/97 95/96 94/95 92/94 91/92 90/91 89/90 87-89 78/87
3.000 rea desmatada (km2) 2.500 2.000 1.500 1.000 500 0 1997 1998 1999 2000 2001 2002 2003 2004 ano A D A:D (%)
45 40 35 30 25 20 15 10 5 0
Fonte: www.ibama.gov.br sisprof. A = rea desmatada com autorizao; D = rea desmatada total e A:D relao entre autorizado e no autorizado. Figura 1.3: Relao entre reas (em km2) desmatadas com autorizao e sem autorizao na Amaznia.
Fonte: www.ibama.gov.br sisprof Figura 1.4: Origem da madeira da Amaznia planos de manejo florestal sustentvel (PMFS), desmatamento autorizado e sem origem definida.
45
46
23,2 19 12 15 12 19 13 19 14 14 18 15 19 16 20 15 17,9
12
11
12 9
14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 perodo da pesquisa Lula Serra Garotinho Ciro
TSE
Figura 1.5: Pesquisas de opinio realizadas pelo IBOPE para o 1 turno da eleio presidencial de 2002.
70 60 58 61 59 58
32
32
31
32
data
Lula Serra indecisos nulos/brancos
Figura 1.6: Pesquisas de opinio realizadas pelo Datafolha para o 2 turno da eleio presidencial de 2002.
rea
30.000 28.000 26.000
mdia
mnima
mxima
12.000 10.000
ano ou perodo
Figura 1.7: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005.
impreciso
preciso
preciso
exato
Por outro lado, a maioria dos dados mtricos considerada DADOS CONTNUOS porque eles envolvem medies sobre uma escala contnua. A escala fica por conta da preciso do aparelho de medio: na suta ou na fita diamtrica, o mximo que podemos chegar dcimo de centmetros, ou seja, entre os DAPs 20 e 21 cm ns podemos ter DAPs com 20.1, 20.2, ... , 20.9; nos cronmetros da Frmula 1, no entanto, o nvel de preciso impensvel para os nossos relgios de pulso.
Quadro 2.2. Clculo de freqncia de cada classe de dimetro. classes de DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 total Contagem IIIII III IIIII IIIII IIIII IIII IIIII II IIII I I n de rvores (f) 8 19 7 4 1 1 40
O nmero de indivduos (rvores) em cada categoria ou de DAP chamada de FREQUNCIA daquela classe. O quadro 2.2 uma tabela de distribuio de freqncia. No confundir distribuio de freqncia em estatstica com o termo freqncia da Ecologia Vegetal. Nem sempre voc trabalha com quantidade to pequena de indivduos (n = 40, neste caso). Com n maiores mais seguro montar a distribuio de freqncia utilizando a tabela dinmica do Excel aplicao no Captulo 17 (Cadeia de Markov). Algumas dicas para estabelecer distribuies de freqncia: - o nmero de classes no deve ser nem muito pequeno e nem muito grande, ao contrrio, no meio. Sugere-se um nmero entre 5 e 12 regra do olhmetro. Outra forma atravs da seguinte frmula: n classes 1 + 3,33 log N (N = nmero de dados) - cada classe tem que ter a mesma dimenso. Do quadro 2.2, as dimenses so: 20 a 29.9, 30 a 39.9 etc. - cada pedao de dados tem que pertencer a apenas a uma nica classe. Essa lista poderia continuar, mas isso seria artificial. O propsito de grupar dados distribu-los em um nmero razovel de classes de igual tamanho para facilitar a interpretao dos mesmos. Se possvel, os intervalos que tem uma interpretao natural, devem ser utilizados, como por exemplo: dados em DAP que so normalmente divididos em mltiplos de 10.
20 18 freqncia absoluta 16 14 12 10 8 6 4 2 0 Freq
A freqncia pode ser tambm apresentada em porcentagem ou decimal, conhecida como FREQUNCIA RELATIVA. No quadro 2.3 para obter a freqncia relativa de cada classe, bastou dividir a freqncia de cada classe por 40 (nmero total de indivduos contados). Se multiplicarmos essas fraes por 100, teremos a freqncia em %, caso contrrio, em decimais. Quadro 2.3. - Distribuio de Freqncia relativa do quadro 2.1. classes DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 pt mdio 25 35 45 55 65 75 Freq 8 19 7 4 1 1 freq rel 0,200 0,475 0,175 0,100 0,025 0,025 freq acum 8 27 34 38 39 40
Algumas terminologias: Classe uma categoria para o grupamento de dados. Freqncia o nmero de indivduos ou objetos numa classe. Por exemplo, a freqncia da classe 30-39.9 19. Freqncia relativa a porcentagem, expressa como um decimal, do nmero total de indivduos de uma determinada classe. A freqncia relativa da classe 50-59.9 0.1 ou 10%. Freqncia acumulada a soma das freqncias dos valores inferiores ou iguais a valor dado. Distribuio de Freqncia a listagem das classes com suas freqncias. Limite inferior da classe o menor valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite inferior 20. Limite superior da classe o maior valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite superior 29.9. Se a preciso fosse de duas casas decimais, o limite superior poderia ser 29.99 e assim por diante. Intervalo de classe a diferena entre o limite superior e o limite inferior de uma dada classe. No nosso exemplo, o intervalo 10, ou seja, 30 20 =10. Ponto mdio da classe a mdia aritmtica entre o limite superior e limite inferior da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto mdio 35 e assim por diante.
Computao de Mdia, Mediana e Moda Mdia a estimativa da mdia, x ou , do parmetro , obtida da seguinte maneira: Dos dados do quadro 2.1, a mdia ser:
x =
_ _
( x 1 + x 2 + .... + x 40 ) 40
x = 38,225 Mediana do quadro 2.1, primeiro preciso ordenar em ordem crescente, (1) 25 (11) 31.8 (21) 35 (31) 43 (2) 27 (12) 32 (22) 36 (32) 45 (3) 27 (13) 32 (23) 36 (33) 47 (4) 27 (14) 32 (24) 37 (34) 47 (5) 27.7 (15) 33 (25) 37 (35) 52 (6) 28 (16) 33 (26) 38.5 (36) 53 (7) 28 (17) 33 (27) 39 (37) 58 (8) 29 (18) 33 (28) 40 (38) 58 (9) 30 (19) 34 (29) 40 (39) 63 (10) 30 (20) 34 (30) 41 (40) 77
Neste caso, o nmero total de observaes, n, par, a mediana ser a mdia aritmtica dos vigsimo e vigsimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5. Moda simplesmente o ponto mdio da classe que tem a maior freqncia, que no nosso caso, quadro 2.2, 35, que tem a freqncia = 19. Resumo das estimativas das medidas: Mdia Moda = 38,225 = 35,0 Mediana = 34,5 Interpretao: um conjunto de dados pode ter mais de uma moda, mas sempre ter somente uma mdia ou mediana. Como voc pode ver, de um mesmo conjunto de dados, voc tem diferentes medidas de tendncia central. Qual delas a melhor? A deciso vai depender, principalmente, do objetivo de sua informao. Quando a gente vende madeira em volume, normalmente truncada a um determinado dimetro mnimo, a mdia deve prevalecer tendo em vista a maior facilidade para os clculos posteriores. Se a rvore vendida em p, a moda pode ser mais interessante, porque ela d uma noo tambm da distribuio de freqncia. A utilizao da mediana mais prtica na tomada de decises quanto a tratamentos silviculturais, desbastes etc., quando voc precisa priorizar o tamanho que precisa sofrer intervenes.
As mdias dos dois grupos so iguais. No entanto, claro que estamos nos referindo a dois grupos diferentes em idade. D para perceber que o grupo do Manejo mais uniforme em termos de idade. Neste caso, para ver a variao que h dentro de cada conjunto de dados, podemos usar a amplitude total ou o desvio padro, as duas medidas de disperso mais comuns. AMPLITUDE TOTAL a medida da variao olhando apenas a diferena entre o maior e o menor valor. Esta medida de fcil computao porque depende apenas do maior e do menor valor, mas, em compensao ela no diz o que acontece entre esses dois valores. Alm disso, considerada muito limita, sendo uma medida que depende apenas dos valores externos, instvel, no sendo afetada pela disperso dos valores internos. Do quadro 3.1, as amplitudes so: Manejo: 30 25 = 5 Ecologia: 39 21 = 18
DESVIO PADRO nos d a disperso dos indivduos em relao mdia. Ele nos d uma idia se os dados esto prximos da mdia ou muito longe. O desvio padro dos indivduos de uma populao freqentemente simbolizado pela letra grega minscula (). Dificilmente a gente trabalha com o parmetro. Entretanto, dado uma amostra de valores individuais de uma populao, podemos fazer uma estimativa de que comumente simbolizada por s.
2 (x i - x) n
Frmula : s =
i =1
n -1
x
i =1
2 i
- (( x i ) 2 ) / n
i =1
n -1
redundante. Por esta razo, ao usar a mdia amostral x em vez da mdia da populao como um ponto central no clculo de s, voc perde um grau de liberdade (gl) e a estimativa de dita ter ( n 1 ) gl associados com ela. O uso de (n 1) em vez de (n) no clculo de s tambm fornece uma estimativa no-tendenciosa; isto , em uma srie infinita de amostras aleatrias, o valor mdio do estimador igual a . Os desvios padres dos dados do quadro 3.1 so: Manejo: s = 1.87 Ecologia: s = 7.25
Resumindo: quanto maior a variao dentro de um conjunto de dados, maior ser o desvio padro. Do exemplo 1 ns constatamos agora, que apesar dos dois terem as mesmas medidas de tendncia central, mdia e mediana, as medidas de disperso so totalmente diferentes. Isto quer dizer que o grupo de Manejo mais homogneo em idade, comprovada pela menor variao encontrada.
Clculo da mdia e desvio dos dados grupados:
A mdia calculada da seguinte maneira: x = ( xi * fi ) / n onde: xi = ponto mdio da classe, fi = freqncia de cada classe e n = nmero de classes E o desvio padro segue o mesmo princpio da mdia em relao s classes. Do quadro 2.2, essas medidas sero: x = 38,5 e s = 11,45
_ _
3.4 Percentil:
Ns j vimos um exemplo de percentil. A mediana divide um conjunto de dados em duas partes, 50% de um lado e 50% de outro, depois de coloc-los em ordem crescente. Por esta razo ela se refere ao qinquagsimo percentil de um conjunto de dados. Alm dos percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador pode tambm querer encontrar o quartil e o decil.
Quartil a separatriz que divide a rea de uma distribuio de freqncia em domnios de rea igual a mltiplos inteiros de um quarto da rea total. Decil a separatriz correspondente ao valor do argumento que divide a distribuio numa razo decimal.
Primeiro quarto
25 27 27 32 36 47 27 32 37 47 27.7 33 37 52 28 33 38.5 53 28 33 39 58 29 33 40 58 30 34 40 63 30 34 41 77
Segundo quarto
31.8 32 35 43 36 45
Computaes: Primeiro quartil = (30 + 31.8) / 2 = 30.9 Segundo quartil = (34 + 35) / 2 = 34.5 Terceiro quartil = (41 + 43) / 2 = 42.0
Do quadro 3.1, estimamos as mdias (28 para manejo e 28 para Ecologia) e os desvios padres (1.87 e 7.25). Agora temos os coeficientes de variao (CV):
CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia
Do nosso exemplo do quadro 2.1, temos uma populao de rvores, com as seguintes estimativas: mdia = 38,225 e desvio = 11,28
CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2
Mesmo se tratando de populaes diferentes podemos concluir com base nos CVs: A populao Manejo mais homognea e a mais heterognea a floresta da ZF-2. Isto possvel porque o CV uma medida relativa, que independente da unidade de medida utilizada.
VARINCIA - Varincia uma medida da disperso dos valores unitrios individuais em torno de sua mdia. A varincia no s parece com o desvio padro, como o prprio, apenas ao quadrado . Se voc tirar da frmula do desvio, a raiz quadrada, voc tem a frmula da varincia. Por que ao quadrado? Simplesmente porque a soma de todos os desvios tem que se anular, tendendo a zero e, da, voc no teria condies de ver a amplitude de variao dos seus dados em relao mdia.
COVARINCIA - uma medida de como 2 variveis variam juntas, em relacionamento (covariabilidade). Suponha duas variveis x e y. Se os maiores valores de x tende a ser associados com os maiores valores y, ns dizemos que a covarincia positiva. Quando os maiores se associam com os menores, ou vice-versa, a covarincia negativa. Quando no h uma associao particular de x e y, a covarincia tende a zero.
As frmulas so:
Varincia, s2 = SQCx /(n-1) Covarincia, sxy = SPCxy / (n-1)
Sendo: SQC = Soma dos Quadrados Corrigidos SPC = Soma dos Produtos Corrigidos
Frmulas teis
Mdia Aritmtica Varincia
x=
x
i =1
s2 =
(x
i =1
x)
n 1
Erro padro
Desvio padro
s= s
2
2
sx = s / n
n y i n 2 i =1 SQC y = y i n i =1
2
n xi n 2 i =1 SQC x = xi n i =1
SPC xy = xi y i
i =1
( x )( y )
i i
Coeficiente de correlao
r=
Captulo 4 Probabilidade
No captulo 1 ns distinguimos dois tipos de estatsticas: descritiva e de inferncia. A estatstica descritiva envolve a organizao e a sumarizao dos dados. A estatstica de inferncia lida com inferncias (predies educadas) sobre uma populao baseada em uma amostra da populao. Desde que a estatstica de inferncia envolve predies (educadas), sempre possvel fazer uma inferncia incorreta. preciso saber o quanto a nossa inferncia est correta. Para medir a chance de estar certo na nossa inferncia estatstica, precisamos entender a teoria de probabilidade, que a fundamentao matemtica para a estatstica de inferncia. Para entender os princpios da teoria de probabilidade no h como fugir dos exemplos clssicos de cara & coroa, dos dados e do jogo de baralho. A propsito, a teoria foi desenvolvida por causa de jogos de azar. O objetivo deste captulo dar uma base geral para facilitar o entendimento da aplicao de testes de hipteses, paramtrica e no-paramtrica. O processo de computao (clculo) de probabilidades depende de sua capacidade de contar, 1, 2, 3 e assim por diante. A seguir vamos discutir alguns mtodos de contagem.
4.1. Contagem:
Primeiro vamos estabelecer as seguintes definies dentro da teoria de probabilidade.
Resultado - no caso de cara ou coroa, 2 resultados so possveis e no caso do jogo de dados, 6 resultados. Teste - (ou tentativa) - a ao de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - o conjunto de testes (tentativas); se a moeda jogada uma vez, ou duas, ou n vezes, no interessa o procedimento deve ser considerado um experimento. Eventos - so os possveis resultados de um teste, vrios testes ou de todo o experimento. Exemplo de evento: uma coroa em 4 jogadas ou pelo menos um cara. REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos k possveis resultados, afirmamos que h kn possveis resultados de todo o experimento. Exemplo 1: no jogo da moeda voc tem dois resultados, cara (C) ou coroa (c), k=2. Se voc jogar apenas uma vez, n=1, voc ter 21 = 2 possveis resultados, C ou c. Se voc jogar duas vezes, n = 2, voc ter 22 = 4 possveis resultados, CC cc Cc cC. REGRA 2: H n! (fatorial) maneiras de arranjar n objetos distinguveis em uma seqncia. Exemplo 2: considere o nmero de maneiras de arranjar as letras A, B e C numa seqncia. A primeira letra pode ser qualquer uma das trs, a segunda pode ser escolhida de duas maneiras diferentes uma vez que a primeira j foi escolhida, e a letra remanescente se torna a ltima letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6 possveis arranjos so: ABC ACB BAC BCA CAB e CBA. Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. H 8 maneiras de qualquer um deles chegar em primeiro lugar, tendo nas outras colocaes qualquer outro. Se voc quiser saber quantos arranjos so possveis tendo, no primeiro e segundo lugar, qualquer um deles e, as demais colocaes, de qualquer jeito, voc far (8) (7) = 56 arranjos. Se voc,
no entanto, quiser saber todos os possveis arranjos do primeiro ao oitavo lugar voc far 8! = 40320 arranjos.
REGRA 3: se um grupo de n objetos composto de k objetos idnticos de um tipo e o restante (n-k) so objetos idnticos de um segundo tipo, o nmero de arranjos distinguveis dos n objetos numa seqncia, denotado por meio de
n k dado por
n n! k = k! (n - k)!
Ou: se um grupo de n objetos composto de n1 objetos idnticos do tipo 1, n2 objetos idnticos do tipo 2, ..., nr objetos idnticos do tipo r, o nmero de arranjos distintos numa seqncia ser: n ni dado por n n! ni = n1! n2! ... nr!
Cada experimento tem o seu prprio espao amostral, que consiste essencialmente de uma lista de diferentes resultados possveis de um experimento. O espao subdividido e cada subdiviso um ponto. Cada possvel resultado representado por um ponto e somente um ponto.
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espao amostral consiste de 4 pontos CC cc Cc cC. Exemplo 2: uma prova consistindo de 10 questes falsa ou verdadeira passada a um aluno como um experimento. H 210 = 1024 pontos no espao amostral, onde cada ponto consiste da seqncia das possveis respostas para as 10 questes sucessivas, tais como: FFFFVVFFVV.
Agora, ento, possvel definir evento, em termos dos pontos do espao amostral.
(iii) Evento - um evento qualquer conjunto de pontos no espao amostral.
No exemplo 1 ao falarmos do evento duas caras, estamos nos referindo a um simples ponto CC; o evento uma cara consiste de dois pontos Cc e cC; o evento pelo menos uma cara consiste de trs pontos CC, Cc e cC.
Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos pelo menos uma cara e pelo menos uma coroa tem os pontos Cc e cC em comum. Se dois eventos no tm pontos em comuns eles so chamados de eventos mutuamente exclusivos porque a ocorrncia de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao mesmo tempo. Para cada ponto no espao amostral h um nmero correspondente chamado de probabilidade do ponto ou probabilidade do resultado. Estas probabilidades podem ser quaisquer nmeros entre 0 a 1. A definio da probabilidade de um evento inclui a definio da probabilidade de um resultado como um caso especial, desde que o evento possa ser considerado como que se consistisse de um resultado simples. Na prtica, o conjunto de probabilidades associadas com um particular espao amostral raramente conhecido, mas as probabilidades so atribudas de acordo com as noes pr-concebidas do pesquisador, isto , o pesquisador formula um modelo como uma verso ideal do experimento. Ento, o espao amostral do modelo experimental examinado e as probabilidades so atribudas aos vrios pontos do espao amostral de alguma maneira que o pesquisador sinta que pode ser justificada.
Exemplo 3: Num experimento consistindo de uma nica jogada de uma moeda no viciada, razovel assumir que o resultado cara (C) tem metade da chance de ocorrer. Assim, podemos atribuir a probabilidade de para o resultado C e o mesmo para c. Isso pode ser escrito da seguinte maneira: P (C) =1/2 e P (c) = 1/2 . Exemplo 4: Num experimento consistindo de 3 jogadas (testes), razovel assumir que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma chance de ocorrer. Assim, a probabilidade de cada resultado 1/8. Tambm P (3 caras) = 1/8, P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = . (iv) Funo de Probabilidade: uma funo que atribui probabilidades aos vrios eventos no espao amostral.
Vrias propriedades dessas funes so aparentes. Considere S como espao amostral e A, B ou C como qualquer evento em S. Ento, se P a funo de probabilidade, P(S) = 1, P(A) > 0 e P(a) = 1 P(A), onde a o evento o evento no ocorre.
(v) Probabilidade Condicional: a probabilidade de ocorrer A dado B.
P (A | B) =
1/ 3 = 2/3 1/ 2
(1)
Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espao amostral assumem ter a mesma probabilidade. Deixe A ser o evento uma cara ocorre na primeira jogada e B ser o evento uma cara ocorre na segunda jogada. Ento A tem os pontos CC e Cc. B tem os pontos CC e cC. AB tem os pontos CC. Tambm P (A) = 2/4, P (B) = 2/4 e P (AB) = 1/4.
P (AB) = (2/4) (2/4) = 4/16 = 1/4 satisfaz a condio (1) e, por esta razo, A e B so independentes.
(vii) Experimentos Mutuamente Independentes: so mutuamente independentes se todos os conjuntos de n eventos formados tiverem a seguinte equao como verdadeira:
P ( A1, A2, ..An) = P (A1) P(A2) ...P (An) onde Ai representa um resultado do i-simo experimento para i = 1, 2, ....n.
Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem a probabilidade p e o evento c tem a probabilidade q = 1 p. Considere 3 repeties independentes do experimento, onde o subscrito ser usado para diferenciar o experimento com o qual o resultado est associado. Dessa maneira, C1 c2 C3 significa que o primeiro experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hiptese de independncia,
P (C1 c2 C3) = P (C1) P (c2) P (C3) = pqp Se considerarmos o evento exatamente 2 caras associado aos experimentos combinados, o seguinte pode ocorrer
3 6 2 = 2 = 3 maneiras e conseqentemente P ( exatamente 2 caras) = 3p 2 q
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3 tentativas independentes. Por extenso, podemos considerar um experimento consistindo de n jogadas independentes. A probabilidade de obter exatamente k caras , ento, igual ao termo pkqn - k vezes o nmero de vezes que o termo pode aparecer. Por esta razo, em n jogadas independentes de uma moeda n k n - k P (exatamente k caras) = k p q onde p = P(C) em qualquer jogada.
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famlias possuem 2 crianas. Agora, suponha que uma das famlias tenha sido selecionada aleatoriamente, ou seja, cada famlia teve igual chance de ser escolhida. Qual a probabilidade que a famlia selecionada tenha 3 crianas? A resposta 4/40, que a mesma frequncia relativa. Suponha que h N resultados possveis num experimento. A probabilidade que um evento ocorra o nmero de vezes, f, que o evento pode ocorrer, dividido pelo nmero total, N, de possveis resultados.
As variveis aleatrias so normalmente representadas pelas letras maisculas X, W, Y ou Z com ou sem subscritos. Os nmeros reais atribudos pelas variveis aleatrias sero representados por letras minsculas.
Exemplo 1: Num experimento onde ao consumidor dada a chance de escolher 3 produtos, sabonete, detergente ou marca A, o espao amostral consiste dos 3 pontos representando as 3 possveis escolhas. Deixe a varivel aleatria atribuir o nmero 1 para a escolha marca A e o nmero 0 (zero) para os outros 2 possveis resultados. Ento, P(X = 1) igual a probabilidade do consumidor escolher a marca A. Exemplo 2: Para 6 meninas e 8 meninos perguntado se eles se comunicam mais facilmente com suas mes ou com seus pais. Deixe X ser o nmero de meninas que pensam que se comunicam melhor com suas mes e deixe Y ser o nmero total de crianas que pensam que se comunicam melhor com suas mes. Se X = 3, ns sabemos que ocorreu o evento 3 meninas pensam que se comunicam melhor com suas mes. Se, ao mesmo tempo, Y = 7, ns sabemos que ocorreu o evento 3 meninas e 7 3 = 4 meninos pensam que se comunicam melhor com suas mes.
Se X uma varivel aleatria, X = x uma notao simplificada que usamos para corresponder ao mesmo evento no espao amostral, especificamente o evento que consiste do conjunto de todos os pontos para os quais varivel X foi atribudo o valor x.
Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o nmero de caras. Ento, X = 1 corresponde ao evento contendo os pontos Cc e cC.
Dessa maneira, X = x , s vezes, referida como o evento X = x, quando, na realidade, pretendeu-se dizer o evento consistindo de todos os resultados atribudos o nmero x pela varivel aleatria X. Por causa desta estreita correspondncia entre variveis aleatrias e eventos, as definies de probabilidade condicional e independncia se aplicam igualmente bem s variveis aleatrias.
Definio 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), a probabilidade que a varivel aleatria X assume o valor x, dado que a varivel aleatria Y j assumiu o valor y.
(1) P(X = x | Y = y) = P (X = x, Y = y) se P(Y = y) > 0 P(Y = y)
Exemplo 4: Deixe X ser o nmero de meninas que se comunicam bem com suas mes, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o nmero total de crianas que se comunicam bem com suas mes. Por convenincia, deixe Z=Y-X, tal que Z igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mes. Assuma que as respostas dadas pelas crianas so independentes de cada outra e que cada criana tem a mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua me. Encontre a probabilidade condicional P ( X=3 | Y=7).
Primeiro, pelas suposies anteriores, X=3 e Z=4 so eventos independentes. Desde que o evento (X=3, Y=7) o mesmo que o evento (X=3, Z=4), temos a probabilidade P(X=3, Y=7) = P(X=3, Z=4) = P(X=3) P(Z=4) (2) 6 3 3 = 3 p (1 - p) 8 4 4 4 p (1 - p)
por causa do exemplo 7 do item 4.2. Pelo mesmo exemplo, conclumos que (3) 14 7 7 P(Y = 7) = 7 p (1 - p)
(4)
Como os pontos no espao amostral so mutuamente exclusivos, os valores que uma varivel aleatria pode assumir so tambm mutuamente exclusivos. Para um simples resultado de um experimento, a varivel aleatria definida por apenas um nmero. Assim, todo o conjunto de valores que uma varivel aleatria pode assumir tem as mesmas propriedades do espao amostral. Os valores individuais assumidos pela varivel aleatria correspondem aos pontos no espao amostral, um conjunto de valores corresponde a um evento e a probabilidade da varivel aleatria assumir qualquer valor dentro de um conjunto de valores igual a soma das probabilidades associadas com todos os valores dentro do conjunto. Por exemplo:
P (a < X < b) =
a < x <b
P(X = x)
x par
P (X = x)
onde o somatrio se aplica a todos os valores de x que so pares. Por causa dessa similaridade entre o conjunto de valores possveis de X e um espao amostral, a descrio do conjunto de probabilidades associadas com os vrios valores que X pode assumir, freqentemente chamado de funo de probabilidade da varivel aleatria X, assim como um espao amostral tem uma funo de probabilidade. Entretanto, a funo de probabilidade de uma varivel aleatria no uma atribuio arbitrria de probabilidades, como a funo de probabilidade para um espao amostral. Isto porque uma vez que as probabilidades so atribudas aos pontos num espao amostral e uma vez que a varivel aleatria X definida no espao amostral, as probabilidades associadas com os vrios valores de X so conhecidas e a funo de probabilidade de X , dessa maneira, j determinada.
Definio 3: A funo de probabilidade da varivel aleatria X, usualmente representada por f(x) ou de outra maneira qualquer, a funo que d a probabilidade de X assumir o valor x, para qualquer nmero real x, ou seja,
(5)
f(x) = P(X = x)
Vimos at aqui que a distribuio de probabilidades associadas com uma varivel aleatria pode ser descrita por uma funo de probabilidade. Uma outra maneira de dizer a mesma coisa atravs de uma funo de distribuio que descreve as probabilidades acumuladas.
Definio 4: A funo de distribuio de uma varivel aleatria, usualmente representada por F(x), a funo que d a probabilidade de X ser menor ou igual a qualquer nmero real x, ou seja,
(6)
F(x) = P (X x) =
tx
f(t)
(7)
onde: n nmero inteiro positivo, 0 p 1 e q = 1 p. Note que usaremos a conveno usual que 0! = 1. A funo de distribuio ser ento
(8) F(x) = P(X x) =
i n -i i p q
i x
onde o somatrio se estende a todos os possveis valores de i menor ou igual a x. H tabelas prontas para alguns valores selecionados dos parmetros n e p.
Exemplo 5: Um experimento com n testes independentes, onde cada teste pode resultar em um dos dois resultados sucesso ou insucesso, com probabilidade P e q, respectivamente. Deixe X ser igual ao nmero total de sucessos nos n testes. Ento, como mostrado na equao (7),
(9)
Desta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual probabilidade, se X tem a funo de probabilidade discreta uniforme.
Exemplo 6: H em um saco N papeletas numeradas de 1 a N. O experimento consiste de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espao amostral tem N pontos, representando as N papeletas que podem ser tiradas. Deixe X ser igual ao nmero da papeleta tirada. Ento X tem a distribuio uniforme discreta. Definio 7: A funo de probabilidade conjunta f (x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia conjunta de X1 = x1, X2 = x2, ... , Xn = xn.
(10)
Definio 8: A funo de distribuio conjunta F(x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia junta de X1 x1, X2 x2, ... , Xn xn .
(11)
Exemplo 7: Considere as variveis aleatrias X e Y como definidas no exemplo 2. Considere f(x,y) e F(x,y) como as funes de probabilidade conjunta e de distribuio, respectivamente.
6 f(3, 7) = P (X = 3, Y = 7) = 3
8 7 7 p (1 - p) 4
F(3, 7) = P (X 3, Y 7) =
0 x 3 x y7
f(x, y)
6 x 6-x f(x, y) = p (1 - p) x
8 y- x 8 - (y - x) p (1 - p) y - x
e onde o somatrio na equao (13) se estende a todos os valores de x e y tal que x 3 e y 7, com a usual restrio de que x e y x so inteiros no negativos. Note que as equaes (12) e (13) no podem ser avaliadas sem conhecer o valor de p.
Definio 9: A funo de probabilidade condicional de X dado Y, f(x | y)
(14)
f(x | y) = P(X = x | Y = y)
Da equao 1 vemos que (15) f(x | y) = P(X = x | Y = y) = P(X = x, Y = y) P(Y = y) f(x, y) f(y)
Para encontrar a frmula geral para f(x | y) (isto , para qualquer valor de x e y), primeiro deixe f(x, y) ser a funo de probabilidade conjunta de X e Y. Isto dado no exemplo 7 como 6 x 6-x f(x, y) = p (1 - p) x 8 y- x 8 - (y - x) p (1 - p) y - x
que originalmente era uma forma geral da equao (2). Tambm, deixe f(y) ser a funo de probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira 14 y 14 - y f(y) = P(Y = y) = p (1 - p) y Pela definio 9 podemos agora escrever a funo de probabilidade condicional de X dado Y =y
6 8 x f(x, y) y - x f(x y) = = f(y) 14 y
(16)
para
0x6 0 y-x 8
onde todos os termos que envolvem o parmetro desconhecido p foram convenientemente cancelados.
Definio 10: Considere X1, X2, ... , Xn como variveis aleatrias com as respectivas funes de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a funo de probabilidade conjunta f (x1, x2, ... , xn ). Ento X1, X2, ... , Xn so mutuamente independentes
(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn) para todas as combinaes dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Ento, a funo de probabilidade de X dada por
Desde que:
f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y) O uso das equaes (16) e (19) resulta na funo de probabilidade conjunta de X e Y, sendo dada por 6 x 8 y - x 14 y
f(x, y) =
14 y 14 - y p (1 - p) y
6 8 y 14 - y = p (1 - p) y - x x desde que: 6 f 1 (x) f 2 (y) = x vemos que: f(x, y) diferente de f1(x) f2(y) e, por esta razo, X e Y no so independentes. 14 x + y 20 - x + y p (1 - p) y
n( x; , ) =
Para:
0.5
(( x ) )
2
< x < +
- -3 -2 -1 1 2 3 +