Você está na página 1de 6

5. DISTRIBUIES CONTNUAS (Wilks, cap 4) A maioria das variveis atmosfricas pode tomar qualquer valor continuo.

Temperatura, precipitao, ventos, etc, so pelo menos conceitualmente no restritas a valores inteiros. Muitas distribuies tericas contnuas existem. Vamos discutir algumas usadas mais freqentemente em cincias atmosfricas. 5.1. Funes de distribuio e Valores esperados. A diferena entre as distribuies contnuas e discretas que as distribuies discretas envolvem somas sobre uma funo de probabilidade descontnua (lembrem-se do que vimos com distribuies binomiais) enquanto a probabilidade para variveis aleatrias contnuas envolve integrao sobre funes contnuas denominadas FUNO DENSIDADE DE PROBABILIDADE, ou (PDFs). Convencionalmente, a PDF para uma varivel aleatria X denominada f(x).

f ( x) = 1
x

(5.1)

Uma funo no pode ser uma PDF a menos que satisfaa essa equao. Alm disso, f(x) precisa ser no-negativo para todos os valores de x. Nenhum limite especfico de integrao foi includo na Eq. 5.1 porque diferentes densidades de probabilidades so definidas sobre diferentes intervalos da varivel aleatria. As funes de densidade de probabilidade so os contnuos, tericos anlogos dos familiares histogramas. Contudo, o significado de PDF freqentemente confundido, precisamente por causa dessa analogia. Em particular, a altura da funo de probabilidade f(x), obtida quando avaliada a um particular valor da varivel aleatria, no tem significado no sentido probabilidade. A confuso cresce porque raramente notado que a probabilidade proporcional rea, e no altura, em ambos a PDF e o histograma.

Fig. 5.1. PDF hipottica f(x) para uma varivel aleatria no negativa, X. A avaliao de f(x) no tem, por si prpria, significado em termos de probabilidades para valores especficos de X. Probabilidades so obtidas pela integrao de pores de f(x). (adaptado de Wilks, 1995, chap. 4) A fig. 5.1 mostra uma PDF hipottica, definida para valores no negativos de uma varivel aleatria X. Enquanto a funo densidade de probabilidade pode ser avaliada para valores especficos da varivel aleatria, digamos, X=1, por si prpria, f(1) no tem significado em termos de probabilidades para X. De fato, uma vez que X varia continuamente sobre algum segmento dos nmeros reais, a probabilidade de X=1 exatamente infinitesimalmente pequena. Tem significado, contudo, pensar sobre calcular probabilidades para valores de uma varivel aleatria em uma vizinhana no infinitesimal em torno de X=1. A Fig. 5.1 mostra a probabilidade de X entre 0.5 e 1.5 como uma integral da PDF entre estes limites. Uma idia relacionada com a PDF aquela de uma funo de distribuio cumulativa (CDF). A CDF uma funo da varivel aleatria X, dada pela integral da PDF at um valor particular de x. Convencionalmente, CDFs so denominadas F(x):

F ( x) = Pr{ X x} =
2

X x

f ( x)dx

(5.2)

Novamente, os limites especficos de integrao foram omitidos para indicar que a integral realizada entre o valor mnimo permitido de X para um valor particular, x, que o argumento da funo. Uma vez que os valores de F(x) so probabilidades, 0F(x) 1. Funes anlogas tambm chamadas CDFs, podem ser obtidas para variveis aleatrias discretas pela soma ao invs de integrao. A Eq. 5.2 transforma um valor particular da varivel aleatria para uma probabilidade cumulativa. O valor da varivel aleatria corresponde a uma probabilidade cumulativa e dado pelo inverso da CDF

F-1(p)=x(F),

(5.3)

Onde p a probabilidade acumulada. Isto , a Eq. 5.3 especifica que o limite superior dae integrao na Eq. 5.2 dar uma probabilidade cumulativa particular p=F(x). Uma vez que a inversa da CDF especifica o quantil dos dados correspondentes a uma probabilidade particular, a Eq. 4.13 algumas vezes chamada de funo quantil. Dependendo da distribuio terica que est sendo utilizada, pode ou no ser possvel escrever uma frmula explcita para a CDF ou sua inversa. Esperanas estatsticas tambm so definidas para variveis contnuas. Assim, o valor esperado de uma funo de varivel aleatria dado pela integral:

E[ g ( x)] = g ( x) f ( x)dx
x

(5.4)

Para g(x)=x, E[X]= a mdia da distribuio cuja funo densidade f(x). Similarmente, a varincia de uma varivel contnua dada pela esperana da funo g(x)=(x-E[X])2 ,

Var[ X ] = E[ x E[ X ]) 2 ] = x E[ X ]2 f ( x)dx = x 2 f ( x)dx ( E[ X ]) 2 = E[ X 2 ] 2


x x

(5.5)

5.2 Distribuio Gaussiana A distribuio Gaussiana tem um papel central na estatstica clssica, e tem muitas aplicaes nas cincias atmosfricas. Algumas vezes referida como distribuio normal, embora este nome tenha uma conotao no desejada, de modo que desvios a partir dela so no naturais. Sua PDF a curva familiar conhecida como forma de sino. A funo densidade de probabilidade para a distribuio Gaussiana dada por:

f ( x) =

(x )2 1 exp 2 2 2

(5.6)

Os dois parmetros da distribuio so a mdia, , o desvio padro, . Variveis aleatrias Gaussianas so definidas na inteira linha real, tal que a Eq. (5.6) vlida para - < x < + . justamente o grfico da equao 5.6 que resulta na curva em forma de sino

Fig. 5.2 Funo densidade de probabilidade para uma distribuio Gaussiana. A mdia, localiza-se no centro desta distribuio simtrica, e o desvio-padro controla o grau para o qual a distribuio se espalha. Aproximadamente toda a probabilidade est dentro de 3 da mdia Esta figura claramente mostra que a mdia localiza o centro dessa distribuio simtrica e o desvio-padro controla o grau para o qual a distribuio se espalha. Aproximadamente toda a probabilidade est dentro de 3 a partir da mdia. Para se usar a distribuio Gaussiana para representar o conjunto de dados necessrio ajustar os dois parmetros da distribuio aos dados. Boas estimativas destes parmetros so obtidas utilizando-se o mtodo dos momentos. O primeiro momento seria a mdia, , e o segundo momento a varincia, 2. Portanto, podemos estimar como uma mdia simples e como o desvio-padro. Se os uma amostra de dados segue aproximadamente uma distribuio Gausssiana, ento a estimativa desses parmetros ir fazer com que a Eq. 5.6 se comporte exatamente como os dados. Praticamente, contudo, a integrao analtica de (5.6) IMPOSSVEL, tal que a frmula para a CDF, F(x) para a distribuio Gaussiana no existe. Assim, as probabilidades Gaussianas so obtidas de 2 jeitos: 1) Se as probabilidades so necessrias como parte de um programa de computador, a integral da Eq. 5.6 pode ser resolvida por algortmos como os descritos em (Abromowitz e Segun, 1984 Pocketbook of Mathematical Functions. Verlag Harri, Frankfurt, 468pp.) 2) Se apenas algumas probabilidades so necessrias, ento podemos fazer uso de tabelas para calcul-las (Essas tabelas so encontradas na maioria dos livros de estatstica) Em ambos casos, uma transformao dos dados ser requerida. Isto porque as tabelas de distribuio de probabilidade e algoritmos dizem respeito distribuio Gaussiana padro, ou seja aquela que tem =0 e =1. Convencionalmente, a varivel aleatria descrita por uma distribuio Gaussiana padro denominada de Z. Sua densidade de probabilidade se simplifica a:

f ( x) =

(Z )2 1 exp 2 2

(5.7)

Qualquer varivel Gaussiana aleatria, X, pode ser transformada para uma forma padro Z (ou, como dizemos usualmente, pode ser padronizada) subtraindo-se sua mdia e dividindo-se pelo seu desvio padro.

Z=

(5.8)

Quando estimamos os coeficientes da Gassiana pelos dados, ento utilizamos a seguinte notao (notem que agora a varivel transformada denotada como z):

z=

xx s

(5.9)

NOTA IMPORTANTE: VEJAM QUE z ADMENSIONAL!!!! CHAMAMOS TAMBM z DE ANOMALIA PADRONIZADA E TER, PORTANTO, MDIA ZERO E DESVIO PADRO S=1. CONTUDO O DADO TRANSFORMADO NO SEGUIR A DISTRIBUIO GAUSSIANA, A MENOS QUE A VARIVEL SEM SER TRANSFORMADA SEGUIR!!!!!

______________________________ EXEMPLO (1): Suponha que uma distribuio Gaussiana para o ms de janeiro em uma certa localidade seja caracterizada por =22.2 C e =4.4 C. Suponha que voc esteja interessado em avaliar a probabilidade de que um certo ms de janeiro tenha temperaturas menores ou iguais a 21.4 C. O primeiro passo para a soluo desse problema calcular o valor padronizado z = (21.4 C 22.2 C)/4.4 C = -0.18. Assim, a probabilidade de uma temperatura igual ou mais fria que 21.4 C a mesma que a probabilidade de um valor de Z igual ou menor que -0.18: Pr{X21.4 C} = Pr{Z -0.18}. Podemos encontrar essa probabilidade olhando para uma tabela que contenha probabilidades acumuladas para a distribuio Gaussiana. Voc deve procurar a linha que mostra -0.1 e a coluna que mostra 0.08, e a voc tem a probabilidade procurada 0.4286. Se a rea sob a curva igual a 1, isso significa que tem-se uma razovel probabilidade de se encontrar

uma temperatura de 21.4 C em janeiro nessa localidade. Vocs tambm vo notar na tabela distribuda em sala de aula que no existem linhas para valores positivos de z. Isto no necessrio porque a distribuio Gaussiana simtrica. Isto significa, por exemplo, que Pr{Z + 0.18} = Pr{Z-0.18}, uma vez que existe iguais reas sob a curva na Fig. 5.2. Assim, podemos aplicar a seguinte idia para probabilidades de Z>0:

Pr{Z z} = 1 Pr{ Z -z}, (5.10)


Assim, podemos obter Pr{Z+0.18} = 1 0.4286 = 0.5714. Podemos agora encontrar qual seria essa temperatura, invertendo a Equao (5.9), ou seja, achando

x = sz + x = 26.8 C
Ou seja, temos a probabilidade de 0.574 de que a temperatura mdia em Janeiro naquela localidade em questo no ser maior que 26.8 C. EXEMPLO (2). Queremos agora saber qual a probabilidade de que a temperatura naquela localidade esteja entre 20 e 25 C. A soluo desse problema pode ser obtida calculando z25 = (25.0o C 22.2 C)/4.4 C = 0.64 e z20 = (20.0o C 22.2 C)/4.4 C = -0.50. Portanto, da tabela fornecida, extramos: Pr{20 C < T 25 C} = 0.739 0.309 = 0.430. EXEMPLO 3. Queremos saber agora qual a temperatura que corresponde ao primeiro decil. Utilizamos novamente a table para achar o valor de probabilidade 0.10. Esta probabilidade cumulativa corresponde quase exatamente a z = -1.28 e x = sz + x = (4.4)(-1.28) +22.2= 16.6 C DISTRIBUIO GAMA: Idias gerais: Muitas variveis atmosfricas so distintamente assimtricas, e possuem uma assimetria para a direita. Muitos de vocs encontraram essas distribuies quando analisaram seus dados para o seminrio. Um dos exemplos mais comuns dessa situao a precipitao. Sabemos que no existem precipitaes negativas, certo? Ento vamos analisar a seguinte situao: suponha que uma certa localidade tenha uma mdia de precipitao diria de 1.96 in e desvio-padro de 1.12 in. Utilizando a tabela de distribuies acumuladas Gaussiana podemos calcular a probabilidade de precipitaes negativas como Pr { Z (0.00 1.96)/1.12} = Pr{Z -1.75} = 0.040. Esta probabilidae calculada no especialmente grande, mas por outro lado no pode ser considerada zero. AGORA, SABEMOS PELA NATUREZA QUE PRECIPITAES NEGATIVAS SO IMPOSSVEIS! Uma escolha comum para representar distribuies contnuas que so assimtricas utilizar a distribuio GAMMA. Esta distribuio definida pela PDF:

( x / ) 1 exp( x / ) f ( x) ( ) , onde x, , > 0

(5.11)

Os dois parmetros da distribuio so , chamado PARMETRO DE FORMA , e O PARMETRO DE ESCALA. A quantitdade () o valor da funo matemtica padro conhecida como FUNO GAMMA, definida pela integral:

( ) = t 1e t dt 0

(5.12)

Fig. 5.3. Funes densidade de probabilidade GAMMA para 4 valores do parmetro de forma (adaptado de Wilks, cap 5)

Em geral, a funo gamma precisar ser avaliada numericamente, ou aproximada usando valores tabulados como os dados acima. A funo gamma satisfaz a recorrncia fatorial:

( + 1) = ( )

(5.13)

Isto permite que a tabela distribuda em sala de aula seja utilizada indefinidamente. Por exemplo, (3.5)= (2.5) (2.5)=(2.5)(1.5) (1.5) =(2.5)(1.5)(0.8862)=3.323. A PDF da distribuio Gamma pode apresentar uma grande variedade de formas, dependendo, portanto, do parmetro de forma . Para valores de muito altos, a distribuio gamma tende Gaussiana O parmetro de escala , tem a funo de ESTICAR OU ENCOLHER (isto escalonar) a funo de densidade gamma para a direita ou esquerda, dependendo das magnitudes gerais dos valores dos dados representados. Existem 2 aproximaes para os estimadores da distribuio Gamma que so fceis de calcular mo. Ambas empregam a estatstica:

D = ln( x )

1 n ln( xi ) n i =1 ,

(5.14)

1) A primeira das duas aproximaes (conhecida por estimadores de Thom Thom (1958)) para o parmetro de forma dada por:

1 + 1 + 4D / 3 4D x =

(5.15)

(5.16)

2) A segunda aproximao polinomial e utilizamos as seguintes equaes:

0.5000876 + 0.1648852 D 0.0544274 D 2 D

(5.17)

Para 0 D 0.5772, Ou

8.898919 + 9.059950 D + 0.9775373D 2 17.79728 D + 11.968477 D 2 + D 3

(5.18)

Para 0.5772 D 17 O parmetro de escala medido como na Eq. 5.16.

Como no caso da distribuio Gaussiana, a funo densidade de probabilidade Gama no analiticamente integrvel. A distribuio Gama precisa portanto ser obtida pelo calculo das aproximaes da CDF (isto , a integral da 5.11) ou a partir das probabilidades tabuladas. A tabela de distribuio de probabilidades Gama ser fornecida em sala de aula (ou pode ser encontrada no final do livro texto tabela B-2). Em qualquer caso, a distribuio de probabilidades gama ser disponvel para uma distribuio gama padro com =1. Portanto, sempre necessrio fazer uma transformao para re-escalonar a varivel X de interesse (caracterizada por uma gama com parmetro de escala arbitrrio ) para a varivel

(5.19)

Que segue uma distribuio gama com =1. A varivel padro admensional (lembre-se que possui a dimenso de seus dados). O parmetro de forma ser o mesmo para X ou para . Veja que este procedimento equivalente transformao para a varivel padronizada z no caso da distribuio Gaussiana. Entretanto, as PROBABILIDADES CUMULATIVAS para a distribuio gama padro so dadas pela funo matemtica conhecida como FUNO GAMMA INCOMPLETA, P(, )= Pr {}=F(). Esta a funo que foi utilizada para calcular as probabilidades que aparecem na tabela B.2. Ou seja, as probabilidades cumulativas para a distribuio gama padronizada na tabela B.2 esto arranjadas de forma INVERSA DO QUE FEITO COM AS PROBABILIADDES GAUSSIANAS. Quer dizer, os quantis (ou valores transformados ) que esto apresentados no corpo da tabela, enquanto as probabilidades cumulativa que esto sendo mostradas na primeira linha da tabela. Na primeira coluna da tabela, a entrada o valor de alfa. Vamos analisar o exemplo dado pelo Wilks. Considere a tabela de dados da precipitao de Janeiro para a cidade de Ithaca durante 50 anos (1933-1982). Queremos avaliar o quo no usual foi a precipitao observada em Ithaca em 1987 (fornecida numa tabela separada). Para esta finalidade, procedemos da seguinte maneira: 1) Calculamos a mdia aritmtica como de costume (no presente caso, a mdia igual a 1.96in) 2) Calculamos o valor da mdia dos logaritmos dos totais mensais (igual a 0.5346) 3) Obtemos o valor de D como na Eq. 5.14 (igual a 0.139) 4) O mtodo de Thom (Eq. 5.15 e 5.17) estimam =3.76 e =0.52in. 5) Avaliamos qual usual foi a precipitao em janeiro de 1987 (=3.15in) com a ajuda da Tab. B2 para os parmetros da Gama que obtivemos anteriormente. Para esta finalidade, vamos primeiro fazer a transformao de variveis indicado na Eq. 5.19. No presente caso, =3.15in/0.52in= 6.06. 6) O passo seguinte encontrar no corpo da tabela onde se encontra a probabilidade 6.06 para =3.76. O valor mais prximo de entrada de =3.75. Vamos olhar na linha correspondente onde est a probabilidade 6.06. Esta se encontra entre os valores tabulados F(5.214)=0.90 e F(6.354)=0.90. A interpolao nos d F(6.06)=0.874. Ou seja, a probabilidade de chover em janeiro menos ou igual a 3.15 in em Ithaca de 0.874. O complementar (1- 0.874) = 0.126 a probabilidade de chover mais do que esse valor (a qual equivalente a aproximadamente 1 chance em 8 (1/8). A tabela B2 pode tambm ser utilizada para inverter a CDF gama para encontrar valores de precipitao correspondendo a probabilidades cumulativas =F-1(p). Valores dimensionais de precipitao so ento recuperados para reverter a transformao na Eq. 5.19. Por exemplo, vamos considerar a estimativa da mediana para a precipitao de janeiro em Ithaca. Esta corresponder ao valor de satisfazendo F() =0.50, o qual, na coluna correspondente a =3.5 na Tab. B2 3.425. O correspondente valor dimensional da precipitao dado pelo produto =(3.425)(0.52in)=1.78in. Por comparao, a mediana amostral da precipitao obtida da tabela com os dados igual a 1.72in. No surpresa que a mediana menos que a mdia de 1.96in, uma vez que a distribuio alongada para a direita. (positivamente alongada ou skewed). O engraado nesta idia (o que est intimamente ligado s caractersticas de uma distribuio Gama) que valores mais baixos do que a mdia so mais provveis de ocorrer do que valores acima da mdia (ou normal).