Você está na página 1de 96

Universidade Federal de Campina Grande - UFCG

Disciplina: Hidrometeorologia

PROGRAMA DE POS-GRADUAÇÃO EM RECURSOSO


NATURAIS

PROF. FRANCISCO DE ASSIS SALVIANO DE SOUSA


e-mail: fassis@dca.ufcg.edu.br
Universidade Federal de Campina Grande - UFCG
Disciplina: Métodos Estatísticos em Climatologia

Considerações Gerais:

• Apresentação
• Clima e o aquecimento global?
• Previsão climática. O que importa? Cálculo ou conclusão? FDP é um modelo
de previsão climática !!!!! Ciência sobrevive de evidências !!!
• Internet é confiável? Sites oficiais e o resto !!!
• O que vamos fazer neste curso?
• Quase tudo que vocês já sabem, mas esqueceram!
• Climatologia é estudar o clima do passado para tentar entender o clima do
“futuro” !!!!!
• Muitas vezes usa-se a estatística como um bêbado usa um poste de luz: Mais
para suporte do que para iluminação.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Avaliação:

• 1ª lista de exercícios para entregar na dia do primeiro estágio do


Curso
Primeira parte: • Entrega dos papers para apresentar seminários
• Exame em sala sem consulta

Segunda parte: • 2ª lista de exercícios para entregar no dia do 2º estágio


• Apresentação individual dos seminários (em Power Point)
• Exame em sala sem consulta

Periódicos da Capes: http://www.sciencedirect.com/


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Definições

A Estatística é uma coleção de métodos para planejar experimentos, obter dados,


organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões.

Estatística é o desenvolvimento de princípios e métodos que poderão ajudar-nos a tomar


decisões em face de incertezas.

Análise estatística é um processo sistemático que inicia com os dados brutos. Esses
dados podem ser do tipo numérico ou categórico. O produto final pode ser informação
útil ou conclusões numéricas.

Subdivisão da estatística: Estatística descritiva e Estatística inferencial


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Definições

Estatística descritiva - descritiva relaciona-se com a organização e resumo dos dados.

Estatística inferencial: consiste de métodos e procedimentos usados para extrair


conclusões acerca do processo gerador intrínseco dos dados. Nossa compreensão física
do fenômeno atmosférico vem em parte da manipulação e análise estatística dos dados.
Neste contexto a ciência atmosférica é provavelmente sensível à interpretação da
estatística inferencial.

Em ciências atmosféricas a estatística tem um papel muito importante, visto que é a


incerteza do comportamento da atmosfera que a torna interessante. A previsão de tempo é
interessante precisamente por causa da incerteza que é intrínseca ao problema.

A aleatoriedade não é um estado de “imprevisibilidade” ou de “falta de


informação” como algumas vezes é imaginada.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Variável

As variáveis são características que podem ser observadas ou medidas em cada


elemento pesquisado (seja por amostragem, levantamento ou experimento), sob as
mesmas condições. Para cada variável, para cada elemento pesquisado, em um dado
momento, há um e apenas um resultado possível.

Por exemplo: P [ X  x]  0,302


X – é a variável que representa o elemento pesquisado
x – é o valor assumido pela variável

Exemplo numérico. Se X representar a precipitação pluvial pode-se escrever:


P[ X  30 mm]  0,302
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Classificação das variáveis
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: População

A coleção de todas as medidas oriundas de uma variável é chamada de POPULAÇÃO.


As medidas utilizadas para descrever ou caracterizar estatisticamente uma população são
chamadas de PARÂMETROS, representados por letras gregas (μ, σ).

Amostra - Como em geral as populações são muito grandes, se faz necessário o


uso de amostras para representá-las. Essas são formadas por uma fração da
população em estudo.

As estimativas dos parâmetros calculados a partir das amostras são chamadas


genericamente de ESTATÍSTICAS e são representadas por letras latinas (x, s ...)

O conjunto de dados que descreve o comportamento de uma variável pode ser


estudado e representado na forma de distribuição de freqüências.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Agrupamento de dados

DADOS BRUTOS Intervalo Freqüência

[15 17) 7
17,9 23,0 16,1 18,1 18,0
[17 19) 19
17,9 19,4 16,2 19,8 20,5 [19 21) 11
20,0 23,4 16,8 26,3 18,5 [21 23) 5
18,0 22,6 16,7 18,4 19,2 [23 25) 6
17,9 20,2 16,2 21,0 18,5 [25 27) 1
[27 29] 1
18,9 22,1 17,2 20,1 20,9
17,6 25,0 15,7 18,2 23,5
18,5 22,0 15,7 17,5 19,2 Com base em uma amostra de
18,8 24,0 24,7 18,6 25,0 observações pode-se tirar conclusões
17,7 20,2 28,0 17,1 21,1 acerca da população.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Análises Estatísticas

Estatística
População descritiva
Amostra

Inferência estatística da pop. Erro Probabilidade

Estatística descritiva: parte da estatística que descreve os aspectos importantes de um


conjunto de características observadas.

Probabilidade: número que indica a chance de uma determinada situação ocorrer.

Inferência estatística:parte da estatística que usa uma amostra para fazer generalizações
a respeito de aspectos importantes de uma população.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Definições básicas

População: Coleção completa de todos os elementos a serem estudados (Ex.: todos os


dados climáticos de uma estação meteorológica)
Censo: Coleção de dados relativos a todos os elementos de uma população (Ex.: valores
assumidos pelos dados climáticos)
Amostra: Coleção de dados extraídos de uma parcela da população (Ex.: evaporação
diária, precipitação mensal, temperatura média, insolação média de 5 dias)
Parâmetro: Medida numérica que descreve uma característica de uma população (Ex.:
Precipitação média anual é um parâmetro)
Estatística: Medida numérica que descreve uma característica de uma amostra (Ex.:
precipitação média das máximas é uma estatística)
Estimativa: Valor resultante do cálculo de uma estatística, quando usado para se ter idéia
do parâmetro de interesse
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Abusos da Estatística

Pequenas amostras: Pesquisou-se 10 dentistas. “7 entre 10 dentistas recomendam o creme


dental da marca X.”
Estimativas por suposição: “O sindicato estimou em 2 milhões os presentes na
manifestação de greve em São Paulo.” Fotos aéreas e cálculos baseados em grades, feitas
pela PM, estimaram em 80.000 pessoas.
Porcentagens distorcidas: “Tirei 1,0 na primeira prova. Na segunda, minha nota foi 2,0.
Melhorei 100%!”
Perguntas tendenciosas: “Você é a favor da suspensão do pagamento da dívida externa,
sobrando assim mais dinheiro para ajudar as criancinhas famintas?”
“Você é a favor da proibição da fabricação e venda de armas mortíferas de fogo no
Brasil?”
Pressão do pesquisador ou ambiente: “Você já traiu seu (a) companheiro (a)? ”Pergunta
feita com o (a) companheiro (a) ao lado.
Más amostras: Pesquisas feitas em sites da internet (pesquisa auto-selecionada).
Não se pode concluir nada sobre a população em geral.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Função geratriz de momentos:
O comportamento estatístico de uma variável aleatória é completamente especificado por
sua função massa (ou densidade) de probabilidades, a qual, por sua vez, pode ser
determinada por certo número de momentos, suficientes para particularizar sua forma. A
função geratriz de momentos de uma distribuição de probabilidades é uma função φ(t), do
argumento t definido no intervalo (-ε, +ε) em torno de t = 0, que permite o cálculo
alternativo de seus momentos em relação à origem, de ordem genérica k≥1. Para uma
variável aleatória X, a função φ(t) é definida por:
  etx . p ( x), para x discreta
 todo x
 (t )  E (etx )   
  etx . f ( x)dx, para x contínua
 
A função φ(t) é chamada geratriz de momentos porque sua k-ésima derivada em relação a
t, calculada no ponto t = 0, fornece o momento da distribuição massa (ou densidade) de
probabilidades em questão. Por exemplo, supondo que k = 1, tem-se:
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Função geratriz de momentos:

d  detx 
  E[ xe ]   (t  0)  E[ x]  1
tx tx
 (t )  E[ e ]  E 
' '

dt  dt 

Do mesmo pode-se concluir que:  '' (0)  E[ x 2 ]  2'' ,  ''' (0)  E[ x3 ]  3'''

No primeiro caso: 1' é a média, 2' é a variância e 3' é o momento de ordem 3,


populacionais centrados na origem.

Momentos de ordem r amostrais para dados agrupados centrados na média:

1 n
mr   fi .( xi  x ) r
se r =1, m1= 0 soma dos desvios
se r = 2, m2 = S2
n i 1
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Medidas de tendência central
Determina valores típicos ou representativos de um conjunto de dados

Média: média aritmética ou média é o centro do conjunto de dados – ponto de equilíbrio.


É a mais importante medida de tendência central.
n
Para dados não agrupados: X   xi
i
n1
Para dados agrupados: X   xi . f i
i 1
Em que xi , fi são o ponto médio e a freqüência, respectivamente.

Obs.  média populacional e x  média amostral

Mediana (X ): Valor do meio do conjunto de dados, quando os valores estão dispostos em


ordem crescente; divide um conjunto em duas partes iguais. Para calcular disponha os
valores em ordem crescente. Se o número de valores é ímpar, a mediana é o número
localizado no meio da lista Se o número é par, a mediana é a média dos dois valores do
meio.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Medidas de tendência central

Moda (M): É o valor que ocorre com maior freqüência. Quando dois valores ocorrem
com mesmas freqüências, cada um deles é chamado de moda, e o conjunto é BIMODAL
Se mais de dois valores ocorrem com mesmas freqüências, cada um deles é uma moda e o
conjunto é MULTIMODAL. Quando nenhum valor é repetido o conjunto não tem moda.
Ponto médio: Valor que está a meio caminho entre o maior e o menor valor
valor maior  valor menor
Ponto médio
2
Seja o seguinte conjunto de valores:
5 7 8 10 12 15 20
5 7 8 10 12 15 200
média = 11, mediana = 10 e ponto médio = 12,5
Se alterarmos significativamente o último valor:
média = 36,7, mediana = 10 e ponto médio = 102,5
Universidade Federal de Campina Grande - UFCG
Disciplina: Métodos Estatísticos em Climatologia
Medidas de tendência central

Conclusão!

Deve-se tomar cuidados ao escolher uma medida de posição para representar um


conjunto de dados, pois:

“Média” e “Ponto Médio” são muito afetadas por valores extremo

Em geral, a melhor política é utilizar os dois parâmetros: “média” e “mediana”


Valores de “Média” e “Mediana” muito próximos indica que o conjunto de valores é
razoavelmente simétrico em relação à posição central.

Razão média/mediana ~ =1 (caso da f.d.p. Normal)


Universidade Federal de Campina Grande - UFCG
Disciplina: Métodos Estatísticos em Climatologia
Separatrizes

• Percentis
• Decis dados ordenados
• Quartis

• Escore padronizado ou escore z

Os percentis dividem o conjunto de dados em 100 partes iguais. O percentil indica o


percentual de dados inferiores a ele.

Exemplo: o P92 (92o percentil) indica que há 92% de dados inferiores.


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Exemplo:

Dado o conjunto de valores, calcule o 25º percentil (os valores devem estar ordenados)

72, 74, 75, 77, 78, 79, 82, 85, 86, 90, 93, 94

Calcule: L= (k/100).n
• L: posição do percentil desejado no conjunto de dados ordenado
• k: percentil desejado = 25 %
• n: número de valores = 12
L=(25/100).12=3
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Exemplo

L é um número inteiro?

SIM - o k-ézimo percentil está a meio NÃO - Modificar L, arredondando seu valor
caminho do L-ézimo valor e o próximo para o inteiro maior mais próximo. Ex.: se
valor do conjunto de dados. n=11 => L=2,75. Logo a posição do k-ézimo
Assim, L=3 para n=12 percentil será 3.
Assim, L=3 para n=11, exemplo retira 77
P25 = (L3+ L4)/2 = (75+77)/2 = 76
P25 = (L3+ L4)/2 = (75+78)/2 = 76,5

Resumo: Para dados com decimais a posição do percentil é visível


Para calcular a qual percentil pertence um dado valor:
número de valores inf eriores a x
P ercentil do valor x  .100
número total de valores
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Processo alternativo

Seja o seguinte conjunto de n=8 valores ordenados: 5, 7, 8, 10, 12, 15, 20, 25, calcule o
25º e 75º percentis

Aplica-se: LP= (n-1). (p/100) + 1

L25= (8-1). 0,25 + 1 = 2,75 ***** L75= (8-1). 0,75 + 1 = 6,25

Obs. Uma série com valores decimais, as posições dos percentis seriam mais visíveis
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Decis e Quartis

Dividem o conjunto de dados em 10 partes iguais de 10%. Portanto, há nove decis numa
nesse conjunto dividido em 10 grupos de 10% de dados.

Os decis são os percentis: P10, P20, P30, P40, P50, P60, P70, P80, P90
Assim, o primeiro decil corresponde a 10% dos dados D1= P10 ...................,D9= P90

Os quartis dividem o conjunto de dados em quatro partes iguais de 25%.

Temos assim três quartis nesse conjunto,

O 1º quartil ou Q1, separa os 25% de dados inferiores


O 2º quartil ou Q2, separa os 50% de dados inferiores
O 3º quartil ou Q3, separa os 75% de dados inferiores.

Q1=P25, Q2=P50 e Q3=P75 ***** Note que Q2=Q50=Mediana


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Outras medidas descritivas

Baseado nos conceitos de Percentis, Decis e Quartis, pode-se definir outras descrições
estatísticas:

Intervalo interquartil Q3 – Q4
Intervalo semi-interquartil (Q3 – Q1)/2
Quartil médio (Q3+ Q1)/2
Amplitude de percentis P90-P10
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Estatística descritiva
As três principais características de um conjunto de dados são:
• Um valor representativo do conjunto de dados: média (Medidas de Tendência Central)
• Uma medida de dispersão ou variação: desvio-padrão
• A natureza ou forma da distribuição dos dados: Normal, Log-normal, uniforme.
(Tabelas de freqüências e histogramas)
Medidas de Variação: Determina a característica de variação de um conjunto de dados
• Amplitude = Diferença entre o maior e o menor valor do rol de dados
• Coeficiente de variação CV ( S / X ).100 (%) n
 xi  x
• Desvio médio ou desvio absoluto i 1
D
 
1 n 2 n
• Variância 2
S   xi  x
n  1 i 1
• Desvio-padrão S S2

• Desvio D  xi  x
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Fórmula alternativa para o cálculo do desvio-padrão

n 2 n 2
n.(  x  (  x )
S i 1 i 1
n( n  1)

Vantagens e desvantagens:

• Mais conveniente para uso com números extensos e com grande amostra de valores
• Maior facilidade de uso com calculadoras e computadores (apenas três registros: n, Σx e
Σx2)
• Elimina erros de arredondamento
• Não evidencia o conceito de desvio-médio da fórmula tradicional

OBS. X  média amostral,   média populacional


S  desvio  padrão amostral ,   desvio  padrão populacional
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Utilidade do desvio-padrão

• Indica a dispersão dos dados; quanto mais dispersos maior o desvio-padrão


• Regra prática: Desvio padrão ≅ amplitude/4 (só usar em casos muito extremos)
• valor mínimo ≅ média –2.S
• Valor máximo ≅ média + 2.S

Teorema de Tchebichev
A proporção de qualquer conjunto de dados a menos de k desvios-padrão, a contar da
média é sempre ao menos 1-1/k2, onde k é um número positivo maior do que 1.
Exemplo: Para k=2 e k=3 tem-se:
• Ao menos 3/4 ou 75% de todos os valores estão no intervalo de [ X  2.S ; X  2.S ]
•Ao menos 8/9 ou 89% de todos os valores estão no intervalo de [ X  3.S ; X  3.S ]
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Uso do Teorema de Tchebichev

Exemplo: Barbeadores elétricos sem fio da marca Z têm vida útil média de 8,0 anos, com
desvio padrão de 3,0 anos. Faça uma estimativa da vida mais breve e da mais longa.

Tchebichev também é útil para identificar valores “estranhos” em um conjunto de dados:


aqueles que ficam de fora do intervalo!
Identificando “outliers” (anomalias)
• “Outliers” são valores estranhos que se localizam muito distantes da média;
• Por isso, as estatísticas descritivas são, usualmente, muito influenciadas
(contaminadas) por eles;
• Podem ser originados em erros de coleta ou em desvios de processo;
• Esses outliers devem ser muito bem analisados antes de um possível descarte!
• Tchebichev pode nos ajudar na identificação de outliers;
• Valores fora do intervalo [ X  2.S ; X  2.S ] devem ser analisados para um possível
descarte (valores estranhos).
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Uso do desvio-padrão

Indica a dispersão dos dados: quanto mais dispersos maior o desvio padrão
• Regra prática desvio-padrão ≅ amplitude/4 (só usar em casos muito extremos)
• valor mínimo ≅ [ X  2S ]
• valor máximo ≅ [ X  2S ]
Teorema de Tchebichev
A proporção de qualquer conjunto de dados a menos de k desvios-padrão a contar da
média é sempre ao menos 1-1/k2, onde k é um número positivo maior do que 1. Para k=2
e k=3, temos:
• Ao menos 3/4 ou 75% de todos os valores estão no intervalo [ X  2S ; X  2S ] de ±2
desvios-padrão em torno da média;
• Ao menos 8/9 ou 89% de todos os valores estão no intervalo [ X  3S ; X  3S ] de ±3
desvios-padrão em torno da média,
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Exercício

Barbeadores elétricos sem fio da marca Z têm vida média de 8,0 anos, com desvio-padrão
de 3,0 anos. Faça uma estimativa:

• da vida mais breve => 2 anos


• da vida mais longa => 14 anos

Tchebichev também é útil para identificar valores “estranhos”em um conjunto de dados:


aqueles que ficam de fora do intervalo !
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Mais medidas de dispersão

O Coeficiente de Variação indica a magnitude relativa do desvio-padrão quando


comparado com a média do conjunto de valores

CV  S amostral CV  S populacional
X X

É útil para comparar a variabilidade (dispersão) de dois conjuntos de dados com ordens
de grandezas diferentes.
Seja o seguinte conjunto de preços de geladeiras em 7 lojas distintas

750,00; 800,00; 790,00; 810,00; 820,00; 760,00; 780,00


Seja o seguinte conjunto de preços de liquidificadores nas mesmas

50,00; 45,00; 55,00; 43,00; 52,00; 45,00; 54,00

Qual dos produtos têm uma maior variabilidade de preços?


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Mais medidas de dispersão

• Uma vez que uma geladeira custa bem mais que um liquidificador, a tendência é que o
desvio-padrão da geladeira seja também maior!
• O coeficiente de variação é uma medida adimensional que normaliza o desvio padrão
em relação à média;

CV  25,63 .100 3,3% CV  4,81 .100  9,8%


gel 787,17 liq 49,14
• Com os valores dos CVs pode-se concluir que os preços da geladeira têm menor
variabilidade que os do liquidificador.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Mais medidas de dispersão

• Uma medida de dispersão alternativa que pode ser empregada é o intervalo interquartil
ou amplitude interquartílica. É dado pela diferença entre o terceiro e o primeiro quartis;

Dj= Q3-Q1= P75-P25

• Só aproveita 50% dos dados;


• Pouco influenciada pelos valores extremos

Escore padronizado - Número de desvios-padrão pelo qual um valor dista da média (para
mais ou para menos)
x X
Zi  i
S é uma relação linear entre Zi e Xi

Pode ser utilizado para comparar valores de variáveis com unidades diversas (mm, m3/s)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Exercício

As alturas da população de homens adultos dos EUA têm média μ=1,752 m, desvio-
padrão σ=0,071 m e distribuição Normal). O jogador de basquete Michael Jordan, que
mede 1,98m, pode ser considerado excepcionalmente alto? Determine o escore padrão
para ele.

Calcula-se o escore z conforme segue:

x   1,981,572
Zi  i   3,211
 0,071
Este resultado indica que a altura de Michael Jordan está a 3,21 desvios-padrão acima da
média da população. Considerando que valores acima ou abaixo de 2 desvios da média
são incomuns, conclui-se que Michael Jordan é de fato excepcionalmente alto comparado
com a população geral.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de Freqüência

A representação do conjunto de dados é dada por: Freqüência relativa


Freqüência acumulada
Representação gráfica (Histograma)

Os dados agrupados podem ser resumidos em tabelas ou gráficos e, a partir desses, pode-
se obter estatísticas descritivas já definidas: média, mediana, desvio, etc.
Dados organizados em grupos ou categorias/classes são usualmente designados como
“distribuição de freqüência”
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Construindo uma distribuição de freqüência

Determine a número de classes (k)

• Regra de Sturges k = 1 + 3,3log (n)


• Regra da Potência de 2 k = menor valor inteiro tal que 2k≥n
• Regra de Brooks e Carrutheres k=5.log (n)+1
• Regra da Raiz Quadrada k=raiz (n)
• Bom senso (decida a quantidade de classes que GARANTA observar como os valores
se distribuem) “Acochambration method”

Há necessidade de regras para agrupar dados?


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Regras para agrupar dados

1. calcula-se a amplitude total do rol (diferença entre o maior e o menor número);


2. calcula-se o número de classes k=5.log (n)+1, em que n é o tamanho da amostra;
3. determina-se o intervalo de classe IC= amplitude total/NC;
4. calcula-se o ponto médio de cada classe;
5. determina-se o número de observações que caem dentro de cada intervalo de classe
(contagem das freqüências de classes);
6. freqüência relativa (freqüência da classe dividida pela freqüência total), expressa em
percentagem;
7. constrói-se o histograma de freqüência;
8. constrói-se o polígono de freqüência (ligação dos pontos médios de cada classe);
9. freqüência acumulada e representação gráfica (ogiva);
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Construindo uma distribuição de freqüência

• Uma distribuição de freqüência representada por um gráfico de barras é denominada


histograma;
• Outro gráfico de interesse é o polígono de freqüência
• O polígono de freqüência é obtido unindo-se os pontos médios da parte superior de cada
retângulo do histograma com segmentos de reta;
• É importante notar que tanto o histograma quanto o polígono de freqüência indicam a
freqüência observada de cada classe;
• Em um histograma, as classes devem SEMPRE ter a mesma largura?
• Não necessariamente!
• Existem casos em que é mais adequado agrupar os dados em classes com
larguras desiguais.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia

Construindo uma distribuição de freqüência

• A representação gráfica dos dados em um histograma com classes de larguras desiguais


requer a transformação dos valores de freqüência absoluta em densidade de freqüência.
• Isso é fundamental pois deve-se manter a área dos retângulos proporcionais à
freqüência da classe
freqüência da classe
• A densidade de freqüência é dada por: D f 
l arg uradaclasse
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Estatísticas para dados agrupados

• Quando os dados estão resumidos em uma tabela de freqüências, pode-se calcular


a média aritmética ponderada considerando os pontos médios de cada intervalo de classe
e suas freqüências:
1 n
X  fi .xi
n i 1

xi = ponto médio da classe


fi = freqüência
n
n   fi
i1
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Moda e mediana para dados agrupados

Método de Pearson para a moda: M o  3.M d  2.X

Em que Md é a Mediana e X é a Média

Cálculo da moda para dados agrupados: Método de Czuber


f M  fant
M o  L im  o .h
inf f  ( f  f )
Mo ant post

Em que
Liminf: limite inferior da classe modal
fMo: freqüência da classe modal
fant: freqüência da classe anterior à modal
fpost: freqüência da classe posterior à modal
h: amplitude da classe modal
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Moda e mediana para dados agrupados

Mediana é o valor localizado por Lx = n/2. Em seguida determina-se a mediana por:


h.( LX  Fant )
X  L im 
inf fi

Em que Lx é o localizador (posição) da Mediana


Fant é a freqüência acumulada até a classe anterior à classe da mediana
Fi é a freqüência relativa da classe da mediana
h é a amplitude de classe
Liminf é o limite inferior da classe da mediana

O Intervalo interquartil (amplitude interquartílica) é uma medida de dispersão alternativa. É dada


pela diferença entre o terceiro e o primeiro quartis.
Dj= Q3- Q1= P75 - P25
• Só aproveita 50% dos dados
• Pouco influenciada pelos valores extremos
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Cálculo dos Percentis para dados agrupados

O percentil é o valor localizado por LPX=(k/100).n; k é o percentil desejado (ex.: P45


k=45). Após cálculo de LPX, determina-se o valor do percentil por:
h.( LPX  Fant )
P  L im 
X inf fi

Em que

LPX – localizador (posição) do Percentil


Fant - freqüência acumulada até a classe anterior à classe do percentil
Fi - freqüência relativa da classe do percentil
h - amplitude de classe
Liminf - limite inferior da classe do percentil
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Desvio-padrão alternativo para dados agrupados

n 2 n 2
n.[  ( fi xi )][  ( fi xi )]
S i 1 i 1
n(n 1)

Xi = ponto médio da classe


f i= freqüência da classe
n = tamanho da amostra (n= Σfi)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Assimetria

Comparando a média, a moda e a mediana, pode-se analisar a assimetria da distribuição:


A distribuição pode ser: - assimetricamente negativa (assimetria para a esquerda)
- assimetricamente positiva (assimetria para a direita)
- simétrica
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Coeficiente de assimetria

As comparações anteriores, por ser absoluta, apresenta a mesma deficiência do desvio-


padrão, isto é, não permite a possibilidade de comparação entre as medidas de dois
conjuntos de dados. Por esse motivo, daremos preferência ao coeficiente de assimetria
de Pearson:

As = 3.( Média - Mediana ) / Desvio Padrão (média=mediana As=0 simetria)

Escalas de assimetria:
| As | < 0,15 => assimetria pequena
0,15 < | As | < 1 => assimetria moderada
| As | > 1 => assimetria elevada

Obs: Se As = - 0,49 => a assimetria é considerada moderada e negativa


Se As = 0,75 => a assimetria é considerada moderada e positiva
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• Histograma é uma ferramenta estatística que permite resumir informações de um


conjunto de dados, Nele visualiza-se a forma da distribuição, a localização do valor
central e a dispersão dos dados em torno do valor central;

• Freqüentemente se obtém informações úteis sobre a população/amostra de dados pela


análise da forma do histograma
• O valor médio está localizado no centro do
histograma;
• A freqüência é mais alta no meio e diminui
gradualmente na direção dos extremos
• É possível os valores dessa variável se ajuste
a uma f.d.p Normal (média=moda=mediana)

Simétrico
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• O valor médio está localizado fora


do centro do histograma
• A freqüência diminui gradativamente
em um dos lados e de modo um tanto
abrupto do outro lado.
• Poderá se ajustar à uma f.d.p de
Gumbel, Log-normal ou Gamma
Assimetria positiva
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• O valor médio está localizado fora


do centro do histograma
• A freqüência diminui abruptamente
no lado direito
• Poderá se ajustar à uma f.d.p de
Gumbel, Log-normal, Gamma ou
Exponencial
Assimetria positiva
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• Parte do gráfico é relativamente


simétrico com o acréscimo de algumas
classes mais afastadas de menores
freqüências
• Ocorre quando dados de outra
distribuição, diferente da distribuição da
maior parte dos dados observados, são
Picos isolados incluídos
• Evento com anormalidades, ou erro de
medição e/ou registro de dados
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• A freqüência é mais baixa no


centro do histograma e existe um
“pico”em cada lado
• Ocorre quando dados de duas
distribuições, com médias muito
diferentes, são misturados.

Bimodal
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Interpretando histogramas

• Todas as classes possuem mais ou menos


a mesma freqüência, exceto |àquelas das
extremidades;
• Ocorre quando dados de duas
distribuições, com médias não muito
diferentes, são misturados.

Achatado ou platô
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Coeficiente de Curtose
Denomina-se curtose o grau de achatamento de uma distribuição em relação a uma
distribuição padrão (curva normal). A curva normal, que é a nossa base referencial,
recebe o nome de mesocúrtica.
C1 = (Q3 - Q1) / 2(P90 - P10) Este coeficiente é conhecido como
percentílico de curtose. Em relação a
 n 4 curva normal (simétrica), temos:
  fi. ( xi  x ) 

C 2  i 1
 / S4
 n 
  C1 = 0,263 => curva mesocúrtica
  C1 < 0,263 => curva leptocúrtica
C1 > 0,263 => curva platicúrtica
Em que S é desvio padrão
C2 = 3 => curva mesocúrtica Obs: fórmula está dentro da planilha Excel
C2 > 3 => curva leptocúrtica
C2 < 3 => curva platicúrtica

O coeficiente C2 acima será utilizado em nossas análises:


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Coeficiente de Curtose

Estima o grau de achatamento de uma distribuição em relação à distribuição Normal.

C2 = 3 = C2 > 3 C2 < 3
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Probabilidade

• Conceito clássico de probabilidade: Se há “n” possibilidades igualmente prováveis, das


quais uma deve ocorrer e, dessas, “s” são consideradas como sucesso, então a
probabilidade do resultado ser um sucesso é de s/n.
• Medida das incertezas relacionadas a um evento;
• Chances de ocorrência de um evento;
• Exemplo:
Qual a probabilidade de se extrair um ás de baralho bem misturado de 52 cartas?
Bem misturado significa “qualquer carta tem a mesma chance de ser extraída”.
Como temos 4 ases em 52 cartas, vem: S/n = 4/52 = 1/13
S = sucesso. Total de eventos de interesse: 4 ases
N = Total de possíveis retiradas: 52 cartas

Observação: Problema clássico de probabilidade, uma vez que todas as cartas tem a
mesma chance de ocorrer (equiprováveis)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Probabilidade

Exemplo:

Qual a probabilidade de se obter um 3 ou um 4 em uma jogada de um dado equilibrado?


• Probabilidade = S/n =2/6 = 1/3
Observações:
• problema clássico de probabilidade, uma vez que o dado está “equilibrado”.
• S = resultados de interesse = 2 (3 ou 4)
• n = resultados possíveis = 6 (1,2,3,4,5,6)

Diagrama de Veen
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Probabilidade

Limitação do conceito clássico (a aplicação é limitada)

Exemplo: Probabilidade de chover amanhã.


Eventos possíveis: n = 2 (chuva, não chuva)
Eventos de interesse: s = 1 (chuva)
Probabilidade = s/n = 1/2 ????? NÃO SE PODE AFIRMAR
Observação:
Os eventos não possuem a mesma chance de ocorrer, os eventos não podem ser
considerados como igualmente prováveis.

Definição freqüencial de probabilidade - A freqüência relativa de ocorrência do evento A


em grandes amostras determina a probabilidade de ocorrência futura deste mesmo evento.
f número de ocorrências do evento A
P( A)  i 
N total de eventos
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Probabilidade
Exemplo:

Se o serviço meteorológico afirma que há 40% de chance de chover, é porque, sob as


condições de tempo previstas para o referido dia, há freqüência de chuva em 40% das
vezes.

OBS. Não se pode garantir matematicamente as ocorrências; contudo, pode-se inferir


com base nos dados observados no passados.

Lei dos grandes números - Quando maior for a repetição do experimento, maior a
aproximação da probabilidade efetiva de acontecimento de um determinado evento
através da freqüência relativa.

Amostras aleatórias - Para calcular probabilidades, os eventos devem ser escolhidos de


uma amostra de “n” elementos da população que tenham as mesmas chances de serem
escolhidos. A amostra deve ser de dados representativos, imparciais e não-tendenciosos.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Contagem de probabilidades
Exemplo:

Uma pessoa pode ir de um ponto A até o ponto B por dois caminhos: do ponto B ela pode
ir ao ponto C por 3 caminhos. Quantas alternativas tem essa pessoa de sair do ponto A ir
ao B e então seguir para o ponto C?
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Variáveis Aleatórias

• Variável aleatória DISCRETA


Numa amplitude determinada, admite um número finito de valores, ou tem
inúmeros valores;

• Variável aleatória CONTÍNUA


Pode tomar um número infinito de valores ou ser associada a uma mensuração em uma
escala contínua.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de Probabilidade

Quando se conhece todos os possíveis valores de uma variável aleatória com suas
respectivas probabilidades de ocorrência, tem-se uma DISTRIBUIÇÃO DE
PROBABILIDADE. Assim, uma distribuição de probabilidade fornece a probabilidade
de ocorrência de cada um dos valores que uma variável aleatória pode assumir.

• Observe que a distribuição de probabilidade é uma correspondência que associa


probabilidades aos valores de uma variável aleatória;
• Ou seja, é uma FUNÇÃO dada por P( X  x )  f ( X ) que relaciona a probabilidade de
i
ocorrência de um valor da variável aleatória.
• Uma variável aleatória associa um valor numérico a cada resultado de um observação
aleatória;
• Uma distribuição de probabilidades associa uma probabilidade a cada valor de uma
variável aleatória.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Definição

Uma Função Distribuição de Probabilidade (f.d.p) é um modelo teórico ao qual uma


amostra observada pode ser ajustada a fim de estimar as probabilidades de ocorrências
dos valores da variável aleatória.

Distribuição Normal: Entre as distribuições teóricas de variável aleatória contínua, uma


das mais empregadas é a distribuição Normal. A natureza específica de uma distribuição
teórica é determinada pelos valores dos seus parâmetros. A f.d.p da distribuição normal é
definida por:
1
 ( Xi  )2 / 2
f (X )  1 e 2
 2
  média populacional;   desvio  padrão populacional
(x  ) Substituindo Zi em f(X) e
Z  i integrando de  a zi obtém-se
i  , var iável reduzida
a probabilidade sob a curva
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Propriedades da distribuição normal

1ª - A variável aleatória X pode assumir todo e qualquer valor real.

2ª - A representação gráfica da distribuição normal é uma curva em forma de sino,


simétrica em torno da média, que recebe o nome de curva normal ou de Gauss;

3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área
corresponde à probabilidade de a variável aleatória X assumir qualquer valor real;

4ª - A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se


indefinidamente do eixo das abscissas sem, contudo, alcançá-lo;

5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior


que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas
as probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de
probabilidade.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Distribuição normal

Média = Moda = Mediana


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Efeito das variações dos parâmetros (média idêntica, variação dos
desvios-padrão)

=1
=5
= 10
X
 = 50
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Efeito da variação dos parâmetros (desvios-padrão idêntico e
variação das médias)

=5 =5 =5

X
 = 15  =25  = 40
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Efeito da variação dos parâmetros (Variação das médias e dos
desvios-padrão)

=1
= 3
 = 10

 = 15  =25  = 40
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Áreas sob a curva Normal

16% 16%
68.26%
X
1 1

2.25% 2.25%
95.45%
X
2 2

0.135% 99.73% 0.135%


X
3 3
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Normal N(0, 1)

 z = 1

x z
 z =0

(x  )
Z  i
i  , var iável reduzida
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações Gerais: Exemplo P(3.8  x  5)

=10 x  3,8  5
z    ,12
 10

3.8 = 5 X

0,0478

0 Z
-0,12
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Curvas da Normal: f.d.p e acumulada

Distribuição Normal (densidade de probabilidade) Distribuição Normal (função acumulada de probabilidade)


Computação da função distribuição e de seus quantils
(a escala horizontal é determinada por valores paramétricos)
(a escla horizontal é determinada pelos valores
paramétricos)
0,45

0,4

0,35
1,2
0,3
1
0,25

0,2 0,8

0,15 0,6

0,1 0,4

0,05
0,2
0
-4 -3 -2 -1 0 1 2 3 4 0
-0,05 -4 -3 -2 -1 0 1 2 3 4

Prob. density Mean value Selected probability Distr. function Computation of quantiles Computati

Função Densidade f(x) Probabilidade Acumulada F(x)


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Normal (0,1)

Probabilidade de não excedência

Fazendo variar a variável reduzida z com valores incrementais 0,0002 obtém as


probabilidades acumuladas
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de probabilidade Normal bivariada
Esta distribuição descreve o comportamento conjunto de duas variáveis gaussiana X e Y.
Suponha duas variáveis aleatórias normalmente distribuídas, X e Y. Os valores esperados
são  X , Y e os desvios-padrão  X ,  Y . Os valores esperados condicionais de Y e X
são linearmente relacionados por:
E[Y|X]=Y + ( X / Y ).(X- X )
Em que ρ é a correlação entre Y e X. Se o valor de X for conhecido, o valor esperado de Y é dado
pelo lado direito da expressão. Essa expectância de Y é chamada de valor esperado condicional de Y,
dado X. Se X e Y for linearmente relacionadas, então a correlação entre X e Y pode ser usada para se
fazer previsão de Y, dado X=x. Assim, a distribuição conjunta de Y e X é Normal bivariada. A
variância condicional de Y é relacionada a sua variância incondicional pela formula:

SY | X  Y2 1  2  e a função densidade de probabilidade Normal bivariada é:

  2
 x   x   y   y  
1  x   x   y   y 
2
1  
f ( x, y ,  )  exp       2    
   
2  x y (1   2 )  2 (1   )   x    y    x    y  
2
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de probabilidade Normal bivariada

Com cinco parâmetros:  x , y , x ,  y e , a função de probabilidade Normal bivariada


acumulada é:
x2 y2
P ( y1  Y  y2 ) ( x1  X  x2 )    f ( x, y,  )dy dx
x1 y1
Visto que X e Y são individual e normalmente distribuídas, cada uma delas pode ser
transformada em uma variável aleatória =1 normal padronizada, que chamaremos de Z1 e Z2,
usando:
x  x x  y
Z1  i , e Z2  i , assim, a função densidade de probabilidade Normal
x y
bivariada padronizada é:
1  1  Z12  2  Z1 Z 2  Z 22  
f ( Z1 , Z 2 ,  )  exp    
2  1  2
 2 1   2


 x   y  0 e  zx   z y
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de probabilidade Normal bivariada

Função densidade de probabilidade


Normal bivariada padronizada

A computação da probabilidade normal bivariada não é trivial, mas uma aproximação


analítica desenvolvida por Drezner (1978) pode ser usada e fornece resultados muito
bons. A planilha Excel, probcalc.xls, calcula as probabilidades Normal univariada e
bivariada. Com base nas variáveis reduzidas Z1 e Z2 e no coeficiente de correlação linear
(ρ) — N2 ~ (Z1, Z2; r) = P[X |Y] — pode-se obter as probabilidades Normal bivariada
entre X e Y.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Log-normal

Admita que a variável X tenha distribuição log-normal, ou seja que Y=ln (X) tenha
distribuição normal com média  e variância  2.

Assim, X  ln( ,  2 )  0  X     parâmetro de escala (  0)


  parâmetro de forma(  0)

a função densidade de probabilidade (assimétrica e positiva) de X é expressa por:

1  (ln x  )2 
f ( x)  exp    , com
 x 2  2 2 

1
média    exp(   2 )
2
2 2  2
 2
var iância    e .e .[e 1]
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Log-normal

Se X tem distribuição log-normal com parâmetros  ,  2, então ln (x) tem distribuição


normal com parâmetros  ,  2, ou seja:

X  ln( ,  2 )  0  X   S.S.S ln( x)  N (, 2 )


Transformação: Yi = ln (Xi) e
(Y  )
Z  i , var iável reduzida ou, logaritmizando os dados observados tem-se;
i 

ln( xi )   y
Zi 
y

Xi – limite superior de cada classe


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Exponencial - A função densidade de probabilidade exponencial (assimetria
positiva) é expressa por (1) e a função acumulada por (2).
 x
(1)  f ( x )   e
para x  0,   0
 x
(2)  F ( x )  1  e
A (2) ainda pode ser escrita como: P ( X  x )  1  e  x probabilidade de não
excedência, após integrar (1).

Parâmetros:
E[ X ]  1 
2
V[X ]  1 

Obs. Para dados agrupados a variável x das funções é o limite superior de cada classe
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Exponencial

Sejam os limites de chuva [25 a 48] mm e a média igual a 72,5 mm. Estime a
probabilidade de ocorrer chuva igual ou inferior a 48 mm, com limite inferior igual a 25
mm, então:

λ=1/E[x]=1/72,5=0,0138

P[25≤X≤48] =Area = 1 – exp[-0,0138*48]


= 1 – 0,5157 P[X>x]
= 0,4843
= 48,43 %

P[X≤x]= probabilidade de não excedência


P[X>x]= probabilidade de excedência
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Gumbel – os eventos extremos geralmente se ajustam à essa distribuição de
probabilidade, assimetricamente positiva. Gumbel é mais usada na analise de freqüência
de variáveis hidrológicas: relações intensidade-duração-freqüência de chuvas intensas e
estudos de vazões de cheias. A função de densidade de probabilidade é dada por:
(1)
1    x       x      em que α e β são os parâmetros de locação e de
f ( x)  exp  exp   
        

escala, respectivamente. A função distribuição de probabilidade acumulada é dada pela


integral de (1):

   x      (2)
F ( x)  exp  exp   
    
6 ˆ
Estimativa dos parâmetros ˆ  S. e   x   .ˆ em que γ=0,57721 é a constante de

Euler. Para aplicação à dados agrupados utiliza-se a variável reduzida: y  ( xi   )  (3)
Substituindo (3) em (2) tem-se:
F ( y)  exp[ exp( y)]  P[Y  y]  probabilidade de nãoexcedência
Universidade Federal de Campina Grande - UFCG
Disciplina: Métodos Estatísticos em Climatologia
Distribuição de Weibull – É aplicada a valores de extremos mínimos e tem assimetria
positiva. A constatação de que, em um cenário extremo, as vazões que escoam por uma
seção fluvial são limitadas inferiormente pelo valor zero, faz com que a distribuição de
Weibull seja uma candidata natural a modelação de eventos hidrológicos mínimos.
  x     1
    x     
f ( x)   .exp    
        

Para x ≥ μ; α, β > 0
μ – parâmetro de locação;
α - parâmetro de forma;
β - parâmetro de escala.
Quando μ=0 e β=1 obtém-se a distribuição de padrão de Weibull. Quando μ=0 e β≠1 a
distribuição é dita bi-paramétrica e é dada por:
    x   1
    x   (*)
f ( x)    .   .exp     

         , com x, α e β > 0
 
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de Weibull:
Um aspecto conveniente da Weibull é que a f.d.p (*) é analiticamente integrável, sua
função distribuição de probabilidade é:
  x  
F ( x)  P  X  x   1  exp      (1) (probabilidade de não excedência)
   
 

Parâmetros 
    11/  
 2   2 1 2 /   11/  
2
 
F(x) = i/n+1 freqüência de Kimbal. Substituindo em (1) tem-se:
1   x  
1  exp     
n 1     (2), linearizando-se tem-se:
 
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de Weibull:

Aplica-se o Ln em ambos os membros:



 1  x
Ln 1      multiplica  se por (1) e aplica  se Ln
 n 1   
assim, pode-se escrever: Y=a.X+b

Y a X b;
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Beta: Algumas variáveis de interesse são restritas à seguimentos com limites
inferior e superior. Na meteorologia a umidade relativa do ar ocorre limita-se entre 0 e
100% ou 0 e 1. Uma f.d.p para representar esse tipo de variável é a Beta, dada por:
(  1)
x x .1 x 
( 1 k )
F ( x)   dx , 0  x 1 e  ,   0 (1)
0 B ,  

x   1   1


 
Em que B(α, β) é a função Beta, dada por: B  ,    x  .1 x   (2)
   
 dx

0
ˆ 

Y 1 Y
2

 Y  (3);
2 ˆ

ˆ 1 Y
 (4)
 
2
SY Y
ˆ e ˆ são parâmetros de forma Y é o parâmetro de locação. As equações (1) e (2) podem
ser integradas numericamente. O valor da constante k pode ser obtido por tentativa e erro.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Beta: Se a variável X estiver restrita a um intervalo (a, b) ela poderá ser
representada por uma distribuição Beta após passar pela transformação:


Y  xi  a  b  a   0,0001  curva empírica
a – limite inferior da amostra
b - limite superior da amostra
A equação (1) é a função distribuição
de probabilidade acumulada ou
seja, é a P[X≤x] ou probabilidade de
não excedência.

Assimetria negativa
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Gama: Se X for uma variável aleatória contínua, tal que ( 0 < x < ), com
distribuição gama de parâmetros  ,  e X  0 , então a sua função densidade de
probabilidade é definida como:

f (X )  1
 X  1e X /  (1), em que ( ) é a função gama de gama (γ)
( )

( X )   X  1e X dx ,
x para todo X>0; ( X ) pode ser obtido por:
0

2 X  Ln( X ) f ( X )  (2) em que f ( X ) 1 1  1  1 (3)


( X )  e  
12 X 2 360 X 4 1260 X 6
X
Parâmetros da Gamma
X   .  média (4)
S 2   . 2  var iância (5)
A  2  coeficiente de assimetria (6)

Note que  e  podem ser obtidos pelas equações (4) e (5)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Gamma:
 
Pode-se também estimar por: ˆ  1 1 1 4 A  (7) e ˆ  X / ˆ (8)
4 A  3 

N N
Em que A  LnX  X g ; X  1  fi .xi e X g  1  Ln( xi ). fi que é a média geométrica.
N i1 N i1

Ou ainda, ˆ  0,5000876  0,1648852Z  0,054427Z 2 (9)


Z

8,898919  9,05995Z  0,9775373Z 2


Em que Z  LnX  X g, para 0 ≤ Z ≤ 0,5772 e, ˆ  Z (17,79728) 11,968477 Z  Z
2

Para 0,5772 ≤ Z ≤ 17,0


Em seguida a estimativa de ˆ poderá ser levada na equação (8) e se estimar ̂ .
A função distribuição de probabilidade acumulada Gama é dada por:

1 x  1  X / 
F(X )  X
( )  0
e dx (10)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Gamma:

Solução numérica da equação (10)


mudança de variável: fazendo t = x/β; tem-se x = β.t e dx = β.dt, assim;

F (t )  t  1
1 t  t2  t3  ..........


 .( ).e 
t    1  
  1   2   
  1   2  
  3 

(11)

Desse modo, a P[X≤t]=F(t), ou seja a probabilidade de ocorrer um valor X ≤ t


(probabilidade de não excedência) é dada pela equação (11).

Roteiro para o ajuste de uma amostra a Função Gamma

1. estime a média e o desvio-padrão;


2. estime a media geométrica para dados agrupados;
3. estime o valor de A  LnX  X g
4. use a equação (7) para estimar gama;
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Gamma:

5. use a equação (8) para estimar beta;


6. substitua X por  na equação (3) e estime f ( ) ;
7. substitua X por  na equação (2) e estime ( ) ;
8. obtenha o valor da probabilidade de um dado valor X usando a equação (1);
9. a probabilidade acumulada de um dado valor Xi é obtida pela equação (11) após
transformar a variável Xi em t, ou seja, t  X i ˆ

• OBS. para obter a probabilidade acumulada, utilizando a equação (11) é necessário


faze-la convergir;
utilize os mesmos dados do ajuste da Log-normal, considerando os limites superiores
das classes como Xi e estime as probabilidades acumuladas.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição de Poisson: muitos eventos ocorrem como pontos aleatórios no tempo,
espaço ou volume. Em meteorologia esse modelo ajusta-se bem a calamidades do tipo
seca, furações etc. Dado o número médio de ocorrências (λ), a função de probabilidade de
Poisson é dada por:
 x r

p( x) 
e . e a função acumulada P ( x) 
 p ( x)
x 0
x!

Parâmetros:
E(x)=λ=média
V(x)= λ=S2=variância

OBS. Pode-se utilizar a Distribuição de Poisson como uma aproximação da Distribuição Binomial
quando “n” for grande e “p”, muito pequeno (n ≥100 e n.p ≤10). Ao utilizar Poisson como
aproximação da Binomial, pode-se estimar o valor de λ por λ= n.p
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Binomial: Uma variável Bernoulli é aquela que pode assumir apenas dois
valores excludentes: “p” probabilidade de sucesso e “q=1-p” insucesso. Exemplos, sejam
os eventos dicotômicos:
• respostas a um questionário (sim ou não);
• dia com chuva ou dia sem chuva;
• arremesso de uma moeda etc.
O modelo Bernoulli tem valor esperado E[X] = np e Var[X] = np (1-p). Uma distribuição
Binomial é considerada como a soma de “n” variáveis independentes Bernoulli e sua
função de probabilidade é:
. p x q n x
n!
P( x) 
x!(n  x)!
A Binomial é utilizada em climatologia em casos especiais, haja vista que nos eventos
naturais climatológicos há persistência (eventos correlacionados e dependentes)
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Distribuição Binomial:
Quando p > q a distribuição é assimétrica positiva

Quando p = q a distribuição é simétrica

Quando p < q a distribuição é assimétrica negativa


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Testes de aderência: pretendem verificar se uma f.d.p. (teórica) postulada é adequada para
representar as freqüências (empíricas) de valores amostrais observados. Aqui dois testes
serão discutidos: o Qui-quadrado (χ2) e Kolmogorov-Smirnov (K.S).

Qui-quadrado (χ2) - considere a seguinte estatística:

   
2 2
2 k Oi  npi k Oi  Ei
    
i 1 Oi i 1 Oi
Em que,
Oi – freqüência observada (empírica)
Ei – freqüência esperada (teórica)
pi – probabilidade da f.d.p. postulada
n – tamanho da amostra
k – número de classes ou valores observados Xi
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Qui-quadrado (χ2)
Se χ2 < χ2Tabelado não há razão para 40
rejeitar a hipótese básica de ajuste 35 Oi
ao nível de significância α e υ = r-1- 30 Ei = pi*n

Frqüências
m graus de liberdade. 25
20
r – número de classes 15
m – número de parâmetros 10
5

Assim, se χ2 < χ2 1-α aceita-se o 0


1 2 3 4 5 6 7 8 9 10 11
ajuste dos dados à f.d.p. postulada.
Classes
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Kolmogorov-Smirnov (K.S) - O teste de aderêcia de Kolmogorov-Smirnov (KS) é um
teste não paramétrico, cuja estatística de teste tem como base a diferença máxima entre as
funções de probabilidades acumuladas, empírica e teórica, de variáveis aleatórias
contínuas. Considere a seguinte estatística:
'
Dmáx  máx F ( x)  F ( x)

Em que
'
F ( x )  probabilidade teórica acumulada
F ( x )  probabilidade empírica  f a N
Se, ao nível de significância α, o valor calculado Dmáx for maior ou igual ao valor crítico
Dmáx Tabelado , a hipótese de que os dados amostrais provém de uma população com
distribuição teórica F ' ( x) é rejeitada.
Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Kolmogorov-Smirnov (K.S)
1
0,9

Freqüências acumuladas
0,8
0,7
Se Dmáx < Dmáx Tabelado aceita-
0,6
se o ajuste ao nível de 0,5 F(x) - empírica
significância α. 0,4
F'(x) - teórica
0,3
0,2
0,1
0
1 2 3 4 5 6 7 8 9 10 11
Limites superiores das classes

Ogivas (empíricas e teóricas)


Universidade Federal de Campina Grande - UFCG
Disciplina: Hidrometeorologia
Considerações sobre os teste de aderência

Erro Tipo I: Rejeitar a Hipótese Nula, H0, quando ela é efetivamente verdadeira. A
probabilidade do erro tipo I é igual ao nível de significância, α

Erro Tipo II: Aceitar a Hipótese Nula, H0, quando é efetivamente falsa. A probabilidade
do erro tipo II é igual a (beta)

Região de rejeição
Região de
Se α=0,05 1- α=0,95 aceitação

Você também pode gostar