Você está na página 1de 10

UNIVERSIDADE DE FORTALEZA

CENTRO DE CIÊNCIAS TECNOLÓGICAS


CURSO DE ENGENHARIA CIVIL
DISCIPLINA DE HIDROLOGIA APLICADA

NOTA DE AULA 10
DISTRIBUIÇÃO DE FREQUÊNCIA EM HIDROLOGIA

As variáveis aleatórias podem ser medidas seja através de valores discretos ou


valores contínuos numa escala. Cada variável aleatória, discreta ou contínua, tem
por base uma função densidade de probabilidade. Existem vários tipos de função
densidade de probabilidade que aqui chamaremos de função de distribuição de
frequência. Algumas são empregadas em hidrologia, outras não.

Citemos, inicialmente, a Distribuição Normal que, embora seja pouco empregada


em hidrologia, é a distribuição mais conhecida e serve de parâmetro de referência
para várias análises.

Distribuição Normal

A Distribuição Normal também é chamada de Distribuição Gaussiana ou Curva de


Gauss. É a mais empregada função densidade de probabilidade, tendo uma forma
de sino simetricamente distribuída em relação à média. A Figura 1 mostra seu
formato.

Fig 1: Distribuição Normal

0,45
Probabilidade

0,4
0,35
0,3
0,25
0,2 Dist Normal
0,15
0,1
0,05
0
-0,05 -5 0 5
Variável Reduzida Z

A função densidade de probabilidade é dada por:

1  1 x   2 
f ( x)  exp     para todo   x  
 2  2    

onde  é o parâmetro de locação (média) e  é o parâmetro de escala (desvio-


padrão). Porque existe uma infinita combinação de possíveis valores de  e de ,
existe uma infinita quantidade de configurações possíveis da distribuição normal.
Para superar essas dificuldades, foi desenvolvida a Distribuição Normal Padrão.

A Distribuição Normal Padrão é derivada pela substituição da variável aleatória x


pela variável aleatória z usando a seguinte equação:

1
x
z

Na prática, os momentos da amostra x e s podem ser usados no lugar de  e de .

A função de densidade de probabilidade da curva normal padrão é:

1
f ( z)  e 0,5 z
2

2

A variável transformada z tem uma média igual a zero e um desvio-padrão de 1.


As probabilidades estimativas para a curva normal padrão podem ser avaliadas
através da integração da equação acima entre limites específicos. Por exemplo, a
probabilidade de que z esteja entre 0,5 e 2,25 pode ser determinada empregando:

2, 25 2, 25
1
p(0,5  z  2,25)   f ( z )dz   e 0,5 z dz
2

0,5 0,5 2

Devido ao fato de que integrais desse tipo são frequentemente requeridas, foram
elaboradas tabelas dando a probabilidade de z entre  e qualquer outro valor de z
entre 3,40 até +3,40 com incrementos de 0,01.

A Tabela 2 apresenta esses valores sob a curva padrão normal. Probabilidades para
casos no qual o limite inferior seja diferente de  podem ser determinados usando
a seguinte identidade:

p( z L  z  z 0 )  p(  z  z 0 )  p(  z  z L )

Por exemplo, a probabilidade correspondente à integral acima é dada por:

p(0,5<z<2,25) = p(z<2,25)  p (z<0,5) daí:

p(0,5<z<2,25) = 0,9878  0,6915 = 0,2963

2
Tabela 2: Áreas sob a Curva Padrão Normal

3
4
TESTE DE HIPÓTESE EM DISTRIBUIÇÃO DE FREQUÊNCIA

Em estudos de frequência envolvendo análises hidrológicas é sempre desejável se


fazer testes estatísticos sobre algumas hipóteses. Especificamente, o hidrologista
deseja usar dados amostrais para tirar inferências sobre a população que seja a base
da distribuição de frequência. As decisões devem ser feitas sobre os parâmetros da
população e não da amostra de dados.

Um dos usos mais comuns dos testes de hipótese é verificar se uma distribuição de
frequência (por exemplo, a distribuição Normal) se ajusta bem aos dados amostrais
passando ela a ser considerada a distribuição de frequência base da população.

Devido a enorme aplicação que os testes de hipótese tem nas decisões de


hidrologia, passemos a estudar com maior detalhes e exemplos esses tipos de testes.

Passos para se fazer um Teste de Hipótese

Para se fazer uma análise estatística de uma hipótese, devem ser seguidos os
seguintes passo:

1) Formule uma hipótese (por exemplo: “Os dados amostrais da série histórica de
precipitações observadas em Fortaleza se ajustam a uma Distribuição de
Frequência Normal”. Será isso verdadeiro?);
2) Selecione o teorema estatístico apropriado que identifica o teste estatístico;
3) Especifique o nível de significância, o qual é uma medida do risco;
4) Colete ou selecione dados amostrais e calcule uma estimativa do teste
estatístico;
5) Defina a região de rejeição;
6) Selecione a apropriada hipótese.

Vamos ver com maiores detalhes cada um dos passos aqui citados e um exemplo.

Passo 1: Formulação de Hipótese

Testes de hipótese representam uma classe de técnicas estatísticas que são


empregadas para extrapolar informações de dados amostrais para fazer inferência
sobre populações.
O primeiro passo é formular duas ou mais hipóteses para teste. As hipóteses
dependerão do tipo de problema a ser investigado. Mais especificamente, se o
objetivo é fazer inferências sobre uma população simples, as hipóteses serão
afirmações indicando que uma determinada variável aleatória pertence a uma
específica distribuição de frequência ou então que um determinado parâmetro da
população tem um valor específico estimado.
Se o objetivo é comparar dois ou mais parâmetros específicos, tais como médias de
duas populações, as hipóteses seriam afirmações indicando se haveria presença ou
ausência de diferenças entre elas.
É importante observar que as hipóteses são compostas de afirmações envolvendo
ou distribuições de frequência de populações ou de parâmetros das populações e
nunca devem ser expressas em termos de amostras estatísticas.

5
A primeira hipótese é denominada hipótese nula (H0) sendo sempre formulada para
indicar que não existe diferença.

A segunda hipótese é denominada hipótese alternativa (HA), sendo formulada para


indicar que existe uma diferença.

As hipóteses nula e alternativa devem se expressas tanto em termos gramaticais,


quanto em termos matemáticos e devem representar condições mutuamente
excludentes. Assim, se fosse realizada uma análise estatística de uma amostra de
dados e resultasse que a hipótese nula deveria ser rejeitada, então a hipótese
alternativa deveria ser aceita.

Para esclarecer melhor: Suponha que se tenha uma amostra de n valores máximos
de precipitação anual observada durante n anos em Fortaleza e fosse desejado
investigar se as precipitações máximas anuais em Fortaleza seguem uma
distribuição Normal com média  = 110mm e desvio-padrão  = 40mm, você
poderia formular as hipóteses dessa forma:

A precipitação máxima anual Pmax passa a ser a variável aleatória “x”.

Hipótese nula H0:

Forma gramatical: A precipitação máxima anual em Fortaleza obedece a uma


distribuição de freqüência Normal com média de 110mm e desvio-padrão de
40mm.

Forma matemática: x ~ N( =110 ;  = 40 )

Hipótese alternativa HA:

Forma gramatical: A precipitação máxima anual em Fortaleza não segue uma


distribuição de frequência Normal com média de 110 mm e desvio-padrão de 40
mm;

Forma matemática: x  N(  = 110 ;  = 40)

Como você pode ver, emprega-se o til (~) para indicar que a variável aleatória
pertence a uma distribuição de frequência específica e () para indicar que a mesma
não pertence a tal distribuição.

Passo 2: Teste Estatístico e sua Distribuição Amostral

As hipóteses alternativas definidas no Passo 1 resultam em diferenças sugeridas


entre populações ou parâmetros específicos. Para testar as hipóteses é necessário
desenvolver um teste estatístico que reflita a diferença sugerida pela hipótese
alternativa HA. O valor do teste estatístico irá variar de uma amostra para outra,
portanto, o teste estatístico propriamente dito será também uma variável aleatória e
terá sua própria distribuição amostral. O teste de hipótese deve ser baseado num
modelo teórico que defina a distribuição de frequência do teste estatístico e os
parâmetros amostrais.

6
Há vários modelos teóricos disponíveis para quase todos teste de hipótese
frequentemente empregados. Por exemplo, existem as funções de distribuição para
teste de hipótese do tipo:
 Distribuição F;
 Distribuição t;
 Distribuição 2 (Lê-se qui-quadrado), sendo a mais empregada em hidrologia.
Veremos a seguir o uso desta distribuição em exemplos.

Passo 3: Seleção do Nível de Significância 

No passo 1, definiu-se as hipóteses; no Passo 2, o tipo de teste estatístico e sua


distribuição de frequência para as quais as hipóteses foram formuladas e, agora, no
passo 3, deve-se definir o nível de significância ou margem de risco que se deseja
correr com o teste.

Há dois tipos de erros possíveis de se cometer em testes de hipóteses os quais são


denominados de  e :

 = Erro Tipo I: Rejeitar H0 , quando de fato H0 é verdadeira;

 = Erro Tipo II: Aceitar H0, quando de fato H0 é falsa.

O quadro abaixo mostra um quadro de decisão envolvendo teste de hipóteses.

Decisão Situação
H0 é verdadeira H0 é falsa
Aceita H0 Decisão correta Decisão incorreta = erro
tipo II ()
Rejeita H0 Decisão incorreta = erro Decisão correta (potência
tipo I () do teste)

Estes dois tipos de erros não são independentes, porém, de qualquer forma, o
processo de decisão é mais frequentemente discutido com referência a somente um
tipo de decisão.

O nível de significância representa a possibilidade de se cometer um erro do tipo I e


é denotado pela letra grega . Como eles não são independentes, o nível de
significância , o qual é relativo ao risco que você corre de errar no teste de
hipótese, não pode ser feito excepcionalmente pequeno porque senão a
probabilidade de se cometer um erro do tipo II () aumenta também
significativamente.

A seleção do nível de significância  deve ser baseado numa análise racional dos
efeitos de sua decisão e deve ser selecionado anteriormente ao processo de coleta e
análise da amostra de dados.

Devido ao problema do grau de risco associado, é lógico que a escolha do nível de


significância para se definir o projeto de uma grande barragem como o Castanhão,
cujo colapso implicaria numa grande perda de vidas humanas, deverá ser

7
diferenciado do nível de significância para a cheia de projeto de uma galeria de
drenagem urbana, por exemplo.

Na prática, entretanto, convencionou-se adotar níveis de significância com valores


para  de 0,05 (ou 5% de risco) e de 0,01 (ou 1% de risco). Casos excepcionais
podem adotar valores de  ainda menores (0,001 ou 0,1%) , porém a possibilidade
de se cometer um erro do tipo  aumenta bastante.

Devido a isso, convencionou-se chamar de potência do teste de hipótese ao fato de


se rejeitar H0 quando de fato H0 é falsa, ou seja:

potência do teste = 1 – 

Passo 4: Análise de Dados Amostrais

Uma vez definidos os valores de  e, consequentemente , é possível se determinar


o tamanho da amostra a ser coletada para satisfazer qualquer critério de rejeição.
Por exemplo, é o que os institutos de pesquisa eleitoral fazem para definir a
quantidade de eleitores que devem ser entrevistados para se ter uma precisão
razoável da percentagem de votos que cada candidato a cargo majoritário terá numa
determinada eleição. Normalmente se diz que foram entrevistados 2500 a 3000
eleitores em todo Brasil para uma margem de erro de 2% para mais ou para menos,
etc.

Após se obter uma amostra de dados, dentro do nível de significância desejado,


calculam-se os parâmetros que subsidiarão a análise estatística.

Passo 5: Definição da Região de Rejeição

A Região de Rejeição consiste daqueles valores do teste estatístico os quais seriam


improváveis de ocorrer numa amostra quando a Hipótese Nula fosse, de fato,
verdadeira.
Complementarmente, a Região de Aceitação consistiria daqueles valores do teste
estatístico que seriam esperados de ocorrer se a Hipótese Nula fosse, de fato,
verdadeira.

Valores extremos do teste estatístico são menos prováveis de ocorrer quando a


Hipótese Nula é verdadeira. Assim, a Região de Rejeição é usualmente
representada por um ou por ambas caudas da distribuição de frequência do teste
estatístico.

O valor crítico do teste estatístico é definido como aquele que separa a região de
rejeição da região de aceitação. O valor crítico do teste estatístico depende de:

1°: da afirmação do teste de hipótese;


2°: da distribuição de frequência do teste estatístico;
3°: do nível de significância adotado;
4°: das características da amostra de dados.

Estes quatro componentes representam os quatro primeiros passos do teste de


hipótese.

8
Tal como foi anteriormente afirmado, a região de rejeição pode consistir de valores
associados com um ou ambas as caudas da distribuição de frequência do teste
estatístico.
Isto seria melhormente entendido com um exemplo:

Suponha o caso do fabricante de latas de cerveja. No rótulo da lata consta que a


mesma contém cerca de 350mL de cerveja. É importante observar que o processo
mecânico de envasamento pode não ser suficientemente preciso para assegurar que
todas as latas de cerveja terão exatamente 350mL. Se o rótulo afirma que a lata
contém esta quantidade, o fabricante estará interessado que, em média, cada lata
contenha no mínimo esta quantidade, ou de outra forma, o fabricante poderia ser
processado por um usuário, com base no Código de Defesa do Consumidor. Mas se
cada lata contiver, em média, mais do que 350mL de cerveja, o fabricante estaria
perdendo dinheiro ou deixando de lucrar mais. Daí, o fabricante estará interessado
tanto no desvio maior quanto no desvio menor em relação ao valor médio descrito
no rótulo. Em termos matemáticos, o fabricante estará interessado em ambas as
caudas do teste estatístico que poderia ser descrito matematicamente como:

Hipótese Nula H0:

Forma gramatical: A média de todas as latas de cerveja envasadas tem exatamente


350mL de cerveja

Forma matemática: H0 :  = 0

onde  é a média da população e 0 é o padrão de comparação (350mL)

Hipótese Alternativa H A :

Forma gramatical: A média de todas as latas de cerveja envasadas não tem


exatamente 350mL de cerveja

Forma matemática: HA :   0
O problema é ilustrado conforme a figura abaixo, onde a distribuição de frequência
seria relativa aos dados amostrais de um certo teste estatístico S. Os valores críticos
do teste estatístico são –S/2 e S/2 relativos a ambas as caudas da distribuição
amostral.

Em outros casos, a região de rejeição pode consistir de um único lado da


distribuição do teste estatístico.

9
Por exemplo: Suponha que as leis ambientais proíbam o lançamento de esgoto
proveniente de indústrias em um determinado rio, de tal forma que o teor de
oxigênio dissolvido mínimo seja de 3,5 mgO2/L de água do rio. As regras adotadas
pela agência reguladora ambiental (SEMACE, por exemplo) indicam que o teor de
oxigênio dissolvido será determinado a partir da média de 10 amostras de qualidade
de água. Nesse caso, a SEMACE estaria interessada somente em saber se o padrão
estabelecido está sendo minimamente alcançado, não interessando valores
superiores ao padrão mínimo.
A fiscalização seria feita coletando-se amostras da água a montante e logo a jusante
do ponto de despejo da indústria que lançasse seu esgoto dentro do rio. Se a média
das amostras coletadas de jusante não assegurasse o padrão sanitário mínimo,
estando a qualidade da água pior do que a das amostras coletadas a montante do
lançamento, a indústria poderia ser multada e até mesmo fechada.
Para a SEMACE, quanto maior fosse o teor de oxigênio dissolvido, melhor seria a
qualidade ambiental das águas do rio, por isso ela estaria tão somente interessada
em saber se o padrão mínimo foi alcançado. Daí seria o caso do emprego do teste
estatístico onde somente um lado da cauda interessaria. Resumidamente seria:

H0 :  = 0 onde 0 = 3,5 mgO2/L

HA :  < 0

Neste caso, a região de rejeição seria associada com valores em somente um lado
da distribuição amostral.

Passo 6: Seleção da Apropriada Hipótese

A decisão de se aceitar ou rejeitar a hipótese nula dependerá da comparação do


valor calculado do teste estatístico e do valor crítico. A hipótese nula é rejeitada se
o valor calculado do teste estatístico cair dentro da região de rejeição.
Quando um valor calculado do teste estatístico cai dentro da região de rejeição,
haverá duas possíveis explicações:
Primeiro, o procedimento de amostragem resultou num valor extremo por puro
acaso. Apesar de esse evento ser bastante improvável, estaria configurado um erro
do tipo I (rejeitar H0 quando de fato H0 é verdadeira).
Segundo, o valor extremo do teste estatístico ocorreu porque a hipótese nula é falsa.
Esta é a explicação mais aceita e forma a base da inferência estatística.

Na próxima nota de aula mostraremos exemplos aplicativos dos testes de hipótese


em hidrologia.

10

Você também pode gostar