Você está na página 1de 21

Revisão de conceitos de probabilidades e estatística 3-1

3 REVISÃO DE CONCEITOS DE PROBABILIDADES E


ESTATÍSTICA
3.1 DEFINIÇÕES

Uma variável aleatória χ é um variável que toma valores não resultantes de processos e leis
físicas ou relações matemáticas bem determinadas, sendo por isso atribuídos à sorte (acaso). Por
exemplo: o número de pontos no lançamento dum dado.

Uma variável aleatória pode ser discreta ou contínua. É discreta se só pode tomar valores
descontínuos, por exemplo, o número de dias de chuva num ano. A variável aleatória diz-se
contínua quando, num determinado intervalo de valores, limitado ou não, puder tomar qualquer
valor desse intervalo, por exemplo, a precipitação anual.

A população Ω é o conjunto de todos os valores que podem ser assumidos por uma variável
aleatória. Designa-se por amostra a parte observada da população.

Um acontecimento Ai é qualquer subconjunto da população.

A frequência (ou frequência relativa) dum acontecimento Ai é definida por f = n/N em que n é
o número de vezes em que o acontecimento Ai ocorre e N o tamanho da amostra. Por exemplo,
se há um registo de 10 anos de precipitação e se considera o acontecimento de Pano > 1200 mm,
pode acontecer que tal acontecimento ocorra 2 vezes na amostra, então f = 2/10 = 0.2.

A probabilidade P dum acontecimento Ai é P(Ai) = limN→∞f

A moderna teoria das probabilidades baseia-se numa axiomática desenvolvida por Kolmogorov
da qual se deduzem as seguintes consequências:

P(Ai) ≥ 0;
P(Ω) = 1;
P(A ∪ B) = P(A) + P(B) - P(A ∩ B);
P(A ∩ B) = P(A | B) x P(B) = P(B|A) x P(A);
Se P(A ∩ B) = P(A) x P(B), os acontecimentos são independentes.

3.2 FUNÇÕES DE DISTRIBUIÇÃO, DURAÇÃO E DENSIDADE DE PROBABILIDADE

Considere-se uma amostra de N valores duma variável aleatória e classifique-se essa amostra por
ordem crescente:
x1 ≤ x2 ≤ ... ≤ xN

A probabilidade de que a variável aleatória χ assuma um valor não superior a xi é


P (χ ≤xi) = i/N = F(xi)
Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-2

F(xi) é a função de distribuição empírica (FDE).

Se se classificar a amostra por ordem decrescente:

x1 ≥ x2 ≥ ... ≥ xN

A probabilidade de que a variável aleatória χ assuma um valor não inferior a xi é

P (χ ≥xi) = i/N = G(xi)

G (xi) é a função de duração.

Note-se que P(χ ≤xi) + P (χ ≥xi) = P (χ ≤xi) + P(χ >xi) + P(χ =xi) = 1 + P (χ = xi) = F(xi) + G(xi)

Para variáveis aleatórias contínuas, P (χ =xi) = 0 ⇒ F(x) + G(x) = 1


Para variáveis aleatórias discretas, F(x) + G(x) = 1 + P(χ =xi)

Para uma variável aleatória contínua, define-se a função densidade de probabilidade f(x):
dF(x)
f(x) =
dx

dx dx
f ( x ) = Pr ob( x − ≤χ ≤ x+ )
2 2

Há definições paralelas para as variáveis aleatórias discretas.

Figure 3.1 Funções de distribuição, duração e densidade de probabilidade

A figura 3.1 ilustra as relações entre F(x), G(x) e f(x) para uma variável aleatória contínua.

Pode verificar-se teoricamente que o estimador i/N para a probabilidade do acontecimento (χ ≤


xi) é um estimador com viez, i.e., quando a dimensão da amostra cresce indefinidamente o valor
do estimador não tende para o valor correcto da probabilidade. Assim, é preferível utilizar para
as funções de distribuição e de duração.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-3

F (xi) = Prob (x ≤xi) = i/N+1


G (xi) = Prob (x ≥xi) = i/N+1

3.3 PERÍODO DE RETORNO E RISCO HIDROLÓGICO

Considere-se uma série de 50 valores, por exemplo de precipitação anual, ordenados por ordem
crescente. O valor de ordem i = 41 é igualado ou excedido 10 vezes na série correspondendo-lhe
uma probabilidade de não excedência F = 0.804. O intervalo médio entre ocorrências
sucessivas do acontecimento (χ ≥x41) seria então de cerca de 5 anos. Este intervalo médio entre
ocorrências sucessivas dum acontecimento é designado por período de retorno T.

O período de retorno do acontecimento (χ ≥xi) relaciona-se com a probabilidade de excedência,


G(xi), ou de não excedência, F(xi), pelas expressões:

T(xi) = 1 / G(xi) = 1 / {1-F(xi)}

Assim, no exemplo anteriormente referido, ter-se-ia

F(x41) = P(χ ≤x41) = 0.804


G(x41) = P(χ ≥x41) = 0.196
T(x41) = 1 / 0.196 ≈ 5 anos

Importa deixar bem claro que o conceito de período de retorno não está associado a qualquer
ideia de repetição cíclica e regular do acontecimento. Se, por exemplo, um acontecimento tem
um período de retorno de 10 anos, isso não quer dizer que tal acontecimento ocorre regularmente
de 10 em 10 anos: ele pode ocorrer em dois anos consecutivos assim como pode não ocorrer
durante trinta anos. Se, porém, dispusermos duma série suficientemente longa, então o intervalo
médio entre ocorrências consecutivas do acontecimento seria de 10 anos.

Considere-se agora o acontecimento (χ ≥x) com uma probabilidade de ocorrência G(x)


relativamente baixa. A probabilidade de não ocorrência do acontecimento em 2 anos sucessivos
será [F(x)]2 e a de não ocorrência em N anos sucessivos será [F(x)]N.

Então, a probabilidade de que o acontecimento ocorra pelo menos uma vez em N anos
sucessivos será dada por 1-[F(x)]N. Essa probabilidade designa-se por risco hidrológico R(x, N),
conceito com bastante interesse prático como se pode ver pelos exemplos seguintes.

1º Exemplo) Uma barragem levará 6 anos a ser construída. A sua construção far-se-á com a
protecção de ensecadeiras e desvio do rio através de galerias (como se fez, por exemplo, com a
barragem de Cahora-Bassa). Se adoptar como caudal de dimensionamento das galerias o
correspondente a uma cheia com o período de retorno T = 20 anos, qual é a probabilidade das
ensecadeiras serem galgadas durante a construção?

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-4

A probabilidade de galgamento durante a construção corresponde à situação de insuficiência das


galerias de desvio para passagem o caudal afluente. A probabilidade pedida é, pois, o risco
hidrológico do acontecimento (Qafl > Q20) para N = 6:

R = 1 - F(x)6 = 1 - [1 - G(x)]6 = 1 - [1 - 1/T(x)]6

Como T = 20, R = 0.265.

A probabilidade de galgamento durante a construção é de 0.265, ou seja, aproximadamente 1


possibilidade em 4.

2º Exemplo) Se no exemplo anterior se pretender que a probabilidade de galgamento das


ensecadeiras durante a construção (i.e., o risco hidrológico) não exceda 10%, qual deverá ser o
caudal de dimensionamento das galerias?

R = 0.10 = 1 - [1 - 1/T(x)]6 ⇒ T = 57.4 ≈ 60 anos.

As galerias deveriam ser dimensionadas para um caudal com um período de retorno de cerca de
60 anos.

3.4 PARÂMETROS ESTATÍSTICOS DA POPULAÇÃO E DA AMOSTRA

3.4.1 Introdução

Na Estatística, a população ou a amostra com que se está a lidar são representadas por um
número relativamente pequeno de parâmetros estatísticos. Trata-se de uma forma sintética de
apresentar as principais características da população ou da amostra, em relação às quais interessa
definir:

- a tendência central;
- a dispensão;
- a assimetria;
- os quantis.

3.4.2 Momentos da população e da amostra

Define-se momento de ordem r em relação à origem como


-∞
µ = ∫x ⋅ f ( x )dx
' r
r para a população
+∞

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-5

N
1
m r' =
N
∑x
i =1
r
i para a amostra

A média da população, µ, ou da amostra, x , são os momentos de ordem 1 em relação à origem:

µ = µ1'

x = m1'

Define-se momento centrado de ordem r como o momento de ordem r tomando a média como
origem:
-∞

µ r = ∫ (x - µ )r f(x) ⋅ dx para a população


+∞
N

∑( x - x )
i=1
i
r

mr = para a amostra
N

3.4.3 Tendência central

Os parâmetros que caracterizam a tendência central indicam à volta de que valor se distribuem os
valores da população ou da amostra.

Os parâmetros mais utilizados são a média µ ou x e a mediana , xm .

A média da população e da amostra são dadas respectivamente por


+∞
µ=
-∞
∫ x f(x) dx

N
1
x=
N
∑x
i =1
i

A mediana é o valor que divide a população ou a amostra em duas


partes de igual probabilidade acumulada. Para uma população, a mediana é definida tal que:
µ ∞


-∞
f(x) dx = ∫ f(x) dx = 0.5
µ

Para uma amostra a mediana, xm é definida tal que (amostra ordenada)

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-6

- se N ímpar, m = int(N/2) + 1

por exº: N=25 ⇒ m=13

- se N par:
1
x m = (x N + x N )
2 2
2
+1

por exemplo, se N=24, xm = (x12 + x13)/2

3.4.4 Dispersão

Os parâmetros que caracterizam a dispersão indicam se os elementos da população ou da


amostra estão muito ou pouco concentrados em torno da média. Os parâmetros mais utilizados
são:

- Variância σ2, s2;


- Desvio padrão σ, s;
- Coeficiente de variação ηv, cv.

A variância é o momento centrado da 2ª ordem:


-∞

∫ (x - µ )
2
σ =2
f(x)dx
+∞
N N

2
∑ ( xi - x )2 N ∑ ( xi - x )2
s = i=1
* = i=1
N N -1 N -1

N/N-1 é um factor de correcção do viez. Diz-se que um estimador dum parâmetro apresenta viez
quando o seu valor não tende para o valor correspondente da população quando a dimensão da
amostra cresce indefinidamente.

O desvio padrão é a raiz quadrada da variância. Note-se que o desvio padrão é expresso nas
mesmas unidades que a média e que os elementos da amostra ou da população.

O coeficiente de variação é a relação entre o desvio padrão e a média:


σ s
ηv = cv =
µ x

É um parâmetro adimensional.

A figura 3.2 apresenta duas séries com as mesmas médias mas com diferentes desvios padrão.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-7

Figure 3.2 Distribuições do mesmo tipo, com s mesmas média e


variâncias diferentes

3.4.5 Assimetria

As populações e as amostras (e as distribuições que as caracterizam) podem ser simétricas


(assimetria nula) ou assimétricas (assimetria positiva ou negativa). A figura 3.3 apresenta três
distribuições com assimetria nula, negativa e positiva.

Figure 3.3 Distribuições com diferentes assimetrias

Quando a assimetria é nula, a média e a mediana coincidem; quando a assimetria é positiva, a


média é superior à mediana e, quando é negativa, a média é inferior à mediana. A média é muito
mais influenciada pelos valores extremos que a mediana.

O parâmetro que caracteriza a assimetria é o coeficiente de assimetria, γ ou g, que é o momento


centrado de 3ª ordem transformado em parâmetro adimensional pela divisão por σ3.
+∞

∫ (x - µ )
3
f(x) dx
γ= -∞

σ3
N N

∑ ( xi - x )3 N
2 ∑( x - x )
i
3

N
g= i=1
3
* = i=1
3
*
Ns (N - 1)(N - 2) s (N - 1)(N - 2)

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-8

N2/{(N-1)(N-2)} é o factor de correcção do viez.

3.4.6 Quantis

O quantil da ordem p é o valor ξp ou xp definido por:


ξp

ξ p = ∫ f(x) dx = p
-∞

Numa amostra ordenada o quantil xp é o valor de ordem j = N * p.

0≤p≤1

A mediana é o quantil de ordem 0.5.

3.5 AJUSTAMENTO DUMA AMOSTRA A UMA DISTRIBUIÇÃO TEÓRICA

3.5.1 Metodologia

A partir duma dada amostra é possível definir a sua função de distribuição empírica. A FDE é, no
entanto, afectada pela dimensão limitada da amostra e, por outro lado, não permite extrapolar
para períodos de retorno superiores à duração da amostra.

Por essa razão, faz-se o ajustamento da amostra a uma função de distribuição teórica (ou lei de
probabilidades ou simplesmente distribuição), procurando-se de entre as várias que têm sido
propostas aquela que melhor se adapte à FDE.

A sequência de cálculo que se adopta para a extrapolação de valores com altos períodos de
retorno, necessários para o dimensionamento de obras hidráulicas, é então a seguinte:

- selecção de uma de entre as distribuições teóricas;


- especificação ou ajustamento da distribuição;
- avaliação do ajustamento;
- utilização da distribuição para a previsão de valores (extrapolação).

As distribuições teóricas mais utilizadas em Hidrologia são a Normal (ou de Gauss), a Log-
Normal de 2 parâmetros (Lei de Galton), a Log-Normal de 3 parâmetros, a de Gumbel, a Gama,
a Pearson tipo III e a Log-Pearson tipo III. Neste capítulo apenas se estudará a distribuição
Normal, estudando-se algumas das restantes no capítulo dedicado às cheias.

A especificação ou ajustamento da distribuição consiste na estimação dos respectivos


parâmetros a partir da informação contida na amostra. Existem diversos métodos para fazer o

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-9

ajustamento sendo os mais correntes o método dos momentos, o método da máxima


verosimilhança e o método dos mínimos quadrados. Embora nem sempre seja o mais eficiente,
ir-se-á estudar apenas o método dos momentos que é o de mais simples aplicação.

A estimação pelo método dos momentos consiste em seleccionar os valores dos m parâmetros
da distribuição por forma a que os primeiros m momentos da distribuição sejam iguais aos
correspondentes momentos da amostra.

3.5.2 Distribuição Normal ou de Gauss

A distribuição Normal é a lei de probabilidades que melhor tem sido estudada do ponto de vista
teórico. Tem um enorme campo de aplicação não apenas em Hidrologia mas em muitas outras
áreas de Engenharia como a caracterização de solicitações em estruturas ou o controle de
qualidade dos materiais.

A função densidade é:

1 -(x -b )2
f(x) = e 2a 2
a 2π

A função de distribuição é:
x
dF(x)
F(x) = ∫ f(x) dx f(x) =
-∞
dx

A distribuição é simétrica, não sendo integrável analíticamente. F(x) é obtida por integração
numérica e dada em tabelas. A distribuição tem 2 parâmetros: a, b.

Os momentos da distribuição são obtidos em função dos parâmetros:

- média µ = b;
- variância σ2 = a2;
- coeficiente de assimetria γ = 0.

Por tal razão, é frequente escrever a expressão de f(x) substituindo a, b, por σ e µ:

1 -(x - µ )2
f(x) = e 2σ 2
σ 2π

Demonstra-se que a distribuição Normal goza da propriedade de invariância linear: Se x é uma


variável aleatória com distribuição Normal, média µx e desvio padrão σx, então y = c1x + c2 é
também uma variável aleatória normal, com média µy = c1µx + c2 e desvio padrão σy= c1σx.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-10

As tabelas da distribuição Normal são construídas para uma variável z, variável normal
reduzida, definida por

z = (x – µx)/σx

Com esta definição e atendendo à propriedade da invariância linear da distribuição Normal, é


imediato que µz = 0 e σz = 1. Diz-se então que z é uma variável N(0,1).

A tabela 3.1, reproduzida de Lencastre e Franco (1984), dá os valores de F(z) para z de 0.00 a
3.49 em intervalos de 0.01. Atendendo à simetria da distribuição, a tabela permite obter valores
de F(z) para –3.49 ≤ z ≤ 0.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-11

Lei Normal ou de Gauss Função de distribuição (µ=0; σ= 1)


Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.5 0.504 0.508 0.512 0.516 0.5199 0.5239 0.5279 0.5319 0.5359

0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.591 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.648 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.67 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.695 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.719 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.758 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.791 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.834 0.8365 0.8389

1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.877 0.879 0.881 0.883
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.898 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.937 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.975 0.9756 0.9761 0.9767

2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.983 0.9834 0.9838 0.9642 0.9846 0.985 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.989
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.992 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.994 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.996 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.997 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.998 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.999 0.999
3.1 0.999 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

Tabela 3.1 – Função de distribuição Normal ou de Gauss


— Para volores negativos de z, utilizar o complemento aritmético para 1 dos volores de
F (z) correspondentes ao volor positivo:
F(-z)= 1 – F (z)
Ex.: F (- 1) = 1 - F(1) = 1 -0,8413=0,1587
— Para valores de F (z) < 0,5, calcular 1 - F [z], ler o valor de z e afectar esse valor
de sinal negative.

Ex.: F |z]= 0,0668; 1 - F (z] = 0,9332; z=-l,5

Esta tabela pode ser utilizada para qualquer distribuição Normal mesmo que não tenha µ=0 e
σ=1, bastando para isso fazer a transformação (x-µx)/σx. Da tabela tira-se que as probabilidades
de x estar entre µ+σ e µ-σ; µ+2σ e µ-2σ; µ+3σ e µ-3σ são respectivamente de 68.3%, 95.4% e
99.7%. As probabilidades de 90%, 95% e 99% correspondem aos intervalos µ ± 1.645σ, µ ±
1.96σ, µ ± 2.575σ.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-12

Existem métodos analíticos para testar se o ajustamento duma série à Distribuição Normal (ou a
outra distribuição teórica) é aceitável. Estes métodos, como o teste do qui-quadrado e o de
Kolmogorov-Smirnov, serão vistos no capítulo dedicado à estatística de cheias. Um processo
também muito utilizado para verificar se o ajustamento é aceitável é a utilização de papel de
probabilidade, papel com os eixos construidos de tal maneira que, se uma série se ajusta bem à
distribuição representada nesse papel, os seus pontos alinham-se aproximadamente segundo uma
recta. Os pontos têm coordenadas (F(xi), Yi) em que F(xi) é o probabilidade de não excedência
do valor i da série ordenada em ordem crescente ("plotting position") e Yi o valor i da série.

Existem muitas expressões para o cálculo da "plotting position":

- Califórnia i/N;
- Hazen (2i-1)/2N;
- Weibull i/(N+1);
- Chegadayev (i-0.3)/(N+0.4);
- Blom (i-0.375)/(N+0.25);
- Tukey (3i-1)/(3N+1).

A fórmula mais eficiente e a mais utilizada é a de Weibull.

3.6 CORRELAÇÃO E REGRESSÃO LINEARES

3.6.1 Correlação e regressão linear simples

A correlação e regressão lineares constituem uma das ferramentas mais utilizadas em Hidrologia,
essencialmente para:

- preencher falhas numa série de registos;


- estender uma série hidrológica a partir de outras mais longas.

A figura 3.4 representa genéricamente o domínio das variáveis aleatórias x e y com funções de
distribuição de probabilidade respectivamente f(x) e g(y).

Figure 3.4 Correlação entre duas variáveis aleatórias

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-13

Ter-se-á então:

dx dx
P(x -≤ x ≤ x + ) = P(x) = f(x)dx
2 2
P(y) = g(y)d(y)
dx dx dy dy
P(x - ≤ x ≤ x+ ∩ y - ≤ y ≤ y + ) = P(x, y) = f(x)g(x)dx dy se os
2 2 2 2
acontecimentos forem independentes.

Se os acontecimentos não forem independentes, diz-se que há entre as varáveis uma dependência
estocástica. Quando essa dependência é linear, ela é medida pelo coeficiente de correlação
linear ρxy:
y x

∫ ∫ (x - µ x )(y - µ y ) f(x)g(y) dxdy


ρ xy = para a população;
σ xσ y
N N

∑ ( xi - x )( yi - y ) ∑ x y - Nxy
i i

r xy = i=1
= i=1
para a amostra.
(N - 1) s x s y (N - 1) s x s y

Demonstra-se que rxy, ρxy ≤ 1. Quando o coeficiente de correlação iguala a unidade, a


correlação é perfeita e os pontos (x,y) alinham-se segundo uma recta. Quando a apresentação
dos pontos (x,y) sugere uma "nuvem" (figura 3.5), o coeficiente de correlação aproxima-se de
zero.

Figure 3.5 Coeficiente de correlação

O coeficiente de correlação exprime o grau de associção, mais ou menos elevado, entre duas

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-14

variáveis aleatórias. Quando a correlação é elevada, pode estabelecer-se uma regressão linear
duma variável (dependente) sobre a outra (independente), isto é, tentar explicar a variação da
variável dependente como uma função linear da variação da variável independente. Por exemplo,
pode tentar-se estabelecer uma regressão linear do escoamento anual numa bacia em função da
precipitação ponderada sobre a bacia.

Figure 3.6 Regressão linear

A expressão da regressão linear é y = ax + b em que a,b são os coeficientes da regressão (figura


3.6), determinados pelo método dos mínimos quadrados.

Como se sabe, o método dos mínimos quadrados determina os coeficientes por forma a
minimizar a soma dos quadrados dos desvios. Designando por y^ a estimativa de y fornecida pela
regressão linear, ter-se-á:

Z = Σi (yi –y^ i)2 = Σi [yi – (axi + b)]2


= Σi [yi2 – 2 axiyi – 2 byi + (axi + b)2]
= Σi [yi2 – 2 axiyi – 2 byi + a2xi2 + 2axib + b2]

Escolhe-se a e b para ter o Zmínimo

Zmin. ⇒ δZ/δa = 0 e δZ/δb = 0.

1007 δZ/δa = - 2 Σi xiyi + 2 Σi axi2 + 2 Σi b xi = 0;


e δZ/δb = - 2 Σi yi + 2 Σi axi + 2 Σi b = 0,

chegando-se às equações normais.


N

∑x i yi - N x y
a= i=1
N

∑x
i=1
i
2
- N x2

b= y - ax

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-15

É fácil de ver que a = rxy sy/sx.

Chama-se erro padrão da estimativa, se, ao desvio padrão dos resíduos


ei = y i - yˆ i

Como ŷ = y , e = 0.

Pode verificar-se a seguinte relação entre sy e se:

se2 = sy2 (1-rxy2)

Esta relação evidencia como a variância residual varia com o coeficiente de correlação. Quando
a correlação é perfeita, r=1, os pontos alinham-se todos segundo uma recta e a variância residual
ou variância não explicada pela regressão é nula. À medida que r diminui, se2 vai tendendo para
sy2, ie, a regressão “explica” cada vez menos a variância de y.

Na expressão de se2 é conveniente introduzir um factor de correcção do viez:

se2 = (1-r2) sy2 (N-1)/(N-2).

A variância explicada pela regressão é


2 2
s yˆ = s y r 2

Se, por exemplo, r = 0.80, a regressão explica 64% da variância total de y.

O coeficiente de determinação, cd, dá a percentagem da variância total que é explicada pela


regressão. Então cd = r2.

Importa notar que, normalmente, a regressão de y sobre x não coincide com a regressão de x
sobre y. Isso só acontece se sy = sx.

Por outro lado, interessa ter uma regra prática que indique quando é que vale a pena utilizar
regressão linear, ou seja, qual o limite inferior para o coeficiente de correlação. Chow (1964)
sugere que se pode usar regressão linear quando r > 0.60, o que corresponde a explicar cerca
de 1/3 da variância de y através da regressão. Talvez seja preferível, no entanto, adoptar como
limite inferior para r um valor um pouco mais alto como 0.70 (cerca de metade da variância
de y explicada pela regressão) ou 0.80 (variância explicada é cerca de 2/3 da variância total).
Para além disso, importa sempre ver se há uma base física para o estabelecimento da regressão
afim de evitar as correlações espúrias (fruto do acaso, do tamanho limitado da amostra ou da
transformação de variáveis).

Exemplo: Considerem-se as séries de precipitações anuais nos postos udométricos P621 e P705,
ambos situados na bacia do rio Monapo. Pretende-se estender as duas séries.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-16

Ano 1 2 3 4 5 6 7 8 9 10

P621 (mm) 1162 1069 957 1058 1108 1155 805 936 921 732
P705 (mm) - - - - - - - - - 600
Ano 11 12 13 14 15 16 17 18 19 20

P621 (mm) 858 1094 1027 1139 1047 972 1212 1354 876 -
P705 (mm) 923 1087 1166 1064 1298 931 1121 1249 697 976

Ano 21 22 23 24 25 26 27 28
P621 (mm) - - - - - - - -
P705 (mm) 1316 766 1129 1187 794 1125 890 880

A série P621 tem 19 valores e a P705 também tem 19 valores, sendo o período comum de 10
anos. Pretende-se estender a série P705 para os primeiros nove anos por regressão sobre P621 e
estender esta para os últimos nove anos por regressão sobre P705.

Tomando o período de 10 anos comuns (anos 10 –19), obtem-se :

variável x (P621): x = 1031 mm; sx = 183 mm.


variável y (P705): x = 1014 mm; sy = 227 mm.

r = 0.80 ; cd = 0.64

Então a regrassão irá explicar 64% de sy2

A regressão linear de y sobre x dá a seguinte equação:

y = 1.01x – 28,

donde se podem obter os valores de y (≡ P705) para os primeiros 9 anos:

1146 / 1052 / 939 / 1041 / 1091 / 1139 / 785 / 917 / 902.

A variância residual é se2 = sy2 (1-r2) = 18,550 ⇒ se = 136.

Para estender agora a série P621 para os últimos 9 anos, estabelece-se uma outra regressão
linear:

x = cy + d, mantendo-se x ≡ P621 e y ≡ P705.

O coeficiente de correlação é óbviamente o mesmo. Obtém-se x = 0.65y + 372 (note-se o


afastamento entre as duas rectas de regressão na figura 8.7).

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-17

Os valores de P621 para os últimos 9 anos serão:

1007 / 1228 / 870 / 1106 / 1144 / 888 / 1104 / 951 / 944

A variância residual é se2 = 1832(1- 0.82) = 12,056 ⇒ se = 110.

Figure 3.7 Exemplo de regressão linear simples

Um aspecto importante a notar quando se utiliza regressão linear para estimar um número grande
de valores em falta é que a variância da série estendida se reduz em relação à série original,
devido ao facto da regressão não entrar com a variância residual (os valores estimados situam-se
sobre a recta de regressão e não à volta dela). Por exemplo, para a série P705 o desvio padrão da
série original (19 valores) é 205 enquanto a série estendida é 180. A média praticamente não
varia (de 1010 para 1008). Assim as características estatísticas da série mudam, o que não é
desejável.

Para obviar a esse inconveniente, pode-se modificar a expressão da regressão linear para:
y = ax + b + s e z = ax + b + s y 1 - r 2 z

A nova parcela é uma componente aleatória, obtida por multiplicação do erro padrão da
estimativa por uma variável aleatória z ≡ N(0,1). É possível obter sucessivos valores de z
recorrendo a uma tabela de números aleatórios ou utilizando rotinas de computador (gerador de
numeros aleatórios). Esta parcela adicional faz com que a variância de y se mantenha (coloca os
pontos fora da recta de regressão).

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-18

Não é possível nestas notas introdutórias aprofundar este tema que é, no entanto, extremamente
importante por ser a base dos chamados modelos autoregressivos de geração sintética.

3.6.2 Transformação de variáveis

Considere-se o exemplo representado na figura 3.8. O coeficiente de correlação anteriormente


definido é uma medida da associação linear entre x e y. Se se fizesse a sua determinação para o
exemplo da figura 3.8, obter-se-ia um valor baixo embora o gráfico evidencie que x e y estão
fortemente associados.

Figure 3.8 Correlação e regressão não lineares

Em situações como esta, uma transformação das variáveis x e y permite mudar uma associação
não linear para uma associação linear a que se podem aplicar as técnicas de correlação e
regressão lineares descritas no tópico anterior. A transformação mais correntemente utilizada em
Hidrologia é a logarítmica que pressupõe que x e y estariam ligados por uma relação do tipo:

y = axb,

que, logaritmizada, origina:

ln(y) = ln(a) + b ln(x),

ou seja, uma relação linear entre os logarítmos de x e y. Pode dar-se como exemplo a equação da
curva de recessão dum rio alimentado por um aquífero, Qt = Qo e -αt.

3.6.3 Correlação e regressão lineares múltiplas

Quando se considera a associação apenas entre duas variáveis, x e y, a correlação e regressão


linear dizem-se simples. É possível, no entanto, generalizar o conceito para a associação entre
uma variável dependente, y, e m variáveis independentes x1, x2, x3, ......., xm.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-19

A expressão da regressão linear múltipla é:

y = c0 + c1x1 + c2x2 + .... + cmxm.

Se o número de valores da amostra for N, m deve ser bastante inferior a N, não devendo como
regra prática exceder N/5. Pode-se então escrever:

y1 = c0 + c1x11 + c2x21 + .... + cmxm1


y2 = c0 + c1x12 + c2x22 + .... + cmxm2
................. etc.
yN = c0 + c1x1N + c2x2N + .... + cmxmN

Assim temos N equações com m+1 incógnitas (N > m+1), nomeamente c0, c1, c2, ...., cm.
Determinam-se os coeficientes c0, c1, c2, ...., cm de tal maneira que a soma dos quadrados dos
desvios entre y e a estimativa de y seja minimizada (método dos mínimos quadrados). Da mesma
maneira que no caso da regressão linear simples, minimiza-se o valor de

Σi (yi -y^ i)2 = Σi [yi - (c0 + c1x1i + c2x2i + .... + cmxmi)]2.

Assume-se que f(x1,x2,....,xm) = c0 + c1x1 + c2x2 + .... + cmxm.

Assim deve-se minimizar o valor de

z = Σi [yi - f(x1i,x2i,....,xmi)]2.

A minimização de z implica que as derivadas parciais de z em ordem aos ci se anulem. Obtem-se


assim m+1 equações lineares com m+1 incógnitas, as equações normais da regressão linear
múltipla. A sua resolução permite calcular os valores dos coeficientes da regressão.

As medidas de correlação linear múltipla mais utilizadas são o erro padrão dos resíduos, o
coeficiente de correlação múltipla, o coeficiente de determinação e os coeficientes de
correlação parciais.

Erro padrão dos resíduos

O erro padrão dos resíduos calcula-se da mesma forma que para a regressão linear simples:
ei = y i - yˆ i , e = 0
N −1 N
s e2 = ∑
( N − 1) ⋅ ( N − m ) i =1
ei2

em que (N-1)/(N-m) é um factor de correcção do viez.

se2 dá a variançia residual ou não explicada.

Coeficiente de correlação múltipla

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-20

O coeficiente de correlação múltipla, R, é definido como


s
R = ŷ
sy

Verifica-se imediatamente que se2 = (1-R2) sy2.

Coeficiente de determinação

O coeficiente de determinação, Cd = R2 dá a variância explicada em percentagem da variância


total de y.

Coeficientes de correlação parciais

Os coeficientes de correlação parciais ri medem o grau de associação de y com cada uma das
variáveis xi e determinam a parte da variância de y explicada por cada xi.

Para calcular um dado ri, começa-se por se determinar o coeficiente de correlação múltipla, R-i,
obtido sem incluir xi na regressão. Então:
2 2
2
= R - R -i
ri
1 - R -i 2

R2 - R-i2 dá o acréscimo da variância explicada originado pela inclusão de xi na regressão.


Quanto maior for, maior será ri e mais importante a inclusão de xi na regressão.

A obtenção dos coeficientes de correlação parciais é trabalhosa mas bastante útil pois permite
excluir da regressão variáveis que não ajudam a aumentar a variância explicada.

Manual de Hidrologia
Revisão de conceitos de probabilidades e estatística 3-21

EXERCÍCIOS

1) Calcule a média e o desvio padrão das seguintes séries de precipitações anuais (em 2
zonas diferentas).

Série 1: 805 903 875 867 912 849 815 882


Série 2:1014 1209 480 720 545 512 984 1444

Comente os resultados.

2) Reactores nucleares, grandes barragens, diques altos, etc. devem ser projectados de tal
maneira que a probabilidade da sua danificação / galgamento seja da ordem de 1 vez em 10,000
anos (período de retorno de 10,000 anos).

a) Calcule o risco de danos num reactor nuclear assim dimensionado nos primeiros 50 anos
do seu funcionamento.
b) Repita o cálculo para um período de retorno de 1000 anos.

3) Qual é o risco que um acontecimento com período de retorno de N anos ocorra (pelo
menos uma vez) em N anos.

4) O valor da precipitação anual numa zona pode ser caracterizada pela distribuição
Normal. A precipitação anual média é de 723 mm. O desvio padrão é de 212 mm.

a) Calcule a probabilidade duma precipitação anual maior que 1000 mm.


b) Calcule a probabilidade duma precipitação anual menor que 300 mm.
c) Determine a precipitação com probabilidade de excedência de 1 e 10 %.
d) Determine a precipitação com probabilidade de não-excedência de 1 e 10 %.
e) Determine a precipitação com probabilidade de não-excedência de 50 %.
f) Determine a precipitação com período de retorno de 30 anos.

5) Dada a seguinte série de 23 valores de precipitação anual num posto udométrico,


expressa em mm,

a) Ajuste a distribuição Normal à série dada. Trace o gráfico em papel de probabilidade.


b) Calcule a precipitação anual correspondente aos períodos de retorno de 10 e 50 anos.
c) Determine os períodos de retorno teóricos a que correspondem as precipitações anuais de
1000 mm e 2015 mm (maior valor da série).

Série: 1803 1295 1118 1626 1120 1116 1473 1194 1016 1372 2015 1662 1549 1448
1753 1914 1422 1346 1092 1489 1397 1245 1219

Manual de Hidrologia

Você também pode gostar