Você está na página 1de 34

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS


19
ANLISE PRELIMINAR DE DADOS HIDROLGICOS
Conforme exposto no captulo 1, os fenmenos hidrolgicos apresentam uma
aleatoriedade intrnseca devida complexa interao e dependncia entre inmeros
fatores influentes nas diversas fases do ciclo hidrolgico. Para lidar com tais
incertezas, o hidrlogo tem como uma de suas primeiras tarefas, obter e analisar
uma amostra de dados hidrolgicos. A investigao organizada de um conjunto
de dados hidrolgicos, na busca de evidncias e padres empricos de
variabilidade, uma aplicao da estatstica em um estgio descritivo e constitui
o objeto do presente captulo. O estgio seguinte, o qual procura estabelecer o
padro de variabilidade da populao de onde foi extrada aquela amostra, uma
aplicao da teoria de probabilidades e dos mtodos de inferncia estatstica,
cujos fundamentos sero tratados nos captulos subseqentes desta publicao.
A anlise preliminar de uma amostra de dados hidrolgicos compreende um
conjunto de mtodos e tcnicas que visam extrair as caractersticas empricas
essenciais do padro de distribuio de uma varivel hidrolgica. Esse conjunto
pode ser dividido em trs grupos: (a) Apresentao Grfica de Dados Hidrolgicos;
(b) Sumrio Numrico e Estatsticas Descritivas e (c) Mtodos Exploratrios.
Complementarmente primeira anlise de uma amostra de dados de uma nica
varivel, apresenta-se, ao final desse captulo, uma breve discusso sobre a
associao entre observaes simultneas de duas variveis.
2.1 Apresentao Grfica de Dados Hidrolgicos
Em geral, um conjunto de observaes de uma varivel hidrolgica encontra-se
disponvel em forma tabular (ver, por exemplo, o anexo 1 ou o exerccio 9 do
captulo 1), a qual, muitas vezes, no consegue demonstrar, com facilidade e nitidez,
a essncia do padro de distribuio da varivel em questo. Essa nitidez mais
facilmente conseguida com o emprego de representaes grficas da varivel
hidrolgica. O que se segue um apanhado no exaustivo de diferentes tipos de
grficos de variveis hidrolgicas discretas e contnuas.
CAPTULO 2
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
20
2.1.1 Diagrama de Linha
O nmero de ocorrncias de uma varivel hidrolgica discreta pode ser
convenientemente representado pelo chamado diagrama de linha, o qual dispe
os valores possveis da varivel em um eixo horizontal, enquanto os correspondentes
nmeros de ocorrncias so representados pelas alturas das linhas verticais. A
Figura 2.1 exemplifica um diagrama de linha, onde, em abscissas, encontram-se
os valores possveis do nmero anual de cheias do Rio Magra na estao
fluviomtrica de Calamazza (Itlia) que ultrapassaram a vazo de referncia de
300 m
3
/s em um perodo de 34 anos de observao, enquanto as alturas das
linhas verticais representam os correspondentes nmeros de ocorrncias. A vazo
de referncia foi estabelecida como aquela, acima da qual os elevados nveis
dgua ameaam vidas e propriedades locais. A observao do diagrama da Figura
2.1 sugere uma distribuio aproximadamente simtrica do nmero de ocorrncias,
com valor central em torno de 4 cheias anuais.
2.1.2 Diagrama Uniaxial de Pontos
Odiagrama uniaxial de pontos uma representao grfica apropriada para
amostras pequenas, de tamanho arbitrado como menor ou igual a 25 ou 30
Figura 2.1 Exemplo de Diagrama de Linha para o nmero de anos de cheias do
Rio Magra em Calamazza, Itlia, (adaptado de Kottegoda e Rosso, 1997)
Nmero de Anos de Cheias do Rio Magra em
Calamazza (Itlia)
N

m
e
r
o

d
e

O
c
o
r
r

n
c
i
a
s
Nmero de Cheias Anuais
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
21
observaes, de variveis contnuas. Os dados so inicialmente classificados em
ordem crescente e, em seguida, grafados como pontos em um nico eixo horizontal.
A Tabela 2.1 apresenta as vazes mdias anuais do Rio Paraopeba em Ponte
Nova do Paraopeba, inicialmente na ordem cronolgica de suas ocorrncias entre
os anos civis de 1938 a 1963, e, em seguida, classificadas em ordem crescente.
Esses dados hidrolgicos foram empregados para construir o diagrama uniaxial
de pontos, ilustrado na Figura 2.2, no qual possvel visualizar a distribuio
ligeiramente assimtrica dos elementos da amostra em torno do valor central,
prximo a 86 m
3
/s, assim como a ocorrncia de anos relativamente mais chuvosos
como o de 1943.
Tabela 2.1 Vazes Mdias Anuais do Rio Paraopeba
em Ponte Nova do Paraopeba (m
3
/s)
Ano Civil Vazes mdias anuais Vazes classificadas
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
Nmero de ordem
104,3
97,9
89,2
92,7
98
141,7
81,1
97,3
72
93,9
83,8
122,8
87,6
101
97,8
59,9
49,4
57
68,2
83,2
60,6
50,1
68,7
117,1
80,2
43,6
43,6
49,4
50,1
57
59,9
60,6
68,2
68,7
72
80,2
81,1
83,2
83,8
87,6
89,2
92,7
93,9
97,3
97,8
97,9
98
101
104,3
117,1
122,8
141,7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
22
2.1.3 Histograma
O tamanho da amostra dado pelo nmero de elementos (ou itens ou
observaes) que a compem e pode ser arbitrariamente considerado como
pequeno, mdio ou grande, a depender das caractersticas da varivel em foco e,
principalmente, se a srie hidrolgica disponvel do tipo completa ou do tipo
reduzida. A srie, apresentada na Tabela 2.2, de 62 anos de vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba, para o perodo 1938 a 1999,
pode ser considerada de tamanho mdio. Entretanto, uma amostra de 62 itens
seria de tamanho pequeno se ela se referisse a vazes mdias dirias. As sries
hidrolgicas reduzidas podem ser arbitrariamente categorizadas em amostras de
tamanho pequeno se o nmero de elementos (N) for menor ou igual a 25, e de
tamanho grande, se N70. Para as amostras mdias e grandes, conveniente
classific-las ou agrup-las em subconjuntos, de modo a se ter uma melhor
compreenso do padro de variabilidade da varivel em questo. Esse expediente
d origem a diversos tipos de grficos, entre os quais destaca-se o histograma.
Para se construir um histograma, necessrio, primeiramente, agrupar as
observaes em classes, definidas por intervalos de largura fixa ou varivel, e,
em seguida, contar o nmero de ocorrncias, ou seja, a freqncia absoluta em
cada classe. O nmero de classes a ser considerado, representado por NC,
depende do tamanho da amostra; de fato, um valor excessivamente pequeno
para NC no ir permitir a visualizao de caractersticas importantes da amostra,
enquanto um valor excessivamente grande ir produzir flutuaes exageradas das
freqncias das classes. Kottegoda e Rosso (1977) sugerem que NC pode ser
Figura 2.2 Exemplo de Diagrama Uniaxial de Pontos para as vazes mdias
anuais do Rio Paraopeba em Ponte Nova do Paraopeba Perodo 1938-1963
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
23
aproximado pelo inteiro mais prximo de , com um mnimo de 5 e um mximo
de 25, argumentando, assim, que no so informativos os histogramas de amostras
de tamanho inferior a 25. Uma indicao alternativa a regra de Sturges (1926)
que sugere a seguinte aproximao para o nmero de classes:
N NC
10
log 3 , 3 1 (2.1)
Tabela 2.2 Vazes Mdias Anuais do Rio Paraopeba
em Ponte Nova do Paraopeba (m
3
/s)
Ano Civil Vazes mdias anuais Ano Civil
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
Vazes mdias anuais
104,3
97,9
89,2
92,7
98
141,7
81,1
97,3
72
93,9
83,8
122,8
87,6
101
97,8
59,9
49,4
57
68,2
83,2
60,6
50,1
68,7
117,1
80,2
43,6
66,8
118,4
110,4
99,1
71,6
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
62,6
61,2
46,8
79
96,3
77,6
69,3
67,2
72,4
78
141,8
100,7
87,4
100,2
166,9
74,8
133,4
85,1
78,9
76,4
64,2
53,1
112,2
110,8
82,2
88,1
80,9
89,8
114,9
63,6
57,3
N
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
24
Para ilustrar a elaborao da tabela de freqncias, essencial para a construo
do histograma, tomemos a amostra de vazes mdias anuais da Tabela 2.2, cujo
tamanho N= 62. De acordo com as recomendaes mencionadas, o nmero
de classes deve estar compreendido entre 7 e 8; tomemos NC= 7, lembrando
que o limite inferior da primeira classe deve ser menor ou igual ao mnimo amostral
(43,6 m
3
/s), enquanto o limite superior da stima classe deve ser maior ou igual ao
mximo amostral (166,9 m
3
/s). Uma vez que a amplitude A entre os valores
mximo e mnimo da amostra de 123,3 e que NC = 7, pode-se arbitrar a
largura de intervalo de classe como fixa e igual a LIC= 20 m
3
/s, em decorrncia
de ser um inteiro prximo a 17,61, resultado do quociente entre a amplitude e o
nmero de classes. A Tabela 2.3 apresenta um resumo do clculo (a) das
freqncias absolutas, obtidas pelo nmero de ocorrncias em cada classe, (b)
das freqncias relativas, resultantes da diviso das freqncias absolutas por
N= 62 e (c) das freqncias relativas acumuladas.
Com base nos elementos da Tabela 2.3, pode-se construir o histograma, da Figura
2.3, o qual um simples grfico de barras tendo, em abscissas, os intervalos de
classes e, em ordenadas, as freqncias absolutas e/ou relativas. A observao
do histograma da Figura 2.3 mostra algumas caractersticas salientes da amostra,
tais como: (a) a maior concentrao de pontos no terceiro intervalo de classe, o
qual provavelmente contem o valor central em torno do qual os pontos restantes
se dispersam; (b) uma certa assimetria da distribuio de freqncias, demonstrada
pela maior amplitude direita do bloco de maior freqncia, quando comparada
com a amplitude esquerda e (c) a ocorrncia isolada de observaes muito
superiores ao valor central. importante ressaltar, entretanto, que a forma do
histograma muito sensvel ao nmero, largura e aos limites dos intervalos de
classe. De volta ao exemplo, note que os dois ltimos intervalos de classe contm
respectivamente 3 e 1 pontos amostrais, os quais certamente podem ser
Tabela 2.3 Tabela de freqncias das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938 a 1999
Classe j
Intervalo de
Classe (m
3
/s)
Freqncia Absoluta f
j
1
2
3
4
5
6
7
Total
Freqncia Relativa fr
j
(30, 50]
(50, 70]
(70, 90]
(90,110]
(110,130]
(130,150]
(150,170]
3
15
21
12
7
3
1
62
0, 0484
0, 2419
0, 3387
0, 1935
0, 1129
0, 0484
0, 0161
1
Freqncia Acumulada

j
j
fr F
0, 0484
0, 2903
0, 6290
0, 8226
0, 9355
0, 9839
1
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
25
concentrados em uma nica classe de largura 40 m
3
/s, com limite inferior igual a
130 m
3
/s e superior igual a 170 m
3
/s.
2.1.4 Polgono de Freqncias
Opolgono de freqncias outra representao grfica da tabela de freqncias,
sendo muito til para diagnosticar o padro de distribuio de uma varivel. Esse
polgono aquele formado pela juno dos pontos mdios dos topos dos retngulos
do histograma, depois de estend-lo por uma classe adicional de cada um de seus
lados. O polgono de freqncias correspondente ao histograma da Figura 2.3
encontra-se ilustrado na Figura 2.4. Observe que, como o polgono de freqncias
deve ter ordenadas inicial e final nulas e, por conveno, rea igual do histograma,
ele deve comear meio intervalo de classe esquerda e finalizar meio intervalo
direita. Em conseqncia, o polgono de freqncias da Figura 2.4 inicia com a
abscissa 20 m
3
/s e termina com 180 m
3
/s, ambos com freqncias relativas iguais
a zero. O valor que corresponde maior ordenada do polgono recebe a
denominao de moda; no caso da Figura 2.4, a moda, ou o valor mais freqente,
de 80 m
3
/s.
Figura 2.3 Histograma das vazes mdias anuais do Rio Paraopeba em Ponte
Nova do Paraopeba Perodo 1938 a 1999
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
26
Figura 2.4 Polgono de Freqncias Relativas das vazes mdias anuais do Rio
Paraopeba em Ponte Nova do Paraopeba Perodo 1938 a 1999

mais usual construir-se o polgono de freqncias relativas, ao invs de se


empregar as freqncias absolutas; neste caso, as ordenadas de cada classe so
as respectivas freqncias de ocorrncia, limitadas entre os valores extremos de
0 e 1. medida que o nmero de observaes cresce e, em conseqncia, a
largura dos intervalos de classe decresce, o polgono de freqncias relativas
torna-se uma curva de freqncia. No caso limite de uma amostra de tamanho
infinito, esta curva tornar-se-ia a funo densidade de probabilidade da
populao, cuja definio formal ser um dos objetos do captulo 3.
2.1.5 Diagrama de Freqncias Relativas Acumuladas
Odiagrama de frequncias relativas acumuladas resulta da unio, por linhas
contnuas, dos pares formados pelos limites superiores dos intervalos de classe e
pelas ordenadas consecutivamente acumuladas do histograma, desde a menor
at a maior. No eixo das ordenadas, o diagrama fornece a freqncia de no
superao do valor correspondente da varivel, lido no eixo das abscissas. De
modo alternativo, o diagrama de freqncias relativas acumuladas pode tambm
ser elaborado sem a prvia construo do histograma ou da tabela de freqncias.
Para isso, basta (a) classificar os dados em ordem crescente; (b) associar aos
dados classificados os seus respectivos nmeros de ordem da classificao m,
com 1 m N; e (c) associar aos dados classificados as correspondentes
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
27
freqncias ou probabilidades empricas de no superao, calculadas pelo
quociente m/N. Esse modo alternativo foi aqui usado para construir o diagrama
de freqncias relativas acumuladas das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba, ilustrado na Figura 2.5.
O diagrama de freqncias acumuladas permite a identificao imediata da
mediana Q
2
, qual seja do valor correspondente freqncia de no superao
de 0,5, assim como do primeiro quartil Q
1
e do terceiro quartil Q
3
, que
correspondem respectivamente s freqncias de 0,25 e 0,75; no diagrama da
Figura 2.5, Q
2
= 82,7, Q
1
= 68,2 e Q
3
= 99,1 m
3
/s. A amplitude inter-quartis,
representada por AIQ, dada pela diferena entre Q
3
e Q
1
e tem sido usada
como parte de um critrio para a identificao de pontos atpicos (ou outliers)
eventualmente presentes na amostra. Segundo tal critrio, considerado um ponto
atpico superior todo elemento da amostra superior a (Q
3
+1,5AIQ) e,
analogamente, um ponto atpico inferior todo e qualquer elemento menor do
que (Q
1
-1,5AIQ). Como o prprio nome indica, um ponto atpico afasta-se de
modo singular e dramtico da tendncia geral de variao dos outros elementos
da amostra, podendo ser resultado de observaes com erros grosseiros ou
simplesmente a manifestao de eventos muito raros. Comprovado o primeiro
caso, a sua remoo da amostra estaria plenamente justificada; no segundo caso,
entretanto, sua remoo seria uma deciso incorreta ou, pelo menos, controvertida.
De volta ao exemplo da Figura 2.5, e segundo o critrio exposto, a vazo mdia
anual de 166,9 m
3
/s, correspondente ao ano civil de 1983, considerada um
ponto amostral atpico.
Figura 2.5 Diagrama de Freqncias Relativas Acumuladas das vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba Perodo 1938 a 1999
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
28
Do modo anlogo aos quartis, pode-se fazer referncia aos decis, para freqncias
acumuladas mltiplas de 0,1, aos percentis para freqncias mltiplas de 0,01 e,
mais genericamente, aos quantis. Convm ressaltar que se houver a inverso dos
eixos horizontal e vertical de um diagrama de freqncias acumuladas, resulta o
assim denominado grfico de quantis. Novamente, medida que o nmero de
observaes cresce, o diagrama de freqncias relativas acumuladas vai se tornando
uma curva de distribuio de freqncias. No caso limite de uma amostra de
tamanho infinito, esta curva tornar-se-ia a funo de distribuio de
probabilidades acumuladas da populao.
2.1.6 Curva de Permanncia
A chamada curva de permanncia uma variao do diagrama de freqncias
relativas acumuladas, na qual a freqncia de no superao substituda pela
porcentagem de um intervalo de tempo especfico em que o valor da varivel,
indicado em abscissas, foi igualado ou superado. Em hidrologia, a curva de
permanncia muito usada para ilustrar o padro de variao de vazes, assim
como o para indicadores de qualidade da gua, tais como turbidez de um trecho
fluvial, dureza da gua e concentraes de sedimento em suspenso, entre outros.
Em particular, freqente o emprego da curva de permanncia de vazes para o
planejamento e projeto de sistemas de recursos hdricos e, tambm, como
instrumento de outorga de direito de uso da gua em alguns estados brasileiros.
Por exemplo, a Superintendncia de Recursos Hdricos do Estado da Bahia pode
outorgar, para um novo usurio dos recursos hdricos de domnio daquele estado,
at 80% da vazo denotada por Q
90
, ou seja, a vazo local que igualada ou
superada em 90% do tempo.
Genericamente, a curva de permanncia de vazes de uma dada seo fluvial,
para a qual se dispe de N dias de registros fluviomtricos, pode ser construda
do seguinte modo: (a) ordene as vazes Q em ordem decrescente; (b) atribua a
cada vazo ordenada Q
m
a sua respectiva ordem de classificao m; (c) associe
a cada vazo ordenada Q
m
a sua respectiva freqncia ou probabilidade emprica
de ser igualada ou superada P(Q

Q
m
), a qual pode ser estimada pela razo
(m/N) e (d) lance em um grfico as vazes ordenadas e suas respectivas
porcentagens 100(m/N) de serem igualadas ou superadas no intervalo de tempo
considerado. Para exemplificar a construo da curva de permanncia, tomemos
as vazes mdias dirias observadas no Rio Paraopeba em Ponte Nova do
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
29
Paraopeba, durante o ano hidrolgico de Outubro de 1962 a Setembro de 1963;
o fluviograma anual correspondente est ilustrado na Figura 2.6. Efetuando as
etapas necessrias e com N= 365 dias, a curva de permanncia correspondente
aquela ilustrada na Figura 2.7.
A curva de permanncia da Figura 2.7 revela, por exemplo, que a vazo Q
90
, ou
seja a vazo que excedida em 328,5 dias do ano, de 23,4 m
3
/s. Alm de seu
Figura 2.6 Fluviograma do Rio Paraopeba em Ponte Nova do Paraopeba
1962/1963
Figura 2.7 Curva de Permanncia das Vazes do Rio Paraopeba em Ponte Nova
do Paraopeba
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
30
uso para clculo da vazo referencial de outorga, a curva de permanncia possui
outras utilizaes de interesse prtico. Uma delas a estimativa preliminar do
volume sazonal de um possvel reservatrio destinado a manter, por exemplo, um
calado mnimo para navegao, ou uma certa vazo mnima Q
r
superior mnima
anual, a jusante da seo fluvial em questo. No exemplo da Figura 2.7, supondo
queQ
r
= 50 m
3
/s, tal como indicado pela linha horizontal, o volume a ser acumulado
durante o perodo chuvoso poderia ser estimado pela diferena entre a rea
compreendida entre a linha horizontal e o eixo das abscissas, e a rea abaixo da
curva de permanncia, ambas calculadas a partir do ponto da interseo das
linhas correspondentes. Evidentemente, o volume afluente durante o perodo
chuvoso, o qual pode ser obtido pela rea da curva de permanncia acima da
linha horizontal, deve ser suficiente para suprir o dficit dos meses de estiagem.
2.2 Sumrio Numrico e Estatsticas Descritivas
As caractersticas essenciais de forma do histograma ou do polgono de freqncias
relativas podem ser sumariadas por meio de estatsticas descritivas de uma
amostra de dados hidrolgicos, as quais so medidas-resumo que sintetizam, de
modo simples e econmico, o padro de distribuio da varivel em questo.
Alm disso, as estatsticas descritivas apresentam uma importante vantagem, em
relao apresentao grfica de dados, que a representada pelo seu uso na
estatstica inferencial, ou seja, o de extrair da amostra as informaes necessrias
para inferir o comportamento populacional. As estatsticas descritivas podem ser
agrupadas em 3 tipos distintos: (a) medidas de tendncia central; (b) medidas
de disperso e (c) medidas de assimetria e de curtose.
2.2.1 Medidas de Tendncia Central
Os dados hidrolgicos, em geral, se aglomeram em torno de um valor central,
tal como no diagrama uniaxial da Figura 2.2. O valor central representativo de
uma amostra pode ser calculado por uma das medidas de tendncia central ou
de posio, entre as quais, as mais conhecidas so a mdia, a moda e a mediana.
A escolha entre tais medidas depende do uso pretendido do valor central.
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
31
Mdia
Se uma amostra de tamanho N constituda pelos elementos , a
mdia aritmtica, ou simplesmente mdia, de X dada por

+ + +

N
i
i
N
x
N N
x x x
x
1
2 1
1 ...
(2.2)
Se, das N observaes da varivel X, N
1
forem iguais a x
1
, N
2
forem iguais a x
2
e
assim por diante at o k-simo valor amostral, ento a mdia de X pode ser
obtida por

+ + +

k
i
i i
k k
x N
N N
x N x N x N
x
1
2 2 1 1
1 ...
(2.3)
Analogamente, se f
i
denotar a freqncia relativa da observao x
i
, a equao
2.3 pode ser re-escrita como

k
i
i i
x f x
1
(2.4)
A mdia a medida de posio mais freqentemente usada e tem um significado
terico importante como estimativa da mdia populacional . Conforme
mencionado no item 2.1.4, no caso limite de uma amostra de tamanho infinito de
uma varivel contnua X e, conseqentemente, do polgono de freqncias tornar-
se a funo densidade de probabilidade, a mdia ir corresponder coordenada,
no eixo das abscissas, do centride da rea abaixo da curva de freqncias.
Alternativamente media aritmtica, porm dentro da mesma idia por ela sugerida,
existem duas outras medidas de tendncia central que so teis em alguns casos
especiais. So elas: a media harmnica, representada por
h
x , e a mdia
geomtrica
g
x . A mdia harmnica o recproco da mdia aritmtica dos
recprocos dos elementos da amostra. Formalmente, definida por
( ) ( ) ( ) ( ) [ ]
N
h
x x x N
x
1 ... 1 1 1
1
2 1
+ + +

(2.5)
Tipicamente, a mdia harmnica apresenta uma noo mais apropriada de mdia
em situaes que envolvem propores de variao. Por exemplo, se a primeira
{ }
N
x x x , ... , ,
2 1
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
32
metade de um trecho fluvial percorrida por um flutuador, a uma velocidade de
0,4 m/s, e a outra metade a 0,60 m/s, a mdia aritmtica seria 50 , 0 x m/s e a
mdia harmnica seria
h
x = 0,48 m/s, a qual de fato a velocidade mdia do
flutuador ao longo de todo o trecho fluvial. Por outro lado, a mdia geomtrica
mais apropriada para estimar o valor central de variveis que possuem um
desenvolvimento geomtrico, ou seja, aquelas cujos valores sucessivos guardam
entre si um fator de crescimento ou decrescimento, tais como aumento populacional
ou de carga orgnica das afluncias a uma estao de tratamento de esgotos. A
mdia geomtrica, a qual consistentemente menor ou igual mdia aritmtica ,
dada pela raiz N-sima do produto dos N valores amostrais, ou seja,
(2.6)
sendo equivalente ao antilogaritmo da mdia aritmtica dos logaritmos dos
elementos x
i
.
Mediana
A mdia aritmtica de uma amostra, por levar em conta todos os seus elementos,
apresenta a desvantagem de ter seu valor afetado pela eventual presena de pontos
atpicos. Uma outra medida de posio mais resistente do que a mdia aritmtica,
por ser imune eventual presena de valores extremos discordantes na amostra,
a medianax
md
. Essa definida como o valor da varivel X que separa a freqncia
total em duas metades iguais, sendo, portanto, equivalente ao segundo quartil Q
2
.
Se as observaes amostrais so ordenadas de modo que
( ) ( ) ( )

N
x ... x x s s s
2 1
, a mediana pode ser calculada por
(2.7)
Moda
A moda x
mo
o valor amostral que ocorre com maior freqncia, sendo geralmente
obtido a partir do polgono de freqncias relativas, tal como o da Figura 2.3. No
caso limite de uma amostra de tamanho infinito de uma varivel contnua X e,
conseqentemente, do polgono de freqncias tornar-se a funo densidade de
probabilidade, a moda ir corresponder coordenada, no eixo das abscissas, do
( )

j

N
i
i
N
i
N
i
N
N g
x
N
x x x x x
1 1
1
2 1
ln
1
exp . ... . .
par for se
2
ou mpar for se
1
2 2
2
1
N
x x
x N x x
N N
md N md

+
+

A
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
33
ponto de derivada nula da curva de freqncias, ressalvando que pode haver
mais de um desses pontos em funes no unimodais. Em polgonos de freqncias
ou histogramas assimtricos, quais sejam aqueles que apresentam amplitudes
diferentes direita e esquerda da moda, as medidas de tendncia central
apresentam caractersticas peculiares. Quando a amplitude direita da moda
muito maior do que esquerda, trata-se de um histograma com assimetria positiva,
caso em que x
mo
< x
md
< x . Quando a amplitude esquerda da moda muito
maior, a assimetria dita negativa e < x
md
< x
mo
. Quando ambas amplitudes
aproximadamente se equivalem, o histograma simtrico e as trs medidas de
tendncia central tm valores prximos entre si.
2.2.2 Medidas de Disperso
O grau de variabilidade dos pontos, em torno do valor central de uma amostra,
dado pelas medidas de disperso. Entre essas, a mais simples e mais intuitiva a
amplitude, dada por
( ) ( ) 1
x x A
N

, onde
( ) ( ) 1
e x x
N
so, respectivamente,
o N-simo e o primeiro dos elementos classificados em ordem crescente. A
diferena entre o mximo e o mnimo da amostra, tal como expressa pela amplitude,
depende exclusivamente de tais pontos. Esses, por sua vez, podem ser muito
discordantes dos outros elementos da amostra e tornar a amplitude uma medida
no representativa da disperso ali contida. Uma outra medida mais imune eventual
presena de tais pontos e, portanto, mais resistente, a amplitude inter-quartis
AIQ, dada pela diferena entre o terceiro e o primeiro quartis, respectivamente
Q
3
e Q
1
.
As medidas de disperso j mencionadas, embora fceis de calcular, so pouco
representativas porque ignoram os elementos restantes da amostra. Essa
inconvenincia pode ser superada pelo emprego de outras medidas de disperso
que tm como base o desvio mdio de todos os pontos amostrais em relao a
um valor central representativo. As principais so: o desvio mdio absoluto e o
desvio padro.
Desvio Mdio Absoluto
Odesvio mdio absoluto, aqui denotado por d, representa a mdia aritmtica
dos valores absolutos dos desvios amostrais, em relao mdia. Para uma amostra

N
x x x , ... , ,
2 1
, d definido por
x
A = x
(N)

_
x
(1)
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
34
(2.8)
Embora seja uma medida intuitiva, o desvio mdio absoluto pondera de modo
linearmente proporcional tanto os pequenos como os grandes desvios em relao
mdia. Alm disso, o emprego do operador valor absoluto, na equao 2.8,
torna o clculo de d ligeiramente trabalhoso, do ponto de vista computacional.
Desvio Padro
Uma prtica alternativa ao uso do valor absoluto nas medidas de disperso,
elevar ao quadrado os desvios em relao mdia. Para uma amostra , define-se
a varincia amostral como o desvio quadrtico mdio, dado pela seguinte
equao:
(2.9)
Analogamente mdia , a varincia populacional, denotada por o
2
, pode ser
estimada sem vis por meio da seguinte correo da equao 2.9:
(2.10)
O termo vis aqui usado livremente para indicar que, em mdia, no existe
diferena entre o
2
e sua estimativa pela equao 2.10, diferentemente do resultado
da equao 2.9. Diz-se, nesse caso, que houve a reduo de 1 grau de liberdade
[de N para (N-1)] pelo fato da mdia populacional haver sido estimada pela
mdia amostral x, previamente estimativa de o
2
por meio da equao 2.10. Os
termos vis e graus de liberdade sero formalmente definidos no captulo 6.
A varincia expressa em termos do quadrado das dimenses da varivel original.
Para conservar as unidades da varivel, define-se o desvio padro s como a raiz
quadrada do desvio quadrtico mdio, ou seja, a raiz quadrada da varincia s
2
,
tal como calculada pela equao 2.10. Formalmente, o desvio padro definido
pela seguinte expresso:
( ) ( ) ( )
( )


+ + +

N
i
i
N i
x x
N N
x x x x x x
s
1
2
2 2
2
2
2
1 ...
( )

N
i
i
x x
N
s
1
2 2
1
1

=
=
+ +
=
N
i
i
N
x x
N N
x x x x x x
d
1
2 1
1
...
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
35
(2.11)
Diferentemente do desvio mdio absoluto, o desvio padro fortemente
influenciado pelos menores e maiores desvios, constituindo-se na medida de
disperso mais freqentemente usada. A expanso do segundo membro da equao
2.11 facilita o clculo do desvio padro por meio da seguinte expresso equivalente:
(2.12)
Quando se pretende comparar a variabilidade ou a disperso de amostras de
duas ou mais variveis diferentes, comum o emprego do chamado coeficiente
de variao CV, resultado do quociente entre o desvio padro s e a mdia
x
. O
coeficiente de variao um nmero adimensional positivo, devendo ser aplicado
somente nos casos em que as mdias so diferentes de zero e as observaes so
sempre positivas; caso sejam sempre negativas, o respectivo CV deve ser calculado
com base no valor absoluto da mdia.
2.2.3 Medidas de Assimetria e Curtose
Outras caracterizaes importantes da forma de um histograma ou do polgono
de freqncias so dadas pelas medidas de assimetria e curtose, ambas baseadas
em valores acumulados de potncias superiores a 2 dos desvios dos pontos
amostrais em relao mdia. A principal medida de assimetria denominada
coeficiente de assimetria, enquanto a de curtose dada pelo coeficiente de
curtose.
Coeficiente de Assimetria
Para uma amostra , define-se o coeficiente de assimetria pelo
nmero adimensional dado por
( ) ( ) ( )
( )
( )

+ + +

N
i
i
N i
x x
N N
x x x x x x
s
1
2
2 2
2
2
1
1
1
...
( ) ( ) ( )
2
1
2
1
2
1
2
1 1
1
2
1
1
x
N
N
x
N
x N x x x
N
s
N
i
i
N
i
N
i
i i



{x
1
, x
2
,... x
N
}
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
36
(2.13)
Na equao 2.13, exceo do primeiro quociente do segundo membro, o qual
contm as correes para fazer do coeficiente de assimetria amostral uma estimativa
mais acurada da correspondente medida populacional y, o coeficiente g reflete e
acentua a contribuio acumulada dos desvios positivos e negativos, em relao
mdia amostral. De fato, desvios positivos muito grandes, ou negativos muito
grandes, quando elevados terceira potncia, sero grandemente acentuados; a
predominncia, ou a equivalncia, desses desvios, quando somados, ir determinar
se o coeficiente de assimetria ser positivo, negativo ou nulo. Se o coeficiente g
positivo, diz-se que o histograma (ou o polgono de freqncias) possui assimetria
positiva, tal como ilustrado pelas Figuras 2.3 e 2.4. Nesse caso, observa-se que
a moda amostral inferior mediana, a qual, por sua vez, inferior mdia; o
contrrio seria observado caso o coeficiente g determinasse um histograma com
assimetria negativa. Caso os desvios positivos e negativos se equivalessem, o
coeficiente g teria valor nulo (ou prximo de zero) e as 3 medidas de tendncia
central tenderiam a se concentrar em um nico valor de X. O coeficiente de
assimetria um nmero limitado; de fato, a despeito de quo positivos ou negativos
sejam os desvios em relao mdia, vlida a inequao 2 s N g .
As sries hidrolgicas referentes a eventos mximos, em geral, possuem
coeficientes de assimetria positivos. Essa constatao particularmente verdadeira
para as sries de vazes mximas anuais. De fato, para tais sries, h uma grande
concentrao de valores no muito inferiores, ou no muito superiores, cheia
mdia anual, que, em geral, correspondem aos nveis dgua contidos pelo leito
menor da seo fluvial. Entretanto, a rara combinao de condies
hidrometeorolgicas excepcionais e de elevado teor de umidade do solo pode
determinar a ocorrncia de uma grande enchente, com vazo mxima muitas vezes
superior ao valor modal. Bastam apenas algumas ocorrncias de tais grandes
enchentes para determinar a forma assimtrica do polgono de freqncias das
vazes mximas anuais e, conseqentemente, valores positivos para o coeficiente
g. Do exposto, certo concluir que a prescrio de modelos matemticos
positivamente assimtricos para as funes densidade de probabilidade da
populao explica-se pelo mecanismo de formao das enchentes de um rio.
Vale ressalvar, entretanto, que o coeficiente g, por no ser uma medida resistente
e, conseqentemente, ser muito sensvel presena de extremos em amostras de
tamanho reduzido, no deve constituir um balizador nico ou inequvoco para a
prescrio de modelos distributivos positivamente assimtricos.
( ) ( )
( )
3
1
3
2 1 s
x x
N N
N
g
N
i
i

HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
37
Coeficiente de Curtose
Uma medida de quo pontiagudo ou achatado o histograma (ou o polgono de
freqncias) em torno da mdia amostral, pode ser calculada pelo coeficiente de
curtose. Esse nmero adimensional formalmente definido por
(2.14)
Por tratar-se de um coeficiente cuja base de clculo a soma das quartas potncias
dos desvios em relao mdia, a amostra deve ser de tamanho suficientemente
grande, digamos 200 e N , para produzir estimativas confiveis do grau de
achatamento da correspondente funo de distribuio de freqncias. O
coeficiente de curtose possui maior relevncia para distribuies aproximadamente
simtricas e tambm um indicador do chamado peso relativo das caudas de
tais distribuies. Com efeito, como o valor do coeficiente k indica quo
aglomerados esto os pontos amostrais em torno da mdia, tem-se tambm a
noo da distribuio dos valores muito distantes daquele valor central e, por
conseguinte, das freqncias que se concentram nas caudas inferior e superior.
s vezes, subtrai-se o valor 3 da equao 2.14 para estabelecer o coeficiente de
excesso de curtose k
e
, em relao a uma distribuio padro perfeitamente
simtrica cujo valor de k igual a 3. Nesse caso, se k
e
= 0, a distribuio dita
mesocrtica; se k
e
< 0, leptocrtica; e se k
e
> 0, platicrtica. A Figura 2.8
ilustra esquematicamente as situaes mencionadas.
( ) ( ) ( )
( )
4
1
4
2
3 2 1 s
x x
N N N
N
k
N
i
i

Figura 2.8 Categorizao das distribuies de freqncias com respeito curtose


HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
38
Em se tratando de sries hidrolgicas, com amostras tpicas de tamanho muito
limitado, as estatsticas descritivas mais freqentemente usadas, e consideradas
representativas da forma do polgono de freqncias, so a mdia, o desvio padro
e o coeficiente de assimetria. De fato, essas estatsticas oferecem um sumrio
numrico conciso da informao contida em uma amostra. A ttulo de exemplo,
apresenta-se na Tabela 2.4 o clculo das principais estatsticas descritivas das
vazes mdias anuais do Rio Paraopeba em Ponte Nova do Paraopeba, listadas
na Tabela 2.2. Os resultados da Tabela 2.4 mostram que a moda inferior
mediana, a qual, por sua vez, menor do que a mdia, indicando, assim, uma
assimetria positiva. Tal fato comprovado pelo exame da Figura 2.3 e pelo
coeficiente de assimetria amostral positivo de 0,808. Embora a amostra contenha
apenas 62 observaes, o coeficiente de excesso de curtose sugere uma
distribuio platicrtica, ou seja, relativamente menos pontiaguda em torno do
valor central.
2.3 Mtodos Exploratrios
Tukey (1977) cunhou a denominao anlise exploratria de dados, traduo
livre da terminologia de lngua inglesa EDA - exploratory data analysis, para
identificar uma coleo de tcnicas quantitativas e grficas de exame e interpretao
x
Tabela 2.4 Estatsticas descritivas das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938-1999
Estatstica Amostral
Notao Valor
Mdia
Moda
Mediana
Mdia Harmnica
Mdia Geomtrica
Amplitude
Primeiro Quartil
Terceiro Quartil
Ampl. Inter-Quartis
Desvio Abs. Mdio
Varincia
Desvio Padro
Coef. de Variao
Coef. de Assimetria
Coef. de Curtose
Excesso de Curtose
x
mo
x
md
A
Q
1
Q
3
AIQ
d
s
2
s
CV
g
k
86, 105
80
82,7
79, 482
82, 726
123,3
68,2
99,1
30,9
19, 380
623, 008
24, 960
0,290
0,808
3,857
0,857
Unidades Cl cul o
x m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
m
3
/s
(m
3
/s)
2
m
3
/s
Adimensional
Adimensional
Adimensional
Adimensional
Equao 2.2
Polgono Freqncias
Equao 2.7
Equao 2.5
Equao 2.6
(Mximo-Mnimo)
Eq. 2.7 (1
a
metade da srie)
Eq. 2.7 (2
a
metade da srie)
(Q
3
-Q
1
)
Equao 2.8
Equao 2.10
Equao 2.11
Equao 2.13
Equao 2.14
(k-3)
x s
x
h
k
e
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
39
de um conjunto de observaes de uma varivel aleatria, sem a preocupao
prvia de formular premissas ou modelos matemticos. A abordagem EDA baseia-
se na idia de que os dados revelam, por si mesmos, sua estrutura subjacente.
Entre as tcnicas grficas propostas pela abordagem EDA, destaca-se o diagrama
box plot, conhecido tambm pela denominao desenho esquemtico, e o grfico
ramo-e-folha, traduo livre de stem-and-leaf.
2.3.1 O diagrama Box Plot
O diagrama box plot consiste em um retngulo definido pelo primeiro e pelo
terceiro quartis, contendo a mediana em seu interior, tal como ilustrado na Figura
2.9, relativa s vazes mdias anuais do Rio Paraopeba em Ponte Nova do
Paraopeba. A partir do lado superior do retngulo, traa-se uma linha at o ponto
que no exceda (Q
3
+1,5AIQ), considerado limite superior para a identificao de
ouliers. De modo anlogo, traa-se outra linha a partir do lado inferior do retngulo
at o limite dado por (Q
1
-1,5AIQ). As observaes que estiverem acima ou abaixo
desses limites so identificadas no diagrama e consideradas outliers ou valores
atpicos. Para a construo dos diagramas do tipo box plot, existem outras
alternativas, tais como estender as linhas verticais at os pontos de mximo e
mnimo, os quais so assinalados no grfico por barras horizontais; nesse caso, o
diagrama recebe a denominao de box & whisker.
Os diagramas do tipo box plot so muito teis por permitirem uma viso geral do
valor central, da disperso, da assimetria, das caudas e de eventuais pontos
amostrais discordantes. O valor central dado pela mediana e a disperso pela
amplitude inter-quartis. A simetria ou assimetria da distribuio pode ser visualizada
pelas posies relativas de Q
1
, Q
2
e Q
3
. Pode-se ter uma idia das caudas superior
e inferior por meio dos comprimentos das linhas verticais que saem do retngulo
de quartis. Os diagramas do tipo box plot so particularmente teis para comparar
as caractersticas de duas ou mais amostras diferentes.
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
40
2.3.2 O diagrama Ramo-e-Folha (Stem-and-Leaf )
Para amostras de tamanho mdio a grande, o histograma um procedimento
grfico eficaz para ilustrar a forma da distribuio de freqncias de uma varivel.
Para amostras menores, uma interessante alternativa ao histograma dada pelo
diagrama ramo-e-folha. De fato, esse diagrama agrupa os dados de tal modo,
que h nenhuma ou pouca perda da informao contida em cada elemento amostral,
realando a presena de pontos extremos. Para exemplificar a construo de um
diagrama ramo-e-folha, tomemos novamente a amostra de vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba, listadas na Tabela 2.2.
Inicialmente, as 62 observaes so classificadas em ordem crescente, entre o
valor mnimo de 43,6 m
3
/s e o mximo de 166,9 m
3
/s, com grande concentrao
em torno de 80 m
3
/s. Embora no exista uma regra fixa para a construo de um
diagrama ramo-e-folha, a idia central dividir cada observao classificada em
duas partes: a primeira, chamada de ramo, posta esquerda de uma linha vertical,
enquanto a segunda, denominada folha, colocada direita, tal como mostra a
Figura 2.10.
Figura 2.9 Diagrama Box Plot para as vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938-1999
Box Plot
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
41
O ramo indica o dgito inicial, ou os dgitos iniciais, de cada observao, enquanto
a folha mostra os dgitos complementares; no exemplo da Figura 2.10, o valor
mnimo de 43,6 m
3
/s apresentado na quarta linha, com o ramo 4 e a folha 36,
enquanto o mximo, na penltima linha, tem ramo 16 e folha 69. Observe que,
nesse exemplo, os ramos correspondem s dezenas e centenas, enquanto as folhas
s unidades, multiplicadas por 10m
3
/s. Um ramo com muitas folhas significa um
nmero maior de ocorrncias daquele ramo, tal como os dois ramos identificados
pelo dgito inicial 8, na Figura 2.10. As freqncias das folhas so acumuladas da
primeira linha at aquela que contm a mediana, de cima para baixo, e da ltima
at a linha da mediana, de baixo para cima, e anotadas esquerda da linha vertical,
tal como ilustrado na Figura 2.10. Observe que a freqncia da linha da mediana
Figura 2.10 Diagrama Ramo-e-Folha para as vazes mdias anuais do Rio
Paraopeba em Ponte Nova do Paraopeba Perodo 1938-1999
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
42
no acumulada; note, tambm, a anotao complementar das linhas que contm
o primeiro e o terceiro quartis.
O diagrama ramo-e-folha, depois de sofrer uma rotao de 90
o
esquerda em
torno de seu centro, tem a aparncia de um histograma, porm sem perda da
informao individualizada por cada observao. Por meio do diagrama ramo-e-
folha, possvel visualizar a posio da mediana, as amplitudes total e inter-quartis,
a disperso e a simetria (ou a assimetria) com que os pontos se dispem em torno
do valor central, os intervalos sem observaes e a eventual presena de outliers.
Na Figura 2.10, por convenincia, os ramos tiveram seus dgitos duplicados para
melhor definio da concentrao das folhas. Algumas vezes, o primeiro dos dgitos
duplicados marcado por um asterisco (*), para identificar que contm as folhas
que iniciam de 0 a 4, enquanto o segundo o por um ponto (), para as folhas de
5 a 9. Em outras situaes, poderia no haver tal duplicao. Em outros casos, as
folhas tambm poderiam sofrer arredondamento para o inteiro mais prximo.
2.4 Associao entre Variveis
Nos itens precedentes, foram vistos os principais mtodos de como organizar e
resumir informaes de uma amostra de dados de uma nica varivel. freqente,
entretanto, o interesse em analisar o comportamento simultneo de duas ou mais
variveis, buscando estabelecer eventuais associaes entre elas. No presente
item, examinaremos o caso mais simples de amostras de somente duas variveis
X e Y, geralmente observadas simultaneamente, ou organizadas em pares, os quais
so denotados por {(x
1
,y
1
), (x
2
,y
2
), ... , (x
N
, y
N
)}. O que segue apenas uma
introduo ao tpico sobre regresso e correlao entre variveis aleatrias, a
ser detalhado no captulo 9 desta publicao. Nesta introduo, destacamos os
diagramas de disperso e de quantis-quantis (Q-Q) de duas variveis X e Y.
2.4.1 Diagrama de Disperso
Um diagrama de disperso consiste em um grfico onde so lanados em
coordenadas cartesianas os pares {(x
1
,y
1
), (x
2
,y
2
), ... , (x
N
, y
N
)}de observaes
simultneas das variveis X e Y. Para ilustrar a construo e as possibilidades de
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
43
um diagrama de disperso, considere as variveis X = altura anual de precipitao,
em mm, e Y = vazo mdia anual, em m
3
/s, cujas observaes simultneas na
localidade de Ponte Nova do Paraopeba, tendo como base de clculo o ano
hidrolgico regional de outubro a setembro, encontram-se listadas na Tabela 2.5.
As Figuras 2.11 e 2.12 ilustram duas possibilidades interessantes de grficos de
disperso: a primeira, acompanhada dos histogramas, e a segunda, com os
diagramas do tipo box-plot grafados nos eixos correspondentes a cada uma das
variveis.
Tabela 2.5 Vazes medias anuais e alturas anuais de precipitao (ano
hidrolgico Outubro-Setembro) Estao Ponte Nova do Paraopeba
(Flu:40800001, Plu:01944004)
Ano Hidrolgico Precipitao (mm)
1941/42
1942/43
1943/44
1944/45
1945/46
1946/47
1947/48
1948/49
1949/50
1950/51
1951/52
1952/53
1953/54
1954/55
1955/56
1956/57
1957/58
1958/59
1959/60
1960/61
1961/62
1962/63
1963/64
1964/65
1965/66
1966/67
1967/68
1968/69
1969/70
Vazo mdia (m
3
/s) Ano Hidrolgico Precipitao (mm) Vazo mdia (m
3
/s)
91,9
145
90,6
89,9
79,0
90,0
72,6
135
82,7
112
95,3
59,5
53,0
52,6
62,3
85,6
67,8
52,5
64,6
122
64,8
63,5
54,2
113
110
102
74,2
56,4
72,6
1249
1319
1191
1440
1251
1507
1363
1814
1322
1338
1327
1301
1138
1121
1454
1648
1294
883
1601
1487
1347
1250
1298
1673
1452
1169
1189
1220
1306
1970/71
1971/72
1972/73
1973/74
1974/75
1975/76
1976/77
1977/78
1978/79
1979/80
1980/81
1981/82
1982/83
1983/84
1984/85
1985/86
1986/87
1987/88
1988/89
1989/90
1990/91
1991/92
1992/93
1993/94
1994/95
1995/96
1996/97
1997/98
1998/99
1013
1531
1487
1395
1090
1311
1291
1273
2027
1697
1341
1764
1786
1728
1880
1429
1412
1606
1290
1451
1447
1581
1642
1341
1359
1503
1927
1236
1163
34,5
80,0
97,3
86,8
67,6
54,6
88,1
73,6
134
104
80,7
109
148
92,9
134
88,2
79,4
79,5
58,3
64,7
105
99,5
95,7
86,1
71,8
86,2
127
66,3
59,0
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
44
Figura 2.12 Diagrama de Disperso com Box Plots Ponte Nova do Paraopeba
Figura 2.11 Diagrama de Disperso com Histogramas Ponte Nova do Paraopeba
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
45
O exame dos diagramas de disperso, das Figuras 2.11 e 2.12, mostra que, em
geral, a maiores alturas de precipitao anual, correspondem maiores vazes
mdias anuais, indicando uma associao positiva entre as duas variveis.
Entretanto, observa-se tambm uma considervel disperso entre os pares,
demonstrando, com clareza, que a aleatoriedade presente em Y no pode ser
explicada unicamente pela variao de X. De fato outras variveis, como, por
exemplo, a evapotranspirao, poderiam reduzir o grau de disperso. Alm disso,
a bacia do Rio Paraopeba em Ponte Nova do Paraopeba drena uma rea de
5.680 km
2
, com considervel variao espacial das caractersticas climticas e
geomorfolgicas, das propriedades do solo e das alturas pluviomtricas. Os
histogramas e os diagramas box plots, por sua vez, demonstram a presena de 3
outliers entre as alturas pluviomtricas anuais, assim como a maior disperso e a
maior assimetria dessa varivel, relativamente s vazes.
O grau de associao linear entre um conjunto de N pares de observaes
simultneas de duas variveis X e Y pode ser quantificado pelo coeficiente
amostral de correlao, dado pela seguinte equao:
(2.15)
Esse coeficiente adimensional o resultado da padronizao da covarincia
amostral, representada na equao 2.15 por s
X,Y
, pelo produto s
X
s
Y
entre os
desvios-padro das variveis. Trata-se de um coeficiente que satisfaz a desigualdade
1 1
,
s s
Y X
r e traduz o grau de associao linear entre as variveis X e Y, a
saber, nos casos extremos, 1 ou 1 para associaes perfeitas positivas e negativas,
respectivamente, e 0, para nenhuma associao.
A Figura 2.13-a mostra o caso de associao parcial positiva, quando Y cresce
com o aumento de X, enquanto as Figuras 2.13-b e 2.13-c ilustram,
respectivamente, a associao parcial negativa e nenhuma associao. A Figura
2.13-c mostra que um coeficiente de correlao nulo no implica, necessariamente,
em nenhuma relao de dependncia entre as variveis; de fato, nesse caso, a
relao de dependncia existe, mas no linear. Finalmente, preciso ressaltar
que uma eventual associao entre duas variveis, medida por um alto valor do
coeficiente de correlao, no implica em uma relao causa-efeito. Essa clara
em alguns casos, tais como a relao entre as precipitaes e vazes mdias
anuais do Rio Paraopeba. Em outros, entretanto, tal relao de dependncia fsica
( )( )
Y X
N
i
i i
Y X
Y X
Y X
s s
y y x x
N s s
s
r



1
,
,
1
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
46
no evidente, mesmo que o coeficiente de correlao entre as variveis tenha
um valor elevado.
2.4.2 Diagrama Quantis-Quantis (Q-Q)
O diagrama quantis-quantis, ou diagrama Q-Q, outra representao grfica
que permite visualizar a associao entre duas variveis X e Y. Diferentemente do
diagrama de disperso entre observaes simultneas das variveis, o grfico
Q-Q uma representao dos dados ordenados (ou quantis) do conjunto

N
x x x , ... , ,
2 1
contra os dados ordenados (ou quantis) da amostra de mesmo
tamanho
N
y y y , ... , ,
2 1
. Para elaborar um diagrama Q-Q, necessrio:
(a) classificar os dados de X (e Y) em ordem crescente; (b) associar aos dados
classificados os seus respectivos nmeros de ordem da classificao m, com
1mN; e (c) associar aos dados classificados as correspondentes freqncias
ou probabilidades empricas de no superao. Em seguida, os dados de X e Y,
com igual freqncia ou probabilidade emprica de no superao, so lanados
em coordenadas cartesianas, formando, assim, o diagrama Q-Q. A Figura 2.14
um exemplo de um diagrama Q-Q elaborado para os dados da Tabela 2.5.
De modo diverso de um diagrama de disperso, o qual estabelece uma associao
global entre as variveis, o grfico Q-Q demonstra se os valores mais baixos,
mdios e mais altos de X esto relacionados aos seus correspondentes de Y. Em
um caso limite, se as distribuies dos dois conjuntos de dados fossem idnticas,
a menos de suas medidas de posio e escala (ou disperso), os pontos estariam
Figura 2.13 Tipos de associao entre duas variveis
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
47
sobre a reta y = x. O modo como os pontos se afastam dessa linearidade revelam
as diferenas entre as distribuies de X e Y.
Exerccios
1) Com referncia srie parcial das N maiores vazes mdia dirias, em N anos
de registros, do Rio Paraopeba em Ponte Nova do Paraopeba, objeto do exerccio
9 do Captulo 1, faa uma diagrama de linha para a varivel discreta nmero de
cheias anuais, tal como o da Figura 2.1.
2) Na Tabela 2.5, tome a srie de vazes mdias anuais do Rio Paraopeba em
Ponte Nova do Paraopeba, calculadas com base no ano hidrolgico de Outubro
a Setembro, e faa os seguintes grficos:
diagrama uniaxial de pontos;
histograma;
polgono de freqncias relativas;
diagrama de freqncias relativas acumuladas; e
diagrama de quantis.
Figura 2.14 Diagrama Quantis-Quantis entre Vazes Mdias Anuais e Alturas
Anuais de Precipitao de Ponte Nova do Paraopeba
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
48
3) Compare os grficos elaborados no exerccio 2 com os mostrados no item 2.1
do presente captulo. Interprete as diferenas entre eles. Em se tratando da varivel
vazo mdia anual, mais representativo trabalhar com sries reduzidas em ano
civil ou ano hidrolgico?
4) Com referncia curva de permanncia da Figura 2.7, qual seria o mximo
valor terico da vazo Q
r
a ser constantemente mantida a jusante de um hipottico
reservatrio de regularizao sazonal? Por que esse valor seria o mximo terico?
Calcule o volume do reservatrio para a situao descrita.
5) Volte aos dados do exerccio 2 e faa um sumrio numrico completo da
amostra em questo, calculando todas as medidas de posio, disperso, assimetria
e curtose. Interprete e compare os resultados com aqueles apresentados no item
2.2 desse captulo.
6) Se o primeiro tero de um trecho fluvial percorrido por um flutuador, a uma
velocidade de 0,3 m/s, o segundo a 0,5 m/s e o terceiro a 0,60 m/s, prove que a
mdia harmnica mais representativa da velocidade mdia do flutuador, calculada
ao longo de todo o trecho fluvial, do que a mdia aritmtica.
7) A populao de uma cidade aumenta geometricamente com o tempo. Suponha
que no censo de 1980, a populao dessa cidade era de 150.000 habitantes,
enquanto em 2000 cresceu para 205.000 habitantes. Com a finalidade de verificar
as condies de projeto do sistema local de abastecimento de gua, um engenheiro
sanitarista necessita estimar o consumo de gua per capita no perodo intermedirio
e, portanto, a populao em 1990. Calcule o valor central a ser usado. Justifique
sua resposta.
8) Uma varivel aleatria pode sofrer transformaes lineares e no lineares. Um
exemplo de transformao linear de X alter-la para a varivel central reduzida
Z, por meio de z
i
= (x
i
_
x)/s
x
. De fato, nesse caso, X centrada pela subtrao
da medida de posio e tem sua escala reduzida pela diviso pelo desvio padro.
Agora, volte aos dados do exerccio 2, calcule z, s
z
, g
z
e k
z
e compare com as
mesmas medidas de X, j calculadas no exerccio 5. Quais concluses se pode
tirar de uma varivel que sofreu uma transformao linear?
9) Um exemplo de transformao no linear dado pela logaritmizao de X, ou
seja, z
i
= log
10
x
i
ou z
i
= ln x
i
. Repita o exerccio 8 para essa nova transformao
HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
49
e tire suas concluses. Sob a tica de sua resposta ao exerccio 13 do captulo 1,
em que situaes voc espera verificar uma utilidade prtica em uma transformao
no linear de uma varivel aleatria?
10) Uma famlia de possibilidades de transformao de uma varivel aleatria
dada pela frmula de transformaes potenciais de Box-Cox, ou seja,
0 se , 1
, ou
i i
x z ln , se = 0. A escolha correta da potncia
de transformao pode tornar dados originais assimtricos em aproximadamente
simtricos. Usando a expresso de Box-Cox com = -1, -0,5, 0, +0,5, +1 e +2,
transforme os dados da Tabela 2.2, calcule os coeficientes de assimetria e curtose,
e verifique qual o valor de que os torna os dados aproximadamente simtricos.
Refaa o polgono de freqncias relativas para os dados transformados e
compare-o com o da Figura 2.4.
11) Para construir um diagrama de freqncias relativas acumuladas, necessrio,
como se viu no item 2.1.5, estimar a probabilidade emprica de no superao
P(Xx) por meio dos nmeros de ordem de classificao m. No exemplo do
item 2.1.5, foi usada a expresso m/N para se estimar P(Xx). Contudo, tal
estimativa precria porque implica que nula a probabilidade da varivel produzir
um valor maior do que o mximo amostral. Para evitar tal inconveniente, foram
propostas diversas frmulas alternativas para a estimativa de P(Xx); na literatura
hidrolgica, tais frmulas so conhecidas por frmulas de posio de plotagem,
decorrente de adaptao do termo em ingls plotting position. Uma das mais
conhecidas a de Weibull, dada pela expresso m/(N+1). Refaa o diagrama de
Figura 2.5, usando a frmula de Weibull.
12) No anexo 1 desse livro, voc encontrar as vazes mdias mensais do Rio
Paraopeba em Ponte Nova do Paraopeba, de 1938 a 1999. Coloque em um
mesmo grfico os diagramas box plot das vazes mdias mensais de Janeiro e de
Setembro. Interprete os diagramas.
13) Faa e interprete o diagrama ramo-e-folha para as alturas anuais de precipitao
observadas na estao de Ponte Nova do Paraopeba, listadas na Tabela 2.5.
14) Interprete o diagrama Q-Q da Figura 2.14.
15) A tabela abaixo se refere aos dados de concentrao de slidos totais
dissolvidos e vazo, observados no Rio Cuyahoga na estao de Independence
z
i
= (x
i

_
1)
/
, se = 0

HIDROLOGIA ESTATSTICA
CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS
50
(cdigo USGS 4208000), no estado americano de Ohio, tais como publicados
por Helsel e Hirsch (1992). Os smbolos M e T representam, respectivamente, o
ms e o tempo decimal (ano-1000), da realizao das medies. A vazo Q est
expressa em ps cbicos por segundo e a concentrao de slidos totais SDT
est em mg/l. Pede-se:
a) registrar em um nico grfico a variao temporal das variveis Q e SDT;
b) elaborar e interpretar os diagramas de disperso, com histogramas e com grficos
do tipo box plot, para as variveis Q e SDT;
c) calcular o coeficiente de correlao linear entre as variveis Q e SDT;
d) no caso em foco, dar a justificativa fsica do sinal do coeficiente de correlao;
e
e) elaborar e interpretar o diagrama quantis-quantis para as variveis Q e SDT.
Tabela 2.6 Exerccio 15
Ms T SDT Q T SDT Q
Ms T SDT Q Ms T SDT Q
7
8
9
10
12
3
5
6
8
11
2
5
8
11
2
5
7
11
3
5
490
540
220
390
450
230
360
460
430
430
620
460
450
580
350
440
530
380
440
430
458
469
4630
321
541
1640
1060
264
665
680
650
490
380
325
1020
460
583
777
1230
565
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
78,12
78,21
78,29
78,37
78,46
78,54
78,62
78,71
78,79
78,87
78,96
79,04
79,12
79,21
79,29
79,37
79,46
79,54
79,62
79,71
680
250
250
450
500
510
490
700
420
710
430
410
700
260
260
500
450
500
620
670
533
4930
3810
469
473
593
500
266
495
245
736
508
578
4590
4670
503
469
314
432
279
10
11
12
1
2
3
4
5
6
7
8
9
10
12
1
2
3
4
5
6
79,79
79,87
79,96
80,04
80,12
80,21
80,29
80,37
80,46
80,54
80,62
80,71
80,79
80,96
81,04
81,12
81,21
81,29
81,37
81,46
410
470
370
410
540
550
220
460
390
550
320
570
480
520
620
520
430
400
430
490
542
499
741
569
360
513
3910
364
472
245
1500
224
342
732
240
472
679
1080
920
488
74,04
74,12
74,29
74,54
74,79
75,04
75,29
75,54
75,79
76,04
76,29
76,62
76,79
77,04
77,29
77,54
77,79
77,87
77,96
78,04
81,54
81,62
81,71
81,79
81,96
82,21
82,37
82,46
82,62
82,87
83,12
83,37
83,62
83,87
84,12
84,37
84,54
84,87
85,21
85,37
560
370
460
390
330
350
480
390
500
410
470
280
510
470
310
230
470
330
320
500
444
595
295
542
1500
1080
334
423
216
366
750
1260
223
462
7640
2340
239
1400
3070
244
1
2
4
7
10
1
4
7
10
1
4
8
10
1
4
7
10
11
12
1
Ms