Escolar Documentos
Profissional Documentos
Cultura Documentos
br
DOI: http://dx.doi.org/10.1590/0102-77863230001
Reviso
Resumo
Muitos estudos meteorolgicos e climatolgicos utilizam metodologias que superestimam ou at subestimam a
significncia estatstica dos resultados. Anlises que subestimam o papel de tendncias e dependncia temporal e
espacial nos dados podem levar a concluses errneas. Por outro lado, anlises desnecessariamente rigorosas podem
enfraquecer os resultados. O objetivo deste artigo discutir algumas prticas simples, muitas vezes negligenciadas, que
podem produzir resultados muito mais robustos e estatisticamente significativos. Este artigo discute alguns problemas
relacionados ao clculo do ciclo anual mdio e anomalias, s anlises de tendncias e dependncia temporal e espacial,
dando nfase a testes de hipteses.
Palavras-chave: ciclo anual mdio, tendncia, dependncia temporal, significncia de campo, teste de hiptese.
Abstract
Many studies in Meteorology and Climatology use methodologies that overestimate or even underestimate the statistical
significance of the results. Analyses that underestimate the role of trends and temporal or spatial dependency in the data
sets can lead to incorrect conclusions. On the other hand, unnecessarily rigorous analyses can undermine the conclu-
sions. The objective of this article is to discuss some simple practices, commonly neglected, that can produce results
much more robust and statistically significant. This paper discusses some problems related to the calculation of the mean
annual cycle and anomalies, trend analyzes, and temporal and spatial dependency, emphasizing statistical hypothesis
testing.
Keywords: mean annual cycle, trend, temporal dependency, field significance, hypothesis testing.
blemas relacionados dependncia temporal so discutidos Kiladis et al., 2014). importante mencionar que o ciclo
na seo 4. A seo 5 faz uma reviso de problemas oriun- anual mdio dever ser suavizado principalmente quando
dos dependncia espacial de dados climatolgicos. As trabalhamos com dados de alta frequncia (e.g. dados di-
consideraes finais so apresentadas na seo 6. rios ou pentadais). O ciclo anual calculado a partir de dados
mensais ou sazonais no precisa ser suavizado.
2. O Clculo do Ciclo Anual e de Anomalias O problema do clculo das anomalias discutido aqui
est ilustrado no seguinte exemplo. A Fig. 1a mostra o ciclo
O clculo de anomalias provavelmente o ponto de anual mdio de precipitao (CPC_UNI, Chen et al., 2008;
partida da maioria das anlises climatolgicas. Um aspecto Xie et al., 2007) sobre uma pequena regio no Brasil central
importante no clculo de anomalias, que comumente [52.5 W-47.5 W, 20 S-15 S] utilizando dados dirios e
negligenciado, a correta estimao do ciclo anual mdio. considerando o perodo de 1979 a 2014. Esto includos
Hartmann e Michelsen (1989) discutem que o ciclo anual tambm o ciclo anual mdio suavizado utilizando-se uma
mdio no pode ser caracterizado apenas pela srie tempo- mdia mvel de trs pontos (filtro 1-2-1; aplicado 300
ral anual mdia porque essa mdia resulta em uma curva vezes) e os trs primeiros harmnicos do ciclo anual mdio.
com oscilaes de alta frequncia (Fig. 1a). Parte destas A Fig. 1b mostra anomalias de precipitao para o perodo
oscilaes de alta frequncia so resduos provenientes de de 2000 a 2010 calculadas a partir do ciclo anual mdio no
imperfeies na amostragem das variveis atmosfricas. suavizado. Analogamente, a Fig. 1c mostra anomalias de
Quando o ciclo anual mdio suavizado, estes resduos so precipitao calculadas a partir do ciclo anual mdio suavi-
removidos sem que a verdadeira varincia anual seja redu- zado (filtro 1-2-1). As duas sries temporais so bastante
zida significantemente. Comumente o ciclo anual mdio semelhantes e apresentam desvios padres semelhantes
suavizado filtrando-se a srie temporal (Hartmann e Mi- tambm (Fig. 1b,c). Por outro lado, se padronizamos as
chelsen, 1989) ou atravs do ajuste dos trs primeiros sries temporais de anomalias verificamos que a suavi-
harmnicos do ciclo anual mdio (Kikuchi et al., 2012; zao do ciclo anual tem um papel importante (Fig. 1d,e). A
Figura 1 - a) Ciclo anual mdio de precipitao no suavizado e suavizado utilizando-se um filtro 1-2-1 (passado 300 vezes) e os trs primeiros
harmnicos do ciclo anual mdio; b) anomalias calculadas a partir do ciclo anual mdio no suavizado; c) anomalias calculadas a partir do ciclo anual
mdio suavizado (filtro 1-2-1); d) anomalias padronizadas calculadas a partir do ciclo anual mdio no suavizado; e) anomalias padronizadas calculadas a
partir do ciclo anual mdio suavizado (filtro 1-2-1). O valor do desvio padro das sries de anomalias entre o perodo de 2000 a 2010 est mostrado nos
painis b) a e).
Prticas Simples em Anlises Climatolgicas: Uma Reviso 313
Uma vez calculada a varincia, pode-se agora utilizar a acima. fcil compreender que deve existir muito mais
estatstica z (tambm conhecida como z-scores em in- independncia temporal entre Janeiros em anos conse-
gls), para se estimar a significncia: cutivos do que entre Janeiro e Fevereiro do mesmo ano.
Para entender esse exemplo, considere um ano de El Nio.
S -1
var( S ) , S > 0 Se a regio de estudo for significativamente afetada por
esse fenmeno poderamos esperar que as chuvas de de-
z = (4)
S +1 ,S < 0
zembro e janeiro sejam ambas afetadas pelo fenmeno e,
var( S ) portanto, exibam uma maior semelhana (mais ou menos
chuva, dependendo do tipo de teleconexo) do que em anos
Se o valor absoluto de z (estimado pela Eq. (4)) for subsequentes. O fato de existir uma memria em dados
maior que o valor de z (a/2) obtido pela tabela z (assumin- subsequentes pode resultar em uma reduo da varincia.
Outros problemas relacionados dependncia temporal
do-se um teste bilateral, onde a o nvel de significncia
sero explorados em maior detalhe na Seo 4.
desejado por exemplo 5%) ento podemos rejeitar a
A Tabela 1 mostra valores de tendncia (coeficiente
hiptese nula da no existncia de tendncia nos dados. A
angular do ajuste linear) e a significncia estatstica da
tabela z representa a distribuio normal P(0 Z < z0). Ou
tendncia calculadas para as mesmas sries de precipitao
seja, ela fornece a probabilidade de que a varivel trans-
e anomalias de precipitao utilizadas na anlise da Fig. 1 e
formada Z esteja entre um valor z0 e zero. A estatstica Z
para o perodo entre 2000 e 2010, incluindo a sria de dados
geralmente mostra a probabilidade de apenas um lado da
brutos e as trs diferentes sries de anomalias padronizadas.
distribuio normal. Portanto, se o nvel de significncia de
O coeficiente angular foi calculado utilizando o mtodo de
interesse a, deve-se usar o valor de z0 referente a a/2 na mnimos quadrados e o mtodo Mann-Kendall. Note que o
tabela z. Por exemplo, se o nvel de significncia de inte- mtodo dos mnimos quadrados no a melhor opo para
resse a = 0.05, o valor de z0 de interesse aquele cuja se estimar a tendncia de dados dirios de precipitao, j
probabilidade igual a 0.475 (ou 0.500 - a/2). que os desvios em relao mdia nestes dados no pos-
Existem alguns outros problemas que precisam ser suem distribuio normal. Alm disso, pode haver eventos
considerados. Note que o mtodo Mann-Kendall baseado extremos de precipitao que vo afetar o ajuste de mni-
na suposio de que a srie de dados no possui dependn- mos quadrados. O mtodo dos mnimos quadrados fornece
cia temporal, o que no verdade para a maioria dos dados valores de coeficientes angulares muito maiores do que o
meteorolgicos e climatolgicos. Quando existe dependn- mtodo Mann-Kendall (Tabela 1).
cia temporal nos dados (quer dizer, os dados exibem um A Tabela 1 tambm apresenta estimativas de signifi-
certo grau de memria no tempo), a varincia calculada cncia estatstica para os coeficientes angulares do ajuste
pode ser subestimada e a significncia estatstica superesti- de tendncia nas sries temporais. Umas das vantagens do
mada. A dependncia temporal pode ser levada em conta no teste Mann-Kendall o fato do mtodo fornecer tanto o
clculo do teste adaptando-se a frmula da varincia coeficiente angular do ajuste linear como a significncia
(Eq. (3)) de modo a se considerar um nmero efetivo de estatstica da tendncia linear. J a significncia estatstica
observaes (o qual deve substituir o nmero total de ob- do ajuste de mnimos quadrados foi avaliada utilizando-se a
servaes) conforme ser discutido na seo 4. tcnica de re-amostragem, tambm conhecida como Boot-
Entretanto, h outros meios de se reduzir a depen- strap (Wilks, 2011). Esta tcnica consiste em se reorga-
dncia temporal. Por exemplo, remover o ciclo anual dos nizar aleatoriamente a srie temporal e calcular o ajuste de
dados (sobretudo se forem dados dirios) ou agreg-los, por mnimos quadrados. Este procedimento repetido vrias
exemplo, como dados mensais. Para compreender este pro- vezes (e.g. 1000 vezes) e os valores dos coeficientes angu-
blema, considere a serie temporal da precipitao discutida lares obtidos em cada ajuste so ordenados do menor para o
Tabela 1 - Comparao entre o clculo de tendncias lineares e da significncia estatstica de tendncias lineares para sries de precipitao e anomalias
padronizadas de precipitao considerando o mtodo de mnimos quadrados, o teste Mann-Kendall, e o teste de re-amostragem.
maior. Por fim, verifica-se a posio do ajuste original em mos interessados em testes para duas caudas, uma vez que
relao srie ordenada de ajustes. O ajuste original tanto valores positivos quanto negativos so relevantes).
considerado significativo se coincide com os valores nas Neste caso a hiptese nula afirma que no h correlao. O
extremidades das caudas da distribuio de ajustes lineares maior problema nesta anlise estimar o correto nmero
das sries temporais reorganizadas (e.g. inferior a 2.5% ou graus de liberdade n = N - 2. Se considerarmos N como o
superior a 97.5% para teste bilateral). nmero total de dados no tempo (N = 396 meses) estaremos
No caso da srie de precipitao sobre o Brasil cen- superestimando o valor do nmero de graus de liberdade,
tral, verificamos que ao se utilizar a metodologia menos dado que ambos os conjuntos de dados (TSM e ndice
apropriada, ou seja, a conjuno do teste menos apropriado ENOS) possuem alta dependncia temporal. Dessa forma
(mnimos quadrados para conjunto de dados em questo) corremos o risco de erroneamente rejeitar a hiptese nula
com o conjunto de dados menos apropriados (srie de da- (erro do tipo I). Por outro lado, se considerarmos N como
dos brutos ou anomalias calculadas com o ciclo anual sendo o nmero de anos em nossa srie temporal (N = 33),
mdio no suavizado) obtm-se erroneamente resultados corremos o risco de subestimar o valor do nmero de graus
estatisticamente significativos. Por outro lado, ao se utilizar de liberdade. Assim, estaramos aplicando o teste esta-
a metodologia mais apropriada (teste Mann-Kendall) e o tstico com muita restrio (erro do tipo II). Uma forma
conjunto de dados mais apropriados (anomalias calculadas simples de minimizar esse problema simplesmente esti-
com o ciclo anual suavizado) a tendncia temporal no mar o nmero efetivo de graus de liberdade. No caso de
considerada significativa (Tabela 1). correlaes entre conjuntos de dados diferentes, o nmero
Maiores informaes sobre problemas relacionados a efetivo de graus de liberdade pode ser estimado a partir de
anlises de tendncias, sobre o clculo de tendncias e propriedades auto-regressivas de ambos os conjuntos de
sobre mtodos para se verificar a significncia estatstica de dados (Livezey e Chen, 1983) (Eq. (6)).
tendncias podem ser encontrados nos sites do Climate
n
Data Guide, do Climatic Research Unit e do Pacific North- t = 1+ 2 CTSM ( i )C ENOS ( i ) (6)
west National Laboratory. i=1
Figura 2 - a) Correlao entre anomalias de TSM a o ndice ENOS (contorno) e b) composies de anomalias de TSM durante eventos El Nio
(contorno). O sombreado mostra regies estatisticamente significativas ao nvel de 5%. O tom de cinza mais claro mostra regies onde a significncia
estatstica estimada superestimando-se o nmero de graus de liberdade. O tom de cinza mais escuro mostra regies estatisticamente significante
subestimando-se o nmero de graus de liberdade. O tom intermedirio mostra regies estatisticamente significativas estimada com o valor apropriado
para o nmero de graus de liberdade (veja o texto para maiores detalhes).
amostra. O teste t de uma amostra examina a hiptese nula a propriedade auto-regressiva do conjunto de dados
de que a mdia de uma amostra retirada de uma populao (Eq. (10)). O valor de r1 obtido da auto-correlao de
centrada em um valor previamente especificado, m0 (no lag 1 da srie temporal dos dados de onde a amostra foi
nosso caso assumimos m0 = 0). Se o nmero de dados na retirada (a srie temporal completa das anomalias de TSM).
amostra grande o suficiente para que sua distribuio seja O valor de N efetivo ento utilizado na Eq. (8) (Wilks,
Gaussiana, de acordo com o Teorema do Valor Central, a 2011).
estatstica do teste (Eq. (8)) segue uma distribuio conhe-
1- r 1
cida como t de Student, ou simplesmente distribuio t N efetivo = N
(10)
(Wilks, 2011). 1+ r 1
x -m 0 A Fig. 2a mostra a composio de anomalias de TSM
t= (8)
[s N ]
1
2 2 durante eventos El Nio incluindo a significncia estats-
tica considerando trs formas diferentes de se estimar N. O
sombreado mais claro mostra regies onde as anomalias
onde x a mdia da amostra (mdia das anomalias de TSM so significativas considerando N igual ao nmero total de
durante eventos El Nio), N o numero de dados e s2 a dados (396) na srie temporal (graus de liberdade superes-
varincia da amostra descrita pela Eq. (9), timados). O sombreado mais escuro mostra regies com
1 n anomalias significativas para N igual ao nmero de eventos
s2 = ( xi - x ) 2
n -1 i=1
(9) El Nio (9) no perodo considerado (graus de liberdade
subestimados). O sombreado intermedirio mostra signifi-
Na Eq. (9), xi o valor da i-sima observao e n cncia considerando-se o nmero efetivo de amostras inde-
nmero total de dados na amostra. Assim, o maior proble- pendentes.
ma se resume a encontrar o nmero de graus de liberdade Vale lembrar que o teste t de Student um teste
n = N - 1, onde N o nmero de observaes independentes. paramtrico baseado na suposio de que o conjunto de da-
Novamente, N pode ser estimado levando em considerao dos possui distribuio essencialmente Gaussiana, o que
Prticas Simples em Anlises Climatolgicas: Uma Reviso 317
verdade para anomalias de TSM. Entretanto, se estivs- srie com distribuio Gaussiana seria suficiente. Ento
semos investigando anomalias de precipitao teramos calcula-se a correlao entre as anomalias de TSM e a srie
que utilizar uma estratgia diferente. Uma alternativa seria de dados aleatrios e conta-se novamente o nmero de
aplicar um teste no paramtrico, que no requer que os da- pontos onde a correlao estatisticamente significativa.
dos pertenam a uma distribuio particular. Esse processo ento repetido muitas vezes, sempre com
Outra alternativa seria transformar as anomalias de uma srie diferente de dados aleatrios. Os resultados obti-
precipitao para uma distribuio normal. Vale lembrar dos com cada srie de dados aleatrios (o nmero de pontos
tambm que o termo normalizar assume significados dife- onde a correlao estatisticamente significativa) so ento
rentes na literatura. Essa transformao diferente da tcni- ordenados do menor para o maior. O padro de correlao
ca de padronizao. Existem vrias tcnicas para transfor- original dito ter significncia de campo se o nmero de
mao como por exemplo transformao da raiz quadrada, pontos que rejeitam a hiptese nula superior a um limiar
da raiz cbica e logartmica, comumente aplicadas a dados (e.g. o percentil de 95%) da cauda superior da distribuio
de chuva. O usurio deve analisar qual a melhor transfor- dos nmeros de pontos com significncia estatstica deriva-
mao e se mesmo aps transformar os dados eles ainda da das sries temporais aleatrias. Em resumo, 1) calcula-
no apresentam distribuio normal, a nica alternativa o se vrias vezes (e.g. 1000 vezes) o nmero de pontos onde a
teste no paramtrico. correlao estatisticamente significativa utilizando-se di-
ferentes sries temporais aleatrias para cada clculo; 2) or-
5. Dependncia Espacial dena-se os resultados do menor para o maior e 3) verifica-se
a posio do resultado original em relao srie ordenada.
Assim como dados meteorolgicos e climatolgicos
A desvantagem deste teste que ele ignora a intensidade e a
apresentam dependncia temporal, estes tambm exibem
localizao das regies estatisticamente significativas
dependncia espacial. O conceito de auto-correlao espa-
(Delsole e Yang, 2011; Wilks, 2016).
cial parte do princpio de que tudo est relacionado com
todo o resto, mas coisas prximas esto mais relacionadas O teste proposto por Delsole e Yang (2011) utiliza
do que coisas distantes, tambm conhecido como a pri- uma regresso multivariada aplicada anlise de compo-
meira lei da Geografia (Tobler, 1970). nentes principais das variveis de interesse para estimar a
Ao se aplicar testes de significncia em sries tempo- significncia de campo dos resultados. As desvantagens
rais obtemos algumas regies espacialmente coerentes on- deste teste so que ele mais complexo do que o testes
de os resultados podem ser erroneamente considerados Livezey-Chen e FDR, ignora a variabilidade ortogonal aos
como estatisticamente significativos. Erros do tipo I em que principais modos das componentes principais e fornece
a hiptese nula erroneamente rejeitada tendem a se agre- pouca informao sobre a localizao das regies estatis-
gar no espao, levando a concluses errneas de que existe ticamente significativas (Delsole e Yang, 2011).
uma regio coerente onde os resultados so estatisticamen- O teste FDR bastante simples de ser aplicado, tem
te significativos. Este problema conhecido na literatura baixo custo computacional e fornece informaes sobre a
como o problema da multiplicidade de testes. Portanto, localizao das regies estatisticamente significativas. Por-
sempre que se aplica mltiplos testes de hipteses (como no tanto, este o mtodo que escolhemos para demonstrar a
caso de testes de sries temporais em pontos de grade ou estimativa da significncia de campo dos nossos resultados
mesmo em anlises de perfis verticais da atmosfera) (Fig. 3). Quando calculamos a significncia estatstica de
apropriado se aplicar um teste de significncia de campo um resultado, estamos de fato calculando a probabilidade
(Wilks, 2006). de quanto o resultado se afasta de uma condio que satis-
Os principais testes de significncia de campo em faz a hiptese nula (ou aquela que gostaramos de rejeitar).
meteorologia e climatologia so: 1) o teste proposto por Em outras palavras, calculamos a probabilidade de que o
Livezey e Chen (1983), que utiliza simulaes de Monte valor obtido ou a varivel transformada (por exemplo, a
Carlo; 2) um mtodo de regresso proposto por Delsole e varivel z, t-student, etc.) se encontra em uma distribuio,
Yang (2011) e 3) um procedimento conhecido como Taxa a qual pode ser conhecida ou no. Essa probabilidade
de Falsa Deteco (False Discovery Rate FDR) proposto conhecida como valor p. No caso de estudos meteorolgi-
por Ventura et al. (2004) e Wilks (2006). cos ou climatolgicos, a significncia estatstica comu-
O teste Livezey-Chen (Livezey e Chen, 1983) base- mente apresentada em um campo, em um mapa. Portanto,
ado no mtodo de Monte Carlo. Se tomarmos o mesmo podemos calcular o valor p para todos os pontos do nosso
exemplo da Fig. 2a, a ideia calcular a correlao entre as domnio de estudo e criar um mapa de valores p. O mtodo
anomalias de TSM e o ndice ENOS e contar o nmero de FDR se baseia em ordenar os valores de um campo de valor
pontos de grade onde a hiptese nula foi rejeitada (consi- p e encontrar o ponto em que a curva de valores p intercepta
derando tambm a dependncia no tempo). Em seguida, um limiar de probabilidade FDR. Esse limiar depende do
gera-se uma srie de dados aleatrios com o mesmo n- nvel de significncia de interesse, a. Wilks (2016) sugere
mero de dados e as mesmas caractersticas estatsticas da calcular o teste FDR utilizando um valor de a igual ao
srie do ndice ENOS original. No nosso exemplo, uma dobro do valor global de interesse (a = 2aglobal). Ou seja,
318 Bombardi e Carvalho
Figura 3 - a) Correlao entre anomalias de TSM a o ndice ENOS (contorno) e b) composies de anomalias de TSM durante eventos El Nio
(contorno). O sombreado mostra regies estatisticamente significativas ao nvel de 5%. O tom de cinza mais claro mostra regies estatisticamente
significativas estimadas com o valor apropriado para o nmero de graus de liberdade mas sem considerar dependncia espacial. O tom de cinza mais
escuro mostra regies estatisticamente significativas estimadas com o valor apropriado para o nmero de graus de liberdade e considerando a
dependncia espacial. Note que em (b) nenhuma regio considerada estatisticamente significativa ao nvel de 5% quando se aplica o teste FDR (veja o
texto para maiores detalhes).
aglobal o nvel de significncia de interesse e a o nvel de seguida, aplicamos o teste FDR e o sombreado em cinza
significncia utilizado no clculo do teste FDR. No nosso escuro mostra as regies estatisticamente significativas ao
caso o nvel de significncia de interesse 5% nvel de 5% neste caso. Note que as regies com correla-
(aglobal = 0.05) e, portanto, o teste FDR calculado utili- es estatisticamente significativas so menores quando se
zando-se a = 0.1. Entretanto, importante ressaltar que as considera significncia de campo em comparao com o
regies significativas devem apresentar tanto valores p me- caso em que a significncia de campo ignorada (Fig. 3a).
nores que aglobal (significncia estatstica considerando-se O teste de significncia de campo no uma prtica
dependncia temporal) quanto significncia de campo em muito comum na maioria dos artigos cientficos em cin-
relao a a (significncia estatstica considerando-se de- cias atmosfricas, apesar do fato de estes testes j existirem
pendncia espacial). Uma desvantagem do teste FDR que h bastante tempo. Uma das razes o fato de que muitos
o teste no vlido para o caso em que os testes de hiptese cientistas no esto cientes do problema. Outro motivo est
so altamente correlacionados no espao (Delsole e Yang, relacionado ao fato de que o resultado destes testes depende
2011). da escolha das fronteiras da regio de estudo. Note que para
o caso das anomalias de TSM durante eventos El Nio
A Fig. 3 mostra o teste de significncia de campo para (Fig. 3b), nenhuma regio foi considerada significativa
os resultados das mesmas anlises feitas na seo 2: corre- quando se aplica o teste FDR. Se ao invs de calcularmos
lao entre anomalias de TSM e o ndice ENOS (Fig. 3a) e FDR sobre todo o domnio calculssemos o teste FDR
composies de anomalias de TSM durante eventos El apenas sobre a bacia do Oceano Pacfico obteramos pa-
Nio (Fig. 3b). Neste caso, primeiramente calculamos a dres espaciais muito semelhantes aos padres espaciais
significncia estatstica considerando a dependncia tem- obtidos considerando apenas a dependncia temporal (no
poral. Ou seja, considerando-se o nmero efetivo de amos- mostrado). Entretanto, isso seria incorreto. Escolher um
tras independentes mas sem considerar a significncia de domnio para incluir apenas regies com resultados estatis-
campo. Neste caso, o sombreado em cinza claro mostra as ticamente significantes uma forma de manipulao de
regies estatisticamente significativas ao nvel de 5%. Em resultados, uma prtica desonesta. Portanto, mtodos para
Prticas Simples em Anlises Climatolgicas: Uma Reviso 319