Você está na página 1de 10

Revista Brasileira de Meteorologia, v. 32, n. 3, 311-320, 2017 rbmet.org.

br
DOI: http://dx.doi.org/10.1590/0102-77863230001

Reviso

Prticas Simples em Anlises Climatolgicas: Uma Reviso

Rodrigo Jos Bombardi1, Leila Maria Vspoli de Carvalho2


1
Department of Atmospheric, Oceanic, and Earth Sciences, George Mason University,
Fairfax, VA, USA.
2
Department of Geography, University of California, Santa Barbara, CA, USA.

Recebido em 6 de Setembro de 2016 Aceito em 24 de Abril de 2017

Resumo
Muitos estudos meteorolgicos e climatolgicos utilizam metodologias que superestimam ou at subestimam a
significncia estatstica dos resultados. Anlises que subestimam o papel de tendncias e dependncia temporal e
espacial nos dados podem levar a concluses errneas. Por outro lado, anlises desnecessariamente rigorosas podem
enfraquecer os resultados. O objetivo deste artigo discutir algumas prticas simples, muitas vezes negligenciadas, que
podem produzir resultados muito mais robustos e estatisticamente significativos. Este artigo discute alguns problemas
relacionados ao clculo do ciclo anual mdio e anomalias, s anlises de tendncias e dependncia temporal e espacial,
dando nfase a testes de hipteses.
Palavras-chave: ciclo anual mdio, tendncia, dependncia temporal, significncia de campo, teste de hiptese.

Simple Practices in Climatological Analyses: A Review

Abstract
Many studies in Meteorology and Climatology use methodologies that overestimate or even underestimate the statistical
significance of the results. Analyses that underestimate the role of trends and temporal or spatial dependency in the data
sets can lead to incorrect conclusions. On the other hand, unnecessarily rigorous analyses can undermine the conclu-
sions. The objective of this article is to discuss some simple practices, commonly neglected, that can produce results
much more robust and statistically significant. This paper discusses some problems related to the calculation of the mean
annual cycle and anomalies, trend analyzes, and temporal and spatial dependency, emphasizing statistical hypothesis
testing.
Keywords: mean annual cycle, trend, temporal dependency, field significance, hypothesis testing.

estatisticamente significativas entre fenmenos sem ne-


1. Introduo nhuma relao. Portanto, este artigo tem como objetivo
Qualquer meteorologista ou climatologista ficaria revisar algumas dessas prticas simples as quais, infeliz-
perplexo se algum tentasse explicar a relao entre a mente, so comumente negligenciadas em anlises meteo-
temperatura mdia global e a criminalidade em grandes rolgicas e climatolgicas e que podem ajudar a encontrar
centros urbanos, ou entre o aumento do buraco da camada resultados mais robustos e auxiliar em diagnsticos e inter-
de oznio e o nmero de pessoas no Facebook. Contudo, pretaes de resultados. Embora exista um nmero grande
por mais absurdas que essas relaes possam parecer, cor- de prticas que poderiam ser citadas aqui, discutiremos
relaes estatsticas entre essas variveis podem ser altas aquelas comumente utilizadas em artigos cientficos como
simplesmente pelo fato que todas elas possuem tendncias o mtodo mais adequado para o clculo de anomalias do
e essas tendncias dominam o comportamento temporal ciclo anual e a avaliao da significncia estatstica de
dessas variveis relativamente s flutuaes de origem es- tendncias e de campos espaciais e temporais.
tocstica. Entretanto, nem tudo est perdido. Existem prti- A seo 2 explora problemas comuns no clculo do
cas simples em anlises meteorolgicas e climatolgicas ciclo anual mdio e anomalias. A seo 3 revisa problemas
que podem minimizar as chances de encontrarmos relaes em anlises e comparaes de dados com tendncias. Pro-

Autor de correspondncia: Rodrigo Jos Bombardi, rbombard@gmu.edu.


312 Bombardi e Carvalho

blemas relacionados dependncia temporal so discutidos Kiladis et al., 2014). importante mencionar que o ciclo
na seo 4. A seo 5 faz uma reviso de problemas oriun- anual mdio dever ser suavizado principalmente quando
dos dependncia espacial de dados climatolgicos. As trabalhamos com dados de alta frequncia (e.g. dados di-
consideraes finais so apresentadas na seo 6. rios ou pentadais). O ciclo anual calculado a partir de dados
mensais ou sazonais no precisa ser suavizado.
2. O Clculo do Ciclo Anual e de Anomalias O problema do clculo das anomalias discutido aqui
est ilustrado no seguinte exemplo. A Fig. 1a mostra o ciclo
O clculo de anomalias provavelmente o ponto de anual mdio de precipitao (CPC_UNI, Chen et al., 2008;
partida da maioria das anlises climatolgicas. Um aspecto Xie et al., 2007) sobre uma pequena regio no Brasil central
importante no clculo de anomalias, que comumente [52.5 W-47.5 W, 20 S-15 S] utilizando dados dirios e
negligenciado, a correta estimao do ciclo anual mdio. considerando o perodo de 1979 a 2014. Esto includos
Hartmann e Michelsen (1989) discutem que o ciclo anual tambm o ciclo anual mdio suavizado utilizando-se uma
mdio no pode ser caracterizado apenas pela srie tempo- mdia mvel de trs pontos (filtro 1-2-1; aplicado 300
ral anual mdia porque essa mdia resulta em uma curva vezes) e os trs primeiros harmnicos do ciclo anual mdio.
com oscilaes de alta frequncia (Fig. 1a). Parte destas A Fig. 1b mostra anomalias de precipitao para o perodo
oscilaes de alta frequncia so resduos provenientes de de 2000 a 2010 calculadas a partir do ciclo anual mdio no
imperfeies na amostragem das variveis atmosfricas. suavizado. Analogamente, a Fig. 1c mostra anomalias de
Quando o ciclo anual mdio suavizado, estes resduos so precipitao calculadas a partir do ciclo anual mdio suavi-
removidos sem que a verdadeira varincia anual seja redu- zado (filtro 1-2-1). As duas sries temporais so bastante
zida significantemente. Comumente o ciclo anual mdio semelhantes e apresentam desvios padres semelhantes
suavizado filtrando-se a srie temporal (Hartmann e Mi- tambm (Fig. 1b,c). Por outro lado, se padronizamos as
chelsen, 1989) ou atravs do ajuste dos trs primeiros sries temporais de anomalias verificamos que a suavi-
harmnicos do ciclo anual mdio (Kikuchi et al., 2012; zao do ciclo anual tem um papel importante (Fig. 1d,e). A

Figura 1 - a) Ciclo anual mdio de precipitao no suavizado e suavizado utilizando-se um filtro 1-2-1 (passado 300 vezes) e os trs primeiros
harmnicos do ciclo anual mdio; b) anomalias calculadas a partir do ciclo anual mdio no suavizado; c) anomalias calculadas a partir do ciclo anual
mdio suavizado (filtro 1-2-1); d) anomalias padronizadas calculadas a partir do ciclo anual mdio no suavizado; e) anomalias padronizadas calculadas a
partir do ciclo anual mdio suavizado (filtro 1-2-1). O valor do desvio padro das sries de anomalias entre o perodo de 2000 a 2010 est mostrado nos
painis b) a e).
Prticas Simples em Anlises Climatolgicas: Uma Reviso 313

srie temporal de anomalias padronizadas calculada a partir 3. Tendncias


do ciclo anual no suavizado apresenta valores aberrantes,
Dois problemas comuns em anlises de tendncias
o que no verificado na srie de anomalias padronizadas
so: 1) a escolha da metodologia apropriada para a estimati-
calculadas a partir do ciclo anual suavizado (Fig. 1d,e). Ou
va da tendncia e 2) a escolha da metodologia apropriada
seja, se o ciclo anual mdio no suavizado somos erronea-
para a estimativa da significncia estatstica da tendncia.
mente levados a concluir de que h mais varincia em
Clculos de tendncias so muito comuns em anlises cli-
nossos dados do que de fato existe. Isso pode ter implica-
matolgicas para identificar mudanas climticas.
es enormes em anlise climticas (por exemplo, anlise
O mtodo dos mnimos quadrados comumente utili-
de anomalias mdias associadas a um determinado fenme-
zado na estimativa de tendncias. O problema com esse
no) j que essa varincia pode estar aleatoriamente distri-
mtodo que este mtodo paramtrico, ou seja, baseado
buda em diversas frequncias espectrais.
na suposio de que o conjunto de dados possui distribui-
O clculo de anomalias depende tambm do objetivo o essencialmente Gaussiana. Alm disso, esses mtodos
do estudo. Se o objetivo do estudo comparar a impor- so apenas teis quando se assume que a tendncia mono-
tncia relativa de anomalias em diferentes estaes do ano tnica linear e pode ser representada por uma equao da
ou comparar importncia relativa de anomalias entre baixas reta. Mtodos que no dependem dessa suposio so cha-
e altas latitudes, as anomalias devem ser padronizadas. A mados robustos. O mtodo dos mnimos quadrados tam-
padronizao obtida calculando-se a diferena entre o bm afetado por valores aberrantes, onde alguns valores
valor do dado de cada dia e o valor do mesmo dia no ciclo extremos podem afetar significantemente a estimativa dos
anual mdio suavizado e dividindo-se a diferena pelo parmetros. Mtodos que no so afetados por valores
desvio padro de cada dia (calculado com os dados de cada aberrantes so chamados resistentes.
dia, por exemplo, todos os valores dos dias 2 de janeiro). O teste Mann-Kendall uma alternativa de mtodo
importante frisar que o desvio padro de cada dia deve ser mais robusto amplamente utilizado em anlises de tendn-
calculado em relao s anomalias obtidas com respeito cias (Chandler e Scott, 2011; Wilks, 2011; Zilli et al.,
mdia suavizada. A anomalia padronizada dada em n- 2016). Para utilizar esse teste deve-se calcular a seguinte
mero de desvios padres para aquele dia (ou pntada, ou estatstica S (e.g., Zilli et al., 2016).
ms, etc.), pois a cada dia (pntada, ms, etc.) corresponde n- 1 n
a uma varivel diferente. s= sgn(x j - xi ) (1)
i=1 j=i+ 1
Se, por outro lado, o objetivo do estudo investigar
como as flutuaes de duas ou mais sries temporais so onde n o nmero de pontos da srie; x representa as
coerentes, necessrio primeiro remover a tendncia dos medidas no tempo; i e j so ndices temporais, com i j; sgn
dados. Voltando ao exemplo da correlao entre a crimina- definido como (Wilks 2011):
lidade nos centros urbanos e o aquecimento global mencio-
1, se ( x j - x i ) > 0
nados na introduo, o nico motivo pelo qual estes dois
conjuntos de dados mostram uma correlao estatistica- sgn = 0, se ( x j - x i ) = 0 (2)
mente significativa o fato de que ambos os dados possuem
tendncias temporais. Portanto, ao se correlacionar duas -1, se ( x j - x i ) < 0
variveis preciso remover as tendncias lineares de cada O teste de Mann-Kendall deve ser aplicado para che-
conjunto de dado. S assim, estaremos realmente avaliando car a hiptese nula (aquela que queremos rejeitar) de no
a covarincia entre as flutuaes (de origem estocstica) de existncia de tendncia contra a hiptese alternativa da
cada uma das variveis em questo. Entretanto, se o intuito presena de uma tendncia. Valores positivos da estatstica
do estudo investigar tendncias, o clculo das anomalias S indicam uma tendncia positiva (de aumento da varivel),
se d pela remoo do ciclo anual mdio apenas, como enquanto que os valores negativos indicam uma tendncia
descrito anteriormente. negativa (diminuio da varivel) com o tempo. Como
Remover tendncias um procedimento extrema- n > 0 ento a estatstica S segue uma distribuio Gaussiana
mente importante no apenas no clculo de correlaes (note que a estatstica segue a distribuio Gaussiana, e no
lineares de Pearson. Recomenda-se que tendncias sejam necessariamente os dados), com uma mdia igual a zero
removidas tambm quando se calculam covarincias (ou (E[S] = 0) e varincia estimada por:
correlaes) nos procedimentos como anlises de Funes m

Ortogonais Empricas (EOFs). Ao se aplicar EOFs a dados n( n - 1)( 2n + 5) - t i ( t i - 1)( 2t i + 5)


i=1
com tendncias, um dos modos principais (normalmente o var( S ) = (3)
18
primeiro) certamente representar a tendncia dos dados.
Cabe ao pesquisador decidir se a tendncia deve ser inclu- onde m representa o nmero de grupos de valores repetidos
da na anlise ou no. Problemas comuns relacionados (se esses existirem, obviamente), e ti o nmero de valores
anlise de tendncias so descritos na seo 3. repetidos no i-simo grupo (Wilks, 2011; Zilli et al., 2016).
314 Bombardi e Carvalho

Uma vez calculada a varincia, pode-se agora utilizar a acima. fcil compreender que deve existir muito mais
estatstica z (tambm conhecida como z-scores em in- independncia temporal entre Janeiros em anos conse-
gls), para se estimar a significncia: cutivos do que entre Janeiro e Fevereiro do mesmo ano.
Para entender esse exemplo, considere um ano de El Nio.
S -1
var( S ) , S > 0 Se a regio de estudo for significativamente afetada por
esse fenmeno poderamos esperar que as chuvas de de-
z = (4)
S +1 ,S < 0
zembro e janeiro sejam ambas afetadas pelo fenmeno e,
var( S ) portanto, exibam uma maior semelhana (mais ou menos
chuva, dependendo do tipo de teleconexo) do que em anos
Se o valor absoluto de z (estimado pela Eq. (4)) for subsequentes. O fato de existir uma memria em dados
maior que o valor de z (a/2) obtido pela tabela z (assumin- subsequentes pode resultar em uma reduo da varincia.
Outros problemas relacionados dependncia temporal
do-se um teste bilateral, onde a o nvel de significncia
sero explorados em maior detalhe na Seo 4.
desejado por exemplo 5%) ento podemos rejeitar a
A Tabela 1 mostra valores de tendncia (coeficiente
hiptese nula da no existncia de tendncia nos dados. A
angular do ajuste linear) e a significncia estatstica da
tabela z representa a distribuio normal P(0 Z < z0). Ou
tendncia calculadas para as mesmas sries de precipitao
seja, ela fornece a probabilidade de que a varivel trans-
e anomalias de precipitao utilizadas na anlise da Fig. 1 e
formada Z esteja entre um valor z0 e zero. A estatstica Z
para o perodo entre 2000 e 2010, incluindo a sria de dados
geralmente mostra a probabilidade de apenas um lado da
brutos e as trs diferentes sries de anomalias padronizadas.
distribuio normal. Portanto, se o nvel de significncia de
O coeficiente angular foi calculado utilizando o mtodo de
interesse a, deve-se usar o valor de z0 referente a a/2 na mnimos quadrados e o mtodo Mann-Kendall. Note que o
tabela z. Por exemplo, se o nvel de significncia de inte- mtodo dos mnimos quadrados no a melhor opo para
resse a = 0.05, o valor de z0 de interesse aquele cuja se estimar a tendncia de dados dirios de precipitao, j
probabilidade igual a 0.475 (ou 0.500 - a/2). que os desvios em relao mdia nestes dados no pos-
Existem alguns outros problemas que precisam ser suem distribuio normal. Alm disso, pode haver eventos
considerados. Note que o mtodo Mann-Kendall baseado extremos de precipitao que vo afetar o ajuste de mni-
na suposio de que a srie de dados no possui dependn- mos quadrados. O mtodo dos mnimos quadrados fornece
cia temporal, o que no verdade para a maioria dos dados valores de coeficientes angulares muito maiores do que o
meteorolgicos e climatolgicos. Quando existe dependn- mtodo Mann-Kendall (Tabela 1).
cia temporal nos dados (quer dizer, os dados exibem um A Tabela 1 tambm apresenta estimativas de signifi-
certo grau de memria no tempo), a varincia calculada cncia estatstica para os coeficientes angulares do ajuste
pode ser subestimada e a significncia estatstica superesti- de tendncia nas sries temporais. Umas das vantagens do
mada. A dependncia temporal pode ser levada em conta no teste Mann-Kendall o fato do mtodo fornecer tanto o
clculo do teste adaptando-se a frmula da varincia coeficiente angular do ajuste linear como a significncia
(Eq. (3)) de modo a se considerar um nmero efetivo de estatstica da tendncia linear. J a significncia estatstica
observaes (o qual deve substituir o nmero total de ob- do ajuste de mnimos quadrados foi avaliada utilizando-se a
servaes) conforme ser discutido na seo 4. tcnica de re-amostragem, tambm conhecida como Boot-
Entretanto, h outros meios de se reduzir a depen- strap (Wilks, 2011). Esta tcnica consiste em se reorga-
dncia temporal. Por exemplo, remover o ciclo anual dos nizar aleatoriamente a srie temporal e calcular o ajuste de
dados (sobretudo se forem dados dirios) ou agreg-los, por mnimos quadrados. Este procedimento repetido vrias
exemplo, como dados mensais. Para compreender este pro- vezes (e.g. 1000 vezes) e os valores dos coeficientes angu-
blema, considere a serie temporal da precipitao discutida lares obtidos em cada ajuste so ordenados do menor para o

Tabela 1 - Comparao entre o clculo de tendncias lineares e da significncia estatstica de tendncias lineares para sries de precipitao e anomalias
padronizadas de precipitao considerando o mtodo de mnimos quadrados, o teste Mann-Kendall, e o teste de re-amostragem.

Srie de dados Coeficiente angular Significncia estatstica


Mnimos Quadrados Mann-Kendall Re-amostragem Mnimos Quadrados Mann-Kendall
Dados brutos -0,000151 -0,0000001 Significativa ao nvel de 5% No significativa
Anomalias padronizadas (ciclo -0,000151 -0,0000001 Significativa ao nvel de 5% No significativa
anual no suavizado)
Anomalias padronizadas (ciclo -0,000014 -0,000017 No significativa No significativa
anual suavizado com filtro 1-2-1)
Anomalias padronizadas (ciclo -0,000014 -0,000016 No significativa No significativa
anual suavizado com harmnicos)
Prticas Simples em Anlises Climatolgicas: Uma Reviso 315

maior. Por fim, verifica-se a posio do ajuste original em mos interessados em testes para duas caudas, uma vez que
relao srie ordenada de ajustes. O ajuste original tanto valores positivos quanto negativos so relevantes).
considerado significativo se coincide com os valores nas Neste caso a hiptese nula afirma que no h correlao. O
extremidades das caudas da distribuio de ajustes lineares maior problema nesta anlise estimar o correto nmero
das sries temporais reorganizadas (e.g. inferior a 2.5% ou graus de liberdade n = N - 2. Se considerarmos N como o
superior a 97.5% para teste bilateral). nmero total de dados no tempo (N = 396 meses) estaremos
No caso da srie de precipitao sobre o Brasil cen- superestimando o valor do nmero de graus de liberdade,
tral, verificamos que ao se utilizar a metodologia menos dado que ambos os conjuntos de dados (TSM e ndice
apropriada, ou seja, a conjuno do teste menos apropriado ENOS) possuem alta dependncia temporal. Dessa forma
(mnimos quadrados para conjunto de dados em questo) corremos o risco de erroneamente rejeitar a hiptese nula
com o conjunto de dados menos apropriados (srie de da- (erro do tipo I). Por outro lado, se considerarmos N como
dos brutos ou anomalias calculadas com o ciclo anual sendo o nmero de anos em nossa srie temporal (N = 33),
mdio no suavizado) obtm-se erroneamente resultados corremos o risco de subestimar o valor do nmero de graus
estatisticamente significativos. Por outro lado, ao se utilizar de liberdade. Assim, estaramos aplicando o teste esta-
a metodologia mais apropriada (teste Mann-Kendall) e o tstico com muita restrio (erro do tipo II). Uma forma
conjunto de dados mais apropriados (anomalias calculadas simples de minimizar esse problema simplesmente esti-
com o ciclo anual suavizado) a tendncia temporal no mar o nmero efetivo de graus de liberdade. No caso de
considerada significativa (Tabela 1). correlaes entre conjuntos de dados diferentes, o nmero
Maiores informaes sobre problemas relacionados a efetivo de graus de liberdade pode ser estimado a partir de
anlises de tendncias, sobre o clculo de tendncias e propriedades auto-regressivas de ambos os conjuntos de
sobre mtodos para se verificar a significncia estatstica de dados (Livezey e Chen, 1983) (Eq. (6)).
tendncias podem ser encontrados nos sites do Climate
n

Data Guide, do Climatic Research Unit e do Pacific North- t = 1+ 2 CTSM ( i )C ENOS ( i ) (6)
west National Laboratory. i=1

4. Dependncia Temporal onde N o nmero de dados (396 meses), i o i-simo dado


e C a auto-correlao de lag i para as anomalias de TSM e
Conforme discutido anteriormente, dados meteoro- o ndice ENOS, respectivamente. A partir de t podemos
lgicos e climatolgicos possuem dependncia temporal. estimar o nmero de amostras independentes (N efetivo) na
Portanto, ao se avaliar a significncia estatstica de correla- srie temporal (Eq. (7)). O valor de N efetivo ento
es entre variveis climatolgicas, preciso lev-la em utilizado na Eq. (5).
conta (Wilks, 2011). Considere, por exemplo, o caso em
que queremos avaliar a significncia estatstica da correla- N
N efetivo = (7)
o entre anomalias mensais de temperatura da superfcie t
do mar (TSM) e o fenmeno El Nino Oscilao Sul
(ENOS). Para isso, utilizamos dados mensais de TSM (OI- A Fig. 2a mostra a correlao entre anomalias de
SST; Reynolds et al., 2007) e o ndice ENOS calculado TSM e o ndice ENOS incluindo a significncia estatstica
pelo Climate Prediction Center (CPC) para o perodo de considerando essas trs formas diferentes de se estimar N.
1982 - 2014. Mais informaes sobre o ndice ENOS pode O sombreado mais claro mostra regies de correlao sig-
ser encontradas no site do CPC-NOAA. O teste de signifi- nificativa considerando N igual ao nmero total de dados
cncia estatstica pode ser facilmente realizado calculan- (396) na srie temporal (graus de liberdade superestima-
do-se a estatstica t0 (Eq. (5)), que possui distribuio dos). O sombreado mais escuro mostra regies de correla-
t-Student para correlao nula, com r igual ao valor do o significativa considerando N igual ao nmero de anos
coeficiente de correlao de Pearson entre a srie temporal (33) na srie temporal (graus de liberdade subestimados). O
de anomalias de TSM a cada ponto de grade e a srie tem- sombreado intermedirio mostra significncia consideran-
poral do ndice ENOS. N o nmero de dados em cada srie do-se o nmero efetivo de amostras independentes.
temporal. Outra tcnica popularmente utilizada em anlises ex-
ploratrias em climatologia so composites (ou compos-
r N -2
t0 = (5) tos) de anomalias, em que se calcula a mdia de anomalias
1- r 2 para algumas datas de interesse. Analogamente, preciso
considerar a dependncia temporal destas anomalias no
Se o valor absoluto de t0 for maior do que o valor de clculo da significncia estatstica. Vamos considerar no-
t(n,a) na tabela t de Student (e.g. Wilks, 2011) para o vamente o caso em que queremos avaliar a significncia
nmero de graus de liberdade n e o nvel de significncia de estatstica de anomalias mensais de temperatura da super-
interesse a (e.g. a = 5%), rejeita-se a hiptese nula (na fcie do mar (TSM) durante eventos El Nio. Neste caso,
maioria das anlises em climatologia e meteorologia esta- podemos utilizar um teste simples como o teste t para uma
316 Bombardi e Carvalho

Figura 2 - a) Correlao entre anomalias de TSM a o ndice ENOS (contorno) e b) composies de anomalias de TSM durante eventos El Nio
(contorno). O sombreado mostra regies estatisticamente significativas ao nvel de 5%. O tom de cinza mais claro mostra regies onde a significncia
estatstica estimada superestimando-se o nmero de graus de liberdade. O tom de cinza mais escuro mostra regies estatisticamente significante
subestimando-se o nmero de graus de liberdade. O tom intermedirio mostra regies estatisticamente significativas estimada com o valor apropriado
para o nmero de graus de liberdade (veja o texto para maiores detalhes).

amostra. O teste t de uma amostra examina a hiptese nula a propriedade auto-regressiva do conjunto de dados
de que a mdia de uma amostra retirada de uma populao (Eq. (10)). O valor de r1 obtido da auto-correlao de
centrada em um valor previamente especificado, m0 (no lag 1 da srie temporal dos dados de onde a amostra foi
nosso caso assumimos m0 = 0). Se o nmero de dados na retirada (a srie temporal completa das anomalias de TSM).
amostra grande o suficiente para que sua distribuio seja O valor de N efetivo ento utilizado na Eq. (8) (Wilks,
Gaussiana, de acordo com o Teorema do Valor Central, a 2011).
estatstica do teste (Eq. (8)) segue uma distribuio conhe-
1- r 1
cida como t de Student, ou simplesmente distribuio t N efetivo = N
(10)
(Wilks, 2011). 1+ r 1
x -m 0 A Fig. 2a mostra a composio de anomalias de TSM
t= (8)
[s N ]
1
2 2 durante eventos El Nio incluindo a significncia estats-
tica considerando trs formas diferentes de se estimar N. O
sombreado mais claro mostra regies onde as anomalias
onde x a mdia da amostra (mdia das anomalias de TSM so significativas considerando N igual ao nmero total de
durante eventos El Nio), N o numero de dados e s2 a dados (396) na srie temporal (graus de liberdade superes-
varincia da amostra descrita pela Eq. (9), timados). O sombreado mais escuro mostra regies com
1 n anomalias significativas para N igual ao nmero de eventos
s2 = ( xi - x ) 2
n -1 i=1
(9) El Nio (9) no perodo considerado (graus de liberdade
subestimados). O sombreado intermedirio mostra signifi-
Na Eq. (9), xi o valor da i-sima observao e n cncia considerando-se o nmero efetivo de amostras inde-
nmero total de dados na amostra. Assim, o maior proble- pendentes.
ma se resume a encontrar o nmero de graus de liberdade Vale lembrar que o teste t de Student um teste
n = N - 1, onde N o nmero de observaes independentes. paramtrico baseado na suposio de que o conjunto de da-
Novamente, N pode ser estimado levando em considerao dos possui distribuio essencialmente Gaussiana, o que
Prticas Simples em Anlises Climatolgicas: Uma Reviso 317

verdade para anomalias de TSM. Entretanto, se estivs- srie com distribuio Gaussiana seria suficiente. Ento
semos investigando anomalias de precipitao teramos calcula-se a correlao entre as anomalias de TSM e a srie
que utilizar uma estratgia diferente. Uma alternativa seria de dados aleatrios e conta-se novamente o nmero de
aplicar um teste no paramtrico, que no requer que os da- pontos onde a correlao estatisticamente significativa.
dos pertenam a uma distribuio particular. Esse processo ento repetido muitas vezes, sempre com
Outra alternativa seria transformar as anomalias de uma srie diferente de dados aleatrios. Os resultados obti-
precipitao para uma distribuio normal. Vale lembrar dos com cada srie de dados aleatrios (o nmero de pontos
tambm que o termo normalizar assume significados dife- onde a correlao estatisticamente significativa) so ento
rentes na literatura. Essa transformao diferente da tcni- ordenados do menor para o maior. O padro de correlao
ca de padronizao. Existem vrias tcnicas para transfor- original dito ter significncia de campo se o nmero de
mao como por exemplo transformao da raiz quadrada, pontos que rejeitam a hiptese nula superior a um limiar
da raiz cbica e logartmica, comumente aplicadas a dados (e.g. o percentil de 95%) da cauda superior da distribuio
de chuva. O usurio deve analisar qual a melhor transfor- dos nmeros de pontos com significncia estatstica deriva-
mao e se mesmo aps transformar os dados eles ainda da das sries temporais aleatrias. Em resumo, 1) calcula-
no apresentam distribuio normal, a nica alternativa o se vrias vezes (e.g. 1000 vezes) o nmero de pontos onde a
teste no paramtrico. correlao estatisticamente significativa utilizando-se di-
ferentes sries temporais aleatrias para cada clculo; 2) or-
5. Dependncia Espacial dena-se os resultados do menor para o maior e 3) verifica-se
a posio do resultado original em relao srie ordenada.
Assim como dados meteorolgicos e climatolgicos
A desvantagem deste teste que ele ignora a intensidade e a
apresentam dependncia temporal, estes tambm exibem
localizao das regies estatisticamente significativas
dependncia espacial. O conceito de auto-correlao espa-
(Delsole e Yang, 2011; Wilks, 2016).
cial parte do princpio de que tudo est relacionado com
todo o resto, mas coisas prximas esto mais relacionadas O teste proposto por Delsole e Yang (2011) utiliza
do que coisas distantes, tambm conhecido como a pri- uma regresso multivariada aplicada anlise de compo-
meira lei da Geografia (Tobler, 1970). nentes principais das variveis de interesse para estimar a
Ao se aplicar testes de significncia em sries tempo- significncia de campo dos resultados. As desvantagens
rais obtemos algumas regies espacialmente coerentes on- deste teste so que ele mais complexo do que o testes
de os resultados podem ser erroneamente considerados Livezey-Chen e FDR, ignora a variabilidade ortogonal aos
como estatisticamente significativos. Erros do tipo I em que principais modos das componentes principais e fornece
a hiptese nula erroneamente rejeitada tendem a se agre- pouca informao sobre a localizao das regies estatis-
gar no espao, levando a concluses errneas de que existe ticamente significativas (Delsole e Yang, 2011).
uma regio coerente onde os resultados so estatisticamen- O teste FDR bastante simples de ser aplicado, tem
te significativos. Este problema conhecido na literatura baixo custo computacional e fornece informaes sobre a
como o problema da multiplicidade de testes. Portanto, localizao das regies estatisticamente significativas. Por-
sempre que se aplica mltiplos testes de hipteses (como no tanto, este o mtodo que escolhemos para demonstrar a
caso de testes de sries temporais em pontos de grade ou estimativa da significncia de campo dos nossos resultados
mesmo em anlises de perfis verticais da atmosfera) (Fig. 3). Quando calculamos a significncia estatstica de
apropriado se aplicar um teste de significncia de campo um resultado, estamos de fato calculando a probabilidade
(Wilks, 2006). de quanto o resultado se afasta de uma condio que satis-
Os principais testes de significncia de campo em faz a hiptese nula (ou aquela que gostaramos de rejeitar).
meteorologia e climatologia so: 1) o teste proposto por Em outras palavras, calculamos a probabilidade de que o
Livezey e Chen (1983), que utiliza simulaes de Monte valor obtido ou a varivel transformada (por exemplo, a
Carlo; 2) um mtodo de regresso proposto por Delsole e varivel z, t-student, etc.) se encontra em uma distribuio,
Yang (2011) e 3) um procedimento conhecido como Taxa a qual pode ser conhecida ou no. Essa probabilidade
de Falsa Deteco (False Discovery Rate FDR) proposto conhecida como valor p. No caso de estudos meteorolgi-
por Ventura et al. (2004) e Wilks (2006). cos ou climatolgicos, a significncia estatstica comu-
O teste Livezey-Chen (Livezey e Chen, 1983) base- mente apresentada em um campo, em um mapa. Portanto,
ado no mtodo de Monte Carlo. Se tomarmos o mesmo podemos calcular o valor p para todos os pontos do nosso
exemplo da Fig. 2a, a ideia calcular a correlao entre as domnio de estudo e criar um mapa de valores p. O mtodo
anomalias de TSM e o ndice ENOS e contar o nmero de FDR se baseia em ordenar os valores de um campo de valor
pontos de grade onde a hiptese nula foi rejeitada (consi- p e encontrar o ponto em que a curva de valores p intercepta
derando tambm a dependncia no tempo). Em seguida, um limiar de probabilidade FDR. Esse limiar depende do
gera-se uma srie de dados aleatrios com o mesmo n- nvel de significncia de interesse, a. Wilks (2016) sugere
mero de dados e as mesmas caractersticas estatsticas da calcular o teste FDR utilizando um valor de a igual ao
srie do ndice ENOS original. No nosso exemplo, uma dobro do valor global de interesse (a = 2aglobal). Ou seja,
318 Bombardi e Carvalho

Figura 3 - a) Correlao entre anomalias de TSM a o ndice ENOS (contorno) e b) composies de anomalias de TSM durante eventos El Nio
(contorno). O sombreado mostra regies estatisticamente significativas ao nvel de 5%. O tom de cinza mais claro mostra regies estatisticamente
significativas estimadas com o valor apropriado para o nmero de graus de liberdade mas sem considerar dependncia espacial. O tom de cinza mais
escuro mostra regies estatisticamente significativas estimadas com o valor apropriado para o nmero de graus de liberdade e considerando a
dependncia espacial. Note que em (b) nenhuma regio considerada estatisticamente significativa ao nvel de 5% quando se aplica o teste FDR (veja o
texto para maiores detalhes).

aglobal o nvel de significncia de interesse e a o nvel de seguida, aplicamos o teste FDR e o sombreado em cinza
significncia utilizado no clculo do teste FDR. No nosso escuro mostra as regies estatisticamente significativas ao
caso o nvel de significncia de interesse 5% nvel de 5% neste caso. Note que as regies com correla-
(aglobal = 0.05) e, portanto, o teste FDR calculado utili- es estatisticamente significativas so menores quando se
zando-se a = 0.1. Entretanto, importante ressaltar que as considera significncia de campo em comparao com o
regies significativas devem apresentar tanto valores p me- caso em que a significncia de campo ignorada (Fig. 3a).
nores que aglobal (significncia estatstica considerando-se O teste de significncia de campo no uma prtica
dependncia temporal) quanto significncia de campo em muito comum na maioria dos artigos cientficos em cin-
relao a a (significncia estatstica considerando-se de- cias atmosfricas, apesar do fato de estes testes j existirem
pendncia espacial). Uma desvantagem do teste FDR que h bastante tempo. Uma das razes o fato de que muitos
o teste no vlido para o caso em que os testes de hiptese cientistas no esto cientes do problema. Outro motivo est
so altamente correlacionados no espao (Delsole e Yang, relacionado ao fato de que o resultado destes testes depende
2011). da escolha das fronteiras da regio de estudo. Note que para
o caso das anomalias de TSM durante eventos El Nio
A Fig. 3 mostra o teste de significncia de campo para (Fig. 3b), nenhuma regio foi considerada significativa
os resultados das mesmas anlises feitas na seo 2: corre- quando se aplica o teste FDR. Se ao invs de calcularmos
lao entre anomalias de TSM e o ndice ENOS (Fig. 3a) e FDR sobre todo o domnio calculssemos o teste FDR
composies de anomalias de TSM durante eventos El apenas sobre a bacia do Oceano Pacfico obteramos pa-
Nio (Fig. 3b). Neste caso, primeiramente calculamos a dres espaciais muito semelhantes aos padres espaciais
significncia estatstica considerando a dependncia tem- obtidos considerando apenas a dependncia temporal (no
poral. Ou seja, considerando-se o nmero efetivo de amos- mostrado). Entretanto, isso seria incorreto. Escolher um
tras independentes mas sem considerar a significncia de domnio para incluir apenas regies com resultados estatis-
campo. Neste caso, o sombreado em cinza claro mostra as ticamente significantes uma forma de manipulao de
regies estatisticamente significativas ao nvel de 5%. Em resultados, uma prtica desonesta. Portanto, mtodos para
Prticas Simples em Anlises Climatolgicas: Uma Reviso 319

a estimativa da significncia de campo devem fornecer uma Agradecimentos


explicao de como selecionar a regio de interesse. Uma
Este artigo tem o apoio financeiro da NOAA
alternativa ao uso de testes de significncia de campo seria
(NA15NWS4680018). Rodrigo Bombardi gostaria de a-
estimar a significncia estatstica de um resultado cientfico
gradecer o Dr. Timothy DelSole por sua ajuda na interpre-
utilizando-se a mesma anlise (i.e. considerando apenas a
tao de testes de significncia de campo e por comparti-
dependncia temporal) em diferentes fontes de dados
lhar o manuscrito do seu livro em preparao: Statistics: An
(DelSole, comunicao pessoal e livro em preparao). Se
Introduction for Climate Scientists. By Timothy DelSole
diferentes conjuntos de dados mostram padres espaciais
and Michael Tippett. Rodrigo Bombardi gostaria de agra-
de significncia estatstica semelhantes entre si, h menos
decer tambm ao Dr. Daniel Wilks por sua ajuda na imple-
incerteza no resultado obtido.
mentao do teste FDR.

6. Consideraes Finais Referncias


CHANDLER, R.E.; SCOTT, E.M. Statistical Methods for
Este artigo forneceu uma breve reviso de algumas
Trend Detection and Analysis in the Environmental Sci-
prticas simples mas muito importantes em anlises ences. [s.l.] John Wiley & Sons, 2011.
climatolgicas que so comumente empregadas em CHEN, M.; SHI, W.; XIE, P.; SILVA, V.B.S.; KOUSKY, V.E. et
estudos diagnsticos e prognsticos. Essas prticas, al. Assessing objective techniques for gauge-based analyses
muitas vezes ignoradas ou negligenciadas, produzem of global daily precipitation. Journal of Geophysical Re-
resultados robustos e estatisticamente significativos e search, v. 113, n. D4, p. D04110, 29 2008.
auxiliam na interpretao de campos, diagnsticos e DELSOLE, T.; YANG, X. Field Significance of Regression Pat-
prognsticos. terns. Journal of Climate, v. 24, n. 19, p. 5094-5107, 2011.
HARTMANN, D.L.; MICHELSEN, M.L. Intraseasonal Peridio-
Por exemplo, o ciclo anual no pode ser calculado cities in Indian Rainfall. Journal of Armospheric Scences,
como sendo simplesmente o ciclo anual mdio. A melhor v. 46, n. 18, p. 2838-2862, 1989.
estimativa para o ciclo anual deve levar em considerao a KIKUCHI, K.; WANG, B.; KAJIKAWA, Y. Bimodal representa-
suavizao do ciclo anual mdio. As tcnicas mais comuns tion of the tropical intraseasonal oscillation. Climate Dy-
envolvem a utilizao de uma mdia mvel ou dos trs namics, v. 38, n. 9-10, p. 1989-2000, 2012.
primeiros harmnicos do ciclo anual mdio. KILADIS, G.N.; DIAS, J.; STRAUB, K.H.; WHEELER, M.C.;
TULICH, S.N. et al. A Comparison of OLR and Circula-
A estimativa de tendncias em sries temporais de- tion-Based Indices for Tracking the MJO. Monthly
vem ser aplicadas a sries temporais de anomalias. Deve- Weather Review, v. 142, n. 5, p. 1697-1715, 2014.
se, tambm, sempre considerar os requisitos nos quais os LIVEZEY, R.E.; CHEN, W.Y. Statistical Field Significance and
mtodos de estimativa de tendncias e estimativa de signi- its Determination by Monte Carlo Techniques. Monthly
ficncia estatsticas so baseados. O uso de mtodos ina- Weather Review, v. 111, n. 1, p. 46-59, 1983.
propriados pode levar a concluses errneas a respeito do REYNOLDS, R.W.; SMITH, T.M.; LIU, C.; CHELTON, D.B.;
sinal e significncia estatstica de tendncias. CASEY, K.S. et al. Daily High-Resolution-Blended Analy-
ses for Sea Surface Temperature. Journal of Climate, v. 20,
A dependncia temporal deve ser considerada na esti- n. 22, p. 5473-5496, 2007.
mativa dos graus de liberdade de testes estatsticos. Erros TOBLER, W.R.A Computer Movie Simulating Urban Growth in
na estimativa dos nmeros de graus de liberdade podem the Detroit Region. Economic Geography, v. 46, p. 234,
levar tanto superestimao como subestimao de re- 1970.
gies com significncia estatstica e, portanto, a concluses VENTURA, V.; PACIOREK, C.J.; RISBEY, J.S. Controlling the
errneas. Proportion of Falsely Rejected Hypotheses when Con-
ducting Multiple Tests with Climatological Data. Journal
Como ainda no temos uma boa noo da melhor of Climate, v. 17, n. 22, p. 4343-4356, 2004.
forma de se escolher as fronteiras da regio de estudo em WILKS, D.S. On Field Significance and the False Discovery
testes de significncia de campo, a opinio dos autores Rate. Journal of Applied Meteorology and Climatology,
deste artigo que se deve aplicar testes de significncia de v. 45, n. 9, p. 1181-1189, 2006.
campo com cautela na maioria das anlises espaciais efe- WILKS, D.S. Statistical Methods in the Atmospheric Sciences.
tuadas. Entretanto, a recomendao que os testes de Third ed. [s.l.] Academic Press, Burlington, MA 01803,
USA, 2011.
significncia de campo no sejam ignorados em caso de
WILKS, D.S. The stippling shows statistically significant grid-
interpretaes de significncias em campos com estru-
points: How Research Results are Routinely Overstated
turas fragmentadas ou baseados em nmero restrito de and Over-interpreted, and What to Do About It. Bulletin of
amostras independentes. Estes testes tornar-se-o indis- the American Meteorological Society, p. BAMS-D-15-
pensveis e mais robustos medida que compreendamos 00267.1, 9 2016.
melhor a relao entre as fronteiras do domnio de estudo XIE, P.; CHEN, M.; YANG, S.; YATAGAI, A.; HAYASAKA, T.
e a significncia estatstica dos resultados. et al. A Gauge-Based Analysis of Daily Precipitation over
320 Bombardi e Carvalho

East Asia. Journal of Hydrometeorology, v. 8, n. 3, Climate Data Guide: https://climatedataguide.ucar. edu/climate-


p. 607-626, 2007. data-tools-and-analysis/trend-analysis.
ZILLI, M.T.; CARVALHO, L.M.V.; LIEBMANN, B.; SILVA, Climatic Research Unit: https://crudata.uea.ac.uk/projects/
D.; MARIA, A. A comprehensive analysis of trends in ex- stardex/Linear_regression.pdf.
treme precipitation over southeastern coast of Brazil. Inter- Pacific Northwest National Laboratory: http://vsp.pnnl.gov/
national Journal of Climatology, v. 37, n. 5, p. 2269-2279, help/Vsample/Design_Trend_Mann_Kendall.htm.
2017. Statistics: An Introduction for Climate Scientists:
ftp://wxmaps.org/pub/delsole/dir_necessity/manu-
script.02242017.pred.pdf.
Endereos de Internet
This is an Open Access article distributed under the terms of the Creative Commons Attribution
CPC-NOAA: http://www.cpc.ncep.noaa.gov/products/analysis_ Non-Commercial License which permits unrestricted non-commercial use, distribution, and
monitoring/ensostuff/ensoyears.shtml. reproduction in any medium provided the original work is properly cited.

Você também pode gostar