Você está na página 1de 4

Machine Translated by Google

Geosci. Model Dev., 7, 1247–1250, 2014


www.geosci-model-dev.net/7/1247/2014/
doi:10.5194/gmd-7-1247-2014 © Autor(es) 2014.
CC Attribution 3.0 License.

Raiz do erro quadrático médio (RMSE) ou erro absoluto médio


(MAE)? – Argumentos contra evitar o RMSE na literatura
T. Chai1,2 e RR Draxler1 1NOAA

Air Resources Laboratory (ARL), NOAA Center for Weather and Climate Prediction, 5830 University Research
Court, College Park, MD 20740, EUA 2Cooperative Institute for Climate and Satellites, University of Maryland,
College Park, MD 20740, EUA

Correspondência para: T. Chai (tianfeng.chai@noaa.gov)

Recebido: 10 de fevereiro de 2014 – Publicado em Geosci. Modelo Dev. Discutir.: 28 de fevereiro de 2014
Revisado: 27 de maio de 2014 – Aceito: 2 de junho de 2014 – Publicado: 30 de junho de 2014

Abstrato. Tanto a raiz quadrada média do erro (RMSE) quanto a média 1. Introdução
do erro absoluto (MAE) são regularmente empregadas em estudos de
avaliação de modelos. Willmott e Matsuura (2005) sugeriram que o
RMSE não é um bom indicador do desempenho médio do modelo e A raiz do erro quadrático médio (RMSE) tem sido usada como uma
pode ser um indicador enganoso do erro médio e, portanto, o MAE seria métrica estatística padrão para medir o desempenho do modelo em
uma métrica melhor para esse propósito. Embora algumas preocupações estudos de meteorologia, qualidade do ar e pesquisas climáticas. O erro
sobre o uso do RMSE levantadas por Willmott e Matsuura (2005) e absoluto médio (MAE) é outra medida útil amplamente utilizada em
Willmott et al. (2009) são válidos, a proposta de evitar o RMSE em favor avaliações de modelos. Embora ambos tenham sido usados para avaliar
do MAE não é a solução. Citando os artigos mencionados acima, muitos o desempenho do modelo por muitos anos, não há consenso sobre a
pesquisadores escolheram o MAE em vez do RMSE para apresentar métrica mais apropriada para os erros do modelo. No campo das
suas estatísticas de avaliação do modelo quando apresentar ou adicionar geociências, muitos apresentam o RMSE como uma métrica padrão
as medidas do RMSE poderia ser mais benéfico. Nesta nota técnica, para erros de modelo (por exemplo, McKeen et al., 2005; Savage et al.,
demonstramos que o RMSE não é ambíguo em seu significado, ao 2013; Chai et al., 2013), enquanto alguns outros optam por evitar o
contrário do que afirma Willmott et al. (2009). RMSE e apresentar apenas o MAE, citando a ambigüidade do RMSE
reivindicada por Willmott e Matsuura (2005) e Willmott et al. (2009) (por
O RMSE é mais apropriado para representar o desempenho do modelo exemplo, Taylor et al., 2013; Chatterjee et al., 2013; Jerez et al., 2013).
do que o MAE quando se espera que a distribuição do erro seja Enquanto o MAE dá o mesmo peso a todos os erros, o RMSE penaliza
gaussiana. Além disso, mostramos que o RMSE satisfaz o requisito de a variância, pois dá mais peso aos erros com valores absolutos maiores
desigualdade triangular para uma métrica de distância, enquanto Willmott do que aos erros com valores absolutos menores. Quando ambas as
et al. (2009) indicaram que as estatísticas baseadas em somas de métricas são calculadas, o RMSE é, por definição, nunca menor que o
quadrados não satisfazem esta regra. No final, discutimos algumas MAE. Por exemplo, Chai et al. (2009) apresentaram os erros médios
circunstâncias em que o uso do RMSE será mais benéfico. No entanto, (MAEs) e os erros rms (RM SEs) das previsões da coluna do modelo
não afirmamos que o RMSE seja superior ao MAE. Em vez disso, uma NO2 em comparação com as observações do satélite SCIA MACHY. A
combinação de métricas, incluindo, mas certamente não se limitando a proporção de RMSE para MAE variou de 1,63 a 2,29 (ver Tabela 1 de
Chai et al., 2009).
RMSEs e MAEs, geralmente é necessária para avaliar o desempenho
do modelo.
Usando conjuntos hipotéticos de quatro erros, Willmott e Matsuura
(2005) demonstraram que, mantendo o MAE como uma constante de
2,0, o RMSE varia de 2,0 a 4,0.
Eles concluíram que o RMSE varia com a variabilidade das magnitudes
de erro e erro total ou magnitude média de erro (MAE), e o tamanho da
amostra n. eles ainda

Publicado por Copernicus Publications em nome da European Geosciences Union.


Machine Translated by Google

1248 T. Chai e RR Draxler: RMSE ou MAE

demonstrou uma inconsistência entre MAEs e RMSEs usando 10 Tabela 1. RMSEs e MAEs de pseudoerros gerados aleatoriamente com média
zero e distribuição gaussiana de variância unitária. Cinco conjuntos
combinações de 5 pares de dados globais de precipitação.
Eles resumiram que o RMSE tende a se tornar cada vez maior que o de erros de tamanho n são gerados com diferentes sementes aleatórias.

MAE (mas não necessariamente de forma monotônica) à medida que


a distribuição das magnitudes de erro se torna mais variável. O RMSE n RMSEs MAEs

tende a crescer mais do que o MAE com n 2 , pois seu limite inferior é 0.92, 0.65, 1.48, 1.02, 0.79 0.70, 0.57, 1.33, 1.16, 0.76 0.81,
1 4
fixado no MAE 1.10, 0.83, 0.95, 1.01 0.65, 0.89, 0.72, 0.84, 0.78 1.05, 1.03,
1 1 10 1.03, 1.00, 1.04 0.82, 0.81, 0.79 , 0.78, 0.78 1.04, 0.98, 1.01,
e seu limite superior (n 2 · MAE) aumenta com n Willmott 2 . Mais longe,
100 1000 1.00, 1.00 0.82, 0.78, 0.80, 0.80, 0.81 1.00, 0.98, 1.01, 1.00,
et al. (2009) concluíram que as estatísticas de erros baseadas em 10 000 1.00 0.79, 0.79, 0.79, 0.81, 0.80 100 000 1.00, 1.00, 1.00,
somas de quadrados, como o RMSE e o erro padrão, têm 1.00, 1,00 0,80, 0,80,
0,80, 0,80,
0,80, 0,80,
0,80, 0,80
0,80, 1000 000 1,00, 1,00, 1,00, 1,00, 1,00
0,80
ambiguidades inerentes e recomendaram o uso de alternativas, como
o MAE.
Como toda medida estatística condensa um grande número de
dados em um único valor, ela fornece apenas uma projeção dos erros
do modelo, enfatizando um certo aspecto das características de erro Assim, usar o RMSE ou o erro padrão (SE)1 ajuda a fornecer uma
do desempenho do modelo. Willmott e Matsuura (2005) simplesmente imagem completa da distribuição de erros.
provaram que o RMSE não é equivalente ao MAE, e não é fácil derivar A Tabela 1 mostra RMSEs e MAEs para pseudoerros gerados
o valor MAE do RMSE (e vice-versa). Da mesma forma, pode-se aleatoriamente com média zero e distribuição gaussiana de variância
mostrar prontamente que, para vários conjuntos de erros com o mesmo unitária. Quando o tamanho da amostra atinge 100 ou mais, usando
RMSE, o MAE variaria de conjunto para conjunto. os RMSEs calculados, pode-se reconstruir a distribuição de erro
próxima de sua “verdade” ou “solução exata”, com seu desvio padrão
Como as estatísticas são apenas uma coleção de ferramentas, os dentro de 5% de sua verdade (ou seja, SE = 1). Quando houver mais
pesquisadores devem selecionar a ferramenta mais apropriada para a amostras, a reconstrução da distribuição de erros usando RMSEs será
questão que está sendo abordada. Como o RMSE e o MAE são ainda mais confiável. O MAE aqui é a média da distribuição semi-
definidos de forma diferente, devemos esperar que os resultados normal (ou seja, a média do subconjunto positivo de uma população
sejam diferentes. Algumas vezes, várias métricas são necessárias de erros normalmente distribuídos com média zero). A Tabela 1 mostra
para fornecer uma imagem completa da distribuição de erros. Quando que os MAEs convergem para 0,8, deve-se notar uma aproximação da
se espera que a distribuição de erro seja gaussiana e haja amostras 2
expectativa de que todas as estatísticas são menos úteis quando ÿhá. Isto

suficientes, o RMSE tem uma vantagem sobre o MAE para ilustrar a apenas um número limitado de amostras de erro. Por exemplo, a
distribuição de erro.
Tabela 1 mostra que nem os RMSEs nem os MAEs são robustos
O objetivo desta nota é esclarecer a interpretação do RMSE e do quando apenas 4 ou 10 amostras são usadas para calcular esses
MAE. Além disso, demonstramos que o RMSE satisfaz o requisito de
valores.
desigualdade triangular para uma métrica de distância, enquanto
Nesses casos, apresentar os valores dos próprios erros (por exemplo,
Willmott e Matsuura (2005) e Willmott et al. (2009) afirmam o contrário.
em tabelas) é provavelmente mais apropriado do que calcular qualquer
uma das estatísticas. Felizmente, muitas vezes existem centenas de
observações disponíveis para calcular as estatísticas do modelo, ao
contrário dos exemplos com n = 4 (Willmott e Matsuura, 2005) e n = 10
2 Interpretação de RMSE e MAE (Willmott et al., 2009).
A condensação de um conjunto de valores de erro em um único
Para simplificar, assumimos que já temos n amostras de erros de número, seja o RMSE ou o MAE, remove muitas informações.
modelo calculados como (ei , i = 1,2,... , n).
erros
As incertezas
de observação
trazidas
ou pelo
por As melhores métricas estatísticas devem fornecer não apenas uma
método usado para comparar o modelo e as observações não são medida de desempenho, mas também uma representação da
consideradas aqui. Também assumimos que o conjunto de amostras distribuição de erros. O MAE é adequado para descrever erros
de erro é imparcial. O RMSE e o MAE são calculados para o conjunto uniformemente distribuídos. Como é provável que os erros do modelo
de dados como tenham uma distribuição normal em vez de uma distribuição uniforme,
o RMSE é uma métrica melhor para apresentar do que o MAE para esse tipo de dado
1 n
MAE = |ei | (1)
n
i=1

1 n 1Para distribuições de erro imparciais, o erro padrão (SE) é equivalente ao


2
RMSE = e
eu . (2) RMSE, pois a média da amostra é considerada zero. Para uma distribuição de
n
i=1 erro desconhecida, o SE da média é a raiz quadrada da “variância da amostra
corrigida pelo viés”. Ou seja SE =
n n
A suposição subjacente ao apresentar o RMSE é que os erros são 1
(ei ÿ )2, onde = ei .
imparciais e seguem uma distribuição normal. 1 nÿ1 n
i=1 i=1

Geosci. Model Dev., 7, 1247–1250, 2014 www.geosci-model-dev.net/7/1247/2014/


Machine Translated by Google

T. Chai e RR Draxler: RMSE ou MAE 1249

3 Desigualdade triangular de uma métrica erros seguem uma distribuição normal. Além disso, demonstramos
que o RMSE satisfaz a desigualdade triangular necessária para uma
Tanto Willmott e Matsuura (2005) quanto Willmott et al. (2009) métrica de função de distância.
enfatizou que as estatísticas baseadas em somas de quadrados não A sensibilidade do RMSE a outliers é a preocupação mais comum
satisfazem a desigualdade triangular. Um exemplo é dado em uma com o uso dessa métrica. De facto, a existência de outliers e a sua
nota de rodapé de Willmott et al. (2009). No exemplo, é dado que d(a, probabilidade de ocorrência é bem descrita pela distribuição normal
c) = 4, d(a, b) = 2 e d(b, c) = 3, onde d(x, y) é uma função de distância. subjacente à utilização do RMSE. A Tabela 1 mostra que com
Os autores afirmaram que d(x, y) como uma “métrica” deveria amostras suficientes (n ÿ 100), incluindo aqueles outliers, pode-se
satisfazer a “desigualdade triangular” (isto é, d(a, c) ÿ d(a, b) + d(b, reconstruir de perto a distribuição de erro. Na prática, pode ser
c)). No entanto, eles não especificaram o que a, b e c representam justificável descartar os outliers que são várias ordens maiores do
aqui antes de argumentar que a soma dos erros quadrados não que as outras amostras ao calcular o RMSE, especialmente se o
satisfaz a “desigualdade triangular” porque 4 ÿ 2 + 3, enquanto 42 2 número de amostras for limitado. Se os vieses do modelo forem
22+3
Na verdade, este exemplo representa a média erro. quequadrado
não pode(MSE),
ser graves, também pode ser necessário remover os erros sistemáticos
usado como uma métrica de distância, em vez do RMSE. antes de calcular os RMSEs.

Seguindo uma certa ordem, os erros ei , i = 1,... , n pode Uma vantagem distinta dos RMSEs sobre os MAEs é que os RM
seja escrito em um vetor n-dimensional . A norma L1 e a norma L2
SEs evitam o uso de valor absoluto, o que é altamente indesejável
estão intimamente relacionadas com o MAE e o RMSE, em muitos cálculos matemáticos. Por exemplo, pode ser difícil calcular
respectivamente, conforme mostrado nas Eqs. (3) e (4): o gradiente ou a sensibilidade dos MAEs em relação a determinados
n parâmetros do modelo. Além disso, no campo da assimilação de
||1 = |ei | = n · MAE (3) dados, a soma dos erros ao quadrado é muitas vezes definida como
i=1 a função de custo a ser minimizada pelo ajuste dos parâmetros do
n modelo. Em tais aplicações, penalizar grandes erros por meio dos
||2 = 2
e eu = ÿ n ·RMSE. (4) termos de mínimos quadrados definidos prova ser muito eficaz para
i=1 melhorar o desempenho do modelo. Sob as circunstâncias de cálculo
de sensibilidades de erro de modelo ou aplicações de assimilação de
Todas as normas vetoriais satisfazem |X+Y| ÿ |X|+|Y| e |ÿX| = |X|
dados, os MAEs definitivamente não são preferidos aos RMSEs.
(ver, por exemplo, Horn e Johnson, 1990). É trivial provar que a
distância entre dois vetores medida pela norma Lp satisfaria |X ÿ Y|p
Um aspecto importante das métricas de erro usadas para
ÿ |X|p + |Y|p. Com três vetores n-dimensionais, X, Y e Z, temos
avaliações de modelo é sua capacidade de discriminar entre os
resultados do modelo. A medida mais discriminativa que produz
|XÿY|p = |(XÿZ)ÿ(Y ÿZ)|p ÿ |XÿZ|p+|Y ÿZ|p. (5) maiores variações em sua métrica de desempenho do modelo entre
diferentes conjuntos de resultados do modelo é frequentemente a
Para vetores n-dimensionais e a norma L2, a Eq. (5) pode ser
mais desejável. A este respeito, o MAE pode ser afetado por uma
escrita como
grande quantidade de valores de erro médio sem refletir
adequadamente alguns erros grandes. Dando maior peso às
n n n condições desfavoráveis, o RMSE geralmente é melhor em revelar
(xi ÿ yi) 2ÿ (xi ÿ zi) 2+ (yi ÿ zi) 2, (6) as diferenças de desempenho do modelo.
i=1 i=1 i=1 Em muitos dos estudos de sensibilidade do modelo que usam
que é equivalente a apenas o RMSE, uma interpretação detalhada não é crítica porque
as variações do mesmo modelo terão distribuições de erro semelhantes.
1 n 1 n Ao avaliar diferentes modelos usando uma única métrica, as
(xi ÿ yi) 2ÿ (xi ÿ zi) 2
n n diferenças nas distribuições de erro tornam-se mais importantes.
i=1 i=1
Conforme afirmamos na nota, a suposição subjacente ao apresentar
o RMSE é que os erros são imparciais e seguem uma distribuição
1 n
+ (yi ÿ zi) 2. (7) normal. Para outros tipos de distribuições, são necessários mais
n
i=1 momentos estatísticos dos erros do modelo, como média, variância,
assimetria e nivelamento, para fornecer uma imagem completa da
Isso prova que o RMSE satisfaz a desigualdade triangular re
variação do erro do modelo. Algumas abordagens que enfatizam a
necessário para uma métrica de função de distância.
resistência a outliers ou insensibilidade a distribuições não normais
têm sido exploradas por outros pesquisadores (Tukey, 1977; Huber e
4 Resumo e discussão Ronchetti, 2009).
Como afirmado anteriormente, qualquer métrica única fornece
Apresentamos que o RMSE não é ambíguo em seu significado, e é apenas uma projeção dos erros do modelo e, portanto, apenas
mais apropriado usar do que o MAE quando o modelo enfatiza um determinado aspecto das características do erro. Uma combinação

www.geosci-model-dev.net/7/1247/2014/ Geosci. Model Dev., 7, 1247–1250, 2014


Machine Translated by Google

1250 T. Chai e RR Draxler: RMSE ou MAE

de métricas, incluindo, mas certamente não se limitando a RMSEs e MAEs, Huber, P. e Ronchetti, E.: estatísticas robustas, Wiley New York,
2009.
muitas vezes são necessárias para avaliar o desempenho do modelo.
Jerez, S., Pedro Montavez, J., Jimenez-Guerrero, P., Jose Gomez
Navarro, J., Lorente-Plazas, R., e Zorita, E.: Um conjunto multifísico
Reconhecimentos. Este estudo foi financiado pela concessão NOAA de simulações regionais do clima atual sobre a Península Ibérica,
NA09NES4400006 (Instituto Cooperativo para Clima e Satélites – CICS) Clim. Dynam., 40, 3023–3046, 2013.
no Laboratório de Recursos Aéreos da NOAA em colaboração com a McKeen, SA, Wilczak, J., Grell, G., Djalalova, I., Peck ham, S., Hsie, E.,
Universidade de Maryland. Gong, W., Bouchet, V., Menard, S., Mof fet, R. , McHenry, J.,
McQueen, J., Tang, Y., Carmichael, GR, Pagowski, M., Chan, A., Dye,
Editado por: R. Sander T., Frost, G., Lee, P., and Mathur, R. : Avaliação de um conjunto de
sete previsões de ozônio em tempo real sobre o leste da América do
Norte durante o verão de 2004, J. Geophys. Res., 110, D21307,
Referências doi:10.1029/2005JD005858, 2005.

Chai, T., Carmichael, GR, Tang, Y., Sandu, A., Heckel, A., Richter, A., e Savage, NH, Agnew, P., Davis, LS, Ordóñez, C., Thorpe, R., Johnson,
Burrows, JP: Inversão regional de emissão de NOx por meio de uma CE, O'Connor, FM e Dalvi, M.: Modelagem da qualidade do ar usando
abordagem variacional quadridimensional usando SCIA MACHY NO2 o Met Office Unified Model ( AQUM OS24-26): descrição do modelo e
troposférico observações de coluna, Atmos. Env ferro., 43, 5046– avaliação inicial, Geosci. Model Dev., 6, 353–372, doi: 10.5194/
5055, 2009. gmd-6-353-2013, 2013.
Chai, T., Kim, H.-C., Lee, P., Tong, D., Pan, L., Tang, Y., Huang, J., Taylor, MH, Losch, M., Wenzel, M., e Schroeter, J.: Sobre a sensibilidade
McQueen, J., Tsidulko, M., and Stajner , I.: Avaliação das previsões da reconstrução e previsão de campo usando funções ortogonais
experimentais em tempo real da Capacidade Nacional de Previsão da empíricas derivadas de dados gappy, J. Climate, 26, 9194–9205, 2013.
Qualidade do Ar dos Estados Unidos em 2010 usando medições de
ozônio e NO2 do Sistema de Qualidade do Ar, Geosci. Model Dev., 6, Tukey, JW: Análise Exploratória de Dados, Addison-Wesley, 1977.
1831–1850, doi:10.5194/gmd-6-1831-2013, 2013. Willmott, C. e Matsuura, K.: Vantagens do Erro Absoluto Médio (MAE)
Chatterjee, A., Engelen, RJ, Kawa, SR, Sweeney, C., e Micha lak, AM: sobre o Erro Quadrado Médio Médio (RMSE) na avaliação do
Estimativa de covariância de erro de fundo para assimilação de dados desempenho médio do modelo, Clim. Res., 30, 79–82, 2005.
atmosféricos de CO2, J. Geophys. Res., 118, 10140–10154, 2013.
Willmott, CJ, Matsuura, K., e Robeson, SM: Ambigüidades inerentes às
Horn, RA e Johnson, CR: Matrix Analysis, Cambridge University Press, estatísticas de erros baseadas em somas de quadrados, Atmos. Env
1990. ferro., 43, 749–752, 2009.

Geosci. Model Dev., 7, 1247–1250, 2014 www.geosci-model-dev.net/7/1247/2014/

Você também pode gostar