Você está na página 1de 10

PREVISÃO DO ÍNDICE DE DESENVOLVIMENTO HUMANO DE 2013 E

2014 POR MEIO DE TÉCNICAS DE MINERAÇÃO DE DADOS EM SÉRIES


TEMPORAIS UNIVARIADAS E MULTIVARIADAS
Celso Bilynkievycz dos Santos, Bruno Pedroso, Alaine Margarete Guimarães,
Luiz Alberto Pilatti e João Luiz Kovaleski

RESUMO

O Índice de Desenvolvimento Humano (IDH) é um indica- multivariadas, correspondentes aos registros de IDH de 187
dor adotado pela Organização Mundial da Saúde para avaliar países, enquanto que os modelos específicos formam desenvolvi-
a qualidade de vida de uma determinada região. Sua previsão dos a partir de séries temporais univariadas, correspondentes
pode auxiliar no planejamento e tomada de decisões para ori- ao comportamento histórico individual do índice em cada país.
entação e defesa de políticas para melhorar o seu desenvolvi- As variáveis temporais utilizadas corresponderam aos perío-
mento. Este estudo fez a previsão do IDH de 2013 e 2014 a dos históricos e intermitentes de 1980 a 2013 publicados no
partir de técnicas de mineração de dados de previsão em séries relatório do Programa das Nações Unidas para o Desenvolvi-
temporais, perfazendo todas as etapas do processo de desco- mento em 24/07/2014. Na análise empírica verificou-se que os
berta de conhecimento em bases de dados. No estudo foi aval- modelos multivariados apresentaram as melhores medidas de
iada a capacidade preditiva de 376 modelos, dois genéricos e qualidade nas previsões. As previsões do IDH 2013 foram efi-
374 específicos por país. Para o desenvolvimento dos modelos cientes, não apresentando diferenças significativas dos valores
foi utilizado o algoritmo SMOReg, executado em uma aplicação publicados, enquanto as previsões do IDH 2014 dependem de
de interface de programação Forecast do ambiente WEKA. O comparação com os valores divulgados posteriormente à final-
modelo genérico foi treinado e testado com séries temporais ização do presente trabalho.

Introdução desenvolvimento, pois, somente ul Haq, Amar tya Sen, Paul A literat u ra oferece u ma
o desenvolvimento econômico Streeten e Keith Griffin criou o variedade de técnicas de pre-
Profissionais de desenvolvi- não conseguiria atender as ne- Índice de Desenvolvimento visão, entre elas destacam-se
mento humano, ao avaliarem cessidades básicas das camadas Humano (IDH), que vem sendo as previsões a partir de técni-
diferentes aspectos e consequ- mais pobres da população, utilizado pelo Programa das cas de mineração de dados
ências dos países em cresci- como água, eletricidade, saúde Nações Unidas para o (MD) aplicadas em sér ies
mento, perceberam que o de- e educação. Observou-se tam- Desenvolvimento (UNDP, do temporais.
senvolvimento não deve ser bém que em algumas áreas os inglês United Nations Develop- Diferentes estudos contem-
visto apenas como mera expan- indicadores sociais pioraram, ment Programme) para avaliar o porâneos de previsão utilizando
são do seu crescimento econô- enquanto o produto interno bru- desenvolvimento humano dos técnicas de MD foram desen-
mico (referencias). Desde os to (PIB) global apresentava ta- países filiados (UNDP, 1990). volvidos em diferentes áreas,
anos 1970, essa percepção cres- xas de crescimento significati- A previsibilidade do IDH entre elas, energia eólica
ceu, observando que os esforços vas. Estas críticas levaram à pode auxiliar em tomadas de (Mangalova e Agafonov, 2014;
investidos na industrialização e necessidade da criação de um decisões gover namentais, e, Silva, 2014), mercado financei-
crescimento econômico não indicador de desenvolvimento caso as expectativas não corres- ro (Rodrigues e Stevenson,
conduziram a uma redução con- humano. pondessem aos valores reais, 2013) e engenharia (Palit e
siderável da pobreza e das desi- Em 1990, um grupo de eco- poderá apoiar ou não medidas Popovic, 2006; Alonso, Cruz e
gualdades nos países em nomistas formado por Mahbub políticas ou econômicas. Barceló, 2009).

KEYWORDS / Anthocyanins / Indicadores de Desenvolvimento / Mineração de Dados / Previsões /


Recebido: 17/04/2015. Modificado: 16/01/2019. Aceito: 17/01/2019.

Celso Bilynkievycz dos Santos. G rossa, PR, Brasil. e-mail: Universidade Federal do UTFPR, Brasil. Bolsista CNPq,
Mestrado e Doutorado em En- bilynkievycz@uepg.br Paraná, Brasil. Doutorada em Brasil. e-mail: lapilatti@utfpr.
genharia da Produção, Uni- Bruno Pedroso. Mestrado em Ag ronomía, Universidade edu.br.
versidade Tecnológica Federal Engen har ia da Produção, Estadual Paulista Júlio de João Luiz Kovaleski. Mestrado
do Paraná (UTFPR), Brasil. UTFPR, Brasil. Doutorado em Mesquita Filho, UNESP, Brasil. em Ciências, UTFPR, Brasil.
Professor, Universidade Esta- Educação Física, Universidade Professora, U EPG, Brasil. Doutorado em Instrumentação
dual de Ponta Grossa (UEPG), Estadual de Campinas e-mail: alainemg@uepg.br Industrial, Université Joseph
Brasil. Endereço: Setor de (Unicamp), Brasil. Professor, Luiz Alberto Pilatti. Mestrado Fourier, França. Professor,
Ciências Biológicas e da UEPG, Brasil. e-mail: prof. em Educação, Universidade UTFPR, Brasil. Bolsista CNPq,
Saúde, U EPG. Av. General brunopedroso@gmail.com Metodista de Piracicaba, Brasil. Brasil. e-mail: kovaleski@
Carlos Cavalcanti, 4748. Alaine Margarete Guimarães. Doutorado em Educação Física, utfpr.edu.br.
Uvaranas 84030900. Pont a Mest rada em Infor mática, Unicamp, Brasil. Professor,

504 0378-1844/14/07/468-08 $ 3.00/0 SEPTEMBER 2019 • VOL. 44 Nº 9


PREVISIÓN DEL ÍNDICE DE DESARROLLO HUMANO DE 2013 Y 2014 POR MEDIO DE TÉCNICAS DE MINERÍA
DE DATOS EN SERIES TEMPORALES UNIVARIADAS Y MULTIVARIADAS
Celso Bilynkievycz dos Santos, Bruno Pedroso, Alaine Margarete Guimarães, Luiz Alberto Pilatti y João Luiz Kovaleski

RESUMEN
El Índice de Desarrollo Humano (IDH) es un indicador multivariadas, correspondientes a los registros de IDH de 187
adoptado por la Organización Mundial de la Salud para eva- países, mientras que los modelos específicos se desarrollan a
luar la calidad de vida de una región determinada. Su pre- partir de series temporales univariadas, correspondientes al
visión puede ayudar en la planificación y toma de decisiones comportamiento histórico individual del índice en cada país.
para orientación y defensa de políticas para mejorar su desa- Las variables temporales utilizadas corresponden a los perío-
rrollo. Este estudio hizo la previsión del IDH de 2013 y 2014 dos históricos e intermitentes de 1980 a 2013 publicados en el
a partir de técnicas de minería de datos de previsión en series informe del Programa de las Naciones Unidas para el Desa-
temporales, incluyendo todas las etapas del proceso de des- rrollo el 24/07/2014. En el análisis empírico se verificó que los
cubrimiento de conocimiento en bases de datos. Se evaluó la modelos multivariados presentaron las mejores medidas de ca-
capacidad predictiva de 376 modelos, dos genéricos y 374 es- lidad en las previsiones. Las previsiones del IDH de 2013 fue-
pecíficos, por país. Para el desarrollo de los modelos se uti- ron eficientes, no presentando diferencias significativas con los
lizó el algoritmo SMOReg, ejecutado en una aplicación de in- valores publicados, mientras que las previsiones del IDH 2014
terfaz de programación Forecast del ambiente WEKA. El mo- dependen de comparación con los valores divulgados después
delo genérico fue entrenado y probado con series temporales de la finalización del presente trabajo.

FORECASTING THE HUMAN DEVELOPMENT INDEX OF 2013 AND 2014 BY MEANS OF DATA MINING
TECHNIQUES IN UNIVARIATE AND MULTIVARIATE TEMPORARY SERIES
Celso Bilynkievycz dos Santos, Bruno Pedroso, Alaine Margarete Guimarães, Luiz Alberto Pilatti and João Luiz Kovaleski

SUMMARY

The Human Development Index (HDI) is an indicator adopted series corresponding to the HDI records of 187 countries, while
by the World Health Organization to assess the quality of life of the specific models were developed from univariate time series
a given region. Its prediction can aid in planning and decision- corresponding to the individual historical behavior of the in-
-making for policy guidance and advocacy to improve its deve- dex in each country. The time variables used corresponded to
lopment. This study predicted the HDI of 2013 and 2014 from historical and intermittent periods from 1980 to 2013 published
forecasting data mining techniques in time series, completing all in the report of the United Nations Development Program on
stages of the knowledge discovery process in databases. In the 07/24/2014. In the empirical analysis it was verified that the mul-
study, the predictive capacity of 376 models, two generic and tivariate models presented the best quality measures in the pre-
374 country specific, were evaluated. For the development of the dictions. The predictions of the HDI 2013 were efficient, with no
models we used the SMOReg algorithm, executed in a Forecast significant differences to published figures, while the predictions
programming interface application of the WEKA environment. of HDI 2014 depend on comparison with figures released after
The generic model was trained and tested with multivariate time the completion of the present study.

A equipe de Silva (2014) de- bolsa de valores, de forma pre- Estudos de duas décadas dados (KDD, do inglês know-
senvolveu um modelo preditivo coce, empresas alvo de aquisi- atrás, como de Arinze (1994) ledge discovery in databases)
de potência em usinas de ener- ções ou fusão. Seus resultados já recomendavam algoritmos de (Fayyad et al., 1996) e envol-
gia eólica, utilizando os algo- apontaram melhor desempenho MD para aquisição de conheci- vendo bases de dados reais de
ritmos de MD Multiple linear individual dos modelos de mento, reduzindo a necessidade series temporais univariadas e
regression, GBM e K Means. RNAs em relação aos modelos de especialistas. No entanto, multivariadas, com índices de
Para o mesmo propósito, de RL. Mas as combinações estudos posteriores fazem jul- baixa variabilidade temporal e
Mangalova e Agafonov (2014) dos modelos superaram todos gamentos desfavoráveis à utili- baixa variância entre os perío-
combinaram métodos heurísti- os resultados. zação de técnicas de MD dos, mas com diferenças signi-
cos e formais, utilizando o al- Palit e Popovic (2006) fizeram (Chatf ield, 1995; Keogh e ficativas entre eles, aponta uma
goritmo CaRT (Classification a análise das séries temporais Kasetty, 2003; Ar mstrong, lacuna existente na literatura,
and regression tree) na seleção apresentando modelos e aplica- 2006). Keogh e Kasetty (2003) principalmente aplicando os
de fatores. ções de previsão em engenharia ainda criticam a falta de pes- algoritmos de aprendizagem
No estudo de Rodrigues e a partir de métodos matemáticos quisadores da área de MD para baseada em funções por meio
Stevenson (2013) foram utiliza- não convencionais da inteligên- testar métodos alternativos. de uma interface de programa-
dos modelos de redes neurais cia artificial (IA). Também, A inexistência de estudos de ção de aplicativos (API, do in-
artificiais (RNAs), regressão apresentaram taxonomia para MD, respeitando todas as eta- glês application programming
linear (RL) e combinações en- séries temporais, de acordo com pas do processo de descoberta interface) recentemente dispo-
tre ambos para identificar na suas características. de conhecimento em base de nibilizada para testes.

SEPTEMBER 2019 • VOL. 44 Nº 9 505


Diante desta abertura na lite- (Fayyad et al., 1996) no am- (MAPE, do inglês mean abso- séries temporais, as quais con-
ratura, este trabalho tem como biente de MD WEKA (Witten lute percentage error); preci- sistem em conjuntos de obser-
objetivo realizar a previsão do e Frank, 2005). Também, fo- são direcional (DAC, do inglês vações de variáveis com de-
IDH de 2013 e 2014 a partir de ram realizados testes estatísti- directional accuracy); er ro pendência serial, ordenadas em
seus dados históricos, utilizan- cos complementares de análise absoluto relativo (R AE, do função do tempo.
do a técnica de MD Forecast de variância, correlação e re- inglês relative absolute error) A previsão foi desenvolvida
em séries temporais univaria- gressão em diferentes momen- e raiz quadrada do erro qua- seguindo as etapas do processo
das e multivaridas. Os índices tos do processo de KDD. d rático relativo (R RSE, do de KDD (Fayyad et al., 1996),
de IDH e as técnicas emprega- O hardware utilizado foi inglês root relative squared que são apresentadas na Figura
das apresentam as característi- composto de um processador error). 1 e estão divididas, segundo
cas necessárias para contribuir de 2.4GHz e 10GBytes de me- Os parâmetros experimen- def inições de Michalski e
no fechamento desta lacuna da mória R AM dedicada ao tais utilizados no processo de Kaufman (1998), em três ma-
literatura, como: i) Séries tem- processamento. KDD estão apresentados na cro-etapas: i) pré-processamen-
porais univariadas correspon- Para avaliar os resultados Tabela I, assim como a sínte- to de MD: todas as subetapas
dentes a cada país. ii) Séries utilizou-se todas medidas de se das séries temporais utili- que antecedem a de MD; ii)
temporais multivariadas corres- qualidade das previsões das zadas encontram-se na Tabela MD: etapa onde se aplicam os
pondentes ao grupo de países séries temporais disponíveis II, para possíveis replicações algoritmos mineradores; iii)
f iliados a Organização das na API do WEKA: erro abso- ou comparações ent re pós-processamento de MD: to-
Nações Unidas (ONU). iii) luto médio (MAE, do inglês pesquisas. das as subetapas utilizadas
Variabilidade temporal baixa, mean absolute error); er ro para se consolidar o
de apenas 12 anos, correspon- quadrático médio (MSE, do Previsão das tendências do conhecimento.
dentes a um período intermi- inglês mean squared error); IDH 2013 e 2014
tente entre 1980 a 2013. iv) raiz quadrada do erro quadrá- Pré-processamento de MD
Baixa variância média anual do tico médio (RMSE, do inglês O Forecast se diferencia dos
índice por país (σ 2 = 0,0005 root mean squared error); erro demais métodos de classifica- O pré-processamento iniciou-
±0,00045). v) Diferença signi- percent ual absoluto médio ção de MD por trabalhar com -se com a obtenção dos dados
ficativa do índice entre os tem-
pos das séries temporais pare-
adas por países (p<0,001). vi) TABELA I
Utilização de algoritmos de PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS KKD *
aprendizagem baseada em fun-
ções. vii) Execução do algorit- Procedimentos: Etapas do processo de KDD.
mo usando a API Forecast do Fonte de Dados: Relatório da UNDP (2014) e site da UNDATA (2014) com séries temporais.
WEKA, disponibilizada para Softwares: WEKA, MS ACCESS, MS Excel, GraphPad InStat.
comunidade científica no se- API: Forecast.
gundo semestre de 2013. viii) Problema de KDD: Classificação.
Realização da análise dos da- Tipo de Dados: Séries temporais univariadas e multivariadas.
dos respeitando todas as etapas Técnica de MD: Previsão.
do KDD. Algoritmo: SMOReg - Selecionado entre algoritmos de aprendizagem baseada em funções.
Paradigma de aprendizagem dos algoritmos: Aprendizagem baseada em funções.
Materiais e Métodos Avaliação dos resultados: Medidas de qualidade para Forecast.
Técnicas estatísticas: Kolmogorov-Smirnov, análise de variância, regressão linear, correlação.
A partir dos dados dos IDH
Testes estatísticos paramétricos: correlação de Pearson, teste T pareado, ANOVA.
dos países filiados a ONU, fo-
ram desenvolvidas todas as Testes estatísticos não-paramétricos: correlação de Spearman, Wilcoxon matched-pairs e Friedman.
etapas do processo de KDD * Do inglês, knowledge discovery in databases.

TABELA II
SÉRIES TEMPORAIS UTILIZADAS
Registros Características
Classe Quant. Nome Unidades Período Previsão Descrição
N % predominantes
Anual
Multivariada

01 (1980-2012) IDH 2013 1982 88,32 Não estacionárias; Índice de Desenvolvimento


IDH dos intermitente
Não sazonais; Humano dos 187 Países fi-
países Anual
Linear liados a ONU
01 (1980-2013) IDH 2014 2169 89,22
intermitente
Índice Anual µ=11,60 µ=89,23
187 (1980-2012) IDH 2013 ±2,41 ±18,54
Univariada

IDH por
intermitente (4-13) (30,77-100) Não estacionárias; Índice de Desenvolvimento
país Anual µ=12,60 µ=90,00 Não sazonais; Humano de cada país filia-
Linear/Não Linear do a ONU
187 (1980-2013) IDH 2013 ±2,41 ±18,54
intermitente (5-14) (35,71-100)

506 SEPTEMBER 2019 • VOL. 44 Nº 9


diferentes tipos de elementos temporais de um a cinco perío-
estranhos em séries (Chen e dos de defasagem. Nos resulta-
Liu, 1993a, b; Muirhead, 1986), dos dos testes, observou-se mo-
onde são propostas técnicas derada autocorrelação
para detectá-los e para obten- (0,33<r<0,66) em um período
ção de boas estimativas. de defasagem nas séries tempo-
Ainda, Abraham e Chuang rais univariadas e, a partir de
(1989) propõem a utilização de dois períodos de defasagem, a
redes bayesianas para o trata- maioria das séries temporais
mento de elementos estranhos. apresentavam autocorrelação
A presença de outliers afeta baixa (r<0,33).
a regressão, porque o quadrado Ao final do pré-processa-
da distância mínima se acentua mento de MD, foram seleciona-
com a inf luência dos pontos das 376 séries temporais, sepa-
Figura 1. Etapas de desenvolvimento da pesquisa. mais distantes a partir da linha radas em dois grupos de da-
de regressão (Witten e Frank, dos: o primeiro para previsão
2005). A prática sugere elimi- do IDH 2013, com dados refe-
nação desses outliers de forma rentes ao período de 1980 a
extraídos do relatório da ONU attribute-relation file format supervisionada ou não supervi- 2012, e o segundo para previ-
(UNDP, 2014) e de sua base de (arff) e continuou-se a explora- sionada durante a etapa de lim- são do IDH 2014, com dados
dados (U NDATA, 2014). A ção das séries temporais no peza dos dados. referentes ao período de 1980 a
partir destas fontes foi desen- ambiente WEKA. Nesse estudo, foram manti- 2013. Cada gr upo de dados
volvida uma base de dados A partir da mineração visual, dos todos os registros dos IDH apresentava um modelo genéri-
específica com as séries tem- da estatística descritiva, e da de todos os países, mesmos os co treinado com séries multiva-
porais atualizadas em 24 de análise de correlação, as séries aparentes outliers, pois estes riadas correspondentes aos pa-
julho de 2014. Após a imple- temporais foram caracterizadas, não foram considerados erros, íses filiados à ONU e 187 mo-
mentação desta base de dados, segundo as definições de Palit mas valores surpreendentes e delos específ icos, treinados
foi realizada a etapa de KDD e Popovic (2006) em: i) Não corretos, díspares do padrão com séries univariadas corres-
de exploração da base de da- estacionárias: apresentam com- das demais séries temporais. pondente a cada país, resultan-
dos por meio da linguagem de portamento de crescimento; (ii) Apesar do uso da API não do assim em 188 modelos por
consultas estruturadas (SQL, Não sazonais: não apresentam requerer uma pré-análise deta- grupo.
do inglês structured query lan- padrões de comportamento em lhada das séries temporais, fo-
guage), resultando na estatísti- períodos regulares de tempo; e ram realizados outros testes Mineração de dados
ca descritiva das séries tempo- iii) Lineares: apresentam corre- para melhor caracterizar os
rais (Tabela III). lação com o tempo. dados para possíveis compara- A etapa de MD consiste na
Observa-se a partir da Tabela Observou-se também, que as ções com estudos futuros. aplicação de um ou vários al-
III, que o IDH do países filia- séries multivariadas apresenta- Entre eles, destacam-se os tes- goritmos de aprendizado de
dos, ao logo do período apre- vam alta correlação entre si, tes de autocorrelação e correla- máquina. Nesta etapa foi confi-
senta média crescente, e que o exceto com as séries temporais ção cr uzada nas séries gurada a API e também foram
desvio padrão é decrescente. de cinco países que se apresen-
Os dados apresentam alta ho- taram como outliers (Congo,
mogeneidade (baixa dispersão República Democrática do
ou variabilidade). Constatou-se Congo, Lesoto, Suazilândia e
também, que 65,78% dos países Zimbábue) e que também
apresentavam dados completos apresentaram características de
nas suas séries temporais. A não linearidade com o tempo.
ausência de dados é retroativa a A literatura apresenta dife-
2010 (Figura 2). A ausência de rentes técnicas de detecção de
dados foi tratada de forma não anomalias em séries temporais.
supervisionada, não tendo sido Fox (1972) introduz técnicas
adotadas medidas estatisticamente rigorosas para
supervisionadas. tratar questões de elementos
Em seguida, os dados foram estranhos em séries temporais.
transfor mados no for mato Outros estudos apresentam Figura 2. Percentual de ausência de dados temporais.

TABELA III
DESCRIÇÃO ESTATÍSTICA DAS SÉRIES TEMPORAIS CORRESPONDENTES AO IDH
Estatística p/Período p/País
descritiva 1980 1990 2000 2005 2006 2007 2008 2009 2010 2011 2012 2013 1980-2013
Média 0,538 0,587 0,620 0,642 0,648 0,656 0,662 0,665 0,670 0,672 0,675 0,686 0,649
Desvio padrão 0,185 0,181 0,188 0,185 0,184 0,182 0,180 0,175 0,172 0,172 0,171 0,156 0,042
Contagem 111 132 152 169 164 166 167 175 187 187 187 187 11,606
NC (95,0%) 0,035 0,031 0,030 0,028 0,028 0,028 0,027 0,026 0,025 0,025 0,025 0,023 0,023
NC: Nível de confiança.

SEPTEMBER 2019 • VOL. 44 Nº 9 507


selecionados, testados e confi- foram testados os algoritmos vidos com o uso do algoritmo A última etapa do processo
gurados os algoritmos disponí- per tencentes ao gr upo de SMOreg, dois MGs e 374 MEs, de K DD, chamada segundo
veis para mineração. aprendizagem baseada em fun- para a previsão do IDH de 187 Fayyad et al. (1996) de ‘conhe-
A API foi configurada consi- ções: least median squared, li- países nos períodos de 2013 e cimento’, que exige a interpre-
derando-se testes em relação ao near regression, multilayer 2014. Exemplos destes modelos tação dos padrões descobertos,
número máximo de defasagens perceptron, R BF network, podem ser obser vados em será apresentada na seção de
e o ajuste ou não da variância. SMOreg (Shevade et al., 2000) Santos (2015), que apresenta resultados, a seguir.
Primeiramente foram realizados e Gaussian processes. Mantive- um ME completo para previsão
testes de previsão nos modelos ram-se suas configurações pa- do IDH do país Chipre e um Resultados
genéricos (MG) com diferentes drões definidas no ambiente MG parcial, que na sua forma
configurações de máxima defa- WEKA. original é composto de 356.186 As previsões do IDH dos
sagem (2-12). Por meio do teste Algumas aplicações de algo- linhas. modelos utilizando o algoritmo
de análise de variância de ritmos foram interrompidas em SMOReg são apresentadas nas
Friedman observou-se a inexis- função do custo operacional Pós-processamento de MD Figuras 3 a 6, em que os resul-
tência de diferenças significati- elevado, com tempo de respos- tados dos modelos e previsões
vas (p=0,61) em relação ao ta >24h para os MGs. Apenas Os resultados dos modelos estão organizados por ordem
MAE para diferentes configu- os algoritmos Gaussian proces- alimentaram uma base de da- decrescente do IDH 2013, sen-
rações. E com o teste de corre- ses e SMOReg apresentaram dos, e através de SQLs especí- do que cada um agrupa uma
lação de Spearman verificou-se custo operacional satisfatório, ficas, esses resultados foram categoria de país (desenvolvi-
alta colinearidade entre o MAE com tempo de resposta <10min organizados por modelos e pa- dos, em desenvolvimento e sub-
das diferentes defasagens nos MGs. Já nos modelos espe- reados por países. Isto permitiu desenvolvidos). Outros detalhes
(0,96<r>1; p<0,001). A partir da cíficos (ME) todos os algorit- comparações entre os valores da pesquisa e valores de ten-
interpretação destes resultados, mos testados apresentaram reais disponíveis em UNDATA dências e previsões do IDH por
decidiu-se dispensar a definição tempo de resposta satisfatório, (2014) e as previsões, assim países podem ser consultados
de valores máximos de defasa- <5s. Também foram realizados como entre as medidas de qua- em Santos (2015), que apresen-
gem e adotou-se a configuração testes com retroalimentação de lidade dos modelos. ta os dados reais, referentes ao
padrão estabelecida pelo painel resultados das previsões dos
de configuração básica da API modelos, e verificou-se baixas
(lag=5). Em seguida, foram correlações entre os erros em
testados os modelos com e sem um horizonte de previsões.
o ajuste de variância. Ao final dos testes prelimi-
Segundo Pentaho (2014) o nares, foi selecionado o algorit-
ajuste de variância pode, ou mo SMOReg por apresentar os
não, melhorar o desempenho melhores resultados, tanto para
dos algoritmos. No caso es- os MGs com para os MEs,
pecífico deste trabalho, veri- além de apresentar custo opera-
ficou-se que o ajuste aumen- cional significativamente redu-
tou o MAE, então decidiu-se zido em relação aos demais.
não adotá-lo. Ao final destes O SMOReg aplica um motor
testes preliminares, foi defi- de vetores de suporte para re-
nida a configuração para a gressão. Esta técnica é discuti-
A PI Fore sca st do W EK A , da em Smola e Schölkopf
con for me apre se nt a do na (2004), que também apresen-
Tabela IV. tam os algoritmos mais utiliza-
dos naquele momento da pes-
Seleção do algoritmo quisa, que inclui o SMO, ver-
são original do SMOReg. Figura 3. Dados reais (2013) e previsões dos modelos específicos e ge-
Para a seleção do algoritmo Finalizando a etapa de MD, néricos para o IDH (2013 e 2014) dos países desenvolvidos (IDH muito
mais adequado ao estudo 376 modelos foram desenvol- alto).

TABELA IV
CONFIGURAÇÃO DA APLICAÇÃO DE INTERFACE DE PROGRAMAÇÃO Forecast
Configurações do API Forecast
Básica Avançadas
Base de aprendizagem
Seleção alvo (algoritmos) Criação de defasagem Avaliação Saída
Conjunto de dados - Pais(es) Gaussian processes <Desligado> Ajustar para
Parâmetros least median squared; variação
Número de vezes de previsão linear regression; <Desligado> Uso de com-
(horizonte de previsão) = 1 multilayer perceptron; primentos de defasagens <Ligado> Avaliar du- <Ligado> Saída de
Carimbo de tempo <Ano> multilayerperceptronCS; personalizados rante o treinamento previsões futuras
Periodicidade <Anual> RBFNetwork; <Desligado> Seleção de no final da série
<Ligado> Intervalo de confiança RBFRegressor; defasagem da sintoniza-
<Ligado> Executar avaliação SMOReg ção fina

508 SEPTEMBER 2019 • VOL. 44 Nº 9


IDH 2012 e 2013, com as pre- Síria, Zâmbia, São Tomé e
visões dos IDH 2013 e 2014, a Príncipe e Guiné Equatorial,
partir dos MGs e MEs, classifi- apresentaram valores menores
cados por classes (nível e tipos que as previsões.
de IDH) e ranqueados por país No grupo de países subdesen-
em relação ao IDH 2013. volvidos (Figura 6), Paquistão,
Observa-se na Figura 3, que Ruanda, Papua Nova Guiné,
no grupo de países desenvolvi- Afeganistão, Guiné, Burkina
dos, o Reino Unido e Cuba Faso, Eritreia, Serra Leoa,
apresentam valores de IDH República Centro Africano,
2013 acima das expectativas República Democrá-tica do
dos modelos. Já no grupo de Congo e Nigéria apresentaram
países em desenvolvimento valores inferiores as previsões
com IDH elevado (Figura 4) o dos modelos. A Líbia teve a
Peru apresentou valores acima maior queda do IDH (-0,005),
das expectativas, enquanto cinco posições no ranking, em-
Líbia, Ilhas Maurício e Belize bora as expectativas dos mode-
apresentaram valores inferiores los que consideram apenas os
ao estimado. No mesmo grupo, dados históricos do IDH era de Figura 6. Dados reais (2013) e previsões dos modelos específicos e genéri-
mas com IDH médio (Figura que seu IDH aumentaria entre cos para o IDH (2013 e 2014) dos países subdesenvolvidos - IDH baixo.
5), os países África do Sul, 0.8103 a 0.8123. A República
Timor-Leste, República Árabe Árabe da Síria também
apresentou IDH (0,658) menor Ademais, observou-se que
que o esperado pelos modelos, 41,18% foram menores simulta-
que seria de 0,6621 a 0,6739. O neamente que as previsões dos
país apresentou queda no índice dois modelos, e que 17,11% fo-
(-0.004) bem como queda de ram simultaneamente maiores
quatro posições no ranking. que o previsto pelos modelos.
Estas contradições possivelmen- A maioria dos valores absolutos
te ocorreram em consequência não apresentaram diferenças
da guerra civil que o país vem significativas com as previsões,
sofrendo. principalmente em relação ao
O Zimbábue foi o país que MG. Verificou-se que 61,50%
mais subiu posições (quatro). das previsões com menor erro
No total, dos 187 países ava- absoluto correspondiam aos
liados, 35 caíram no ranking MGs.
e outros 38 subiram. Os de- Por meio do teste de correla-
mais, 114 países se mantive- ção de Pearson, verificou-se
ram no mesmo nível de alta correlação (r= 0,99;
desenvolvimento. p<0,0001) das previsões do IDH
Em relação ao valor absoluto 2013 com as tendências reais no
Figura 4. Dados reais (2013) e previsões dos modelos específicos e gené- do IDH 2013, observou-se que MG. As previsões deste modelo
ricos para o IDH (2013 e 2014) dos países em desenvolvimento - IDH alto. 41,71% dos valores de IDH si- apresentam capacidade explica-
tuaram-se entre os intervalos tiva de 99,6% da variabilidade
das previsões dos modelos mul- da tendência do IDH divulgado
tivariados e univariados. pela ONU (Figura 7).

Figura 5. Dados reais (2013) e previsões dos modelos específicos e genéricos Figura 7. Previsão do IDH 2013 x IDH 2013 real a partir de séries tem-
para o IDH (2013 e 2014) dos países em desenvolvimento - IDH médio. porais multivariadas.

SEPTEMBER 2019 • VOL. 44 Nº 9 509


A Figura 8 apresenta as me- medidas de qualidade das modelos (p<0,001). Os MGs qualidade das previsões e ca-
didas de qualidade acumuladas previsões. apresentaram maiores médias racterísticas estatísticas do
das previsões dos MGs e MEs Os testes de análise de vari- da DAC e menores médias de IDH, como variabilidade das
para os anos de 2013 e 2014, ância, T Student e Wilcoxon erros que os MEs (Tabela V). séries temporais (número de
com visíveis diferenças de qua- matched-pairs, apontaram dife- Verificou-se com o teste de exemplos) e a variância do ín-
lidade entre os modelos. Os renças significativas entre as correlação de Spearman, a cor- dice (Tabela VI).
MGs apresentaram as melhores medidas de qualidade dos relação entre as medidas de A quantidade de exemplos
das séries temporais apresenta
baixa correlação com a DAC
(r=0,17), alta correlação com os
tipos de er ros (r>0,66) nos
MGs e moderada correlação
(0,33<r< 0,67) com os tipos de
erros nos MEs.
A variância do IDH apresen-
ta baixa correlação com a DAC
(0,23<r<0,30), alta correlação
com os tipos de erros (r>0,66)
nos MGs e moderada correla-
ção (0,33<r<0,67) como os ti-
pos de erros nos MEs.

Discussão

O estudo empírico, utilizan-


do dados reais, contribui para
a difusão de novos métodos de
previsão e complementa o rol
de experimentos, que atendem
a carência apontada por Keogh
e Kasetty (2003), da falta de
pesquisas de MD para testar
novos métodos.
O experimento fez a previ-
são e comparação do IDH 2013
com as tendências divulgadas
pela ONU em 24 de julho de
2014. Também fez previsões do
IDH 2014 que poderão ser con-
firmadas no relatório seguinte
da organização, publicado pos-
teriormente ao término da con-
fecção do presente trabalho.
Segundo Rodrigues e
Stevenson (2013), boa parte da
literatura sugere que previsões
combinadas podem melhorar as
previsões individuais. Isto foi
visível nos MGs que apresen-
tam melhores resultados que os
MEs. Nos MGs o algoritmo
aprende com o comportamento
de histórico das séries tempo-
rais de todos os países, en-
quanto que nos MEs a aprendi-
zagem se limita às séries tem-
porais do país alvo.
Atualizações significativas
dos índices de alguns países
podem limitar o estudo.
Segundo a UNDP (2014), as
estimativas internacionais e na-
cionais de dados podem apre-
sentar inconsistência, uma vez
Figura 8. Medidas de qualidades (DAC, MAE, MAPE, MSE, RAE, RMSE; RRSE) das previsões do IDH 2013 que as agências de dados inter-
e 2014 dos modelos genéricos e dos modelos específicos. nacionais consultam os dados

510 SEPTEMBER 2019 • VOL. 44 Nº 9


TABELA V
ESTATÍSTICA DE RESUMO DAS MEDIDAS DE QUALIDADE DAS PREVISÕES DE IDH POR ANO E MODELO
Previsão IDH 2013 2014
Genérico Específicos Genérico Específicos
Modelo estatística
µ ± µ ± µ ± µ ±
DAC 96,52 7,45 91,57 10,10 96,29 6,63 91,15 9,46
MAE 0,000129 0,000084 0,001475 0,000991 0,000134 0,000084 0,001601 0,001217
Medida de
qualidade

MAPE 0,023444 0,017070 0,258472 0,210777 0,024194 0,018624 0,287996 0,317034


MSE 0,000000 0,000000 0,000003 0,000016 0,000000 0,000000 0,000004 0,000023
RAE 2,55 1,18 27,17 15,85 2,67 1,23 29,32 18,30
RMSE 0,000144 0,000089 0,002436 0,001753 0,000145 0,000089 0,002651 0,001965
RRSE 2,50 1,19 37,38 20,12 2,62 1,25 40,09 22,09

TABELA VI (1996), e isto corrobora com o Apesar de este trabalho tes-


CORRELAÇÃO ENTRE AS MEDIDAS DE QUALIDADE seu estudo, bem como o estudo tar exclusivamente algoritmos
DAS PREVISÕES E AS MEDIDAS ESTATÍSTICAS DAS de Michalski e Kaufman de aprendizagem baseada em
SÉRIES TEMPORAIS: NÚMERO DE ELEMENTOS, (1998), que mencionam que a funções e comparar o desem-
VARIÂNCIA DO IDH eficácia do método depende do penho mais promissor em MG
Número de exemplos Variância do IDH rigor deste processo e que to- e ME, considerando as caracte-
Medida de Modelos das as suas etapas são impor- rísticas específicas dos dados,
qualidade tantes para o produto final, e observa-se grande avanço na
Genérico Específicos Genérico Específicos
ainda, que a MD é apenas uma qualidade das previsões obti-
DAC 0,17 - 0,23 0,30 das suas etapas. das, contrariando estudos ante-
MAE 0,67 0,34 0,90 0,40 Apesar de as técnicas de riores de Keogh e Kasetty
MAPE 0,67 0,35 0,86 0,39 MD não exigirem o conheci- (2003) e Armstrong (2006),
MSE - mento prévio do domínio como que não verificaram vantagens
RAE 0,8 0,37 0,72 - menciona Armstrong (2006), no uso das técnicas de MD. O
RMSE 0,69 0,29 0,92 0,37 observou-se no presente estudo mesmo se observa em outros
RRSE 0,81 0,33 0,76 - que se pode conhecer muito estudos recentes, como de
sobre o domínio na etapa de Lloyd (2014), que apesar de
KDD de pré-processamento, não deixar explícito o uso do
que antecede a etapa de MD, processo de KDD, destaca al-
principalmente na subetapa de gumas etapas do processo e o
nacionais, e eventualmente esti- ±18,54%). A ausência de dados ‘exploração da base de dados’, uso de técnicas de MD utiliza-
mam dados inexistentes para foi tratada de forma não super- como sugere Fayyad et al. das para solução do problema
comparação entre países. visionada. Os algoritmos utili- (1996). E também reafirma-se, de previsão. Ainda, Hong et al.
A má qualidade dos dados é zados superam essas ausências a partir da experimentação re- (2014) apresentam diversos as-
um problema que prejudica a através de interpolação de da- alizada, que essas etapas são pectos da GEFCom2012, in-
MD. Em grandes bases de da- dos, principalmente porque as de fundamental importância cluindo os métodos utilizados
dos, a ocorrência de erros e ausências não ocorreram próxi- para condução do processo e pelos participantes, confirman-
dados incompletos é comum mas às origens das previsões. para o estabelecimento da téc- do que algumas técnicas de
(Witten e Frank, 2005). Uma pequena interferência da nica mais adequada para o tipo MD têm vantagens sobre ou-
Inter valos de previsões são ausência de dados foi perceptí- de problema e natureza dos tras populares, como a
muitas vezes sensíveis a ou- vel com a diminuição da DAC, dados (Fayyad et al., 1996). ARIMA.
tliers, principalmente quando principalmente nos MEs. Apesar dos algoritmos de Em relação ao custo opera-
da ocorrência na proximidade Em relação ao método utili- aprendizado de máquina serem cional, segundo Mannila
da origem da previsão (Chen e zado, pesquisas empíricas de recomendados para aquisição (1996), as etapas mais dispen-
Liu, 1993b). Técnicas de MD Keogh e Kasetty (2003) encon- de conhecimento, por reduzi- diosas de tempo são as que
em alguns casos podem solu- traram pouco ganho com a rem a necessidade de especia- antecedem a de MD, podendo
cionar alguns desses problemas MD na época. Para Armstrong listas (Arinze, 1994), a literatu- consumir até 80% de todo o
(Witten e Frank, 2005). A re- (2006), os métodos promissores ra recomenda interação entre processo de KDD. Este estudo
dução de dimensionalidade é precisam ser replicados para se especialistas em MD e do do- reafirma os custos operacio-
uma alternativa que pode ser identificar em que condições mínio investigado (Gargano e nais, com aproximadamente
utilizada para eliminação de estes podem falhar. Em seu Raggad, 1999; Hong e Han, 60% do tempo gasto no pré-
ruídos ou dados irrelevantes estudo, também menciona que 2002; Kopanas et al., 2002; -processamento dos dados,
(Tan et al., 2005). as técnicas de MD oferecem Nemati et al., 2002; Hofmann 10% na etapa de MD e 30%
O estudo fez a previsão com pouca promessa, e que talvez a e Tierney, 2003; Dubey et al., no pós-processamento dos
34,22% dos países apresentan- grande falha desses métodos 2014; Kadhim et al., 2014). dados.
do dados incompletos retroati- esteja na falta de conhecimento Esta interação foi possível no A redução de dimensionali-
vos a 2010. Esta ausência re- do domínio. Já no presente es- presente estudo, tendo contri- dade pode diminuir custos ope-
presentava 12,64% das séries tudo, foram percorridas todas buído para melhor compreen- racionais e pode eliminar ruí-
temporais nos MGs e até as etapas do processo de KKD, são dos dados, bem como dos dos (Tan et al., 2005), aumen-
69,23% nos MEs (µ= 10,78 def inidas por Fayyad et al. resultados obtidos. tando a taxa de acer to. No

SEPTEMBER 2019 • VOL. 44 Nº 9 511


entanto, a alta dimensionalida- maior o seu valor, melhores (2007) também destacam van- vulnerabilidade. As contradi-
de neste estudo em específico, serão as previsões (Wang, et tagens dos MGs, principalmen- ções entre a previsão e os va-
não aumentou o custo opera- al., 2012). MAPE permite com- te se existirem fortes relações lores reais do índice podem
cional, pois se testou a possibi- parar modelos com dados dife- entre as séries temporais, o desencadear reflexões e auxi-
lidade de redução dimensiona- rentes (Passari, 2003). A com- que também ocorreu no pre- liar em tomadas de decisões
lidade, mas verificou-se que petição de Energia Global de sente estudo. para sustentação ou mudanças
não houve melhorias significa- Previsão de 2012 (GEFCOM, A análise de variância apon- políticas e econômicas, e tam-
tivas do tempo de resposta e 2012), utilizou o RMSE para tou diferenças significativas bém, justificar o cenário vivido
da DAC. Já a definição do al- avaliar os melhores modelos entre os MGs e MEs para a por um país ou pelo mundo.
goritmo, foi determinante no apresentados na competição. O previsão do IDH 2013. O mes-
custo operacional, pois alguns RMSE permite retornar a me- mo não ocorreu entre os mode- AGRADECIMENTOS
algoritmos ultrapassavam o dida original dos dados a partir los para previsão do IDH 2014,
tempo de processamento espe- da raiz do MSE (Passari, que não apresentaram diferen- O presente trabalho foi reali-
rado, e foram abor tados da 2003). Neste estudo, foram uti- ças significativas entre si. As zado com o apoio do Conselho
análise. lizadas todas as medidas de previsões confirmadas, referen- Nacional de Desenvolvimento
Entre as medidas de qualida- avaliação das previsões dispo- tes ao IDH 2013 apontaram Científ ico e Tecnológico
de das previsões, geralmente o níveis na API, observando-se que os resultados dos MGs não (CNPq), Brasil.
MSE é mais utilizado por re- suas propriedades discutidas na apresentam diferenças signifi-
sultar em valores na mesma literatura. No entanto, dadas as cativas dos valores reais, e ten- REFERENCES
escala dos dados. O RMSE e características do experimento, dem a se aproximar mais des-
MSE são muito populares, como utilização de variáveis tes que os resultados dos MEs. Abraham B, Chuang A (1989)
Outlier detection and time series
principalmente porque são mui- com uma única unidade de Na ocasião do término da modeling. Technometrics 31:
to empregados em modelagens medida, observa-se que apenas redação do presente manuscri- 241-248.
estatísticas (Hyndman e as medidas de qualidade DAC to, os dados do IDH 2014 ain- Alonso MA, Cruz AV, Barceló G
Koehler, 2006), mas são mais e MAE são suficientes para da não haviam sido divulgados. (2009) Pronóstico para la inyec-
sensíveis a outliers que outras avaliação das previsões do Por tanto, a conf ir mação ou ción de tenso-activos en pozos
medidas, como o MAE IDH. refutação das tendências apre- de petróleo a partir de uma me-
todología que integra técnicas de
(Passari, 2003; Hyndman e Em relação à eficiência do sentadas na presente investiga- inteligencia artificial y minería
Koehler, 2006). Ar mstrong modelo, Putsis (1998) e ção será realizada em estudo de datos. Interciencia 34:
(2001) apresenta uma lista de Lawrence et al. (2000) apon- subsequente. 703-709.
32 princípios para avaliar siste- tam que certas características A eficiência dos MGs pode Arinze B (1994) Selecting appropria-
maticamente o método de pre- do erro devem ser observadas. ser explicada implicitamente te forecasting models using rule
visão, não recomendando me- Segundo Putsis (1998), em um pelas interdependências e vul- induction. Omega 22: 647-658.
Armstrong JS (2001) Evaluating fo-
didas sensíveis a outliers. A modelo eficiente não deve exis- nerabilidade dos países aponta- recasting methods. Em
MAPE é sugerida como a me- tir correlação entre os erros de das pelo UNDP (2014). Armstrong JS (Eds.) Principles
lhor medida neste caso, por ser um período para outro, o que of forecasting. Springer. pp.
uma medida absoluta em por- indica que o modelo aprende Conclusão 443-472.
centagem do valor previsto, com os erros do passado. Esta Armstrong JS (2006) Findings from
além de possibilitar uma visão premissa foi obser vada nas As previsões de eventos com evidence-based forecasting:
Methods for reducing forecast
da amplitude do erro (Abraham duas categorias de modelos probabilidades de ocorrerem er ror. Int. J. Forecast. 22:
e Chuang, 1989; Passari, 2003). apresentados neste estudo, pois com base em históricos de sé- 583-598.
Já no caso de modelos que apesar da alta correlação entre ries temporais multivariadas ou Chatfield C (1995) Model uncertain-
respeitem limites de erro máxi- as séries temporais, observou- univariadas são cada vez mais ty, data mining and statistical
mo, o MAE é o mais indicado. -se que não existiam correla- comuns. inference. J. Roy. Stat. Soc. A
Tanto no MAE como no MSE, ções entre os erros das previ- Modelos desenvolvidos a 158: 419-466.
Chen C, Liu LM (1993a) Joint esti-
durante o somatório, um erro sões e entre erros de pontos de partir de séries temporais mul- mation of model parameters and
positivo não é anulado por um observações subsequentes. Para tivariadas, apesar de mais com- outlier effects in time series. J.
er ro negativo ou vice-versa Lawrence et al. (2000), a dis- plexos, se demonstraram mais Am. Stat. Assoc. 88(421):
(Passari, 2003). Peña e Sánchez tribuição dos erros deve ter precisos do que os modelos 284-297.
(2007) utilizam o MSE para uma forma próxima da normal. desenvolvidos a partir de séries Chen C, Liu LM (1993b) Forecasting
apresentar vantagens nos MGs Isto também foi verificado no univariadas, principalmente se time series with outliers. J.
Forecast. 12: 13-35.
em relação aos modelos univa- presente estudo, pois os valores existir alta correlação entre as Dubey S, Pandey R, Gautam S
riados, criando uma equação dos erros no treinamento dos séries temporais. (2014) Development of multime-
de previsibilidade da série tem- modelos foram submetidos e As séries temporais multiva- dia fuzzy based diagnostic ex-
poral na adoção de preditores aprovados no teste KS. No en- riadas possibilitam maior pert system for integrated disea-
multivariados ao invés de tanto, esta condição apontada aprendizagem dos algoritmos se management in chickpea. Int.
univariados. por Lawrence et al. (2000) com o aumento de diferentes J. Sci. Mod. Eng. 2(2): 16-20.
Fayyad U, Piatetsky-Shapiro G,
Estudos como de Greer também dependerá do número experiências históricas Smyth P (1996) From data mi-
(2003), para previsões direcio- de exemplos da série univariadas. ning to knowledge discovery in
nais de taxas de juros de longo temporal. A execução da MD respei- databases. AI Magaz. 17(3): 37.
prazo, e de Tang et al. (2014), Os MGs apresentaram me- tando todas as etapas do pro- Fox AJ (1972) Outliers in time se-
utilizam a DAC em seus estu- lhor desempenho que os MEs. cesso de K DD resultou em ries. J. Roy. Stat. Soc B 34:
dos, a qual fornece a correção No entanto, esta vantagem re- previsões de séries temporais 350-363.
Gargano ML, Raggad BG (1999)
da direção prevista, e também lativa do preditor multivariado com precisão satisfatória. Data mining-a powerful infor-
pode ser utilizada para avaliar pode ser muito diferente em O IDH é um índice robusto mation creating tool. OCLC
a precisão da previsão. Quanto cada país. Peña e Sánchez com grande previsibilidade e Syst. Serv. 15: 81-90.

512 SEPTEMBER 2019 • VOL. 44 Nº 9


GEFCOM (2012) Global Energy Kopanas I, Avouris NM, Daskalaki S warehousing. Decis. Supp. Syst. Silva L (2014) A feature engineering
Forecasting Competition 2012. (2002) The role of domain 33: 143-161. approach to wind power forecas-
Wind Forecasting. http://www. knowledge in a large scale data Palit AK, Popovic D (2006) ting: GEFCom 2012. Int. J.
kaggle.com/c/GEF2012-wind- mining project. Em Vlahavas IP, Computational intelligence in Forecast. 30: 395-401.
forecasting/details/evaluation Spyropoulos CD (Eds.) Proc. 2nd time series forecasting: theory Smola AJ, Schölkopf B (2004) A
(Cons. 02/11/2014). Hellenic Conf. on AI: Methods and engineering applications. tutorial on support vector re-
Greer M (2003) Directional accuracy and Applications of Artificial Springer. 371 pp. gression. Stat. Comput. 14:
tests of long-term interest rate Intelligence. Springer. Passari AFL (2003) Exploraçao de 199-222.
forecasts. Int. J. Forecast. 19: Alemanha. pp. 288-299 Dados Atomizados para Tan PN, Steinbach M, Kumar V
291-298. Lawrence M, O'Connor M, Previsao de Vendas no Varejo (2005) Introduction to Data
Hofmann M, Tierney B (2003) The Edmundson B (2000) A field Utilizando Redes Neurais. Tese. Mining. Addison-Wesley
involvement of human resources study of sales forecasting accu- Universidade de São Paulo. Longman. Boston, MA, EUA.
in large scale data mining pro- racy and processes. Eur. J. Brasil. 143 pp. 978 pp.
jects. Em Proc. 1st Int. Symp. on Operat. Res. 122: 151-160. Peña D, Sánchez I (2007) Measuring Tang L, Yu L, He K (2014) A novel
Information and Communication Lloyd JR (2014) GEFCom2012 hie- the advantages of multivariate data-characteristic-driven mode-
Technologies. Dublin, Irlanda. rarchical load forecasting: vs. univariate forecasts. J. Time ling methodology for nuclear
pp. 103-109. Gradient boosting machines and Ser. Anal. 28: 886-909. energy consumption forecasting.
Hong T, Han I (2002) Knowledge- Gaussian processes. Int. J. Appl. Energy 128: 1-14.
Pentaho (2014) Time Series Analysis
based data mining of news in- Forecast. 30: 369-374. U NDATA (2014) Human
and Forecasting with Weka.
formation on the Internet using Mangalova E, Agafonov E (2014) Development Index trends,
http://wiki.pentaho.com/display/
cognitive maps and neural net- Wind power forecasting using 1980 –2013. United Nations
DATAMINING/Time+Series+A
works. Expert Syst. Applic. 23: the k-nearest neighbors algo- Development Programme. http://
nalysis+and+Forecasting+with+
1-8. rithm. Int. J. Forecast. 30: d at a .u n.org / Do cu me nt Dat a .
Weka (Cons. 02/11/2014).
402-406. aspx?id=364 (Cons. 02/11/2014).
Hong T, Pinson P, Fan S (2014) Mannila H (1996) Data mining: ma- Putsis WP (1998) Parameter variation UNDP (1990) Human Development
Global energy forecasting com- chine learning, statistics, and and new product diffusion. J. Report (HDR) 1990: Concept
petition 2012. Int. J. Forecast. databases. Proc. 8th Int. Conf. on Forecast. 17: 231-257. and Measurement of Human
30: 357-363. Scientif ic and Statistical Rodrigues BD, Stevenson MJ (2013) Development. United Nations
Hyndman RJ, Koehler AB (2006) Database Management. IEEE Takeover prediction using fore- Development Programme. Press
Another look at measures of fo- Computer Society. USA. pp. 2-9. cast combinations. Int. J. OU. Nova York, EUA.
recast accuracy. Int. J. Forecast. Michalski RS, Kaufman KA (1998) Forecast. 29: 628-641. UNDP (2014) Human Development
22: 679-688. Data mining and k nowledge Santos CB (2015) Pesquisa. Previsão Report (HDR) 2014. Sustaining
Kadhim MA, Alam MA, Kaur H discovery: A review of issues de Séries Temporais. Previsão Human Progress: Reducing
(2014) A multi-intelligent agent and a multistrategy approach. do IDH 2013 e 2014. https://sites. Vulnerabilities and Building
for knowledge discovery in data- Em Machine Learning and Data google.com/site/celsobilynkie- Resilience. United Nations
base (MIAKDD): Cooperative Mining: Methods and vyczdossantos/home/pesquisas/ Development Programme. Press
approach with domain expert for Applications. Wiley. pp. 71-112. TabelaResultadosPrevis%C3%A OU. Nova York, EUA.
rules extraction. Em Huang DS Muirhead CR (1986) Distinguishing 3 o I D H 2 01 3 e 2 014 . Wang JJ, Wang JZ, Zhang ZG, Guo
(Ed.) Intelligent Computing outlier types in time series. J. htm?attredirects=0&d=1 (Cons. SP (2012) Stock index forecas-
Methodologies. Vol. 8589. Roy. Stat. Soc. B 48: 39-47. 15/04/2015). ting based on a hybrid model.
Springer. Suiça. pp. 602-614. Nemati HR, Steiger DM, Iyer LS, Shevade SK, Keer thi SS, Omega 40: 758-766.
Keogh E, Kasetty S (2003) On the Herschel RT (2002) Knowledge Bhattacharyya C, Murthy KRK Witten IH, Frank E (2005) Data
need for time series data mining warehouse: an architectural inte- (2000) Improvements to the Mining: Practical Machine
benchmarks: a survey and empi- gration of knowledge manage- SMO algorithm for SVM regres- Learning Tools and Techniques.
rical demonstration. Data Min. ment, decision support, artificial sion. IEEE Trans. Neural Netw. (2ª ed.) Kaufmann. San
Kknowl. Discov. 7: 349-371. intelligence and data 11: 1188-1193. Francisco, CA, EUA. 558 pp.

SEPTEMBER 2019 • VOL. 44 Nº 9 513

Você também pode gostar