Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO
O Índice de Desenvolvimento Humano (IDH) é um indica- multivariadas, correspondentes aos registros de IDH de 187
dor adotado pela Organização Mundial da Saúde para avaliar países, enquanto que os modelos específicos formam desenvolvi-
a qualidade de vida de uma determinada região. Sua previsão dos a partir de séries temporais univariadas, correspondentes
pode auxiliar no planejamento e tomada de decisões para ori- ao comportamento histórico individual do índice em cada país.
entação e defesa de políticas para melhorar o seu desenvolvi- As variáveis temporais utilizadas corresponderam aos perío-
mento. Este estudo fez a previsão do IDH de 2013 e 2014 a dos históricos e intermitentes de 1980 a 2013 publicados no
partir de técnicas de mineração de dados de previsão em séries relatório do Programa das Nações Unidas para o Desenvolvi-
temporais, perfazendo todas as etapas do processo de desco- mento em 24/07/2014. Na análise empírica verificou-se que os
berta de conhecimento em bases de dados. No estudo foi aval- modelos multivariados apresentaram as melhores medidas de
iada a capacidade preditiva de 376 modelos, dois genéricos e qualidade nas previsões. As previsões do IDH 2013 foram efi-
374 específicos por país. Para o desenvolvimento dos modelos cientes, não apresentando diferenças significativas dos valores
foi utilizado o algoritmo SMOReg, executado em uma aplicação publicados, enquanto as previsões do IDH 2014 dependem de
de interface de programação Forecast do ambiente WEKA. O comparação com os valores divulgados posteriormente à final-
modelo genérico foi treinado e testado com séries temporais ização do presente trabalho.
Introdução desenvolvimento, pois, somente ul Haq, Amar tya Sen, Paul A literat u ra oferece u ma
o desenvolvimento econômico Streeten e Keith Griffin criou o variedade de técnicas de pre-
Profissionais de desenvolvi- não conseguiria atender as ne- Índice de Desenvolvimento visão, entre elas destacam-se
mento humano, ao avaliarem cessidades básicas das camadas Humano (IDH), que vem sendo as previsões a partir de técni-
diferentes aspectos e consequ- mais pobres da população, utilizado pelo Programa das cas de mineração de dados
ências dos países em cresci- como água, eletricidade, saúde Nações Unidas para o (MD) aplicadas em sér ies
mento, perceberam que o de- e educação. Observou-se tam- Desenvolvimento (UNDP, do temporais.
senvolvimento não deve ser bém que em algumas áreas os inglês United Nations Develop- Diferentes estudos contem-
visto apenas como mera expan- indicadores sociais pioraram, ment Programme) para avaliar o porâneos de previsão utilizando
são do seu crescimento econô- enquanto o produto interno bru- desenvolvimento humano dos técnicas de MD foram desen-
mico (referencias). Desde os to (PIB) global apresentava ta- países filiados (UNDP, 1990). volvidos em diferentes áreas,
anos 1970, essa percepção cres- xas de crescimento significati- A previsibilidade do IDH entre elas, energia eólica
ceu, observando que os esforços vas. Estas críticas levaram à pode auxiliar em tomadas de (Mangalova e Agafonov, 2014;
investidos na industrialização e necessidade da criação de um decisões gover namentais, e, Silva, 2014), mercado financei-
crescimento econômico não indicador de desenvolvimento caso as expectativas não corres- ro (Rodrigues e Stevenson,
conduziram a uma redução con- humano. pondessem aos valores reais, 2013) e engenharia (Palit e
siderável da pobreza e das desi- Em 1990, um grupo de eco- poderá apoiar ou não medidas Popovic, 2006; Alonso, Cruz e
gualdades nos países em nomistas formado por Mahbub políticas ou econômicas. Barceló, 2009).
Celso Bilynkievycz dos Santos. G rossa, PR, Brasil. e-mail: Universidade Federal do UTFPR, Brasil. Bolsista CNPq,
Mestrado e Doutorado em En- bilynkievycz@uepg.br Paraná, Brasil. Doutorada em Brasil. e-mail: lapilatti@utfpr.
genharia da Produção, Uni- Bruno Pedroso. Mestrado em Ag ronomía, Universidade edu.br.
versidade Tecnológica Federal Engen har ia da Produção, Estadual Paulista Júlio de João Luiz Kovaleski. Mestrado
do Paraná (UTFPR), Brasil. UTFPR, Brasil. Doutorado em Mesquita Filho, UNESP, Brasil. em Ciências, UTFPR, Brasil.
Professor, Universidade Esta- Educação Física, Universidade Professora, U EPG, Brasil. Doutorado em Instrumentação
dual de Ponta Grossa (UEPG), Estadual de Campinas e-mail: alainemg@uepg.br Industrial, Université Joseph
Brasil. Endereço: Setor de (Unicamp), Brasil. Professor, Luiz Alberto Pilatti. Mestrado Fourier, França. Professor,
Ciências Biológicas e da UEPG, Brasil. e-mail: prof. em Educação, Universidade UTFPR, Brasil. Bolsista CNPq,
Saúde, U EPG. Av. General brunopedroso@gmail.com Metodista de Piracicaba, Brasil. Brasil. e-mail: kovaleski@
Carlos Cavalcanti, 4748. Alaine Margarete Guimarães. Doutorado em Educação Física, utfpr.edu.br.
Uvaranas 84030900. Pont a Mest rada em Infor mática, Unicamp, Brasil. Professor,
RESUMEN
El Índice de Desarrollo Humano (IDH) es un indicador multivariadas, correspondientes a los registros de IDH de 187
adoptado por la Organización Mundial de la Salud para eva- países, mientras que los modelos específicos se desarrollan a
luar la calidad de vida de una región determinada. Su pre- partir de series temporales univariadas, correspondientes al
visión puede ayudar en la planificación y toma de decisiones comportamiento histórico individual del índice en cada país.
para orientación y defensa de políticas para mejorar su desa- Las variables temporales utilizadas corresponden a los perío-
rrollo. Este estudio hizo la previsión del IDH de 2013 y 2014 dos históricos e intermitentes de 1980 a 2013 publicados en el
a partir de técnicas de minería de datos de previsión en series informe del Programa de las Naciones Unidas para el Desa-
temporales, incluyendo todas las etapas del proceso de des- rrollo el 24/07/2014. En el análisis empírico se verificó que los
cubrimiento de conocimiento en bases de datos. Se evaluó la modelos multivariados presentaron las mejores medidas de ca-
capacidad predictiva de 376 modelos, dos genéricos y 374 es- lidad en las previsiones. Las previsiones del IDH de 2013 fue-
pecíficos, por país. Para el desarrollo de los modelos se uti- ron eficientes, no presentando diferencias significativas con los
lizó el algoritmo SMOReg, ejecutado en una aplicación de in- valores publicados, mientras que las previsiones del IDH 2014
terfaz de programación Forecast del ambiente WEKA. El mo- dependen de comparación con los valores divulgados después
delo genérico fue entrenado y probado con series temporales de la finalización del presente trabajo.
FORECASTING THE HUMAN DEVELOPMENT INDEX OF 2013 AND 2014 BY MEANS OF DATA MINING
TECHNIQUES IN UNIVARIATE AND MULTIVARIATE TEMPORARY SERIES
Celso Bilynkievycz dos Santos, Bruno Pedroso, Alaine Margarete Guimarães, Luiz Alberto Pilatti and João Luiz Kovaleski
SUMMARY
The Human Development Index (HDI) is an indicator adopted series corresponding to the HDI records of 187 countries, while
by the World Health Organization to assess the quality of life of the specific models were developed from univariate time series
a given region. Its prediction can aid in planning and decision- corresponding to the individual historical behavior of the in-
-making for policy guidance and advocacy to improve its deve- dex in each country. The time variables used corresponded to
lopment. This study predicted the HDI of 2013 and 2014 from historical and intermittent periods from 1980 to 2013 published
forecasting data mining techniques in time series, completing all in the report of the United Nations Development Program on
stages of the knowledge discovery process in databases. In the 07/24/2014. In the empirical analysis it was verified that the mul-
study, the predictive capacity of 376 models, two generic and tivariate models presented the best quality measures in the pre-
374 country specific, were evaluated. For the development of the dictions. The predictions of the HDI 2013 were efficient, with no
models we used the SMOReg algorithm, executed in a Forecast significant differences to published figures, while the predictions
programming interface application of the WEKA environment. of HDI 2014 depend on comparison with figures released after
The generic model was trained and tested with multivariate time the completion of the present study.
A equipe de Silva (2014) de- bolsa de valores, de forma pre- Estudos de duas décadas dados (KDD, do inglês know-
senvolveu um modelo preditivo coce, empresas alvo de aquisi- atrás, como de Arinze (1994) ledge discovery in databases)
de potência em usinas de ener- ções ou fusão. Seus resultados já recomendavam algoritmos de (Fayyad et al., 1996) e envol-
gia eólica, utilizando os algo- apontaram melhor desempenho MD para aquisição de conheci- vendo bases de dados reais de
ritmos de MD Multiple linear individual dos modelos de mento, reduzindo a necessidade series temporais univariadas e
regression, GBM e K Means. RNAs em relação aos modelos de especialistas. No entanto, multivariadas, com índices de
Para o mesmo propósito, de RL. Mas as combinações estudos posteriores fazem jul- baixa variabilidade temporal e
Mangalova e Agafonov (2014) dos modelos superaram todos gamentos desfavoráveis à utili- baixa variância entre os perío-
combinaram métodos heurísti- os resultados. zação de técnicas de MD dos, mas com diferenças signi-
cos e formais, utilizando o al- Palit e Popovic (2006) fizeram (Chatf ield, 1995; Keogh e ficativas entre eles, aponta uma
goritmo CaRT (Classification a análise das séries temporais Kasetty, 2003; Ar mstrong, lacuna existente na literatura,
and regression tree) na seleção apresentando modelos e aplica- 2006). Keogh e Kasetty (2003) principalmente aplicando os
de fatores. ções de previsão em engenharia ainda criticam a falta de pes- algoritmos de aprendizagem
No estudo de Rodrigues e a partir de métodos matemáticos quisadores da área de MD para baseada em funções por meio
Stevenson (2013) foram utiliza- não convencionais da inteligên- testar métodos alternativos. de uma interface de programa-
dos modelos de redes neurais cia artificial (IA). Também, A inexistência de estudos de ção de aplicativos (API, do in-
artificiais (RNAs), regressão apresentaram taxonomia para MD, respeitando todas as eta- glês application programming
linear (RL) e combinações en- séries temporais, de acordo com pas do processo de descoberta interface) recentemente dispo-
tre ambos para identificar na suas características. de conhecimento em base de nibilizada para testes.
TABELA II
SÉRIES TEMPORAIS UTILIZADAS
Registros Características
Classe Quant. Nome Unidades Período Previsão Descrição
N % predominantes
Anual
Multivariada
IDH por
intermitente (4-13) (30,77-100) Não estacionárias; Índice de Desenvolvimento
país Anual µ=12,60 µ=90,00 Não sazonais; Humano de cada país filia-
Linear/Não Linear do a ONU
187 (1980-2013) IDH 2013 ±2,41 ±18,54
intermitente (5-14) (35,71-100)
TABELA III
DESCRIÇÃO ESTATÍSTICA DAS SÉRIES TEMPORAIS CORRESPONDENTES AO IDH
Estatística p/Período p/País
descritiva 1980 1990 2000 2005 2006 2007 2008 2009 2010 2011 2012 2013 1980-2013
Média 0,538 0,587 0,620 0,642 0,648 0,656 0,662 0,665 0,670 0,672 0,675 0,686 0,649
Desvio padrão 0,185 0,181 0,188 0,185 0,184 0,182 0,180 0,175 0,172 0,172 0,171 0,156 0,042
Contagem 111 132 152 169 164 166 167 175 187 187 187 187 11,606
NC (95,0%) 0,035 0,031 0,030 0,028 0,028 0,028 0,027 0,026 0,025 0,025 0,025 0,023 0,023
NC: Nível de confiança.
TABELA IV
CONFIGURAÇÃO DA APLICAÇÃO DE INTERFACE DE PROGRAMAÇÃO Forecast
Configurações do API Forecast
Básica Avançadas
Base de aprendizagem
Seleção alvo (algoritmos) Criação de defasagem Avaliação Saída
Conjunto de dados - Pais(es) Gaussian processes <Desligado> Ajustar para
Parâmetros least median squared; variação
Número de vezes de previsão linear regression; <Desligado> Uso de com-
(horizonte de previsão) = 1 multilayer perceptron; primentos de defasagens <Ligado> Avaliar du- <Ligado> Saída de
Carimbo de tempo <Ano> multilayerperceptronCS; personalizados rante o treinamento previsões futuras
Periodicidade <Anual> RBFNetwork; <Desligado> Seleção de no final da série
<Ligado> Intervalo de confiança RBFRegressor; defasagem da sintoniza-
<Ligado> Executar avaliação SMOReg ção fina
Figura 5. Dados reais (2013) e previsões dos modelos específicos e genéricos Figura 7. Previsão do IDH 2013 x IDH 2013 real a partir de séries tem-
para o IDH (2013 e 2014) dos países em desenvolvimento - IDH médio. porais multivariadas.
Discussão