Escolar Documentos
Profissional Documentos
Cultura Documentos
12
Abstract— This work verifies the feasibility of text A automatização do processo, esbarra em obstáculos no
classification using supervised machine learning method to campo sintático ou ruídos nos dados, e semântico –
promote the web news monitoring on factors that impact supply ambiguidade da linguagem e ausência de contexto. Estes
and demand for the coffee market. To this end, a device was obstáculos suscitam técnicas de Mineração de Dados
develop that enables the empirical evaluation of the Naive Bayes (Datamining) para extração de informação a partir de grande
method to sort news collected from the web according to the
categories: positive or negative to supply and to demand. The
volume de dados.
tests show the feasibility of Naive Bayes classifier to identify Entre as técnicas da Mineração de Dados estão:
factors that affect supply and demand in coffee market. classificação, previsão numérica, associação e agrupamento
(clustering). Segundo [2], uma tendência dos avanços em
Keywords— Textmining, Machine Learning, Coffee Market. Mineração de Dados é a Mineração Textual, que aplica as
mesmas técnicas para informação textual resultando em
funções para análise de texto. A técnica de classificação, neste
I. INTRODUÇÃO
contexto, é a tarefa de separar textos em classes pré-definidas.
Uma das abordagens para esta tarefa é o uso de algoritmos de
II. MINERAÇÃO TEXTUAL preço físico e o preço futuro. Essa diferença entre o preço da
Mineração Textual é uma área interdisciplinar com commodity no mercado físico, na praça local de
fundamentos teóricos da Estatística, Ciência da Computação e comercialização e o preço futuro para determinado mês de
Inteligência Artificial. Explora a descoberta e extração de vencimento do contrato no mercado futuro é denominado base
informação e conhecimento válido a partir de grande volume [16].
de dados textuais pela aplicação de métodos de Processamento Entretanto, o hedge não é uma operação trivial, há incerteza
de Linguagem Natural, Aprendizado de Máquina e quanto ao momento adequado para abertura e encerramento da
Recuperação da Informação. Promove a eficiência das operação e existe a volatilidade provocada por vários fatores,
organizações para coleta, processamento e análise de que vão desde boatos ou expectativas sobre o clima sem
informação [2] [6]. respaldo técnico científico [17] até a ação de especuladores.
A área foi impulsionada principalmente pela crescente Este cenário, exige atenção às mudanças nos fundamentos da
produção de textos na web. No campo digital faz uso de oferta e demanda [1].
técnicas para lidar com dados não estruturados ou semi- Estudos sobre volatilidade [18], [14], [15], [17], [19], [20] e
estruturados – dados não organizados em um modelo efetividade do hedge [21], [22] apontam que períodos
conceitual que facilita sua recuperação, como em um banco de específicos de alta volatilidade são explicados por eventos
dados. Estas técnicas incluem algoritmos para classificação, relacionados ao mercado, tais como: quebra de safra,
sumarização, identificação de entidades e text clustering. condições climáticas e adversidades para comercialização do
O estudo proposto neste trabalho refere-se a classificação de produto.
texto para organização de documentos. Esta tarefa tem como Conforme [17], [23] e [24] fatos relevantes sobre o mercado
objetivo classificar textos de acordo com categorias pré- de café são divulgados na mídia e a compreensão de eventos
definidas [7]. Quando existe um conjunto de dados que provocam volatilidade no preço do café e afetam a
previamente rotulados com as categorias a tarefa é dinâmica da sua cadeia produtiva é relevante para a tomada de
considerada supervisionada – os dados são utilizados para decisões. Portanto, o monitoramento de fatores que impactam
treinar algoritmos de aprendizado de máquina. oferta e demanda é uma tarefa estratégica para organizações
A classificação supervisionada é dividida em duas fases do setor.
distintas: treinamento e classificação. Na fase de treinamento, A análise de eventos é uma das tarefas para identificar
um algoritmo com a técnica específica é treinado com um tendências, estimativas de produção, consumo e outros
conjunto de textos previamente classificados. Na fase de fundamentos do mercado de café [23]. Na cafeicultura, [18]
classificação o algoritmo classifica novos textos de acordo apontam que notícias negativas sobre o mercado de café
com as categorias aprendidas na fase anterior. afetam diretamente a produção e contribuem, de forma
Estudos mostram que técnicas existentes alcançam expressiva, na volatilidade da base do produto. Além disso,
eficiência e precisão satisfatórias quando treinados em grades surtos de alta volatilidade têm duração limitada [17] e choques
conjuntos de dados [8], [3], [9]. O problema, conforme [10], é na base, positivos ou negativos, demoram um tempo
que em aplicações reais, os recursos humanos necessários para considerável para se dissiparem [18].
a produção manual da base de treinamento dificultam ou A partir da modelagem estatística da série de retorno diário
inviabilizam o processo. do café futuro na Bolsa de Mercadorias e Futuros do Brasil
O foco deste trabalho é o método Naive Bayes selecionado (BM&F), [24] observa assimetria a boas e más notícias e ao
principalmente pela sua simplicidade e eficácia [11] e analisar 15 picos de volatilidade do modelo da série, aponta
disponibilidade de ferramentas. Os métodos Bayesianos relevância para fatores relacionados à produção: ciclo bianual
(Naïve Bayes) constroem um modelo probabilístico baseado e eventos climáticos, reforçando que a volatilidade no
na ocorrência de palavras nas diferentes categorias. O mercado futuro é vulnerável a esses fatores.
algoritmo classifica o documento baseado na probabilidade [17] ressaltam que a incerteza gerada pela volatilidade ao
deste pertencer a determinada categoria conforme as palavras invés de incentivar a utilização de hedge para fixação de preço
presentes no texto [12]. em muitos casos afasta os agentes em função da dificuldade de
A definição das categorias para fase de aprendizado, bancar as diferenças de margens, que exigem um aporte
realizada pela equipe do BIC de acordo com a cadeia significativo de capital de curto prazo.
Assim, identificar e monitorar fatores que afetam oferta e
produtiva do café, é descrita na próxima seção.
demanda de café no mundo e entender sua relação com preço
e volatilidade representa vantagem competitiva para empresas
III. OFERTA E DEMANDA E GERENCIAMENTO DE do setor, à medida que auxiliar sobre o melhor momento de
RISCO NO MERCADO DE CAFÉ ajustar posições no mercado futuro para evitar flutuações de
Para produtores, exportadores e consumidores, a variação receitas, sabendo que efeitos na base duram um período
de preço no mercado de café afeta diretamente decisões de significativo.
comercialização associadas a gerenciamento de risco [13] [14]
[15]. Um dos mecanismos utilizados pelos agentes para o IV. DESIGN SCIENCE RESEARCH
gerenciamento de risco e proteção contra eventuais perdas
Por buscar entendimento sobre fenômenos criados pelo
diante da volatilidade do preço, é o mercado de derivativos,
homem (publicação de dados na web) com o uso de tecnologia
via operações de hedge [16], na qual troca-se o risco de
(Mineração Textual), para resolução de problema em um
variação do preço ao comercializar o produto exclusivamente
contexto específico (cafeicultura), esta pesquisa segue o
no mercado físico pelo risco de variação da diferença entre o
4770 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 12, DECEMBER 2016
paradigma Design Science pelo método Design Science especialistas, foi possível verificar o que é extraído da web,
Research. como o resultado deve ser classificado e o que é analisado
Design Science Research tem como objetivo estudar, para oferta e demanda.
pesquisar e investigar o artificial e seu comportamento sob a
perspectiva acadêmica e organizacional [25]. A ideia central Entendimento do Problema
do método é que a aquisição de conhecimento e a solução de O banco de dados utilizado neste trabalho é composto por
um problema acontecem pela construção e aplicação de um 3117 notícias em inglês, coletadas manualmente da web por
artefato: constructos, modelos, métodos, instanciações e especialistas do Bureau no período de 01/01/2011 a
aprimoramento de teorias existentes. 31/12/2015. São armazenados título, fonte, conteúdo e
Para [26], Design Science Research é a análise do uso e categoria que indica o setor da cadeia produtiva para o qual a
desempenho de artefatos projetados para compreender, notícia é relevante.
explicar e melhorar o comportamento de determinados Os relatórios são produzidos mensalmente, porém todo o
aspectos na área de sistemas de informação. processo é restrito a capacidade dos especialistas para coletar
O modelo adotado neste trabalho é adaptado do proposto de diversas fontes, ler e classificar as notícias relevantes, o que
por [26], com contribuições de [27], por ter suas raízes em consome tempo e recursos humanos. Nem sempre o número
Sistemas de Informação. Inclui 5 etapas: Entendimento do de notícias é suficientes o que pode comprometer a
problema, Sugestões, Desenvolvimento, Avaliação e abrangência do relatório. As notícias não são classificadas em
Conclusão. categorias específicas para monitoramento de oferta e
A investigação tem início pelo conhecimento de um demanda.
problema ou oportunidade de pesquisa na primeira etapa. Neste cenário, temos o problema enunciado como pergunta:
Deve-se identificar e compreender o problema a ser É possível auxiliar o monitoramento de oferta e demanda no
solucionado e definir qual desempenho necessário para o mercado de café por meio de Mineração Textual de notícias da
sistema em estudo. A saída desta etapa é uma proposta formal web?
ou não, com evidencias da situação problemática,
caracterização do ambiente externo e interação com o artefato, Sugestão
definição de métricas e critérios de validação do artefato [27]. O projeto para construção do protótipo (artefato) segue
Na etapa de sugestão são elaborados um ou mais modelos modelos tradicionais para extração de conhecimento [28],
de tentativa para a solução do problema a partir da existência [29], Business Intelligence [30], [31] e [32] e Sistemas
de conhecimento/teoria de base. Predomina o método abdutivo baseados em Mineração Textual para Inteligência Competitiva
que exige processo criativo e conhecimento prévio para [33], [34] e [35].
proposta de soluções [26]. A saída desta etapa são tentativas e O protótipo foi dividido por tarefas em 4 módulos:
suas comparações com o intuito de resolver o problema. supervisão, coleta, pré-processamento e classificação. O banco
Os artefatos propostos são construídos na etapa de de dados de notícias do BIC formou a base para treinamento
desenvolvimento, e avaliados na quarta etapa. Caso o artefato de algoritmo para classificar novas notícias extraídas pelo
seja inadequado durante as etapas de desenvolvimento ou módulo de coleta. Antes de iniciar processo, as notícias
avaliação, retorna-se à primeira etapa para revisão do existentes no banco de dados são classificadas manualmente
entendimento do problema. Este ciclo denominado através do módulo de supervisão.
circunscrição é fundamental para a construção incremental de Para identificar e monitorar notícias publicadas na web com
conhecimento. evidencias qualitativas que impactam oferta e demanda de
Na etapa de conclusão resultados são consolidados e café, as classes para classificação textual foram definidas
registrados e podem ser retroalimentados no processo já que juntamente com os especialistas do BIC. As classes são
pode-se concluir incompletude ou insuficiência da apresentadas na Tabela I, bem como a descrição e um exemplo
conscientização do problema comprometendo o desempenho de trecho que caracteriza cada classe.
do artefato. Neste processo é possível identificar lacunas na
teoria e recomeçar o processo. TABELA I
SEGMENTOS DA CADEIA PRODUTIVA DO CAFÉ
As etapas do método conduzidas nesta pesquisa foram
realizadas no Centro de Inteligência em Mercados com Classe Descrição Exemplo
profissionais do Bureau de Inteligência do Café (BIC). Oferta +
Evidências qualitativas que “Colombia coffee
indicam aumento de oferta production recovers”
“Drought might harm
V. ETAPAS DO MÉTODO Oferta -
Evidências qualitativas que
Uganda's coffee
indicam diminuição de oferta
O Bureau de Inteligência Competitiva do Café (BIC) é um harvest”
projeto do Centro de Inteligência em Mercados da “Lavazza announces
Evidências qualitativas que
Demanda + manufacturing facility
Universidade Federal de Lavras que utiliza dados da web para indicam aumento de demanda
in India”
auxiliar a produção de relatórios com delineamento de “Price of coffee may
Evidências qualitativas que
cenários para tomada de decisões no mercado de café. Uma Demanda -
indicam diminuição de demanda
give bigger jolt than
equipe, formada por especialistas, monitora notícias sobre o caffeine”
mercado diariamente, classifica as relevantes para a cadeia
produtiva do café e armazena em um banco de dados para O módulo de coleta é usado para recuperar notícias da web
produção de relatórios. Neste ambiente, juntamente com os por consulta de termos específicos em motores de busca. A
vantagem é ter uma ferramenta de busca amplamente utilizada
OLIVEIRA LIMA JÚNIOR et al.: APPLYING TEXTMINING 4771
[12] A. McCallum and K. Nigam, "A comparison of event models for naive [37] G. Holmes, A. Donkin, and I. H. Witten, "Weka: A machine learning
bayes text classification," in AAAI-98 workshop on learning for text workbench," in Intelligent Information Systems, 1994. Proceedings of the
categorization, 1998, vol. 752, pp. 41-48: Citeseer. 1994 Second Australian and New Zealand Conference on, 1994, pp. 357-361:
[13] Á. d. M. Barros and D. R. Aguiar, "Gestão do risco de preço de café IEEE.
arábica: uma análise por meio do comportamento da base," Revista de [38] C. Mattmann and J. Zitting, Tika in Action. Manning Publications Co.,
Economia e Sociologia Rural, vol. 43, no. 3, pp. 443-464, 2005. 2011.
[14] A. L. R. Mól, "Value-at-Risk da Base em Operações Vendidas de Hedge [39] M. Porter, "Snowball: A language for stemming algorithms," ed, 2001.
nos Contratos Futuros de Café Arábica na BM&F," Interface, vol. 5, no. 1, [40] F. d. R. N. Guimarães, "Descobrindo Padrões de Gêneros das Mensagens
2011. em Fóruns de Discussão de Ambientes Virtuais de Aprendizagem via
[15] C. M. Santos, T. A. Farias, F. R. de Moura, and R. S. Mateus, Mineração de Texto," Dissertação de Mestrado, Universidade Federal de
"MERCADO FUTURO DE CAFÉ: UM ESTUDO DE CASO," Registro Lavras, 2015.
Contábil, vol. 3, no. 1, pp. 62-84, 2012. [41] G. H. John and P. Langley, "Estimating continuous distributions in
[16] J. Hull, Fundamentos dos mercados futuros e de opções. Bolsa de Bayesian classifiers," in Proceedings of the Eleventh conference on
Mercadorias & Futuros, 2005. Uncertainty in artificial intelligence, 1995, pp. 338-345: Morgan Kaufmann
[17] R. Nunes, M. S. M. Saes, and J. A. Brando, "A volatilidade das cotações Publishers Inc.
de café nas bolsas internacionais," presented at the XLII Congresso da [42] R. G. Rossi, R. M. Marcacini, and S. O. Rezende, "Benchmarking text
SOBER, Cuiabá, 2004. collections for classification and clustering tasks," Institute of Mathematics
[18] E. S. Melo and L. B. Mattos, "Análise da volatilidade da base do café and Computer Sciences, University of Sao Paulo, 2013.
arábica para a mesorregião do sul de Minas Gerais DOI–10.5752/P. 1984-
6606.2012 v12n29p95," Revista Economia & Gestão, vol. 12, no. 29, pp. 124-
140, 2012. Paulo de Oliveira Lima Júnior é graduado em Ciência da
[19] J. M. Fry, B. Lai, and M. Rhodes, "The interdependence of coffee spot Computação pela Universidade Federal de Ouro Preto
and futures markets," International Network for Economic Research Working (UFOP), Ouro Preto, Minas Gerais, Brasil em 2000. Obteve o
Paper Series, Speyer, London, 2011. título de mestre em Computação Aplicada pelo Insituto
[20] Y. Zhang, "Forecasting of daily dynamic hedge ratio in agricultural and Nacional de Pesquisas Espaciais (INPE), São José dos
commodities’ futures markets: evidence from Garch models," University of Campos, SP, Brasil em 2002. Possui Doutorado em
Southampton, 2012. Administração pela Universidade Federal de Lavras na área de Gestão de
[21] R. E. Fontes, L. CASTRO JUNIOR, and A. F. Azevedo, "Base e risco de Negócios, Economia e Mercados. Atualmente é professor do Centro Federal
base da cafeicultura em Minas Gerais e São Paulo," Artigos Técnicos de de Educação Tecnológica de Minas Gerais no Departamento de Mecânica e
Derivativos Agropecuários. São Paulo, resenha BM&F, no. 153, 2003. Computação, Campus Nepomuceno, MG, Brasil. Suas principais áreas de
[22] A. R. Pavão, "Análise do comportamento da base do Café Arábica: um pesquisas são: Mercados de derivativos, Mineração Textual e Análise de
estudo de caso do Sentimento.
município de Alpinópolis – MG," presented at the CONGRESSO
BRASILEIRO DE ECONOMIA E Luiz Gonzaga de Castro Júnior é graduado em
SOCIOLOGIA RURAL, Campo Grande, 2010. Administração (1991) e Mestre (1995) pela Universidade
[23] G. F. de Abreu, E. C. Silva, L. G. de Castro Junior, and P. H. A. Santos, Federal de Lavras (UFLA), Lavras, Minas Gerais, Brasil.
"IDENTIFICAÇÃO DAS PRINCIPAIS TENDÊNCIAS PARA A Doutor em Economia Aplicada pela Universidade de São
PRODUÇÃO MUNDIAL DE CAFÉ," presented at the VIII Simpósio de Paulo, SP, Brasil em 1999. Atualmente é Professor da
Pesquisa dos Cafés do Brasil Salvador, BA, 2013. Universidade Federal de Lavras (UFLA), docente permanente
[24] C. M. F. Martins, "A volatilidade nos preços futuro do café brasileiro e do PPGA/UFLA, orientador de mestrado e doutorado.
seus principais elementos causadores," 2015. Coordenador do Centro de Inteligência em Mercados (CIM),
[25] N. Bayazit, "Investigating design: A review of forty years of design Pesquisador líder do Bureau de Inteligência Competitiva do Café,
research," Design issues, vol. 20, no. 1, pp. 16-29, 2004. Coordenador de projetos vinculados ao Instituto Nacional de Ciência e
[26] V. Vaishnavi and W. Kuechler, "Design research in information Tecnologia do Café (INCT-Café) e ao Polo de Excelência do Café (PEC
systems," 2004. Secretaria de Ciência e Tecnologia de Minas Gerais). Áreas de atuação:
[27] N. Manson, "Is operations research really research?," ORiON: The inteligência competitiva, comercialização, mercados de derivativos e gestão
Journal of ORSSA, vol. 22, no. 2, pp. 155-180, 2006. de custo.
[28] R. Moraes, J. F. Valiati, and W. P. Gaviao Neto, "Document-level
sentiment classification: An empirical comparison between SVM and ANN,"
Expert Systems with Applications, vol. 40, no. 2, pp. 621-633, Feb 1 2013. André Luiz Zambalde é graduado em Engenharia de
[29] M. Bramer, Principles of data mining. Springer, 2013. Telecomunicações pelo Intituto Nacional de
[30] H. Baars and H.-G. Kemper, "Management support with structured and Telecomunicações (INATEL), Santa Rita do Sapucaí, MG,
unstructured data—an integrated business intelligence framework," Brasil em 1984. Pós-graduado em Administração pela
Information Systems Management, vol. 25, no. 2, pp. 132-148, 2008. Universidade Federal de Lavras (UFLA), Lavras, MG, Brasil,
[31] R. Bose, "Advanced analytics: opportunities and challenges," Industrial em 1989, Mestre em Eletrônica pela Universidade Federal de
Management & Data Systems, vol. 109, no. 2, pp. 155-172, 2009. Itajubá (UNIFEI), Itajubá, MG, Brasil em 1991, Doutor em
[32] J.-Y. Wu, "Computational intelligence-based intelligent business Engenharia de Sistemas e Computação pela COPPE/UFRJ Rio de Janeiro, RJ,
intelligence system: concept and framework," in Computer and Network Brasil em 2000, possui Pós-Doutorado em Ciência da Computação pela
Technology (ICCNT), 2010 Second International Conference on, 2010, pp. Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, MG, Brasil,
334-338: IEEE. em 2005 e Pós-Doutorado em Sistemas e Tecnologias de Informação pela
[33] Y. Dai, T. Kakkonen, and E. Sutinen, "MinerVA: a decision support ISEGI-UNINOVA, Portugal, em 2010. Atualmente é professor da
model that uses novel text mining technologies," in Management and Service Universidade Federal de Lavras (UFLA) nos Departamentos de Computação e
Science (MASS), 2010 International Conference on, 2010, pp. 1-4: IEEE. Administração. Pesquisador nas áreas de Universidade e Inovação, Gestão do
[34] Y. Dai, T. Kakkonen, and E. Sutinen, "MinEDec: a decision-support Conhecimento e Inovação, Sistemas de Informação e Informática Aplicada,
model that combines text-mining technologies with two competitive Estratégia e Governança de Negócios e TI.
intelligence analysis methods," International Journal of Computer
Information Systems and Industrial Management Applications, vol. 3, pp.
165-173, 2011.
[35] Y. Dai, T. Kakkonen, E. Arendarenko, D. Liao, and E. Sutinen,
"MOETA: a novel text-mining model for collecting and analysing competitive
intelligence," International Journal of Advanced Media and Communication,
vol. 5, no. 1, pp. 19-39, 2013.
[36] S. M. Weiss, N. Indurkhya, T. Zhang, and F. Damerau, Text mining:
predictive methods for analyzing unstructured information. Springer, 2010.