Você está na página 1de 88

CURSO DE CINCIA DA COMPUTAO

Osmar Maciel Rehbein

Trabalho de Concluso II

MINERAO DE TEXTO APLICADO ANLISE DE CARTEIRA DE AES

Santa Cruz do Sul, dezembro de 2012

Osmar Maciel Rehbein

MINERAO DE TEXTO APLICADO ANLISE DE CARTEIRA DE AES

Trabalho de concluso apresentado ao Curso de Cincia da computao da Universidade de Santa Cruz do Sul para obteno do ttulo de Bacharel em Cincia da Computao.

Orientadora: Prof. Dr. Rejane Frozza

Santa Cruz do Sul, dezembro de 2012

RESUMO

Este trabalho apresenta a utilizao de tcnicas de minerao de texto para anlise de uma carteira de aes, auxiliando investidores na escolha de compra e venda de aes de empresas de capital aberto. Analisou-se profundamente o histrico, a estrutura e o funcionamento de uma Bolsa de Valores, observando o que faz os preos das aes oscilarem. Foram estudadas tcnicas de minerao de texto observando os tipos de abordagem de dados e tomando como foco as trs fases da minerao: Preparao dos dados, Processamento dos dados e Ps-

processamento. Com o estudo desses dois assuntos distintos, objetivou-se a elaborao de um sistema capaz de coletar informaes textuais sobre as empresas que compem uma carteira de aes diretamente de notcias publicadas na Internet e comentrios do Twitter, no momento em que elas ocorrem. Os textos coletados passam por um processamento abstraindo a orientao semntica da notcia, classificando-a como positiva, neutra ou negativa. A sumarizao dessas classificaes ir representar a tendncia de subida ou descida do valor das aes da empresa analisada. O objetivo principal do sistema disponibilizar um ambiente simplificado, onde os investidores possam analisar os dados coletados e processados, observando os grficos com valores atuais da bolsa e a sua tendncia, auxiliando em uma deciso segura e criando confiana no sistema.

Palavra-Chave: Minerao de texto; Extrao de informao; Mercado de Capitais; Anlise de investimento.

ABSTRACT

This paper presents the use of text mining techniques to analyze a stock portfolio, helping investors in the choice of buying and selling shares of publicly traded companies. The history, structure and functioning of a stock exchange were deeply analyzed, noting what makes stock prices fluctuate. We studied text mining techniques observing the types of data approach and focusing three stages of mining: data preparation, data processing and post analysis. From the study of these two different issues, we aimed at the elaboration of a system that can collect textual information about the companies that comprise a portfolio of shares directly from news published on the Internet and / or Twitter comments at the moment they occur. The texts collected will undergo an orientation process abstracting the semantics of the news, classifying them in positive, neutral or negative. The summarization of these classifications will represent the trend of increase or decrease of the value of the shares of the analyzed company. The main objective of the system is to provide a simplified environment where investors can analyze the data collected and processed, looking at the graphs with current values of the stock market and tables that show the current trend, making a good decision and building confidence in the system.

Key-words: Text Mining, Extraction of Information, Market Capital, Investment Analysis.

LISTA DE TABELAS

Tabela 1 Tipos de opes. ..................................................................................... 15 Tabela 2 - Passos de execuo do mtodo Portuguese Stemmer............................ 41 Tabela 3 - Tabela de relacionamento em um thesaurus ........................................... 44 Tabela 4 - Tabela de Stop Words.............................................................................. 58 Tabela 5 - Tabela de Palavras com sua respectiva orientao ................................. 60 Tabela 6 Tabela de empresas monitoradas ........................................................... 74 Tabela 7 Nmero de textos coletadas .................................................................... 75 Tabela 8 Quantidade palavras Classificadas ......................................................... 75 Tabela 9 Exemplificao do clculo PMI ................................................................ 77 Tabela 10 Resultados obtidos da empresa OGX ................................................... 78 Tabela 11 Resultados obtidos da empresa Marfrig ................................................ 79

LISTA DE FIGURAS

Figura 1 - Exemplo de pgina da Mega Bolsa........................................................... 21 Figura 2 - Modelo Genrico das Etapas de Minerao de Textos............................. 35 Figura 3 - Passos do algoritmo de radicalizao ....................................................... 42 Figura 4 - Tabela de converso dos termos em atributos ......................................... 44 Figura 5 - Sistema de minerao proposto ............................................................... 51 Figura 6 Base de um arquivo RSS Feed Google Notcias .................................. 55 Figura 7 Endereo dinmico, passando PETROBRAS como parmetro. ............ 56 Figura 8 Destaque do texto de uma pgina coletado atravs do Parser HTML. .. 57 Figura 9 Diagrama 1 da base de dados utilizada. .................................................. 62 Figura 10 Diagrama dois da base de dados utilizada. ............................................ 63 Figura 11 Diagrama trs da base de dados utilizada. ............................................ 64 Figura 12 SMPreview, mostrando os radicais identificados. .................................. 65 Figura 13 SMPreview, mostrando os radicais com o valor da orientao: -1.95. ... 66 Figura 14 SMPreview, mostrando a arquitetura e tecnologias envolvidas ............. 67 Figura 15 SMPreview, interface exibindo os grficos. ............................................ 67 Figura 16 SMPreview, interface exibindo os grficos. ............................................ 68 Figura 17 SMPreview, Oscilao Bolsa X Oscilao Notcias................................ 70 Figura 18 SMPreview, interface com tabela de textos. .......................................... 70 Figura 19 SMPreview, interface exibindo o texto coletado. .................................... 71 Figura 20 SMPreview, interface exibindo o texto processado. ............................... 72 Figura 21 Grfico sem deslocamento da orientao (14 acertos). ......................... 80 Figura 22 Grfico com 1 dia de deslocamento da orientao (10 acertos). ........... 81 Figura 23 Grfico com 2 dia de deslocamento da orientao (9 acertos). ............. 81

LISTA DE ABREVIATURAS

ON PN CATS ABO BOVESPA

Ordinria Nominativa Preferenciais Nominativas Computer Assisted Trading System Agncia Bovespa de Operaes Bolsa de Valores do Estado de So Paulo

BM&FBOVESPA Bolsa de Valores, Mercadorias e Futuros CVM IFR MT PLN PMI RI VSM SRI EC FD API HTML XML Comisso de Valores Mobilirios ndice de fora relativa Minerao de texto Processamento de Linguagem Natural Pointwise mutual information Recuperao de Informao Vectorial Space Model Sistema de Recuperao de Informao Extrao de Caractersticas Frequncia de documentos Application programming interface Hyper Text Markup Language eXtensible Markup Language

SUMRIO

RESUMO .......................................................................................................... 3 ABSTRACT ....................................................................................................... 4 LISTA DE TABELAS ......................................................................................... 5 LISTA DE FIGURAS ......................................................................................... 6 LISTA DE ABREVIATURAS ............................................................................. 7 SUMRIO ......................................................................................................... 8 1 INTRODUO ............................................................................................. 11 2 MERCADO DE CAPITAIS ........................................................................... 14 2.1 Aes .................................................................................................... 14 2.1.1 Tipos de aes ................................................................................... 14 2.1.2 Motivos da existncia da Bolsa de Valores ........................................ 16 2.2 Bolsa de Valores ................................................................................... 16 2.2.1 Necessidades Bolsa de Valores ...................................................... 17 2.2.2 Objetivos ............................................................................................ 18 2.2.3 Estrutura organizacional..................................................................... 18 2.2.3.1 Prego ............................................................................................. 18 2.2.3.2 Tipos de Negociao ....................................................................... 19 2.2.3.3 Modalidades de Operaes ............................................................ 22 2.2.4 Corretoras .......................................................................................... 24 2.2.4.1 Atividades Bsicas .......................................................................... 25 2.2.5 Home broker....................................................................................... 26 2.3 ndices ................................................................................................... 27 2.3.1 ndice Ibovespa .................................................................................. 27 2.3.2 ndice de fora relativa (IFR) .............................................................. 28 2.3.3 Volume ............................................................................................... 28 2.3.4 Ibovespa futuro................................................................................... 28 2.3.5 IBX ndice Brasil .............................................................................. 29 2.3.6 Dow Jones ......................................................................................... 29 2.4 Anlises................................................................................................. 29

2.4.1 Oscilao da bolsa ............................................................................. 30 2.4.2 Anlise Fundamentalista .................................................................... 30 2.4.3 Anlise Tcnica .................................................................................. 31 2.4.3 Consideraes ................................................................................... 31 3 MINERAO DE TEXTO ............................................................................ 32 3.1 Tipos de Abordagens dos Dados .......................................................... 33 3.1.1 Anlise Semntica.............................................................................. 33 3.1.2 Anlise Estatstica .............................................................................. 34 3.2 Viso Geral da Minerao de Textos .................................................... 34 3.3 Preparao dos dados .......................................................................... 36 3.3.1 Recuperao de Informao (RI) ....................................................... 36 3.3.1.1 Modelo Booleano ............................................................................ 37 3.3.1.2 Modelo de Espao Vetorial (VSM Vectorial Space Model ).......... 38 3.3.1.3 Recuperao associada indexao. ............................................. 38 3.3.2 Anlise dos dados .............................................................................. 39 3.3.2.1 Stemming (Radicalizao) .............................................................. 39 3.3.2.2 Stopwords ....................................................................................... 42 3.3.2.3 Dicionrio ou Enciclopdia (thesaurus) ........................................... 43 3.3.2.3.1 Termos Compostos ...................................................................... 43 3.3.2.3.2 Relacionamento entre termos ...................................................... 43 3.3.3 Transformao dos dados em tabelas ............................................... 44 3.4 Processamento dos dados .................................................................... 45 3.4.1 Indexao ........................................................................................... 45 3.4.2 Extrao de Caractersticas (EC) ....................................................... 46 3.4.3 Sumarizao ...................................................................................... 47 3.5 Ps-Processamento .............................................................................. 47 3.6 Minerao de opinio ............................................................................ 48 3.7 Trabalhos Relacionados ........................................................................ 49 3.8 Consideraes ...................................................................................... 50 4 MINERAO DE TEXTO APLICADA ANLISE DE CARTEIRA DE AES ...................................................................................................................... 51 4.1 Metodologia ........................................................................................... 51 4.2 Aspectos de implementao ................................................................. 53 4.3 Desenvolvimento do sistema ................................................................ 54

4.3.1 Fonte de dados .................................................................................. 54 4.3.2 Coletando os Dicionrios (Thesaurus) ............................................... 58 4.3.3 Coletando Informaes sobre as empresas e cotaes ..................... 60 4.3.4 Clculo da orientao semntica ....................................................... 64 4.3.5 Sistema SMPreview ........................................................................... 66 4.4 Testes e Resultados.............................................................................. 73 4.4.1 Testes ................................................................................................ 74 4.4.2 Resultados ......................................................................................... 77 5 CONCLUSO .............................................................................................. 82 REFERNCIAS .............................................................................................. 85

11

1 INTRODUO

Prever o mercado acionrio mudaria a histria econmica e social, e por esse motivo, esta rea acaba atraindo muito a ateno do meio acadmico e dos negcios, levando seguinte questo: Ser possvel criar algum algoritmo ou alguma frmula para prever o perodo de aplicar seu dinheiro em alguma ao especfica e o momento de vend-la visando os melhores lucros? Toda a informao relevante est contida no preo, afirma Matsura (2006), falando da influncia da informao no preo das aes. Essa citao ser a base do trabalho, coletando informao e aplicando a anlise da tendncia. Em todas as ordens de compra e venda de aes da bolsa existe o envolvimento de pessoas, com expectativas e motivaes singulares influenciando na deciso. Somando cada investidor, tem-se uma quantidade enorme de pessoas apostando e isso acaba sendo a soma das decises do todo, resultando padres comportamentais, como ganncia e medo, euforia e pnico. Os padres podem ser detectados, a fim de sugerir situaes mais previsveis do mercado de aes. Segundo um estudo realizado por Charles Dow (co-fundador da Dow Jones & Company), no sculo XX, atravs do estudo dos ndices, foi identificado que o mercado segue tendncias existindo uma lgica nas oscilaes (MATSURA, 2006), (SANVICENTE e FILHO, 1988).

A todo o momento, novas pginas contendo textos so disponibilizadas na internet e, at pouco tempo, essas informaes no eram usadas para estabelecer vantagens competitivas ou mesmo como suporte tomada de decises, ou ainda, como indicador de sucesso ou fracasso. Com a chegada da minerao de textos, a extrao de informao em textos tornou-se possvel e necessria diante da grande quantidade de informaes despejada no mundo virtual (REZENDE, 2003).

12

Quando os preos de uma empresa do um salto pode ser em resposta a uma notcia de algum pronunciamento pblico sobre as possibilidades futuras da empresa. Como, por exemplo, quando uma empresa do ramo farmacutico declara que acaba de descobrir uma droga para a cura de resfriado comum, to logo os preos subiro baseando-se na recente boa notcia. Nesses casos, diz-se que o mercado est reagindo informao. Os investidores e ou analistas esto atentos aos fatores fundamentais que influenciam no valor da ao e, quando esses fatores mudam, logicamente muda o valor da ao. Caso essa mudana de valor no ocorra, pressupe-se que a informao da notcia j estava contida no preo da ao, a chamada hiptese do mercado eficiente (BODIE e MERTON, 2001).

A minerao de texto se encaixa perfeitamente na anlise de notcias publicadas na internet j que ela a descoberta e extrao do que interessante, o conhecimento no trivial de texto livre ou no estruturado. Este engloba, desde a recuperao da informao (recuperao em documento ou recuperao em site) para categorizao de texto ou agrupamento de texto (KAO e POTEET, 2007).

Com o aumento de despejo de informaes na Web e o surgimento de ferramentas de trocas de mensagem como o Twitter, criam-se oportunidades do desenvolvimento de sistemas com solues automticas para ajudar os usurios. Utilizar essas informaes de forma a obter vantagens a motivao principal deste trabalho.

A escolha das aes a serem investidas uma deciso complicada para quem quer investir na bolsa, pois envolve muitas variveis que implicam na mudana dos preos, o que acaba sendo de difcil previso para um investidor comum ou iniciante. Como exemplo, a instabilidade poltica um fator sistemtico que influencia negativamente os preos das aes (CAVALCANTE, 2005). Uma anlise dos fundamentos do valor de um ativo ser interessante e essencial nesse trabalho, j que essa anlise fundamentalista consiste em uma converso de todas as informaes que determinam o valor de uma ao (SANVICENTE e FILHO, 1988).

13

A minerao de texto um conjunto de tcnicas e processos que descobrem conhecimento inovador nos textos, esto aplicadas em diversas reas como gentica, marketing e o mundo dos negcios (REZENDE, 2003).

Como a informao textual est na Web e em sistemas de informao local como as intranets, a minerao de texto cada vez mais importante decorrente de vantagens competitivas. Um fator crtico para aplicaes de minerao de texto bem sucedido a capacidade de encontrar termos significativos para descobrir padres interessantes ou relacionamentos (SONG e WU, 2009).

Desta forma, a minerao de texto uma rea nova e interessante, que utiliza integrao de tcnicas e mtodos de minerao de dados, aprendizagem de mquina, processamento de linguagem natural, recuperao de informao e gesto do conhecimento.

O objetivo deste trabalho apresentar uma metodologia utilizando minerao de texto para anlise fundamentalista de carteira de aes, possibilitando ao investidor uma melhora na escolha de sua deciso de compra e venda de um ativo, a fim de maximizar seus lucros.

O presente trabalho est organizado da seguinte forma: Segundo captulo apresenta-se um estudo detalhado sobre a Bolsa de Valores, abordando o histrico, a estrutura e o funcionamento, observando o que faz os preos das aes oscilarem e as possveis anlises: tcnica e fundamentalista. No terceiro captulo ressaltam-se os tipos de abordagem de dados, descrevem-se os conceitos e as bases tericas sobre Minerao de texto, detalhando as trs fases que a compe: Preparao dos dados, Processamento dos dados e Ps-processamento. Alm disso, buscou-se uma tcnica de ps-processamento (Minerao de Opinio) dentro da minerao de texto como aquisio do conhecimento dos textos minerados. Ainda no terceiro captulo destacam-se os trabalhos estudados e relacionados no escopo do presente trabalho, dando uma viso geral de cada um. No quarto captulo so descritas a metodologia utilizada, a arquitetura proposta e os resultados do desenvolvimento do presente trabalho. Por fim, apresenta-se a concluso.

14

2 MERCADO DE CAPITAIS

O mercado de capitais um ambiente em que se pode negociar o capital das empresas. Nesse mercado, pode-se negociar tanto as aes como seus derivativos, que so ttulos derivados de aes, como, por exemplo, opo de compra e venda e contrato futuro (DEBASTIANI, 2011).

Os principais ttulos negociados nesse mercado so os representativos do capital de empresas que so as aes ou de emprstimos tomados por essas empresas, via mercado, servindo para custear o desenvolvimento econmico. Assim, a empresa no fica presa a sua gerao de lucros, mas tambm aos investimentos de seus novos investidores (CAVALCANTE, MISUMI E RUDGE, 2009).

2.1 Aes

Uma ao a menor parcela do capital social de uma empresa, podendo a empresa ser sociedade annima, sociedade por aes ou uma companhia. Quem possui aes dessas empresas detm o direito na participao dos lucros em quantia proporcional quantidade de aes em seu poder. Uma ao no tem prazo para ser resgatada e pode ser negociada em mercados organizados como as bolsas de valores. Sendo uma ao negociada diariamente, esta tem um alto nvel de oscilao no preo. Os preos das aes podem aumentar se o interesse de compra aumentar, ou diminuir caso o contrrio (CAVALCANTE, MISUMI E RUDGE, 2009).

2.1.1 Tipos de aes

Os cdigos, apresentados na tabela1, complementam a identificao de uma ao para os investidores.

15

Tabela 1 Tipos de opes.

O Ordinrias P Preferenciais N Nominais

= Aes com direito a voto.

= Aes com preferncias na distribuio dos resultados.

= Presume-se a propriedade para aquele que constar no Livro Registro das Aes Nominativas; transferncia feita mediante registro no Livro de transferncias das Aes Nominativas.

E Escriturais

= Dispensam a emisso de ttulos de propriedade. Circulam e se transferem mediante extrato dos bancos depositrios.

Fonte: CAVALCANTE, MISUMI E RUDGE, 2009. No Brasil, as empresas podem ser encontradas em dois tipos de aes venda na bolsa de valores:

Aes ON (Ordinrias Nominativas): so aes que do direito de voto aos seus proprietrios nas assembleias de acionistas, ou seja, permitindo ao que tem posse das aes, que possa opinar sobre o rumo dos negcios da empresa. A opinio ser equivalente quantidade de aes da empresa em sua posse. (DEBASTIANI, 2011) e (CERBASI, 2009).

Aes PN (Preferenciais Nominativas): ao contrrio das aes ordinrias, so aes que no do direito de voto nas assembleias de acionistas aos donos dessas aes, mas do prioridade (preferenciais) nos pagamentos de proventos de dividendos e juros. Os donos das aes PN ganham mais lucros por ao em relao aos que apenas possuem aes do tipo ON (DEBASTIANI, 2011) e (CERBASI, 2009).

Existem diferenas de preo entre aes PN e ON, isso se refletindo a preferncia dos investidores s aes PN por elas pagarem proventos.

16

2.1.2 Motivos da existncia da Bolsa de Valores

Se a empresa precisa de capital para aplicar no crescimento e na modernizao a mdio e longo prazo, correr para emprstimos bancrios no seria uma boa soluo, j que os juros cobrados por esses bancos so muito elevados, tornando-se uma soluo de alto custo (PIAZZA, 2007).

Lanar uma empresa na Bolsa de Valores uma boa estratgia e alternativa para arrecadar fartos fundos e a maneira pela qual a empresa fica livre dos altos juros dos bancos e financeiras. O comprador dessas aes se torna um pequeno novo scio da empresa, j que est investindo dinheiro prprio em sua estruturao. Conforme a empresa de capital aberto vai dando lucro, este acaba sendo repassado para o investidor proporcionalmente porcentagem das aes sobre a empresa.

Nesse processo, por um lado s empresas ganham, pois elas se expandem, conquistam novos mercados e aumentam seu faturamento e, por outro lado, os acionistas lucram com a empresa.

2.2 Bolsa de Valores

No existe uma definio clara sobre o surgimento da bolsa. O que se sabe que a origem bastante remota, sendo que alguns escritores relatam que a origem so os emporium dos gregos e outros nos collegium mercatorum dos romanos (OLIVEIRA, SOARES E LOPES, 1986).

A Bolsa de Valores surgiu naturalmente com o agrupamento de oferta e compra de produtos com valores comerciais. J para o nome bolsa no sentido comercial e financeiro existe uma hiptese que tenha vindo do nome de um senhor nobre Van der Burse da cidade flamenca de Bruges, que em seu escudo de armas estampado no alto da casa apresentava trs bolsas desen hadas. A palavra burse ficou conhecida a partir daquela poca (sculo XIII) como reunio e local onde uma reunio acontece, pois nessa casa realizavam-se assembleias de comerciantes (BARRETO FILHO, 1959), (OLIVEIRA, SOARES E LOPES, 1986).

17

Outra hiptese a origem a partir de uma tradio em Firenze, cidade da Itlia, onde se escolhia um lder colocando os votos em um saco borsa dei cittadini" (MENDONA, 1961).

A primeira Bolsa de Londres que se tornou a mais importante do mundo no sculo 16 foi baseada na bolsa de Anturpia de 1531. No Brasil, as bolsas de valores foram criadas no sculo 19, j com o trabalho de corretoras e controladas pelo Estado (EIZIRIK, 1987).

A Bolsa de Valores do Rio de Janeiro teve sua origem em 1848 com a criao da Junta dos Corretores de Fundos Pblicos da Corte. A bolsa de Fundos Pblicos de So Paulo e de Santos foi criado em 24 de dezembro de 1896 (MENDONA, 1961).

Foi a partir das reformas que institucionalizaram o sistema financeiro nacional, iniciadas em 1964, que as Bolsas de Valores assumiram as caractersticas que hoje possuem (OLIVEIRA, SOARES E LOPES, 1986).

Na evoluo, as bolsas sempre foram comerciantes ou associaes de corretores, tendo como funo a negociao de mercadorias e ttulos.

2.2.1 Necessidades Bolsa de Valores

O motivo ao surgimento do mercado de capitais se deu pela necessidade de gerir negociaes de sociedade, pois os que investiam nas empresas em certa altura no tinham mais a mesma opinio sobre esta empresa que possuam, ou viam possibilidades melhores em outras empresas, ou at mesmo precisavam do dinheiro investido (DEBASTIANI, 2011).

Ao decidirem que no queriam mais possuir uma frao de uma empresa especfica, decidindo abandonar a sociedade, os investidores no podiam simplesmente entregar essa frao e pedir o dinheiro de volta para a empresa. Para

18

tanto, necessitavam encontrar outro scio ou investidor que estivesse interessado em aumentar a sociedade na empresa e vender a sua parte correspondente ao novo investidor. Torna-se complicado fazer transaes de mercado dessa forma. Com essas negociaes que surgiu o mercado de aes e as bolsas de valores suprindo necessidades de compra e venda de aes.

2.2.2 Objetivos

de competncia da Bolsa de Valores garantir aos investidores a manuteno das seguintes atividades (MELLAGI FILHO, 1998): Manter um local adequado para que os investidores possam negociar seus ttulos e valores imobilirios, fornecendo a eles toda a estrutura administrativa para que as transaes de compra e venda possam se realizar. Fiscalizar o cumprimento das normas e disposies legais que regem o mercado de aes. Toda a atividade da bolsa monitorada pela Comisso de Valores Imobilirios, tendo como objetivo principal o bom funcionamento do mercado de capitais, alm de zelar pela lisura das negociaes com aes e disseminar as informaes mais relevantes a maior parte dos investidores que for possvel.

2.2.3 Estrutura organizacional

Nesta seo ser abordado o que uma Bolsa de Valores deve suportar, citando desde a sua estrutura fsica at os tipos de servios que ela deve suportar.

2.2.3.1 Prego

Como j foi citado anteriormente, a principal funo da Bolsa de Valores garantir um local adequado, onde acontecem as negociaes de compra e venda de aes. Este local conhecido como Prego (MELLAGI FILHO, 1998).

19

Seria o lugar fsico e/ou virtual em que as negociaes de aes so concretizadas por vendedores e compradores fechando a ao em um determinado preo. Neste local, que todos os investidores ficam sabendo ao mesmo instante das informaes que podem influenciar o preo da ao.

A preocupao principal do prego referente partilha das informaes. Essa preocupao para no favorecer pessoas que esto mais bem informadas em relao s menos informadas, no levando vantagem sobre as negociaes.

Pode-se destacar que esse cuidado faz com que a manipulao diminua consideravelmente e tambm que a formao de preo nesse mercado definida pela lei da oferta e da procura.

2.2.3.2 Tipos de Negociao

Nesta seo, sero citadas as trs formas existentes para realizar um negcio, ou seja, a maneira como um investidor pode interagir na Bolsa de Valores: Viva Voz: o prego que sempre deu charme para as bolsas e que deu para as pessoas (pblico) uma imagem de que investir na Bolsa de Valores era uma louca jogatina. Mas segundo SMARRITO (2007), essa prtica teve fim em 30 de setembro de 2005 quando foi tocada a ltima vez a campainha que todo dia indicava o incio e o fim do prego viva-voz. J naquela poca as operaes desse tipo correspondiam a menos de 0,2% de todas as operaes da bolsa.

A Bovespa, por exemplo, j teve mais de 1000 operadores comprando e vendendo aes atravs do viva-voz e quando este sistema foi aposentado, os operadores que atuavam ao vivo no passavam de 40. Dessa forma, foi introduzido um sistema com negociaes totalmente centralizadas, denominado de Mega Bolsa eliminando o prego viva-voz (SMARRITO, 2007). Prego Eletrnico Mega Bolsa: Teve incio em 1990 pelo CATS (Computer Assisted Trading System) que trabalhava paralelamente ao prego viva

20

voz desde 1997. O Mega Bolsa foi implantado e utilizado pela Bolsa de Valores de So Paulo, consolidando a bolsa como um centro de referncia de negcios de mercado em toda a Amrica Latina (DESCHATRE, 2009).

A Mega Bolsa gerencia as negociaes realizadas pelas intermedirias atuantes na Bovespa, no prego de viva-voz e atravs dos terminais remotos, operados diretamente de seus escritrios (CAVALCANTE, MISUMI E RUDGE, 2009).

Nesse sistema eletrnico, todas as ofertas de compra e venda so feitas por terminais de um computador. A efetivao do negcio feita automaticamente pelos computadores da Bovespa.

A Mega Bolsa foi planejada para atender o aumento do mercado acionrio brasileiro e as exigncias da globalizao. Sistemas como a Mega Bolsa so usadas pelas maiores bolsas do mundo controlando em torno de 60% de negociaes mundiais.

Todas as negociaes hoje so realizadas na Mega Bolsa. A realizao de negociaes de compra e venda no pode ocorrer diretamente por um cliente, uma vez que este deve estar cadastrado em uma corretora credenciada (DESCHATRE, 2009). Na figura 1, pode-se observar a pgina da Mega Bolsa, trazendo cotaes em tempo real das empresas de mercado aberto, sendo possvel efetivar negociaes das aes.

21

Figura 1 - Exemplo de pgina da Mega Bolsa

Fonte: DESCHATRE, 2009

After-Market: a sesso noturna de negociao eletrnica depois que o prego principal fecha (SMARRITO, 2007). Para ampliar o acesso, a Bovespa criou o After-Market. Com isso, ela conseguiu aumentar o horrio das negociaes do prego eletrnico, que passou a funcionar aps das 18 horas at 22 horas com a finalidade de atender o Home Broker (CAVALCANTE, MISUMI E RUDGE, 2009).

Para garantir o fluxo das informaes e a segurana das informaes, foram adotadas as seguintes regras: As aes so negociadas pelo sistema Mega Bolsa. S podem ser negociadas aes no mercado vista. Somente aes com base de preo estabelecido no horrio regular de negociao (prego diurno) no perodo After-Market (princpio de liquidez).

22

O limite de ordens de R$ 100.000 por investidor. Pode variar apenas 2% o preo das ordens de compra comparado ao valor de fechamento das aes no horrio de mercado aberto. De 15 em 15 minutos controlado o limite operacional de cada corretora.

As transaes realizadas no After-Market so agrupadas em dois segmentos para controlar o limite mximo de quantidade de negcio. Isso informado diariamente pela Bovespa, indicando as aes autorizadas em cada grupo sendo feito atravs da ABO Agncia Bovespa de Operaes.

Os papeis mais lquidos tem um limite de quantidade por negcio fixado como um percentual da mdia diria registrada nos ltimos 30 preges. Os demais tm um limite de quantidade por negcio determinado em 50%. Os ndices da Bovespa so calculados com base nos ndices de fechamento do dia anterior.

2.2.3.3 Modalidades de Operaes

A Bolsa de Valores, Mercadorias e Futuros (BM&FBOVESPA) nasceu em maio de 2008 com a juno da Bolsa de Mercadorias & Futuros e da Bovespa Holding, com essa juno se tornaram uma das maiores bolsas do mundo em valor de mercado oferecendo negociao de aes, contratos futuros, de opes, a termo e de swaps referenciados em ndices, taxas de juro e cmbio, e commodities agropecurias e de energia, alm de operaes no mercado vista, como ouro, dlar pronto e ttulos pblicos federais (BOVESPA, 2011).

As negociaes podem acontecer de diversas maneiras na Bolsa de Valores:

Vista: Nesta modalidade, tem-se a compra e a venda de lotes padronizados de aes (lotes de unidade, 100, 1000, 10000 e 100000 aes) executadas a um preo estabelecido em um determinado instante da sesso de prego ou atravs de um sistema eletrnico de prego.

23

Quando uma negociao acontece em seu segundo dia a corretora do vendedor entrega as aes (Liquidao Fsica) e no terceiro dia a corretora do comprador paga o valor e recebe as aes.

Quando uma negociao tende a no acontecer, no terceiro e quarto dia em que a entrega est atrasada, paga-se uma multa. No quinto dia a bolsa autoriza a corretora do comprador a recomprar a ao. Do quinto ao stimo dia o prazo para a corretora do comprador recomprar as aes em prego com o valor debitado corretora do vendedor. No oitavo dia o prazo final para a corretora que compra as aes confirmar a execuo da recompra. E no nono dia, se no tiver sido feito a compra, reverte-se a operao (CAVALCANTE, MISUMI E RUDGE, 2009).

Segundo BOVESPA (2011), a liquidao fsica (entrega de ttulos vendidos) se processa no 3 dia til aps a realizao do negcio na Bolsa e a liquidao financeira (pagamento e recebimento do valor da operao). Tambm se d no terceiro dia til posterior negociao, e somente mediante a efetiva liquidao fsica.

Termo: O preo de compra ou venda da ao fixado com a data de liquidao variada. Por exemplo, entre dois investidores, eles negociam o preo da ao e o prazo limite de quando vo trocar efetivamente o dinheiro pelas aes resultando um contrato. Essa liquidao tende a acontecer entre 30 e 180 dias segundo (CAVALCANTE, MISUMI E RUDGE, 2009), sendo sempre dias mltiplos de 30; j BOVESPA (2011), diz que operaes com prazos de liquidao diferidos ocorrem entre 16 e 999 dias corridos.

Para fazer negociaes no mercado a termo, deve haver registro na BM&FBOVESPA. Alm disso, o comprador e vendedor devem ter

independentemente um limite mnimo para transao e depsito de valores na BM&FBOVESPA. Esse limite utilizado como margem de garantia da operao a qual podem ser liquidada antes do vencimento.

24

Operao a prazo: O mercado a prazo um mecanismo de crdito operado pelos clientes e suas corretoras. Isso na verdade uma operao extra bolsa, j que a corretora que empresta dinheiro ao cliente para que ele possa comprar aes ou emprestar aes para serem vendidas. Essas aes ou dinheiro que so usadas nessas operaes podem ser da prpria corretora como podem ser de outros clientes da corretora ou de bancos. Como garantia o cliente que pega o emprstimo deve ter depositado na corretora 140% do valor do financiamento.

Opes: Nesse mercado no existe negociao de aes, mas os direitos sobre compra e venda. Existe a opo, o direito de uma parte comprar ou vender a outra parte, at determinada data.

2.2.4 Corretoras

Sua origem se deu na antiguidade em que cada cidade ou estado possua uma moeda, sendo que trabalhavam como cambistas trocando as moedas entre as cidades/estados. Como existiam viajantes e a vida deles era complexa, j que existiam tantos tipos de moeda, os mesmos procuravam os cambistas para efetuar as trocas. Os cambistas por sua vez tiravam uma pequena margem de lucro atravs dessa troca (CAVALCANTE, MISUMI E RUDGE, 2009).

No Brasil, o corretor de fundos pblicos j havia sido reconhecido desde os tempos de imprio. Na repblica, o corretor de pessoa fsica com carter ofcio pblico vitalcio era nomeado pelo Presidente da Repblica e referenciado pelo Ministrio da Fazenda tendo que ter condies especiais para exercer o cargo.

Membros da Bolsa de Valores, constitudas por sociedades annimas ou por quotas de responsabilidade limitada, as sociedades corretoras como tambm as instituies financeiras foram institudas pela Lei nmero 4.728 extinguindo a figura do corretor de fundos pblicos (OLIVEIRA, SOARES E LOPES, 1986). Os objetivos dessas transformaes foram diversos: Terminar a vinculao do corretor ao Estado, em termos de serventurio.

25

Submet-lo ao regime da lei comercial. Permitir uma fiscalizao direta das atividades das corretoras estaduais. Igualdade de condies legais para todo territrio de ttulos nacional, o que no acontecia no sistema antigo.

Dessa forma, federalizaram-se as atividades de corretoras, assim como houve federalizao da Bolsa de Valores. Essa ampliao das atividades trouxe uma compensao financeira s corporaes corretoras bem mais vantajosa. As sociedades esto sujeitas s normas do Conselho Monetrio, Banco central e CVM1.

2.2.4.1 Atividades Bsicas

Objetivos e atividades das corretoras so (OLIVEIRA, SOARES E LOPES, 1986): Ter exclusividade para operar a Bolsa de Valores em todas as Modalidades de Operaes citadas nesse trabalho. Comprar, vender, distribuir ttulos e valores mobilirios por conta de terceiros. Formar e gerir, como lder ou participante, consrcios para oferta pblica, como tambm a compra ou revenda de ttulos e valores mobilirios e ainda fazer a distribuio desses ttulos no mercado de capitais. Administrar as carteiras de valores e da custdia de ttulos e valores mobilirios. Transferir e autenticar endossos, desdobramentos de cautelas, recebimento e pagamento de resgates, juros ou dividendos de ttulos e valores mobilirios. Subscrever ttulos e valores mobilirios, prestando servios tcnicos para estes. Por motivao de terceiros, executar funes de agente fiducirio.

CVM - Comisso de Valores Mobilirios. Em http://www.cvm.gov.br/

26

Operar em contas correntes juntamente com os acionistas, no movimentveis por cheques, administrar os recursos de terceiros que so destinados a operaes mobilirias e financiar a liquidao das operaes realizadas por conta dos seus comitentes.

Realizar o lanamento de ttulos e valores imobilirios tanto pblicos como privados. Administrar fundos mtuos de investimento sob a forma de condomnio aberto, bem como clube de investimento, com a finalidade de coletar e aplicar dinheiro em ttulos e valores mobilirios.

Administrar fundos de investimento em forma de sociedade annima de capital autorizado, para a aplicao em ttulos e valores mobilirios. Intermediar operaes de cmbio e negociao das respectivas letras. Operar em open market2 e overnight3, desde que especificamente credenciada pelo Banco Central do Brasil. intermediar operaes no mercado de commodities4.

2.2.5 Home broker

Basicamente um canal de relacionamento entre corretoras e investidores por meio da internet. Seria como se o corretor estivesse na casa do investidor.

A Bovespa criou esse sistema para baratear os custos para o investidor e a corretora. Apesar dessa recente tecnologia a maioria das corretoras est aderindo nova forma de comunicao. Nesse sistema, as ordens de compra e venda so emitidas diretamente Bolsa de Valores via internet, sem a necessidade de um funcionrio da corretora intervir. Dessa forma, mesmo que as aplicaes sejam de pouco valor, a corretora v interesse j que o custo baixssimo. Esse novo sistema
2

Qualquer mercado sem local fsico determinado e com livre acesso negociao

(http://www.cescapi.com/guia/glossario_mercado.htm)
3

Operaes realizadas no open market por prazo mnimo de um dia, restritas a instituies

financeiras (http://www.bmfbovespa.com.br/pt-br/a-bmfbovespa/download/merccap.pdf)
4

Mercadorias, no sentido de grandes produtos, produtos primrios, como caf, algodo, metais no ferrosos, e outros, geralmente transacionado em bolsa

acar,

(http://economia.uol.com.br/glossario/index-c.jhtm)

27

est possibilitando que investidores de pequeno e mdio porte possam entrar no mundo das aes, pois, em funo do baixo custo, compensa a corretora abrir mercado para os pequenos investimentos. Antes era restrito a eles porque o custo a se fazer transaes era muito alto no compensando para a corretora os pequenos investidores O valor mnimo para se investir na bolsa R$ 100,00. Isso foi possibilitado atravs da insero dos Homebroker (LUQUET, 2008).

2.3 ndices

Segundo PIAZZA (2007), assim como o piloto de avio necessita saber a direo dos ventos para pilotar tranquilamente, o investidor necessita saber as condies reais do mercado antes de tomar qualquer iniciativa de compra ou venda. Uma das formas de faz-lo observar os ndices e indicadores, atentando para os mecanismos que servem para sugerir um caminho de subida ou descida da bolsa, aumentando as chances do investidor acertara aplicao.

Os ndices cumprem trs objetivos principais (CAVALCANTE, MISUMI E RUDGE, 2009): So indicadores de variao de preos do mercado. Servem de parmetros para avaliao de performance de portflios. So instrumentos de negociao no mercado futuro.

Existem diversos indicadores de mercado, cada um expressando um ngulo particular e cada investidor tendo preferncia por um ou outro, conforme a confiana sobre o indicador, com a possibilidade de mesclar mais de um ndice para reforar os resultados.

2.3.1 ndice Ibovespa

o ndice da Bolsa de Valores de So Paulo que nada mais que uma carteira imaginria de aes e mede a lucratividade se um investidor possusse tais papeis na carteira (LUQUET, 2008) e (PIAZZA, 2007). Esse ndice teve incio em 2

28

de janeiro de 1968, com o valor definido em 100 pontos e o aumento ou diminuio desses pontos significa a tendncia geral dos preos das aes negociadas na bolsa.

A carteira fictcia composta por mais de 50 papeis e cada ao integrante recebe um peso em pontos que varia conforme a liquidez (grau de facilidade que uma ao ou imvel vira dinheiro vivo novamente). De quatro em quatro meses os papeis da Ibovespa so trocados para melhor representar o mercado de aes, e por este motivo que vem sendo usado como indicador. Atualmente vem funcionando como referncia para o mercado financeiro brasileiro.

2.3.2 ndice de fora relativa (IFR)

O IFR usado na anlise tcnica, acreditando-se que indica quando o mercado tende a trocar de tendncia. Esse ndice mede a acelerao dos movimentos. Utiliza-se uma escala de 0 a 100, e se a escala estiver acima de 80 o mercado est prximo de um topo e tende a cair. J quando abaixo de 20 est perto do fim da queda e tende a subir novamente. Segundo PIAZZA (2007), isso muito fcil de observar na prtica e que a maioria dos grficos de aes j vem com esse ndice visvel.

2.3.3 Volume

tambm um importante indicador de mercado. Se os movimentos do mercado estiverem em aclive, o volume indica a permanncia ou fora dessa tendncia. O contrrio, ou seja, a diminuio do volume indica que a inverso da tendncia pode estar prxima ao fim.

2.3.4 Ibovespa futuro

Segundo Piazza, (2007) o Ibovespa futuro um dos ndices vistos como mais confiveis pelos investidores, pois ele sente primeiro os impactos das notcias e antecipa o que se espera para o mercado vista.

29

2.3.5 IBX ndice Brasil

O IBX um ndice de lucratividade que calculado pela Bovespa. Criado em 28 de dezembro de 1995 e divulgado em 02 de janeiro de 1997 tem seu rebalanceamento atualizado de quatro em quatro meses.

O critrio de entrada na IBX so as aes mais negociadas que o nmero de negcios e o volume financeiro apurados nos 12 meses anteriores reavaliao. O ndice calculado conforme a quantidade de aes disponveis no mercado para serem negociadas. Outro ponto em que o ndice sofre atualizao na distribuio de proventos, isso no apenas reflite nas variaes das cotaes, mas na distribuio dos proventos. O IBX avalia o retorno do total das aes que compem uma carteira (CAVALCANTE, MISUMI E RUDGE, 2009).

2.3.6 Dow Jones

Conforme Piazza (2007), Dow Jones o ndice americano e ele representa para o mundo o que o Ibovespa representa para o Brasil. Uma movimentao considervel nesse ndice tambm reflete nos ndices mundiais. Uma dica analisar com frequncia esse ndice para diminuir os riscos de investimento.

Dow Jones foi iniciado por Charles Henry Dow (1851-1902) e hoje se fala de uma teoria (teoria Dow) que nunca foi escrita academicamente, mas serviu para descobrir que as cotaes no seguem uma trajetria aleatria, mas obedece a tendncias gerais estabelecidas pelo mercado acionrio como um todo (LEITE, 1995).

2.4 Anlises

Nesta seo, sero apresentadas as bases para fazer um investimento, tentando descobrir o que faz um ativo oscilar abordando as tcnicas usadas para

30

fazer a anlise de nossos investimentos. O que ser tratado nessa seo ser de suma importncia para o decorrer da evoluo desse trabalho.

2.4.1 Oscilao da bolsa

Observando-se afundo o mecanismo de compra e venda de papeis na Bolsa de Valores, nota-se que o que realmente faz os preos oscilarem (volatilidade) a alta ou a baixa da quantidade de compradores e vendedores, respectivamente, ou seja, se muitas pessoas estiverem interessadas em comprar aes da EMBRAER (Empresa Brasileira de Aeronutica S.A.), consequentemente o nmero de compradores ser maior que os vendedores. Os poucos vendedores, observando que a procura por seus papeis alta, acabam s vendendo por preos mais altos e isso vai alavancando o valor da ao. O contrrio tambm acaba acontecendo, sendo que se a procura for menor o preo acaba caindo (PIAZZA, 2007).

O movimento citado acima vai sendo observado durante todo um prego em que os preos vo oscilando tentando chegar num ponto de equilbrio. Para tentar explicar o que faz um investidor aplicar em uma determinada ao, ser abordado dois modelos de anlise: fundamentalista e tcnico.

2.4.2 Anlise Fundamentalista

Para Piazza (2007), este tipo de anlise nos diz que os papeis devem ser analisados conforme os fundamentos da empresa, como por exemplo, a relao preo/lucro, lucro lquido, grau de endividamento, o patrimnio lquido, o pagamento de endividamentos, entre outros. Estes fatores so capazes de dar um diagnstico sobre a sade financeira da empresa. Costumam afetar fortemente os invest idores fundamentalistas as notcias sobre possveis fuses ou venda da empresa.

A viso para o analista fundamentalista a que se der para visualizar um futuro prspero para a empresa, ento as aes sobem; caso contrrio o papel tende a desvalorizar.

31

2.4.3 Anlise Tcnica

o estudo das oscilaes de preos passados para prever o futuro dos movimentos dos preos. Atravs das anlises grficas que so tomadas as decises de compra e venda das aes. Esse tipo de anlise do comportamento de preo e de volume negociado bastante utilizado no mercado de aes e futuros sendo que o analista no se preocupa com os fatores externos, apenas confia na tendncia do mercado demonstrada no grfico (MELLAGI FILHO, 1998).

2.4.3 Consideraes

Como no escopo desse trabalho tem-se a inteno de auxiliar investidores nas negociaes do mercado de capitais, um estudo detalhado sobre este mercado se torna fundamental para a obteno de resultados satisfatrios na elaborao do presente projeto.

Neste captulo, estudou-se detalhadamente a Bolsa de Valores abordando o histrico, compreendendo o porqu de sua existncia e como as empresas a utilizam para obter recursos financeiros quando esto com projees de crescimento, j que no recorrem a um banco, o que seria uma soluo bvia para muitos. Estudou-se a estrutura e o funcionamento, observando o que faz os preos das aes oscilarem, j que essa a questo essencial para a elaborao da soluo proposta atravs deste trabalho. Com as anlises fundamentalista e tcnica, compreendeu-se como os especialistas de investimento se apoiam para tomar uma deciso de negociao na Bolsa de Valores. A anlise fundamentalista se encaixa perfeitamente no projeto do presente trabalho, j que as notcias sobre a empresa da carteira de aes influenciam os preos e isso observado nessa anlise.

32

3 MINERAO DE TEXTO

Os mais diversos textos que so produzidos por empresas e pessoas so gravados em meios eletrnicos e muitas dessas informaes so disponibilizadas na internet. At recentemente essas informaes em texto no eram utilizadas para provocar vantagem sobre concorrentes ou at mesmo auxiliar nas tomadas de deciso, ou ainda, como indicador de sucesso e fracasso. As mudanas comearam a aparecer com surgimento e crescimento da Minerao de Texto, j que isso torna possvel a extrao de informao em meio ao imenso e crescente mundo dos textos (REZENDE, 2003).

Considerada uma rea da minerao de dados, conforme Feldmann e Sanger, (2007), comparando a funcionalidade com a minerao de dados, a minerao de textos tambm tende a abstrair conhecimento til utilizando textos explorando textos e identificando padres usando de meios computacionais.

Com o crescimento do volume de textos eletrnicos, as tcnicas automatizadas de extrao de conhecimento fazem-se necessrias para valorizar essa imensa quantidade de dados. Como a Minerao de Dados possui tcnicas especficas para dados estruturados, a Minerao de Texto vem propor tcnicas especficas para dados no estruturados.

A minerao de texto refere-se a tcnicas e processos que descobrem conhecimento inovador nos textos. Essas tcnicas esto sendo empregadas em diversas reas, como por exemplo, para descobrir fatos da gentica e na pesquisa de protenas e tambm no mundo de negcios com aplicaes no to pretensiosas, como a categorizao automtica de mensagens de correio eletrnico em bancos de investimento e a extrao automtica de resumos a partir de documentos

33

pesquisados, realizada por alguns mecanismos de busca na internet (REZENDE 2003).

3.1 Tipos de Abordagens dos Dados

Existem duas formas principais de abordagem de dados, anlise semntica que tem a base na funcionalidade dos termos nos textos, e a anlise estatstica que baseada na frequncia. Segundo Rezende (2003) essas abordagens podem ser usadas sozinhas ou em conjunto parta fins de anlise.

3.1.1 Anlise Semntica

Possui fundamentos da PLN (Processamento de Linguagem Natural) e emprega tcnicas que avaliam a sequncia dos termos no contexto da frase, para a correta identificao da funo de cada termo permitindo compreenso da linguagem natural. A utilizao dessa anlise se d pela melhora da qualidade de Minerao de texto. Dentro das tcnicas de PLN, podem ser destacadas (RICH, KNIGTH, 1993): Anlise Morfolgica: Palavras isoladas so analisadas em termos de seus componentes, e os sinais, como a pontuao, separada das palavras. Anlise Sinttica: Sequncias lineares de palavras so transformadas em estruturas que mostram como as palavras esto relacionadas entre si. Algumas sequncias de palavras podem ser rejeitadas se violarem as regras da linguagem sobre como as palavras podem ser combinadas. Por exemplo, o analisador sinttico do portugus rejeitaria a frase: Menino o vai loja . Anlise Semntica: As estruturas criadas pelo analisador sinttico recebem significado. Em outras palavras, um mapeamento feito entre as estruturas sintticas e os objetos no domnio da tarefa. As estruturas para as quais no seja possvel um mapeamento podem ser rejeitadas. Por exemplo, na maioria dos universos, a frase Ideias verdes sem cor

34

dormem furiosamente seria rejeitada considerada semanticamente anmala. Integrao de discurso: O significado de uma frase isolada pode depender das frases que a antecedem e pode influenciar os significados das frases que vm depois dela. Por exemplo, a palavra aquilo na frase Joo queria aquilo depende do contexto do discurso anterior, enquanto a palavra Joo pode influenciar o significado de frases posteriores (como: Ele sempre quis). Anlise Pragmtica: A estrutura que representa o que foi dito reinterpretada para determinar o que realmente se quis dizer. Por exemplo, a frase Voc sabe que horas so? deve ser interpretada como uma solicitao para que sejam informadas as horas.

3.1.2 Anlise Estatstica

A frequncia dos termos considerada nessa anlise, sendo que com o uso dessa tcnica fica-se livre do idioma, ou seja, tem como princpio a verificao da ocorrncia do termo no texto, onde, o grau de significncia do termo analisado calculado com base apenas na contagem dentro do documento, o que possibilita a anlise independentemente do idioma (REZENDE, 2003).

3.2 Viso Geral da Minerao de Textos

Nesta seo, apresenta-se o processo de minerao de texto dando uma viso geral sobre o assunto, com objetivo de facilitar e orientar na compreenso do processo. No haver aprofundando em cada tarefa, sendo que isso ser feito na seo 3.3 deste trabalho.

Existem diversas formas para se realizar minerao de texto, mas basicamente essas formas seguem etapas comuns. Para SULLIVAN, (2001) e REZENDE, (2003) as etapas para promover minerao de texto abrangem atividades de pr-processamento de dados, processamento de dados e ento a anlise dos resultados.

35

Figura 2 - Modelo Genrico das Etapas de Minerao de Textos. Fonte: SULLIVAN, 2001

Observando-se a figura 2, possvel compreender todo o procedimento. Comeando com disponibilizao de documentos nos mais diversos meios eletrnicos.

Para REZENDE (2003), o processo de preparao dos dados, que o prprocessamento, envolve trs tarefas. Primeiramente, acontece RI (Recuperao de Informao), aps, Anlise dos Dados e por fim Transformao dos Dados.

Na fase de pr-processamento a recuperao de informao a primeira tarefa a ser executada, j que filtram inicialmente as colees de documentos que vo ser utilizados na minerao atravs de tcnicas como o modelo booleano e do espao vetorial e probabilstico, que sero detalhados na seo 3.3.1.

Na prxima etapa, acontece a anlise dos dados com a finalidade de facilitar o reconhecimento de similaridades das palavras. Sendo assim, dentro dessa etapa pode-se reconhecer e eliminar as stopwords (palavras no necessrias ou com pouca relevncia para serem analisadas nos textos). Nesse conjunto, pode-se encontrar as preposies, pronomes, artigos, entre outros. Outro processo que pode acontecer nessa etapa o de stemming (identificao da raiz de palavras) com o objetivo de realizar posteriormente anlise semntica. possvel a utilizao de um thesaurus (enciclopdia) como um vocabulrio controlado que representa

36

sinnimos, hierarquias e relacionamentos associativos entre termos para ajudar a descobrir conhecimento.

Na etapa de processamento dos dados, so realizadas as tarefas de descoberta de conhecimento. A ltima etapa da minerao de textos o psprocessamento ou avaliao de resultados, que pode ser feita com base em mtricas, processos de visualizao e anlise qualitativa dos resultados por especialistas (PINTO, 2007).

3.3 Preparao dos dados

Esta etapa, alm de reduzir o tamanho dimensional dos dados, tem a funo de identificar similaridades a partir da morfologia ou dos significados dos termos. A primeira etapa para descobrir conhecimento em textos a preparao dos textos. Neste processo sero selecionados os textos que satisfazem e interessam. o trabalho inicial para tentar escolher o ncleo que melhor expressa o contedo dos textos. Pode-se descartar nesta etapa o contedo que no se considera importante (REZENDE, 2003).

3.3.1 Recuperao de Informao (RI)

Essa rea desenvolveu modelos para representar grandes colees de textos que so identificados atravs de tpicos especficos. Sendo que RI o primeiro passo para executar uma minerao de texto se tornando um grande filtro sobre um conjunto de documentos, se tornando bastante til, pois traz apenas os resultados de uma consulta especfica (REZENDE, 2003).

Existem dois modelos principais de recuperao que possuem estratgias de busca de documentos importantes para efetuar uma consulta ( query): booleano e vetorial, sendo que, dentro de cada um existem caractersticas prprias com o objetivo de melhorar o desempenho e o alcance de seus objetivos.

37

Os textos que formam a coleo que vai ser pesquisada, bem como a consulta que foi feita pelo usurio, so representados pelos seus termos. Sendo assim, cada documento representado por um conjunto de palavras-chave, denominadas de termo de indexao e no so todos os termos que representam um documento em seu contedo. Os termos que tm menor frequncia podem identificar conjuntos mais restritos. Os pesos associados a um ndice que do a importncia a ele. Considerando que ki um ndice e dj um documento, wij o peso associado a (ki,dj) que soma a quantidade de relevncia do ndice na descrio do contedo do documento, conforme especificado por BAEZA-YATES E RIBEIRONETO (1999).

3.3.1.1 Modelo Booleano

Nesse modelo define-se uma consulta como uma expresso booleana, ou seja, a recuperao de um documento representada por um conjunto de termo ndice formando uma query, os termos so ligados atravs dos operadores lgicos de Boole (OU, E, NO). Considera-se um documento como relevante

correspondendo consulta ou no correspondendo a uma consulta, no podendo ocorrer resultado parcial e, tambm, no existe ordenao nos resultados das consultas (PINTO, 2007).

Problemas comuns a esse modelo so citados por BAEZA-YATES E RIBEIRO-NETO (1999): Formulao de uma query adequada, isto , construir uma query selecionando os termos se o domnio no bem conhecido. O tamanho da sada no pode ser controlado. O resultado pode conter milhares de itens bem como nenhum. Alm disso, no se sabe o que foi deixado de fora da query, pois no existe o conceito comparao parcial. No possvel ordenar os resultados da busca, pois no existe grau de comparao.

38

Segundo PINTO (2007) possvel obter resultados melhores com esse modelo utilizando conjuntos difusos, atribuindo pesos aos termos, dividindo a consulta em classes e conceitos, trabalhando com proximidades dos termos entre si no documento e identificando mais precisamente que termos so melhores para definir uma consulta. 3.3.1.2 Modelo de Espao Vetorial (VSM Vectorial Space Model)

Segundo REZENDE (2003), tal modelo surgiu em funo de resolver problemas de representao de documentos utilizando representao geomtrica. Tambm utilizado para retornar documentos que iro satisfazer algum critrio. J para SALTON E MCGILL (1983), foi criado em funo da utilizao em um modelo de SRI (Sistema de Recuperao de Informao) chamado de SMART.

Nesse modelo o documento tem sua representao por um vetor de termos, sendo que o termo est associado a um valor, significando o quanto aquele termo importante para o documento. O termo tambm pode estar associado quantidade de vezes que se repete no documento. Cada vetor representando um documento est disposto como um ponto em um espao euclidiano termo dimensional sendo que cada palavra representa uma dimenso (REZENDE, 2003), (PINTO, 2007).

A similaridade entre dois documentos definida como a distncia entre os documentos representados como pontos no espao euclidiano ou como o ngulo entre os vetores. Documentos semelhantes tendem a se agrupar no modelo proposto (REZENDE, 2003).

3.3.1.3 Recuperao associada indexao

A maioria das ferramentas de RI utiliza tcnicas de indexao, tendo a capacidade de retornar textos mapeados com alta eficincia em meios a uma base de textos. Dentro dessas tcnicas de RI podem-se citar dois tipos de indexao (REZENDE, 2003) que sero mais bem abordados na seo 3.4.1:

39

Indexao de texto completo. Indexao por tags.

3.3.2 Anlise dos dados

Tcnicas conhecidas em Processamento de Linguagem Natural (PLN), como normalizao de variaes lingusticas, uma ferramenta muito til e importante para trabalhar a linguagem natural possibilitando abstrair os termos de um documento aos termos origens e, com isso, agrupar por similaridade variaes ortogrficas das palavras que se no tratadas seriam consideradas diferentes (DIAS, MALHEIROS, 2005).

Sabendo-se ento que uma palavra tem variantes morfolgicas, a anlise dos dados vem para facilitar a identificao de palavras similares. Como exemplo disso, cita-se a variao de um termo que pode possuir sufixos diferentes tratado pela tcnica de stemming. Outro exemplo que tratado nessa fase so as palavras sinnimas, sendo que morfologicamente so diferentes, mas o significado o mesmo (REZENDE, 2003).

3.3.2.1 Stemming (Radicalizao)

Radicalizao ou stemming a tcnica de associar as variaes de um termo para uma representao nica que o radical (stem) (ORENGO, 2001). J DIAS, MALHEIROS (2005) destacam que no igual raiz lingustica, mas permite que sejam tratadas variaes diferentes de uma palavra da mesma forma. Por exemplo, conector e conectores so basicamente iguais, mas sem passarem pelo tratamento de stemming iro ser tratados como palavras diferentes.

A maioria dos mtodos de radicalizao para lngua inglesa, mas possvel encontrar adaptaes para o portugus. DIAS, MALHEIROS (2005) diz que tradicionalmente se utiliza o radicalizador de Porter5, especfico para lngua inglesa. Mas por no apresentar bons resultados para a lngua portuguesa, apresenta
5

http://snowball.tartarus.org/algorithms/porter/stemmer.html

40

Portuguese Stemmer de Viviane Orengo e Christian Huyck em (ORENGO, 2011) como soluo do problema. A seguir so apresentadas algumas tcnicas com suas caractersticas (REZENDE, 2003):

Lovis: Executa em nico passo, removendo o sufixo mais longo encontrado na palavra dentro do passo. Sensvel ao contexto e que remove a combinao de 250 sufixos diferentes. Vrios sufixos, no entanto, no so contemplados nesse mtodo.

Porter: Consiste na identificao das diferentes inflexes referentes mesma palavra e sua substituio por um radical comum. Nesse mtodo tenta-se dar importncia a um termo pela identificao de suas variaes. Termos comuns com o mesmo radical tendem a ter o significado semelhante. Como exemplo disso, tem-se as palavras CONSIDERAR, CONSIDERADO, CONSIDERAO, CONSIDERANDO, em que removendo seus sufixos obtm-se o radical CONSIDER. No algoritmo de Porter remove-se 60 sufixos diferentes em uma abordagem multifsica, sendo que cada fase remove sucessivamente sufixos e promove alguma transformao no radical.

Stemmer S: um stemming mais simplificado sendo que apenas uns poucos finais de palavras so removidos: IES, ES, e S (com excees), mesmo que esse tipo de radicalizao no descobre muitas fuses, mas certos sistemas o utilizam por ser conservador.

Portuguese Stemmer: Mtodo adaptado lngua portuguesa, parecido com o mtodo de Porter, que considera as classes morfolgicas dos termos. Observando a figura 3, o mtodo executa os passos da tabela 2 e em ordem de listagem dentro do quadro para a remoo de sufixos. Cada passo representa um conjunto de regras, sendo que apenas uma dessas regras escolhida e usada. A regra eleita dentro do passo aquela que mais letras removem do termo. Por

41

exemplo, a remoo do sufixo de plural ES deve ser executada antes do sufixo de plural S. Na especificao do mtodo em ORENGO (2001), so definidas cento e noventa e nove regras, sendo que cada regra determina qual sufixo deve ser removido, o tamanho mnimo do radical restante e a expresso que substitui o sufixo eliminado. Alm disso, define-se uma lista de palavras em que as regras no se aplicam (Exceo). Por exemplo, para inho: padrinho, vizinho. Nesse caso, inho no representa sufixo diminutivo.

1 2 3 4 5 6 7 8

Reduo do plural Reduo do feminino Reduo do advrbio Reduo do aumentativo e do diminutivo Reduo das formas nominais Reduo das terminaes verbais Reduo da vogal temtica Remoo dos acentos
Tabela 2 - Passos de execuo do mtodo Portuguese Stemmer

Fonte: ORENGO, 2001

42

Figura 3 - Passos do algoritmo de radicalizao

Fonte: ORENGO, 2011

3.3.2.2 Stopwords

So termos encontrados em textos e no possuem informao relevante, servem apenas para fazer ligao entre os termos importantes. Segundo Dias, Malheiros (2005), esses termos so compostos pelas seguintes classes gramaticais: artigos, preposies, conjunes, pronomes e advrbios.

O objetivo principal da remoo de stopwords eliminar palavras que no tm importncia para o texto, sendo considerada uma tcnica de compresso de texto, pois diminui a quantidade de palavras a serem processadas, bem como reduz a quantidade de armazenamento na base de dados.

43

3.3.2.3 Dicionrio ou Enciclopdia (thesaurus)

um vocabulrio controlado representando sinnimos, hierarquias e relacionamentos associativos entre palavras que ajudam o usurio a encontrar o que est procurando.

Esse mtodo vem ao encontro dos problemas referentes forma como os usurios montam uma query de busca em ndices de linguagem natural, em que montam a mesma query com palavras ou termos diferentes. Para tanto, um dicionrio ou enciclopdia mapeia para um termo distinto os termos variantes, podendo ser sinnimos, abreviaes, acrnimos e ortografias alternativas. Para processos de indexao de documentos, o thesaurus informa que termos-ndices devem ser usados reforando a importncia da indexao.

Com esse mtodo, pode-se representar a riqueza dos relacionamentos associativos e hierrquicos. Os usurios podem expressar a necessidade de informao a um nvel de especificidade mais restrito ou mais amplo que o usado pelo indexador para descrever os documentos. Os mapeamentos de

relacionamentos hierrquicos endeream esse problema (REZENDE, 2003).

3.3.2.3.1 Termos Compostos

Existem dicionrios que utilizam termos compostos nos casos de palavras que esto sempre juntas expressando um conceito nico. So termos que ao estarem unidos possuem um significado diferente que cada termo possui quando esto separados (LOPES, 2004). Como exemplo de termo composto, a expresso cadeira de rodas.

3.3.2.3.2 Relacionamento entre termos

Observando a tabela 3, dentro de um dicionrio possvel encontrar relacionamento de hierarquia, equivalncia e associao.

44

O relacionamento hierrquico, baseado em graus ou nveis de superordenaro, representando uma classe ou um todo, sendo denotado como Termo Amplo e sub-ordenao e referindo-se aos membros ou partes de uma classe, sendo denotado como termo restrito.

Relacionamento Equivalncia Hierarquia Associao

Indicador Sinnimos Termo Amplo e Restrito Termo relacionado


Tabela 3 - Tabela de relacionamento em um thesaurus

Fonte: LOPES, 2004

3.3.3 Transformao dos dados em tabelas

Para se utilizar os dados vindos dos textos comum distribuio do texto em tabelas, permitindo a aplicao em diversas tcnicas de desenvolvimento para dados estruturados.

Aps a aplicao das tcnicas de anlise dos dados, tem-se um conjunto de dados reduzido (bag of words, ou melhor: saco de palavras), formado pelos termos escolhidos para anlise e pode ser convertido em tabelas. Observa-se na figura 4, h exemplo de tabela onde cada clula expressa relao termk com o documento dj. Sendo que a relao de peso (pode ser quantidade de ocorrncias do termo no documento) dada por ajk

Figura 4 - Tabela de converso dos termos em atributos

Fonte: LOPES, 2004

45

3.4 Processamento dos dados

Os objetivos do processo j devem ser definidos nessa etapa, sendo que h muitas tarefas com diferentes finalidades para extrair conhecimentos dos documentos. Algumas das tarefas de minerao que podem ser executadas so clustering, categorizao, sumarizao, indexao temtica, entre outras.

(GOLDSCHIMIDT E PASSOS, 2005). A seguir, cada uma dessas tcnicas ser abordada.

3.4.1 Indexao

Este mtodo aumenta o desempenho do sistema, sendo o processo que tem por funo organizar os termos, partindo de uma fonte de dados, propiciando o acesso e recuperao mais eficientemente com estruturao de ndices, assim como funciona o ndice de um livro. (CARRILHO JUNIOR, 2007). Dentro da indexao h (REZENDE, 2003): Indexao do Texto Completo: ndices gravam a localizao dos termos dentro do texto, permitindo que consultas possam localizar o documento fazendo buscas booleanas (E, OU, NO) e de proximidade (PRXIMO, DENTRO). Indexao Temtica: Nesse modo faz-se necessrio o uso de dicionrio onde se encontra um conjunto de termos que define um vocabulrio montado usando relacionamentos. Com isso, permite-se buscar com eficincia generalizaes e especializaes de termos especficos. Indexao por Tag: So selecionadas algumas partes do texto por mtodos automticos que iro compor o ndice. O uso de parsers e expresses regulares so comuns para o reconhecimento das tags. Sendo que as tags reconhecidas definem a palavra chave que vai ao ndice. Indexao Semntica Latente: Cria a identificao de conceitos nos documentos separadamente dos termos que representam o

documento. Permitindo localizar uma estrutura semntica ligada a um

46

determinado grupo de textos. Existindo diferenas sintticas em palavras que possuem a mesma ideia, essa indexao permite detectar tais ideias, identificando-as (PINTO, 2007).

3.4.2 Extrao de Caractersticas (EC)

Com extrao de caractersticas pode-se abstrair palavras relevantes para um sistema conforme predefinio de objetivos do documento. Exemplo de tais objetivos so a busca de nomes prprios, nomes de cidades e empresas. Essa rea pode ser considerada uma subrea da Extrao de Informao com a finalidade de fazer uma extrao de caracterstica desejada do texto (TICON, 2007).

Tcnicas encontradas nesta seo so de extrema importncia para a evoluo do projeto, j que atravs dessas tcnicas que se permite extrair termos relevantes que impem, por exemplo, a opinio do texto. Conforme REZENDE (2003) a extrao de caractersticas pode ser decomposta em dois passos diferentes.

Informao Lingustica: Nesse passo identificam-se nomes (podendo determinar se o nome de lugares ou empresas). Podem-se utilizar dicionrios para se definir alguns termos e padres lingusticos para definir outros. Como exemplo, o nome de uma empresa no precisa estar num dicionrio de termos, mas atravs de algoritmos de EC pode-se determinar se aquele nome relevante e de empresa. Os padres lingusticos so definidos conforme sua estrutura morfossinttica permitindo o reconhecimento de termos significativos. Por exemplo: para o padro SubstantivoPreposioSubstantivo pode-se reconhecer, por exemplo, celular de Maria.

Mtrica: Dentro de mtricas sero citados alguns mtodos que do importncia a um termo do texto, destacando-o dos demais: Frequncia de documentos (FD): Essa mtrica d importncia ao termo que mais aparece em documentos. A ideia que se o termo

47

bastante citado, ento significa que ele bastante informativo para predizer a categoria. Correlao de entidades (PMI): Tambm conhecida como informao mtua uma mtrica que tem como objetivo medir quanta informao se pode obter de um termo atravs da medida de co-relacionamento a outro termo (LOPES, 2008). Em outras palavras a probabilidade (Pr) de duas palavras aparecerem mais frequentemente do que apareceriam separadamente. Considerando t e c termos a serem analisados, tem-se, a equao:

Equao 1-ndice de relacionamento entre as palavras

Fonte: REZENDE, 2003

3.4.3 Sumarizao

Esse processo tem a inteno de reduzir o texto tanto quanto for possvel sem perder o real significado imposto anteriormente. Sentenas inteiras ou todo o pargrafo so copiados para um documento menor mantendo a ideia chave do documento original. A sumarizao por extrao baseada na medida da importncia relativa dos termos em um documento, sendo essa medida determinada pela reduo do termo ao seu radical de menor tamanho via stemming (ver seo 3.3.2.1) e, ento, o contabilizando no documento. Quanto maior a quantidade mais importncia tem o termo (REZENDE, 2003).

3.5 Ps-Processamento

Nesta fase acontece a visualizao dos dados e validao das descobertas efetuadas da fase anterior de processamento dos dados.

Pode-se utilizar mtricas para medir a qualidade dos dados como exemplo, avaliar quanto um sistema acerta dado pela diviso de itens relevantes recuperados pelo total de itens recuperados.

48

Em Rezende (2003), cita-se a utilizao de meios grficos como pontos, linhas e smbolos, palavras, cores e intensidade de sombreamento para representao da informao coletada.

3.6 Minerao de opinio

Atualmente, se algum quer comprar um produto, j no se limita a pedir opinies a conhecidos, como em tempos remotos. Assim, ele vai alm procurando vrias informaes na internet, como em fruns, notcias, entre outros. Isso se deve h muitos comentrios do produto na web. Esta seo apresenta um pouco da minerao dessas opinies que indica sentimentos positivos ou negativos do texto.

A proposta desafiadora tecnicamente, mas muito til, pois as empresas, por exemplo, necessitam saber a opinio pblica ou do consumidor sobre os produtos que vendem ou os servios prestados. Por outro lado, potenciais clientes da empresa tambm querem saber as opinies dos atuais clientes antes de utilizar um servio ou comprar um produto (BING, 2011).

A classificao de sentimento tem como meta principal, dentro de um documento, a definio da orientao semntica sobre algum determinado objeto, definindo se aquele documento representa uma opinio positiva, negativa, ou neutra (PANG, LEE AND VAITHYANATHAN, 2002). Nesse sentido, difere dos estudos de categorizao visto nesse trabalho em processamento de texto, em que a finalidade organizar e ordenar textos conforme o seu assunto mais importante.

Segundo Bing (2011), esta rea denomina-se de minerao de opinio ou anlise de sentimento, pois ela analisa a opinio das pessoas, avaliaes, atitudes e sentimento sobre seres (empresas, pessoas, problemas, eventos, temas). As opinies influenciam nossas decises, por isso elas so consideradas muito importantes.

49

Tal abordagem ser perfeita para o presente trabalho (em que a finalidade auxiliar na compra e venda de aes da bolsa), j que ser uma boa metodologia em coletar a orientao semntica nos textos advindos atravs da minerao de texto.

3.7 Trabalhos Relacionados

Pesquisadores da computao j realizaram diversas pesquisas na rea com vrias teorias aplicadas chegando at na elaborao de algumas ferramentas com o intuito de recomendar nas aplicaes da Bolsa de Valores: O artigo publicado por Johan Bollen, Twitter mood predicts the stock market ou o Humor do Twitter prev o mercado de aes sendo bastante comentado em portais de negcios recentemente. Bollen instiga que o humor aplicado em mensagem do twitter est relacionado com o sobe e desce da bolsa de Dow Jones. O pesquisador usou cerca de 10 milhes de tweets do mundo inteiro que continham declaraes explcitas de seus estados de humor do autor, ou seja, aqueles que correspondem s expresses "eu sinto", "estou me sentindo", "eu no sinto", "eu sou", e "me faz"... com a inteno de evitar mensagens de spam. Essa coleta das mensagens ocorreu entre maro e dezembro de 2008, classificando o sentimento que cada postagem expressava. Johan concluiu que postagens que se classificavam com humor de fator calmo predizia em at 87% as flutuaes da bolsa (BOLLEN, 2010).

Outro exemplo bastante interessante a ferramenta web opSys criada por Thomas Jefferson P. Lopes, em que possui sua essncia explicada em seu prprio artigo: Minerao de Opinies aplicada Anlise de Investimentos ( LOPES, 2009). O autor usa mensagens basicamente vindas de feeds de notcias e postagens no twitter e seu objetivo apresentar um processo que permita contabilizar opinies sobre uma empresa com seu capital aberto, criando uma visualizao dentro de um perodo de tempo, identificando dentro das mensagens as opinies relacionadas com as empresas analisadas, ou seja, contando se a frase analisada positiva ou negativa. Para isso ele utiliza tcnicas de minerao de opinies (extrair informao

50

relevante de um montante de dados) que uma disciplina da rea da lingustica computacional, onde a preocupao definir a opinio que um documento expressa sobre tal tpico ou produto ao qual se refere. Para extrair uma orientao semntica do texto, como positivo, negativo ou neutro, o autor do artigo explica que a primeira tcnica utilizada para compor o clculo dessa orientao ser o PMI que um ndice calculado usado para medir a relao entre palavras.

3.8 Consideraes

Neste captulo, primeiramente observou-se a abordagem dos dados, podendo assumir dois caminhos distintos: semanticamente e estatisticamente. Aps estudouse os trs passos de minerao de texto (preparao dos dados, processamento e anlise dos resultados) compreendendo cada um deles.

Para a elaborao do sistema, cada passo ser utilizado, desde a recuperao dos textos na web at a representao da informao adquirida no processamento. Tambm nesse captulo estudou-se dentro da rea de minerao de texto uma forma de adquirir o conhecimento, em que a minerao de opinio emergiu espontaneamente sendo uma abordagem adequada para a aquisio de conhecimento sobre um ativo na carteira de aes.

51

4 MINERAO DE TEXTO APLICADA ANLISE DE CARTEIRA DE AES

O objetivo deste captulo apresentar a metodologia utilizada como soluo proposta para anlise fundamentalista de carteira de aes, possibilitando ao investidor uma melhora na escolha de sua deciso de compra e venda de um ativo, a fim de maximizar seus lucros. A figura 5 auxiliar na explanao da metodologia.

Figura 5 - Sistema de minerao proposto Fonte: do autor.

4.1 Metodologia

O produto final deste trabalho um sistema de anlise de textos selecionados como, por exemplo, notcias disponibilizadas na internet e postagens no twitter. O sistema ser disponibilizado atravs de um portal que ser utilizado como base de

52

consulta para investidores. Por exemplo, observando-se a figura 5, o investidor A vai consultar o sistema com o objetivo de saber como vai ser a tendncia dos preos, baseado na opinio de outras pessoas sobre a GERDAU, e o sistema instintivamente retorna um grfico apontando esta tendncia.

Os links dos possveis textos sero coletados por intermdio de motores de busca como Google, Bing, Yahoo. Aps, abstrai-se o texto das pginas HTML referenciadas no link. Textos tambm sero retornados atravs de busca por postagem diretamente no twitter. Todos os aspectos de acesso ao texto sero feitos utilizando respectivos APIs6 ou adaptaes desta para uma promissora coleta de textos. Esse processo representado na descrio 2 Acesso a motores de busca/API da figura 5.

O filtro passado pelo sistema s APIs de acesso aos motores de busca, intimamente relacionado ao nome da empresa ou as suas prticas, observado na descrio 1 query da figura 5.

Aps dados dos textos serem coletados e processados, o sistema mostrar em forma de grficos as possibilidades de um papel, presumindo a tendncia de subida ou queda da ao e contabilizando a opinio minerada do texto coletado (+1 = opinio positiva, -1 = opinio negativa e 0 = opinio neutra), conforme visto em (LOPES E HIRATINI, 2008).

Juntamente ao grfico de tendncia, apresentado o grfico com o histrico de preo da ao, possibilitando ao investidor fazer uma anlise comparativa, objetivando confiana no sistema. Estes grficos sero apresentados nas prximas sees.

Para a anlise e processamento dos dados coletados foram exploradas tcnicas de Minerao de Texto (Text Mining), portanto, o texto coletado passa pelas trs fases (Preparao dos dados, processamento e ps-processamento) estudadas no terceiro captulo, focando tambm na minerao de opinio que possibilitar a
6

API Application programming interface = Uma interface entre aplicativo e programao.

53

contabilizao da opinio. Na figura 5 est representado pela descrio 5 Processos de minerao de texto, descoberta de opinio.

Observando a figura 5, de uma forma geral, o sistema proposto coletar textos na internet sobre as empresas da Bolsa de Valores e, ento, aplicando minerao de texto extrair informao til, gerando um indicador de orientao semntica para o texto. Esse indicador ser quantificado, gerando grficos para anlise.

4.2 Aspectos de implementao

Para a construo do sistema foram utilizadas as seguintes tecnologias: Java7: Utilizada como a linguagem de programao. A escolha dessa linguagem justifica-se pela independncia de plataforma e pela facilidade de uso, alm de ser gratuita. Apache Tomcat8: Ser o servidor Web, compatvel com a linguagem utilizada. jQuery9: Para criar as interfaces visuais do sistema, sendo uma biblioteca JavaScript que simplifica a construao de documentos HTML, permitindo manipulao de eventos, animao e interaes Ajax para um desenvolvimento web mais rpido. A interface de comunicao do cliente (browser do usurio) com o servidor Web utiliza Ajax10. jQueryUser Interface11: Utilizada para a construo da interface do sistema. Fornecem abstraes de baixo nvel de interao e animao, efeitos avanados e de alto nvel, widgets personalizveis, construdo em cima da biblioteca JavaScriptjQuery.

7 8 9

JAVA - http://www.java.com/pt_BR/ http://tomcat.apache.org/

jQuery - http://jquery.com/ Ajax - acrnimo de AsynchronousJavascriptand XML, sendo o uso metodolgico de

10

tecnologias como Javascript e XML.


11

jQuery UI - http://jqueryui.com/

54

Banco de dados Microsoft SQL Server Express Edition12: Por ser um banco de dados consolidado e de baixa manuteno uma tima opo para o desenvolvimento deste trabalho.

4.3 Desenvolvimento do sistema

Nesta seo, ser apresentado o desenvolvimento do projeto, respeitando a ordem das trs etapas da minerao de texto, citadas no captulo 3. O projeto foi denominado SMPreview, acrnimo em ingls de Stock Market Preview (Previso do Mercado de Aes) .

4.3.1 Fonte de dados

Como visto na Seo 3.3, na pgina 36 deste trabalho, a primeira etapa para descobrir conhecimento til em textos feita com a Recuperao de Informao (RI). Para tanto, para qualquer um dos caminhos de RI que foram seguidos, usou-se o mesmo mecanismo: montar uma query e a execut-la, retornando uma lista de dados. No escopo do trabalho, query podem ser endereos dinmicos na internet como http://br.bing.com/news/search?q=ambev&go=&qs=n&form=QBNT

considera-se uma query.

Foram utilizadas feeds de notcias quando coletadas diretamente em sites de busca como Google13, Yahoo14, Bing15 e uma API especfica de coleta de postagens quando se tratando do Twitter16. A seguir, aborda-se como foi feita a coleta de dados explicando detalhadamente cada tecnologia envolvida.

12 13 14 15 16

SQL Server 2008 - http://www.microsoft.com/sqlserver/en/us/editions/express.aspx https://www.google.com.br/ http://br.yahoo.com/ http://br.bing.com/ https://twitter.com/

55

Pesquisou-se uma forma rpida, fcil e automtica de coletar notcias pela internet e sites de busca apresentaram uma boa soluo para recuperar a informao. Isto ocorre atravs da disponibilizao do resultado da consulta da query, em formato de feeds de notcias, que um padro bem conhecido atualmente.

Os feeds RSS contm contedo Web e resumos de contedo, juntamente com os links para as pginas completas, entre outros metadados. Estas informaes so entregues em formato de arquivo XML, denominado "RSS Feed", como pode ser visualizado na figura 6. O formato atualmente a 2.0 e pode ser consultado na web site http://www.rssboard.org/rss-specification (SAMPAIO, 2007).

Figura 6 Base de um arquivo RSS Feed Google Notcias Fonte: do autor

Podem-se encontrar vrios elementos dentro da RSS Feed (RSS ADVISORY BOARD, 2012). O elemento principal de um arquivo RSS <rss> que possui o atributo version. Para o projeto interessa apenas os elementos ancorados ao elemento <item>, sendo que, para cada pgina da web recuperada como resultado, descrita por um elemento <item>. Portanto, em uma busca vrios elementos desse tipo so retornados. Gravam-se os elementos encontrados no elemento <item> no banco de dados. A seguir, descreve -se o que contem em cada

56

elemento ancorado ao item e que foi utilizado, lembrando sempre que cada elemento <item> representa uma pgina:

Ttulo: O ttulo da pgina. Link: O endereo da pgina. Descrio: Sinopse da pgina. Guid: Uma sequncia nica que identifica o item. PubDate: Indica quando o item foi publicado.

Os trs mecanismos de busca (Google, Yahoo e Bing) apresentam semelhantemente, um atalho gerador de RSS Feed, a partir da consulta na seo de notcias, disponibilizando um endereo dinmico no navegador que, para este trabalho ser reconhecido como a query de consulta, como pode ser observado na figura 7. Para efetuar a consulta de outras empresas necessrio apenas acessar a pgina do feed e alterar a empresa pesquisada.

Figura 7 Endereo dinmico, passando PETROBRAS como parmetro. Fonte: do autor

Acessando a pgina da RSS Feed gerada pelo motor de busca, atravs do link query montado dinamicamente no projeto, facilmente possvel percorrer os links de contedo de cada pgina com a API ROME17, um parser RSS Feed que possibilita percorrer cada elemento internamente.

17

http://rometools.org/

57

Cada link visitado utilizando API Parser HTML18 que uma biblioteca Java utilizada para analisar HTML em qualquer forma, linear ou aninhado. Usado principalmente para a transformao ou extrao possui filtros e Java Beans fceis de usar. um pacote rpido, robusto e bem testado. No projeto o Parser HTML foi essencial, pois extraiu apenas o texto da pgina da notcia. Tags, que representam a formatao e objetos HTML so removidas. Esse contedo extrado da pgina da notcia armazenado em formato de texto puro. Na figura 8, destacou-se apenas o texto extrado na pagina sendo o que interessa ao escopo do projeto ignorando imagens, links para paginas externas e scripts.

Figura 8 Destaque do texto de uma pgina coletado atravs do Parser HTML. Fonte: do autor

Semelhante forma como ocorre com a busca por notcias, montada uma query contendo apenas o nome da empresa e utilizando a biblioteca Twitter4J 19, para integrar a aplicao Java com o servio Twitter, permitindo fazer buscas por postagens recentes. A resposta aps executar a query uma lista de postagens onde aparece o termo pesquisado. Por exemplo, se pesquisar a empresa Petrobras
18 19

http://htmlparser.sourceforge.net/ http://twitter4j.org

58

com a query Petrobras um dos retornos poderia ser o seguinte: $PETR3 - Ambev (AMBV3) Petrobras (PETR3) a mais forte das bolsas latinas http://t.co/rZI0Bnwt

4.3.2 Coletando os Dicionrios (Thesaurus)

Nessa seo, ser demonstrado como foram desenvolvidos os diversos dicionrios utilizados como suporte para promover a minerao de texto.

(a)

Dicionrios de Stop Words

Primeiramente, houve a necessidade de um dicionrio que pudesse eliminar as Stop Word na etapa de pr-processamento, especificamente na anlise dos dados. So palavras como artigos e preposies e com grande nmero de ocorrncias, mas com pouco significado semntico. Uma amostra dessas palavras pode ser conferida na tabela 4. Essa lista pode ser feita manualmente, mas neste trabalho baseada na lista sugerida para o portugus atravs do projeto Snowball 20 e eliminada pelo projeto Apache Lucene21.
Tabela 4 - Tabela de Stop Words

de a o quem
Fonte: do autor.

Nos Me aqueles aquelas

(b)

Dicionrios de sentimentos

Para promover o clculo de orientao semntica, que cruza palavras identificadoras com palavras de opinio positiva e negativa, foi necessrio criar inicialmente um dicionrio, com palavras de orientao positiva e negativa extradas
20

http://snowball.tartarus.org - Snowball um pequeno processador texto projetada para criar

algoritmos de stemming para uso na recuperao de informao.


21

http://lucene.apache.org/core/ - Apache Lucene uma tecnologia adequada para quase

qualquer aplicao que requer pesquisa de texto completo.

59

do dicionrio de sentimento financeiro, elaborado pelo professor de finanas da Universidade de Notre Dame, Bill McDonald22. Segundo o autor, uma crescente literatura aborda relaes significativas entre as reaes de preos de aes com as informaes de sentimento, medidos por classificaes de texto. No site do professor, podem ser encontradas diversas ferramentas que auxiliam a anlise textual de aplicaes financeiras, e onde se encontrou os lxicos de opinio usados no trabalho. Na tabela 5, pode-se visualizar a palavra classificada em uma orientao.

(c)

Dicionrios de Sinnimos

A ideia de dicionrios de sinnimos surgiu na seo 3.3.2.3, na pgina 43 da etapa de pr-processamento, em que foi possvel visualizar a possibilidade de interrelacionar as palavras para obter um nmero maior de termos com a mesma orientao semntica, partindo-se de apenas uma palavra. Assim, se uma palavra estiver no grupo de palavras positivas e estiver relacionada outra por sinnimo, esta tambm ser considerada positiva, mesmo sendo morfologicamente diferente.

Tendo essa possibilidade na fundamentao terica, pesquisou-se um dicionrio aberto na web e encontrou-se o DicSin (http://www.dicsin.com.br), sendo referenciado pelo famoso projeto LibreOffice23.

Na gerao do grfico de resultados de previso, preservou-se a possibilidade de ver duas linhas geradas, uma apenas com o dicionrio e com a orientao semntica catalogada diretamente, e outra linha juntando com dados processados, utilizando o DicSin. Pretende-se, com isso, obter uma melhora nos resultados j que abrange um nmero maior de palavras supostamente com a orientao semntica trazida por seu sinnimo. Na tabela 5, pode-se visualizar a palavra classificada em sua orientao e tambm com seu sinnimo.

22 23

http://www.nd.edu/~mcdonald/ http://www.libreoffice.org.br/

60

Tabela 5 - Tabela de Palavras com sua respectiva orientao

Palavra Otimismo Subir Queda Perda

Orientao Positiva Positiva Negativa Negativa


Fonte: do autor

Sinnimo Otimismo, timo Subiam, Subindo Cair, Caiu Extraviar

4.3.3 Coletando Informaes sobre as empresas e cotaes

As empresas da bolsa utilizadas no sistema proposto foram coletadas automaticamente no portal BM&F Bovespa24, onde consta uma listagem completa de informaes das empresas incluindo seus respectivos cdigos de negociao em formato compactado.

Para o escopo do trabalho, as seguintes informaes so importantes, pois so todas usadas para filtrar as notcias e calcular a orientao semntica:

Nome reduzido da Empresa. Lista Cdigo de ativos mais comuns (um cdigo de ativo um cdigo composto por quatro letras seguidas de um identificador numrico inteiro de um ou dois dgitos. Exemplos: VALE5, USIM4).

Com base nas informaes coletadas na BM&F Bovespa, desenvolveu-se um mecanismo que, de tempo em tempo, consulta no Yahoo Finanas25 o preo de um determinado ativo, passando como parmetro na consulta o cdigo de negociao da empresa. Conseguiram-se os seguintes dados: Preo atual da ao. Variao: quanto, em porcentagem, a ao variou em relao ao fechamento anterior. Valor de Abertura: Valor do primeiro negcio realizado no prego.

24 25

http://www.bmfbovespa.com.br/suplemento http://br.financas.yahoo.com/

61

Mnimo e Mximo: Os valores, respectivamente alcanados durante o tempo de negociao do prego.

Os dados que interessam nesta pesquisa so apenas a variao diria do ativo, pois o que se busca identificar a relao entre a opinio agregada nos textos coletados em relao ao sobe-e-desce da bolsa.

Os dados so automaticamente obtidos atravs de um arquivo no formato Csv , fornecido na pgina de consulta da Interface do Yahoo. Os dados so automaticamente inseridos na base de dados. Assim, para obter o Csv, efetua-se a consulta do ativo e, aps, baixa-se o Csv para extrao dos dados.
26

Para armazenar os dados coletados e gerados em todo o processo, foi utilizado o banco de dados SQL Server. Para conectar ao banco, utilizando a linguagem Java, utilizou-se uma biblioteca facilitadora chamada jTDS27, que torna a interao com o SGBD ainda mais fcil e uma fonte aberta 100% Java, sendo um Driver JDBC 3.0 para Microsoft SQL Server (6.5, 7, 2000, 2005, 2008 e 2012).

Nas figuras 9, 10 e 11 apresentado o diagrama da base de dados com suas respectivas explanaes, possibilitando uma viso geral do Banco de Dados utilizado ao longo da implementao.

26

O formato CSV (Comma Separated values) ou valores separados por vrgula, um formato

de arquivo muito utilizado para a exportao de dados de forma universal. Este tipo de arquivo pode ser aberto por vrios programas, entre eles o Microsoft Excel e at mesmo o bloco de notas.
27

http://jtds.sourceforge.net/

62

Figura 9 Diagrama 1 da base de dados utilizada. Fonte: do autor

Na figura 9, o diagrama foi segmentado em trs partes para facilitar a explicao.

Na parte A, constam as tabelas smp_coleta e smp_coleta_trecho, sendo as tabelas que armazenam cada item (notcia) do Feed RSS ou postagem do twitter. Ttulo, Descrio, Data de publicao e links so mapeados para as colunas da tabela smp_coleta. Seu contedo HTML processado para extrair somente o texto armazenado na tabela smp_coleta_trecho.

Na parte B, armazenado o radical da palavra de cada coleta, sendo que o radical primeiramente mapeado e armazenado em smp_radical e a relao texto coletado por radical armazenado em smp_coleta_radical na ordem em que foi reconhecido no texto. Situando-se nas trs etapas da minerao de texto, pode-se dizer que os dados armazenados na parte B so os dados provenientes do final da etapa de pr-processamento, em que cada termo mapeado em uma tabela documento x termo.

63

Na parte C, armazenada na tabela smp_coleta_radical_empresa a orientao semntica de cada sentena identificada no texto atravs do clculo do PMI. Foi adicionada a chave para smp_empresa, refletindo a ocorrncia de mais de uma citao de empresa por sentena. Situando-se nas etapas de minerao de dados, a etapa de processamento do texto evidencia-se, j que os valores da orientao semntica das sentenas so gravados nesse conjunto de tabelas.

Figura 10 Diagrama dois da base de dados utilizada. Fonte: do autor

Na figura 10, observa-se como esto dispostas as tabelas que serviro de apoio para efetuar a minerao. Dentro de smp_dicionario so catalogadas todas as palavras envolvidas, juntamente com seu radical mapeado. As palavras podem pertencer aos seguintes grupos: Grupo de palavras positivas, Grupo de Palavras Negativas, Grupo de palavras Neutras, Grupo de Sinnimos e Grupo de StopWords. O relacionamento armazenado na tabela smp_dicionario_agrupamento e cada palavra pode pertencer a um ou vrios grupos. Cada palavra ser cadastrada com seu radical associado, pois com o radical do dicionrio que se associa o radical dos textos.

tabela

smp_dicionario_sinonimo

utilizada

para

armazenar

relacionamentos de palavras sinnimas, importados de um dicionrio conhecido

64

como DicSin28 utilizado inicialmente e depois alterado conforme as anlises. Esse dicionrio controla sinnimos via web. um dicionrio colaborativo em que se pode adicionar ou corrigir palavras/sinnimos.

Figura 11 Diagrama trs da base de dados utilizada. Fonte: do autor

Na figura 11, constam os diagramas onde so armazenados dados como as variaes reais da bolsa para cada cdigo de negociao das empresas nos dias do perodo analisado. Os preos das cotaes so fornecidos pela Yahoo Finanas. Esses dados so utilizados no SMPreview para gerar o grfico de cotaes reais.

4.3.4 Clculo da orientao semntica

Nessa seo, ser apresentada a metodologia utilizada para calcular a orientao semntica das sentenas dos textos coletados.

Ainda na fase de pr-processamento, a radicalizao reduz a palavra a sua menor representao lingustica, permitindo que sejam tratadas variaes morfolgicas de uma palavra. Assim, se no dicionrio a palavra aumento estiver no dicionrio especifico de finanas no grupo de palavras positivas e no texto coletado aparecer palavra aumentar, ento essa tambm ser tratada como se estivesse

28

http://www.dicsin.com.br

65

no grupo de palavras positivas. Isso permite, com o dicionrio de sinnimos, ampliar as possibilidades de identificar palavras com alguma orientao semntica. No SMPreview, foi utilizado o projeto Snowball29 que faz a radicalizao da palavra usando Portuguese Stemmer, abordado na seo 3.3.2.1 na pgina 39, juntamente com o projeto Apache Lucene30 que permite uma melhor iterao com o texto coletado.

A etapa de identificao de termos nos textos coletados significa o incio do processamento de texto, aps ter sido finalizada a etapa de pr-processamento.

A identificao dos radicais feita com os radicais das palavras no texto atravs de marcao apenas, separando radicais identificadores de empresas dos radicais com orientao opinativa, sendo a prvia para efetuar o clculo de orientao. Alm disso, foram mantidas estruturas para sentena, com a ordem dos radicais, onde so armazenados tambm os valores de peso para cada estrutura, calculados em seguida. Na figura 12, pode-se visualizar o SMPreview, exibindo os termos radicalizados e identificados. Adotou-se a cor vermelha para representar termos negativos e o verde para positivos. J a cor azul representa o termo identificador da empresa.

Figura 12 SMPreview, mostrando os radicais identificados. Fonte: do autor

Tomando como base as ideias expostas por LIU (2006), a partir desse ponto calculada a orientao das notcias utilizando o intervalo de sentena (trecho do texto separado por ponto ou pargrafos).

29 30

http://snowball.tartarus.org http://lucene.apache.org/core/

66

Identificadas as entidades no conjunto de textos, aplica-se a cada uma delas o clculo descrito pela equao 1 (Correlao de entidades) da seo 3.4.2 na pgina 46. Assim, tem-se dentro de um conjunto de notcias a orientao semntica de sentimento para cada notcia, para cada empresa em nvel de sentena. Quantificando-se o PMI de palavras positivas menos o PMI de palavras negativas de todos os textos coletados em um determinado dia, obtm-se um ndice dirio positivo ou negativo, representando o sentimento que se tem sobre uma determinada empresa. Esse ndice ser comparado diretamente com o desempenho dirio das aes na bolsa durante a etapa de ps-processamento. Na figura 13, observa-se que o resultado do clculo PMI fica em 1.95 negativo para a primeira sentena da notcia coletada.

Figura 13 SMPreview, mostrando os radicais com o valor da orientao: -1.95. Fonte: do autor

4.3.5 Sistema SMPreview

Nesta seo, ser apresentado o sistema desenvolvido, detalhando os processos e tecnologias envolvidas.

Como se pode ver na figura 14, o SMPreview est estruturado da seguinte forma: interface, ncleo e banco de dados. As tecnologias utilizadas nas estruturas tambm so ilustradas.

Entre Interface e ncleo, a comunicao totalmente via Ajax, utilizando Json e XML. J na comunicao do ncleo com a base de dados, a comunicao via jTDS.

67

Figura 14 SMPreview, mostrando a arquitetura e tecnologias envolvidas Fonte: do autor

A interface composta por bibliotecas JavaScript como o framework jQuery e plug-in jQueryUI que permite criar facilmente efeitos visuais agradveis. Tambm foi incorporado a biblioteca JScharts31 responsvel pela renderizao dos grficos.

Para formular a interface do SMPreview sempre se optou por manter uma forma simples, porm robusta, de pesquisar dados coletados para eventual anlise. Observando a figura 15 temos a interface inicial do sistema antes de aplicar os filtros.

Figura 15 SMPreview, interface inicial. Fonte: do autor

Dentro da aba principal Resultados disponibilizaram -se dois filtros principais: Empresa e Perodo. Quando se aplica o filtro, passando como parmetro o cdigo da empresa e o perodo de anlise, o sistema responder com resultados via
31

http://www.jscharts.com/

68

grficos na aba Grficos, como pode ser visualizado na figura 16. Tambm resultar uma tabela contendo os textos na aba Notcias, visto na figura 18. Tambm existe o filtro Dicionrio que especifica qual dicionrio ser utilizado: dicionrio direto, que utiliza apenas palavras cadastradas em sua respectiva orientao, ou o dicionrio DicSin, que amplifica a quantidade de palavras com orientao baseado em sinnimos.

Figura 16 SMPreview, interface exibindo os grficos. Fonte: do autor

Na aba Grficos, tem-se quatro grficos: Cotao real: Representa a situao da cotao da empresa pesquisada na Bolsa de Valores. Este grfico servir de base para investidores compararem com os resultados apresentados pelo sistema. O valor da cotao vem diretamente do Yahoo Finanas.

Orientao Diria: Representa o somatrio dirio das orientaes. Possuem duas linhas, a verde representa as orientaes calculadas apenas com base nas palavras cadastradas diretamente nos dicionrios positivos e negativos, e a linha azul representa o clculo considerando a associao ao dicionrio DicSin. Na figura 16 retrata

69

apenas a linha azul, pois o filtro est configurado para filtrar apenas resultados do DicSin.

Tendncia: Representa o acumulado dirio da orientao das notcias. com esse grfico que se observa a tendncia do ativo. Dependendo da configurao do filtro de dicionrios, pode possuir duas linhas, a verde representa as orientaes calculadas apenas com base nas palavras cadastradas diretamente nos dicionrios positivos e

negativos, e a linha azul representa o clculo considerando a associao ao dicionrio DicSin.

% Oscilao: Como se pode ver na figura 17, esse o grfico principal, pois exibe a eficincia do sistema. Mede a oscilao diria da empresa filtrada na bolsa e tambm a oscilao diria da orientao das notcias processadas cruzando as duas oscilaes. Por exemplo, no caso da linha do grfico que mede a oscilao da bolsa (% Real OGXP3 do grfico) ficar acima da margem do zero (0) em um determinado dia, representa que as aes do ativo subiram. Caso fiquem abaixo de zero (0), representam queda. Da mesma forma, feito com a linha do grfico (ndice DicSin) que mede a orientao semntica. Se a linha estiver acima da margem zero (0) representa mais notcias boas, caso contrrio, sinal que notcias negativas prevalecem. Essas duas linhas so ento cruzadas e se em cada dia a linha da orientao semntica estiver no mesmo lado da margem que a linha da cotao real, representa um acerto do programa. Mais detalhes sero expostos na seo de testes e resultados. Na legenda da linha Indice DicSin mostra os acertos feito pelo sistema, sendo que na figura 17 so 12 acertos de 17 possibilidades.

70

Figura 17 SMPreview, Oscilao Bolsa X Oscilao Notcias. Fonte: do autor

Figura 18 SMPreview, interface com tabela de textos. Fonte: do autor

A tabela da aba Notcias possui: Primeira coluna: Destacando a orientao semntica para cada texto com setas para cima indicando positividade, seta para baixo indicando negatividade. Existe tambm uma legenda abaixo dessa tabela, mostrando todas as possibilidades que um registro da tabela possa assumir, conforme ilustrado na figura 18. Segunda coluna: Identificador da coleta do texto. Terceira coluna: Ttulo do texto coletado. Quarta coluna: O link do texto coletado.

71

Quinta coluna: A data do texto coletado. Sexta coluna: O valor da orientao atribudo a cada texto. Stima coluna: Dois botes, sendo que o primeiro exibe o texto (figura 19) e o segundo mostra o texto processado apenas com os radicais j com o valor da orientao, quando uma correlao verdadeira for identificada (figura 20).

Vale ressaltar que cada texto pode se referir a mais de uma empresa, ento, o mesmo texto pode aparecer em mais de uma pesquisa por empresa com valor de orientao semntica diferente, tendo uma orientao para cada empresa em um mesmo texto. Na figura 19 observa-se uma notcia (texto) sobre a empresa OGX. Na figura 20 destaca-se o mesmo texto j processado com o valor de orientao calculado.

Figura 19 SMPreview, interface exibindo o texto coletado. Fonte: do autor

72

Figura 20 SMPreview, interface exibindo o texto processado. Fonte: do autor

O ncleo se refere lgica do sistema, mdulo onde acontecem todas as coletas de dados, preparao e armazenamento dos dados e processamento de dados.

A seguir, sero descritas as tarefas que o ncleo do SMPreview deve proceder para efetivar uma minerao de texto eficiente:

1. Coleta de notcias e postagens do Twitter: Utilizou-se RSS Feeds para extrair notcias da internet e API para coleta de postagens no twitter. Utilizou-se alm das tecnologias comuns as respectivas bibliotecas ROME para ler os resultados de busca advindos do RSS Feeds; Parser HTML para extrair o texto em pginas web advindos de pesquisa nos motores de busca; e Twitter4J para ler postagens no Twitter.

2. Remoo de StopWords: A finalidade reduzir o nmero de termos para processamento. Uma pr-lista de palavras sem muito significado semntico no texto utilizada para fazer a filtragem no texto coletado e eliminar tais palavras. Essa operao ocorre atravs da biblioteca

73

Apache Lucene, que permite uma filtragem rpida e eficiente de palavras.

3. Radicalizao de palavras: A fim de reduzir o nmero de palavras para processamento, ocorre a radicalizao para eliminar sufixos e prefixos. Essa operao melhora o resultado do processamento, j que abrange um nmero maior de termos na associao ao dicionrio de sentimentos. Usam-se duas tecnologias em conjunto nessa tarefa: Apache Lucene e o projeto Snowball.

4. Transformao de texto em tokens e etiquetagem: Necessrio para transformar dados desestruturados em dados para processamento. Aps a coleta e radicalizao, cada termo mapeado e associado a um identificador nico (etiquetado), que permite identificar termos nicos nos textos.

5. Clculo de Orientao Semntica: Processo que efetua o clculo para chegar a um ndice que mostre o quanto um texto expressa positividade ou negatividade.

6. Acesso base de dados: Todos os dados processados e coletados devem ser armazenados e depois lidos novamente para serem fornecidos interface do sistema. O ncleo do SMPreview capaz de fornecer acesso base de dados, tanto para gravao como para leitura atravs do driver JDBC apara Microsoft SQL Server 2008.

4.4 Testes e Resultados

Esta seo ser subdividida em duas: a primeira responsvel por explicar as tcnicas utilizadas para efetuar os testes e, a segunda, responsvel por fazer a anlise dos resultados. Em geral, descrita toda a metodologia empregada para efetuar testes, com a finalidade de obter resultados satisfatrios, demonstrando a eficincia do SMPreview.

74

O conjunto de textos coletados para o projeto depende da publicao de notcias na internet ou postagens no twitter, e como essa publicao ocorre diariamente em diversos canais, de maneira e horrios aleatrios, no seguindo um padro, esse conjunto totalmente dinmico. Desta forma, coletou-se um montante de textos em um determinado intervalo significativo de tempo. A quantificao desses textos e dados processados ser demonstrado nas subsees a seguir.

4.4.1 Testes

Para fazer os testes selecionaram-se duas empresas de setores distintos e o nico critrio de escolha foi da empresa possuir apenas um cdigo de negociao, j que com dois ou mais seria necessrio repetir os testes para cada cdigo. Na tabela 6 esto listadas as empresas escolhidas.
Tabela 6 Tabela de empresas monitoradas

Empresa OGX MARFRIG

Classificao

Cdigos

Setorial Negociao Petrleo. Gs e Biocombustveis / Petrleo. Gs e OGXP3 Biocombustveis / Explorao e/ou Refino Consumo no Cclico / Alimentos Processados / MRFG3 Carnes e Derivados
FONTE: BMFBOVESPA, 2012

Os testes foram aplicados num montante de textos coletados diariamente, sendo que o monitoramento foi feito intermitentemente pelas APIs do sistema. No intervalo de 01 de Outubro a 31 de Outubro de 2012, independentemente de horrio e dias da semana. Para cada dia nesse intervalo, foram processadas as notcias conforme elas eram coletadas da internet. Na tabela 7, possvel visualizar alguns exemplos da quantidade de informao diria processada, que est na mdia de 19 textos dirios para OGX e sete textos dirios para Marfrig. Observou-se que a maioria dos textos coletados era em dias teis, ou seja, em feriados e finais de semana o nmero de coletas menor ou nula em relao aos dias em que h preges.

75 Tabela 7 Nmero de textos coletadas

Empresa OGX MARFRIG

Perodo Coleta 01/10/2012 at 31/10/2012 01/10/2012 at 31/10/2012


Fonte: do autor

N Textos 609 219

N Textos/Dia 19 7

Para efetuar a minerao, calculando a orientao dos textos, utilizaram-se dois dicionrio de sentimentos (Positivo e Negativo) e, tambm, o dicionrio de sinnimos (DicSin). A anlise dos dados representada em duas formas:

Direta: O sistema faz o processamento utilizando diretamente o dicionrio de sentimentos, no utilizando outra palavra que no esteja classificada como palavra positiva ou palavra negativa.

DicSin: Atravs do uso do dicionrio DicSin o leque de palavras positivas e negativas aumenta, pois para cada palavra positiva seus sinnimos tambm so considerados positivos. Parte-se do princpio de que se uma palavra classificada como positiva, ento os seus sinnimos tambm sero positivos. O sistema utiliza, alm das palavras cadastradas diretamente como positivas e negativas, o dicionrio de sinnimos para efetuar o processamento.

Na tabela 8, pode-se observar o aumento expressivo de palavras com orientao atravs do uso de dicionrios como o DicSin. Espera-se, com isso, aumentar a eficincia do SMPreview.
Tabela 8 Quantidade palavras Classificadas

Orientao Positiva Negativa

N de palavras Direto 335 1891

N de palavras DicSin 1312 4191

Total 1647 6082

Fonte: do autor

76

A escolha dos termos a serem avaliados (processados) nos textos ocorreu atravs do dicionrio de orientao e pela entidade, que nos dois casos foram o prprio nome: ogx e marfrig.

Para exemplificar melhor como ocorre o clculo da orientao semntica nos testes e a forma como o SMPreview trabalha, selecionou-se um trecho de texto publicado e coletado em 30/10/2012 que cita a empresa OGX no canal Uol Economia 32.

A seguir, sero demonstrados os passos de processamento do texto que o SMPreview realiza at chegar ao valor da orientao do texto.

Primeiro passo, coleta do texto original: Entre as aes mais negociadas, Vale PNA ganha 0,66%, para R$ 36,33; Petrobras PN sobe 0,98%, para R$ 21,56; OGX ON avana 2,81%, para R$ 4,74; Ita PN tem valorizao de 0,50%, para R$ 29,75; e Bradesco PN sobe 0,24%, para R$ 32,10.

Segundo passo, texto pr-processado, eliminao de Stop Words, radicalizao e mapeamento de tokens. De 43 termos iniciais, passouse para apenas 25 termos: aco negoc val pn a ganh par r petrobr pn par r o gx on avanc par r itau pn valoriz par r bradesc pn par r

Terceiro Passo, identificao dos radicais das entidades (Empresas) e termos com alguma orientao semntica. Neste caso, foram identificados a entidade OGX e dois termos com orientao positiva ganha e avana: aco negoc val pn a ganh par r petrobr pn par r ogx on avanc par r itau pn valoriz par r bradesc pn par r

32

http://economia.uol.com.br/ultimas-notcias/valor/2012/10/30/bovespa-sobe-em-mais-um-

dia-sem-referencia-dos-eua.jhtm

77

Quarto passo, execuo do clculo da equao 1. Consideram-se apenas radicais ogx e avanc para realizar o clculo, j que so os nicos que aparecem juntos. Com isso, se pretende identificar uma relao verdadeira entre os dois termos dentro do trecho coletado. Observa-se na tabela 9 as variveis que fazem parte da equao, gerando o valor de PMI. Considere c=caracterstica, e=entidade e Pr=Probabilidade, sendo que a caracterstica para o PMI so palavras positivas ou negativas e a entidade a empresa.
Tabela 9 Exemplificao do clculo PMI

Equao Quantidade.termos Quantidade.e^c (Junto) Quantidade.e Quantidade.c Calculando Calculando Calculando Calculando

PMI(e,c) = log( Pr(e^c) / ( Pr(e) * Pr(c) ) ) 25 1 1 1 PMI(ogx,avanc) = log( (1/25) / ( (1/25) * (1/25) ) ) PMI(ogx,avanc) = log( 0,04 / (0,04* 0,04) ) PMI(ogx,avanc) = log( 0,04 / 0,0016) PMI(ogx,avanc) = log( 25 ) = 1,4

Encontrou-se 1,4 no clculo de PMI atravs de uma palavra positiva, assim, o valor permanece positivo. Caso fosse atravs de uma palavra negativa, ento ainda seria necessrio fazer uma multiplicao por -1 gerando um valor negativo, por exemplo -1,4.

4.4.2 Resultados

Inicia-se a fase de ps-processamento, descrito na seo 3.5 na pgina 47 deste trabalho.

Com base nas duas empresas utilizadas nos testes da seo anterior, nas tabelas 10 e 11 onde consta um demonstrativo dirio dos resultados do clculo de orientao para cada empresa. Juntamente adicionou-se o percentual de oscilao da empresa naquele dia.

78

As tabelas comparam a oscilao da empresa na bolsa com o valor obtido, variando os dicionrios de co-ocorrncia Direto e Total (Direto + DicSin) de entidades/palavras. Valores positivos indicam que a entidade tem maior relao com palavras positivas, enquanto valores negativos indicam maior relao com palavras negativas.
Tabela 10 Resultados obtidos da empresa OGX

Dia

Direto

DicSin

Oscilao Bolsa %

Direto Acerto
0 0 0 1 0 1 0 1 1 0 0 0 1 0 1 1 0 1 1 0

DicSin Acerto
0 1 0 1 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 0

01/10/2012 02/10/2012 03/10/2012 04/10/2012 05/10/2012 06/10/2012 07/10/2012 08/10/2012 09/10/2012 10/10/2012 11/10/2012 12/10/2012 13/10/2012 14/10/2012 15/10/2012 16/10/2012 17/10/2012 18/10/2012 19/10/2012 20/10/2012 21/10/2012 22/10/2012 23/10/2012 24/10/2012 25/10/2012 26/10/2012 27/10/2012 28/10/2012 29/10/2012

8.26 1.38 -7.25 -1.16 7.06 1.26 0 2.66 -1.72 -1.41 9.07 -1.08 0 0 -0.44 0.3 -3.72 -8.96 10.73 -2.1 0 -4.29 6.46 13.03 15.4 -8.55 9 -4.81 -1.32 -3.14

0.62 -2.36 -16.76 -13.76 -29.89 -3.38 0 3.7 -3.2 -1.4 11.08 -0.75 0 0 -4.53 -5.99 -5.18 -25.78 -13.96 -3.55 2.12 -17.17 -32.65 -5.7 -5.64 -14.79 -6.1 -0.91 -11.35

-2.6 -3.17 1.03 -1.71 -3.65 2.88 0.88 -2.95 1.25 0.88 -4.2 1.83 -5.92 0.57 -4.17 -0.59 -7.77 2.59 -5.47 2.67

79

30/10/2012 31/10/2012

6.98 10.8 7

0.28 -8.96
Fonte: do autor

3.69 -1.46

1 0

1 1

Tabela 11 Resultados obtidos da empresa Marfrig

Dia

Direto

DicSin

Oscilao Bolsa %

Direto Acerto
0 1 1 1 0 0 1 0 0 0 0 0 0 1 1 1 0 0 1 0 1 1

DicSin Acerto
1 1 1 1 0 0 1 0 0 0 0 0 0 1 1 1 0 0 1 1 0 1

01/10/2012 02/10/2012 03/10/2012 04/10/2012 05/10/2012 06/10/2012 07/10/2012 08/10/2012 09/10/2012 10/10/2012 11/10/2012 12/10/2012 13/10/2012 14/10/2012 15/10/2012 16/10/2012 17/10/2012 18/10/2012 19/10/2012 20/10/2012 21/10/2012 22/10/2012 23/10/2012 24/10/2012 25/10/2012 26/10/2012 27/10/2012 28/10/2012 29/10/2012 30/10/2012 31/10/2012

0.4 8.71 -0.45 4.08 15.7 3.92 4 4.15 -1.42 -0.95 1.16 -1.8 0 0 0 -2.07 -7.88 3.58 -1.23 0.85 0 -0.95 -1.16 24.7 17.28 7.05 6 5.28 2.6 7.85 -0.99 -0.82 -2.48

-1.59 11.81 -0.1 1.25 15.19 2.84 -0.01 -1.42 -1.08 0.08 -1.8 0 0 -5.8 -5.44 -11.03 5.03 -4.12 0.85 0 -0.95 -3.35 -24.06 16.92 3.4 13.13 2.6 6.82 2.49 0.51 -11.19
Fonte: do autor

-1.27 3.86 -1.74 3.78 -2.51 0.83 -1.24 -3.59 0.09 5.1 0 -1.23 0 0.83 -4.3 -9.76 -1.63 -1.17 3.44 1.81 -0.84 -1.04

80

Considerando-se as tabelas 10 e 11, possvel desfrutar de alguns indicadores de eficincia do sistema. Nota-se que, de 31 dias do ms apenas em 22 dias ocorreram negociao, portanto: Para a empresa OGX, de 22 dias, o sistema acertou 14 utilizando o dicionrio de sinnimos (DicSin) e 10 acertos utilizando apenas o dicionrio de orientao semntica.

Para a empresa Marfrig, de 22 dias, o sistema acertou 11 utilizando o dicionrio de sinnimos (DicSin) e 10 acertos utilizando apenas o dicionrio de orientao semntica.

Com base nesses resultados, possvel observar um acerto de 63% na empresa OGX e 50% na Marfrig, considerando o dicionrio de sinnimos.

Analisando-se visualmente os resultados, pode-se comparar o desempenho da orientao semntica numa srie histrica, em relao ao movimento do ativo na bolsa. Nas figuras 21 a 23 traz-se os grficos gerados pelo SMPreview para a empresa OGX. A ideia desses trs grficos manter a linha da oscilao da empresa na Bolsa de Valores esttica, enquanto se desloca a oscilao da orientao semntica da notcia sempre 1 dia para frente.

Figura 21 Grfico sem deslocamento da orientao (14 acertos). Fonte: do autor

81

Figura 22 Grfico com 1 dia de deslocamento da orientao (10 acertos). Fonte: do autor

Figura 23 Grfico com 2 dia de deslocamento da orientao (9 acertos). Fonte: do autor

O que se pode observar no grfico da figura 21 so os valores das orientaes acompanhando o valor da variao do ativo, s vezes precedendo o movimento, e em outras sendo arrastado por ele. Essa percepo parece que vai se perdendo ao se deslocar a linha da orientao semntica.

4.5 Consideraes

Neste captulo, apresentou-se toda a construo, testes e resultados realizados com base na metodologia proposta. Com os resultados gerados, pode-se verificar o grau de eficincia e, consequentemente, a importncia do sistema.

82

5 CONCLUSO

Este trabalho apresentou uma proposta, baseada em tcnicas de minerao de texto, para quantificar opinies encontradas em textos na Internet, a fim de auxiliar investidores em suas negociaes. Para tanto, foi necessrio: capturar informaes relevantes sobre ativos financeiros na Internet, identificar opinies relacionadas com os ativos analisados, e quantificar essas opinies, definindo um ndice que represente a orientao semntica dos textos.

Com um estudo aprofundado do mercado de aes e da minerao de texto, observou-se que tais assuntos to distintos esto intimamente ligados, pois, conforme apresentado, na anlise fundamentalista faz-se uso de informaes textuais como notcias para elaborar negociaes sobre aes de uma determinada empresa.

Aps o estudo das tcnicas de minerao de texto, a forma como se v um texto muda, pois agora se v a possibilidade de mergulhar nesse mar de letras e conseguir extrair informaes importantes que possam auxiliar em vrias reas, no somente em carteira de aes.

O sistema desenvolvido realiza a anlise automaticamente da carteira de aes, possibilitando verificar os resultados que emergem. Se notcias expressando opinies realmente conseguem manter um vnculo com o valor das aes, e o que indica ser possvel quando observados os trabalhos citados e j realizados, ento possvel se obter bons resultados. Alm disso, e muito mais importante, quando este trabalho visualizado do ponto de vista de um entusiasta da computao.

Aps os testes e os resultados analisados, chegaram-se s seguintes concluses:

83

Uso do PMI (Pointwise mutual information) para calcular a orientao semntica, analisando a opinio nos textos coletados em nvel de sentena, revelou resultados interessantes quando comparados com o aspecto da orientao real do texto. O clculo de correlao utilizado nos testes no retornou valores conclusivos, mas considerveis para algumas entidades, demonstrando que realmente h um nvel relevante de correlao entre a variao do ativo e os valores obtidos no clculo de orientao.

O uso de dicionrio com palavras com orientao semntica deve ser revisado cuidadosamente para que no haja erros ao utilizar palavras com orientao diferente da sua orientao real. Sendo um dicionrio dinmico, em que se adiciona e remove palavras, conforme o escopo do projeto, a prtica de calibr-lo adicionando e removendo palavras deve ser constante, a fim de melhorar os resultados.

Utilizar um dicionrio de sinnimos, na maioria dos casos, e favorvel identificao de uma orientao semntica vlida, melhor at que usar o dicionrio diretamente. Porm, houve muitos casos em que

sinnimos cadastrados errados ou que representavam uma associao com um significado semanticamente distante gerou erros no resultado do processamento do texto. Para esses casos houve a necessidade de destruir relaes de sinnimos para que o sistema realizasse os clculos corretamente.

Para trabalhos futuros, considerando-se o interesse de continuar a pesquisa com o mesmo escopo, citam-se as seguintes possibilidades:

Fazer testes analisando intervalos maiores como um ano inteiro ao invs de apenas um ms. Tambm existe a possibilidade de trabalhar com uma granularidade menor para fazer anlises em intervalos menores dentro do dia, como, por exemplo, a hora e no apenas a

84

granularidade de dia. Isto possibilitaria cruzar a hora da notcia com a oscilao da bolsa.

Melhorar os lxicos dos dicionrios, calibrando as palavras para refletir uma melhora nos resultados. Por exemplo, adicionar ou remover palavras do dicionrio de orientao para que melhor indiquem a oscilao da bolsa.

Utilizar mtodos para encontrar termos comuns e/ou relevantes, como o mtodo TF-IDF (term frequency, inverse document frequency), que mapeia termos que tm alto ndice de ocorrncia no texto. Os termos mapeados podem ser candidatos a compor algum dos dicionrios utilizados.

Desenvolver outras tcnicas de minerao de texto como, por exemplo, abordagens baseadas em aprendizagem de mquina em que se treina um conjunto de textos, permitindo que prximos textos sejam classificados ou produzam um ndice estatstico automaticamente.

Dentre as tarefas realizadas, algumas dificuldades foram encontradas, como processar textos com uma estrutura complexa ou com a utilizao de um vocabulrio muitas vezes informal.

Conforme o objetivo do trabalho e com o desenvolvimento da ferramenta proposta para o mercado de capitais, uma nova maneira de prever a Bolsa de Valores foi aplicada, auxiliando analistas do mercado de capitais.

85

REFERNCIAS

Como investir no Mercado a termo. Disponvel em: <http://www.bmfbovespa.com.br/Pdf/termo.pdf>, acessado 10 de outubro de 2011. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. New York: ACM Press, 1999. BARRETO FILHO, Oscar. Natureza jurdica das bolsas de valores, no direito brasileiro. Revista dos Tribunais. So Paulo, Revista dos Tribunais, 1959. BARRETO J. M. Inteligncia Artificial no Limiar do Sculo XXI. R R R Edies, Florianpolis, 2001. BARTH, I. G. Ipo Inicial Public Offering (Oferta Pblica Inicial): Um Instrumento De Financiamento. Monografia (Curso de Economia) Faculdade de Economia e Cincias Contbeis, Universidade Metodista de So Paulo, So Bernardo do Campo, 2007. BING, LIU. Web Data Mining, Exploring Hyperlinks, Contents and Usage Data. 2. ed. Springer, 2011. BM&FBOVESPA, Bolsa de Valores, Mercadoria e Futuros. Introduo ao mercado de capitais. Disponvel em: <http://www.bmfbovespa.com.br/pt-br/abmfbovespa/download/merccap.pdf>, acessado 01 de outubro de 2011. BODIE, Zvi; MERTON, Roberto C. Merton. Finanas. 2. ed. Revisada e Ampliada. So Paulo: Art ed Editora SA, 2001. BOLLEN, Johan. Twitter mood predicts the stock market. Artigo 2010. CARRILHO JUNIOR, Joo Ribeiro. Desenvolvimento de uma Metodologia para Minerao de Textos. Dissertao de Mestrado (Engenharia Eltrica) - PUC-Rio, Rio de Janeiro, 2007. CAVALCANTE, Francisco. Mercado de Capitais o que , como funciona. 6. ed., Revisada e Atualizada. Rio de Janeiro: Elsevier Editora Ltda, 2005. CAVALCANTE, Francisco; MISUMI, Jorge Yoshio; RUDGE, Luiz Fernando. Mercado de capitais: o que , como funciona. 7. ed., ver. e atual. Rio de Janeiro: Elsevier, 2009. CERBASI, Gustavo. Investimentos Inteligentes. 1 ed. So Paulo: Thomas Nelson, 2009.

86

CHEN, H. Knowledge management systems: a text mining perspective. University of Arizona (Knowledge Computing Corporation), Tucson, Arizona. 2001 DEBASTIANI, Carlos Alberto. Encare o mercado de aes sem temor! Disponvel em:<http://www.marketweapon.com.br/download/Encare_o_mercado_de_acoes_se m_temor.pdf>, acessado 02 de outubro de 2011. DESCHATRE, Gil Ari. Investimento em aes. Rio de Janeiro: Thomas Nelson Brasil, 2009. DIAS, M. A. L., MALHEIROS, M. G.; Extrao Automtica de Palavras-chave de Textos da Lngua Portuguesa. Centro Universitrio UNIVATES. 2005. EIZIRIK, Nelson. Questes de direito societrio e mercado de capitais. Rio de Janeiro: Forense, 1987. FELDMAN, R; SANGER, J.The Text Mining Hand book. New York: Cambridge University Press, 2007. FORTUNA, E. Mercado Financeiro: Produtos e Servios Rio de Janeiro: Quality mark, 2005. GOLDSCHMIDT, R., PASSOS, E. Data Mining: Um Guia Prtico. Rio de Janeiro: Elsevier. 2005. KAO, Anne; POTEET, Stephen R. Natural Language Processing and Text Mining. Springer, 2007. LEITE, Helio de Paula. ndice Bovespa: Um padro para os investimentos Brasileiros. So Paulo: Ed. Atlas, 1995. LIU, B. Web data mining: Exploring Hyperlinks, Contents and Usage Data. Chicago Usa: Springer, 532 p. 2006. LOPES, M. C. S., Minerao de dados textuais utilizando tcnicas de clustering, para o idioma portugus. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil. 2004. LOPES, Thomas Jefferson P. Minerao de Opinies aplicada Anlise de Investimentos. Artigo Centro Universitrio Senac, 2009. LOPES, Thomas Jefferson Pereira; HIRATINI. Minerao de Opinies aplicada Anlise de Investimentos. Trabalho de concluso de curso Centro Universitrio SENAC Campus Santo Amaro, So Paulo, 2008. LUQUET, Mara. Guia Valor Econmico de finanas pessoais. 2. ed. Revisada e Atualizada. So Paulo: Ed. Globo, 2008. MAGALHAES, Teresinha Moreira de. Uma metodologia de minerao de opinies na web. Tese de Doutorado (Engenharia Civil) - COPPE/UFRJ, 2009.

87

MATSURA, Eduardo. Comprar ou vender? Como Investir na bolsa utilizando anlise grfica. Editora Saraiva, 2006. ISBN: 9788502065963 MELLAGI FILHO, Armando. Mercado Financeiro e de Capitais. 3. ed. So Paulo: Atlas, 1998. MENDONA, Jos Xavier Carvalho de. Tratado de direito comercial brasileiro. So Paulo: Livraria Freitas Bastos S.A., 1961. MLLER, Lucas. Processo de tomada de deciso usando redes neurais artificiais e agentes inteligentes no domnio da predio do mercado de capitais. Trabalho de Concluso, Universidade de Santa Cruz do Sul, 2010. OLIVEIRA, Ingrid Martins de. Estudo de uma metodologia de minerao de textos cientficos em lngua portuguesa. Tese de Mestrado (Engenharia Civil) COPPE/UFRJ, 2009. OLIVEIRA, Miguel Delmar de; SOARES, Ademir Gargiullo; LOPES, Marco Aurlio. Introduo ao mercado de aes. Edio 1986. Comisso Nacional de Bolsa de Valores. Rio de Janeiro, 1986. ORENGO, V. M.; HUYCK, C. R.A Stemming Algorithm for The Portuguese Language. In: Proceedings of the SPIRE Conference. Laguna de San Raphael, 2001. PANG, Bo; LEE, Lilian; VAITHYANATHAN, Shivakumar. Thumbs up? Sentiment Classification Using Machine Learning Techniques, In Proceedings Of Emnlp, 2002. PIAZZA, Marcelo C. Bem-vindo Bolsa de Valores. 7. ed. Revista e ampliada. Editora Novo Conceito, 2007. PINTO, Andr Moreira. Minerao De Textos E Gesto Do Conhecimento: Aplicao Na Experincia Operacional Em Gerao De Energia Nuclear Nas Usinas De Angra I E Ii. Ps-Graduao (Cincia da Informao da UFMG) Belo Horizonte, 2007. REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicaes. Barueri: Editora Manole, 2003. 525 p. RICH, Elaine; KNIGTH Kevin. Inteligncia Artificial. 2. ed. So Paulo: Editora. McGraw-Hill Ltda. 1993. RSS ADVISORY BOARD, Really simple syndication specifications, tutorial and discussion. RSS 2.0 Specification. Disponvel em: < http://www.rssboard.org/rssspecification>, acessado 20 de outubro de 2012. SAMPAIO, Cleuton. Web 2.0 e mashups: reinventando a internet. 1. ed. So Paulo: Brasport, 2007.GD

88

SANVICENTE, Antnio Zoratto; FILHO, Armando Mellagi. Mercado de Capitais e Estratgias de Investimento. So Paulo: Editora Atlas SA, 1988. SMARRITO, Marcelo. Desmistificando a Bolsa de Valores Quem disse que ela no para voc? 3. ed. So Paulo: Elsevier, 2007. SONG, Min; WU, Yi-fang Brook. Handbook of Research on Text and Web Mining Technologies, 2009. SULLIVAN, Dan. Document Warehousing and Text Mining: techniques for improving business operations, marketing and sales. New York, Wiley, 2001. TICOM, Antnio Alexandre Mello. Aplicao de minerao de textos e sistemas especialistas na liquidao de processos trabalhistas. Dissertao de Mestrado (Engenharia Civil) - COPPE/UFRJ, 2007.