Você está na página 1de 43

UNIO DAS INSTITUIES EDUCACIONAIS DO ESTADO DE SO

PAULO

CURSO DE SISTEMA DE INFORMAES

APLICAO DE TCNICAS DE DATA MINING NA BOLSA DE


VALORES

BRUNO DOS SANTOS GONALVES


HAELITON PICELLI
LEANDRO DOS SANTOS GONALVES
MATEUS DA SILVA GERBONI

Hortolndia
2011

UNIO DAS INSTITUIES EDUCACIONAIS DO ESTADO DE SO


PAULO

CURSO DE SISTEMA DE INFORMAES

APLICAO DE TCNICAS DE DATA MINING NA BOLSA DE


VALORES

BRUNO DOS SANTOS GONALVES


HAELITON PICELLI
LEANDRO DOS SANTOS GONALVES
MATEUS DA SILVA GERBONI

Hortolndia
2011
3

DEDICATRIA
Dedicamos este trabalho a Deus, por
sempre nos proporcionar f para nunca
desistirmos

sade

para

sempre

continuar na caminhada.
4

AGRADECIMENTO
Agradecemos

aos

professores,

profissionais que dedicaram seu tempo e


disponibilizaram seus conhecimentos, aos
colegas

da

faculdade,

aos

nossos

familiares e amigos que nos apoiaram e


acreditaram em nossa capacidade.
5

RESUMO
Este estudo tem como objetivo analisar o contedo proposto pelo processo
de Minerao de Dados e a possibilidade da aplicao de suas tcnicas na Bolsa de
Valores. tambm um objetivo apresentar conceitos bsicos que envolvem o
processo de Data Mining. Nesse contexto, o presente texto pretende apresentar
alguns desses conceitos sobre as tcnicas que envolvem a Minerao de Dados em
grandes conjuntos de dados, alm de registrar algumas caractersticas de softwares
especficos para Data Mining, aplicaes j realizadas com sucesso e o grau de
dificuldade da aplicao desta tecnologia na Bolsa de Valores.
A Minerao de Dados destaca-se como parte de um processo maior de
pesquisa denominado Busca de Conhecimento em Banco de Dados (KDD), para
qual apresentado sua metodologia para preparao e explorao dos dados,
interpretao de seus resultados e assimilao dos conhecimentos minerados.
Organizaes que tm como finalidade obter lucro, qualidade e tomar
decises com rapidez, suportam grandes desafios por parte da gesto de negcios.
Para superar estes desafios, h necessidade de tais organizaes aperfeioarem
seus processos de tomada de deciso. A Minerao de Dados apresenta-se como
auxlio para tal aperfeioamento.

Palavras-chave: Data Mining, Minerao de Dados, Bolsa de Valores,


Busca de Conhecimento em Banco de Dados (KDD).
6

ABSTRACT
This study has how I aim to analyse the content proposed by the process of
Mining of Data and the possibility of the application of his techniques in the Stock
Exchange. It is also an objective to present basic concepts that wrap the process of
Date Mining. In this context, the present text intends to present some of these
concepts on the techniques that wrap the Mining of Data in great sets of data,
besides registering some characteristics of softwares special for Date Mining,
applications already carried out with success and the degree of difficulty of the
application of this technology in the Stock Exchange.
The Mining of Data stands out how part of a process bigger of inquiry called
a Search of Knowledge in Database (KDD), for which his methodology is presented
for preparation and exploration of the data, interpretation of his results and
assimilation of the mined knowledges.
Organizations that have like finality obtains profit, quality and to take
decisions with speed, support great challenges for part of the business management.
To surpass these challenges, there is need of such organizations they perfect his
processes of taking decision. The Mining of Data presents itself a help for such an
improvement.

Key-words: Data Mining, Data Mining, Stock Exchange, Knowledge


Discovery in database (KDD).
7

LISTA DE ABREVIATURAS E SIGLAS


KDD

Knowledge Discovery in database

SQL

Structured Query Language

AAFES

Army and Air Force Exchange Service

MTS

Microsoft Time Series

MSC

Microsoft Sequence Clustering

DB2

Database 2

DWE

Data Warehouse Edition

LISTA DE FIGURAS
FIGURA 1: ETAPAS DO PROCESSO KDD [4].....................................................16
FIGURA 2: FUNCIONALIDADES EM MINERAO DE DADOS [3].........................20
FIGURA 3: SUB-FUNCIONALIDADES DA ANLISE PRVIA [3]............................21
FIGURA 4: SUB-FUNCIONALIDADES DO DESCOBRIMENTO [3]...........................21
FIGURA 5: EXEMPLO DE UMA RVORE DE DECISO [6]....................................25
FIGURA 6: EXEMPLO DE RVORE DE DECISO SOBRE A TABELA 1 [2]..............32
FIGURA 7: JANELA DA FERRAMENTA DARWIN [2]............................................34
FIGURA 8: JANELA DA FERRAMENTA IBM INTELLIGENT MINER EXIBINDO UM
GRFICO DE CLIENTES [2].............................................................................35
FIGURA 9: FLUXO DE MINERAO DE DADOS EM ANLISE DE EMPRSTIMO [2] 36
FIGURA 10: EVOLUO DAS COTAES DIRIAS PARA OS TTULOS DO NDICE
NASDAQ PARA CADA DIA DA SEMANA [7].......................................................38
FIGURA 11: DISTRIBUIES DE DIVIDENDOS [7].............................................39
FIGURA 12: EXEMPLO DE APLICAO DE DATA MINING NA BOLSA DE VALORES
[7]...............................................................................................................41

LISTA DE TABELAS
TABELA 1: TABELA EXEMPLO PARA RVORE DE DECISO [2]...........................31

10

LISTA DE QUADROS

QUADRO 1: FUNCIONALIDADES E SUAS TCNICAS [3].....................................24


QUADRO 2: DISTRIBUIO DA EVOLUO EM DUAS CLASSES (VALORIZAO E
DESVALORIZAO) QUANDO NO DIA ANTERIOR ACONTECEU UMA VALORIZAO
SUPERIOR A 15% [7].....................................................................................39
QUADRO 3: DISTRIBUIO DA EVOLUO EM DUAS CLASSES (VALORIZAO E
DESVALORIZAO) QUANDO NO DIA ANTERIOR ACONTECEU UMA
DESVALORIZAO SUPERIOR A 15% [7].........................................................40

11

SUMRIO
DEDICATRIA.................................................................................................4
DEDICATRIA.................................................................................................4
DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F
PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA
CAMINHADA...................................................................................................4
DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F
PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA
CAMINHADA...................................................................................................4
AGRADECIMENTO ..........................................................................................5
AGRADECIMENTO ..........................................................................................5
INTRODUO...............................................................................................14
BUSCA DE CONHECIMENTO EM BANCO DE DADOS (KDD).................................16
ETAPAS DO PROCESSO DE KDD.................................................................................................16
Definio (Database)................................................................................................17
Seleo (Selection)...................................................................................................17
Limpeza de Dados e pr-processamento (Preprocessing).........................................17
Reduo de Dados e Projeo (Transformation).......................................................17
Minerao de Dados (Data Mining)...........................................................................17
Interpretao / Avaliao (Interpretation/Evaluation)...............................................17
Implantao do Conhecimento Descoberto (Knowledge)..........................................17
KDD E DATA MINING...........................................................................................................17
MINERAO DE DADOS (DATA MINING)..........................................................19
FUNCIONALIDADES.................................................................................................................19
Anlise Descritiva.....................................................................................................20
Anlise Prvia...........................................................................................................20
Descobrimento................................................................................................................... 21

Anlise de Prognstico..............................................................................................22
Estimao 22
Predio 22
Classificao....................................................................................................................... 22

TCNICAS PARA OBTENO DAS FUNCIONALIDADES.............................................................................22


Ferramentas de consulta e tcnicas de estatstica....................................................24
Anlise de vizinhana (K-nearest neighbor)..............................................................24
rvores de deciso....................................................................................................24
APLICAES EM DATA MINING......................................................................25
SEGMENTAO DE MERCADOS ..................................................................................................25
VAREJO.............................................................................................................................25
FINANAS..........................................................................................................................26
MARKETING........................................................................................................................26
SADE..............................................................................................................................26
OUTRAS APLICAES.............................................................................................................27
EXEMPLO DE APLICAES...............................................................................27
ARMY AND AIR FORCE EXCHANGE SERVICE (AAFES)......................................................................27
WAL-MART........................................................................................................................27
MASTERCARD.....................................................................................................................28
REVENDEDORA DE AUTOMVEIS.................................................................................................28
ALGORITMOS DE MINERAO DE DADOS .......................................................29
TIPO DE ALGORITMOS.............................................................................................................29
Algoritmos de Classificao......................................................................................29

12

Algoritmos de Regresso..........................................................................................29
Algoritmos de Segmentao.....................................................................................30
Algoritmos de Associao.........................................................................................30
Algoritmos de Anlise de Sequncias........................................................................30
APLICAO DOS ALGORITMOS....................................................................................................30
rvore de Deciso.....................................................................................................31
Algoritmo de Naive Bayes.........................................................................................32
Algoritmo de Cluster.................................................................................................32
ANLISE DE FERRAMENTAS...........................................................................33
ORACLE DARWIN DATA MINING SOFTWARE....................................................................................33
IBM INTELLIGENT MINER.........................................................................................................34
SAS ENTERPRISE MINER........................................................................................................35
DATA MINING NA BOLSA DE VALORES............................................................36
EXEMPLO PRTICO................................................................................................................37
ANLISE DOS DADOS.............................................................................................................37
Relao Entre a Evoluo das Cotaes Durante 1 Dia e o Dia da Semana .............37
Evoluo da Cotao nos Dias que Antecedem uma Distribuio de Dividendos......38
Evoluo da Cotao aps Grandes Valorizaes.....................................................39
Evoluo da Cotao aps Grandes Desvalorizaes................................................40
PROCESSO DE DATA MINING NA BOLSA DE VALORES.........................................................................40
CONCLUSO.................................................................................................41
REFERNCIA BIBLIOGRFICA.........................................................................42

13

INTRODUO
Atualmente as organizaes tm demonstrado muita eficincia em capturar,
organizar e armazenar grandes quantidades de dados. Dados estes obtidos em
operaes dirias ou pesquisas cientificas. Porm, uma grande porcentagem destas
organizaes ainda no utiliza adequadamente essa gigantesca quantidade de
dados para transform-la em conhecimento que possa ter utilidade em suas prprias
atividades.
Eis que surge um conceito denominado Minerao de Dados (Data Mining)
que est se tornando cada vez mais popular como uma ferramenta de descoberta de
informaes.
Data Mining ou Minerao de Dados uma ampla rea de pesquisa que
inclui diversas tecnologias tais como banco de dados, recuperao da informao,
inteligncia artificial, aprendizado de mquinas, computao de alto desempenho,
redes neurais, estatstica, reconhecimento de padres e visualizao de dados.
A Minerao de Dados teve inicio a partir de um momento em que
profissionais de empresas e organizaes tomaram conta de que um grande
contedo de dados informticos eram estocados e inutilizados dentro de suas
empresas. No princpio, Data Mining consistia principalmente na extrao de
informaes de gigantescas bases de dados da maneira mais automatizada
possvel. Atualmente, Data Mining consiste tambm na anlise destes dados aps a
extrao com objetivo de descobrir padres ou regras que permitam uma melhor
compreenso das informaes.
Afinal, o que Minerao de Dados? Falando simplesmente, trata-se de
extrair ou minerar conhecimento de grandes volumes de dados.
H diversas formas em que um projeto de Data Mining pode ser
implementado em uma organizao: utilizando softwares especficos para Data
Mining, contratando consultores externos capazes de coletar os dados e apresentar
ao cliente final um relatrio pronto e completo destes dados ou at mesmo seguindo
14

com o processamento dos dados no prprio cliente, onde deve-se criar um ambiente
em que o processo de Data Mining possa ser repetido e aprimorado inmeras vezes.
O sucesso de um projeto de data mining pode transformar o modo de
atuao de uma empresa, passando de mero espectador a um ator no
ambiente em que se encontra. A empresa passa a atuar proativamente, e
no reativamente a situaes de mercado. [1]

A Minerao de Dados parte de um processo de pesquisa denominado


Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database KDD), o qual possui um processo prprio de para preparao e explorao dos
dados, interpretao de seus resultados e assimilao dos conhecimentos
minerados.

15

BUSCA DE CONHECIMENTO EM BANCO DE DADOS (KDD)


KDD (Knowledge Discovery in database) um amplo processo de busca de
conhecimento em banco de dados que consiste de uma seqncia iterativa dos
seguintes passos: Limpeza de Dados, Integrao de Dados, Seleo dos Dados,
Transformao de Dados, Minerao dos Dados, Avaliao dos Padres, e
Apresentao e Assimilao do Conhecimento.
Cada etapa do processo de KDD pode retornar a um processo anterior,
conforme sua necessidade. Esta necessidade pode surgir em funo de uma
reavaliao nos dados, uma nova hiptese a ser testada, entre outros casos
decorrentes ao processo de busca.
O KDD possibilita capturar informaes em um banco de dados que at o
momento era desconhecidas ou interpretveis e transform-la em conhecimento,
visando assim, melhorar o entendimento de um problema ou um procedimento de
tomada de deciso, sendo examinado cada termo individualmente.
Etapas do processo de KDD
O processo de KDD definido por etapas. Estas etapas so seguidas e
decididas por um analista ou especialista na rea de anlise de dados. A figura 1 a
seguir, ilustra as etapas que constituem o KDD:

Figura 1: Etapas do Processo KDD [4]

16

Definio (Database)
Definio do tipo de conhecimento a descobrir, onde se decide quais tipos
de conhecimentos, decises de tomada e benefcios sero adquiridos.
Seleo (Selection)
Selecionar e focar em um conjunto ou subconjunto de dados onde sero
extradas as informaes necessrias.
Limpeza de Dados e pr-processamento (Preprocessing)
Processo de formatao de dados para serem utilizados na minerao de
dados.
Reduo de Dados e Projeo (Transformation)
Reduo do nmero de variveis a serem utilizadas no processo de Data
Mining, com objetivo de agilizar e enriquecer as informaes.
Minerao de Dados (Data Mining)
Seleo de mtodos a serem utilizados, a fim de estabelecer padres na
representao dos dados adquiridos.
Interpretao / Avaliao (Interpretation/Evaluation)
Interpretar as informaes colhidas com a minerao de dados, podendo ser
revisados as etapas de 1 6 quando necessrio.
Implantao do Conhecimento Descoberto (Knowledge)
Adquirir todo este conhecimento descoberto ou document-lo e report-lo as
partes interessadas.
KDD e Data Mining

17

Dentre as vrias etapas do processo KDD, a Data Mining uma das


principais, sendo muitas vezes confundida com o prprio KDD. O objetivo principal
do passo Data Mining no KDD a aplicao de tcnicas de minerao nos dados
pr-processados, o que envolve ajuste de modelos e/ou determinao de
caractersticas nos dados.

18

MINERAO DE DADOS (DATA MINING)


Data Mining, que recebe o nome em portugus de Minerao de Dados ou
Extrao de Dados, destaca-se como parte de um processo maior de pesquisa
denominado Descoberta de Conhecimento em Banco de Dados. Consiste em utilizar
ferramentas matemticas e estatsticas para se obter a partir de uma base de dados
uma extrao completa de informaes que aparentemente seriam inutilizveis ao
longo do tempo. Com base neste conceito podem revelar estruturas de
conhecimentos, com o objetivo de descobrir regras e padres importantes.
A interveno do homem junto ferramenta de minerao de dados
imprescindvel, pois a relao Humano-Computador garante uma apurao confivel
dos dados, podendo-se obter resultados mais precisos.
Um especialista na rea primeiramente tem todo o trabalho de descobrir,
selecionar e apresentar de forma adequada quais dados so considerados teis
para serem utilizados na Minerao de Dados. As informaes so processadas
executando a Minerao de Dados, com o objetivo de apresentar informaes
importantes de forma mais simplificadas, para um melhor entendimento dos dados
adquiridos. Resultados so avaliados com a extrao a fim de se adquirir novos
conhecimentos, que podem ser expressos em formas de grficos por exemplo.
Com os dados obtidos e previamente analisados preciso que se tenha
uma noo da estrutura a ser utilizada, pois o prximo passo a ser feito o que se
denomina como Data Warehouse, onde os dados so armazenados e explorados.
Funcionalidades
A funcionalidade da Minerao de Dados tem como objetivo especificar
quais padres entre registro e variveis podem ser utilizados.
fundamental que os conceitos de funcionalidades sejam bem definidos
para que a partir de ento sejam escolhidas melhores tcnicas a serem aplicadas
para se obter os resultados esperados. A classificao da funcionalidade em
Minerao de Dados definida em Anlise Descritiva e Anlise de Prognstico. A

19

figura 2 ilustrada a seguir exibe essa forma de abordagem da funcionalidade na


minerao de dados:

Figura 2: Funcionalidades em Minerao de Dados [3]

Anlise Descritiva
A anlise descritiva representa a rea de busca dos dados desconhecidos
dos usurios. Pode ser subdivida em Anlise Prvia e Descobrimento.
Anlise Prvia
Tem o objetivo de analisar uma base de dados identificando anomalias ou
resultados raros que possa influenciar nos resultados da Minerao de Dados.
Para facilitar a aplicao dos processos de Minerao de Dados, pode-se
subdividir a Anlise Prvia em outras funcionalidades, conforme figura 3 a seguir:

20

Figura 3: Sub-funcionalidades da Anlise Prvia [3]

Descobrimento
o processo de examinar uma base de dados com o objetivo de encontrar
padres "escondidos", sem que exista necessariamente uma idia ou hiptese clara
previamente estabelecida. Em seguida a figura 4 ilustra as sub-funcionalidades do
processo Descobrimento:

Figura 4: Sub-funcionalidades do Descobrimento [3]

21

Anlise de Prognstico
A Anlise de Prognstico tem como objetivo inferir resultados a partir dos
padres encontrados na anlise descritiva, representando a rea de investigao.
A anlise de prognstico pode ser subdividida em Classificao, Estimao
e Predio.
Estimao
A Estimao o processo de predizer um determinado valor, baseado em
um padro j conhecido. Por exemplo, conhecendo-se o padro de despesas e a
idade de uma determinada pessoa, pode-se estimar seu salrio e nmero de filhos.
Predio
Procede-se em predizer um comportamento futuro, baseando-se em
diversos valores. Por exemplo, baseando-se na formao escolar, no trabalho atual
e no ramo de atividade profissional de uma pessoa, h possibilidade de predizer que
seu salrio ser de um certo montante at um determinado ano.
Classificao
o processo responsvel por predizer algum valor para uma varivel
categrica. Por exemplo, pode-se em um banco financeiro, determinar um conjunto
de clientes que oferecem risco para contrair um emprstimo pessoal.
Tcnicas para obteno das Funcionalidades
Assim definidas as funcionalidades (resultados) a que se deseja chegar com
o processo de Data Mining, o prximo passo definir quais tcnicas devem ser
utilizadas sendo mais aderentes para a obteno dos resultados. O quadro 1 a
seguir, exibe um conjunto parcial de tcnicas que podem ser utilizadas em cada
funcionalidade.
Aps a demonstrao do quadro, algumas tcnicas que so utilizadas no
processo de Minerao de Dados sero descritas.

22

Funcionalidade
s

Sub-funcionalidade
Anlise de outliers

Anlise Prvia
Analise de desvios
Visualizao
Classificao

Anlise de associaes

Descobrimento

Agrupamento
(clustering)

Descrio do Conceito
Segmentao
Sumarizao e
Visualizao
Estimao/Predi Estimao/Predio
o

Tcnica
Ferramentas de consulta e tcnicas de
estatstica
Induo por rvores de deciso
Ferramentas de consulta e tcnicas de
estatstica
Induo por rvores de deciso
Agregaes e grficos diversos
Induo por rvores de deciso
Minerao de regras de associao (Anlise
de cesta de venda)
Minerao de regras de associao
booleanas unidimensionais a partir de
bancos de dados transacionais
Minerao de regras de associao em
mltiplos nveis a partir de bancos de dados
transacionais
Minerao de regras de associao
multidimensionais a partir de bancos de
dados transacionais e data warehouse
Da minerao de associao anlise de
correlao
Minerao de associao baseada em
restrio
Mtodos de particionamento
Mtodos hierrquicos
Mtodos baseados em densidade
Mtodos baseado em grid
Mtodos de clustering baseados em
modelos
Anlise de outliers
Sumarizao e Generalizao dos dados
baseados em caracterizao
Caracterizao analtica - anlise da
relevncia do atributo
Induo por rvores de deciso
Agregaes e grficos diversos
Regresso Linear
Regresso Mltipla
Regresso no Linear

23

Regresso logstica
Regresso de Poisson

Classifica o

Classificao

Induo por rvores de deciso


Classificao bayseana
Classificao por backpropagation - Redes
neurais artificiais
Classificao baseada em conceitos da
minerao de regras de associao
Classificao por backpropagation - Redes
neurais
Anlise de vizinhana
Casos baseados em raciocnio
Algoritmos genticos
Abordagem por conjuntos fuzzy

Quadro 1: Funcionalidades e suas Tcnicas [3]

Ferramentas de consulta e tcnicas de estatstica


O primeiro passo em um projeto de minerao de dados pode ser uma
simples anlise do conjunto de dados que ser minerado, utilizando-se de
ferramentas de consultas. Aplicando-se funes da linguagem SQL de um banco de
dados relacional, pode-se obter importantes informaes sobre a distribuio dos
dados. Diversos grficos podem ser preparados utilizando os dados e estatsticas
gerados para facilitar as anlises inicias.
Anlise de vizinhana (K-nearest neighbor)
Esta tcnica uma tcnica de pesquisa e no de conhecimento. Empregase principalmente na anlise de prognstico.
rvores de deciso
Uma rvore de Deciso um fluxograma semelhante a uma estrutura de
rvore, onde cada n interno demonstra um teste ou atributo, cada ramo representa
o resultado do teste e cada folha representa a distribuio dos registros. Quanto
utilizada na anlise de prognstico, em classificao, denominada induo por
rvore de deciso. A figura 5 a seguir apresenta uma classificao utilizando um
algoritmo de rvore de deciso, para prognosticar o grupo de clientes mais propcio
a comprar um determinado produto:

24

Figura 5: Exemplo de uma rvore de deciso [6]

APLICAES EM DATA MINING


As tecnologias de minerao de dados podem ser aplicadas em uma grande
variedade de contextos de tomada de deciso no ramo de negcios.
Para competir efetivamente, as organizaes devem ser capazes de
compreender seus dados disponveis. Identificar padres e tomar decises em
tempo permite que se mantenha a competitividade.
As tcnicas de Data Mining tm sido aplicadas para encontrar respostas no
processo de minimizao de custos, gerenciamento de estoque e gerao de novas
idias em diversas reas.
Segmentao de Mercados
Um dos grandes objetivos de uma organizao conhecer os seus clientes.
Este conhecimento deve ocorrer em vrios nveis, desde o tipo de produto desejado
at que tipo de ofertas eles esto dispostos a aceitar mesmo que os produtos no
sejam essenciais no momento. interessante tambm, ter o conhecimento quanto
ao perfil mdio do consumidor, sua renda, sexo, idade, tamanho da famlia, entre
outros aspectos. Com base nestas informaes, a empresa poder possuir em
estoque o que o cliente mdio provavelmente necessite e realizar ofertas com certo
grau de certeza do seu sucesso a clientes especficos.
Varejo
25

Vrios fatores podem contribuir para a necessidade de previso de vendas,


tais como a satisfao do cliente ao encontrar na loja o que deseja, o menos custo
som estoques por fato da manuteno de estoques mais ajustadas s vendas
futuras, a melhor alocao de vendedores em funo de previso das vendas para o
futuro perodo, entre outros.
Os parmetros importantes a serem considerados quando se analisa a
disponibilidade de produtos em uma loja so a capacidade de produo e
distribuio da indstria produtora do item, a existncia ou no de propaganda
realizada pelo produtor do item e o perodo do ano ou ms dependendo do produto
tratado.
Finanas
O volume de interesses e poder atrelados a ativos financeiros tm
despertado a ateno de muitos para informaes estratgicas deste domnio.
Aplicaes de mineraes de dados vo da deteco de fraudes e lavagem de
dinheiro a analise de mercados, tendncias e fomento especulativo. Anlise de
crdito de consumidores e classificao de clientes para estratgias de marketing
figuram dentre as aplicaes mais comuns.
Marketing
Diversos fatores podem ser includos na aplicao das tcnicas de Data
Mining no ramo de marketing, entre eles a anlise do comportamento do consumidor
cm base em padres de compra; a determinao de estratgia de marketing
incluindo propaganda, localizao de lojas e mala direta; a segmentao de clientes,
lojas ou produtos; bem, como o projeto de catlogos, o layout de lojas e campanhas
publicitrias.
Sade
Dados mdicos tambm tm sido usados em tcnicas de minerao de
dados a fim de se obter informaes a respeito de pacientes, doenas, entre as mais
variadas informaes presentes em dados de hospitais. Alguns exemplos so: a
anlise de eficcia de certos tratamentos, a otimizao de processos dentro de um
hospital, o relacionamento de dados sobre o estado de sade do paciente com a
26

qualificao mdica, a anlise de efeitos colaterais de drogas, diagnose de doenas,


entre outros.
Outras Aplicaes
Diversas reas comeam a utilizar as tcnicas de minerao de dados,
visando conhecer e identificar padres at ento desconhecidos. Entre essas reas
destacam-se as reas de seguros, bancos, comunicaes, explorao de petrleo,
entre outras.

EXEMPLO DE APLICAES
Army and Air Force Exchange Service (AAFES)
O Army and Air Force Exchange Service (AAFES) determina os padres de
vendas baseado na demografia dos consumidores. Por exemplo, a AAFES utiliza
minerao de dados automtica para prever quanto uma mulher particular vai gastar
anualmente, dadas a idade, os dependentes e o seu salrio anual. Este nvel de
detalhamento auxilia a AAFES a direcionar seus anncios e vendas para a base de
consumidores adequada.
Wal-Mart
A Wal-Mart percebeu no incio de 1989 que processamento paralelo e
minerao de dados poderiam ser utilizados na busca por informaes comerciais
no seu banco de dados de mais de 6 Terabytes, e logo estes passaram a fazer parte
da sua nova estratgia comercial. Cerca de 2.300 consultas SQL complexas so
feitas diariamente e processadas paralelamente de maneira massiva nas suas
complexas operaes de bancos de dados relacionais. Fitas de dados podem ser
produzidas para paralelismo em srie e dados podem ser particionados ou divididos
por operadores.
Outro exemplo foi desenvolvido pela Wal-Mart, em que a empresa descobriu
que o perfil do consumidor de cervejas era semelhante ao de fraldas. Eram homens
casados, entre 25 e 30 anos, que compravam fraldas e/ou cervejas tarde no
caminho do trabalho para a casa. Com base nisso, a Wal-Mart optou por uma
otimizao das atividades junto s gndolas nos pontos de vendas, colocando as
27

fraldas ao lado das cervejas. Resultado: O consumo cresceu 30% s sextas-feiras


com a redefinio de layout baseada na conexo de hipteses desenvolvidas pela
minerao de dados.
MasterCard
A MasterCard International processa diariamente cerca de 12 milhes de
transaes e utiliza minerao de dados para extrair todos os tipos de estatsticas
sobre os portadores de cartes. Este processamento est includo nas vendas do
data warehouse de transaes para os mais de 20.000 parceiros comerciais. Isto
permite a visualizao de diferentes classes de portadores de cartes e a anlise de
como estes utilizam seus cartes para desenvolver promoes especializadas e
deteces de fraude.
Revendedora de Automveis
Uma grande revendedora de automveis de vrios fabricantes nos seus
diversos modelos observando sua perda de venda e de clientes a cada vez que no
possua o desejado carro em seus estoques e, contrapondo este fato com o alto
custo de manuteno de grandes estoques deste produto durvel e caro, resolveu
desenvolver um sistema de previso de vendas. A empresa possua um banco de
dados de vendas de carros nos ltimos 5 (cinco) anos e desejava um sistema de
previso capaz de avaliar as vendas 15 dias a frente pois este era o tempo
necessrio para encomenda e transporte de novos itens.
Alm da informao contida no banco de dados, necessrio contextualizar
cada dado de venda com outras informaes como a existncia de propaganda
realizada pelo fabricante, se a venda foi realizada em certos perodos do ano mais
propcios compra de automveis e tambm ao fim de cada ms quando h um
natural aquecimento das vendas. Como prever o futuro no nada fcil, a maior
quantidade de informao pertinente possvel deve ser considerada em qualquer
metodologia.
Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi
feito com dados de quatro anos e meio deixando os ltimos seis meses do perodo
de 5 (cinco) anos de vendas para que fosse testada a capacidade de previso do
sistema. O aprendizado mostrou-se eficiente tendo um erro mximo de previso em
28

algumas semanas de 20%, porm o erro mdio se manteve dentro dos desejados
10%.
Desta forma, o sistema passou a prever as vendas dos prximos 15 dias
fornecendo mais tempo para a encomenda e transporte do produto. A cada quatro
semanas, a rede neural era ensinada de novo, incluindo-se os dados de mais 4
(quatro) semanas ocorridas seis meses antes e testando-se o erro de previso
utilizando-se sempre os ltimos 6 (seis) meses de vendas, agora incluindo as
ltimas quatro semanas recentemente terminadas.

ALGORITMOS DE MINERAO DE DADOS


Os algoritmos de minerao de dados so os mecanismos que criam os
modelos de minerao. Para criar estes modelos, o algoritmo analisa o conjunto de
dados e procura por padres e tendncias. O algoritmo usa os resultados desta
anlise para definir os parmetros de minerao. Ento, estes parmetros so
aplicados ao conjunto completo de dados para extrair padres e estatsticas
detalhadas.
Os modelos de algoritmos podem ser de diversos tipos: um conjunto de
regras que descreve como produtos esto agrupados, uma rvore de deciso que
pode dizer se um cliente em particular comprar um produto, um modelo matemtico
mapeando previses de vendas, entre outros.
Tipo de Algoritmos
Existem alguns algoritmos que so disponibilizados para o uso padro,
desde que estes sejam compatveis com a tecnologia utilizada. A seguir, destacamse alguns tipos de algoritmos.
Algoritmos de Classificao
Os algoritmos de classificao prevem uma ou mais variveis discretas,
com base nos outros atributos do conjunto de dados. Um exemplo de um algoritmo
de classificao Algoritmo rvores de Deciso.
Algoritmos de Regresso
29

Os algoritmos de regresso prevem uma ou mais variveis contnuas,


como lucro ou perda, com base nos outros atributos do conjunto de dados. Um
exemplo de um algoritmo de regresso Algoritmo MTS (Microsoft Time Series).
Algoritmos de Segmentao
Os algoritmos de segmentao dividem dados em grupos ou clusters de
itens que tm propriedades semelhantes. Um exemplo de um algoritmo de
segmentao Algoritmo Microsoft Clustering.

Algoritmos de Associao
Os algoritmos de associao encontram correlaes entre atributos
diferentes em um conjunto de dados. A aplicao mais comum desse tipo de
algoritmo para criar regras de associao, que podem ser usadas em uma anlise
de cesta bsica. Um exemplo de um algoritmo de associao Algoritmo
Associao da Microsoft.
Algoritmos de Anlise de Sequncias
Os algoritmos de anlise de sequncias resumem sequncias frequentes ou
episdios em dados, como um fluxo de caminho da Web. Um exemplo de um
algoritmo de sequncia Algoritmo MSC (Microsoft Sequence Clustering).
Aplicao dos Algoritmos
A escolha do algoritmo para realizar uma tarefa pode ser muitas vezes
complexa. Pode-se utilizar algoritmos diferentes para realizar a mesma tarefa
empresarial, embora cada algoritmo produz um resultado diferente, e alguns
algoritmos podem produzir mais de um resultado.
Os

algoritmos

no

devem

necessariamente

ser

utilizados

independentemente. Em uma soluo de minerao de dados, possvel, por


exemplo, utilizar algoritmos para explorar dados e em seguida utilizar outros
algoritmos para prever um resultado especfico com base nesses dados.
A seguir, apresentam-se alguns exemplos de algoritmos.

30

rvore de Deciso
O algoritmo rvore de deciso fornece uma classificao de uma base de
dados que lhe fornecida e gera um classificador na forma de uma rvore de
deciso. O algoritmo constri a arvore de deciso de um conjunto de dados usando
o conceito de Entropia da Informao (nvel de aleatoriedade dos dados). O
algoritmo rvore de deciso utiliza o fato de que cada atributo de dados pode ser
usado para tomar uma deciso que particiona os dados em subconjuntos menores
examinando o ganho de informao normalizada, que resultante da escolha de um
atributo. O atributo com maior ganho aquele usado para tomar a deciso. O
algoritmo ento procede recursivamente sobre as sub-listas menores.
Uma rvore de deciso descreve uma estrutura de rvore onde folhas
representam classificaes e ramos representam conjunes de caractersticas que
levam s classificaes. Uma rvore de deciso uma estrutura de rvore onde
cada n interno um atributo do banco de dados de amostras, diferente do atributoclasse, as folhas so valores do atributo-classe, cada ramo ligando um n-filho a um
n-pai etiquetado com um valor do atributo contido no n-pai. Existem tantos
ramos quantos valores possveis para este atributo. Um atributo que aparece num
n no pode aparecer em seus ns descendentes.
O algoritmo rvore de deciso um algoritmo do tipo classificao.
Considerando a tabela 1 a seguir:

Tabela 1: Tabela exemplo para rvore de deciso [2]

A figura 6 a seguir ilustra uma possvel rvore de deciso sobre esta tabela.

31

Figura 6: Exemplo de rvore de deciso sobre a tabela 1 [2]

Algoritmo de Naive Bayes


O algoritmo de Naive Bayes um algoritmo de classificao usado na
modelagem preditiva. Este nome deriva do fato de que este algoritmo usa o teorema
de Bayes, mas no leva em conta as dependncias que possam existir entre os
dados e sendo assim chamado de Naive, ou seja, ingnuo.
Este algoritmo pode ser usado para termos modelos de minerao rpidos
para descobrir relacionamentos entre colunas de entrada e colunas onde se tenta
realizar uma previso. utilizado para fazer uma minerao inicial dos dados e de
acordo com as sadas deste algoritmo, pode-se aplicar outro que seja mais preciso.
Algoritmo de Cluster
O algoritmo de cluster do tipo segmentao de dados. Ele utiliza tcnicas
iterativas para agrupar os casos no conjunto de dados definindo pores que contm
caractersticas similares. Este agrupamento pode ser usado para explorar os dados
e identificar anomalias nestes dados.
Este algoritmo ajuda a identificar relaes entre os dados que no so
facilmente visualizados em uma simples observao.

32

ANLISE DE FERRAMENTAS
Existem ferramentas disponveis no mercado que auxiliam no processo de
minerao de dados. A seguir sero apresentadas algumas destas ferramentas e
uma breve descrio sobre a mesma.
Oracle Darwin Data Mining Software
O Darwin Data Mining Software da Oracle uma ferramenta de minerao
de dados que ajuda a transformar gigantes massas de dados em inteligncia
corporativa. A ferramenta auxilia na busca por padres significativos e correlaes
em dados corporativos. Padres que permitem um melhor entendimento e previso
do comportamento de clientes.
Com a utilizao da ferramenta, possvel traar estratgias para vendas
conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes,
identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia.
O software baseia-se em algoritmo de aprendizagem, implementando
algoritmos de arvore de deciso, rede neurais, entre outros. Possui tambm,
algoritmos para avaliao, otimizao e comparao de modelos.
Na figura 7 ilustra-se o resultado de uma segmentao de clientes, atravs
de uma visualizao interativa em forma de arvore de deciso.

33

Figura 7: Janela da ferramenta Darwin [2]

IBM Intelligent Miner


O DB2 Data Warehouse Edition (DWE), da IBM, uma sute de produtos
que combinam a administrao de dados, com uma poderosa infra-estrutura de
inteligncia corporativa. O DWE pode ser utilizado para construir uma completa
soluo de data warehouse e gerenci-la com uma soluo nica que integra
componentes ncleos com funcionalidades distintas.
Entre os componentes que compem o DWE est o Intelligent Miner. uma
ferramenta para anlise de dados integrados. As tradicionais tcnicas de minerao
de dados (anlise de agrupamentos, anlise de afinidades, classificao, estimativa
e previso) so suportadas. Adicionalmente, ricos componentes de apresentao
esto disponveis para possibilitar uma anlise visual dos resultados.
A figura 8 a seguir, uma janela da IBM Intelligent Miner exibindo o
agrupamento de clientes onde apenas alguns destes clientes possuem um carto de
crdito internacional comparados quantidade total de clientes.

34

Figura 8: Janela da ferramenta IBM Intelligent Miner exibindo um grfico de clientes [2]

SAS Enterprise Miner


A ferramenta SAS Enterprise Miner um software de minerao de dados
avanada. Combina um extenso pacote de ferramentas integradas de minerao de
dados com uma grande facilidade de utilizao, capacitando os usurios a tirarem
proveito de dados corporativos para obter vantagem estratgica, tudo em um nico
ambiente.
Entre outras funcionalidades, o sistema tambm disponibiliza uma tela que
demonstra graficamente todas as fases do processo de minerao de dados, desde
o acesso aos dados, at a anlise dos resultados, dando todo suporte necessrio a
cada etapa em uma nica soluo integrada. Na figura 9 a seguir, ilustra-se o fluxo
entre as etapas da minerao de dados utilizadas para a anlise de um emprstimo.

35

Figura 9: Fluxo de minerao de dados em anlise de emprstimo [2]

DATA MINING NA BOLSA DE VALORES


O comportamento da bolsa orientado por pressupostos altamente volteis,
logo, conhecer o comportamento no passado no garantia para prever o
comportamento futuro.
A

evoluo

das

cotaes

pode

depender

de

fatores

dificilmente

interpretveis por algoritmos de inteligncia artificial, tais como notcias com


repercusses negativas.
impossvel agregar a quantidade de informao necessria para
representar o conjunto de variveis que justificam a evoluo da bolsa, at porque
muitas vezes segue padres comportamentais que desafiam a lgica de mercado.
Os indicadores da bolsa, por vezes surpreendentemente, at do bons
resultados, no entanto difcil escolher a melhor interpretao conjugada dos
36

mesmos para definir estratgias de investimento, as ferramentas de aprendizagem


automtica podem ajudar a conjugar toda esta informao da melhor forma.
Desde que seja possvel reunir um volume de dados representativo,
teoricamente seria possvel extrair informao til que usando ferramentas menos
poderosas no seria descoberta.
Exemplo Prtico
A aplicao de Data Mining na tentativa de prever o comportamento da
bolsa tem sido largamente investigada nos ltimos anos e tem dado origem aos mais
variados resultados.
Com a disponibilizao de grandes volumes de dados histricos, via web, a
massificao de dados tornou possvel a utilizao de algoritmos de aprendizagem
automtica em larga escala. Muitos padres no comportamento das cotaes na
bolsa foram descobertas utilizando ferramentas de Data Mining sobre as cotaes
passadas em conjunto com outras grandezas relacionadas (por vezes sem relao
aparente).
A passagem de regras do comportamento da bolsa resultantes de Data
Mining para estratgias de investimento enfrenta obstculos de peso. essencial ter
noo se um determinado padro comportamental descoberto por Data Mining devese apenas a um acaso nos dados de treino ou se existe fundamento estatstico para
ser utilizado na predio da evoluo futura.
Anlise dos Dados
Para dar inicio a um projeto de Data Mining deve-se proceder a um conjunto
de anlises para entender as possveis relaes que se podem observar usando
ferramentas de anlise tradicionais. a partir deste tipo de anlise que pode ser
estabelecida a estratgia de triagem e processamento da informao de forma a
apresentar aquela mais relevante e no melhor formato, ao algoritmo de
aprendizagem automtica. Para esta anlise ser demonstrada as cotaes dos
ttulos pertencentes ao ndice NASDAQ entre os anos de 1997 e 2003
inclusivamente. Para este perodo disposto um total de 167.954 registros de
cotaes dirias.
Relao Entre a Evoluo das Cotaes Durante 1 Dia e o Dia da Semana
37

Uma das questes de interesse seria verificar se a evoluo das cotaes


na bolsa difere em mdia consoante o dia da semana. Observando o grfico da
figura 10 pode-se concluir que para o perodo de 1997 a 2003 o pior dia de bolsa
tem sido a segunda-feira. Enquanto que o melhor dia de bolsa em mdia a quintafeira. Analisando esta diferena diria considera-se que o dia da semana poder ser
um atributo valioso para treino de modelos de Data Mining.

Figura 10: Evoluo das cotaes dirias para os ttulos do ndice NASDAQ para cada dia da semana [7]

Evoluo da Cotao nos Dias que Antecedem uma Distribuio de Dividendos


Seria de esperar que quando se aproxima uma distribuio de dividendos e
logo aps a mesma o comportamento das evolues dirias das cotaes fosse de
alguma forma afetado. Considerando a figura 11 a seguir, podemos verificar que em
mdia observa-se uma desvalorizao acentuada nos primeiros quatros (4) dias,
recuperada ao 5 dia.

38

Figura 11: Distribuies de Dividendos [7]

Evoluo da Cotao aps Grandes Valorizaes


Com o objetivo de verificar se aps grandes valorizaes existem
comportamentos distintos para a maioria dos ttulos, escolheram-se aqueles casos
cuja cotao subiu mais do que 15% em um (1) dia, tendo-se obtido os resultados
do quadro 2 a seguir:

Quadro 2: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior
aconteceu uma valorizao superior a 15% [7]

Como se pode verificar pelo quadro anterior, logo aps uma valorizao
forte a tendncia de queda no primeiro dia, mas nos dias seguintes a tendncia
para a valorizao sobrepe-se chegando a 59% de valorizao 15 dias aps a forte
subida.
39

Considerando a sua aparente relao com o comportamento da bolsa, a


evoluo nos dias anteriores deve ser considerada como um indicador valioso.
Evoluo da Cotao aps Grandes Desvalorizaes
Nos perodos que se seguem a grandes desvalorizaes (>15% em 1 dia)
observou-se o comportamento patente no quadro 3 a seguir:

Quadro 3: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior
aconteceu uma desvalorizao superior a 15% [7]

Tambm as grandes desvalorizaes mostram uma forte relao com o


comportamento da bolsa nos dias seguintes. Aps uma forte desvalorizao a
tendncia sempre de recuperao sendo mais evidentes 15 dias aps a
ocorrncia.
Processo de Data Mining na Bolsa de Valores
A seguir a figura 12 ilustra um exemplo do processo de Data Mining:

40

Figura 12: Exemplo de Aplicao de Data Mining na Bolsa de Valores [7]

CONCLUSO
O processo KDD e a Minerao de Dados fazem parte de uma evoluo
natural da tecnologia da informao e tendem a aumentar esse nvel de crescimento
41

com o passar do tempo. A alta competitividade existente atualmente no mercado


far com que as organizaes busquem cada vez mais esse tipo de soluo.
Grandes organizaes utilizam esse tipo de ferramenta hoje em dia e a tendncia
que se torne uma prtica cada vez mais comum alm de evoluda.
A tecnologia de Data Mining est acessvel a diversos ramos empresariais e
se trata de uma tcnica que realmente pode trazer muitos benefcios, ganhos e
lucros.
Existem atualmente no mercado ferramentas de auxlio ao processo de Data
Mining. A utilizao de um software de Minerao de Dados pode trazer descobertas
inovadoras aos seus usurios, porm, deve ficar claro que nenhuma destas
ferramentas trabalha por si s e elimina a necessidade de conhecimento e
entendimento do negcio e a compreenso dos dados a serem minerados.
A utilizao das tcnicas de Data Mining na Bolsa de Valores possvel,
porm, esta abordagem sofre interferncias de fatores imprevisveis que inclusive
podem influenciar nos resultados finais.
Com a juno de um volume de dados significativo, e o auxlio de uma
ferramenta de alto nvel, h possibilidade de extrair informaes teis para uma
futura aplicao na Bolsa de Valores utilizando as tcnicas de Data Mining.

REFERNCIA BIBLIOGRFICA
[1] BORTOLI, Joel De. Data Maning (Minerao de Dados). Disponvel em
http://www.guiafar.com.br/portal/index.php?
42

option=com_content&view=article&id=159%3Adata-mining-mineracao-dedados&catid=43%3Atecnologia-da-informacao&Itemid=169&lang=pt. Acessado em
29/10/2011.
[2] NEGREIROS, ngelo Vidal de, Data Mining. Joo Pessoa: Instituto
Federal de Educao, Cincia e Tecnologia. 2009.
[3] CORTS, Sergio da Costa. ROSA, Maria Porcaro. LIFSCHITZ, Srgio.
Minerao de Dados Funcionalidades, Tcnicas e Abordagens. Rio de Janeiro:
PUC. 2002.
[4] SILVA, Marcelino Pereira. Minerao de Dados Conceitos, Aplicaes e
Experimentos com WEKA. Rio Grande do Norte: Universidade do Estado do Rio
Grande do Norte.
[5] STAHNKE, Fernando Rafael. Uso de Data Mining no Mercado Financeiro.
Novo Hamburgo: FEEVALE. 2008.
[6] SFERRA, Heloisa Helena. CORRA, ngela M. C.. Conceitos e
Aplicaes de Data Mining. Piracicaba: UNIMEP. 2003.
[7] SANTOS, Jos Carlos. BASTOS, Felipe Pereira. Sistema de Apoio
Deciso para Investimento na Bolsa de Valores usando Data Mining. Monte da
Caparica: Faculdade de Cincia e Tecnologia. 2004

43

Você também pode gostar