Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Mining Final
Data Mining Final
PAULO
Hortolndia
2011
Hortolndia
2011
3
DEDICATRIA
Dedicamos este trabalho a Deus, por
sempre nos proporcionar f para nunca
desistirmos
sade
para
sempre
continuar na caminhada.
4
AGRADECIMENTO
Agradecemos
aos
professores,
da
faculdade,
aos
nossos
RESUMO
Este estudo tem como objetivo analisar o contedo proposto pelo processo
de Minerao de Dados e a possibilidade da aplicao de suas tcnicas na Bolsa de
Valores. tambm um objetivo apresentar conceitos bsicos que envolvem o
processo de Data Mining. Nesse contexto, o presente texto pretende apresentar
alguns desses conceitos sobre as tcnicas que envolvem a Minerao de Dados em
grandes conjuntos de dados, alm de registrar algumas caractersticas de softwares
especficos para Data Mining, aplicaes j realizadas com sucesso e o grau de
dificuldade da aplicao desta tecnologia na Bolsa de Valores.
A Minerao de Dados destaca-se como parte de um processo maior de
pesquisa denominado Busca de Conhecimento em Banco de Dados (KDD), para
qual apresentado sua metodologia para preparao e explorao dos dados,
interpretao de seus resultados e assimilao dos conhecimentos minerados.
Organizaes que tm como finalidade obter lucro, qualidade e tomar
decises com rapidez, suportam grandes desafios por parte da gesto de negcios.
Para superar estes desafios, h necessidade de tais organizaes aperfeioarem
seus processos de tomada de deciso. A Minerao de Dados apresenta-se como
auxlio para tal aperfeioamento.
ABSTRACT
This study has how I aim to analyse the content proposed by the process of
Mining of Data and the possibility of the application of his techniques in the Stock
Exchange. It is also an objective to present basic concepts that wrap the process of
Date Mining. In this context, the present text intends to present some of these
concepts on the techniques that wrap the Mining of Data in great sets of data,
besides registering some characteristics of softwares special for Date Mining,
applications already carried out with success and the degree of difficulty of the
application of this technology in the Stock Exchange.
The Mining of Data stands out how part of a process bigger of inquiry called
a Search of Knowledge in Database (KDD), for which his methodology is presented
for preparation and exploration of the data, interpretation of his results and
assimilation of the mined knowledges.
Organizations that have like finality obtains profit, quality and to take
decisions with speed, support great challenges for part of the business management.
To surpass these challenges, there is need of such organizations they perfect his
processes of taking decision. The Mining of Data presents itself a help for such an
improvement.
SQL
AAFES
MTS
MSC
DB2
Database 2
DWE
LISTA DE FIGURAS
FIGURA 1: ETAPAS DO PROCESSO KDD [4].....................................................16
FIGURA 2: FUNCIONALIDADES EM MINERAO DE DADOS [3].........................20
FIGURA 3: SUB-FUNCIONALIDADES DA ANLISE PRVIA [3]............................21
FIGURA 4: SUB-FUNCIONALIDADES DO DESCOBRIMENTO [3]...........................21
FIGURA 5: EXEMPLO DE UMA RVORE DE DECISO [6]....................................25
FIGURA 6: EXEMPLO DE RVORE DE DECISO SOBRE A TABELA 1 [2]..............32
FIGURA 7: JANELA DA FERRAMENTA DARWIN [2]............................................34
FIGURA 8: JANELA DA FERRAMENTA IBM INTELLIGENT MINER EXIBINDO UM
GRFICO DE CLIENTES [2].............................................................................35
FIGURA 9: FLUXO DE MINERAO DE DADOS EM ANLISE DE EMPRSTIMO [2] 36
FIGURA 10: EVOLUO DAS COTAES DIRIAS PARA OS TTULOS DO NDICE
NASDAQ PARA CADA DIA DA SEMANA [7].......................................................38
FIGURA 11: DISTRIBUIES DE DIVIDENDOS [7].............................................39
FIGURA 12: EXEMPLO DE APLICAO DE DATA MINING NA BOLSA DE VALORES
[7]...............................................................................................................41
LISTA DE TABELAS
TABELA 1: TABELA EXEMPLO PARA RVORE DE DECISO [2]...........................31
10
LISTA DE QUADROS
11
SUMRIO
DEDICATRIA.................................................................................................4
DEDICATRIA.................................................................................................4
DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F
PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA
CAMINHADA...................................................................................................4
DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F
PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA
CAMINHADA...................................................................................................4
AGRADECIMENTO ..........................................................................................5
AGRADECIMENTO ..........................................................................................5
INTRODUO...............................................................................................14
BUSCA DE CONHECIMENTO EM BANCO DE DADOS (KDD).................................16
ETAPAS DO PROCESSO DE KDD.................................................................................................16
Definio (Database)................................................................................................17
Seleo (Selection)...................................................................................................17
Limpeza de Dados e pr-processamento (Preprocessing).........................................17
Reduo de Dados e Projeo (Transformation).......................................................17
Minerao de Dados (Data Mining)...........................................................................17
Interpretao / Avaliao (Interpretation/Evaluation)...............................................17
Implantao do Conhecimento Descoberto (Knowledge)..........................................17
KDD E DATA MINING...........................................................................................................17
MINERAO DE DADOS (DATA MINING)..........................................................19
FUNCIONALIDADES.................................................................................................................19
Anlise Descritiva.....................................................................................................20
Anlise Prvia...........................................................................................................20
Descobrimento................................................................................................................... 21
Anlise de Prognstico..............................................................................................22
Estimao 22
Predio 22
Classificao....................................................................................................................... 22
12
Algoritmos de Regresso..........................................................................................29
Algoritmos de Segmentao.....................................................................................30
Algoritmos de Associao.........................................................................................30
Algoritmos de Anlise de Sequncias........................................................................30
APLICAO DOS ALGORITMOS....................................................................................................30
rvore de Deciso.....................................................................................................31
Algoritmo de Naive Bayes.........................................................................................32
Algoritmo de Cluster.................................................................................................32
ANLISE DE FERRAMENTAS...........................................................................33
ORACLE DARWIN DATA MINING SOFTWARE....................................................................................33
IBM INTELLIGENT MINER.........................................................................................................34
SAS ENTERPRISE MINER........................................................................................................35
DATA MINING NA BOLSA DE VALORES............................................................36
EXEMPLO PRTICO................................................................................................................37
ANLISE DOS DADOS.............................................................................................................37
Relao Entre a Evoluo das Cotaes Durante 1 Dia e o Dia da Semana .............37
Evoluo da Cotao nos Dias que Antecedem uma Distribuio de Dividendos......38
Evoluo da Cotao aps Grandes Valorizaes.....................................................39
Evoluo da Cotao aps Grandes Desvalorizaes................................................40
PROCESSO DE DATA MINING NA BOLSA DE VALORES.........................................................................40
CONCLUSO.................................................................................................41
REFERNCIA BIBLIOGRFICA.........................................................................42
13
INTRODUO
Atualmente as organizaes tm demonstrado muita eficincia em capturar,
organizar e armazenar grandes quantidades de dados. Dados estes obtidos em
operaes dirias ou pesquisas cientificas. Porm, uma grande porcentagem destas
organizaes ainda no utiliza adequadamente essa gigantesca quantidade de
dados para transform-la em conhecimento que possa ter utilidade em suas prprias
atividades.
Eis que surge um conceito denominado Minerao de Dados (Data Mining)
que est se tornando cada vez mais popular como uma ferramenta de descoberta de
informaes.
Data Mining ou Minerao de Dados uma ampla rea de pesquisa que
inclui diversas tecnologias tais como banco de dados, recuperao da informao,
inteligncia artificial, aprendizado de mquinas, computao de alto desempenho,
redes neurais, estatstica, reconhecimento de padres e visualizao de dados.
A Minerao de Dados teve inicio a partir de um momento em que
profissionais de empresas e organizaes tomaram conta de que um grande
contedo de dados informticos eram estocados e inutilizados dentro de suas
empresas. No princpio, Data Mining consistia principalmente na extrao de
informaes de gigantescas bases de dados da maneira mais automatizada
possvel. Atualmente, Data Mining consiste tambm na anlise destes dados aps a
extrao com objetivo de descobrir padres ou regras que permitam uma melhor
compreenso das informaes.
Afinal, o que Minerao de Dados? Falando simplesmente, trata-se de
extrair ou minerar conhecimento de grandes volumes de dados.
H diversas formas em que um projeto de Data Mining pode ser
implementado em uma organizao: utilizando softwares especficos para Data
Mining, contratando consultores externos capazes de coletar os dados e apresentar
ao cliente final um relatrio pronto e completo destes dados ou at mesmo seguindo
14
com o processamento dos dados no prprio cliente, onde deve-se criar um ambiente
em que o processo de Data Mining possa ser repetido e aprimorado inmeras vezes.
O sucesso de um projeto de data mining pode transformar o modo de
atuao de uma empresa, passando de mero espectador a um ator no
ambiente em que se encontra. A empresa passa a atuar proativamente, e
no reativamente a situaes de mercado. [1]
15
16
Definio (Database)
Definio do tipo de conhecimento a descobrir, onde se decide quais tipos
de conhecimentos, decises de tomada e benefcios sero adquiridos.
Seleo (Selection)
Selecionar e focar em um conjunto ou subconjunto de dados onde sero
extradas as informaes necessrias.
Limpeza de Dados e pr-processamento (Preprocessing)
Processo de formatao de dados para serem utilizados na minerao de
dados.
Reduo de Dados e Projeo (Transformation)
Reduo do nmero de variveis a serem utilizadas no processo de Data
Mining, com objetivo de agilizar e enriquecer as informaes.
Minerao de Dados (Data Mining)
Seleo de mtodos a serem utilizados, a fim de estabelecer padres na
representao dos dados adquiridos.
Interpretao / Avaliao (Interpretation/Evaluation)
Interpretar as informaes colhidas com a minerao de dados, podendo ser
revisados as etapas de 1 6 quando necessrio.
Implantao do Conhecimento Descoberto (Knowledge)
Adquirir todo este conhecimento descoberto ou document-lo e report-lo as
partes interessadas.
KDD e Data Mining
17
18
19
Anlise Descritiva
A anlise descritiva representa a rea de busca dos dados desconhecidos
dos usurios. Pode ser subdivida em Anlise Prvia e Descobrimento.
Anlise Prvia
Tem o objetivo de analisar uma base de dados identificando anomalias ou
resultados raros que possa influenciar nos resultados da Minerao de Dados.
Para facilitar a aplicao dos processos de Minerao de Dados, pode-se
subdividir a Anlise Prvia em outras funcionalidades, conforme figura 3 a seguir:
20
Descobrimento
o processo de examinar uma base de dados com o objetivo de encontrar
padres "escondidos", sem que exista necessariamente uma idia ou hiptese clara
previamente estabelecida. Em seguida a figura 4 ilustra as sub-funcionalidades do
processo Descobrimento:
21
Anlise de Prognstico
A Anlise de Prognstico tem como objetivo inferir resultados a partir dos
padres encontrados na anlise descritiva, representando a rea de investigao.
A anlise de prognstico pode ser subdividida em Classificao, Estimao
e Predio.
Estimao
A Estimao o processo de predizer um determinado valor, baseado em
um padro j conhecido. Por exemplo, conhecendo-se o padro de despesas e a
idade de uma determinada pessoa, pode-se estimar seu salrio e nmero de filhos.
Predio
Procede-se em predizer um comportamento futuro, baseando-se em
diversos valores. Por exemplo, baseando-se na formao escolar, no trabalho atual
e no ramo de atividade profissional de uma pessoa, h possibilidade de predizer que
seu salrio ser de um certo montante at um determinado ano.
Classificao
o processo responsvel por predizer algum valor para uma varivel
categrica. Por exemplo, pode-se em um banco financeiro, determinar um conjunto
de clientes que oferecem risco para contrair um emprstimo pessoal.
Tcnicas para obteno das Funcionalidades
Assim definidas as funcionalidades (resultados) a que se deseja chegar com
o processo de Data Mining, o prximo passo definir quais tcnicas devem ser
utilizadas sendo mais aderentes para a obteno dos resultados. O quadro 1 a
seguir, exibe um conjunto parcial de tcnicas que podem ser utilizadas em cada
funcionalidade.
Aps a demonstrao do quadro, algumas tcnicas que so utilizadas no
processo de Minerao de Dados sero descritas.
22
Funcionalidade
s
Sub-funcionalidade
Anlise de outliers
Anlise Prvia
Analise de desvios
Visualizao
Classificao
Anlise de associaes
Descobrimento
Agrupamento
(clustering)
Descrio do Conceito
Segmentao
Sumarizao e
Visualizao
Estimao/Predi Estimao/Predio
o
Tcnica
Ferramentas de consulta e tcnicas de
estatstica
Induo por rvores de deciso
Ferramentas de consulta e tcnicas de
estatstica
Induo por rvores de deciso
Agregaes e grficos diversos
Induo por rvores de deciso
Minerao de regras de associao (Anlise
de cesta de venda)
Minerao de regras de associao
booleanas unidimensionais a partir de
bancos de dados transacionais
Minerao de regras de associao em
mltiplos nveis a partir de bancos de dados
transacionais
Minerao de regras de associao
multidimensionais a partir de bancos de
dados transacionais e data warehouse
Da minerao de associao anlise de
correlao
Minerao de associao baseada em
restrio
Mtodos de particionamento
Mtodos hierrquicos
Mtodos baseados em densidade
Mtodos baseado em grid
Mtodos de clustering baseados em
modelos
Anlise de outliers
Sumarizao e Generalizao dos dados
baseados em caracterizao
Caracterizao analtica - anlise da
relevncia do atributo
Induo por rvores de deciso
Agregaes e grficos diversos
Regresso Linear
Regresso Mltipla
Regresso no Linear
23
Regresso logstica
Regresso de Poisson
Classifica o
Classificao
24
EXEMPLO DE APLICAES
Army and Air Force Exchange Service (AAFES)
O Army and Air Force Exchange Service (AAFES) determina os padres de
vendas baseado na demografia dos consumidores. Por exemplo, a AAFES utiliza
minerao de dados automtica para prever quanto uma mulher particular vai gastar
anualmente, dadas a idade, os dependentes e o seu salrio anual. Este nvel de
detalhamento auxilia a AAFES a direcionar seus anncios e vendas para a base de
consumidores adequada.
Wal-Mart
A Wal-Mart percebeu no incio de 1989 que processamento paralelo e
minerao de dados poderiam ser utilizados na busca por informaes comerciais
no seu banco de dados de mais de 6 Terabytes, e logo estes passaram a fazer parte
da sua nova estratgia comercial. Cerca de 2.300 consultas SQL complexas so
feitas diariamente e processadas paralelamente de maneira massiva nas suas
complexas operaes de bancos de dados relacionais. Fitas de dados podem ser
produzidas para paralelismo em srie e dados podem ser particionados ou divididos
por operadores.
Outro exemplo foi desenvolvido pela Wal-Mart, em que a empresa descobriu
que o perfil do consumidor de cervejas era semelhante ao de fraldas. Eram homens
casados, entre 25 e 30 anos, que compravam fraldas e/ou cervejas tarde no
caminho do trabalho para a casa. Com base nisso, a Wal-Mart optou por uma
otimizao das atividades junto s gndolas nos pontos de vendas, colocando as
27
algumas semanas de 20%, porm o erro mdio se manteve dentro dos desejados
10%.
Desta forma, o sistema passou a prever as vendas dos prximos 15 dias
fornecendo mais tempo para a encomenda e transporte do produto. A cada quatro
semanas, a rede neural era ensinada de novo, incluindo-se os dados de mais 4
(quatro) semanas ocorridas seis meses antes e testando-se o erro de previso
utilizando-se sempre os ltimos 6 (seis) meses de vendas, agora incluindo as
ltimas quatro semanas recentemente terminadas.
Algoritmos de Associao
Os algoritmos de associao encontram correlaes entre atributos
diferentes em um conjunto de dados. A aplicao mais comum desse tipo de
algoritmo para criar regras de associao, que podem ser usadas em uma anlise
de cesta bsica. Um exemplo de um algoritmo de associao Algoritmo
Associao da Microsoft.
Algoritmos de Anlise de Sequncias
Os algoritmos de anlise de sequncias resumem sequncias frequentes ou
episdios em dados, como um fluxo de caminho da Web. Um exemplo de um
algoritmo de sequncia Algoritmo MSC (Microsoft Sequence Clustering).
Aplicao dos Algoritmos
A escolha do algoritmo para realizar uma tarefa pode ser muitas vezes
complexa. Pode-se utilizar algoritmos diferentes para realizar a mesma tarefa
empresarial, embora cada algoritmo produz um resultado diferente, e alguns
algoritmos podem produzir mais de um resultado.
Os
algoritmos
no
devem
necessariamente
ser
utilizados
30
rvore de Deciso
O algoritmo rvore de deciso fornece uma classificao de uma base de
dados que lhe fornecida e gera um classificador na forma de uma rvore de
deciso. O algoritmo constri a arvore de deciso de um conjunto de dados usando
o conceito de Entropia da Informao (nvel de aleatoriedade dos dados). O
algoritmo rvore de deciso utiliza o fato de que cada atributo de dados pode ser
usado para tomar uma deciso que particiona os dados em subconjuntos menores
examinando o ganho de informao normalizada, que resultante da escolha de um
atributo. O atributo com maior ganho aquele usado para tomar a deciso. O
algoritmo ento procede recursivamente sobre as sub-listas menores.
Uma rvore de deciso descreve uma estrutura de rvore onde folhas
representam classificaes e ramos representam conjunes de caractersticas que
levam s classificaes. Uma rvore de deciso uma estrutura de rvore onde
cada n interno um atributo do banco de dados de amostras, diferente do atributoclasse, as folhas so valores do atributo-classe, cada ramo ligando um n-filho a um
n-pai etiquetado com um valor do atributo contido no n-pai. Existem tantos
ramos quantos valores possveis para este atributo. Um atributo que aparece num
n no pode aparecer em seus ns descendentes.
O algoritmo rvore de deciso um algoritmo do tipo classificao.
Considerando a tabela 1 a seguir:
A figura 6 a seguir ilustra uma possvel rvore de deciso sobre esta tabela.
31
32
ANLISE DE FERRAMENTAS
Existem ferramentas disponveis no mercado que auxiliam no processo de
minerao de dados. A seguir sero apresentadas algumas destas ferramentas e
uma breve descrio sobre a mesma.
Oracle Darwin Data Mining Software
O Darwin Data Mining Software da Oracle uma ferramenta de minerao
de dados que ajuda a transformar gigantes massas de dados em inteligncia
corporativa. A ferramenta auxilia na busca por padres significativos e correlaes
em dados corporativos. Padres que permitem um melhor entendimento e previso
do comportamento de clientes.
Com a utilizao da ferramenta, possvel traar estratgias para vendas
conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes,
identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia.
O software baseia-se em algoritmo de aprendizagem, implementando
algoritmos de arvore de deciso, rede neurais, entre outros. Possui tambm,
algoritmos para avaliao, otimizao e comparao de modelos.
Na figura 7 ilustra-se o resultado de uma segmentao de clientes, atravs
de uma visualizao interativa em forma de arvore de deciso.
33
34
Figura 8: Janela da ferramenta IBM Intelligent Miner exibindo um grfico de clientes [2]
35
evoluo
das
cotaes
pode
depender
de
fatores
dificilmente
Figura 10: Evoluo das cotaes dirias para os ttulos do ndice NASDAQ para cada dia da semana [7]
38
Quadro 2: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior
aconteceu uma valorizao superior a 15% [7]
Como se pode verificar pelo quadro anterior, logo aps uma valorizao
forte a tendncia de queda no primeiro dia, mas nos dias seguintes a tendncia
para a valorizao sobrepe-se chegando a 59% de valorizao 15 dias aps a forte
subida.
39
Quadro 3: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior
aconteceu uma desvalorizao superior a 15% [7]
40
CONCLUSO
O processo KDD e a Minerao de Dados fazem parte de uma evoluo
natural da tecnologia da informao e tendem a aumentar esse nvel de crescimento
41
REFERNCIA BIBLIOGRFICA
[1] BORTOLI, Joel De. Data Maning (Minerao de Dados). Disponvel em
http://www.guiafar.com.br/portal/index.php?
42
option=com_content&view=article&id=159%3Adata-mining-mineracao-dedados&catid=43%3Atecnologia-da-informacao&Itemid=169&lang=pt. Acessado em
29/10/2011.
[2] NEGREIROS, ngelo Vidal de, Data Mining. Joo Pessoa: Instituto
Federal de Educao, Cincia e Tecnologia. 2009.
[3] CORTS, Sergio da Costa. ROSA, Maria Porcaro. LIFSCHITZ, Srgio.
Minerao de Dados Funcionalidades, Tcnicas e Abordagens. Rio de Janeiro:
PUC. 2002.
[4] SILVA, Marcelino Pereira. Minerao de Dados Conceitos, Aplicaes e
Experimentos com WEKA. Rio Grande do Norte: Universidade do Estado do Rio
Grande do Norte.
[5] STAHNKE, Fernando Rafael. Uso de Data Mining no Mercado Financeiro.
Novo Hamburgo: FEEVALE. 2008.
[6] SFERRA, Heloisa Helena. CORRA, ngela M. C.. Conceitos e
Aplicaes de Data Mining. Piracicaba: UNIMEP. 2003.
[7] SANTOS, Jos Carlos. BASTOS, Felipe Pereira. Sistema de Apoio
Deciso para Investimento na Bolsa de Valores usando Data Mining. Monte da
Caparica: Faculdade de Cincia e Tecnologia. 2004
43