02 10 Cortes44545

Minerao de Dados Funcionalidades, Tcnicas e Abordagens
Srgio da Costa Crtes1

scortes@inf.puc-rio.br
Rosa Maria Porcaro2
rporcaro@ibge.gov.br
Srgio Lifschitz3
sergio@inf.puc-rio.br
PUC-RioInf.MCC10/02 Maio, 2002
Abstract
The subject of the study is Data Mining, with emphasis on its functionalities (results), techniques
and application strategies. We underline the importance of data mining as part of a larger research
process called Knowledge Discovery in Database (KDD), for which is presented the methodology
for preparation and exploration of data, interpretation of results and assimilation of mined
knowledge. Data mining is presented in the context of business intelligence; its forms of
presentation and the difficulties in implementation in corporations and some applications suitable
for the use of data mining as well as their fields of research are discussed.
Keywords: Data Mining, business intelligence,. KDD, knowledge discovery
Resumo
Apresentamos um estudo sobre Minerao de Dados (data mining), destacando suas
funcionalidades (resultados), tcnicas e abordagens de aplicao. Destacamos minerao de dados
como parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de
Dados (Knowledge Discovery in Database - KDD), para o qual apresentamos sua metodologia
para preparao e explorao dos dados, interpretao de seus resultados e assimilao dos
conhecimentos minerados. Apresentamos a minerao de dados no contexto da inteligncia de
negcios, como se apresenta e quais suas dificuldades de implantao nas empresas e discutimos
algumas aplicaes candidatas utilizao da minerao de dados e suas reas de pesquisas.
Palavras-chave: Minerao de dados, data mining, inteligncia de negcios, KDD, busca de

conhecimento
Doutorando, parcialmente apoiado pela Fundao IBGE e pela PUC-Rio

Doutora em Cincia da Informao, pesquisadora DPE/DEMET Fundao IBGE
3
Parcialmente apoiado por bolsa de pesquisa do CNPq 300048/94-7
2
Introduo
Atualmente as organizaes tm se mostrado extremamente eficientes em capturar,

organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias ou
pesquisas cientficas, porm, a maioria ainda no usa adequadamente essa gigantesca
quantidade de dados para transform-la em conhecimentos que possam ser utilizados em
suas prprias atividades, sejam elas comerciais ou cientficas.
O conceito de Minerao de Dados (Data Mining) est se tornando cada vez mais popular
como uma ferramenta de descoberta de informaes, que podem revelar estruturas de
conhecimento, que possam guiar decises em condies de certeza limitada.
Recentemente, tem havido um interesse crescente em desenvolver novas tcnicas de
anlise de dados, especialmente projetadas para tratar questes relativas a minerao de
dados. No entanto, a minerao de dados ainda est baseada em princpios conceituais de
Anlise de Dados Exploratrios (Exploratory Data Analysis - EDA) e de modelagem.
Diversas definies de Minerao de Dados podem ser encontradas na literatura. Entre as
diversas definies destacamos as seguintes:
Minerao de dados a busca de informaes valiosas em grandes bancos de

dados. um esforo de cooperao entre homens e computadores. Os homens
projetam bancos de dados, descrevem problemas e definem seus objetivos. Os
computadores verificam dados e procuram padres que casem com as metas
estabelecidas pelos homens [WI99].
Minerao de dados a explorao e anlise de dados, por meios automticos ou

semi-automticos, em grandes quantidades de dados, com o objetivo de descobrir
regras ou padres interessantes [BL97].
Minerao de dados, em poucas palavras, a anlise de dados indutiva [Men99].
Minerao de dados o processo de proposio de vrias consultas e extrao de

informaes teis, padres e tendncias, freqentemente desconhecidos, a partir de
grande quantidade de dados armazenada em bancos de dados [BT99].
Minerao de dados, de forma simples, o processo de extrao ou minerao de

conhecimento em grandes quantidades de dados [HK01].
Um conceito muito difundido e errado sobre minerao de dados o que define os

sistemas de minerao de dados como sistemas que podem automaticamente minerar todos
os conceitos valiosos que esto escondidos em um grande banco de dados sem interveno
ou direcionamento humano [HK01].
Para ns, minerao de dados um processo altamente cooperativo entre homens e
mquinas, que visa a explorao de grandes bancos de dados, com o objetivo de extrair
conhecimentos atravs do reconhecimento de padres e relacionamento entre variveis,
conhecimentos esses que possam ser obtidos por tcnicas comprovadamente confiveis e
validados pela sua expressividade estatstica.
Freqentemente, minerao de dados tem sido considerada e classificada como uma
mistura de pesquisas em estatstica, inteligncia artificial e bancos de dados. At
recentemente, no era reconhecido como um campo de interesse para os estatsticos, sendo
mesmo considerado, nesta rea, como uma rea de pesquisa pouco relevante. Devido
sua importncia prtica, entretanto, o campo tem emergido como uma rea de crescimento
acentuado e de elevada importncia, destacando-se pelo surgimento de diversos congressos
cientficos e produtos comerciais.
Minerao de Dados parte de um processo maior de pesquisa denominado Busca de
Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD), o qual
possui uma metodologia prpria para preparao e explorao dos dados, interpretao de
seus resultados e assimilao dos conhecimentos minerados. No entanto, se tornou mais
conhecida do que o prprio processo de KDD em funo de ser a etapa onde so aplicadas
as tcnicas de busca de conhecimentos.
O objetivo deste trabalho apresentar os principais conceitos da tecnologia de KDD,
enfatizando o processo de Minerao de Dados com suas funcionalidades e principais
tcnicas utilizadas para obteno de conhecimento, bem como apresentar uma metodologia
para preparao dos dados para minerao, detalhando os processos de limpeza,
integrao, seleo e transformao de dados, etapas fundamentais para o sucesso da
minerao. Alm disso, inserir a Minerao de Dados no contexto da Inteligncia de
Negcios (Business Intelligence BI) como uma ferramenta de apoio a tomada de deciso
de nvel mais elevado, sendo utilizada principalmente no planejamento estratgico das
empresas.
Este trabalho est organizado da seguinte forma. Na seo 2, apresentam-se as
funcionalidades (resultados), tcnicas e abordagens da minerao de dados. A seo 3 trata
da Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database KDD), onde um estudo detalhado das etapas de limpeza, integrao, seleo e
transformao de dados apresentado. Minerao de dados no contento da inteligncia de
negcios apresentada na seo 4, enquanto que, na seo 5, so apresentadas as
aplicaes em potencial para minerao de dados. Finalmente, na seo 6, so apresentadas
as consideraes finais.
Funcionalidades da minerao de dados, suas tcnicas e abordagens
O processo de aplicao da minerao de dados envolve vrios estgios, conforme

veremos neste trabalho, mas o principal estgio antes de se iniciar a busca do
conhecimento oriundo dessa aplicao definir, claramente, a que resultados deseja-se
chegar. Uma vez definidos os resultados (sees 2.1, 2.2 e 2.3), preciso definir que
tcnicas (seo 2.4) utilizar e como aplicar essas tcnicas para obteno dos conhecimentos
desejados.
2.1 Funcionalidades em minerao de dados

Diversos tipos de armazenamentos de dados e de bancos de dados podem ser utilizados no
processo de minerao. Em funo do tipo de dados armazenado e disponvel se pode
definir que tipo de padres ou relacionamento queremos minerar. A funcionalidade da

minerao de dados ir especificar que tipo de padres ou relacionamentos entre os
registros e suas variveis podem ser utilizados na minerao. Essa funcionalidade tratada,
por alguns autores, como resultados (outcomes) ou tarefas (tasks).
A literatura, em muitos casos, no deixa claro as diferenas entre funcionalidades e
tcnicas. Por exemplo, uma coleo de tcnicas podem ser utilizadas na anlise de cestas
de produtos, entre estas regras de associao. Essas tcnicas so conhecidas como tcnicas
de anlise de cestas de produtos, muito utilizadas em marketing. Entretanto, anlise de
cestas de produtos tambm uma aplicao, que busca determinar que itens so vendidos
juntos em supermercados. A figura 1 a seguir mostra, em camadas, as interaes entre
funcionalidades, tcnicas e algoritmos, visando esclarecer a interatividade do objetivo da
minerao de dados com as tcnicas a serem empregadas.
Usurios
Objetivos
Resultados
Funcionalidades
Tcnicas de
Explorao de Dados
Algoritmos de
Explorao de Dados
Bancos de
Dados
Figura 1: Interatividade entre as funcionalidades e tcnicas da minerao de dados

Diversos autores tratam as funcionalidades da minerao de dados de forma diferente. A
seguir algumas formas de tratamento por esses autores:
[AZ96] - Descoberta de conhecimento e Predio
[BL97] - Classificao, Estimao, Predio, Afinidade em grupos, Agrupamentos

(clustering) e Descrio
[BT99] - Classificao, Deteco de seqncia, Anlise de dependncia de dados e

Anlise de desvio
[EN99] - Previso, Identificao, Classificao e Otimizao
[HK01] - Descrio e Predio
[Men99] - Predio, Classificao, Agrupamento (clustering), Segmentao,

Associao, Visualizao e Otimizao
[WB98] - Classificao, Estimao, Segmentao e Descrio
[WI99] - Predio, Deteco de desvio, Segmentao, Agrupamento (clustering),

Anlise de ligaes e Regras de associao, Sumarizao e Visualizao
e Garimpagem em textos
Como podemos observar, a funcionalidade em minerao de dados no um consenso e

tratada pelos autores muito mais pela sua rea de atuao do que pelo formalismo
necessrio. No entanto, consideramos que definir bem os conceitos da funcionalidade da
minerao de dados, a que resultados queremos chegar fundamental para o processo
como um todo. Uma vez bem definida, se pode melhor escolher as tcnicas a serem
aplicadas para se obter os resultados esperados. Assim, classificamos a funcionalidade em
minerao de dados como Anlise Descritiva e Anlise de Prognstico. A figura 2 ilustra
essa forma de abordagem da funcionalidade na minerao de dados.
Usurios
Funcionalidades
Prognstico
Descritiva
Anlise
Anlise Prvia
Descobrimento
Estimao
Predio
Classificao
Figura 2: Funcionalidades em minerao de dados

Uma das vantagens de se focar as funcionalidades da minerao de dados dessa forma, diz
respeito as facilidade que podem ser obtidas quando surge uma nova necessidade de
anlise de dados. Neste caso, basta identificar a que resultado se deseja chegar e
imediatamente partir para identificao de que tcnica aplicar. A seguir descreveremos os
detalhes dessa abordagem.
2.2 Anlise Descritiva

A Anlise Descritiva representa a rea de investigao nos dados que busca tanto descrever
fatos relevantes, no-triviais e desconhecidos dos usurios, como analisar a base de dados,
principalmente pelo seu aspecto de qualidade, para validar todo o processo da minerao e
seus resultados, ou seja, o conhecimento encontrado. Podemos subdividi-la em Anlise e

Prvia Descobrimento.
Anlise Prvia o processo de analisar uma base de dados com o objetivo de

identificar anomalias ou resultados raros que possam influenciar os resultados da
minerao de dados.
Descobrimento o processo de examinar uma base de dados com o objetivo de

encontrar padres escondidos, sem que necessariamente exista uma idia ou
hiptese clara previamente estabelecida.
Para facilitar a aplicabilidade dos processos de minerao de dados, podemos especializar

tanto a anlise prvia quanto o descobrimento em outras sub-funcionalidades conforme a
figura 3 a seguir.
Anlise Descritiva
Descobrimento
Anlise Prvia
Anlise de outliers
Anlise de desvios
Visualizao

Classificao
Anlise de associaes
Agrupamento (clustering)
Descrio
Deteco de seqncias
Segmentao
Sumarizao e Visualizao
Otimizao
Identificao
Anlise de Evoluo
Anlise em dados no formato
texto
Figura 3: Sub-funcionalidades da anlise prvia e do descobrimento.

seguir especificaremos as sub-funcionalidades de cada funcionalidade descrita
anteriormente.
2.2.1 Anlise Prvia
A funcionalidade anlise prvia pode ser aplicada usando-se uma das seguintes subfuncionalidades:
2.2.1.1
Anlise de Outliers ou deteco de desvios
Esta funcionalidade objetiva encontrar conjuntos de dados que no obedecem ao

comportamento ou modelo dos dados. Uma vez encontrados podem ser tratados ou
descartados para utilizao no processo de minerao de dados. Trata-se de uma
importante avaliao nos dados no sentido de descobrir probabilidades crescentes de

desvios ou riscos associados aos vrios objetivos traados inicialmente na minerao dos
dados. Detectar esses desvios muito anlogo s tcnicas utilizadas em anlises estatstica,
onde so aplicados testes de significncia que assumem uma distribuio, utilizando
medidas estatsticas do tipo mdia aritmtica e desvio padro para aferir essas diferenas
[HK01, WI99].
Como exemplo, podemos avaliar as vendas de uma determinada empresa para verificar o
comportamento de suas vendas como um todo, bem como podemos avaliar suas vendas por
produtos, regies e estados, podendo encontrar outro tipo de comportamento. A figura 4 a
seguir, extrada de [HK01], identifica visualmente a presena de outliers, onde os pontos
externos aos polgonos so valores fora dos padres da populao (vendas) observada.
Figura 4: Deteco de outliers utilizando uma abordagem visual

2.2.1.2
Anlise de desvios
Esta funcionalidade tem por objetivo detectar mudanas de comportamentos, comparando

as aes com os padres para detectar mudanas de comportamento [BT99]. Por exemplo,
aps avaliar o comportamento de clientes em um plano de sade, qualquer alterao de
comportamento pode ser imediatamente analisado e verificado. Essa mesma anlise pode
ser feita para fraudes em cartes de crdito, conhecendo-se o comportamento de compra
dos clientes, entre outras diversas aplicaes.
2.2.1.3
Visualizao
Esta funcionalidade utilizada, principalmente, quando no se tem nenhuma idia da

distribuio dos dados e se deseja encontrar algum tipo de disparidades nos dados. Por
exemplo, construir histogramas por tempo de durao de chamadas telefnicas, no sentido
de identificar os bairros de uma cidade onde o tempo de durao maior ou menor do que
nos outros bairro. Aps essa anlise, podemos identificar melhor como segmentar os dados
ou selecionar atributos (variveis) para formao de agrupamento (clustering). A figura 5 a
seguir exemplifica a visualizao empregada numa anlise prvia deste tipo.
Freqncia de ligaes
Tempo de ligaes em segundo
Figura 5: Deteco de outliers utilizando uma abordagem visual

2.2.2 Descobrimento
A funcionalidade descobrimento pode ser aplicada usando-se uma das seguintes subfuncionalidades:
2.2.2.1
Classificao - descrio por classes e conceitos
A classificao consiste em examinar uma certa caracterstica nos dados e atribuir uma
classe previamente definida. Dados podem ser associados a classes ou a conceitos atravs
de um processo de discriminao ou de caracterizao. Discriminao se caracteriza por
ter seu resultado obtido atravs da atribuio de um valor a um atributo no registro, em
funo de um ou mais atributos do mesmo. Por exemplo, em um supermercado podemos
classificar os produtos por tipo como alimentcio, vesturio, higiene e limpeza etc. J
caracterizao a sumarizao de um atributo de estudo por uma caracterstica de um ou
mais atributos ([BL97], [HK01]. Por exemplo, podemos caracterizar um empregado pelo
seu salrio anual, identificando faixas da agregao mensal de seus salrios em baixa,
mdia e alta.
2.2.2.2
Anlise de associaes
Tambm conhecida na rea de marketing como grupos de afinidade ou anlise de cestas

de venda esta funcionalidade objetiva determinar que coisas esto relacionadas, esto
juntas, ou seja, descobrir as regras de associao condicionadas a valores de atributos que
ocorrem juntos em um conjunto de dados. Se aplica nos casos em que deseja-se estudar
preferncias, afinidades, visando principalmente criar oportunidades para formao de
pacotes para consumidores ([BL97], [HK01]). Por exemplo, uma vez observado que dois
itens so freqentemente adquiridos juntos num supermercado, pode-se preparar e oferecer
estes produtos juntos, numa mesma cesta, pois existe grande afinidade na preferncia de
seus compradores.
2.2.2.3
Esta funcionalidade visa segmentar um conjunto de dados num nmero de subgrupos

homogneos ou clustering. Seu objetivo formar grupos baseados no princpio de que
esses grupos devem ser o mais homogneos em si e mais heterogneos entre si. A
diferena fundamental entre a formao de agrupamento e a classificao que no
agrupamento no existem classes predefinidas para classificar os registros em estudo. Os
registros so agrupados em funo de suas similaridades bsicas, ou seja, quando se deseja
formar agrupamentos, seleciona-se um conjunto de atributos (variveis) e em funo da
similaridade desses atributos so formados os grupos ([BL97], [HK01], [WI99]). Como
exemplo, podemos utilizar dados de um recenseamento nacional para formar grupos de
domiclios, utilizando os atributos escolaridade, profisso, faixa etria, sexo, nmero de
filhos. Observa-se que no existem classes pr definidas e poderemos ter num mesmo
grupo domiclios de estados geograficamente opostos, porm, semelhantes nestes atributos
(variveis). A figura 6 a seguir exemplifica trs possveis agrupamentos (clustering)
formados partir de um conjunto de dados.
Figura 6: Trs critrios diferentes de formao de agrupamentos (clusters)

2.2.2.4
Descrio
Esta funcionalidade pode ser empregada numa anlise para tornar mais clara alguma idia
que est sendo utilizada, hipteses ou fatos observados em um banco de dados. Pode ser
executada em uma anlise de classificao quando as classes no estiverem bem definidas
([BL97], [WB98]). Como exemplos, podemos estudar a afirmao de que mulheres
tendem a votar em candidatas femininas em maior nmero do que os homens ou que as
caractersticas de uma pessoa que fralda cartes de crdito do tipo sexo masculino,
idade entre 25 e 40 anos e possui nvel superior.
2.2.2.5
Deteco de seqncias
Esta funcionalidade tem por objetivo utilizar algum tipo de padro nos dados para
determinar que tipos de seqncias podem ser determinadas [BT99]. Por exemplo, clientes
que compram determinado produto, trs meses aps retornaro para comprar algum outro
produto associado ao primeiro (comprar um aparelho celular e trs meses aps um
carregador de baterias para utilizao em carros).
2.2.2.6
Segmentao
Nesta funcionalidade o conjunto de dados subdividido em conjuntos menores, com

comportamento similares nos atributos de segmentao. Com esses subconjuntos, pode-se
determinar novos agrupamentos (clustering) ou mesmo fazer algum tipo de prognstico.
Difere da anlise de agrupamento (clustering) pois a formao dos grupos conduzida
pelo usurio e no determinada pelo sistema, conforme descrito anteriormente ([Men99],
[WB98], [WI99]). Por exemplo, podemos segmentar os registros dos bilhetes areos de
uma companhia de aviao por cidade de origem, sexo e classe do assento. Aps a
segmentao, podemos formar agrupamentos (clustering) por profisso, faixa etria, estado
de moradia, freqncia de viagens e faixa salarial para traar um perfil de seus passageiros.
2.2.2.7
Um dos principais objetivos da tecnologia de minerao de dados oferecer seus

resultados numa forma fcil de ser interpretado pelos usurios finais. Utilizar a
sumarizao de dados para facilitar o entendimento dos dados uma estratgia muito usual
que facilita e identifica inmeras caractersticas nos dados em estudo. Uma das principais
abordagens para descrio de informaes a visualizao, principalmente quando o
conjunto de dados a ser explorado no est organizado em uma forma padro. Os
resultados da sumarizao e da visualizao so normalmente utilizados em conjunto com
outras funcionalidades [WI99]. Por exemplo, podemos imaginar um grfico de colunas
impresso num mapa do Brasil, indicando em cada estado o nmero de chamadas
telefnicas realizadas no ano de 2000. Facilmente, podemos comparar esses resultados
entre os estados. Se colocarmos os dados de dois anos, nossa anlise ser ainda mais rica.
A figura 7 a seguir um exemplo de minerao de dados fornecendo seus resultados com
tcnicas de sumarizao e visualizao.
Figura 7: Minerao de dados com resultados da sumarizao e visualizao
2.2.2.8
Otimizao
Esta funcionalidade visa otimizar recursos limitados como tempo, espao, dinheiro,
matria-prima etc, buscando maximizar variveis de resultado como vendas, lucros,
distribuio, economia de espao etc. Esta funcionalidade se aproxima dos estudos da rea
de pesquisa operacional, a qual trata de problemas de otimizao, sempre sujeito a
restries ([EN99], [Men99]). Como exemplo, podemos estudar as vendas de um
supermercado, no sentido de otimizar a distribuio de seus produtos em suas gndolas,
visando otimizar a exposio de um nmero cada vez maior de produtos.
2.2.2.9
Identificao
Esta funcionalidade tem por objetivo utilizar os padres de dados para identificar a
existncia de um item, um evento ou uma atividade. Por exemplo, intrusos que tentam
romper um sistema podem ser identificados atravs dos programas executados, dos
arquivos acessados e do tempo de CPU por sesso. Em aplicaes biolgicas, a existncia
de um gene pode ser identificada atravs de certas seqncias de smbolos nucleotdeos
(nucleotides) na seqncia de DNA. A rea conhecida como autenticao uma forma de
identificao. Ela verifica se um usurio de fato um usurio especfico ou se pertence a
uma classe autorizada; envolve uma comparao de parmetros ou imagens ou sinais em
relao ao banco de dados [EN99].
2.2.2.10 Anlise de Evoluo
Esta funcionalidade descreve e estuda a regularidade de modelos ou tendncias para

objetos cujo comportamento muda ao longo do tempo [HK01]. Como exemplo, podemos
citar a evoluo de estoques em que as empresas que necessitam constantemente decidir
sobre a sua ampliao ou melhor distribuio de seus produtos, em funo da regularidade
das vendas da empresa.
2.2.2.11 Anlise em dados no formato texto
Esta funcionalidade visa trabalhar os diversos dados armazenados no formato texto, tais
como narrativas, processos judiciais etc, visando transformar esses textos em uma forma de
uso e extrair seus resultados baseados em tcnicas de tratamento e explorao de textos
[WI99]. Como exemplo, podemos citar a explorao de dados no formato texto em
processos criminais, no sentido de utiliz-los no reconhecimento de padres e verificao
de similaridade entre crimes.
Outras funcionalidades de descobrimento podem ser utilizadas tais como a comparao de
imagens de satlites, as seqncias genticas, a minerao em bancos de dados espaciais, a
minerao em bancos de dados multimdias, a minerao dos dados da web etc., para
citamos somente as mais utilizadas em negcios e j implementadas em ferramentas
comerciais.
10
2.3 Anlise de Prognstico

A Anlise de Prognstico representa a rea de investigao nos dados que busca inferir
resultados a partir dos padres encontrados na anlise descritiva, ou seja prognosticar o
comportamento de um novo conjunto de dados. Podemos subdividi-la em Classificao,
Estimao e Predio [BL97, BT99 e HK01]. Embora muitos autores tratem a anlise de
prognstico como simplesmente predio ou estimao, nos pareceu conveniente a
separao para um melhor entendimento.
Estimao o processo de predizer algum valor, baseado num padro j

conhecido. Por exemplo, conhecendo-se o padro de despesas e a idade de uma
pessoa, estimar seu salrio e seu nmero de filhos.
Predio o processo de predizer um comportamento futuro, baseado em vrios

valores. Por exemplo, baseado na formao escolar, no trabalho atual e no ramo de
atividade profissional de uma pessoa, predizer que seu salrio ser de um certo
montante at um determinado ano.
Classificao o processo para predizer algum valor para uma varivel

categrica. Por exemplo, podemos num banco financeiro, determinar que conjunto
de clientes oferecem risco ou no para contrair um emprstimo pessoal.
No dividimos a anlise de prognstico em sub-funcionalidades conforme a anlise

descritiva, pois ao nvel de funcionalidade as definies acima esgotam com bastante
clareza a sua aplicao. Maiores detalhes sobre modelagem de prognsticos podem ser
encontrados em ([BL97], [BT99] e [HK01]) e, principalmente, em [WI99].
2.4 Tcnicas para obteno das funcionalidades

Uma vez definidas as funcionalidades (resultados) a que se deseja chegar com o processo
de minerao de dados, cabe agora escolher que tcnicas devemos utilizar, que sejam mais
aderentes para a obteno dos resultados, com uma melhor preciso. Por exemplo, a
funcionalidade de estimao pode ser feita utilizando-se a tcnica de regresso linear ou
regresso mltipla. Entretanto, sabemos que para uma estimativa de curtssimo prazo e
com poucas variveis a regresso linear mais fcil de ser utilizado e proporciona bons
resultados, entretanto, para estimativas de longo prazo no a mais indicada. A tabela 1 a
seguir mostra um conjunto parcial de tcnicas que podem ser utilizadas em cada
funcionalidade:
11
Funcionalidade
Sub-funcionalidade
Tcnica
Anlise Prvia
Anlise de outliers
Ferramentas de consulta e tcnicas de

estatstica
Induo por rvores de deciso
Anlise de desvios
Ferramentas de consulta e tcnicas de

estatstica
Visualizao
Agregaes e grficos diversos
Classificao
Anlise de associaes
Minerao de Regras de associao

(Anlise da cesta de venda - Market
basket analysis)
Descobrimento
Minerando regras de associao

booleanas unidimensionais a partir de
bancos de dados transacionais
Minerando regras de associao em
mltiplos nveis a partir de bancos de
dados transacionais
Minerando regras de associao
multidimensionais a partir de bancos de
dados transacionais e data warehouse
Da minerao de associao anlise de
correlao
Minerao de associao baseada em
restrio
12
Mtodos de particionamento
Mtodos hierrquicos
Mtodos baseados em densidade
Mtodos baseados em grid
Mtodos de clustering baseados em
modelos abordagem estatstica e redes
neurais
Anlise de outliers
Descrio do Conceito (caracterizao e comparao)
Sumarizao e Generalizao dos dados

baseados em caracterizao
Caracterizao analtica anlise da
relevncia do atributo
Segmentao
Agregaes e grficos diversos
Anlise em dados no formato texto
Anlise de dados textual e recuperao

de informaes
Minerao de textos classificao de
documentos e associao por palavras
chaves
Estimao/Predio
Estimao/Predio
Regresso Linear
Regresso Mltipla
Regresso no linear
Regresso Logstica
Regresso de Poisson
Outros modelos de regresso
Classificao
Classificao

Classificao bayseana
Classificao por backpropagation
Redes Neurais Artificiais
Classificao baseada em conceitos da
minerao de regras de associao
Classificao por Backpropagation
13
Redes Neurais
Anlise de vizinhana (k-Nearest
Neighbor)
Casos baseados em Raciocnio
Algoritmos genticos
Abordagem por conjuntos fuzzy
Tabela 1: Funcionalidades e suas tcnicas
A seguir descreveremos algumas tcnicas que so utilizadas no processo de minerao de

dados.
2.4.1 Ferramentas de consulta e tcnicas de estatstica
O primeiro passo em um projeto de minerao de dados pode ser uma anlise simples,
preliminar, grosseira do conjunto de dados que ser minerado, utilizando-se de
ferramentas de consultas. Aplicando-se as funes built-in da linguagem SQL de um banco
de dados relacional, podemos obter informaes bastante ricas sobre a distribuio dos
dados. Antes de aplicarmos algoritmos avanados de reconhecimento de padres,
precisamos conhecer os aspectos e estruturas do conjunto de dados que iremos minerar.
Estatsticas como mdia aritmtica, desvio padro, valores mximos e mnimos e
distribuio percentual de todo o conjunto de dados ou por grupos (utilizando-se a clusula
group by) representam os passos iniciais num processo de minerao de dados. Alm
dessas consultas e estatsticas, vrios grficos podem ser preparados utilizando-se os dados
e estatsticas gerados para facilitar as anlises iniciais [AZ96].
2.4.2 Visualizao
A tcnica de visualizao de dados extremamente til como tcnica de descobrimento de

padres em conjunto de dados e pode ser largamente utilizada no incio do processo de
minerao de dados. Embora possa parecer uma tcnica no muito sofisticada, permite que
se tenha uma medida inicial da qualidade dos dados e de onde os padres possam ser
encontrados.
14
Quando utilizada nos processos mais avanados da minerao de dados, possibilita a

utilizao de grficos tri-dimensional de forma interativa, grficos hierrquicos para
segmentao da base de dados em formato de rvores, entre outras formas de visualizao.
A figura 8 a seguir apresenta um resultado da minerao de dados utilizando a tcnica de
visualizao na disposio de produtos em depsitos de uma empresa.
Figura 8: Um exemplo de visualizao de dados

2.4.3 Anlise de vizinhana (K-nearest neighbor)
Quando se interpreta dados como um ponto no espao, ns precisamos definir o conceito

de vizinhana, o qual significa identificar o conjunto de registros que esto prximos, que
so fechados por alguma caracterstica nos dados. Est tcnica tipicamente uma tcnica
de pesquisa e no de conhecimento que empregada principalmente na anlise de
prognsticos. Por exemplo, podemos estimar a renda de um indivduo de uma populao,
pesquisando k=20 vizinhos mais prximos do mesmo pelos valores dos atributos bairro de
moradia, profisso, escolaridade e idade. Um dos problemas da aplicao dessa tcnica a
necessidade de existir nos registros um nmero de atributos suficientes para determinao
da vizinhana.
15
[EN99],
2.4.4 rvores de deciso
Uma rvore de deciso um fluxograma (flow-chat) semelhante a uma estrutura de rvore,

onde cada n interno denota um teste em um atributo, cada ramo (sub-rvore) representa o
resultado do teste e cada folha representa a distribuio dos registros. Quando utilizada na
anlise de prognstico, em classificao, sua aplicao chamada por alguns autores de
induo por rvore de deciso. Sua utilizao recomenda o treinamento do mtodo,
utilizando-se vrias amostras nos dados, at que se conhea as melhores regras para
segmentao do conjunto de dados. Um outro problema que deve ser estudado a poda da
rvore, ou seja, determinar quantas sub-rvores, particionamentos, ser necessrio gerar. A
figura 9 a seguir apresenta uma classificao utilizando um algoritmo de rvore de deciso,
para prognosticar o grupo de cliente mais propcio a comprar um determinado produto.
Examinado a figura 9, observa-se que 90% dos homens com salrio superior a R$ 4.000,00
so candidatos a comprarem o produto, enquanto que apenas 5% das pessoas que ganham
menos de R$ 4.000,00 e no possuem casa prpria devem comprar o produto.
Raiz
Total = 100
Comprador = 30
No Comprador = 70
N 2
N 1 (20 pessoas)
N 6 (80 pessoas)
Salrio > 4000

Comprador = 16
No Comprador = 4
Salrio < 4000

Comprador = 14
No Comprador = 66
(10 Pessoas)
Sexo = Masculino
Comprador = 9
No Comprador = 1
N 4
N 3
N 7
(10 Pessoas)
Sexo = Feminino
Comprador = 7
No Comprador = 3
(6 pessoas)
Casado = True
Comprador = 5
No Comprador = 1
(40 pessoas)
Casa Prpria? = Sim

Comprador = 12
No Comprador = 28
N 8
(40 pessoas)
Casa Prpria? = No
Comprador = 2
No Comprador = 38
N 5
(4 pessoas)
Casado = False
Comprador = 2
No Comprador = 2
Figura 9: Um exemplo de visualizao de uma rvore de deciso
2.4.5 Regras de associao
Anlise de associao o processo de interconexo de objetos na tentativa de expor

caractersticas e tendncias. Gera redes de interaes e conexes presentes nos conjuntos
de dados usando as associaes item a item. Entende-se que a presena de um item implica
necessariamente na presena do outro na mesma transao. O banco de dados visto como
uma coleo de transaes, cada uma envolvendo um conjunto de itens. Essas regras
16
correlacionam a presena de um conjunto de itens com um outro intervalo de valores para

um outro conjunto de variveis. Um exemplo comum aquele referente cesta do
supermercado. Neste caso, a cesta do supermercado corresponde quilo que o consumidor
compra em um supermercado durante uma visita [EN99, DN00]. Na rea de marketing
conhecido como anlises de transaes de compras (market basket analysis). A figura 10 a
seguir apresenta uma representa grfica de um estudo de transaes de compras para ser
resolvido com regras de associao.
Figura 10: Um exemplo de anlises de transaes de compras extrado de [HK01]
Um estudo completo sobre regras de associao pode ser encontrado em [MPO01].

2.4.6 Redes neurais artificiais
As redes neurais compreendem procedimentos computacionais que envolvem o

desenvolvimento de estruturas matemticas com habilidade de aprendizado. Representam o
esforo de investigaes acadmicas para implementar computacionalmente, a maneira
pela qual o crebro humano funciona. So programas que implementam deteces
sofisticadas de padres e algoritmos de aprendizado de mquina, para construir modelos,
principalmente, de prognstico de grandes bancos de dados histricos. Est baseada nos
conceitos de como um crebro humano est organizado e como ele aprende. Existem duas
estruturas principais: (1) O n, que corresponde ao neurnio; (2) O link, que corresponde
as conexes entre neurnios. Segundo [Hay99] redes neurais pode ser definidas como:
Uma rede neural um processador maciamente paralelamente distribudo constitudo
de unidades de processamento simples, que tm a propenso natural para armazenar
conhecimento experimental e torn-lo disponvel para uso. Ela se assemelha ao crebro
em dois aspectos:
1. O conhecimento adquirido pela rede a partir de seu ambiente atravs de um
processo de aprendizagem;
17
2. Foras de conexo entre neurnios, conhecidos como pesos sinpticos, so

utilizados para armazenar o conhecimento adquirido.
A figura 11 a seguir, exemplifica as vrias camadas que podem ser geradas num
processamento de uma rede neural. Todas as camadas intermedirias representam os
diferentes nveis de conhecimento que so adquiridos no seu processamento, numa
tentativa de emitar o crebro humano.
Figura 11: Uma representao de um processamento de uma rede neural
Um estudo completo sobre regras redes neurais pode ser encontrado em [Hay99].
2.4.7 Algoritmos Genticos
Algoritmos Genricos AGs so algoritmos de otimizao e busca baseados nos

mecanismos de seleo natural e gentica. Enquanto os mtodos de otimizao e busca
convencionais trabalham geralmente de forma seqencial, avaliando a cada instante uma
possvel soluo, os AGs trabalham com um conjunto de possveis solues
simultaneamente [BLC00]. Segundo [EN99], Algoritmos Genticos (AGs) so uma classe
de procedimentos de pesquisa aleatrios capazes de realizar pesquisas adaptativas e
robustas sobre uma ampla gama de topologias de espao de pesquisa. Modelados aps o
surgimento adaptativo de espcies biolgicas a partir de mecanismos evolutivos e
introduzidos por Holland,4 AGs vm sendo aplicados com sucesso em campos
diversificados como anlise de imagens, escalonamentos e projetos de engenharia.
As solues produzidas por algoritmos genticos (AGs) so diferenciadas da maioria das
outras tcnicas de pesquisa atravs das seguintes caractersticas:
Uma pesquisa de AG utiliza um conjunto de solues durante cada gerao ao

invs de uma nica soluo.
A pesquisa no espao de strings representa uma pesquisa paralela maior no espao

de solues codificadas.
O trabalho de Holland entitulado Adaptation in Natural and Artificial Systems (Adaptao em Sistemas
Naturais e Artificiais), apresentado em um seminrio, introduziu a idia de algoritmos genticos.
18
A memria da pesquisa realizada representada unicamente atravs do conjunto de

solues disponveis
Um algoritmo gentico um algoritmo aleatrio, uma vez que mecanismos de

pesquisa utilizam operadores de probabilidade.
Ao prosseguir de uma gerao para a seguinte, um AG encontra o equilbrio

prximo ao timo entre aquisio e explorao de conhecimento, manipulando
solues codificadas.
Algoritmos genticos so utilizados para resolver problemas e para agrupar problemas. Sua
capacidade de resolver problemas em paralelo fornece uma ferramenta poderosa para
Minerao de dados. As deficincias de AGs incluem a grande superproduo de solues
individuais, o carter aleatrio do processo de pesquisa e a elevada demanda no
processamento computacional. Em geral, uma substancial demanda computacional
exigida para alcanar qualquer coisa significativa com algoritmos genticos [EN99].
2.4.8 Tcnicas de anlise de agrupamento (clustering)
Os mtodos de particionamento, hierrquicos, baseados em densidade, em grid, em

modelos (abordagem estatstica e redes neurais) so tcnicas da anlise de agrupamento
(clustering) que visam detectar a existncia de diferentes grupos dentro de um determinado
conjunto de dados e, em caso da existncia, determinar estes grupos. So tcnicas de
minerao de dados que esto direcionadas aos objetivos de identificao e classificao.
O clustering tenta identificar um conjunto finito de categorias ou clusters para os quais
cada registro (elemento da populao) possa ser mapeado. As categorias podem ser
disjuntas (separadas) ou sobrepostas (no-disjuntas) e podem algumas vezes ser
organizadas em rvores. A populao forma um agrupamento que pode ser dividido em
dois ou mais grupos, que podem ser novamente divididos em dois ou mais grupos, e assim
por diante, incluindo a partio onde cada elemento um nico elemento do grupo.
Um estudo completo sobre anlise de cluster pode ser encontrado em [BL97] e [HK01].
2.4.9 Concluso sobre as tcnicas de minerao de dados
Vrias outras tcnicas de minerao de dados esto em uso nos dias de hoje, conforme
visto na tabela 1. Elas incluem lgica fuzzy, reduo de dados, classificao baysiana entre
outras. A figura 12 a seguir, extrada de [BT99], sintetiza um ciclo de vida para operao
das tcnicas de minerao de dados.
19

Figura 12: Ciclo de vida de operao das tcnicas de minerao de dados
Um amplo estudos sobre as tcnicas de minerao de dados pode ser encontrado em

[BL97] e [HK01].
2.5 Abordagens da minerao de dados

As abordagens da minerao de dados ou metodologias de aplicao descrevem como o
usurio ir conduzir o processo da minerao na obteno de suas funcionalidades.
Essencialmente existem as abordagens top-down e botton-up, e uma terceira que pode ser a
combinao dessas abordagens chamada de hbrida. Na abordagem top-down, tambm
chamada de teste de hiptese, o usurio parte do princpio que existe uma hiptese, uma
idia pr-concebida e que mesmo deseja confirm-la ou refut-la. na abordagem bottonup, tambm chamada de busca de conhecimento, o usurio inicia o processo de explorao
dos dados na tentativa de descobrir alguma coisa que ainda no de conhecimento [BT99,
BL97].
Na aplicao de uma dessas abordagens o usurio decidir se usar a abordagem para
busca de conhecimento na forma direta ou indireta. A seguir descrito essas duas formas
de aplicao.
2.5.1 Busca de conhecimento direta
Na busca de conhecimento direta ou supervisionada sua meta orientada. Existe um valor

para ser prognosticado, uma classe a ser atribuda aos registros ou um determinado
relacionamento para ser explorado. Existe apenas uma vaga idia do que se estar
procurando. Os passos para aplicao da busca de conhecimento direta so:
Identificar as fontes dos dados selecionados para minerao;
Prepara os dados para anlise;
Construir e trinar o modelo computacional;
20
Avaliar o modelo computacional.
Maiores detalhes sobre esses passos podem ser encontrados em [BL97] e [BT99].
2.5.2 Busca de conhecimento indireta
Na busca de conhecimento indireta ou no-supervisionada no existe uma meta bem

definida. As ferramentas so mais livres na sua aplicao sobre os dados e esper-se que
ser descoberto alguma estrutura significante nos dados. Os passos para aplicao da busca
de conhecimento direta so:
Identificar as fontes dos dados;
Prepara os dados para anlise;
Construir e trinar o modelo computacional;
Avaliar o modelo computacional;
Aplicar o modelo computacional no novo conjunto de dados;
Identificar potenciais objetivos para busca de conhecimento direta;
Gerar novas hipteses para teste.
Maiores detalhes sobre esses passos podem ser encontrados em [BL97] e [BT99].
A figura 13 abaixo, extrada de [BT99], resume a forma de aplicao do processo de
minerao de dados.
21

Botton-Up
Botton-Up
Top-Down
Top-Down
"

#$

%
#$
&$

'

#

(

#$

')

%

#$

!

Figura 13: Abordagens para aplicao da minerao de dados
2.6 Concluso
Conforme descrito nesta seo para utilizao de um processo de minerao de dados,
deve-se ter bem claro qual a funcionalidade ou os resultados a que se deseja chegar. A
escolha da funcionalidade, na maioria dos casos, exige a participao de pessoas que
efetivamente entendam do negcio em estudo, mesmo que no sejam especialistas na
utilizao e manuseio computacional dos dados. Uma vez definidas as funcionalidades
parte-se para identificar a melhor tcnica, a mais aderente para obteno dos resultados.
Diversas tcnicas podem ser utilizadas para se chegar aos resultados pretendidos,
entretanto, cada tcnica possui suas caractersticas, suas peculiaridades e precisa de
pessoas que saibam interpretar seus resultados. Uma vez identificadas as funcionalidades e
as melhores tcnicas a serem aplicadas, deve-se escolher uma abordagem, uma
metodologia de aplicao para conduo de todos os processos.
A prxima seo tratar dos processos de Busca de Conhecimento em Banco de Dados,
tambm conhecido como Knowledge Discovery in Database - KDD, com destaque para as
etapas de preparao dos dados para minerao propriamente dita.
O processo Busca de Conhecimento em Banco de Dados
Para alguns, minerao de dados representa o passo essencial, principal, no processo de

Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD).
Segundo [HK01], o processo de KDD consiste de uma seqncia iterativa dos seguintes
passos:
1. Limpeza de dados - remove dados inconsistentes e fora dos padres (noise data);
22
2. Integrao de dados - possibilita a integrao de vrias fontes de dados, mantendo

a consistncia e coerncia dos dados integrados;
3. Seleo dos dados - seleciona os dados relevantes para aplicao das tcnicas de
minerao de dados;
4. Transformao de dados possibilita a transformao ou consolidao dos dados
no formato apropriado para o processo de minerao (mining), atravs de operaes
do tipo sumarizao ou agregao, entre outras tcnicas;
5. Minerao dos dados processo essencial, onde tcnicas so aplicadas para
anlise e extrao de padres dos dados;
6. Avaliao dos Padres identifica os padres verdadeiramente interessantes entre
os diversos apresentados pelo processo de minerao de dados, baseados em
algumas medidas de interesse;
7. Apresentao e assimilao do conhecimento utiliza tcnicas de visualizao e
representao do conhecimento para apresentar o conhecimento adquirido aos
usurios, bem como introduzi-los no mbito estudado.
A figura 14 seguir, uma adaptao de [HK01] e [AZ96], apresenta a interao entre todas
as etapas do processo de KDD. As etapas de limpeza e integrao s so necessrias
quando os dados que sero utilizados na minerao esto armazenados em vrios bancos
de dados ou arquivos do legado. Quando a seleo dos dados for em um Data Warehouse5
podemos iniciar o processo selecionando e transformando os dados. Uma vez preparados,
os dados so submetidos uma tcnica de minerao de dados, conforme especificado na
seo 2. Os resultados extrados da aplicao dessas tcnicas so avaliados e interpretados,
e podem ser reconhecidos como padres. Os padres interessantes so apresentados aos
usurios e so armazenados como uma nova base de conhecimentos Uma vez apresentados
e assimilados transformam-se numa base de conhecimento e geram aes em seu negcio
especfico.
Um Data Warehouse um banco de dados que possui seus dados resultante da integrao de dados de
vrias fontes, j possuindo um alto padro de qualidade.
23
Apresentao
e Assimilao
do Conhecimento
Aes
Avaliao dos
Padres
Base de
Conhecimentos
Minerao
de Dados
Padres
Seleo e
Transformao
Limpeza e
Integrao
Data
Warehouse
Arquivos
legado
Bancos de Dados
Figura 14: Minerao de dados como uma etapa no processo de KDD
Cada etapa do processo de KDD pode retornar a um processo anterior, conforme sua
necessidade [AZ96]. Esta necessidade pode se d em funo de uma reavaliao nos
dados, uma nova hiptese a ser testada etc. Note que segundo essa viso, minerao de
dados apenas uma etapa no processo de KDD, essencial para descobrir padres para
avaliao, padres estes at ento escondidos nas bases de dados.
Os bancos de dados do mundo real so altamente suscetveis a armazenarem dados
incoerentes, inconsistentes, grande quantidade de valores ausentes e geralmente
armazenam uma quantidade de dados em torno de muitos gigabytes e terabytes. Preparar
os dados para o processo de minerao de dados, significa melhorar a qualidade dos dados
a serem processados e conseqentemente a qualidade dos resultados obtidos. Preparar os
dados para o processo de minerao de dados, envolve preparar e executar as fases de
limpeza, integrao, seleo e transformao de dados. Essas fases do processo de KDD
esto detalhadamente examinadas a seguir.
3.1 Limpeza de dados (data cleaning)

Os dados no mundo real tendem a ser incompletos, fora de padres e inconsistentes. As
rotinas de limpeza de dados empreendem esforos no sentido de preencher os valores
ausentes (missing values), aplainar dados (padronizar - noise data) enquanto identificam
valores fora de padres (outliers) e corrigem inconsistncias nos dados [HK01]. Existem
vrios tipos de processos de limpeza que podem ser aplicados inicialmente, outros, no
entanto, podem ser aplicados somente aps a deteco de algum tipo de problema nas
etapas subseqentes do KDD, minerao de dado ou avaliao de padres [AZ96].
3.1.1 Valores ausentes (missing values)
Valores ausentes se caracterizam por existirem em diversas tuplas (ou registros) atributos
(campos) que no possuem valores armazenados, os quais podem ser importantes para o
processo de minerao de dados. Como exemplo, o atributo rendimento em uma instncia
24
de uma entidade cliente. A seguir apresentamos alguns mtodos que podem ser utilizados
para preencher (atribuir) valores a esses atributos [HK01].
1. Ignorar o registro (tupla) usualmente utilizada quando o contedo da varivel
est ausente - null (assumindo que o processo de mining envolver classificao ou
descrio). No muito efetivo, a menos que a tupla possua muitos atributos com
valores ausentes. especialmente pobre quando o percentual de valores ausentes
varia consideravelmente.
2. Preencher (imputar) o valor manualmente em geral essa abordagem consome
muito tempo e pode no ser possvel em grandes bases de dados com muitos
valores ausentes.
3. Usar uma constante global para preencher os valores ausentes atualizar todos os
valores ausentes com um nico valor constante, tal qual desconhecido ou high
values. Embora simples, no muito recomendado.
4. Utilizar um atributo mdio para preencher os valores ausentes utilizado quando
o atributo do tipo numrico e seu significado passvel de utilizao de um valor
mdio. Calcular o valor mdio do atributo em estudo (por exemplo, rendimento do
cliente) e atribuir esse valor a todos os valores ausentes do atributo.
5. Utilizar um atributo mdio pertencente a mesma classe a qual a tupla pertena
utilizado quando o atributo do tipo numrico e seu significado passvel de
utilizao de um valor mdio. Calcular valores mdios do atributo em estudo
segundo os valores (classificao) de um outro atributo (por exemplo profisso do
cliente) e atribuir esse valor a todos os valores ausentes do atributo (por exemplo
rendimento do cliente), segundo a classificao do atributo.
6. Utilizar o valor de maior probabilidade para preencher os valores ausentes este
valor pode ser determinado atravs da aplicao de uma tcnica de regresso,
ferramentas de inferncia bsica, utilizando um formalismo bayseano ou induo
por rvores de deciso. Por exemplo, utilizar outros atributos do conjunto de dados
de clientes para construir uma rvore de deciso para predizer (estimar) o
rendimento dos mesmos.
Os mtodos de 3 a 6 inferem sobre o dado. O valor imputado pode no ser correto. O
mtodo 6, entretanto, o mais popular. Comparando com outros mtodos, ele considera
mais informaes sobre os dados para predizer valores ausentes. Assim, a utilizao de
outros atributos na estimao dos valores ausentes, nos d uma grande chance de preservar
o relacionamento entre o atributo estimado e os demais atributos utilizados no processo de
estimao.
3.1.2 Valores fora de padro (noisy data)
Noisy data (valores extremos) um erro aleatrio ou uma variao acentuada na medio
de uma varivel. Ocorre em variveis numricas do tipo rendimento, faturamento etc e que
precisam ser aplainadas (smooth), retirando-se esse erro de medio. A seguir
apresentamos alguns mtodos que podem ser utilizados para corrigir esses valores [HK01].
25
1. Binning esse mtodo ordena os valores do atributo para utilizar o conceito de

vizinhana entre os dados. Aps a ordenao os valores so distribudos por grupos
(bins ou buckets), onde cada grupo dever ter o mesmo nmero de elementos
(valores). Em cada grupo aplica-se um critrio na escolha de uma medida para
ajustar os valores dos grupos, tais como a mdia aritmtica, a mediana ou um valor
de limite. Assim, substitu-se os valores pelas medidas calculadas em cada grupo,
ajustando assim os valores da srie. Diversos mtodos podem ser utilizados para
ajustar os valores dos grupos.
2. Agrupamento (Clustering) Outliers podem ser detectados quando valores
similares so organizados em grupos ou clusters. Intuitivamente, valores que esto
fora dos clusters podem ser considerados como outliers. A figura 15 seguir,
extrada de [HK01], mostra aplicao da tcnica de agrupamento para deteco de
outliers.
Figura 15: Detectando outliers com a tcnica de anlise de agrupamento (clustering)
3. Combinao de inspeo humana e computador outliers podem ser identificados

atravs da combinao de inspeo humana e do uso do computador. Em uma
aplicao, uma medida terica pode ser utilizada para ajudar a identificar padres
de outliers. Uma vez identificados os padres de outliers e sendo estes
considerados lixo, podem ser excludos da utilizao na etapa de minerao de
dados.
4. Regresso dados podem ser ajustados (smoothed) por funes de ajustamentos de
dados, tais como funes de regresso. Regresso linear busca encontrar a melhor
linha de ajustamento para duas variveis, desde que uma possa ser estimada
(predita) pela outra. Regresso linear mltipla uma extenso da regresso linear,
onde duas ou mais variveis so envolvidas e os dados so combinados numa
superfcie (plano) multidimensional.
3.1.3 Dados inconsistentes
Podem haver inmeras inconsistncias nos dados armazenados. Alguns dos dados
inconsistentes podem ser corrigidos manualmente utilizando referncias externas, como
26
erros causados por entrada de dados manual. Ferramentas de software de engenharia de

conhecimento podem tambm ser utilizadas para detectar violaes nas restries de
integridades dos dados, tais como funes de dependncia entre atributos. Podem tambm
existir inconsistncias causadas por integraes de dados, onde um atributo pode possuir
nomes diferentes em seus bancos de dados. Podemos ter redundncia de dados [HK01].
3.2 Integrao de Dados

O processo de minerao de dados freqentemente requer a integrao (unio,
consolidao, fuso) de vrias bases de dados. Neste processo, provavelmente, tambm
existir a necessidade de transformar os dados integrados em um formato apropriado para
o processo de minerao de dados [HK01,WB98].
3.2.1 Integrao de diversas fontes de dados
A integrao de dados geralmente envolve a combinao de vrias fontes de dados em um

nico armazenamento coerente, semelhante as bases de dados geradas no processo de
construo de um data warehouse. Essas fontes de dados podem incluir vrios bancos de
dados, arquivos textos, flat files entre outros tipos de armazenamento. Existem trs pontos
importantes na integrao de esquemas:
Integrao de esquemas internos diversas entidades do mundo real podem ser

semelhantes e estarem definidas em diversos esquemas com nomes e atributos
diferentes, recaindo num problema tpico de identificao de entidades. Quando se
tem apenas bancos de dados operacionais e/ou data warehouses para integrao,
esta atividade se torna mais fcil, uma vez que esses armazenamentos devem
possuir metadados, os quais ajudam a evitar esse tipo de problema.
Redundncia de dados um atributo pode ser redundante se ele puder ser derivado
de outro armazenamento (tabela), tal como o atributo agregado salrio anual.
Inconsistncias em atributos ou nome de dimenses (salrio, salrio anual etc.)
podem ser a causa de redundncia em conjunto de dados. Uma tcnica muito
interessante para verificar redundncia em conjunto de dados a utilizao da
anlise de correlao, a qual medir o quanto dois atributos so correlatos. A
redundncia a nvel de atributo tambm pode ser identificada atravs da gerao de
registros (tuplas) idnticas geradas numa mesma entrada de dados.
Deteco e resoluo de valores conflitantes para as mesmas entidades do mundo

real, os valores dos atributos podem diferir em diversas fontes de dados. Preos de
produtos, dirias de hotis, salrios de empregados etc, numa mesma empresa
podem ser registrados em unidades e moedas diferentes, incluindo ou no parcelas
de valores tais quais impostos ou taxas. A heterogeneidade semntica dos dados
pode causar grandes desafios na integrao dos dados.
Outros fatores como os vrios formatos de armazenamento dos dados, tais como
armazenamentos em bancos de dados relacionais, de rede e hierrquico, arquivos textos,
campos fixos e variveis, entre outros formatos iro afetar a forma como se recupera e
integra os dados. A variedade dos sistemas operacionais e plataformas de hardware
27
tambm so fatores que dificultam o acesso aos inmeros protocolos para recuperao e
integrao dos dados.
Cuidados na integrao dos dados oriundos de vrias fontes podem ajudar a reduzir e evitar
redundncias e inconsistncias no resultado do conjunto de dados gerado na integrao.
Certamente ir melhorar a preciso dos resultados e a velocidade das fases subseqentes
dos processos de garimpagem.
3.3 Seleo de dados

Nesta etapa ser identificado e selecionado todos os dados que so necessrios para o
processo de minerao de dados. Vale a pena ressaltar que esta etapa ocorrendo aps a
etapa de integrao, possibilita a seleo somente do conjunto de dados que possa ser
efetivamente utilizado e que sua integrao j garantiu a coerncia entre as diversas fontes
de dados utilizadas.
3.4 Transformao de Dados

Nesta etapa os dados so transformados e consolidados em formatos apropriados para a
atividade de garimpagem (mining). A transformao de dados envolve:
Smooting (aplainamento) este trabalho remove os noisy data. Utiliza tcnicas de

binning, agrupamento e regresso.
Agregao aplica operaes de sumarizao e agregao nos dados. Por exemplo,

vendas dirias so agregadas em vendas semanais, quinzenais e mensais.
Tipicamente usada para gerao de dados no formato multidimensional em dados
com alta granularidade6 (muitos detalhes).
Generalizao generalizao dos dados a etapa que permite transformar os

dados primitivos, como linhas de tabelas, em hierarquias de mais alto nvel, como
por exemplo, criar novas categorias de bairro, cidade e estado a partir do atributo
logradouro, ou criana, adolescente, adulto e idade a partir do atributo idade.
Normalizao normalizao dos dados permite atribuir uma nova escala a um

atributo de forma que os valores desse atributo possam cair na nova escala em um
intervalo especificado, tal como entre 1.0 a 1.0 ou de 0.0 a 1.0 etc.
Construo de atributos nesta etapa novos atributos podem ser construdos a

partir dos atributos existentes, no sentido de ajudar o processo de anlise. Por
exemplo, pode-se gerar um novo atributo levando-se em considerao os atributos
idade, peso e altura de uma pessoa ou a aplicao de uma frmula especfica.
A granularidade se refere ao nvel de agregao dos dados. Quando se trabalha com os fatos observados
(registros ou tuplas) estamos com uma alta granularidade. Quando agregamos esses fatos, diminu-se a
granularidade.
28
3.4.1 Reduo de Dados
Reduo de dados uma tcnica que pode ser aplicada para obteno de uma
representao reduzida (compactada) de um conjunto de dados, muito menor em volume,
mantendo a integridade do conjunto de dados original. Isto , garimpar nesse conjunto de
dados reduzido pode produzir resultados mais eficiente do que no conjunto de dados
originais. Podemos aplicar as seguintes tcnicas para reduo de dados:
1. Agregao de dados em cubo operaes de agregao de dados so aplicadas
para construo de cubos de dados (estrutura multidimensional para anlise de
dados). A figura 16 seguir, extrada de [HK01], mostra a transformao de dados
relacionais em multidimensionais. J a figura 17, mostra uma forma de visualizao
e interpretao dos dados no modelo multidimensional.

1
2
3
4

12.000,00
11.000,00
9.000,00
10.000,00
2000
1999
1998
38.500,00
39.000,00
42.000,00
Figura 16: Agregao de dados em forma multidimensional
So Paulo
Rio de Janeiro
Curitiba
Vitria
Cidade
99 73 21 75
78 59 19 66
62 29 23 47
56 7 21 78
2001
1999
1998
Produto
1997
Ano
Figura 17: Representao de dados no modelo multidimensional
2. Reduo de dimenso atributos ou dimenses irrelevantes, fracas ou redundantes

so identificadas e retiradas.
3. Compresso de dados mecanismos de codificao so aplicados para reduzir o
tamanho do conjunto de dados.
29
4. Reduo de numerosidade (numerosity reduction) dados so alterados ou

estimados por valores alternativos, menores representaes de dados tal como
modelos paramtricos ou mtodos no paramtricos tais como clustering, amostras
e usos de histogramas.
5. Discretizao e gerao de conceitos hierrquicos valores de atributos em linhas
ou registros so alterados por intervalos ou nveis de conceitos mais elevados.
Conceitos hierrquicos permitem a garimpagem de dados em vrios nveis de
abstrao e so fortemente utilizados em ferramentas de Minerao de dados.
3.5 Minerao dos dados

A etapa de minerao de dados, conforme descrita na seo 2, envolve as etapas de
identificao dos objetivos da minerao (sua funcionalidade), a identificao da melhor
tcnica a ser aplicada e da abordagem da aplicao de seus processos.
3.6 Avaliao dos Padres

Nem todos os padres obtidos no processo de minerao de dados podem ser considerados
para o negcio em estudo. Nesta etapa, dever ser feito um estudo e avaliao dos
resultados, identificando claramente, quais padres ou prognsticos podem ser utilizados,
sempre baseados em sua expressividade estatstica.
3.7 Apresentao e assimilao do conhecimento

Nesta etapa os resultados de todo o processo de minerao de dados dever retornar em
aes baseadas no conjunto de conhecimentos adquiridos em todo o processo. Consiste
basicamente das seguintes etapas:
Apresentar as descobertas obtidas
Determinar a melhor forma de utilizar tais informaes na tomada de deciso
Definir as vantagens e desvantagens do projeto
Reavaliar o projeto
Criar novos projetos
3.8 Concluso
Conforme descrito nesta seo o processo de Busca de Conhecimento em Banco de Dados
(Knowledge Discovery in Database KDD), consiste de uma seqncia iterativa das
etapas de limpeza, integrao, seleo e transformao de dados, alm da minerao dos
dados, avaliao dos padres e, apresentao e assimilao do conhecimento. Vrias
tcnicas foram detalhadas principalmente para os quatros etapas iniciais. A qualidade dos
dados que sero selecionados para minerao de fundamental importncia para o a
qualidade do resultado final. Assim, quando se aplica o processo de minerao de dados a
partir de um data warehouse, espera-se que a qualidade dos dados no seja mais um
30
problema e as etapas de limpeza, integrao, seleo e transformao de dados precisam

apenas de pequenos ajustes para ir de encontro a funcionalidade desejada.
A seo a seguir a apresenta a tecnologia de minerao de dados no contexto da
inteligncia de negcios (business intelligence) , no segmento de sistemas de apoio a
deciso.
Minerao de dados no contexto da inteligncia de negcios
Inteligncia de Negcios ou Business Intelligence (BI) um conjunto de conceitos e

metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos,
apia a tomada de decises em negcios. Diversas tecnologias tem sido usadas
conjuntamente em Inteligncia de Negcios, entre elas se destacam as tecnologia de Data
Warehousing (DW), de On-Line Analitical Processing (OLAP), de Anlise e Explorao
de Dados (AED) e de Minerao de Dados. Minerao de dados foi aclamada como uma
das principais tecnologias para o futuro prximo e considerada, atualmente, o ponto mais
alto na busca de conhecimentos para tomada de decises.
A figura 18 seguir exibe as tecnologias que so utilizadas no contexto da inteligncia de
negcios. A minerao de dados, atualmente, representa, ao nvel da informao, a
principal tecnologia para tomada de deciso. Nesta rea, no basta apenas trabalhar com
informao, cada vez mais importante ter conhecimento de seus negcios, conhecimentos
esses que a minerao de dados proporciona.
Potencial crescente
para dar suporte as
tomadas de decises
Tomada
de Decises
Apresentao de Dados
Usurios Finais
Analistas de negcios
Tcnicas de Visualizao
Minerao de Dados
Descoberta de Informaes
Analistas de dados
Explorao de Dados
Anlise Estatstica, Consultas e Relatrios
Data Warehouses / Data Marts
OLAP, MDA, EIS
Fontes de dados
Adm. de
Bancos de
Dados
Relatrios, Arquivos, Provedores de Informaes, Bancos de Dados, OLTP
Figura 18: Minerao de dados no contexto da inteligncia de negcios
As reas de negcios das empresas, principalmente das grandes empresas, j esto

iniciando a utilizao de minerao de dados como busca de conhecimento. Estas solues
se apresentam, basicamente, de quatro formas:
31
Soluo Direcionadas apresentam o poder de minerao de dados, mas so

aplicadas a um problema ou indstria em particular, como por exemplo o HNC
Falcon System, que uma soluo baseada em redes neurais, e direcionada
especificamente a fraudes de cartes de crdito e risco de perdas e o sistema Churn
Prophet, que foi criado especificamente para deteco de agitao de clientes
(como no caso da telefonia celular).
Soluo de negcio - direcionadas a usurios finais de negcios com a inteno de

apresentar o poder da minerao de dados de modo fcil o bastante para usar e
compreensvel o bastante para que os executivos consigam extrair algum valor da
ferramenta, sem risco de erros causados pelo mal uso do produto.
Soluo do analista de negcios - direcionadas para usurios de aplicaes de

negcios com algum conhecimento de como a minerao de dados funciona e
algumas variaes diferentes. Geralmente apresentam os resultados de forma mais
parecida com algoritmos de minerao de dados do que para uso final.
Soluo de analistas de pesquisas - Direcionadas para analistas de pesquisa ou

estatsticos que desejam obter o mximo controle, bem como escolher o algoritmo.
Geralmente oferecem bibliotecas de software estatstico, grficos e visualizao.
So as primeiras a incluir tcnicas mais modernas, recm-descobertas.
Nem sempre a minerao de dados agrega valor aos Sistemas de Apoio a Deciso - SAD.
De fato, houve no passado (e ainda h, de certa forma) muitas barreiras para a minerao
de dados se tornar uma funo essencial dos SAD. As mais importantes tm sido
superadas, mas outras ainda se mantm. Fundamentalmente, as mais importantes foram:
alto custo das solues, a necessidade de grandes volumes de dados armazenados em
poderosos servidores e a pouca amigabilidade das ferramentas de minerao de dados para
pessoas que no fossem altamente especializadas. Outras que podem ser citadas so o
desafio de preparar os dados para minerao, as dificuldades em se obter uma anlise
custo/benefcio bem fundamentada antes do incio do projeto e a preocupao quanto
viabilidade de fornecedores dessas ferramentas.
A seo a seguir apresentar algumas reas de negcios e pesquisas que possuem um
grande potencial para minerao de dados.
Aplicaes potenciais em minerao de dados
As tecnologias de minerao de dados podem ser aplicadas a uma grande variedade de

contextos de tomada de deciso no ramo dos negcios. Em particular, reas que envolvem
contrapartidas (retornos) significativas supostamente incluem o seguinte:
Marketing As aplicaes incluem a anlise do comportamento do consumidor

com base em padres de compra; a determinao de estratgias de marketing
incluindo propaganda, localizao de lojas e mala direta; a segmentao de
clientes, lojas ou produtos; bem como o projeto de catlogos, o layout de lojas e
campanhas publicitrias.
32
Finanas As aplicaes incluem a anlise da avaliao para concesso de

crdito a clientes, segmentao de contas a receber, anlise de desempenho de
investimentos financeiros como aes, bnus e fundos mtuos; avaliao de
opes financeiras e deteco de fraudes.
Manufatura (Indstria) As aplicaes envolvem a otimizao de recursos como

equipamentos, fora de trabalho e matria-prima; o projeto timo de processos
de produo, layouts de lojas e projetos de produtos, como por exemplo para
automveis, com base em exigncias dos clientes.
Sade As aplicaes incluem a anlise da eficcia de certos tratamentos; a

otimizao de processos dentro de um hospital, o relacionamento de dados sobre
o estado de sade do paciente com a qualificao mdica; e a anlise de efeitos
colaterais de drogas.
rea biomdica Diversos aparelhos de diagnsticos esto sendo desenvolvidos

segundo os padres encontrados em populaes observadas ao longo de vrios
anos. Seu objetivo principal detectar e identificar, principalmente, grupos de
riscos para os pacientes e trabalhar na preveno de possveis doenas.
Outras aplicaes Diversas reas do conhecimento comeam a utilizar as

tcnicas de minerao de dados, visando conhecer e identificar padres at ento
desconhecidos. Entre essas reas destacam-se as reas de seguros, bancos,
comunicaes, explorao de petrleo etc.
Comentrios Finais
Neste trabalho apresentamos uma viso geral das funcionalidades e tcnicas de minerao
de dados. Neste contexto so apresentados os principais conceitos, uma forma bastante
prtica de se identificar s funcionalidades, ou seja, os resultados que se deseja obter com a
minerao de dados, bem como uma identificao das tcnicas que podem ser utilizadas
para cada funcionalidade. Mostramos tambm, que uma mesma tcnica pode ser
empregada para se obter resultados em diferentes funcionalidades. Descrevemos duas
abordagens de como um processo de minerao de dados pode ser conduzido, no sentido
de obter melhores resultados.
Apresentamos o processo de Busca de Conhecimento em Banco de Dados (Knowledge
Discovery in Database KDD), suas etapas e descrevemos detalhadamente cada etapa do
processo, desde a preparao dos dados at a aplicao dos processos da minerao de
dados e como apresentar e internalizar os resultados obtidos.
Finalmente apresentamos a minerao de dados no contexto da Inteligncia de Negcios
(Business Intelligence BI), suas principais solues e aplicaes potenciais.
Deixamos claro que este trabalho no esgota o assunto, sendo apenas uma introduo a
minerao de dados.
33
Referncias Bibliogrficas
[AZ96]
Pieter Adriaans, Dolf Zantinge; Data Mining; Addison-Wesley, 1996
[BL97]
Michael J. A. Berry; Gordon Linoff, Data Mining Techiques for Marketing,

Sales, and Customer Support; John Wiley & Sons, Inc., 1997.
[BLC00]
Antnio de Pdua Braga, Teresa Bernarda Ludermir, Andr Carlos P. de L. F.

Carvalho; Redes Neurais Arificiais Teoria e Aplicaes, Editora LTC,
2000
[BT99]
Bhavani Thuraisingham; Data Mining; CRC Press, 1999
[DN00]
Carlos Alberto R. Diniz, Francisco Louzada Neto; Data Mining: Uma

Introduo; 14a Sinape Caxambu ABE Associao Brasileira de
Estatstica, 2000
[EN99]
Ramez Elmasri e Shamkant Navathe; Fundamentals of Database Systems;

Addison-Wesley, 1999, 3rd Edition.
[HK01]
Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques;

Morgan Kaufmann Publishers, Inc, 2001
[Men99]
Jesus Mena; Data Mining Your Website; Digital Press, 1999
[WB98]
Christopher Westphal, Teresa Blaxton, Data Mining Solutions Methodos

and Tools for Solving real-Word Problems; John Wiley & Sons, Inc., 1998.
[WI99]
Sholom M. Weis, Nitim Indurkhya; Predict Data Mining; Morgan Kaufmann

Publishers, Inc, 1999
[MPO01] Ilza Maria B. Mendes, Alexandre Plastino e Luiz Satoru Ochi, Regras de
Associao: suas Diferentes Formas e seus Algoritmos de Minerao, Minicurso apresentado no SBBD 2001.
[Hay99]
Simon Haykin, Redes Neurais - Princpios e Prtica, traduo da segunda

edio, Editora Bookman, 1999.
34

02 10 Cortes44545

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

02 10 Cortes44545

Enviado por

Direitos autorais:

Formatos disponíveis

Minerao de Dados Funcionalidades, Tcnicas e Abordagens

Srgio da Costa Crtes1

PUC-RioInf.MCC10/02 Maio, 2002

Palavras-chave: Minerao de dados, data mining, inteligncia de negcios, KDD, busca de

Doutorando, parcialmente apoiado pela Fundao IBGE e pela PUC-Rio

Atualmente as organizaes tm se mostrado extremamente eficientes em capturar,

Minerao de dados a busca de informaes valiosas em grandes bancos de

Minerao de dados a explorao e anlise de dados, por meios automticos ou

Minerao de dados, em poucas palavras, a anlise de dados indutiva [Men99].

Minerao de dados o processo de proposio de vrias consultas e extrao de

Minerao de dados, de forma simples, o processo de extrao ou minerao de

Um conceito muito difundido e errado sobre minerao de dados o que define os

Funcionalidades da minerao de dados, suas tcnicas e abordagens

O processo de aplicao da minerao de dados envolve vrios estgios, conforme

2.1 Funcionalidades em minerao de dados

definir que tipo de padres ou relacionamento queremos minerar. A funcionalidade da

Figura 1: Interatividade entre as funcionalidades e tcnicas da minerao de dados

[AZ96] - Descoberta de conhecimento e Predio

[BL97] - Classificao, Estimao, Predio, Afinidade em grupos, Agrupamentos

[BT99] - Classificao, Deteco de seqncia, Anlise de dependncia de dados e

[EN99] - Previso, Identificao, Classificao e Otimizao

[HK01] - Descrio e Predio

[Men99] - Predio, Classificao, Agrupamento (clustering), Segmentao,

[WB98] - Classificao, Estimao, Segmentao e Descrio

[WI99] - Predio, Deteco de desvio, Segmentao, Agrupamento (clustering),

Como podemos observar, a funcionalidade em minerao de dados no um consenso e

Figura 2: Funcionalidades em minerao de dados

2.2 Anlise Descritiva

seus resultados, ou seja, o conhecimento encontrado. Podemos subdividi-la em Anlise e

Anlise Prvia o processo de analisar uma base de dados com o objetivo de

Descobrimento o processo de examinar uma base de dados com o objetivo de

Para facilitar a aplicabilidade dos processos de minerao de dados, podemos especializar

Figura 3: Sub-funcionalidades da anlise prvia e do descobrimento.

Anlise de Outliers ou deteco de desvios

Esta funcionalidade objetiva encontrar conjuntos de dados que no obedecem ao

importante avaliao nos dados no sentido de descobrir probabilidades crescentes de

Figura 4: Deteco de outliers utilizando uma abordagem visual

Esta funcionalidade tem por objetivo detectar mudanas de comportamentos, comparando

Esta funcionalidade utilizada, principalmente, quando no se tem nenhuma idia da

Tempo de ligaes em segundo

Figura 5: Deteco de outliers utilizando uma abordagem visual

Classificao - descrio por classes e conceitos

Tambm conhecida na rea de marketing como grupos de afinidade ou anlise de cestas

Esta funcionalidade visa segmentar um conjunto de dados num nmero de subgrupos

Figura 6: Trs critrios diferentes de formao de agrupamentos (clusters)

Nesta funcionalidade o conjunto de dados subdividido em conjuntos menores, com

Um dos principais objetivos da tecnologia de minerao de dados oferecer seus

Figura 7: Minerao de dados com resultados da sumarizao e visualizao

Esta funcionalidade descreve e estuda a regularidade de modelos ou tendncias para

2.3 Anlise de Prognstico

Estimao o processo de predizer algum valor, baseado num padro j

Predio o processo de predizer um comportamento futuro, baseado em vrios

Classificao o processo para predizer algum valor para uma varivel

No dividimos a anlise de prognstico em sub-funcionalidades conforme a anlise

2.4 Tcnicas para obteno das funcionalidades

Ferramentas de consulta e tcnicas de

Ferramentas de consulta e tcnicas de

Agregaes e grficos diversos

Induo por rvores de deciso

Minerao de Regras de associao

Minerando regras de associao

Descrio do Conceito (caracterizao e comparao)

Sumarizao e Generalizao dos dados