Introdução Ao Data Mining

Introdução à data mining
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Definir data mining.

Descrever os tipos de dados usados em data mining.
Explicar as nomenclaturas mais comuns em data mining.
Introdução
Por meio do avanço da internet e da computação em nuvem, o fluxo de
dados aumentou consideravelmente, de forma que muitas organizações
tiveram que se preparar mais para o armazenamento e o controle das
informações do que para a seleção e a análise destas. Portanto, houve
consideráveis investimentos em equipamentos e recursos para o ar-
mazenamento seguro de dados. Surge, então, a necessidade de tratar
esses dados da forma mais eficiente possível, gerando conhecimento e,
portanto, vantagem para as organizações. Foi assim que a mineração de
dados, ou data mining, ganhou destaque nos últimos anos.
De fato, o conhecimento organizacional armazenado é um ativo dos
mais valiosos, pois apoia tomadas de decisões estratégicas de negócios.
Trata-se de uma abundância de dados que, se não forem tratados correta-
mente, podem acabar gerando problemas para a empresa, o que justifica
procedimentos e ações que armazenem e analisem todos esses dados
com inteligência. Dessa forma, a pedra fundamental de um trabalho de
mineração é a definição da estratégia, ou seja, do objetivo do negócio,
incluindo metas e expectativas, para alcançar o sucesso.
Tendo clara a estratégia, procede-se à extração de dados que possam
ampliar o negócio, tanto em relação a aspectos técnicos quanto comer-
ciais (TORGO, 2017). Porém, diante do volume de informações brutas, são
necessárias a coleta entre variáveis relevantes e a definição de parâmetros
14 Introdução à data mining
analíticos que tenham relação direta com o negócio, sempre no intuito

de assimilar todos os dados e informações importantes. A esse propósito,
servem os modelos preditivos, direcionados, de forma simplificada, ao
comportamento dos clientes, prevendo resultados futuros que possibi-
litarão ações mais eficientes.
Vê-se, portanto, a importância da tarefa de minerar dados, promissora
e fundamental para todos os negócios, pois todos possuem clientes de
forma direta ou indireta. Continue a leitura e aprofunde seus conheci-
mentos a respeito desse revolucionário processo.
1 Conceitos fundamentais
Conforme Turban e Volonino (2013), a mineração de dados é um processo
computadorizado da inteligência de negócios que conduz buscas em grandes
quantidades de dados e informações para tentar descobrir relações previamente
desconhecidas, mas valiosas, entre eles. Dessa forma, pode fornecer respostas
para perguntas organizacionais importantes, ajudando a fazer predições e, por
consequência, a tomar decisões operacionais e estratégicas, como comentamos
na introdução deste capítulo.
A mineração de dados vem se tornando muito popular no mundo com-
putacional por aplicar técnicas e soluções no tratamento de recuperação da
informação sem passar por cima de técnicas de análise de dados. Trata-se
de um processo que utiliza inteligência estatística, matemática e artificial,
bem como técnicas de aprendizagem baseadas em computador para extrair e
identificar informações úteis e o conhecimento subsequente de grandes bancos
de dados, incluindo data warehouses.
Segundo Castro e Ferrari (2016), o termo “mineração de dados” remete ao processo

de exploração de minérios. O processo de exploração das bases de dados alude à
exploração da mina, e a utilização de algoritmos alude a ferramentas de trabalho
utilizadas para a obtenção do conhecimento, ou seja, os minerais preciosos.
Introdução à data mining 15
Com o crescente avanço da tecnologia e o consequente aumento de veloci-

dades de processamento, custos menores de armazenamento e melhorias em
pacotes de software tornaram a mineração de dados mais atraente e econômica.
Devido à corrida por desenvolvimento e consumo de software e hardware
interligados com computação em nuvem, a quantidade de dados gerados
aumentou exponencialmente; com isso, foram criados muitos repositórios
para diferentes derivações de dados. O que vem facilitando e incentivando
essa demanda aumentada de dados são as plataformas web, veneradas pelos
usuários pela praticidade com que podem publicar e compartilhar postagens
e notícias, entre outas atividades que levam a gerar muitas informações. Os
aplicativos também são grandes responsáveis pelo aumento do volume de
dados, pois demandam avanços em projeto de algoritmos para aprendizagem
de novos padrões de forma dinâmica e escalável.
Atualmente, as áreas que mais utilizam a mineração de dados são as finanças
(em bancos, por exemplo, para identificar que clientes responderão melhor a
propostas de empréstimo e financiamento), o varejo (para prever vendas, agendar
distribuição de mercadorias, etc.) e a saúde (para correlacionar demografia
de pacientes com doenças críticas e obter melhores insights sobre sintomas).
Sobretudo, tem sido muito utilizada para (TURBAN; VOLONINO, 2013):
detectar comportamento fraudulento, especialmente em reclamações

de apólices de seguros e no uso de cartões de crédito.
identificar padrões de compras dos clientes;
recuperar clientes lucrativos;
identificar regras de negociação a partir de dados históricos;
apoiar a análise de carrinhos de compras.
A mineração de dados, assim, ajuda a responder perguntas como estas:
Como é possível efetuar a segmentação do mercado para identificar

clientes em potencial?
De que forma se pode efetuar o agrupamento de clientes atuais?
Como classificar os clientes com maior potencial para o futuro?
Como saber quais são os clientes com tendências a perder interesse
pelo negócio ou produto?
Como aplicar os valores corretos para produtos e serviços?
Cada vez que você usa seu cartão de crédito, sua compra ou transação fica registrada.
A cada solicitação de compra, informações são enviadas para uma base transacio-
nal no intuito de verificar se o cartão é válido, se não foi dado como roubado, se o
comportamento de compra não é atípico e se o limite não foi ultrapassado. Para a
empresa de cartão de crédito, esses dados transacionais podem conter incontáveis
entradas anuais para cada cliente. O desafio é encontrar formas de extrair (minerar)
essas informações e utilizá-las a favor dos objetivos estratégicos da companhia (SHARPE;
DE VEAUX; VELLEMAN, 2011).
A mineração de dados também tem sido muito utilizada na área da edu-

cação, onde amplia possibilidades para que o conhecimento alcance degraus
que contribuam para melhorias dos sistemas de ensino e aprendizagem pela
análise de dados que permitam prever como será o desempenho de alunos,
professores, instituições, enfim, de todos que possam influenciar o ambiente
de aprendizagem. Ajuda, assim, a melhorar as condições escolares como
infraestrutura, processo escolar e acadêmico, desempenho dos alunos, entre
outros fatores ligados a esses sistemas, incluindo monitoramento mais eficiente
de reprovação e evasão escolar.
Seja qual for a área, a utilização de alternativas para análises de dados,
reconhecimento de padrões, aplicação de modelagens, análises estatísticas e
correlação das informações contribui para o cruzamento das bases de pesquisa,
levando a um ponto central de conhecimento que beneficia qualquer campo e,
por consequência, impulsionando estratégias para obtenção de lucro, inovação
e progresso tecnológico.
De fato, a mineração de dados faz parte de um processo mais complexo:
a descoberta de conhecimento em bases de dados, ou knowledge discovery
in databases (KDD). Embora algumas pessoas costumem empregar os termos
como sinônimos, não se trata da mesma coisa. A mineração de dados é parte
integrante da KDD, processo geral de conversão de dados brutos em infor-
mações úteis, como mostrado na Figura 1, que consiste nas etapas a seguir.
1. Seleção de dados.
2. Pré-processamento de dados.
3. Transformação de dados.
4. Mineração de dados.
5. Interpretação/avaliação de dados.
Figura 1. Etapas do processo de KDD.

Fonte: Sharda, Delen e Turban (2019, p. 255).
Dessa forma, a mineração de dados é utilizada como refinamento dos

resultados das etapas anteriores, pois analisa as informações em cima dos pa-
drões exigidos e, em seguida, conclui com a validação dos dados que passaram
pela análise, ou seja, que estavam dentro da classificação exigida de acordo
com o modelo do projeto ou negócio, seguindo para etapa de padronização
(BUTTLE, 2009).
Tudo começa a partir de um repositório de dados, com os mais variados
tipos de informações, que, até então, não possuem valores especificados. Após
todo o processo é que se consegue obter modelos ou conjuntos de informações
que serão importantes e decisivos para tomadas de decisões, ou seja, o co-
nhecimento, efetivamente. Isto é, a mineração de grandes volumes de dados
resulta na descoberta de novos e importantes elementos ou padrões, antes
“escondidos”, que contribuirão para alavancar ainda mais o desenvolvimento
do ciclo de vida de um estabelecimento (comercial ou não) por meio decisões e
estratégias para gerenciamento desses dados. Em outras palavras, a utilização
da mineração permite buscar informações do passado, desprezadas pelo seu
tempo, e cruzá-las com os acontecimentos recentes, oferecendo soluções que
contemplem a base ou pilar do negócio (SFERRA; CORRÊA, 2003).
É importante observar, porém, de acordo com Baskarada e Koronios (2013),

que somente dados não são capazes de dizer algo aprofundado sobre alguma
pesquisa ou investigação; eles necessitam ser convertidos para informações,
conhecimento e, por fim, sabedoria, no intuito de poder, efetivamente, agregar
valor a uma organização. Trata-se, fundamentalmente, da ideia disseminada
por Russell L. Ackoff no artigo “From data to wisdom”, de 1989, retratada
na forma da hierarquia DIKW, ou do inglês data, information, knowledge
and wisdom (ou dados, informação, conhecimento e sabedoria), na Figura 2.
Figura 2. A hierarquia DIKW.

Fonte: Adaptada de Bernstein (2009).
Pela análise da Figura 2, temos o seguinte (BELLINGER; CASTRO;

MILLS, 2003).
Dados. É a forma “bruta” da informação, sem inter-relação com outras

bases e sem resultados significativos além de sua própria existência.
Podem existir em qualquer formato, utilizável ou não. Os dados são,
porém, o ponto de partida para alcançar um resultado significativo.
Informações. São dados que possuem algum significado ou classifica-
ção de acordo com suas bases, podendo ou não ser utilizados. É aqui que
os dados começam a ser processados por meio de análises para encontrar
respostas para as perguntas “Quem?”, “O quê?”, “Quando?” e “Onde?”.
Conhecimento. É o aproveitamento de um conjunto de informações
para soluções de problemas ou desenvolvimento de ideias. Essas com-
binações acontecem de forma determinística para utilizar integração
com outros conhecimentos e, assim, conhecer metodologias. Pode-se

dizer que, nesse nível, surge o interesse pela informação por meio da
resposta para a pergunta “Como?”.
Sabedoria. Considerado o nível mais alto alcançado na hierarquia
da DIKW, responde à pergunta “Por quê?” por meio de um processo
extrapolativo, não determinístico e não probabilístico. Ele convoca
todos os níveis anteriores de consciência e, especificamente, tipos
especiais de programação humana (códigos morais, éticos, etc.). É a
essência da investigação filosófica. Ao contrário dos níveis anteriores,
faz perguntas para as quais não há resposta (facilmente alcançável).
Sabedoria é, portanto, o processo pelo qual também discernimos, ou
julgamos, entre certo e errado, bom e ruim.
Para que as relação entre os níveis fique mais clara, veja o exemplo abaixo,
no Quadro 1.
Quadro 1. Exemplo de aplicação dos níveis da pirâmide DIKW
Nível da hierar-
quia DIKW Exemplo Descrição
Dados “Está chovendo.” Representa um fato ou uma decla-

ração de evento sem relação com
outras coisas.
Informação “A temperatura caiu 8°C e, Incorpora o entendimento de rela-

depois, começou a chover.” ções de algum tipo, possivelmente
causa e efeito.
Conhecimento “Se a umidade está muito alta Representa um padrão que

e a temperatura cai considera- conecta e geralmente fornece
velmente, é improvável que a um alto nível de previsibilidade
atmosfera seja capaz de reter a como o que está descrito ou o que
umidade; então, chove.” acontecerá na sequência.
Sabedoria “Chove porque chove. E isso Abarca uma compreensão dos

abrange todas as interações princípios fundamentais incor-
que acontecem entre chuva, porados no conhecimento que
evaporação, correntes de ar, são essencialmente a base para o
gradientes de temperatura, conhecimento ser o que é. A sabe-
mudanças, chuva.” doria é, sobretudo, sistêmica.
Fonte: Adaptado de Bellinger, Castro e Mills (2003).

Mas, a essa altura, você deve estar se perguntando: “Como coloco em prática
a mineração de dados em minha empresa?”. Baseados nas melhores práticas,
pesquisadores e praticantes da mineração de dados propuseram uma série de
processos para maximizar as chances de sucesso de projetos de mineração. Esses
esforços resultaram em alguns processos-padrão, alguns bastante populares,
como o CRISP-DM, ou Cross-Industry Standard Process for Data Mining,
proposto em meados dos anos 1990 por um consórcio de empresas europeias
como uma metodologia-padrão sem proprietário para mineração de dados
(SHARDA; DELEN; TURBAN, 2019). A Figura 3 ilustra essa metodologia.
Figura 3. O processo de mineração de dados CRISP-DM.

Fonte: Sharda, Delen e Turban (2019, p. 247).
Na Figura 3, é possível identificar que há uma necessidade de que o algo-

ritmo desenvolvido, responsável pela exploração e análise da base de dados,
repita por mais de uma vez todo o processo, tornando a repetição uma regra
a ser obedecida. Com isso, caso não tenha obtido sucesso na primeira vez,
haverá a segunda e demais vezes até obter o resultado esperado. Essa repeti-
ção ajudará a obter maior aprendizado pelas vezes que retornou, tornando o
resultado do conhecimento mais preciso e exato.
Obviamente, existem outras metodologias interessantes de aplicação da
mineração de dados, que podem ser tão úteis quanto a que descrevemos,
dependendo do caso. Neste capítulo, não vamos adiante nesse assunto, então
cabe a você pesquisar mais sobre ele. A seguir, serão apresentadas algumas
descrições sobre os tipos de dados utilizados em mineração de dados. Vamos lá?
2 Tipos de dados usados em mineração

de dados
Atualmente, como comentamos na seção anterior, os data warehouses são
muito grandes e ricos em recursos, de forma que é necessário minerar os
dados corporativos a fim de revelar aqueles que realmente são valiosos para
o aprimoramento de práticas e processos empresariais, bem como, em última
instância, para a alavancagem estratégica do negócio. Mas quais seriam es-
ses dados? Que informações se deseja obter? Como os usuários podem não
saber como aproveitar informações passadas ou antigas, nem como extrair
conhecimento a partir delas, cabe utilizar a mineração de dados para encontrar
diferentes parâmetros que ajudarão nas decisões.
Segundo Castro e Ferrari (2016), existem algumas funcionalidades da
mineração de dados que podem ser aplicadas na especificação do tipo de
informações que se deseja obter durante a mineração do banco de dados.
Estas estão classificadas em:
descritivas, quando se busca por padrões compreensíveis para que huma-

nos possam descrever os dados, caracterizando suas propriedades gerais;
preditivas, quando, por meio de algumas variáveis, é possível realizar
previsões de valores desconhecidos ou futuros pela inferência com
outras variáveis a partir dos objetivos pretendidos.
A análise descritiva de dados se baseia no uso de ferramentas capazes de

medir, explorar e descrever características particulares dos dados, além de
permitir uma sumarização e compreensão dos objetos da base e de seus atribu-
tos. Isso é vantajoso, por exemplo, para uma análise de salários dentro de um
grupo de funcionários, identificando se a faixa salarial está abaixo ou acima
da média. Porém, em muitos casos, o uso de dados preditivos com algoritmos
estatísticos e técnicas de aprendizado de máquina ajuda na identificação e na
estimativa para prever resultados futuros.
Para a análise descritiva, existem alguns tratamentos internos, como
agrupamento e associação, úteis para quando se deseja encontrar grupos
de objetos que possuem objetos iguais ou semelhantes. Por outro lado,
para a análise prescritiva, temos a classificação, que serve para avaliar
a classe de um objeto não rotulado, como prever se tumor em células é
benigno ou maligno, ou classificar transações de cartão de crédito como
legítimas ou fraude.
Conforme Castro e Ferrari (2016), é possível definir um tipo de aborda-
gem, na mineração de dados, de acordo com os rótulos ou a classificação dos
dados. Essas abordagens podem ser supervisionadas, quando há rótulos que
os classificam como normais ou com anomalias, e não supervisionadas,
quando não há rótulos conhecidos para os objetos da base. Veja a Figura 4,
que ilustra todo o processo de detecção de anomalias, incluindo os passos
convencionais de predição.
Figura 4. Fluxo do processo de detecção de anomalias.

Fonte: Adaptada de Castro e Ferrari (2016).
Cada banco de dados possui características que o difere de outros; dessa

forma, os objetivos de cada análise deverão ser diferentes, embora o cruzamento
entre os resultados dessas explorações ajude na formatação de um sistema
com alto grau de confiabilidade. Pela importância da base de dados, então,
vê-se a relevância da mineração de dados, que veio para analisar e organizar
tudo em informações concisas. São diversos os formatos que poderão existir
e, à medida que a compreensão dessas bases vai progredindo, muitas soluções
que estavam programadas poderão mudar de direção.
Apresentamos, a seguir, alguns tipos de dados que fazem parte da mine-
ração de dados, muitos deles ligados ou incorporados ao data warehouse, ou
armazém de dados, um tipo de depósito para armazenar informações com
disponibilidade de compartilhamento que geralmente faz parte de uma base
comum de alguma instituição, construído com base no princípio da inteligência
de negócios, ou business intelligence.
Arquivos simples. Como o próprio nome diz, são simples por se tratar
de arquivos em formato de texto ou binário em formato “.CSV”, que
podem ser facilmente interpretados por algoritmos de mineração de
dados sem a necessidade de formação de tabelas para a organização
de banco de dados.
Bancos de dados relacionais. Nesse caso, ocorre a definição por meio
de tabelas. A coleta de dados é organizada em linhas e colunas, ocor-
rendo o cruzamento de informações e o relacionamento entre elas. É
o método aplicado em padrão API de banco de dados SQL (structured
query language, ou linguagem de consulta estruturada).
Armazém de dados. Também chamado de data warehouse, é a forma
de se obter dados que fazem parte de várias fontes de consultas e con-
tribuem para tomadas de decisões. São três os tipos de modelagem de
armazém de dados: enterprise data warehouse, data mart e virtual
warehouse, além de possuir dois tipos de abordagens para atualizações
de suas bases como abordagem orientada a consultas e abordagem
orientada a atualizações. Geralmente, é aplicado em tomada de decisões
de negócios.
Bancos de dados transacionais. Funciona como uma estrutura de

coletânea de dados organizados por data e hora, em que a relação é
por meio de transações entre os bancos de dados. Possui capacidade
de reverter ou desfazer a operação (se ocorrer falhas na conclusão/
confirmação da transação), devido a sua flexibilidade, permitindo,
ainda, que usuários possam efetuar modificações sem riscos de afetar
os bancos de dados. Muito aplicado em sistemas bancários, sistemas
distribuídos, bancos de dados de objetos, etc.
Bancos de dados multimídia. Trata-se de dados em formatos de mídias
armazenados em bancos de dados orientados a objetos. Aplicados no
armazenamento de informações complexas em formatos preestabele-
cidos e aplicados em bibliotecas digitais, vídeo sob demanda, notícias
sob demanda, banco de dados musical, etc.
Bases de dados espaciais. Tipo de base para armazenamento de dados
geográficos ou topográficos em formato de coordenadas, topologia,
linhas, polígonos, etc. Sua aplicação está voltada para mapas, posicio-
namento global, GPS, entre outros.
Bancos de dados de séries temporais. Aplicados no segmento de
bolsa de valores, que trabalha com pesquisa de dados temporais e
movimentação ou atividades registradas por usuários, com base em
matrizes numéricas indexadas por hora, data, etc., por meio de análises
em tempo real.
World Wide Web (WWW). Tratamento de dados por meio da internet.
Muito utilizado por compras on-line, pesquisas de empregos, consultas
científicas, etc. Uma base referenciada por coleção de documentos e
recursos, como áudio, vídeo, texto, etc., identificada por URLs (uniform
resource locators) e utilizada por meio de navegadores como Mozilla,
Firefox, Chrome, Internet Explore, etc.
3 Nomenclaturas mais comuns em mineração

de dados
São inúmeras as técnicas para a mineração de dados. Em geral, a escolha
da técnica está relacionada ao tipo de dados de que dispomos e ao tipo de
informação que a partir deles pretendemos obter. Algumas das técnicas mais
aplicadas em mineração de dados incluem as descritas no Quadro 2.
Quadro 2. Técnicas usuais em mineração de dados
Ordem Técnica Descrição
1 Classificação Identificação de uma classe de item,

estabelecendo conexões entre elementos e seus
conjuntos de dados.
2 Agrupamento Localização de grupos e subgrupos semelhantes

para os dados encontrados.
3 Associações Determinação dos dados de acordo com

seus grupos, realizando a modelagem de
dependência.
4 Descrição e Descrição dos resumos visuais e exploração dos

visualização dados.
5 Resumo Descrição do grupo ao qual o dado faz parte.
6 Estimativa Previsões de valores contínuos, como renda,

saldo bancário, etc.
7 Detecção de desvio Busca por alterações ou desvio de informações.
8 Análise de link Análise e localização de relacionamentos para

determinado dado.
Fonte: Adaptado de Srivastava (2015).
De acordo com Castro (2016), todas essas diferentes técnicas colaboram

para o surgimento de diferentes nomenclaturas pela diversificação de contextos
para a aplicação e o desenvolvimento da mineração de dados. Veja, a seguir,
alguns conceitos importantes, de destaque na área técnico-científica.
Inteligência artificial
A inteligência artificial é uma área da computação que busca construir máqui-
nas autônomas, que possam conduzir tarefas complexas, sem a intervenção
humana, o que requer que sejam capazes de perceber e raciocinar. Por se tratar
de capacidades inerentemente humanas, o trabalho na área continua desafiador
até hoje (BROOKSHEAR, 2013).
A busca pela construção de máquinas que imitam o comportamento humano tem uma
longa história, mas muitos concordam que a área moderna da inteligência artificial surgiu
nos anos 1950. Foi precisamente em 1950 que Alan Turing publicou o artigo “Máquinas
computacionais e inteligência”, no qual propôs que máquinas poderiam ser programas para
apresentar comportamento inteligente. A popularidade da área aumentou consideravel-
mente com os avanços tecnológicos computacionais e as implementações de algoritmos.
A inteligência artificial permite ajustes de conhecimentos na coleta de infor-

mações e aprendizagem, gerando a capacidade de as máquinas tomarem decisões
e entenderem diversos dados com possibilidades de resolução de problemas com
nível de dificuldade muito elevado, que humanos não conseguiriam resolver ou
demorariam muito tempo para encontrar resultados ou realizar comparações.
Portanto, as máquinas inteligentes foram feitas para funcionarem como seres
humanos, só que de forma otimizada. São baseadas em nossa inteligência e
capacidade de percepção, de resolução de problemas, de comunicação, de apren-
dizagem, de adaptação, etc. Não dependem de aprendizado ou feedback, mas de
sistemas de controle diretamente programados. Os sistemas de inteligência artificial
apresentam as soluções para os problemas por conta própria, por meio de cálculos.
Desde a concepção dos sistemas inteligentes, aplicou-se a manipulação
algorítmica para a análise do conjunto ou da estrutura de palavras existente
(CASTRO; FERRARI, 2016). Um exemplo clássico desse procedimento,
ilustrado na Figura 5, mostra um processo de diagnóstico médico, em que,
por meio de palavras-chave, ou comandos que confirmem o comportamento
por determinados sintomas, obtém-se o diagnóstico.
Figura 5. Exemplo de sistema especialista para diagnóstico médico.

Fonte: Adaptada de Castro e Ferrari (2016).
Portanto, vemos que a técnica de mineração em dados extraídos é usada

pelos sistemas inteligentes para criar soluções, servindo de base para a in-
teligência artificial e constituindo parte dos códigos de programação com
informações e dados necessários para que os sistemas de inteligência artificial
funcionem adequadamente.
Inteligência computacional
De acordo com Aguiar e Junior (2007), aprendizado, percepção, raciocínio,
evolução e adaptação são comportamentos inerentes ao ser humano que estão
sendo ensinados a sistemas computacionais, entrelaçando com lógicas binárias
para que as máquinas possuam entendimentos idênticos, mas otimizados,
àqueles que teria um ser humano.
Embora os objetivos da inteligência computacional sejam bastante semelhantes aos

da inteligência artificial, ela foi criada com o objetivo de haver uma nova linha de
pesquisa, dissociada da inteligência artificial para facilitar investimentos financeiros
e o desenvolvimento.
De forma geral, a inteligência computacional abrange:
redes neurais artificiais, inspiradas no cérebro humano;

conjuntos nebulosos, inspirados na linguagem natural;
computação evolutiva, inspirada na teoria da evolução.
As redes neurais merecem destaque aqui. Tentam imitar a forma como o

cérebro humano trabalha e têm sido utilizadas em muitos setores, especialmente
quando é necessário o reconhecimento de padrões ou imagens, uma vez que
podem aprender com a informação que processam. O setor financeiro, por
exemplo, utiliza massivamente redes neurais para revisar aplicações de crédito
e criar padrões ou perfis de aplicações que seguem duas categorias: aprovada
ou negada (BALTZAN; PHILLIPS, 2012).
As várias características das redes neurais incluem:
aprender e ajustar-se a novas circunstâncias por conta própria;

submeter-se ao processamento paralelo massivo;
funcionar sem informações completas ou bem estruturadas;
lidar com grandes volumes de informação, com muitas variáveis;
analisar relações não lineares.
Aprendizado de máquina
Do inglês machine learning, consiste em programar os computadores para traba-
lharem em cima de otimização por meio de experiências ou exemplos gravados
como dados de entrada. É considerada uma subárea da inteligência artificial que
aplica o aprendizado por meio de modelos baseados em experiências, utilizando
algoritmos dedutivos por estatística, extração de regras e padrões de grandes vo-
lumes de dados. Sua relação com mineração de dados está associada ao princípio
de extração automática da informação em cima da base de dados a ser consultada.
Fazem parte desse processo métodos como árvores de decisão, regras de associação
e classificação, tabelas de decisão, etc (CASTRO; FERRARI, 2016).
O aprendizado de máquina é absorvido por meio de algoritmos, uma
sequência de ações exatas que contribuem e resolvem situações ou tarefas
de forma automática. A ação desses algoritmos manipula diversos tipos de
comandos para executar procedimentos e soluções, momento em que ocorre
a aprendizagem das máquinas. É dessa maneira que sistemas de GPS, por
exemplo, conseguem analisar e traçar rotas mais rápidas ou melhores para os
motoristas, e como, por meio de uma única pesquisa, sites de buscas enviam
informações para redes sociais e sites de vendas on-line sobre seu interesse
em determinados produtos e serviços.
Processamento de linguagem natural

A funcionalidade de usar metodologias para converter informações em formu-
lários estruturados pode ser apresentada de maneiras diferentes, como tabelas
HTML agrupadas, mapas mentais, gráficos, etc. Esse é o processamento da
linguagem natural (PNL), em que a função de mineração emprega uma varie-
dade de metodologias para processar textos. Isso acontece porque as máquinas
aprendem o idioma natural por meio da simulação da capacidade humana
de entender idiomas naturais diversos. Na busca por repostas corretas após
análises de perguntas, estando o processo de mineração associado, ocorrerá
a consulta e a extração de informações de todos os dados disponibilizados.

Esse processo só é possível devido à interação com áreas como computação,
linguística e inteligência computacional, e se diferencia das demais por estar
fundamentada em uma relação próxima entre natureza e computação.
Um importante exemplo de PNL são os sistemas de avaliação e análise sobre
sentimentos. Esse método serve para que, após a análise de milhões de mensagens
em cima de alguma notícia, opinião pública ou pesquisa sobre marcas ou produ-
tos, seja possível a extração de significados sobre os sentimentos apresentados,
o que pode ser aplicado em estudos e oportunidades de vantagens competitivas,
para melhorar a experiência de clientes e, até mesmo, para melhorar e adequar
a marca, produtos ou serviços de acordo com o público e a região atendida.
Big data
É um termo genérico para as estratégias e tecnologias não tradicionais que
procuram dar suporte à coleta e ao gerenciamento de grandes quantidades de
dados, dados que não podem ser armazenados apenas em uma unidade, pela
sua multiplicidade de formas (estruturados, não estruturados, em fluxo, etc.).
Suas funções incluem reunir, organizar, processar e coletar insights de grandes
conjuntos de dados. Graças a sua maneira de coletar e armazenar dados e a suas
ferramentas de software intuitivas, diagnósticos embasados por dados estão mais
acessíveis do que nunca. Assim, segundo Sharda, Delen e Turban (2019, p. 14):
[...] em meio à concorrência global, gestores se deparam com uma incrível

oportunidade de tomarem melhores decisões usando análise de dados para
aumentar receitas, diminuir custos, desenvolver produtos melhores, melhoras a
experiência dos clientes, rastrear fraudes antes que aconteçam, além de aumentar
o engajamento dos consumidores por meio de segmentação e customização.
Portanto, o big data funciona como forma de orientar ou garantir direcio-

namento para que pesquisadores, engenheiros, matemático, administradores,
entre outros, consigam decidir de forma correta e promissora sobre ações que
envolvem projetos ou a vida de empresas, aumentando de forma eficiente e
ágil diversas opções de desenvolvimentos e melhorias.
Na área de recursos humanos, por exemplo, o big data é utilizado para analisar
e processar um grande volume e variedade de informações de forma muito mais
rápida e precisa do que faria um ser humano. Como? O big data oferece inteligência
nas decisões de más contratações por meio de sistemas-robôs que conseguem
analisar com maior exatidão grandes volumes de currículos de acordo com as
definições de palavras-chave. Da mesma maneira que ajuda na contratação de novos

funcionários, a ferramenta apoia, por meio de seus algoritmos, o monitoramento
das ações e dos resultados dos atuais colaboradores, garantindo aprendizado e
desenvolvimento contínuos e retenção da mão de obra qualificada.
Pela leitura este capítulo, vimos que é inegável que a tecnologia de mine-
ração de dados, com todas suas nomenclaturas e ferramentas, é um divisor
de águas na forma como se armazena e administra dados. Assim, obtêm-se
grandes perspectivas para o futuro, além de muitas soluções e oportunidades
que antes eram imaginadas somente em filmes de ficção científica.
AGUIAR, H.; JUNIOR, O. (coord.). Inteligência computacional: aplicada à administração,

economia e engenharia em Matlab. São Paulo: Thomson Learning, 2007.
BALTZAN, P.; PHILLIPS, A. Sistemas de informação. Porto Alegre: AMGH, 2012. (Série A).
BASKARADA, S.; KORONIOS, A. Data, information, knowledge, wisdom (DIKW): a semiotic
theoretical and empirical exploration of the hierarchy and its quality dimension. Austra-
lasian Journal of Information Systems, v. 18, nº. 1, p. 5–24, 2013.
BELLINGER, G.; CASTRO, D.; MILLS, A. Data, information, knowledge, and wisdom. 2003.
Disponível em: https://homepages.dcc.ufmg.br/~amendes/SistemasInformacaoTP/
TextosBasicos/Data-Information-Knowledge.pdf. Acesso em: 21 ago. 2020.
BERNSTEIN, J. H. The data-information-knowledge-wisdom hierarchy and its antithesis. 2009.
Disponível em: https://academicworks.cuny.edu/cgi/viewcontent.cgi?referer=https://
scholar.google.de/&httpsredir=1&article=1011&context=kb_pubs. Acesso em: 21 ago.
2020.
BROOKSHEAR, J. G. Ciência da computação: uma visão abrangente. 11. ed. Porto Alegre:
Bookman, 2013.
BUTTLE, F. Customer relationship management: concepts and technologies. Amsterdam:
Elsevier, 2009.
CASTRO, L. N. de; FERRARI D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016.
SFERRA, H. H.; CORRÊA, A. M. C. J. Conceitos e aplicações de data mining: data mining
concepts and applications. Revista de Ciência & Tecnologia, v. 11, nº. 22, p. 19–34, 2003.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão do
negócio. Porto Alegre: Bookman, 2019.
SHARPE, N. R.; DE VEAUX, R. D.; VELLEMAN, P. F. Estatística aplicada: administração, eco-
nomia e negócios. Porto Alegre: Bookman, 2011.
SRIVASTAVA, A. Understanding linkage between data mining and statistics. International

Journal of Engineering Technology, Management and Applied Sciences, v. 3, nº. 10, p. 4–12,
out. 2015. Disponível em: https://www.researchgate.net/profile/Abhay_Srivastava6/pu-
blication/284166749_Understanding_Linkage_between_Data_Mining_and_Statistics/
links/564d60c708aeafc2aaafda60/Understanding-Linkage-between-Data-Mining-and-
-Statistics.pdf?origin=publication_detail. Acesso em: 20 ago. 2020.
TORGO, L., Data mining with R: learning with case studies. 2nd ed. Boca Raton: Chapman
and Hall, 2017.
TURBAN, E.; VOLONINO, L. Tecnologia da informação para gestão: em busca de um melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
Leituras recomendadas
ACKOFF, R. From data to wisdom. Journal of Applied Systems Analysis, nº. 16, p. 3–9, 1989.
AGGARWAL, C. C.; ZHAI, C.X. Mining Text Data. London: Springer, 2012.
AVEN, T. Risk, surprises and black swans: fundamental ideas and concepts in risk assessment
and risk management. Abingdon: Routledge, 2014.
BISHOP, C. M. Pattern Recognition and Machine Learning. London: Springer. 2006.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Disco-
very in Databases. Artificial Intelligence Magazine, v. 17, nº. 3, 1996. Disponível em: https://
www.aaai.org/ojs/index.php/aimagazine/article/view/1230/1131. Acesso em: 20 ago. 2020.
JIFA, G.; LINGLING, Z. Data, DIKW, Big data and Data Science. Procedia Computer Science,
v. 31, p. 814–821, dez. 2014.
KUMAR, V.; REINARTZ, W. Customer relationship management: concept, strategy and tools.
Berlin: Springer Science & Business Media, 2012.
PROVOST, F.; FAWCETT, T. Data science for business. Sebastopol: O’Reilly Media, 2013.
WITTEN, I.; FRANK, E.; HALL, M. Data mining: practical machine learning tools and tech-
niques. 3rd ed. San Francisco: Elsevier, 2011.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Introdução Ao Data Mining

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução Ao Data Mining

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à data mining

 Definir data mining.

analíticos que tenham relação direta com o negócio, sempre no intuito

Segundo Castro e Ferrari (2016), o termo “mineração de dados” remete ao processo

Com o crescente avanço da tecnologia e o consequente aumento de veloci-

 detectar comportamento fraudulento, especialmente em reclamações

A mineração de dados, assim, ajuda a responder perguntas como estas:

 Como é possível efetuar a segmentação do mercado para identificar

A mineração de dados também tem sido muito utilizada na área da edu-

Figura 1. Etapas do processo de KDD.

Dessa forma, a mineração de dados é utilizada como refinamento dos

É importante observar, porém, de acordo com Baskarada e Koronios (2013),

Figura 2. A hierarquia DIKW.

Pela análise da Figura 2, temos o seguinte (BELLINGER; CASTRO;

 Dados. É a forma “bruta” da informação, sem inter-relação com outras

com outros conhecimentos e, assim, conhecer metodologias. Pode-se

Quadro 1. Exemplo de aplicação dos níveis da pirâmide DIKW

Dados “Está chovendo.” Representa um fato ou uma decla-

Informação “A temperatura caiu 8°C e, Incorpora o entendimento de rela-

Conhecimento “Se a umidade está muito alta Representa um padrão que

Sabedoria “Chove porque chove. E isso Abarca uma compreensão dos

Fonte: Adaptado de Bellinger, Castro e Mills (2003).

Figura 3. O processo de mineração de dados CRISP-DM.

Na Figura 3, é possível identificar que há uma necessidade de que o algo-

2 Tipos de dados usados em mineração

 descritivas, quando se busca por padrões compreensíveis para que huma-

A análise descritiva de dados se baseia no uso de ferramentas capazes de

Figura 4. Fluxo do processo de detecção de anomalias.

Cada banco de dados possui características que o difere de outros; dessa

 Bancos de dados transacionais. Funciona como uma estrutura de

3 Nomenclaturas mais comuns em mineração

Quadro 2. Técnicas usuais em mineração de dados

Ordem Técnica Descrição

1 Classificação Identificação de uma classe de item,

2 Agrupamento Localização de grupos e subgrupos semelhantes

3 Associações Determinação dos dados de acordo com

4 Descrição e Descrição dos resumos visuais e exploração dos

5 Resumo Descrição do grupo ao qual o dado faz parte.

6 Estimativa Previsões de valores contínuos, como renda,

7 Detecção de desvio Busca por alterações ou desvio de informações.

8 Análise de link Análise e localização de relacionamentos para

Fonte: Adaptado de Srivastava (2015).

De acordo com Castro (2016), todas essas diferentes técnicas colaboram

A inteligência artificial permite ajustes de conhecimentos na coleta de infor-

Figura 5. Exemplo de sistema especialista para diagnóstico médico.

Portanto, vemos que a técnica de mineração em dados extraídos é usada

Embora os objetivos da inteligência computacional sejam bastante semelhantes aos

De forma geral, a inteligência computacional abrange:

 redes neurais artificiais, inspiradas no cérebro humano;

As redes neurais merecem destaque aqui. Tentam imitar a forma como o

As várias características das redes neurais incluem:

 aprender e ajustar-se a novas circunstâncias por conta própria;

Processamento de linguagem natural

a consulta e a extração de informações de todos os dados disponibilizados.

[...] em meio à concorrência global, gestores se deparam com uma incrível

Portanto, o big data funciona como forma de orientar ou garantir direcio-

definições de palavras-chave. Da mesma maneira que ajuda na contratação de novos

AGUIAR, H.; JUNIOR, O. (coord.). Inteligência computacional: aplicada à administração,

SRIVASTAVA, A. Understanding linkage between data mining and statistics. International

Você também pode gostar

Definir data mining.

detectar comportamento fraudulento, especialmente em reclamações

Como é possível efetuar a segmentação do mercado para identificar

Dados. É a forma “bruta” da informação, sem inter-relação com outras

descritivas, quando se busca por padrões compreensíveis para que huma-

Bancos de dados transacionais. Funciona como uma estrutura de

redes neurais artificiais, inspiradas no cérebro humano;

aprender e ajustar-se a novas circunstâncias por conta própria;