Escolar Documentos
Profissional Documentos
Cultura Documentos
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Introdução
Por meio do avanço da internet e da computação em nuvem, o fluxo de
dados aumentou consideravelmente, de forma que muitas organizações
tiveram que se preparar mais para o armazenamento e o controle das
informações do que para a seleção e a análise destas. Portanto, houve
consideráveis investimentos em equipamentos e recursos para o ar-
mazenamento seguro de dados. Surge, então, a necessidade de tratar
esses dados da forma mais eficiente possível, gerando conhecimento e,
portanto, vantagem para as organizações. Foi assim que a mineração de
dados, ou data mining, ganhou destaque nos últimos anos.
De fato, o conhecimento organizacional armazenado é um ativo dos
mais valiosos, pois apoia tomadas de decisões estratégicas de negócios.
Trata-se de uma abundância de dados que, se não forem tratados correta-
mente, podem acabar gerando problemas para a empresa, o que justifica
procedimentos e ações que armazenem e analisem todos esses dados
com inteligência. Dessa forma, a pedra fundamental de um trabalho de
mineração é a definição da estratégia, ou seja, do objetivo do negócio,
incluindo metas e expectativas, para alcançar o sucesso.
Tendo clara a estratégia, procede-se à extração de dados que possam
ampliar o negócio, tanto em relação a aspectos técnicos quanto comer-
ciais (TORGO, 2017). Porém, diante do volume de informações brutas, são
necessárias a coleta entre variáveis relevantes e a definição de parâmetros
14 Introdução à data mining
1 Conceitos fundamentais
Conforme Turban e Volonino (2013), a mineração de dados é um processo
computadorizado da inteligência de negócios que conduz buscas em grandes
quantidades de dados e informações para tentar descobrir relações previamente
desconhecidas, mas valiosas, entre eles. Dessa forma, pode fornecer respostas
para perguntas organizacionais importantes, ajudando a fazer predições e, por
consequência, a tomar decisões operacionais e estratégicas, como comentamos
na introdução deste capítulo.
A mineração de dados vem se tornando muito popular no mundo com-
putacional por aplicar técnicas e soluções no tratamento de recuperação da
informação sem passar por cima de técnicas de análise de dados. Trata-se
de um processo que utiliza inteligência estatística, matemática e artificial,
bem como técnicas de aprendizagem baseadas em computador para extrair e
identificar informações úteis e o conhecimento subsequente de grandes bancos
de dados, incluindo data warehouses.
Cada vez que você usa seu cartão de crédito, sua compra ou transação fica registrada.
A cada solicitação de compra, informações são enviadas para uma base transacio-
nal no intuito de verificar se o cartão é válido, se não foi dado como roubado, se o
comportamento de compra não é atípico e se o limite não foi ultrapassado. Para a
empresa de cartão de crédito, esses dados transacionais podem conter incontáveis
entradas anuais para cada cliente. O desafio é encontrar formas de extrair (minerar)
essas informações e utilizá-las a favor dos objetivos estratégicos da companhia (SHARPE;
DE VEAUX; VELLEMAN, 2011).
1. Seleção de dados.
2. Pré-processamento de dados.
3. Transformação de dados.
4. Mineração de dados.
5. Interpretação/avaliação de dados.
Introdução à data mining 17
Para que as relação entre os níveis fique mais clara, veja o exemplo abaixo,
no Quadro 1.
Nível da hierar-
quia DIKW Exemplo Descrição
Mas, a essa altura, você deve estar se perguntando: “Como coloco em prática
a mineração de dados em minha empresa?”. Baseados nas melhores práticas,
pesquisadores e praticantes da mineração de dados propuseram uma série de
processos para maximizar as chances de sucesso de projetos de mineração. Esses
esforços resultaram em alguns processos-padrão, alguns bastante populares,
como o CRISP-DM, ou Cross-Industry Standard Process for Data Mining,
proposto em meados dos anos 1990 por um consórcio de empresas europeias
como uma metodologia-padrão sem proprietário para mineração de dados
(SHARDA; DELEN; TURBAN, 2019). A Figura 3 ilustra essa metodologia.
Arquivos simples. Como o próprio nome diz, são simples por se tratar
de arquivos em formato de texto ou binário em formato “.CSV”, que
podem ser facilmente interpretados por algoritmos de mineração de
dados sem a necessidade de formação de tabelas para a organização
de banco de dados.
Bancos de dados relacionais. Nesse caso, ocorre a definição por meio
de tabelas. A coleta de dados é organizada em linhas e colunas, ocor-
rendo o cruzamento de informações e o relacionamento entre elas. É
o método aplicado em padrão API de banco de dados SQL (structured
query language, ou linguagem de consulta estruturada).
Armazém de dados. Também chamado de data warehouse, é a forma
de se obter dados que fazem parte de várias fontes de consultas e con-
tribuem para tomadas de decisões. São três os tipos de modelagem de
armazém de dados: enterprise data warehouse, data mart e virtual
warehouse, além de possuir dois tipos de abordagens para atualizações
de suas bases como abordagem orientada a consultas e abordagem
orientada a atualizações. Geralmente, é aplicado em tomada de decisões
de negócios.
24 Introdução à data mining
Inteligência artificial
A inteligência artificial é uma área da computação que busca construir máqui-
nas autônomas, que possam conduzir tarefas complexas, sem a intervenção
humana, o que requer que sejam capazes de perceber e raciocinar. Por se tratar
de capacidades inerentemente humanas, o trabalho na área continua desafiador
até hoje (BROOKSHEAR, 2013).
26 Introdução à data mining
A busca pela construção de máquinas que imitam o comportamento humano tem uma
longa história, mas muitos concordam que a área moderna da inteligência artificial surgiu
nos anos 1950. Foi precisamente em 1950 que Alan Turing publicou o artigo “Máquinas
computacionais e inteligência”, no qual propôs que máquinas poderiam ser programas para
apresentar comportamento inteligente. A popularidade da área aumentou consideravel-
mente com os avanços tecnológicos computacionais e as implementações de algoritmos.
Inteligência computacional
De acordo com Aguiar e Junior (2007), aprendizado, percepção, raciocínio,
evolução e adaptação são comportamentos inerentes ao ser humano que estão
sendo ensinados a sistemas computacionais, entrelaçando com lógicas binárias
para que as máquinas possuam entendimentos idênticos, mas otimizados,
àqueles que teria um ser humano.
Aprendizado de máquina
Do inglês machine learning, consiste em programar os computadores para traba-
lharem em cima de otimização por meio de experiências ou exemplos gravados
como dados de entrada. É considerada uma subárea da inteligência artificial que
aplica o aprendizado por meio de modelos baseados em experiências, utilizando
algoritmos dedutivos por estatística, extração de regras e padrões de grandes vo-
lumes de dados. Sua relação com mineração de dados está associada ao princípio
de extração automática da informação em cima da base de dados a ser consultada.
Fazem parte desse processo métodos como árvores de decisão, regras de associação
e classificação, tabelas de decisão, etc (CASTRO; FERRARI, 2016).
O aprendizado de máquina é absorvido por meio de algoritmos, uma
sequência de ações exatas que contribuem e resolvem situações ou tarefas
de forma automática. A ação desses algoritmos manipula diversos tipos de
comandos para executar procedimentos e soluções, momento em que ocorre
a aprendizagem das máquinas. É dessa maneira que sistemas de GPS, por
exemplo, conseguem analisar e traçar rotas mais rápidas ou melhores para os
motoristas, e como, por meio de uma única pesquisa, sites de buscas enviam
informações para redes sociais e sites de vendas on-line sobre seu interesse
em determinados produtos e serviços.
Big data
É um termo genérico para as estratégias e tecnologias não tradicionais que
procuram dar suporte à coleta e ao gerenciamento de grandes quantidades de
dados, dados que não podem ser armazenados apenas em uma unidade, pela
sua multiplicidade de formas (estruturados, não estruturados, em fluxo, etc.).
Suas funções incluem reunir, organizar, processar e coletar insights de grandes
conjuntos de dados. Graças a sua maneira de coletar e armazenar dados e a suas
ferramentas de software intuitivas, diagnósticos embasados por dados estão mais
acessíveis do que nunca. Assim, segundo Sharda, Delen e Turban (2019, p. 14):
Leituras recomendadas
ACKOFF, R. From data to wisdom. Journal of Applied Systems Analysis, nº. 16, p. 3–9, 1989.
AGGARWAL, C. C.; ZHAI, C.X. Mining Text Data. London: Springer, 2012.
AVEN, T. Risk, surprises and black swans: fundamental ideas and concepts in risk assessment
and risk management. Abingdon: Routledge, 2014.
BISHOP, C. M. Pattern Recognition and Machine Learning. London: Springer. 2006.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Disco-
very in Databases. Artificial Intelligence Magazine, v. 17, nº. 3, 1996. Disponível em: https://
www.aaai.org/ojs/index.php/aimagazine/article/view/1230/1131. Acesso em: 20 ago. 2020.
JIFA, G.; LINGLING, Z. Data, DIKW, Big data and Data Science. Procedia Computer Science,
v. 31, p. 814–821, dez. 2014.
KUMAR, V.; REINARTZ, W. Customer relationship management: concept, strategy and tools.
Berlin: Springer Science & Business Media, 2012.
PROVOST, F.; FAWCETT, T. Data science for business. Sebastopol: O’Reilly Media, 2013.
WITTEN, I.; FRANK, E.; HALL, M. Data mining: practical machine learning tools and tech-
niques. 3rd ed. San Francisco: Elsevier, 2011.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.