Escolar Documentos
Profissional Documentos
Cultura Documentos
DE DADOS
AUTORIA
ANA LUIZA CERCHIARI
DE ANDRADE
DADOS DO FORNECEDOR
Análise de Qualidade, Edição de Texto, Design Instrucional,
Edição de Arte, Diagramação, Design Gráfico e Revisão.
ASSISTA
Indicação de filmes, vídeos ou similares que trazem informações complementares ou
aprofundadas sobre o conteúdo estudado.
CITANDO
Dados essenciais e pertinentes sobre a vida de uma determinada pessoa relevante para
o estudo do conteúdo abordado.
CONTEXTUALIZANDO
Dados que retratam onde e quando aconteceu determinado fato; demonstra-se a situação
histórica do assunto.
CURIOSIDADE
Informação que revela algo desconhecido e interessante sobre o assunto tratado.
DICA
Um detalhe específico da informação, um breve conselho, um alerta, uma informação
privilegiada sobre o conteúdo trabalhado.
EXEMPLIFICANDO
Informação que retrata de forma objetiva determinado assunto.
EXPLICANDO
Explicação, elucidação sobre uma palavra ou expressão específica da área de
conhecimento trabalhada.
MINERAÇÃO DE DADOS 3
Exemplos de aplicações.......................................................................................................................22
Várias formas de aplicação............................................................................................................23
Data warehouse................................................................................................................................24
Exibindo dashboards no Excel........................................................................................................26
Sintetizando.............................................................................................................................................36
Referências bibliográficas...................................................................................................................37
MINERAÇÃO DE DADOS 4
Pré-processamento de dados..............................................................................................................40
Limpeza de dados.............................................................................................................................43
Integração de dados........................................................................................................................45
Sintetizando.............................................................................................................................................67
Referências bibliográficas...................................................................................................................68
MINERAÇÃO DE DADOS 5
Classificações........................................................................................................................................71
Classificação por árvore de decisão.............................................................................................71
Classificação por regressão linear................................................................................................75
Classificação por regressão linear múltipla.................................................................................78
Clusterização e sumarização...............................................................................................................80
Clusterização pelo Weka.................................................................................................................81
Análises temporais e desvio-padrão.............................................................................................82
Sintetizando.............................................................................................................................................93
Referências bibliográficas...................................................................................................................94
MINERAÇÃO DE DADOS 6
Datasets e NumPy................................................................................................................................105
Array e Slicing Array......................................................................................................................108
Importar textos, ler CSV e manipular datasets..........................................................................110
Sintetizando...........................................................................................................................................130
Referências bibliográficas.................................................................................................................131
MINERAÇÃO DE DADOS 7
Este material foi criado para dirigir a Mineração de Dados e utilizará diversas ferramentas. A
ferramenta SQL vai ser usada para criar e filtrar tabelas através dos comandos create e select,
e posteriormente será mostrado como exportar seleções para Excel.
O programa Excel, com sua riqueza, possui filtros, gráficos, tabelas dinâmicas e extensões
add-in, as quais serão utilizadas para selecionar dados. Em pré-processamento de dados, será
mostrado como fazer limpeza de dados ruidosos, ausentes e outliers, além disso, será mostra-
do como reduzir dados a intervalos e substituir dados faltantes.
Conceitos de cálculo de suporte, que é a repetição de dados ou conjuntos em tabelas, serão
mostrados e explicados de forma teórica e prática através do Weka. Conceitos de cálculo de
confiança serão explicados para mostrar a relação de compras combinadas (se o cliente leva
um produto, ela leva outro?). E, para analisar a veracidade dos cálculos de suporte e confiança,
será mostrado como fazer o cálculo de Lift.
O algoritmo a priori será apresentado e, no final, será mostrado como fazer em Python.
Conceitos de classificação com vizinhos mais próximos (KNN), com árvore de decisão e com
classificadores bayesianos, serão explicados tanto na teoria quanto na prática. Além de classi-
ficação, o conceito de clusterização será visto de maneira aplicada.
Com o objetivo de passar programação voltada à mineração, será explicado como mexer
em Python e nas suas bibliotecas Matplotlib, Pandas e NumPy, mostrando como fazer filtros,
misturas (mergê), visualizações (plot), importações de arquivos (com extensões .csv, .xlsx,
.data e .txt) e algumas classificações.
MINERAÇÃO DE DADOS 9
Currículo Lattes:
http://buscatextual.cnpq.br/buscatextual/vi-
sualizacv.do?id=K4321448H1
MINERAÇÃO DE DADOS 10
1 INTRODUÇÃO E
APLICAÇÕES DE
MINERAÇÃO DE
DADOS
Tópicos de estudo
Técnicas e tarefas de Mineração de
Dados
Dados, informação e conhecimento
Filtros em Excel
Filtros em SQL
Exemplos de aplicações
Várias formas de aplicação
Data warehouse
Exibindo dashboards no Excel
MINERAÇÃO DE DADOS 12
Dado
Figura 1. Diferenças entre dados, informação e conhecimento. Fonte: GOLDSHIMDIT et al., 2015, p. 2.
Na base da pirâmide representada na Figura 1, existem alguns dados que podem ser salá-
rios e gastos, por exemplo. A informação, nesse caso, descobre o percentual de capacidade de
endividamento e o conhecimento decide se destina crédito ou não.
MINERAÇÃO DE DADOS 13
Figura 2. Dados sobre pagamentos relacionados a lei orçamentária em Excel. Fonte: SOUZA, 2019.
Esse conjunto de dados possui mais itens abaixo e, como se pode notar, possui pagamentos
até novembro e até dezembro de 2019. Assim como o governo, as empresas podem fazer tabelas
com dados registrando operações cotidianas. A Fig. 3 mostra o passo a passo para fazer filtros.
No exemplo a seguir, as colunas dos meses de setembro e outubro foram removidas.
A tabela foi
selecionada.
MINERAÇÃO DE DADOS 14
Cabe citar que os filtros se acumulam conforme o usuário os criam. A Fig. 4 mostra um ban-
co de dados de compras.
MINERAÇÃO DE DADOS 15
MINERAÇÃO DE DADOS 16
Filtros em SQL
Dados são armazenados, na grande maioria das vezes, em databases (bases ou bancos
de dados) em SQL. Neste momento, será passado uma introdução sobre SQL, para poste-
riormente nos aprofundarmos. Neste exemplo, será usada a linguagem MySQL e o progra-
ma Workbench MySQL.
ASSISTA
Para ver o procedimento de instalação de MySQL e Xampp, assista ao vídeo Como
instalar MySQL e Xampp, contido nas referências bibliográficas. Aumente a resolução
(qualidade) do vídeo no botão de configurações do player do YouTube, no canto inferior
direito, se necessário.
Após instalar o Workbench, deve-se abrir e ativar o Xampp (ativar MySQL e Apache) e então
deve-se abrir o Workbench, conforme Fig. 6.
MINERAÇÃO DE DADOS 17
Tendo aberto o Workbench, deve-se criar uma conexão; a Fig. 7 mostra uma conexão cha-
mada “produtos”.
Após abrir o Workbench, alguns comandos serão digitados e a função de cada um encontra-
-se na Tabela 1. A demonstração de como fazer está na Fig. 8.
MINERAÇÃO DE DADOS 18
Comandos Utilidades
Após copiar cada linha, deve-se selecionar a linha e apertar ctrl + enter; caso dê certo e não
tenha erros de escrita, aparecerá um aviso na cor verde, em baixo do programa, conforme Fig. 8.
MINERAÇÃO DE DADOS 19
A Fig. 11 mostra como selecionar todos os dados em que o preço é maior que R$ 2.100,00.
MINERAÇÃO DE DADOS 20
Uma empresa pode ter um banco de dados com várias tabelas, por exemplo: tabela de pro-
dutos, tabela de funcionários, tabela de vendas, tabelas de compras e etc. Pode ainda ter dois ou
mais bancos de dados e várias tabelas dentro de cada banco, por exemplo: um banco de dados
da unidade da zona sul, um banco da zona norte e etc., e cada banco pode ter várias tabelas.
Conforme o vídeo Primeiros Passos com MySQL e a Fig. 8, existem vários tipos de dados, int,
varchar, date e etc. O CPF, por exemplo, se encaixaria em BIGINT. Observe os datatypes (“tipos
de dados”) na Tabela 2.
YEAR Anos.
TEXTOS - Número exato de casas (caso o texto tenha menos, usa-se o mesmo espaço,
CHAR
desperdiçando espaço e deixando a tabela mais lenta caso tenha muitos dados).
MINERAÇÃO DE DADOS 21
ENUM DÍGITO - Utilizado para colocar uma opção ou outra, por exemplo, sexo F ou M.
A fim de dar uma explicação prática, observe o exemplo contido na Fig. 12, com os tipos enum.
Exemplos de aplicações
Existem cargos para Mineração de Dados em empresas de diversos ramos e empresas vol-
tadas apenas para Mineração de Dados, as quais trabalham para outras empresas, no busi-
ness-to-business. Consultorias em data mining, por exemplo, são especialistas em análises pre-
ditivas para auxiliar empresas a decidir quais produtos devem desenvolver, como melhorar a
satisfação do cliente e/ou atrair clientes mais fortes.
Empresas de seguros conseguem determinar melhores valores de apólice e identificar frau-
des, bem como desburocratizar processos de avaliação de veracidade de sinistros.
Empresas de saúde podem melhorar processos de análises diagnósticas de saúde, podem
criar análises em regras de associação em genética, gerar bancos de dados com informações
químicas, físicas e biológicas para futuras pesquisas tanto para o hospital quanto para o para
um conjunto de hospitais e podem ainda estudar comportamentos de desenvolvimento de
doenças, relacionadas com acomodação de pacientes, entre outras aplicações.
Na esfera da educação, existe a EDM (Educacional Data Mining), a qual avalia diversos fa-
tores relacionados a níveis de performance e aprendizado. Existe, por exemplo, uma técnica
que reúne dados de computadores escolares de várias escolas, para através da união desses
computadores, avaliar de forma centralizada, padrões, modos e tempos de utilização em pro-
MINERAÇÃO DE DADOS 22
MINERAÇÃO DE DADOS 23
Área de
apresentação de dados
Recursos do
sistema operacional
Data mart #1
Área de Ferramentas de
Dimencional
preparação de dados Dados atomicos e resumo
acesso a dados
Extração com base em um único
Carga processo de negócios Acesso
MINERAÇÃO DE DADOS 24
EXPLICANDO
ERP são sistemas integrados empresariais, em que empresas administram faturamen-
tos, finanças, compras, estoques e etc. Essas partes se comunicam, ou seja, faturamen-
to se comunica com estoques, estoques se comunicam com compras etc.
Extract Transform Load é um processo em que os dados são transformados e passam do
sistema de origem para o data warehouse.
MINERAÇÃO DE DADOS 25
ETL ETL BI BI
gerenciamento banco de serviços de banco de
de serviços dados gerenciamento dados
METADATA
MINERAÇÃO DE DADOS 26
MINERAÇÃO DE DADOS 27
Figura 19. Criando uma matriz para valores maiores ou menores que a média com a função SE.
MINERAÇÃO DE DADOS 28
Uma vez feito isso, só é necessário criar o gráfico e configurar os traços de média para cortar
o gráfico. Ao mudar a célula B13 de blusas para outro produto, automaticamente muda o gráfico
inteiro de forma dinâmica.
MINERAÇÃO DE DADOS 29
1. Selecionar.
MINERAÇÃO DE DADOS 30
MINERAÇÃO DE DADOS 31
O que é KDD?
Descobrir conhecimentos, extrair e processar informações são ações cotidianas para es-
tatísticos, programadores em Data Science. Em 1989, um um conceito foi determinado sobre
KDD, que significa “Descoberta de conhecimento de Bancos de Dados” (Knowledge Discovery in
Databases). A Fig. 23 mostra as etapas do processo KDD.
Primeiramente, a empresa faz a captação e a consolidação dos dados; então, nessa mina
de informações, inicia-se o processo de seleção e tratamento de dados, após isso, a mine-
ração avançada é realizada e o tratamento das informações transforma a mineração em
conhecimento.
O KDD é um processo, que será destrinchado na prática posteriormente. De acordo com Fay-
yad et al. (1996, p. 88), “KDD é um processo não trivial, interativo, para identificação de padrões
compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados”.
O processo necessita de profissionais especializados em tratamento de dados e um profissional
especializado em estatística e aplicação em negócios. O objetivo do KDD é descobrir recorrências nos
dados, tanto para análises presentes quanto para previsões futuras, em que índices de confiança
determinam qual é a porcentagem que a relação de causa e efeito tem em um conjunto de dados.
Macroetapas do KDD
De forma semelhante, mas não igual ao data warehouse, o KDD possui etapas.
A principal diferença do data warehouse é que ele objetiva demonstrar muitos dados de
MINERAÇÃO DE DADOS 32
Interação
MINERAÇÃO DE DADOS 33
Cabe citar que existe uma ferramente no Workbench de segurança que precisa ser
desabilitada para excutar o delete. A Fig. 26 mostra como desabilitar.
Deixar
Desativado
• Adição e alimentação de mais dados: esta é a terceira e última fase, em que a finali-
dade é buscar mais informações ainda não colocadas nas bases, também chamado de
enriquecimento, podendo ser outras tabelas, tabelas de dados que acabam por cruzar
com estes no cotidiano etc.
MINERAÇÃO DE DADOS 34
MINERAÇÃO DE DADOS 35
MINERAÇÃO DE DADOS 36
MINERAÇÃO DE DADOS 37