Você está na página 1de 35

DATA MINING (DM)

Curso de Análise e Desenvolvimento de Sistemas


Faculdade de Tecnologia de Jundiaí

AULA 6

Prof. Ms. Nathan Cirillo e Silva


nathan.cirillo@fatec.sp.gov.br
Conceituando Data Mining (DM)

 Dados é o que coletamos e armazenamos, já o


conhecimento nos ajuda a tomar decisões;

 A extração de conhecimento a partir de um amontoado


de dados é chamada de Data Mining (DM);

 DM pode ser entendida também como a exploração e análise de dados


para encontrar padrões e regras;

 Portanto, pode-se concluir que o principal objetivo do DM é descobrir


conhecimento.

Prof. Nathan Cirillo e Silva (IA) 2019 2


Motivação para usar DM

 Nós vivemos em um mundo em que a quantidade de


dados dobra a cada ano;

 Milhares de dados trafegam na internet e ferramentas


como o DM podem extrair informações significantes;

 Organizações podem se tornar mais competitivas e responder rapidamente


as mudanças de mercado;

 Tendências em uma dada área podem ser descobertas, mas para isso é
necessário acessar dados históricos.

Prof. Nathan Cirillo e Silva (IA) 2019 3


O Caso Walmart

 A gigante varejista descobriu que a venda de fraldas estava associada a


de cerveja;

 Ao sair para adquirir fraldas os homens aproveitavam para levar


algumas latas para casa;

 Isso foi identificado à partir da análise e correlação


de uma gigantesca quantidade de dados;

 Colocaram esses produtos lado a lado e como


resultado aumentaram e muito as vendas.

Prof. Nathan Cirillo e Silva (IA) 2019 4


Onde os Dados estão Armazenados?

 O DM precisa ter acesso aos dados que estão


armazenados em grandes bases de dados;

 Tais bases de dados são conhecidas como


Armazém de Dados ou Data Warehouses (DW);

 Um DW é realmente grande podendo conter milhões, ou até mesmo


bilhões, de registros de dados;

 É por esse motivo que a infraestrutura necessária para manter um DW deve


ser bem pensada.

Prof. Nathan Cirillo e Silva (IA) 2019 5


Características de um DW

 Como mencionado anteriormente a principal característica de um DW é


a sua grande capacidade;

 Os seus dados são dependentes do tempo, ou seja, ligados em conjunto


pelo tempo de gravação;

 Eles também são integrados, pois toda informação


relevante é combinada e estruturada no DW;

 Os dados são resgatados via ferramentas de pesquisa (FPs)


que permitem descobrir importantes relações.

Prof. Nathan Cirillo e Silva (IA) 2019 6


DM trabalha com o DW

O DW fornece a capacidade de memorização;

Já o DM fornece a inteligência necessária.

Prof. Nathan Cirillo e Silva (IA) 2019 7


Funcionamento de um Sistema de DM

Prof. Nathan Cirillo e Silva (IA) 2019 8


FPs vs DM
(Continua)

 As FPs são baseadas em suposições e o usuário deve questioná-las


corretamente.

 Ex: Dados sobre pressão alta foram levantados, como: idade, sexo, peso,
altura, atividade física e se fuma ou bebe;

 Na FP tradicional o usuário deve escolher uma variável que pode afetar a


pressão alta, como o cigarro;

 Note que ao escolhe-la o usuário já faz uma suposição que há uma forte
correlação entre pressão alta e cigarro.

Prof. Nathan Cirillo e Silva (IA) 2019 9


FPs vs DM

 No DM nós não assumimos as relações existentes entre as variáveis em um


conjunto de dados;

 Devemos apenas informar um conjunto de fatores significantes que podem


afetar a pressão alta;

 A própria ferramenta de DM descobrirá automaticamente


os fatores de risco mais significantes;

 O DM não precisa de hipóteses, ou seja, ele é capaz de


descobrir relações e padrões automaticamente.

Prof. Nathan Cirillo e Silva (IA) 2019 10


Áreas de Utilização do DM

 Pode ser usado nas mais variadas áreas, como: bancos, finanças,
marketing e telecomunicações;

 É ótimo para benefícios estratégicos, marketing, análise de tendências e


detecção de fraudes;

 No marketing, ele é capaz de direcionar um certo


produto ou serviço ao seu público alvo;

 Também pode identificar fraudes em reinvindicações


de seguro, chamadas de celular e compras.

Prof. Nathan Cirillo e Silva (IA) 2019 11


Como Nós Mineramos Dados?

 Ao longo da história pessoas coletam e analisam


dados para criar ou decidir algo;

 A observação do sol, da lua, das estrelas e dos seus


movimentos permitiu a criação dos calendários;

 Técnicas orientadas pelo usuário tem sido muito utilizadas, porém depende
de sua capacidade de criar hipóteses;

 Especialistas podem correlacionar no máximo três ou quatro variáveis e o


DM pode correlacionar centenas delas.

Prof. Nathan Cirillo e Silva (IA) 2019 12


Estatística e o Sentido dos Dados

 A estatística pode ser definida com a ciência que coleta, organiza e


utiliza dados numéricos;

 Ela permite que tenhamos uma visão geral sobre os


dados: media; mediana, distribuição, etc;

 A análise de regressão é uma das principais técnicas


utilizadas para a análise de dados;

 A estatística é, portanto, útil para analisar dados numéricos, mas


insuficiente para sanar problemas de mineração de dados.

Prof. Nathan Cirillo e Silva (IA) 2019 13


Então Qual Técnica Utilizar?

 A mineração de dados é baseada em várias tecnologias


inteligentes, como: Redes Neurais e Lógica Fuzzy;

 No entanto, a ferramenta mais popular utilizada para a


mineração de dados é a Árvore de Decisão;

 A técnica da Árvore de Decisão consiste na criação de um mapa de processos


de raciocínio;

 Ele descreve o conjunto de dados através da estrutura de uma árvore e é


aplicado a problemas de classificação.

Prof. Nathan Cirillo e Silva (IA) 2019 14


Construindo uma Árvore de Decisão
(Continua)

Uma árvore de decisão é composta basicamente por:

 Nó Raiz: representa o conjunto inteiro de dados, ou seja, a


população inteira. É dividido em dois ou mais conjuntos;

 Nó de Decisão: ocorre quando um sub-nó é dividido em sub-


nós adicionais;

 Nó Pai e Nó Filho: um nó que é dividido em sub-nós é chamado


de nó pai e os sub-nós são os nós filhos.

Prof. Nathan Cirillo e Silva (IA) 2019 15


Construindo uma Árvore de Decisão

 Folha (nó de término): os nós que não


são divididos são chamados de folhas ou
nós de término;

 Galho: é o elemento responsável por


interconectar os nós;

 Ramificação (sub-árvore): uma subseção


da árvore inteira é chamada de
ramificação ou sub-árvore.

Prof. Nathan Cirillo e Silva (IA) 2019 16


Vamos a um Exemplo Prático!

Imagine que um banco queira identificar o perfil das pessoas


que irão responder a uma pesquisa sobre a criação de um
novo serviço de habitação. Essa questão é respondida
determinando as características demográficas das pessoas
que responderam pesquisas similares no passado. Tais
pessoas podem ser classificadas de acordo com algumas
informações: se possui casa própria; renda mensal; tipos de
conta bancária; etc.

Prof. Nathan Cirillo e Silva (IA) 2019 17


Representação da Árvore de Decisão
Pessoas
Responderam: 112 Nó Raiz
Não Responderam: 888
Total: 1000
Folha (Nó de Término)
Possui casa própria?
Nó de Decisão
Sim Não
Responderam: 9 Responderam: 103
Não Responderam: 334 Não Responderam: 554 Galho
Total: 343 Total: 657
Preditor
Qual a renda mensal?
≤ $20,700 > $20,701 Ramificação
Responderam: 14 Responderam: 89
Não Responderam: 158 Não Responderam: 396
Total: 172 Total: 485

Possui Conta Poupança?


Sim Não
Responderam: 86 Responderam: 3
Não Responderam: 188 Não Responderam: 208
Total: 274 Total: 211

Prof. Nathan Cirillo e Silva (IA) 2019 18


Variável Dependente

 A variável dependente determina o objetivo do estudo e é escolhida pelo


usuário;

 No exemplo anterior a variável pessoas é dependente e pode aceitar dois


valores: respondido ou não respondido;

 Os preditores da variável dependente separa as


pessoas de acordo com os seus valores;

 A essa separação é dado o nome de Divisão ou Split.

Prof. Nathan Cirillo e Silva (IA) 2019 19


Como Dividir os Nós em uma Árvore?

 Um Split em uma árvore de decisão corresponde a utilização de um


preditor com poder de separação;

 Um bom preditor é aquele que é capaz de criar nós onde apenas uma
classe domina;

 Conclui-se, portanto, que a criação de sub-nós aumenta a


homogeneidade dos sub-nós resultantes;

 Há muitos métodos/algoritmos para decidir sobre a divisão de um nó


em dois ou mais sub-nós.

Prof. Nathan Cirillo e Silva (IA) 2019 20


Coeficiente de Gini

 Corrado Gini (famoso economista italiano) criou um modo de


mensurar a desigualdade na distribuição de renda de um país;

 A diagonal corresponde a uma distribuição igualitária e a curva


representa a real economia (desigualdades) – veja ilustração;

 Esse coeficiente pode ser aplicado para


saber qual divisão gera sub-nós mais
homogêneos.

Prof. Nathan Cirillo e Silva (IA) 2019 21


Qual Divisão Realizar?

Imagine que queremos separar os alunos de


uma sala com base na variável alvo (jogam tênis
ou não). Para isso, dividimos a população usando
duas variáveis de entrada – Sexo e Grupo. Qual
divisão produz os sub-nós mais homogêneos
segundo o índice de Gini.

Prof. Nathan Cirillo e Silva (IA) 2019 22


Representação do Problema

Nº Total de Alunos: 30
Jogam Tênis: 15 (50%)

Qual o Sexo? Qual o Grupo?

F M A B

Nº Meninas: 10 Nº Meninos: 20 Nº Alunos: 14 Nº Alunos: 16


Jogam Tênis: 2 (20%) Jogam Tênis: 13 (65%) Jogam Tênis: 6 (43%) Jogam Tênis: 9 (56%)

Prof. Nathan Cirillo e Silva (IA) 2019 23


Cálculo do Coeficiente de Gini

 1º Calcule a soma dos quadrados da probabilidade de sucesso e de


fracasso para cada sub-nó: (S2 + F2);

 2º Use as pontuações encontradas anteriormente para calcular o


Gini para a divisão:
(sub-nó 1/nó raiz) * seu_gini + (sub-nó2/nó raiz) * seu_gini

 3º Compare os valores para identificar o mais alto, indicando onde


a divisão será mais homogênea.

Prof. Nathan Cirillo e Silva (IA) 2019 24


Calculando o Gini para Divisão por Sexo
Nº Total de Alunos: 30
Jogam Tênis: 15 (50%)
Gini para o sub-nó Feminino:
(0,22 + 0,82) = 0,68

Gini para o sub-nó Masculino:


Qual o Sexo? (0,652 + 0,352) = 0,55

Gini para a divisão por Sexo:


F M (10/30)*0,68 + (20/30) * 0,55 = 0,59
Nº Meninas: 10 Nº Meninos: 20
Jogam Tênis: 2 (20%) Jogam Tênis: 13 (65%)

Prof. Nathan Cirillo e Silva (IA) 2019 25


Calculando o Gini para Divisão por Grupo
Nº Total de Alunos: 30
Jogam Tênis: 15 (50%)
Gini para o sub-nó Grupo A:
(0,432 + 0,572) = 0,51

Gini para o sub-nó Grupo B:


(0,562 + 0,442) = 0,51
Qual o Grupo?

Gini para a divisão por Grupo:


A B (14/30)*0,51 + (16/30) * 0,51 = 0,51
Nº Alunos: 14 Nº Alunos: 16
Jogam Tênis: 6 (43%) Jogam Tênis: 9 (56%)
Prof. Nathan Cirillo e Silva (IA) 2019 26
Portanto...

Podemos observar que a pontuação de Gini para

a divisão por sexo (0,59) é maior do que a divisão

por grupo (0,51). Logo, é mais interessante que a

divisão de nó seja por sexo.

Prof. Nathan Cirillo e Silva (IA) 2019 27


Classificação dos Sistemas de DM

 Os sistemas de Data Mining podem ser classificados


em diversas categorias;

 Essa classificação varia de acordo com o algoritmo que


a aplicação utiliza, ou seja, a sua função;

 Cada algoritmo pode solucionar um tipo específico de


problema não existindo um único padrão;

 As principais categorias de um sistema de DM são:


Classificação; Associação; Sequencia; e Cluster.

Prof. Nathan Cirillo e Silva (IA) 2019 28


Sistemas de Classificação

 Seus processos visam descobrir se um item pertence a uma classe


particular de dados;

 Dois subprocessos importantes envolvidos nesse tipo de sistema


são: a construção de modelos; e a previsão de classificações.

Informação Classificação
Data Mining
Crua por Padrões

Prof. Nathan Cirillo e Silva (IA) 2019 29


Sistemas de Associação

 Empregam técnicas de associação para encontrar padrões com uma


alta probabilidade de repetição;

 Em outras palavras, o seu objetivo é encontrar tendências nas


transações analisadas;

 Tais tendências podem, por exemplo, explicar o comportamento de


compras em um comércio;

 Ex: Os consumidores que adquirem pizza têm um probabilidade 3


vezes maior de também comprarem queijo.

Prof. Nathan Cirillo e Silva (IA) 2019 30


Sistemas de Sequência

 Métodos de análise de séries temporais identificam eventos


futuros com base em eventos precedentes;

 Nesse método é importante a ordem em que aparece as transações


e o espaço de tempo entre elas;

 Com base nessas informações é possível identificar tendências e


padrões nas transações;

 Podemos citar como exemplo as empresas de correio; a coleta de


lixo; entre outros.

Prof. Nathan Cirillo e Silva (IA) 2019 31


Sistemas de Cluster

 As transações são agrupadas de acordo com o seu grau de


aproximação e similaridade;

 Os membros de cada grupo são similares de acordo com métricas,


partilhando tendências e padrões;

 Esse tipo de sistema também é conhecido como aprendizagem não


supervisionada e/ou segmentação;

 O marketing pode entender melhor os seus clientes, identificando


os tipos de grupo a que se dirigem e vendem.

Prof. Nathan Cirillo e Silva (IA) 2019 32


Em Resumo...
(DM: Convergência de Múltiplas Disciplinas)

Banco de Dados Estatística

Aprendizagem
de Máquina
Data Mining Visualização

Algoritmo Outras
Disciplinas

Prof. Nathan Cirillo e Silva (IA) 2019 33


Dúvidas?

Prof. Nathan Cirillo e Silva (IA) 2019 34


Enviar a lista por e-mail conforme as regras apresentadas
Vamos Trabalhar! na aula 1. Entregar ainda hoje!

Prof. Nathan Cirillo e Silva (IA) 2019 35

Você também pode gostar