Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineração de Dados Unidade III
Mineração de Dados Unidade III
3 CLASSIFICAÇÃO,
REGRESSÃO E
AGRUPAMENTO
Tópicos de estudo
Classificações
Classificação por árvore de decisão
Classificação por regressão linear
Classificação por regressão linear
múltipla
Clusterização e sumarização
Clusterização pelo Weka
Análises temporais e desvio-padrão
MINERAÇÃO DE DADOS 70
NÓ 3 (30 pessoas)
NÓ 1 (53 pessoas) Sexo = feminino
Idade > 30 Plano anual = 5 NÓ 6 (24 pessoas)
Plano anual = 15 Plano mensal = 25 Estado civil = solteiro
Plano mensal = 41 Plano anual = 1
Plano mensal = 23
Raiz
Clientes totais = 100
Plano anual = 20 NÓ 4 (26 pessoas)
Plano mensal = 80 Sexo = masculino
Plano anual = 10
NÓ 5 (44 pessoas) Plano mensal = 20
Idade < 30 NÓ 7 (20 pessoas)
Plano anual = 5 Estado civil = casado
Plano anual = 4
Plano mensal = 39
Plano mensal = 16
MINERAÇÃO DE DADOS 71
Figura 1. Arquivo arff para ver quando jogam e quando não jogam.
%jogar Tennis
@RELATION jogo
@data
sol,quente,muito_umido,vento_fraco,nao
sol,quente,muito_umido,vento_forte,nao
nublado,quente,muito_umido,vento_fraco,sim
chuva,ameno,muito_umido,vento_fraco,sim
chuva,frio,pouco_umido,vento_fraco,sim
chuva,frio,pouco_umido,vento_forte,nao
nublado,frio,pouco_umido,vento_forte,sim
sol,ameno,muito_umido,vento_fraco,nao
sol,frio,pouco_umido,vento_fraco,sim
chuva,ameno,pouco_umido,vento_fraco,sim
sol,ameno,pouco_umido,vento_forte,sim
nublado,ameno,muito_umido,vento_forte,sim
nublado,quente,pouco_umido,vento_fraco,sim
chuva,ameno,muito_umido,vento_forte,nao
MINERAÇÃO DE DADOS 72
No gráfico à direita, percebe-se que, dos 14 dados inseridos, 9 jogaram e 5 não. Agora, para fazer
a classificação por árvores, deve-se clicar em Choose e selecionar J48 em trees, conforme Figura 3.
MINERAÇÃO DE DADOS 73
Dessa forma, o gestor da quadra pode, através de análises mensais ou diárias desses fato-
res, prever se haverá gente jogando, traçar uma média, e, com base nisso, criar um sistema de
marketing estratégico para driblar o clima (oferecendo quadra coberta por preço menor, cons-
truindo quadras de squash, instalando piscinas ou abaixando o preço em épocas nas quais o
dia é muito quente). Pode-se também, em vez de adotar condições climáticas como critério,
optar por gênero, faixa etária etc.
MINERAÇÃO DE DADOS 74
@RELATION Qm_preco
@DATA
60000,baixo
20000,medio
70000,baixo
20000,medio
40000,medio
5000,caro
14000,medio
50000,baixo
20000,medio
15000,medio
70000,baixo
1000,caro
11000,caro
10000,caro
9000,caro
MINERAÇÃO DE DADOS 75
Agora, para proceder com a regressão, siga os passos da Figura 7, que indica onde exata-
mente se deve clicar para realizá-la.
MINERAÇÃO DE DADOS 76
Por fim, será gerado um gráfico indicando o resultado da linha, conforme as Figuras 9 e 10.
MINERAÇÃO DE DADOS 77
Agora copie os dados da Tabela 3 e introduza-os no programa, como indica a Figura 12.
MINERAÇÃO DE DADOS 78
Na Figura 13, observamos que a variável y (o custo, disposto no intervalo entre as células c1
e c9) será influenciada pelas variáveis x (quilometragem, compreendida entre as células a1 e a9,
e motor, que corresponde ao intervalo entre as células b1 e b9).
MINERAÇÃO DE DADOS 79
Clusterização e sumarização
Enquanto sumarizar diz respeito a identificar os aspectos de uma análise de dados (quando ve-
rificamos, por exemplo, que a probabilidade de compra de carros é maior entre jovens de 25 a 35
anos, solteiros, com formação superior, ou quando constatamos que a depressão atinge predomi-
nantemente meninas entre 14 e 17 anos que tiveram algum trauma na infância) sob um viés des-
critivo, a clusterização corresponde à identificação de grupos naturais em um conjunto de dados.
A realização de análises de similaridades, visando à criação de clusters, vêm acompanhada
de algumas práticas recomendáveis:
• Usar grupos de tamanhos heterogêneos, a fim de aumentar a probabilidade de se achar
itens, logo, um banco pode possuir 100 registros, e outro, apenas 50;
• Adotar os mais variados tipos de dados;
MINERAÇÃO DE DADOS 80
MINERAÇÃO DE DADOS 81
MINERAÇÃO DE DADOS 82
Após essa etapa, é possível calcular o erro médio quadrático para dois e quatro dias.
Para descobrir o maior erro, utilizaremos a fórmula somatórioXMY2, dividindo pelo núme-
ro de linhas:
• Primeiro, aplicaremos a fórmula de B5 até B19, com análise da média de dois dias da C5 até
C19, dividido pelo número de linhas (15 linhas);
• Depois, aplicaremos a fórmula de B7 até a B19, com análise da média de dois dias da D7
até D19, dividido pelo número de linhas (13 linhas).
Após isso, o que apresentar menor valor representa a média crescente mais confiável. No
nosso exemplo, observe, na Figura 19, que analisar o crescimento de quatro em quatro dias é
mais confiável (por ter menor erro quadrático) do que de dois em dois dias. Assim, recomenda-
-se estudar as variações da coluna D e analisar como esta cresce ou decresce.
MINERAÇÃO DE DADOS 83
Ou seja, pode-se fazer a média de quatro em quatro dias de um mês e analisar quanto cres-
ce ou diminui diariamente, o que suavizará erros de valores ruidosos.
MINERAÇÃO DE DADOS 84
P(X|não) P(X|sim)
Sol quente muito_umido vento_fraco não
Sol | não -> 3/5 Sol | sim -> 2/9
P(X|não) P(X|sim)
Sol quente muito_umido vento_forte não
Nublado | não -> 0 Nublado | sim -> 4/9
P(X|não) P(X|sim)
Nublado quente muito_umido vento_fraco sim
Chuva | não -> 2/5 Chuva | sim -> 3/9
P(X|não) P(X|sim)
Chuva frio pouco_umido vento_fraco sim
Quente| não -> 2/5 Quente| sim -> 2/9
P(X|não) P(X|sim)
Chuva frio pouco_umido vento_forte não
Ameno| não -> 2/5 Ameno| sim ->4/9
P(X|não) P(X|sim)
Nublado frio pouco_umido vento_forte sim
Frio| não -> 1/5 Frio| sim -> 3/9
P(X|não) P(X|sim)
Sol frio pouco_umido vento_fraco sim
Muito_umido| não -> 4/5 Muito_umido| sim -> 3/9
P(X|não) P(X|sim)
Chuva ameno pouco_umido vento_fraco sim
Pouco_umido| não -> 1/5 Pouco_umido| sim -> 6/9
P(X|não) P(X|sim)
Nublado ameno muito_umido vento_forte sim
Forte| não -> 3/5 Forte| sim – > 3/9
P(X|não) P(X|sim)
Nublado quente pouco_umido vento_fraco sim
Fraco| não -> 2/5 Fraco| sim -> 6/9
RELÇÃO TOTAL
MINERAÇÃO DE DADOS 85
Para descobrir o último elemento (se haverá jogo ou não), procedemos com os dois cálculos
e verificamos qual resulta no valor maior (sendo, portanto, mais provável).
Primeiro, calculamos o valor supondo que o resultado fosse não.
P(X|não) x P(não)
P(sol|não).P(frio|não).P(muito umido|não).P(vento fraco|não). 5
14
3 1 4 2 5
. . . . = 0,6 × 0,2 × 0,8 × 0,4 × 0,36 = 0,0137
5 5 5 5 14
Pode-se concluir, de acordo com o exemplo citado, que, como 0,0137 é maior que 0,0105, é
mais provável que não haja jogo.
MINERAÇÃO DE DADOS 86
Calcular a distância do
Determinar o k ideal
novo registro com cada (k é o número de vizi- Descobrir os registros
registro já existente nhos mais próximos, com menores distâncias,
recomenda-se usar caso tenha escolhido
número impar) K=1, o primeiro vizinho
mais próximo, caso k=3,
os três primeiros
A Figura 20 mostra os três registros mais próximos do ponto “*”, e, consequentemente, que
existe a chance de o cliente ser negligente, embora menos provável (escolheu-se k=3).
DESPESAS
RENDA
Negligentes
Não-negligentes
Figura 20. Demonstração gráfica de 3 vizinhos mais próximos. Fonte: GOLDSHIMDIT,.2015, p. 119.
MINERAÇÃO DE DADOS 87
Agora, o resultado segue disposto na Tabela 8. Supondo que definimos K=2, as duas bola-
chas mais parecidas seriam a bolacha A e a bolacha B, pois possuem a menor distância (1 e
4,47). Se colocássemos com K=1, a bolacha B teria a menor distância, podendo seu preço servir
como referência para nosso produto.
Bolacha B 11 180 1
Bolacha C 14 200 6
MINERAÇÃO DE DADOS 88
2 2
2
2 2
2
3
+
3 3
+
+ 3
1
1
3
1 2
1
O K-Means também calcula similaridades, mas identifica pontos médios (mean), que serão
os centroides, e utiliza distâncias matemáticas, inclusive a distância euclidiana, para posicioná-
-los no centro. A grande diferença entre o K-NN e o K-Means é que este cria grupos em volta de
médias, isto é, os centroides.
Abordaremos agora os procedimentos para a instalação de um add-in no Microsoft Excel,
criando, assim, o K-Means.
O primeiro passo é instalar uma extensão que crie uma guia Data Mining, conforme a Figura 23.
MINERAÇÃO DE DADOS 89
DICA
Estude como fazer regras de associação, predições e classificações
com a guia Data Mining no Excel. Existem vários vídeos na internet
ensinando tais procedimentos.
Você também pode conferir mais detalhes sobre Data Mining e KDD
com o texto “Processo de KDD”, disponibilizado pelo professor Wil-
son Sabaia Flores!
Para instalar a guia, feche o Excel, entre no site indicado na Figura 24 e faça o download.
MINERAÇÃO DE DADOS 90
TABELA 8. DADOS PARA COPIAR NO EXCEL PARA FAZER CLUSTERS MEDIANTE K-MEANS
20 1 200 0 0
30 0 300 1 2
35 1 250 0 1
22 0 450 1 0
44 1 200 0 0
30 1 160 1 1
20 1 300 1 3
40 0 270 0 1
50 0 300 1 0
MINERAÇÃO DE DADOS 91
Assim, o programa cria automaticamente dois clusters a partir do ponto médio. Caso se
queira descobrir a que grupo um dado novo pertence, pode-se:
• Incluir na Tabela 8, no Excel, mais uma linha com os dados do novo item e refazer o cluster;
• Analisar através de valores parecidos (análise por similaridade).
MINERAÇÃO DE DADOS 92
MINERAÇÃO DE DADOS 93
MINERAÇÃO DE DADOS 94