Mineração de Dados Unidade III

UNIDADE
3 CLASSIFICAÇÃO,
REGRESSÃO E
AGRUPAMENTO
Mineração de dados - Unidade3.indd 69 08/07/19 16:35

Objetivos da unidade
Conhecer os tipos de classificação e suas

diferentes possibilidades;
Aprender a efetuar os respectivos cálculos

pelos programas Weka e Excel;
Ter contato com técnicas e cálculos

referentes ao estudo da clusterização.
Tópicos de estudo
Classificações
Classificação por árvore de decisão
Classificação por regressão linear
múltipla
Clusterização e sumarização
Clusterização pelo Weka
Análises temporais e desvio-padrão
Outros métodos de classificação

Classificação bayesiana
Classificação por vizinho mais
próximo
K-Means
MINERAÇÃO DE DADOS 70

Classificações
O objetivo de classificar ou sumarizar clientes e produtos é criar classes e categorias, a fim
tanto de fazer analises preditivas de maior impacto quanto de lançar promoções e serviços de
forma estratégica, bem como de preencher dados nulos e vazios. Pode-se, por exemplo, classifi-
car produtos de um mercado por tipos, como produtos de limpeza, doces, massas, bebidas etc.
Classificação por árvore de decisão

O primeiro tipo de classificação que apresentamos é a árvore de decisão, composta por galhos
denominados nós, representando cada nó um atributo. Analisando a árvore de decisão do Dia-
grama 1, é possível perceber sua matemática perfeita. Assim, ele pode ser lido da seguinte forma:
• Raiz: de 100 clientes, apenas 20 escolheram o plano anual, e, 80, o plano mensal;
• Nos nós 2 e 5: de 100 clientes, 56 tinham mais de 30 anos, enquanto 44 tinham menos, o
que indica que pessoas acima desta faixa de idade compram mais;
• Nos nós 2 e 5: entre os maiores de 30 anos, 15 escolheram o plano anual, e, 41, o mensal.
Entre os menores que 30 anos, 5 optaram pelo plano anual, e, 39, o mensal. Ou seja, a proba-
bilidade de maiores de 30 anos escolherem o plano anual é ligeiramente maior;
• No final de tudo, percebe-se que homens casados são mais propensos ao plano anual e
mulheres solteiras tendem ao mensal.
Caso queira praticar, crie uma árvore de decisão hipotética em um papel ou com a ajuda de
um programa, o que resulta em um exercício bem didático.
DIAGRAMA 1. ÁRVORE DE DECISÃO DE ESCOLA DE NATAÇÃO
NÓ 3 (30 pessoas)
NÓ 1 (53 pessoas) Sexo = feminino
Idade > 30 Plano anual = 5 NÓ 6 (24 pessoas)
Plano anual = 15 Plano mensal = 25 Estado civil = solteiro
Plano mensal = 41 Plano anual = 1
Plano mensal = 23
Raiz
Clientes totais = 100
Plano anual = 20 NÓ 4 (26 pessoas)
Plano mensal = 80 Sexo = masculino
Plano anual = 10
NÓ 5 (44 pessoas) Plano mensal = 20
Idade < 30 NÓ 7 (20 pessoas)
Plano anual = 5 Estado civil = casado
Plano anual = 4
Plano mensal = 39
Plano mensal = 16

Um programa bastante útil na criação de árvores (tree) é o Weka. Observe, na Figura 1, que o
arquivo de texto está sendo gravado em formato .arff e que, em seu conteúdo, está inclusa uma
lista de diferentes atributos relacionados a condições climáticas, seguidos da saída, que informam
se as pessoas, sob determinadas condições, jogaram tênis ou não em uma quadra hipotética.
Após a Figura 1, dispomos na Tabela 1 o código de texto a ser copiado e salvo no referido
formato, para que você possa facilmente trabalhar com o Weka seguindo nosso passo a passo.
Figura 1. Arquivo arff para ver quando jogam e quando não jogam.
TABELA 1. CÓDIGO PARA ARQUIVO HAVERÁ_JOGO.ARFF
%jogar Tennis
@RELATION jogo
@attribute clima {sol, nublado, chuva}

@attribute tempo {quente, ameno, frio}
@attribute umidade{muito_umido, pouco_umido}
@attribute vento {vento_forte, vento_fraco}
@attribute jogar {sim,nao}
@data
sol,quente,muito_umido,vento_fraco,nao
sol,quente,muito_umido,vento_forte,nao
nublado,quente,muito_umido,vento_fraco,sim
chuva,ameno,muito_umido,vento_fraco,sim
chuva,frio,pouco_umido,vento_fraco,sim
chuva,frio,pouco_umido,vento_forte,nao
nublado,frio,pouco_umido,vento_forte,sim
sol,ameno,muito_umido,vento_fraco,nao
sol,frio,pouco_umido,vento_fraco,sim
chuva,ameno,pouco_umido,vento_fraco,sim
sol,ameno,pouco_umido,vento_forte,sim
nublado,ameno,muito_umido,vento_forte,sim
nublado,quente,pouco_umido,vento_fraco,sim
chuva,ameno,muito_umido,vento_forte,nao

Abra o Weka, clique em Wxplorer e, em seguida, em Open File. Selecione o arquivo have-
rá_jogo.arff e marque todas as opções, conforme a Figura 2.
Figura 2. Selecionar todas as opções.
No gráfico à direita, percebe-se que, dos 14 dados inseridos, 9 jogaram e 5 não. Agora, para fazer
a classificação por árvores, deve-se clicar em Choose e selecionar J48 em trees, conforme Figura 3.
Figura 3. Criando a árvore de decisão.

Para finalizar, clique em use trainning test, que é a base de treinamento, escolha a saída
jogar e clique em start. Assim, surgirão automaticamente, na tela direita, os resultados, con-
forme Figura 4, segundo a qual:
• 4 duplas jogaram em dia nublado;
• 5 duplas em dia de sol;
• 5 duplas em dia de chuva (sendo também possível criar critérios para diferenciá-las entre
chuva leve e forte);
• Quanto mais úmido, menos jogo;
• Quanto menos vento, mais jogo.
Figura 4. Resultados da árvore de decisão.
Dessa forma, o gestor da quadra pode, através de análises mensais ou diárias desses fato-
res, prever se haverá gente jogando, traçar uma média, e, com base nisso, criar um sistema de
marketing estratégico para driblar o clima (oferecendo quadra coberta por preço menor, cons-
truindo quadras de squash, instalando piscinas ou abaixando o preço em épocas nas quais o
dia é muito quente). Pode-se também, em vez de adotar condições climáticas como critério,
optar por gênero, faixa etária etc.

A regressão busca classificar valores contínuos para estimar, por exemplo, limites de cartão
de crédito, risco de um investimento etc. A regressão linear possui duas variáveis, x e y, sendo
x independente, e, y, dependente, sendo objetivo deste método achar uma linha que relacione
o comportamento de x e y.
A Figura 5, a seguir, demonstra como realizar a regressão linear no Weka com o arquivo
carros.arff.
Figura 5. Salvar arquivos carros.arff.
TABELA 2. CÓDIGO PARA ARQUIVO CARROS.ARFF
@RELATION Qm_preco
@ATTRIBUTE km_rodada REAL

@ATTRIBUTE preco {caro,medio,baixo}
@DATA
60000,baixo
20000,medio
70000,baixo
20000,medio
40000,medio
5000,caro
14000,medio
50000,baixo
20000,medio
15000,medio
70000,baixo
1000,caro
11000,caro
10000,caro
9000,caro

Uma funcionalidade interessante do programa é a de possibilitar, ao escolher um atributo, a
visualização dos valores máximos, mínimos e a média, conforme ilustra a Figura 6.
Figura 6. Vendo máximos, mínimos e médias.
Agora, para proceder com a regressão, siga os passos da Figura 7, que indica onde exata-
mente se deve clicar para realizá-la.
Figura 7. Executando a regressão linear.

Na Figura 8, notamos que, onde a variável km_rodada é maior ou igual a 14300, o preço é
médio; onde ela é maior ou igual a 41.000, o preço é baixo. Esta relação mostra-se verdadeira
em 94%, o que representa alta confiança.
Figura 8. Resultado da regressão linear.
Por fim, será gerado um gráfico indicando o resultado da linha, conforme as Figuras 9 e 10.
Figura 9. Gerar gráfico.

Figura 10. Gráfico com eixos x e y.
Classificação por regressão linear múltipla

Suponhamos que temos uma tabela com vários custos para se produzir um produto, e quere-
mos analisar melhor estas dependências em seu valor final. Para isso, será utilizada a regressão
linear múltipla. A seguir, ilustraremos o passo a passo para criá-la pelo Microsoft Excel (adotamos
aqui a versão 2010, mas existem vídeos na internet que o demonstram com versões mais antigas).
Ao abrir o Excel, clique em Aquivo e depois em Opções. Na aba Suplementos, pressione Ir
e selecione Ativar ferramentas de análise, conforme a Figura 11.
Figura 11. Habilitar análise de dados.
Agora copie os dados da Tabela 3 e introduza-os no programa, como indica a Figura 12.

TABELA 3. CUSTO DA MANUTENÇÃO DOS CARROS POR MOTOR E QUILOMETRAGEM
QUILOMETRAGEM MOTOR CUSTO DE MANUTENÇÃO
14100 2,0 400
14100 2,0 400
12100 2,0 395
12100 2,0 395
11000 1,6 389
11000 1,0 375
10995 1,0 375
7000 1,0 300
Figura 12. Clicar em regressão.
Na Figura 13, observamos que a variável y (o custo, disposto no intervalo entre as células c1
e c9) será influenciada pelas variáveis x (quilometragem, compreendida entre as células a1 e a9,
e motor, que corresponde ao intervalo entre as células b1 e b9).
Figura 13. Efetuando a regressão.

Percebe-se que o tipo de motor influencia mais no gasto de manutenção do que a quilome-
tragem. Tal informação é verdade em 92%, ou seja, constitui um valor alto de veracidade. Isso
faz sentido quando observamos como exemplo os valores de custo de manutenção 389 e 375
(células c6 e c7, respectivamente), que, contando com a mesma quilometragem e uma distân-
cia de apenas 0.6 no motor, estão separados por uma diferença de 14 reais (389-375). Por ou-
tro lado, quando a quilometragem variou de 14100 para 1200, o preço só caiu 5 reais (400-395).
Figura 14. Diferença entre influência da quilometragem no preço e do motor no preço.
Clusterização e sumarização
Enquanto sumarizar diz respeito a identificar os aspectos de uma análise de dados (quando ve-
rificamos, por exemplo, que a probabilidade de compra de carros é maior entre jovens de 25 a 35
anos, solteiros, com formação superior, ou quando constatamos que a depressão atinge predomi-
nantemente meninas entre 14 e 17 anos que tiveram algum trauma na infância) sob um viés des-
critivo, a clusterização corresponde à identificação de grupos naturais em um conjunto de dados.
A realização de análises de similaridades, visando à criação de clusters, vêm acompanhada
de algumas práticas recomendáveis:
• Usar grupos de tamanhos heterogêneos, a fim de aumentar a probabilidade de se achar
itens, logo, um banco pode possuir 100 registros, e outro, apenas 50;
• Adotar os mais variados tipos de dados;

1) Nominais (por exemplo religião, partido);
2) Contínuos (altura, tempo de trabalho);
3) Ordinais (escolaridade);
4) Discretos (quantidade de filhos);
• Independentemente do ângulo da análise, os resultados devem ser os mesmos, ou seja,
isentos de análises tendenciosas;
• A presença de dados faltantes, ruidosos ou inconsistentes não deve afetar a veracidade
dos grupos.
Clusterização pelo Weka

Existem alguns métodos famosos para
se proceder com a clusterização, como o
cálculo de distância euclidiana e o cálculo
de confiança, além do K-means. Neste mo-
mento, nos ateremos à parte computacio-
nal gráfica.
Ainda utilizando o arquivo haverá_jogo.
arff, exemplificaremos como estudar o clus-
ter utilizando o Weka. Importe o arquivo para
o programa mais uma vez e selecione todas
as opções, conforme Figura 15. Figura 15. Abrir arquivo haverá_jogo.arff.
Agora clique em cluster, selecione a cluste-

rização canopy e, depois, Start.
À direita, como é possível notar, quatro clus-
ters foram contados, e cada um teve sua quan-
tidade demonstrada. Observe o resultado:
Cluster 0: chuva,ameno,muito_umido,ven-
to_fraco,sim,{2} <0>
Cluster 1: nublado,quente,muito_umido,-
vento_fraco,sim,{2} <1>
Cluster 2: sol,quente,muito_umido,vento_
fraco,nao,{3} <2>
Cluster 3: sol,frio,pouco_umido,vento_fra-
co,sim,{2} <3> Figura 16. Selecionar Canopy.

Análises temporais e desvio-padrão
Usamos análises temporais para analisar o comportamento de um item ao longo do tempo,
seja de forma crescente e decrescente (aumento ou declínio de vendas durante os anos, meses
ou dias, por exemplo), ou durante épocas, por exemplo, festivas (sazonal).
Geralmente, utiliza-se a média móvel para este tipo de análise. A seguir, será demonstrado
como trabalhar com esta média pelo Excel.
A Figura 17 traz uma tabela com períodos de tempo e valores referentes a um determinado
carro. Após copiar as respectivas informações, calcule a média na linha 5, relativa aos valores
da linha 3 e da linha 4, chamada, portanto, de média(b3:b4). A média resultante compreende
dois dias. A Figura 17 mostra, à esquerda, a realização apenas do primeiro cálculo; à direita,
de todos os outros.
Figura 17. Média de dois dias.

Agora, na coluna de 4 dias, faça a média das linhas 3, 4, 5 e 6, chamada de média(b3:b6),
conforme a Figura 18.
Figura 18. Média de quatro dias.
Após essa etapa, é possível calcular o erro médio quadrático para dois e quatro dias.
Para descobrir o maior erro, utilizaremos a fórmula somatórioXMY2, dividindo pelo núme-
ro de linhas:
• Primeiro, aplicaremos a fórmula de B5 até B19, com análise da média de dois dias da C5 até
C19, dividido pelo número de linhas (15 linhas);
• Depois, aplicaremos a fórmula de B7 até a B19, com análise da média de dois dias da D7
até D19, dividido pelo número de linhas (13 linhas).
Após isso, o que apresentar menor valor representa a média crescente mais confiável. No
nosso exemplo, observe, na Figura 19, que analisar o crescimento de quatro em quatro dias é
mais confiável (por ter menor erro quadrático) do que de dois em dois dias. Assim, recomenda-
-se estudar as variações da coluna D e analisar como esta cresce ou decresce.

Figura 19. Erro médio.
Ou seja, pode-se fazer a média de quatro em quatro dias de um mês e analisar quanto cres-
ce ou diminui diariamente, o que suavizará erros de valores ruidosos.
Outros métodos de classificação

Classificar é predizer rótulos, o que é muito utilizado em diagnósticos de medicina, aprovação
de crédito, criação de estratégias de marketing, entre outros.
Agora que já discorremos sobre a árvore de decisão e regressão, abordaremos as classificações
bayesiana, K-NN e K-means.

Classificação bayesiana
A classificação bayesiana decorre do teorema de Bayes e é utilizada para realizar previsões com
bases em análises de probabilidade. Agora, vamos demonstrar como realizar cálculos com base
em Bayes, e depois indicaremos a fórmula, utilizando a mesma base de jogo. Observe a Tabela 4.
TABELA 4. CONTABILIZAÇÃO DE P’S EM ANÁLISE BAYESIANA
BASE DE DADOS ANÁLISE BAYESIANA (DESCOBRINDO OS P’S)
CLIMA TEMPO UMIDADE VENTO JOGAR CLIMA
P(X|não) P(X|sim)
Sol quente muito_umido vento_fraco não
Sol | não -> 3/5 Sol | sim -> 2/9
P(X|não) P(X|sim)
Sol quente muito_umido vento_forte não
Nublado | não -> 0 Nublado | sim -> 4/9
P(X|não) P(X|sim)
Nublado quente muito_umido vento_fraco sim
Chuva | não -> 2/5 Chuva | sim -> 3/9
Chuva ameno muito_umido vento_fraco sim TEMPO
P(X|não) P(X|sim)
Chuva frio pouco_umido vento_fraco sim
Quente| não -> 2/5 Quente| sim -> 2/9
P(X|não) P(X|sim)
Chuva frio pouco_umido vento_forte não
Ameno| não -> 2/5 Ameno| sim ->4/9
P(X|não) P(X|sim)
Nublado frio pouco_umido vento_forte sim
Frio| não -> 1/5 Frio| sim -> 3/9
Sol ameno muito_umido vento_fraco não UMIDADE
P(X|não) P(X|sim)
Sol frio pouco_umido vento_fraco sim
Muito_umido| não -> 4/5 Muito_umido| sim -> 3/9
P(X|não) P(X|sim)
Chuva ameno pouco_umido vento_fraco sim
Pouco_umido| não -> 1/5 Pouco_umido| sim -> 6/9
Sol ameno pouco_umido vento_forte sim VENTO
P(X|não) P(X|sim)
Nublado ameno muito_umido vento_forte sim
Forte| não -> 3/5 Forte| sim – > 3/9
P(X|não) P(X|sim)
Nublado quente pouco_umido vento_fraco sim
Fraco| não -> 2/5 Fraco| sim -> 6/9
Chuva ameno muito_umido vento_forte não
RELÇÃO TOTAL
Total sim P (sim) 9|14
Total não P (não) 5|14

A partir dela, suponhamos que as condições de análise sejam:
TABELA 5. VARIÁVEIS A SEREM ANALISADAS
Clima Tempo Umidade Vento Jogar
Sol frio muito_umido vento_fraco ?
Para descobrir o último elemento (se haverá jogo ou não), procedemos com os dois cálculos
e verificamos qual resulta no valor maior (sendo, portanto, mais provável).
Primeiro, calculamos o valor supondo que o resultado fosse não.
P(X|não) x P(não)
P(sol|não).P(frio|não).P(muito umido|não).P(vento fraco|não). 5
14
3 1 4 2 5
. . . . = 0,6 × 0,2 × 0,8 × 0,4 × 0,36 = 0,0137
5 5 5 5 14
Agora, calcularemos o valor supondo que resultasse em sim.

P(X|sim) x P(sim)
9
P(sol|sim).P(frio|sim).P(muito umido|sim).P(vento fraco|sim).
14
2 3 3 6 9
. . . . = 0,22 × 0,33 × 0,33 × 0,67 × 0,6428 = 0,0105
9 9 9 9 14
Pode-se concluir, de acordo com o exemplo citado, que, como 0,0137 é maior que 0,0105, é
mais provável que não haja jogo.
TABELA 6. VARIÁVEIS ANALISADAS
Clima Tempo Umidade Vento Jogar
Sol frio muito_umido vento_fraco não
Classificação por vizinho mais próximo

K-NN, ou vizinho mais próximo, leva em conta valores com menor distância (diferença).
As distâncias mais famosas utilizadas são a Euclidiana e a Manhattan. De acordo com
Goldshimdit (2018, p. 118), os passos para se calcular o K-NN são:

DIAGRAMA 2. PASSOS PARA IMPLEMENTAR O K-NN
Calcular a distância do
Determinar o k ideal
novo registro com cada (k é o número de vizi- Descobrir os registros
registro já existente nhos mais próximos, com menores distâncias,
recomenda-se usar caso tenha escolhido
número impar) K=1, o primeiro vizinho
mais próximo, caso k=3,
os três primeiros
A Figura 20 mostra os três registros mais próximos do ponto “*”, e, consequentemente, que
existe a chance de o cliente ser negligente, embora menos provável (escolheu-se k=3).
DESPESAS
RENDA
Negligentes
Não-negligentes
Figura 20. Demonstração gráfica de 3 vizinhos mais próximos. Fonte: GOLDSHIMDIT,.2015, p. 119.

A seguir, explicaremos, através de diversos exemplos, como calcular K-NN pelo Microsoft
Excel. O primeiro deles é para descobrir qual é a bolacha da concorrência mais parecida com
a que se pretende lançar, para, assim, determinar um preço que não seja muito superior nem
muito inferior à média disponível no mercado. Será feito o cálculo de K-NN utilizando os ope-
radores raiz (=raíz) e elevado (^).
A fórmula da distância euclidiana é:
Dist.Eucli.=(valor x do prod existente - valor do novo produto)² + (valor y do prod existente - valor y do novo produto)²
Observe, na Figura 21, como é realizado o cálculo pelo programa:
Figura 21. Cálculo de distância euclidiana no Excel.
Agora, o resultado segue disposto na Tabela 8. Supondo que definimos K=2, as duas bola-
chas mais parecidas seriam a bolacha A e a bolacha B, pois possuem a menor distância (1 e
4,47). Se colocássemos com K=1, a bolacha B teria a menor distância, podendo seu preço servir
como referência para nosso produto.
TABELA 7. RESULTADOS DO K-NN
Item Qtd Gramas Resultado
Bolacha A 10 200 4,472135955
Bolacha B 11 180 1
Bolacha C 14 200 6
Bolacha D 16 300 12,489996
Bolacha nova 10 180

K-Means
Assim como o K-NN, o K-Means também analisa a variável K, que significa quantidade de
grupos a ser notada. O K-Means seleciona uma quantidade k de pontos (ou sementes) que
serão o centro (centroide) em uma quantidade k de agrupamentos. A partir disso, calcula-se a
distância de cada ponto com o centroide.
2 2
2
2 2
2
3
+
3 3
+
+ 3
1
1
3
1 2
1
Figura 22. Centroides em 3 grupos (GOLDSHIMDIT, 2015, p. 127).
O K-Means também calcula similaridades, mas identifica pontos médios (mean), que serão
os centroides, e utiliza distâncias matemáticas, inclusive a distância euclidiana, para posicioná-
-los no centro. A grande diferença entre o K-NN e o K-Means é que este cria grupos em volta de
médias, isto é, os centroides.
Abordaremos agora os procedimentos para a instalação de um add-in no Microsoft Excel,
criando, assim, o K-Means.
O primeiro passo é instalar uma extensão que crie uma guia Data Mining, conforme a Figura 23.

Figura 23. Guia Data Mining
DICA
Estude como fazer regras de associação, predições e classificações
com a guia Data Mining no Excel. Existem vários vídeos na internet
ensinando tais procedimentos.
Você também pode conferir mais detalhes sobre Data Mining e KDD
com o texto “Processo de KDD”, disponibilizado pelo professor Wil-
son Sabaia Flores!
Para instalar a guia, feche o Excel, entre no site indicado na Figura 24 e faça o download.
Figura 24. Baixar XLMiner.

Após instalá-lo, o Excel será aberto automaticamente, já com as guias disponíveis. Copie
as informações da Tabela 8, de forma a deixá-las como nas células compreendidas dentro da
demarcação laranja da Figura 25, a seguir. Depois, clique em K-Means cluster. Em data range,
selecione o intervalo entre as células A1 e E10, conforme indica o espaço delimitado em azul
na mesma figura.
TABELA 8. DADOS PARA COPIAR NO EXCEL PARA FAZER CLUSTERS MEDIANTE K-MEANS
Idade Sexo Compras Casado Filhos
20 1 200 0 0
30 0 300 1 2
35 1 250 0 1
22 0 450 1 0
44 1 200 0 0
30 1 160 1 1
20 1 300 1 3
40 0 270 0 1
50 0 300 1 0
Figura 25. Criar tabela e selecionar K-Means.

Agora, vamos supor a criação de dois clusters com todos estes dados. Cabe ao minerador
escolher como quer trabalhar, podendo-se, por exemplo, criar três clusters ou utilizar apenas
alguns dos dados possíveis, como idade, sexo e compras, e logo já se obtém o grupo calculado.
A Figura 26 mostra os respectivos passos e o resultado da clusterização via K-Means com dois
grupos, possuindo, cada um deles, um diferente perfil de compra.
Figura 26. Clusterização via K-Means.
Assim, o programa cria automaticamente dois clusters a partir do ponto médio. Caso se
queira descobrir a que grupo um dado novo pertence, pode-se:
• Incluir na Tabela 8, no Excel, mais uma linha com os dados do novo item e refazer o cluster;
• Analisar através de valores parecidos (análise por similaridade).

Sintetizando
Nesta unidade, discorremos sobre diferentes tipos de sumarização. O primeiro deles foi a
árvore de decisão e como ela filtra os dados de acordo com as opções desejadas e cria nós,
visando descobrir classes de decisão e, consequentemente, ajudar em análises preditivas cen-
tradas em quem escolhe ou não um determinado produto. Com finalidade teórico-prática, foi
abordado o procedimento de criação de arquivos em formato.arff, que podem ser trabalhados
pelo programa Weka e, por já possuir os algoritmos necessários embutidos, possibilita a rea-
lização dos cálculos desejados. Apresentamos também a regressão linear, que diz respeito à
influência de um dado do eixo x sobre o eixo y. Após estudá-la, pudemos também demonstrar
os passos para se descobrir a influência exercida por múltiplos atributos e verificar qual era
mais influente na decisão final do cliente, o que constitui o processo de regressão múltipla.
O método de média móvel foi explanado com o intuito de orientar em direção às respostas
para as seguintes perguntas: Qual período de análise possui mais confiabilidade? É mais reco-
mendável analisar médias de vendas a cada dois ou quatro dias? É sabido que cada conjunto
de dados (dataset) implica em um período de análise com mais ou menos confiança, por isso
elucidamos também os procedimentos para o cálculo de média móvel no Microsoft Excel para,
a partir daí, poder identificar padrões de vendas ao longo do tempo, sendo possível constatar,
por exemplo, se um produto tem a venda crescente ou decrescente no decorrer de um mês.
Além de média móvel, trabalhamos com o conceito de clusters, indispensável para a articulação
de vendas combinadas, promoções estratégicas, posicionamento de produtos dentro de um
supermercado etc.
Também se encontra no escopo de estudos desta unidade o cálculo bayesiano, que se de-
fine por um tipo de análise altamente probabilística que auxilia em predições a respeito da
participação do público nos negócios.
O conceito de K-NN foi abordado de maneira totalmente aplicada ao Microsoft Excel, a fim
de se descobrir os vizinhos mais próximos de um produto, ou seja, outros produtos similares,
que também ajudam a delimitar um cluster. Para concluir, dispomos o passo a passo para a
criação de um um add-in no Microsoft Excel voltado para a mineração dos dados e a inclusão
da guia Data Mining no referido programa. Finalizamos discorrendo sobre os K-Means, isto é,
criação de grupos/clusters (k) com um centroide que agrupa itens similares
através da análise da média (means).

Referências bibliográficas
CASTRO, G. R. Discussão conceitual sobre dado, informação e conhecimento. João Pessoa:
UFPB, 2011.
CERCHIARI, L. Como instalar MySQL e Xampp. 2019. Disponível em: <https://www.youtube.
com/watch?v=srcl7b1LeCg&feature=youtu.b>. Acesso em: 20/02/2019.
CERCHIARI, L. Primeiros passos com MySQL. 2019. Disponível em:< https://www.youtube.com/
watch?v=QoCcYpf_ZXw&feature=youtu.be> Acesso em: 20/02/2019.
GOLDSHIMDIT, R.; BEZERRA, E.; PASSOS, E. Data mining: conceitos, técnicas, algoritmos, orien-
tações e aplicações. Rio de Janeiro: Elsevier, 2015.
SOUZA, F. 2019. Limites de Pagamento dos Órgãos do Poder Executivo da União. Portal Brasilei-
ro De Dados Abertos. Disponível em: <http://dados.gov.br/dataset/limites-de-pagamento-dos-
-orgaos-da-uniao>. Acesso em: 18 fev. 2019.
SABAIA, W. F. Processo de KDD. Disponível em: <http://docplayer.com.br/3575573-O-processo-
-de-kdd-data-mining-sumario-aula1-o-processo-de-kdd-interpretacao-e-avaliacao-selecao-e-
-pre-processamento-consolidacao-de-dados.html>. Acesso em: 30 dez. 2018.
POWER BI. Welcome to the data stories gallery. Disponível em: https://community.powerbi.
com/t5/Data-Stories-Gallery/bd-p/DataStoriesGallery Acesso em: 20 fev. 2019.
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. Estados Unidos, Ca-
lifórnia: AAAI/MIT Press, 1996.

Mineração de Dados Unidade III

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Mineração de Dados Unidade III

Enviado por

Direitos autorais:

Formatos disponíveis

UNIDADE

Mineração de dados - Unidade3.indd 69 08/07/19 16:35

Conhecer os tipos de classificação e suas

Aprender a efetuar os respectivos cálculos

Ter contato com técnicas e cálculos

Outros métodos de classificação

Mineração de dados - Unidade3.indd 70 08/07/19 16:35

Classificação por árvore de decisão

DIAGRAMA 1. ÁRVORE DE DECISÃO DE ESCOLA DE NATAÇÃO

Mineração de dados - Unidade3.indd 71 08/07/19 16:35

TABELA 1. CÓDIGO PARA ARQUIVO HAVERÁ_JOGO.ARFF

@attribute clima {sol, nublado, chuva}

Mineração de dados - Unidade3.indd 72 08/07/19 16:36

Figura 2. Selecionar todas as opções.

Figura 3. Criando a árvore de decisão.

Mineração de dados - Unidade3.indd 73 08/07/19 16:36

Figura 4. Resultados da árvore de decisão.

Mineração de dados - Unidade3.indd 74 08/07/19 16:36

Figura 5. Salvar arquivos carros.arff.

TABELA 2. CÓDIGO PARA ARQUIVO CARROS.ARFF

@ATTRIBUTE km_rodada REAL

Mineração de dados - Unidade3.indd 75 08/07/19 16:37

Figura 6. Vendo máximos, mínimos e médias.

Figura 7. Executando a regressão linear.

Mineração de dados - Unidade3.indd 76 08/07/19 16:37

Figura 8. Resultado da regressão linear.

Figura 9. Gerar gráfico.

Mineração de dados - Unidade3.indd 77 08/07/19 16:38

Classificação por regressão linear múltipla

Figura 11. Habilitar análise de dados.

Mineração de dados - Unidade3.indd 78 08/07/19 16:39

QUILOMETRAGEM MOTOR CUSTO DE MANUTENÇÃO

14100 2,0 400

14100 2,0 400

12100 2,0 395

12100 2,0 395

11000 1,6 389

11000 1,0 375

10995 1,0 375

7000 1,0 300

Figura 12. Clicar em regressão.

Figura 13. Efetuando a regressão.

Mineração de dados - Unidade3.indd 79 08/07/19 16:39

Figura 14. Diferença entre influência da quilometragem no preço e do motor no preço.

Mineração de dados - Unidade3.indd 80 08/07/19 16:39

Clusterização pelo Weka

Agora clique em cluster, selecione a cluste-

Mineração de dados - Unidade3.indd 81 08/07/19 16:40

Figura 17. Média de dois dias.

Mineração de dados - Unidade3.indd 82 08/07/19 16:41

Figura 18. Média de quatro dias.

Mineração de dados - Unidade3.indd 83 08/07/19 16:41

Outros métodos de classificação

Mineração de dados - Unidade3.indd 84 08/07/19 16:41

TABELA 4. CONTABILIZAÇÃO DE P’S EM ANÁLISE BAYESIANA

BASE DE DADOS ANÁLISE BAYESIANA (DESCOBRINDO OS P’S)

CLIMA TEMPO UMIDADE VENTO JOGAR CLIMA

Chuva ameno muito_umido vento_fraco sim TEMPO

Sol ameno muito_umido vento_fraco não UMIDADE

Sol ameno pouco_umido vento_forte sim VENTO

Chuva ameno muito_umido vento_forte não

Total sim P (sim) 9|14

Total não P (não) 5|14