Escolar Documentos
Profissional Documentos
Cultura Documentos
Multimédia
Unidade curricular: Data Mining e Big Data
Docente: Pedro Pimenta
1. Introdução............................................................................................................................3
2. Transformação dos dados....................................................................................................4
2.1. Homogeneidade...........................................................................................................4
2.2. Relações entre Feats....................................................................................................8
2.3. Criação de atributos...................................................................................................11
3. Data Mining e Avaliações do Erro Quadrático....................................................................13
3.1. 1ª Fase........................................................................................................................13
3.2. 2ª Fase........................................................................................................................14
4. Estimar Feat 8 do conjunto de dados de Testes.................................................................16
5. Conclusão...........................................................................................................................17
6. Referências.........................................................................................................................18
1. Introdução
Neste trabalho foi proposto pelo o professor Pedro Pimenta a elaboração de um projeto, em
que o objetivo é efetuar todas as etapas de Data Mining explorando e analisando os dois
conjuntos de dados, de treino e de teste. Tem como propósito estimar a Feat 8 para o
conjunto de dados de teste, com base no conjunto de dados de treino (supervized learning) e
que apresente uma solução com o menor erro possível.
Para a elaboração deste projeto foi usado o modelo de processo KDD, onde o mesmo realizou
os primeiros três passos:
3
2. Transformação dos dados
A primeira parte elaborada no trabalho foi a transformação dos dados, que consiste na quarta
etapa do modelo KDD. Esta etapa consiste na procura de atributos úteis nos dados, tendo em
consideração os objetivos a que se destina, procura de representações invariantes para os
dados e a utilização de métodos de transformação com vista á redução do número efetivo de
varáveis em consideração.
2.1. Homogeneidade
4
Gráfico 2: Conjunto de dados de Teste Feat 1.
5
Gráfico 4: Conjunto de dados de Teste Feat 2.
6
Gráfico 6: Conjunto de dados de Teste Feat 3.
Após fazer uma análise dos gráficos representados a cima com cada uma das Feats para o
conjunto de teste e de treino podemos concluir que só alguns tipos de variáveis do Feat 1 do
conjunto de treino não existem para o conjunto de dados de teste e o mesmo acontece ao
contrário, o que para o nosso estudo final não fazem diferença.
Também podemos concluir que todas as Feats são homogenias, ou seja, as mesmas
apresentam frequências de valores muito próximos. Sendo assim, já sabemos por exemplo que
o modelo que desenvolvemos no conjunto de dados treino pode ser aplicado no conjunto de
dados teste.
7
2.2. Relações entre Feats
De seguida, foi verificada qual era a importância de cada Feat para a nossa estimativa da Feat
8, então para isso foi relacionada a Feat 8 com as outras Feats onde foram adicionadas cores
para cada modelo de dispositivo (Feat 1).
Com este gráfico podemos concluir que a Feat 2 (potência de cada dispositivo) não é
importante, pois se analisarmos o gráfico não conseguimos detetar se existe algum tipo de
proporcionalidade, por exemplo conforme a potência fosse maior o número de intervenções
subia também. Em vez disso o que vemos é que independentemente da potência ser muito
alta ou baixa o número de intervenções tanto é elevado como também é reduzido.
Com isto podemos concluir que a potência (Feat 2) é uma Feat que não é relevante para a
nossa estimativa e por isso, a mesma não irá ser usada.
8
Neste gráfico, temos relacionada a Feat 8 (o número de intervenções) com a Feat 3 (algo que o
dispositivo tem ou não tem). Podemos verificar que a Feat 1 está distribuída homogeneamente
entre dois grupos (0 e 1), em que não existe nenhum tipo de relação e também podemos
verificar que alguns dos modelos (Feat 1) apresentam só um valor de Feat 3 sendo 0 ou 1.
9
No gráfico a baixo, podemos verificar a relação entre a Feat 5 (a data desde que o dispositivo
foi instalado) e a existência de dois grupos, sendo que um encontra-se desde o ano 1980 até
2000 enquanto que o outro grupo encontra-se desde o ano de 2005 até 2020. Também é
possível verificar neste gráfico, que existe relações de proporcionalidade entre as duas Feats,
sendo que à medida que o tempo aumenta o número de intervenções no dispositivo (Feat 8)
também aumenta, com isto podemos concluir que a Feat 5 é uma Feat importante para o
nosso estudo final.
10
2.3. Criação de atributos
Após feita a análise, foi possível criar duas variáveis independentes para o conjunto de dados
de treino sendo elas a Feat 9 e a Feat 10. Na qual a Feat 9 representa o número de dias em que
o dispositivo está em funcionamento e a Feat 10 representa o número de intervenções médio
por dia.
Para calcular a nova variável Feat 9 foi necessário fazer o cálculo da última data em que se
registou o funcionamento do dispositivo (neste caso foi usada a data 01/01/2021) menos a
data de início de funcionamento do dispositivo (Feat 5).
Para fazermos o cálculo da Feat 10 (número de intervenções médio por dia) foi necessário
efetuar a divisão da Feat 8 (número de intervenções do dispositivo) pela Feat 9 (número de
dias em que o dispositivo esteve em funcionamento).
Depois de criado estes doi atributos, ambos foram relacionados com a Feat 8 (número de
intervenções) para percebermos a sua importância para a nossa estimativa, em que voltamos a
adicionar cores para cada Feat 1 (modelo do dispositivo).
11
No seguinte gráfico podemos verificar que existem dois grupos em que ambos já tinham sido
observados anteriormente e a análise que podemos fazer é exatamente a mesma que fizemos
em relação a Feat 5 (data que o dispositivo foi instalado), mas com este gráfico conseguimos
perceber que informação fica mais precisa e conseguimos verificar que a nova Feat criada é
importante para o nosso estudo final.
No seguinte gráfico em que temos relacionada a Feat 10 (número de intervenções médio por
dia) com a Feat 8 (número de intervenções do dispositivo), onde podemos verificar a
existência de 3 grupos.
12
3. Data Mining e Avaliações do Erro Quadrático
3.1. 1ª Fase
Nesta primeira fase, foi criada uma expressão que nos permite calcular uma estimativa para a
Feat 8, sendo que a expressão usada é Feat 8 igual a Feat 9 a multiplicar pela Feat 10 (Feat
8=Feat 9*Feat 10) e como já temos os valores para cada uma destas Feats, já podemos fazer o
cálculo para o conjunto de dados de teste da estimativa da Feat 8.
Sendo assim, primeiramente foi calculada a média do número de intervenções por dia (Feat
10), para cada dispositivo (Feat 1), no conjunto de dados de treino (folha: “Treino 1ª Fase”)
De seguida, depois de termos a média da Feat 10 para cada dispositivo foi então calculada uma
estimativa para a Feat 8, usando a expressão referenciada a cima, foi também calculado os
seus erros quadráticos de forma a termos um critério de performance do nosso modelo, sendo
a expressão a seguinte, (valor estimado – valor real) ^ 2.
13
Figura 5: Soma do erro quadrático.
Todos estes cálculos estão representados no excel do conjunto de dados de treino (folha:
Cálculo de F8 e erro quadrático)
Se tivesse sido calculada a Feat 8 para cada Feat 1 o erro acabaria por ser maior porque,
estariam a ser utilizados valores que se distanciavam do grupo principal, fazendo com que o
erro aumentasse.
3.2. 2ª Fase
Nesta 2ª fase, foi feito novamente o processo, mas agora tendo juntado a Feat 3, em que foi
calculada a média da Feat 10 para cada Feat 1 quando o valor da Feat 3 é 0 ou é 1, tal como é
demonstrado nos dois seguintes prints (pode-se encontrar a média nas folhas: “F3=0” “F3=1”).
Neste caso, foi usada a Feat 3 para que obtivéssemos um erro quadrático menor, pois se fosse
calculada a média global para cada Feat 1, os dados não estariam tão filtrados o que fazia o
erro aumentar, tal como foi explicado na 1ª fase.
Durante o processo, foi verificado que existiam alguns dados da Feat 1 (modelo) que não
continham a Feat 3 (algo que o dispositivo pode ou não ter) nem igual a 0 nem a 1 e quando é
calculada a sua média, o valor apresentado é “#DIV/0!”, tal como podemos verificar no print
mais a cima e no print a baixo.
Assim, para não usarmos o valor 0 e aumentar o erro quadrático, o que foi feito, foi usar o
valor correspondente á média do valor oposto, isto é, quando acontecesse esse problema na
Feat 3 igual a 0 era atribuído o valor da média calculada da Feat 3 = 1 e vice-versa também,
sendo que assim podemos fazer a estimativa para a Feat 8 do conjunto de dados de treino e
depois também do conjunto de dados de teste.
14
Na figura 9, estão apresentados alguns dos valores em que foi usado este método, os quais se
encontram assinalados a vermelho.
Neste momento, depois de termos feito novamente a média dos valores da estimativa da Feat
8, termos efetuado os cálculos dos erros quadráticos e a soma desses mesmos erros os
resultados são os seguintes:
Figura 10: Estimativa da Feat 8 do excel Treino. Figura 11: Erro quadrático.
Desta maneira conseguimos perceber que a soma dos erros quadráticos quando temos em
conta a Feat 3 (2ª fase) é menor. Assim, conseguimos perceber de que maneira é que o nosso
modelo evoluiu para melhor.
15
4. Estimar Feat 8 do conjunto de dados de Testes
Depois do que foi feito, foi concluído que o valor da Feat 10 que usamos para estimar a Feat 8
do conjunto de dados de testes irá ser a média da Feat 10 quando a Feat 3 é igual a 0 e igual a
1. Também irá ser usado o mesmo modelo porque tal como visto anteriormente os dados
usados anteriormente são homogéneos e podemos aplicar o mesmo modelo no conjunto de
dados de teste.
Estimativa_feat8.txt
16
5. Conclusão
O objetivo deste trabalho, que tinha como propósito estimar a Feat 8 para o conjunto de
dados de teste e que apresentasse uma solução com o menor erro possível foi alcançado.
Com este trabalho consegui perceber realmente qual o significado de Data Mining e entender
cada uma das suas etapas.
17
6. Referências
https://moodle.maieutica.pt/pluginfile.php/100404/mod_resource/content/1/Data-Mining-A-
Tutorial-Based-Primer-2ndEd.pdf
18