Você está na página 1de 18

Licenciatura: Tecnologias de Informação, Web e

Multimédia
Unidade curricular: Data Mining e Big Data
Docente: Pedro Pimenta

Estimativa do número de intervenções de um dispositivo

André Borges A031052


Índice

1. Introdução............................................................................................................................3
2. Transformação dos dados....................................................................................................4
2.1. Homogeneidade...........................................................................................................4
2.2. Relações entre Feats....................................................................................................8
2.3. Criação de atributos...................................................................................................11
3. Data Mining e Avaliações do Erro Quadrático....................................................................13
3.1. 1ª Fase........................................................................................................................13
3.2. 2ª Fase........................................................................................................................14
4. Estimar Feat 8 do conjunto de dados de Testes.................................................................16
5. Conclusão...........................................................................................................................17
6. Referências.........................................................................................................................18
1. Introdução

Neste trabalho foi proposto pelo o professor Pedro Pimenta a elaboração de um projeto, em
que o objetivo é efetuar todas as etapas de Data Mining explorando e analisando os dois
conjuntos de dados, de treino e de teste. Tem como propósito estimar a Feat 8 para o
conjunto de dados de teste, com base no conjunto de dados de treino (supervized learning) e
que apresente uma solução com o menor erro possível.

O significado das Features é o seguinte em ambos os conjuntos de dados:

 Feat 1 – Representa o modelo de um determinado dispositivo;


 Feat 2 – Representa a potência desse mesmo dispositivo;
 Feat 3 – Representa algo que esse dispositivo pode ou não ter;
 Feat 4 – Representa uma subcategoria do modelo do dispositivo;
 Feat 5 – Representa a data em que o dispositivo entrou em funcionamento;
 Feat 6 – Representa a latitude;
 Feat 7 – Representa a longitude;
 Feat 8 – Representa o número de intervenções do dispositivo;

Para a elaboração deste projeto foi usado o modelo de processo KDD, onde o mesmo realizou
os primeiros três passos:

 Identificação dos objetivos, isto é, a compreensão do domínio a ser considerado


para a descoberta do conhecimento, determinar o irá ser realizado, assim como a
decisão sobre medidas de sucesso
 Criação de um conjunto de dados , em que consiste na extração de todos os dados
provenientes de data warehouse, base de dados tradicionais ou ficheiros simples
para uma planilha.
 Pré-processamento dos dados, onde foi feita uma limpeza de dados,
especialmente os dados ruidosos, é neste passo que é decidido o que fazer com
valores de dados em falta e como contabilizar a informação de sequência
temporal.
O processo KDD contém ainda mais quatro passos, porém apenas três deles é que irão ser
abordados ao longo do documento, que são a transformação dos dados, Data Mining e
interpretação e avaliação, sendo que na fase de tomar medidas se o conhecimento descoberto
for considerado útil é aplicado diretamente nos problemas. Contudo, não será abordado pois
este projeto não irá ser aplicado no mundo real.
Durante este projeto foram utilizadas duas ferramentas, o excel e o rapid minner.

3
2. Transformação dos dados

A primeira parte elaborada no trabalho foi a transformação dos dados, que consiste na quarta
etapa do modelo KDD. Esta etapa consiste na procura de atributos úteis nos dados, tendo em
consideração os objetivos a que se destina, procura de representações invariantes para os
dados e a utilização de métodos de transformação com vista á redução do número efetivo de
varáveis em consideração.

No presente trabalho consistiu em analisar o conjunto de dados, com o objetivo de extrair o


máximo de conhecimento sobre as relações entre as Feats e a homogeneidade entre o
conjunto de dados de treino e de teste. Para essa finalidade, foi utilizada a ferramenta
Rapidminer na qual se reproduziu os gráficos necessários para a análise, para tal foi necessário
importar os ficheiros fornecidos pelo docente.

2.1. Homogeneidade

Começamos por verificar a homogeneidade entre o conjunto de dados de treino e de teste.

Gráfico 1: Conjunto de dados de Treino Feat 1

4
Gráfico 2: Conjunto de dados de Teste Feat 1.

Gráfico 3: Conjunto de dados de Treino Feat 2.

5
Gráfico 4: Conjunto de dados de Teste Feat 2.

Gráfico 5: Conjunto de dados de Treino Feat 3.

6
Gráfico 6: Conjunto de dados de Teste Feat 3.

Após fazer uma análise dos gráficos representados a cima com cada uma das Feats para o
conjunto de teste e de treino podemos concluir que só alguns tipos de variáveis do Feat 1 do
conjunto de treino não existem para o conjunto de dados de teste e o mesmo acontece ao
contrário, o que para o nosso estudo final não fazem diferença.

Também podemos concluir que todas as Feats são homogenias, ou seja, as mesmas
apresentam frequências de valores muito próximos. Sendo assim, já sabemos por exemplo que
o modelo que desenvolvemos no conjunto de dados treino pode ser aplicado no conjunto de
dados teste.

7
2.2. Relações entre Feats

De seguida, foi verificada qual era a importância de cada Feat para a nossa estimativa da Feat
8, então para isso foi relacionada a Feat 8 com as outras Feats onde foram adicionadas cores
para cada modelo de dispositivo (Feat 1).

Gráfico 7: Relação da Feat 8 com a Feat 2.

Com este gráfico podemos concluir que a Feat 2 (potência de cada dispositivo) não é
importante, pois se analisarmos o gráfico não conseguimos detetar se existe algum tipo de
proporcionalidade, por exemplo conforme a potência fosse maior o número de intervenções
subia também. Em vez disso o que vemos é que independentemente da potência ser muito
alta ou baixa o número de intervenções tanto é elevado como também é reduzido.

Com isto podemos concluir que a potência (Feat 2) é uma Feat que não é relevante para a
nossa estimativa e por isso, a mesma não irá ser usada.

8
Neste gráfico, temos relacionada a Feat 8 (o número de intervenções) com a Feat 3 (algo que o
dispositivo tem ou não tem). Podemos verificar que a Feat 1 está distribuída homogeneamente
entre dois grupos (0 e 1), em que não existe nenhum tipo de relação e também podemos
verificar que alguns dos modelos (Feat 1) apresentam só um valor de Feat 3 sendo 0 ou 1.

Gráfico 8: Relação da Feat 8 com a Feat 3.

No seguinte gráfico em que é apresentada a relação entre a Feat 4 e a Feat 8, podemos


também verificar que não existe nenhuma relação entre ambas, sendo assim a Feat 4 não vai
ser utilizada para a nossa estimativa final.

Gráfico 9: Relação da Feat 8 com a Feat 4.

9
No gráfico a baixo, podemos verificar a relação entre a Feat 5 (a data desde que o dispositivo
foi instalado) e a existência de dois grupos, sendo que um encontra-se desde o ano 1980 até
2000 enquanto que o outro grupo encontra-se desde o ano de 2005 até 2020. Também é
possível verificar neste gráfico, que existe relações de proporcionalidade entre as duas Feats,
sendo que à medida que o tempo aumenta o número de intervenções no dispositivo (Feat 8)
também aumenta, com isto podemos concluir que a Feat 5 é uma Feat importante para o
nosso estudo final.

Gráfico 10: Relação da Feat8 com a Feat 5.

Foram ainda criados os seguintes gráficos para a análise da Feat 6 e Feat 7


que correspondem as coordenadas de cada dispositivo, podendo assim
verificar que os vários dispositivos estão organizados em grupos (cluster).
Com estes gráficos podemos também verificar a existência de pelo menos
dois outliers, pois são pontos que se distanciam de todos os outros.

Gráfico 11/12: Feat 4 com a Feat 6


e a Feat 7

10
2.3. Criação de atributos

Após feita a análise, foi possível criar duas variáveis independentes para o conjunto de dados
de treino sendo elas a Feat 9 e a Feat 10. Na qual a Feat 9 representa o número de dias em que
o dispositivo está em funcionamento e a Feat 10 representa o número de intervenções médio
por dia.

Para calcular a nova variável Feat 9 foi necessário fazer o cálculo da última data em que se
registou o funcionamento do dispositivo (neste caso foi usada a data 01/01/2021) menos a
data de início de funcionamento do dispositivo (Feat 5).

Para fazermos o cálculo da Feat 10 (número de intervenções médio por dia) foi necessário
efetuar a divisão da Feat 8 (número de intervenções do dispositivo) pela Feat 9 (número de
dias em que o dispositivo esteve em funcionamento).

Figura 1: Resultados obtidos da Feat 9 e Feat 10.

Depois de criado estes doi atributos, ambos foram relacionados com a Feat 8 (número de
intervenções) para percebermos a sua importância para a nossa estimativa, em que voltamos a
adicionar cores para cada Feat 1 (modelo do dispositivo).

11
No seguinte gráfico podemos verificar que existem dois grupos em que ambos já tinham sido
observados anteriormente e a análise que podemos fazer é exatamente a mesma que fizemos
em relação a Feat 5 (data que o dispositivo foi instalado), mas com este gráfico conseguimos
perceber que informação fica mais precisa e conseguimos verificar que a nova Feat criada é
importante para o nosso estudo final.

Gráfico 13: Relação da Feat 8 com a Feat 9.

No seguinte gráfico em que temos relacionada a Feat 10 (número de intervenções médio por
dia) com a Feat 8 (número de intervenções do dispositivo), onde podemos verificar a
existência de 3 grupos.

Gráfico 14: Relação da Feat 8 com a Feat 10.

12
3. Data Mining e Avaliações do Erro Quadrático

3.1. 1ª Fase

Nesta primeira fase, foi criada uma expressão que nos permite calcular uma estimativa para a
Feat 8, sendo que a expressão usada é Feat 8 igual a Feat 9 a multiplicar pela Feat 10 (Feat
8=Feat 9*Feat 10) e como já temos os valores para cada uma destas Feats, já podemos fazer o
cálculo para o conjunto de dados de teste da estimativa da Feat 8.

Sendo assim, primeiramente foi calculada a média do número de intervenções por dia (Feat
10), para cada dispositivo (Feat 1), no conjunto de dados de treino (folha: “Treino 1ª Fase”)

Figura 2: Média da Feat 10 por cada Feat 1.

De seguida, depois de termos a média da Feat 10 para cada dispositivo foi então calculada uma
estimativa para a Feat 8, usando a expressão referenciada a cima, foi também calculado os
seus erros quadráticos de forma a termos um critério de performance do nosso modelo, sendo
a expressão a seguinte, (valor estimado – valor real) ^ 2.

Figura 3: Estimativa da Feat 8 do excel Treino. Figura 4: Erro


quadrático.

No seguimento do trabalho, somou-se todos os erros em que se atingiu um valor de 6472,


sendo este valor a soma do erro quadrático.

13
Figura 5: Soma do erro quadrático.

Todos estes cálculos estão representados no excel do conjunto de dados de treino (folha:
Cálculo de F8 e erro quadrático)

Se tivesse sido calculada a Feat 8 para cada Feat 1 o erro acabaria por ser maior porque,
estariam a ser utilizados valores que se distanciavam do grupo principal, fazendo com que o
erro aumentasse.

3.2. 2ª Fase

Nesta 2ª fase, foi feito novamente o processo, mas agora tendo juntado a Feat 3, em que foi
calculada a média da Feat 10 para cada Feat 1 quando o valor da Feat 3 é 0 ou é 1, tal como é
demonstrado nos dois seguintes prints (pode-se encontrar a média nas folhas: “F3=0” “F3=1”).

Figura 6: Média da Feat 10 quando a Feat 3 = 0

Figura 7: Média da Feat 10 quando a Feat 3 = 1

Neste caso, foi usada a Feat 3 para que obtivéssemos um erro quadrático menor, pois se fosse
calculada a média global para cada Feat 1, os dados não estariam tão filtrados o que fazia o
erro aumentar, tal como foi explicado na 1ª fase.

Durante o processo, foi verificado que existiam alguns dados da Feat 1 (modelo) que não
continham a Feat 3 (algo que o dispositivo pode ou não ter) nem igual a 0 nem a 1 e quando é
calculada a sua média, o valor apresentado é “#DIV/0!”, tal como podemos verificar no print
mais a cima e no print a baixo.

Figura 8: Média da Feat 10 com valor “#DIV/0!”

Assim, para não usarmos o valor 0 e aumentar o erro quadrático, o que foi feito, foi usar o
valor correspondente á média do valor oposto, isto é, quando acontecesse esse problema na
Feat 3 igual a 0 era atribuído o valor da média calculada da Feat 3 = 1 e vice-versa também,
sendo que assim podemos fazer a estimativa para a Feat 8 do conjunto de dados de treino e
depois também do conjunto de dados de teste.

14
Na figura 9, estão apresentados alguns dos valores em que foi usado este método, os quais se
encontram assinalados a vermelho.

Figura 9: Valores usados quando média da Feat 10 = “#DIV/0!”

Neste momento, depois de termos feito novamente a média dos valores da estimativa da Feat
8, termos efetuado os cálculos dos erros quadráticos e a soma desses mesmos erros os
resultados são os seguintes:

Figura 10: Estimativa da Feat 8 do excel Treino. Figura 11: Erro quadrático.

Figura 12: Soma do erro quadrático.

Desta maneira conseguimos perceber que a soma dos erros quadráticos quando temos em
conta a Feat 3 (2ª fase) é menor. Assim, conseguimos perceber de que maneira é que o nosso
modelo evoluiu para melhor.

15
4. Estimar Feat 8 do conjunto de dados de Testes

Depois do que foi feito, foi concluído que o valor da Feat 10 que usamos para estimar a Feat 8
do conjunto de dados de testes irá ser a média da Feat 10 quando a Feat 3 é igual a 0 e igual a
1. Também irá ser usado o mesmo modelo porque tal como visto anteriormente os dados
usados anteriormente são homogéneos e podemos aplicar o mesmo modelo no conjunto de
dados de teste.

Sendo assim a estimativa da Feat 8 é a seguinte:

Estimativa_feat8.txt

Figura 13: Estimativa da Feat 8 do excel Teste.

16
5. Conclusão

O objetivo deste trabalho, que tinha como propósito estimar a Feat 8 para o conjunto de
dados de teste e que apresentasse uma solução com o menor erro possível foi alcançado.

Com este trabalho consegui perceber realmente qual o significado de Data Mining e entender
cada uma das suas etapas.

17
6. Referências

https://moodle.maieutica.pt/pluginfile.php/100404/mod_resource/content/1/Data-Mining-A-
Tutorial-Based-Primer-2ndEd.pdf

18

Você também pode gostar