Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Mining
Maio, 2021
índice
1. Introdução 3
2. Transformação de dados 5
2.1. Homogeneidade 5
3.1. 1ª Fase 12
3.2. 2ª Fase 13
4. Estimar F8 do Teste 15
2
1. Introdução
No âmbito da unidade curricular de “Data Mining e Big Data” do 2º ano de
Licenciatura em Tecnologias de Informação, Web e Multimédia do Instituto
Politécnico da Maia, sob orientação do Professor Pedro Correia Cravo Pimenta no
ano letivo 2020/2021, foi proposto a execução de um projeto final, que tem como
finalidade analisar/explorar um determinado conjunto de dados de treino e de teste,
a partir de determinadas feats conhecidas. Nesse sentindo, o objetivo é prever com
base no conjunto de treino uma estimativa para a feat 8 do conjunto de teste
(supervized learning) que apresente o menor erro possível.
Feat 3 – Representa uma algo que esse dispositivo pode ou não apresentar;
Este processo ainda apresenta mais quatro etapas, porém apenas três delas iram
ser abordados no decorrente documento, de modo a efetuar a explicação dos
3
processos que se realizaram durante o estudo. Desta forma, a fase em que se toma
a ação não será abordado pela razão de que o projeto não será aplicado no mundo
real.
Por conseguinte, foram utilizadas ferramentas como o excel e rapid minner para a
elaboração deste projeto.
4
2. Transformação dos dados
A primeira etapa elaborada neste projeto foi a transformação dos dados, que consiste
na quarta etapa do modelo KDD. Esta consistiu em analisar o conjunto de dados,
tanto de treino e como de teste, com vista a extrair o máximo de conhecimento sobre
as relações entre as feats e homogeneidade entre os dois conjuntos. A ferramenta
utilizada para esta parte do projeto foi o rapid minner na qual foram importados os
ficheiros fornecidos (treino e teste).
2.1. Homogeneidade
5
Gráfico 3: Treino de Feat 2
6
Gráfico 5: Treino de Feat 3
Após análise destes gráficos para cada uma destas feats (teste e treino) verifica-se que
apenas existem alguns tipos de variáveis do feat 1 do conjunto de
treino que não existem no teste e vice-versa, que não fazem
diferença no estudo final. Deste modo, pode-se concluir que todas
as feats são homogenias, ou seja, apresentam frequências de
valores muito próximos.
7
De seguida, criou-se um gráfico para a análise das coordenadas de cada dispositivo
com base na feat 6 e feat 7.
Neste gráfico pode-se conclui que a potência de cada dispositivo não é relevante,
pelo que não se consegue detetar que existe algum tipo de proporcionalidade, como
por exemplo, existem dispositivos com grande potência que apresentam um número
elevado como reduzido de intervenções. Portanto, pode-se concluir que, a potência
acaba por não ser um aspeto que interfere no número de intervenções.
8
Gráfico 8: Feat 8/Feat 3
Este gráfico, tal como os apresentados anteriormente, não revela qualquer tipo de
relação entre as feats, logo esta feat é descartada e não será utilizada para a
estimativa do número final.
9
Gráfico 10: Feat 8/ Feat 5
10
Após o estudo deste gráfico, foi possível aferir a existência de dois grupos, sendo
que um se encontra compreendidos entre os anos 1980 a 2000 e outro entre 2005 e
2020. Também se pode analisar que existem relações de proporcionalidade, ou seja,
à medida que o tempo aumenta o número de intervenções no dispositivo também
amplificam. Portanto, pode-se concluir que este gráfico/feat apresenta uma elevada
importância para este estudo.
Planilhas
Excel dados de Treino (Apresenta 4 planilhas: Treino – Sem F3, Se F3=1, SE F3=0 e o
Erro Quadrático)
11
Excel dados de Teste(Apresenta 1 planilha: Teste)
3.1 1º Fase
Na fase de data mining, foi criada uma expressão que permite calcular uma
estimativa para o f8 através do conhecimento da feat 9, feat 10 e feat 8. Deste modo,
como se sabe o valor de cada uma destas feats pode-se calcular no conjunto de teste
a estimativa para a f8 determinada pela expressão feat 8=f9*f10.
Portanto, no conjunto de treino (folha: “Treino – Sem f3”) foi calculada a média do
número de intervenções por dia (feat 10) para cada feat 1(cada dispositivo) (esta
média encontra-se no final da folha referida anteriormente) devido a que se fosse
calculado a feat 8 para cada feat 1 o erro seria maior por causa de serem utilizados
valores que se distanciam do grupo principal fazendo com que o erro aumentasse.
12
Gráfico 12: Media feat 10 por cada feat 1
Depois de feita esta média o conjunto de treino apresenta uma folha que possui os as
estimativas do f8 e os seus erros quadráticos, que é dado pela expressão (valor
estimado – valor real) ^2.
13
Gráfico 15: Soma do erro quadrático
3.2 2º Fase
Nesta fase, o processo foi feito de novo, mas agora tendo em conta o valor de f3, ou
seja, foi calculada a média do f10 de cada feat 1 quando o valor do seu f3 é 1 ou é 0
(esta média encontra-se no final das folhas: “Se F3=1” e “F3=0”).
A feat 3 foi usada para que o erro quadrático seja menor, pois se fosse calculado a
média global para cada f1, como explicado na 1º fase sem ter em conta o feat 3, os
dados não estariam tão filtrados.
14
Gráfico 18: Valores usados quando a média de f10 é #DIV/0
4. Estimar f8 do Teste
Por fim, como se pode verificar a soma dos erros quadráticos quando se tem em
conta a feat 3 (2º fase) é menor, portanto o valor do f10 que irá ser usado será
estimar a feat 8 (f8=f9*f10) do teste será a média do f10 quando f3 é igual a 0 e
igual a 1. Assim, a estimativa final do feat 8 é a seguinte:
15
16