Você está na página 1de 16

Instituto Politécnico da Maia – IPMAIA

Departamento de Ciências da Comunicação e Tecnologias da Informação

Data Mining

Tiago Filipe da Silva Rangel nºa037232

Curso: Licenciatura Tecnologias e Informação para a Web e Multimédia

Orientador institucional: Pedro Correia Cravo Pimenta

Maio, 2021
índice

1. Introdução 3

2. Transformação de dados 5

2.1. Homogeneidade 5

2.2. Elaboração de gráficos 8

2.3. Criação de atributos 11

3. Data Mining e Avaliações do Erro Quadrático 12

3.1. 1ª Fase 12

3.2. 2ª Fase 13

4. Estimar F8 do Teste 15

2
1. Introdução
No âmbito da unidade curricular de “Data Mining e Big Data” do 2º ano de
Licenciatura em Tecnologias de Informação, Web e Multimédia do Instituto
Politécnico da Maia, sob orientação do Professor Pedro Correia Cravo Pimenta no
ano letivo 2020/2021, foi proposto a execução de um projeto final, que tem como
finalidade analisar/explorar um determinado conjunto de dados de treino e de teste,
a partir de determinadas feats conhecidas. Nesse sentindo, o objetivo é prever com
base no conjunto de treino uma estimativa para a feat 8 do conjunto de teste
(supervized learning) que apresente o menor erro possível.

O significado das features é o seguinte:

Feat 1 – Representa o modelo de um determinado dispositivo;

Feat 2 – Representa a potência desse mesmo dispositivo;

Feat 3 – Representa uma algo que esse dispositivo pode ou não apresentar;

Feat 4 – Representa uma subcategoria do modelo do dispositivo;

Feat 5 – Representa a data em que o dispositivo entrou em funcionamento;

Feat 6 – Representa a latitude;

Feat 7 – Representa a longitude;

Feat 8 – Representa o número de intervenções;

O processo que utilizado para a elaboração do projeto foi o modelo de processo


KDD, na qual o docente realizou os três primeiros passos:

1. Identificar quais os objetivos definidos, isto é, determinar o que irá ser


realizado, bem como a decisão sobre as medidas de sucesso.

2. Criar um target data set, que consiste na extração de todos os dados


provenientes de data warehouse, base de dados tradicionais ou vários
ficheiros simples para uma planilha

3. Pré-processamento dos dados, ou seja, limpeza de dados, nomeadamente


dados ruidosos, a localização de registos duplicados e de valores de atributos e
suavização dos dados.

Este processo ainda apresenta mais quatro etapas, porém apenas três delas iram
ser abordados no decorrente documento, de modo a efetuar a explicação dos
3
processos que se realizaram durante o estudo. Desta forma, a fase em que se toma
a ação não será abordado pela razão de que o projeto não será aplicado no mundo
real.

Por conseguinte, foram utilizadas ferramentas como o excel e rapid minner para a
elaboração deste projeto.

4
2. Transformação dos dados

A primeira etapa elaborada neste projeto foi a transformação dos dados, que consiste
na quarta etapa do modelo KDD. Esta consistiu em analisar o conjunto de dados,
tanto de treino e como de teste, com vista a extrair o máximo de conhecimento sobre
as relações entre as feats e homogeneidade entre os dois conjuntos. A ferramenta
utilizada para esta parte do projeto foi o rapid minner na qual foram importados os
ficheiros fornecidos (treino e teste).

2.1. Homogeneidade

Primeiramente, analisou-se a homogeneidade entre os dois conjuntos de dados para


verificar se poderá aplicar o mesmo cálculo/análises para ambos.

Gráfico 1: Treino de Feat 1

Gráfico 2: Teste de Feat 1

5
Gráfico 3: Treino de Feat 2

Gráfico 4: Teste de Feat 2

6
Gráfico 5: Treino de Feat 3

Gráfico 6: Teste de Feat 3

Após análise destes gráficos para cada uma destas feats (teste e treino) verifica-se que
apenas existem alguns tipos de variáveis do feat 1 do conjunto de
treino que não existem no teste e vice-versa, que não fazem
diferença no estudo final. Deste modo, pode-se concluir que todas
as feats são homogenias, ou seja, apresentam frequências de
valores muito próximos.

2.2. Elaboração de gráficos

7
De seguida, criou-se um gráfico para a análise das coordenadas de cada dispositivo
com base na feat 6 e feat 7.

Como se pode analisar o gráfico ao lado apresentado mostra que os vários


dispositivos estão organizados por grupos (clusters), que se encontram todos no
mesmo país e que existe apenas um outliner (dado que se distancia de todos os
outros).

Seguidamente, começou-se a estudar a importância de cada feat para a estimativa da


feat 8, isto é, relacionou-se a feat 8 com as outras feats e foram adicionadas cores
para cada tipo de dispositivo (feat1):
Gráfico 6: f7/f8

 Gráfico 7: Feat 8/Feat 2

Neste gráfico pode-se conclui que a potência de cada dispositivo não é relevante,
pelo que não se consegue detetar que existe algum tipo de proporcionalidade, como
por exemplo, existem dispositivos com grande potência que apresentam um número
elevado como reduzido de intervenções. Portanto, pode-se concluir que, a potência
acaba por não ser um aspeto que interfere no número de intervenções.

8
 Gráfico 8: Feat 8/Feat 3

Quando relacionado o número de intervenções com a feat 3, verifica-se que a


variável feat 1 está distribuído homogeneamente entre dois grupos (0,1), na qual não
existe qualquer tipo de relação. Apenas se pode verificar que algumas das feat 1
apresentam somente um único valor de feat 3 ou 0 ou 1.

 Gráfico 9: Feat 8/ Feat 4

Este gráfico, tal como os apresentados anteriormente, não revela qualquer tipo de
relação entre as feats, logo esta feat é descartada e não será utilizada para a
estimativa do número final.

9
 Gráfico 10: Feat 8/ Feat 5

10
Após o estudo deste gráfico, foi possível aferir a existência de dois grupos, sendo
que um se encontra compreendidos entre os anos 1980 a 2000 e outro entre 2005 e
2020. Também se pode analisar que existem relações de proporcionalidade, ou seja,
à medida que o tempo aumenta o número de intervenções no dispositivo também
amplificam. Portanto, pode-se concluir que este gráfico/feat apresenta uma elevada
importância para este estudo.

2.3. Criação de atributos

Por fim, no conjunto de treino, a feat 5 permitiu que fossem criadas


mais duas variáveis independentes a feat 9, que representa o número
de dias em que o dispositivo está em funcionamento e a feat 10 que
constitui o número de intervenções médio por dia.

Nesse sentido, a feat 9 foi calculada através do cálculo da última data


em que se registou o funcionamento do dispositivo (01/01/2021)
menos a data de início de funcionamento do dispositivo. No que diz
respeito à feat 10, esta foi concebida através da divisão da feat 8 pelo
número de dias em que o dispositivo esteve em funcionamento (feat
9).
Gráfico 11

Planilhas

 Excel dados de Treino (Apresenta 4 planilhas: Treino – Sem F3, Se F3=1, SE F3=0 e o
Erro Quadrático)

11
 Excel dados de Teste(Apresenta 1 planilha: Teste)

3. Data Mining e Avaliações do Erro Quadrático

3.1 1º Fase

Na fase de data mining, foi criada uma expressão que permite calcular uma
estimativa para o f8 através do conhecimento da feat 9, feat 10 e feat 8. Deste modo,
como se sabe o valor de cada uma destas feats pode-se calcular no conjunto de teste
a estimativa para a f8 determinada pela expressão feat 8=f9*f10.

Portanto, no conjunto de treino (folha: “Treino – Sem f3”) foi calculada a média do
número de intervenções por dia (feat 10) para cada feat 1(cada dispositivo) (esta
média encontra-se no final da folha referida anteriormente) devido a que se fosse
calculado a feat 8 para cada feat 1 o erro seria maior por causa de serem utilizados
valores que se distanciam do grupo principal fazendo com que o erro aumentasse.

12
Gráfico 12: Media feat 10 por cada feat 1

Gráfico 13: f9*10 =


estimativa f8 do treino

Depois de feita esta média o conjunto de treino apresenta uma folha que possui os as
estimativas do f8 e os seus erros quadráticos, que é dado pela expressão (valor
estimado – valor real) ^2.

Gráfico 14: Erro quadrático

De sguida, somaram-se todos os erros e atingiu-se um valor de


6472.

13
Gráfico 15: Soma do erro quadrático

Por conseguinte, a fase referida anteriormente foi elaborada novamente para


diminuir o erro quadrático dado que depois de avaliar os resultados/erro verificou-se
uma potencial melhoria dado pelo f3.

3.2 2º Fase

Nesta fase, o processo foi feito de novo, mas agora tendo em conta o valor de f3, ou
seja, foi calculada a média do f10 de cada feat 1 quando o valor do seu f3 é 1 ou é 0
(esta média encontra-se no final das folhas: “Se F3=1” e “F3=0”).

A feat 3 foi usada para que o erro quadrático seja menor, pois se fosse calculado a
média global para cada f1, como explicado na 1º fase sem ter em conta o feat 3, os
dados não estariam tão filtrados.

Gráfico 16: Média f10 quando f3 = 1

Gráfico 17: Média f10 quando f3 = 0

Neste passo, alguns f1 não apresentavam f3 igual a 0 ou f3 igual a 1 e quando é


realizada a sua média aparece “#DIV/0!”, tal como se pode verificar no gráfico 17
para B3. Deste modo, para não usar o valor 0 nesta situação e aumentar o erro
quadrático foi utilizado outro método referido em baixo.

Portanto, quando realizado a estimativa do f8 do conjunto de dados de treino e


posteriormente do conjunto de dados de teste o valor que é usado quando isto
acontece é o valor correspondente à outra média, como por exemplo no gráfico a
baixo em que o N12 quando o f3 é igual a 0 não apresentava qualquer valor e o
valor que lhe será atribuído é o do f3 igual a 1, e vice-versa.

14
Gráfico 18: Valores usados quando a média de f10 é #DIV/0

Depois de feita esta média os valores da estimativa do f8, os erros quadráticos e


a soma desses mesmos erros são os seguintes.

4. Estimar f8 do Teste

Por fim, como se pode verificar a soma dos erros quadráticos quando se tem em
conta a feat 3 (2º fase) é menor, portanto o valor do f10 que irá ser usado será
estimar a feat 8 (f8=f9*f10) do teste será a média do f10 quando f3 é igual a 0 e
igual a 1. Assim, a estimativa final do feat 8 é a seguinte:

 Estimativa feat8 txt

15
16

Você também pode gostar