Você está na página 1de 18

DATA MINING E BIG DATA

Estimativas com datasets

IPMAIA
Luis Forte A031796
Índice
Introdução....................................................................................................................................2
Identificação das Features............................................................................................................3
Analise Feature 1..........................................................................................................................4
Analise Feature 2..........................................................................................................................5
Analise Feature 3..........................................................................................................................6
Analise Feature 4..........................................................................................................................7
Analise Feature 5..........................................................................................................................8
Novas Features.............................................................................................................................9
Criação da Feature 10................................................................................................................11
Cálculo da Media de Intervenções por Modelo..........................................................................13
Conclusão...................................................................................................................................16
Anexos........................................................................................................................................17

1
Introdução

O presente relatório criado no âmbito da disciplina de Data Mining e Big Data foi
criado com o objetivo de explicar como é criado uma estimativa para o Feat8 de um
conjunto datasets
O dataset estudado regista um total de 30554 observações. Das observações referidas
15277 estão agrupadas no conjunto de Treino e 15277 agrupadas no conjunto de
Teste.
Deste dataset, foi utilizado o conjunto de Treino para o data mining dos dados e
encontrar padrões. Com os padrões descobertos foi possível fazer estimativas para o
feat8 e também a métrica de erro com os restantes feat.

As ferramentas usadas para a mineração destes dados foram o Excel e RapidMiner

2
Identificação das Features

Como primeiro passo, identifico o que cada feature significa, pois é necessário estudar
o impacto de cada uma na feat8 que é a feature a ser estimada

Na aula com o docente foi definido o que cada feature significa:

Feat 1 - é o modelo do equipamento


Feat 2 - é a potência do equipamento em kW
Feat 3 - é uma característica do equipamento que pode ter ou não, atributo binário
Feat 4 - é uma característica do equipamento
Feat 5 - é a data em que o equipamento foi instalado e entrou em funcionamento
Feat 6 - é a latitude em que o equipamento foi instalado
Feat 7 - é a longitude em que o equipamento foi instalado
Feat 8 - é o número de intervenções registadas no equipamento desde a data de
instalação.

Depois de descobrir o que cada feature significa concluí que os dados podem ser
apresentados num mapa de Portugal com o point map no rapidminer. Decidi colorir os
pontos com a feat4 pois é a única que temos tanta informação e como tinha muitos
valores repetidos poderia indicar uma zona de maior instalação dos dispositivos.
Depois de aplicar as features no rapidminer concluo que a maior concentração dos

3
pontos é na zona de Matosinhos/Maia e temos um ponto em Coimbra que classifico
como outlier.

Analise Feature 1

Depois de analisar o Point Map pretendo saber que features influenciam a feat8. Para
isso analiso todas as feat com a feat8.

Ao fazer a comparação entre o número de intervenções do equipamento (feat8) e o


modelo (feat4), é notável que existe uma relação óbvia entre eles.
Por exemplo, para o modelo N19 o intervalo de intervenções varia ente 5 e 10,
enquanto para o modelo N18 o intervalo de intervenções varia entre 6 e 11. Desta
forma podemos concluir que o modelo do dispositivo tem influência no número de
intervenções.

4
Analise Feature 2

Ao fazer a comparação entre o número de intervenções do equipamento (feat8) e a


potência do equipamento (feat2) concluo que a potencia não é um bom indicador para
calcular o número de intervenções, porque, apesar de haver relações entre os features
existem vários modelos diferentes com vários números de intervenções.

5
Analise Feature 3

Ao fazer a comparação entre o número de intervenções do equipamento (feat8) e a


característica do equipamento (feat3) é notável que existe uma relação entre a Feat 3
e a Feat 8 pois existem modelos do dispositivo que tem a Feat 3 a 0 e a 1, ou seja
posso usar a Feat 3 juntamente com a Feat 1 para analisar a Feat 8.
Como apenas existem 2 outputs, podemos usar mais tarde para filtrar resultados.

6
Analise Feature 4

Ao fazer a comparação entre o número de intervenções do equipamento (feat8) e a


característica do equipamento (feat4), existe uma relação entre eles, porém na criação
do Point Map foi descoberto que a feat4 é a zona ou a freguesia em que o
equipamento se encontra. Isto não tem influência na feat8

7
Analise Feature 5

Ao fazer a comparação entre o número de intervenções do equipamento (feat8) e a


data de instalação do equipamento (feat5), é notável a relação entre eles.
Podemos observar que existem 2 grupos. O primeiro grupo encontra-se entre 1990 a
2000 e o segundo grupo entre 2004 a 2020. Com o aumento de anos o número de
intervenções do equipamento aumenta também.

No modelo N20, o modelo que foi instalado mais cedo teve mais intervenções do que
o modelo que foi instalado mais recentemente. Com isto podemos concluir que a data
de instalação do equipamento tem influência no número de intervenções.

8
Novas Features

Criação da Feature 9

Depois da análise de todas as features concluo que a data de instalação do


equipamento influencia o número de intervenções do mesmo. Por isso foi criada uma
Feature 9 que calcula o número de dias desde ativo desde o 1º dia de funcionamento
do dispositivo.

Numa das aulas com o docente foi introduzido como default para o cálculo a data
1/01/2021. Para obter o resultado da feat9, é subtraído á data 01/01/2021, a data de
entrada em funcionamento.

9
Depois de obter os cálculos da feat9 utilizei o rapidminer para analisar os dados e criar
o gráfico para representar o número de intervenções (feat8) em função dos dias em
funcionamento (feat9), com as cores dos pontos a representar os modelos (feat1)

Como podemos observar existem dois grupos que já tinham sido observados
previamente, porém graças a feat9 neste gráfico a informação está mais precisa.

10
Criação da Feature 10

Depois de estudar a relação entre as feat8 com a feat9 e sabendo que uma se tratava
do número de dias desde a entrada em funcionamento e outra significava o número de
intervenções, ao dividir a Feat 8 pela Feat 9, obtemos o número de intervenções por
dia de funcionamento, ou seja, uma nova Feature que chamo de Feature 10

11
A aplicar os dados no rapidminer é notável a relação entre as features, e que existem 3
grupos de pontos que se dispersam e posicionam nas mesmas zonas.

12
Cálculo da Media de Intervenções por Modelo

Depois de descobrir o significado de todas as features e criar outras importantes para


descobrir as relações entre os dados, o próximo passo é calcular a media da Feature 10
para cada modelo da Feature 1. Para esse cálculo utilizei a fórmula seguinte:

=SE(E($B2=M$1; $D2=1);$L2)
Com esta formula, se a coluna da Feat1 apresentasse o nome igual ao modelo na
coluna com os modelos replicados removidos, o valor da Feat10 era apresentado, se
não haver valor a célula fica com o valor “FALSO”.

Depois os cálculos, para calcular as médias do Feat10, utilizei a seguinte fórmula:

Com esta fórmula cada coluna que representava


o modelo, o valor apresentado entrava para a média, SE, o valor fosse diferente de
“FALSO”
Assim cheguei a média da Feat10 para cada um dos 48 modelos

13
Com os resultados obtidos pelas fórmulas é possível estimar o Feat8 do conjunto de
teste multiplicando a Feat 9 pela média da Feat 10 de cada modelo.
Porém o conjunto de teste tem modelos que não existem no conjunto de treino, por
exemplo os modelos (E12 e B) são inexistentes no conjunto de treino onde apliquei a
fórmula para a estimativa.
Tentei descobrir uma forma de melhorar a estimativa com o objetivo a diminuir o erro.
Para isso não podia usar a Feat10 para cada modelo.
Como a Feat3 é um atributo binário, também podia ser usado. Então, dividi o cálculo
da média da Feat10 em duas partes, uma em que o Feat3 é = 0 e outra em que o Feat3
é = 1.
Calculei a média do Feat10 dos modelos, quando o Feat 3 é 0 e quando o Feat 3 é 1,
com a mesma fórmula da média para cada modelo, mas desta vez com o um IF a
verificar se o valor da Feat3 era 0 ou 1.

14
Com as médias calculadas necessitava de uma fórmula que fosse buscar o valor a cada
tabela e organizasse para cada modelo os valores corretos. Para isso usei a fórmula
PROCV.

=SE(D2=1; PROCV(B2;$O$2:$P$51; 2; FALSO); PROCV(B2;$R$2:$S$51; 2; FALSO))

Se a Feat3 for 1, o PROCV vai buscar a uma tabela, se não for 1 vai buscar os valores da
outra tabela quando a Feat3 é 0.
Esta fórmula permitiu ter todos os valores distribuídos numa única tabela para os
poder multiplicar pela Feat9, ate chegar a estimativa
final.

15
Conclusão

Com este trabalho percebi a importância que analise de dados tem no dia a dia principalmente
no meio empresarial, para aprender sobre os clientes e maximizar as suas estratégias para
crescer, prever tendências e outros tipos de dados, especialmente na sociedade de hoje em
dia em que os nossos dados pessoais valem o preço de ouro

16
Anexos

Teste.xlsx Teste.xlsx Estimativas.txt

17

Você também pode gostar