Escolar Documentos
Profissional Documentos
Cultura Documentos
IPMAIA
Luis Forte A031796
Índice
Introdução....................................................................................................................................2
Identificação das Features............................................................................................................3
Analise Feature 1..........................................................................................................................4
Analise Feature 2..........................................................................................................................5
Analise Feature 3..........................................................................................................................6
Analise Feature 4..........................................................................................................................7
Analise Feature 5..........................................................................................................................8
Novas Features.............................................................................................................................9
Criação da Feature 10................................................................................................................11
Cálculo da Media de Intervenções por Modelo..........................................................................13
Conclusão...................................................................................................................................16
Anexos........................................................................................................................................17
1
Introdução
O presente relatório criado no âmbito da disciplina de Data Mining e Big Data foi
criado com o objetivo de explicar como é criado uma estimativa para o Feat8 de um
conjunto datasets
O dataset estudado regista um total de 30554 observações. Das observações referidas
15277 estão agrupadas no conjunto de Treino e 15277 agrupadas no conjunto de
Teste.
Deste dataset, foi utilizado o conjunto de Treino para o data mining dos dados e
encontrar padrões. Com os padrões descobertos foi possível fazer estimativas para o
feat8 e também a métrica de erro com os restantes feat.
2
Identificação das Features
Como primeiro passo, identifico o que cada feature significa, pois é necessário estudar
o impacto de cada uma na feat8 que é a feature a ser estimada
Depois de descobrir o que cada feature significa concluí que os dados podem ser
apresentados num mapa de Portugal com o point map no rapidminer. Decidi colorir os
pontos com a feat4 pois é a única que temos tanta informação e como tinha muitos
valores repetidos poderia indicar uma zona de maior instalação dos dispositivos.
Depois de aplicar as features no rapidminer concluo que a maior concentração dos
3
pontos é na zona de Matosinhos/Maia e temos um ponto em Coimbra que classifico
como outlier.
Analise Feature 1
Depois de analisar o Point Map pretendo saber que features influenciam a feat8. Para
isso analiso todas as feat com a feat8.
4
Analise Feature 2
5
Analise Feature 3
6
Analise Feature 4
7
Analise Feature 5
No modelo N20, o modelo que foi instalado mais cedo teve mais intervenções do que
o modelo que foi instalado mais recentemente. Com isto podemos concluir que a data
de instalação do equipamento tem influência no número de intervenções.
8
Novas Features
Criação da Feature 9
Numa das aulas com o docente foi introduzido como default para o cálculo a data
1/01/2021. Para obter o resultado da feat9, é subtraído á data 01/01/2021, a data de
entrada em funcionamento.
9
Depois de obter os cálculos da feat9 utilizei o rapidminer para analisar os dados e criar
o gráfico para representar o número de intervenções (feat8) em função dos dias em
funcionamento (feat9), com as cores dos pontos a representar os modelos (feat1)
Como podemos observar existem dois grupos que já tinham sido observados
previamente, porém graças a feat9 neste gráfico a informação está mais precisa.
10
Criação da Feature 10
Depois de estudar a relação entre as feat8 com a feat9 e sabendo que uma se tratava
do número de dias desde a entrada em funcionamento e outra significava o número de
intervenções, ao dividir a Feat 8 pela Feat 9, obtemos o número de intervenções por
dia de funcionamento, ou seja, uma nova Feature que chamo de Feature 10
11
A aplicar os dados no rapidminer é notável a relação entre as features, e que existem 3
grupos de pontos que se dispersam e posicionam nas mesmas zonas.
12
Cálculo da Media de Intervenções por Modelo
=SE(E($B2=M$1; $D2=1);$L2)
Com esta formula, se a coluna da Feat1 apresentasse o nome igual ao modelo na
coluna com os modelos replicados removidos, o valor da Feat10 era apresentado, se
não haver valor a célula fica com o valor “FALSO”.
13
Com os resultados obtidos pelas fórmulas é possível estimar o Feat8 do conjunto de
teste multiplicando a Feat 9 pela média da Feat 10 de cada modelo.
Porém o conjunto de teste tem modelos que não existem no conjunto de treino, por
exemplo os modelos (E12 e B) são inexistentes no conjunto de treino onde apliquei a
fórmula para a estimativa.
Tentei descobrir uma forma de melhorar a estimativa com o objetivo a diminuir o erro.
Para isso não podia usar a Feat10 para cada modelo.
Como a Feat3 é um atributo binário, também podia ser usado. Então, dividi o cálculo
da média da Feat10 em duas partes, uma em que o Feat3 é = 0 e outra em que o Feat3
é = 1.
Calculei a média do Feat10 dos modelos, quando o Feat 3 é 0 e quando o Feat 3 é 1,
com a mesma fórmula da média para cada modelo, mas desta vez com o um IF a
verificar se o valor da Feat3 era 0 ou 1.
14
Com as médias calculadas necessitava de uma fórmula que fosse buscar o valor a cada
tabela e organizasse para cada modelo os valores corretos. Para isso usei a fórmula
PROCV.
Se a Feat3 for 1, o PROCV vai buscar a uma tabela, se não for 1 vai buscar os valores da
outra tabela quando a Feat3 é 0.
Esta fórmula permitiu ter todos os valores distribuídos numa única tabela para os
poder multiplicar pela Feat9, ate chegar a estimativa
final.
15
Conclusão
Com este trabalho percebi a importância que analise de dados tem no dia a dia principalmente
no meio empresarial, para aprender sobre os clientes e maximizar as suas estratégias para
crescer, prever tendências e outros tipos de dados, especialmente na sociedade de hoje em
dia em que os nossos dados pessoais valem o preço de ouro
16
Anexos
17