Você está na página 1de 16

Relatório de Data Mining

Filipe Silva
A034190

1
Índice
Relatório de Data Mining..................................................................................................1
1. Análise Inicial............................................................................................................4
1.1. Analise das Features Individuais........................................................................4
1.2. Correlações Observadas......................................................................................5
1.2.1. Mapa............................................................................................................5
1.2.2. Queda de Desuso.........................................................................................5
1.2.3. Correlação Potência - Intervenções.............................................................6
1.2.4. Correlação Feature 3 – Intervenções..........................................................6
1.3. Auto-Model Prediction.......................................................................................7
2. Processo de Descoberta............................................................................................10
2.1. Sugestões de aula..............................................................................................10
2.2. Filtragem em Excel...........................................................................................10
2.3. Conversão de Data para Dias............................................................................11
2.4. Divisão de Feature 8 pela Feature 9................................................................12
2.5. Média da Feature 10.........................................................................................13
2.6. Melhoramento e Correção de Erros..................................................................14
2.6.1. Diferença Entre Resultados...........................................................................15
2.6.2. Media de Erro por Grupo..............................................................................15
2.7. Potenciais Correções não Implementadas.........................................................16
2.8. Resultados.........................................................................................................16

2
Índice de Imagens
Figura 1. Mapa Analise Freguesias...................................................................................5
Figura 2. Desuso Gradual..................................................................................................5
Figura 3. Potencia – Intervenções.....................................................................................6
Figura 4. Feature 3 – Intervenções....................................................................................6
Figura 5. Importar Treino.csv............................................................................................7
Figura 6. Prediction...........................................................................................................7
Figura 7. Seleção de Atributos..........................................................................................8
Figura 8. Escolha de Modelo.............................................................................................8
Figura 9. Weights..............................................................................................................9
Figura 10. Filtragem........................................................................................................10
Figura 11. Cálculo de Dias..............................................................................................11
Figura 12. Cálculo de Feature 10....................................................................................12
Figura 13. Cálculo Feature 11.........................................................................................13
Figura 14. Estimativa Sem Correção...............................................................................14
Figura 15. Calculo de Feature 13....................................................................................15
Figura 16. Cálculo Feature 14.........................................................................................15
Figura 17. Estimativa Final Treino..................................................................................16

3
1.Análise Inicial

1.1. Analise das Features Individuais


Inicialmente comecei pela análise das Features individuais, percebendo o que
elas são, de que forma poderiam potencialmente influenciar as estimativas e se as
consideraria redundantes ou não.
-Feature 1: Após analise de Feature 1, que é o modelo, esta apresenta resultados
influenciadores no número de reparações tais como certos modelos caírem em desuso a
partir de uma certa data. Figura 2. Desuso Gradual

-Feature 2: A Potência, Feature 2, influencia levemente o número de reparações tal


como observado mais tarde no Scatter Chart. Figura 3. Potencia – Intervenções

-Feature 3: Por minha assunção diria que este seja uma sonda de monitorização ou algo
que possa ou não existir, por coletiva recomendação do conjunto de turma chegou-se a
conclusão de que esta também levemente influencia a estimativa da Feature 8.
Figura 4. Feature 3 – Intervenções

-Feature 4: Por descoberta a partir da relação de Feature 6 e 7 em função da Feature 4,


conclui-se visualmente que esta é a categorização de freguesias baseadas em pontos
geográficos. Figura 1. Mapa Analise Freguesias

-Feature 5: Por clara denotação esta Feature trata-se da data de implementação do


equipamento em questão e por várias fontes denota-se que é o ponto mais importante da
estimativa.

-Feature 6: Latitude, importante para descoberta de Feature 4.

-Feature 7: Longitude, importante para descoberta de Feature 4.

-Feature 8: Número de intervenções, para reparações ou manutenção em geral, é a


Feature ao qual será crucial para o Treino do processo para a conclusão deste projeto.

Concluindo a análise inicial, depara-se também com a inexistência de certos


modelos ao qual foram substituídos por Nop, Desc ou valores Vazios, estes mais tarde
serão filtrados e em relação a Feature 8 desses mesmos erros será atribuído os valores
de 0.

4
1.2. Correlações Observadas

1.2.1. Mapa
Na figura abaixo será representada a correlação das Features 6 e 7 em função á
Feature 4, colorizado por essa mesma. De tal forma repara-se na existência de
categorização por freguesias, no entanto essas mesmas não influenciam um
determinado uso de modelo de equipamento.

Figura 1. Mapa Analise Freguesias

1.2.2. Queda de Desuso


Ao longo do tempo é aparente que certos equipamentos caíram desuso a partir de
uma certa data tal como por exemplo, o N20 que terminou em 2000 nesta próxima
analise deparamo-nos com 2 Grupos de equipamentos dos quais, o segundo é mais
diversificado.

Figura 2. Desuso Gradual

5
1.2.3. Correlação Potência - Intervenções
Em relação á potência como demonstrado no gráfico abaixo, os equipamentos
dependendo do aumento da potência, existe um número menor de intervenções ao qual
pode-se tirar a conclusão que resumidamente a potencia influencia o número
intervenções.

Figura 3. Potencia – Intervenções

1.2.4. Correlação Feature 3 – Intervenções


Por fim a correlação entre Feature 3 e Feature 8 demonstra uma pequena
diferença pela qual se deduz, que os equipamentos sem Feature 3 apresentam um leve
aumento de intervenções.

Figura 4. Feature 3 – Intervenções

6
1.3. Auto-Model Prediction
Depois das correlações observadas decidi explorar uma das ferramentas de
qualidade de vida do RapidMiner, o Auto-Model.
Comecei por importar Treino.csv:

Figura 5. Importar Treino.csv

Após a importação do Dataset, escolhi a opção Prediction e a Feature qual


queria prever:

Figura 6. Prediction

7
Passando o Prepare Target á frente passamos a página Select Inputs para
escolher os Inputs que pretendemos carregar para fazer a previsão. Foram retirados o
Feature 4 e 6, por recomendação do RapidMiner, por conta pessoal desativei também o
Feature 7 porque teria um impacto redundante, devido a ausência da Feature 6:

Figura 7. Seleção de Atributos

Para finalizar esta parte inicial de Setup, escolhe-se o modelo que se pretende.
Eu por mim escolhi Gradient Boosted Trees, pois em testes prévios teve menos erros:

Figura 8. Escolha de Modelo

8
Isto tudo serviu para que eu consiga relacionar futuramente as Weights de cada
Feature para melhorar métrica no cálculo da Feature 8, no entanto sendo Prediction
precisaria de 100 valores iniciais para que pudesse utilizar no conjunto de Teste.csv.

Figura 9. Weights

9
2. Processo de Descoberta

2.1. Sugestões de aula


Em aula e pós-aula foi discutido com outros colegas os pesos de cada Feature e
como poderíamos melhorar a métrica, foi desde início sugerido a passagem de Feature
5 para Feature 9 ou seja de Data para Número de dias.
Também foi mais tarde insinuado as contas matemáticas despertando a ideia de
médias como variáveis que poderiam ser usadas para estimar futuramente o Feature 8.
Por fim foi também sugerido em aula o agrupamento dessas médias por
Features que diminuísse o intervalo de médias dando valores mais exatos para a
estimativa, e correção de métrica.

2.2. Filtragem em Excel


Inicialmente, após todas as análises anteriores, foi feita filtragem por ordem
crescente das Features 1 e 5, removendo também os Outliers com valores Nop, Desc e
Vazio da Feature 1 e os Outliers da Feature 2 com valores Vazios.

Figura 10. Filtragem

10
2.3. Conversão de Data para Dias
O primeiro passo para estimativa foi fazer como sugerido calcular o número de
dias desde a implementação inicial, Feature 5, para isso foi criada uma Column com
valor do dia atual e para o Feature 9 utilizou-se a fórmula: =DIAS(J2;F2) em que J2
refere-se a data do fim, Column Today, e F2 a data de inicio, Column Feature 5.

Figura 11. Cálculo de Dias

11
2.4. Divisão de Feature 8 pela Feature 9
Este processo serve de ponto essencial para obter a variável para estimativa, o
que é feito neste passo é a divisão de intervenções, Feature 8 pelo número de dias,
Feature 9 o que nos irá dar a o número de intervenções por dia, Feature 10. A fórmula
utilizada neste passo foi uma simples divisão: =I2/K2 em que I2 é referente a Column
intervenções, Feature 8, e a K2 referente a Column dias, Feature 9.

Figura 12. Cálculo de Feature 10

12
2.5. Média da Feature 10
No seguimento do anterior irá se calcular a variável média que vai ser o ponto
crucial da estimativa em Teste.csv, não será feita a média global neste passo, mas sim a
média por Feature 1, Modelo, isto para que se diminua os erros de estimativa. Para o
calculo e devido agrupamento por modelo, Feature 1, foi utilizada a fórmula:
SE(B2<>"“;MÉDIA.SE($B$2:$B$15277;B2;$L$2:$L$15277);"") em que os B2 são referentes a
Column modelo, Feature 1, e L2 referentes a Column das variáveis individuais, Feature 10.

Figura 13. Cálculo Feature 11

13
2.6. Melhoramento e Correção de Erros
Após o cálculo da média de variáveis por grupo, Feature 11, analisei o resultado
calculando a futura estimativa, Feature 12, multiplicando a variável, Feature 11, pelo
número de dias, Feature 9: =M2*K2. Contudo reparei que várias dessas estimativas,
quando arredondadas, iram dar valores diferentes:

Figura 14. Estimativa Sem Correção

14
2.6.1. Diferença Entre Resultados
Numa tentativa de mitigar os erros e tentar corrigi-los, decidi calcular a margem
de erro entre intervenções, Feature 8, e a estimativa, Feature 12, obtendo o valor
individual de cada diferença, Feature 13: =I2-N2.

Figura 15. Cálculo de Feature 13

2.6.2. Media de Erro por Grupo


Para finalizar esta correção de erro tive que fazer a média de margem de erro por
grupo, Feature 14 pois o erro certamente não seria global com tantos valores em
questão. A fórmula foi semelhante ao calcular a média por grupo, Feature 10, sendo a
fórmula utilizada é a seguinte:
=SE(B2<>"";MÉDIA.SE($B$2:$B$15277;B2;$O$2:$O$15277);""), onde como
anteriormente dito, o B2 refere-se a Column modelo, Feature 1, e O2 refere-se desta
vez a Column das margens de erros individuais, Feature 13.

Figura 16. Cálculo Feature 14

15
2.7. Potenciais Correções não Implementadas
Contudo reconheço a existência de potenciais correções de estimativa, no caso
que eu só consegui agrupar por modelo, devido a limitações de conhecimento, apesar
das tentativas com o =SE(E()), ao qual tentei agrupar por vários grupos. Reconheço
também a existência de pesos, através de RapidMiner, que mais tarde poder-se-ia, a
meu ver, utilizar percentagens para atribuir pesos a cada Feature influenciadora para ter
uma estimativa bastante precisa no resultado.

2.8. Resultados
Por fim, aplicando a fórmula: =ARRED((K2*M2)+P2;0), a qual arredonda o
resultado da multiplicação de o numero de dias, Feature 9, com a média por modelo,
Feature 11, as quais o resultado é lhe somado a média de erro por modelo, Feature 14,
finalizando a estimativa com correção na Column, de estimativa final, Feature Final.

Figura 17. Estimativa Final Treino

Segue em anexo as minhas estimativas para Feature 8 do Teste.csv: Estimativa.txt

16

Você também pode gostar