Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Filipe Silva
A034190
1
Índice
Relatório de Data Mining..................................................................................................1
1. Análise Inicial............................................................................................................4
1.1. Analise das Features Individuais........................................................................4
1.2. Correlações Observadas......................................................................................5
1.2.1. Mapa............................................................................................................5
1.2.2. Queda de Desuso.........................................................................................5
1.2.3. Correlação Potência - Intervenções.............................................................6
1.2.4. Correlação Feature 3 – Intervenções..........................................................6
1.3. Auto-Model Prediction.......................................................................................7
2. Processo de Descoberta............................................................................................10
2.1. Sugestões de aula..............................................................................................10
2.2. Filtragem em Excel...........................................................................................10
2.3. Conversão de Data para Dias............................................................................11
2.4. Divisão de Feature 8 pela Feature 9................................................................12
2.5. Média da Feature 10.........................................................................................13
2.6. Melhoramento e Correção de Erros..................................................................14
2.6.1. Diferença Entre Resultados...........................................................................15
2.6.2. Media de Erro por Grupo..............................................................................15
2.7. Potenciais Correções não Implementadas.........................................................16
2.8. Resultados.........................................................................................................16
2
Índice de Imagens
Figura 1. Mapa Analise Freguesias...................................................................................5
Figura 2. Desuso Gradual..................................................................................................5
Figura 3. Potencia – Intervenções.....................................................................................6
Figura 4. Feature 3 – Intervenções....................................................................................6
Figura 5. Importar Treino.csv............................................................................................7
Figura 6. Prediction...........................................................................................................7
Figura 7. Seleção de Atributos..........................................................................................8
Figura 8. Escolha de Modelo.............................................................................................8
Figura 9. Weights..............................................................................................................9
Figura 10. Filtragem........................................................................................................10
Figura 11. Cálculo de Dias..............................................................................................11
Figura 12. Cálculo de Feature 10....................................................................................12
Figura 13. Cálculo Feature 11.........................................................................................13
Figura 14. Estimativa Sem Correção...............................................................................14
Figura 15. Calculo de Feature 13....................................................................................15
Figura 16. Cálculo Feature 14.........................................................................................15
Figura 17. Estimativa Final Treino..................................................................................16
3
1.Análise Inicial
-Feature 3: Por minha assunção diria que este seja uma sonda de monitorização ou algo
que possa ou não existir, por coletiva recomendação do conjunto de turma chegou-se a
conclusão de que esta também levemente influencia a estimativa da Feature 8.
Figura 4. Feature 3 – Intervenções
4
1.2. Correlações Observadas
1.2.1. Mapa
Na figura abaixo será representada a correlação das Features 6 e 7 em função á
Feature 4, colorizado por essa mesma. De tal forma repara-se na existência de
categorização por freguesias, no entanto essas mesmas não influenciam um
determinado uso de modelo de equipamento.
5
1.2.3. Correlação Potência - Intervenções
Em relação á potência como demonstrado no gráfico abaixo, os equipamentos
dependendo do aumento da potência, existe um número menor de intervenções ao qual
pode-se tirar a conclusão que resumidamente a potencia influencia o número
intervenções.
6
1.3. Auto-Model Prediction
Depois das correlações observadas decidi explorar uma das ferramentas de
qualidade de vida do RapidMiner, o Auto-Model.
Comecei por importar Treino.csv:
Figura 6. Prediction
7
Passando o Prepare Target á frente passamos a página Select Inputs para
escolher os Inputs que pretendemos carregar para fazer a previsão. Foram retirados o
Feature 4 e 6, por recomendação do RapidMiner, por conta pessoal desativei também o
Feature 7 porque teria um impacto redundante, devido a ausência da Feature 6:
Para finalizar esta parte inicial de Setup, escolhe-se o modelo que se pretende.
Eu por mim escolhi Gradient Boosted Trees, pois em testes prévios teve menos erros:
8
Isto tudo serviu para que eu consiga relacionar futuramente as Weights de cada
Feature para melhorar métrica no cálculo da Feature 8, no entanto sendo Prediction
precisaria de 100 valores iniciais para que pudesse utilizar no conjunto de Teste.csv.
Figura 9. Weights
9
2. Processo de Descoberta
10
2.3. Conversão de Data para Dias
O primeiro passo para estimativa foi fazer como sugerido calcular o número de
dias desde a implementação inicial, Feature 5, para isso foi criada uma Column com
valor do dia atual e para o Feature 9 utilizou-se a fórmula: =DIAS(J2;F2) em que J2
refere-se a data do fim, Column Today, e F2 a data de inicio, Column Feature 5.
11
2.4. Divisão de Feature 8 pela Feature 9
Este processo serve de ponto essencial para obter a variável para estimativa, o
que é feito neste passo é a divisão de intervenções, Feature 8 pelo número de dias,
Feature 9 o que nos irá dar a o número de intervenções por dia, Feature 10. A fórmula
utilizada neste passo foi uma simples divisão: =I2/K2 em que I2 é referente a Column
intervenções, Feature 8, e a K2 referente a Column dias, Feature 9.
12
2.5. Média da Feature 10
No seguimento do anterior irá se calcular a variável média que vai ser o ponto
crucial da estimativa em Teste.csv, não será feita a média global neste passo, mas sim a
média por Feature 1, Modelo, isto para que se diminua os erros de estimativa. Para o
calculo e devido agrupamento por modelo, Feature 1, foi utilizada a fórmula:
SE(B2<>"“;MÉDIA.SE($B$2:$B$15277;B2;$L$2:$L$15277);"") em que os B2 são referentes a
Column modelo, Feature 1, e L2 referentes a Column das variáveis individuais, Feature 10.
13
2.6. Melhoramento e Correção de Erros
Após o cálculo da média de variáveis por grupo, Feature 11, analisei o resultado
calculando a futura estimativa, Feature 12, multiplicando a variável, Feature 11, pelo
número de dias, Feature 9: =M2*K2. Contudo reparei que várias dessas estimativas,
quando arredondadas, iram dar valores diferentes:
14
2.6.1. Diferença Entre Resultados
Numa tentativa de mitigar os erros e tentar corrigi-los, decidi calcular a margem
de erro entre intervenções, Feature 8, e a estimativa, Feature 12, obtendo o valor
individual de cada diferença, Feature 13: =I2-N2.
15
2.7. Potenciais Correções não Implementadas
Contudo reconheço a existência de potenciais correções de estimativa, no caso
que eu só consegui agrupar por modelo, devido a limitações de conhecimento, apesar
das tentativas com o =SE(E()), ao qual tentei agrupar por vários grupos. Reconheço
também a existência de pesos, através de RapidMiner, que mais tarde poder-se-ia, a
meu ver, utilizar percentagens para atribuir pesos a cada Feature influenciadora para ter
uma estimativa bastante precisa no resultado.
2.8. Resultados
Por fim, aplicando a fórmula: =ARRED((K2*M2)+P2;0), a qual arredonda o
resultado da multiplicação de o numero de dias, Feature 9, com a média por modelo,
Feature 11, as quais o resultado é lhe somado a média de erro por modelo, Feature 14,
finalizando a estimativa com correção na Column, de estimativa final, Feature Final.
16