Escolar Documentos
Profissional Documentos
Cultura Documentos
1º semestre
9/11/2021
Grupo 1
Diogo Marques - 104845
Leonor Pimentel - 104820
Melissa Mateus - 104887
Pedro Rebelo - 105166
Tomás Guia - 104588
Índice
1
Introdução……………………………………………………………………............3
Descrição do Conjunto de Dados……………………………………………..…...4
Descrição do Tratamento/Preparação e Exploração dos Dados (Data
Understanding and Data Cleaning)……………………………………….....…..5-7
Descrição da Construção do Modelo de Previsão
(Modeling).............................................................…………………………..…8-9
Conclusões………………………………………………………………………10-11
Webgrafia…………………………………………………………………………....12
Introdução
2
Este projeto tem como objetivo pôr em prática os conteúdos e matérias
lecionados na cadeira de Dados na Ciência, Gestão e Sociedade.
3
Na base de dados com as informações relativamente aos diamantes,
apresentamos as diferentes variáveis, que iremos posteriormente discutir.
● carat - o peso do diamante
● cut - qualidade do corte
● color - a cor do diamante
● clarity - claridade do diamante
● depth - a altura do diamante em relação ao diâmetro médio do diamante
● table - comprimento da superfície plana vista de cima do diamante
● price - o valor monetário em dólares americanos
● x - comprimento do diamante
● y - largura do diamante
● z - altura do diamante
4
Descrição do Tratamento/Preparação e Exploração
dos Dados (Data Understanding and Data Cleaning)
5
Começámos por recorrer à eliminação de outliers para tentar reduzir ao
máximo o ruído que os dados apresentavam (indicado pelas setas vermelhas,
Figura 4). Este despiste retirou-nos 2 amostras de dados que, apesar de
residuais, decidimos removê-los.
Após a limpeza dos dados procedemos a uma breve análise sobre o seu
impacto e a sua dispersão.
6
Analisando a Figura 5 podemos concluir que a variável “y” é a mais influente
na determinação do preço, a par da variável “carat”. Consequentemente, as
variáveis com menor índice “RReliefF” apresentam menor influência.
Cores correspondem a price points, sendo azul escuro o mais barato, verde o intermédio e amarelo o mais caro
Como é perceptível, quanto maior for o “carat”, mais caro se torna o diamante.
Esse aumento de preço pode também ser explicado pela escassez de
diamantes com um “carat” elevado. Esta é a característica em que há uma
maior variação dos preços. No entanto, existem características que não
influenciam tanto o preço de diamantes, tais como a “color”, “cut” ou “clarity”.
7
Descrição da Construção do Modelo de Previsão
(Modeling)
Para a construção do modelo de previsão recorremos a dois métodos distintos
sendo eles:
8
O que nos leva ao “Test and Score” (Figura 9) onde podemos testar e,
posteriormente, classificar a fiabilidade dos nossos modelos. Para isso
recorremos a um índice chamado “R2” que classifica a accuracy do modelo
numa escala de “0” até “1”, o menos e o mais fiável, respetivamente.
9
Conclusões
Figura 11 - Distribuição do preço original em função do “cut” Figura 12 - Distribuição do preço no modelo
“Random Forest” em função do “Cut”
10
Com base, não só no procedimento cauteloso que sempre foi levado em
conta, como também no tratamento rigoroso concluímos, tendo em conta o
desvio médio determinado previamente, que os resultados são todos
equiparados, o que torna quase impossível distinguir os gráficos a “olho nu”
sem recurso a uma legenda. Desta forma, atendendo à exploração, não só
dos dados que nos foram fornecidos, como também da própria ferramenta
Orange, conseguimos aprender e utilizar vários widgets novos que nos
auxiliaram na obtenção dos resultados e formalização das nossas conclusões.
No âmbito do trabalho foi crítico toda a matéria lecionada, visto que foi útil
compreender todo o processo de análise de dados, desde a sua limpeza, até
às relações e possíveis conclusões de serem retiradas dos dados
disponibilizados.
Por fim, é de realçar que o modelo de precisão poderia ter sido perfeito, se os
dados fornecidos não fossem falaciosos, ou seja, dois diamantes com
exatamente as mesmas características e, por sua vez as mesmas variáveis,
não correspondessem a preços diferentes. Com isto podemos concluir que a
nossa margem de erro foi consequência dos dados iniciais estarem
corrompidos.
11
Webgrafia
● Data set of diamonds that contains prices and other variables:
https://www.kaggle.com/shivam2503/diamonds [27 de maio de 2017];
12