Proje To

2021/2022
1º semestre
9/11/2021
Dados na Ciência, Gestão e Sociedade
Diamantes: Análise de Dados
Grupo 1
Diogo Marques - 104845
Leonor Pimentel - 104820
Melissa Mateus - 104887
Pedro Rebelo - 105166
Tomás Guia - 104588
Índice
1
Introdução……………………………………………………………………............3
Descrição do Conjunto de Dados……………………………………………..…...4
Descrição do Tratamento/Preparação e Exploração dos Dados (Data
Understanding and Data Cleaning)……………………………………….....…..5-7
Descrição da Construção do Modelo de Previsão
(Modeling).............................................................…………………………..…8-9
Conclusões………………………………………………………………………10-11
Webgrafia…………………………………………………………………………....12
Introdução
2
Este projeto tem como objetivo pôr em prática os conteúdos e matérias
lecionados na cadeira de Dados na Ciência, Gestão e Sociedade.
O dataset que nos foi atribuído é relativo à recolha de diamantes e às suas

diversas características. Em termos minerais, estes são formados por carbono
puro cristalizado, são extremamente brilhantes e consistentes. Além disso, a
sua dureza corresponde ao valor máximo na escala de Mohs (escala que
quantifica a dureza dos minerais), podendo mesmo riscar qualquer outro
mineral, mas que, por sua vez, só pode ser riscado por outro diamante. Por
outro lado, relativamente a nível de joalharia é considerado a pedra mais
preciosa e desejada.
Desta forma, iremos basear o nosso trabalho na metodologia do CRISP-DM

que pode ser aplicada a qualquer negócio. Esta consiste em 6 etapas, a
primeira é o business understanding, na qual o objetivo é identificar o
problema a ser resolvido. Portanto, tendo em conta, que não nos foi fornecido
nenhum problema específico, decidimos através destes dados tentar prever o
valor monetário de um diamante em função das suas inúmeras
características. Em relação às restantes 5 etapas, estas irão ser
desenvolvidas mais tarde, ao longo do trabalho.
Figura 1 - Metodologia CRISP-DM
Descrição do Conjunto de Dados
3
Na base de dados com as informações relativamente aos diamantes,
apresentamos as diferentes variáveis, que iremos posteriormente discutir.
● carat - o peso do diamante
● cut - qualidade do corte
● color - a cor do diamante
● clarity - claridade do diamante
● depth - a altura do diamante em relação ao diâmetro médio do diamante
● table - comprimento da superfície plana vista de cima do diamante
● price - o valor monetário em dólares americanos
● x - comprimento do diamante
● y - largura do diamante
● z - altura do diamante
Figura 2 - Widget “File” Orange
Como podemos observar na figura 2, para cada atributo, temos o tipo

(“Type”), papel (“Role”) e valores (“Values”) correspondentes.
No atributo “Type” temos 3 hipóteses distintas: “text”, “numeric” e
“categorical”.
No atributo “Role” temos “meta”, “feature” e “target”.
No atributo “Values”, os dados são distintos para cada atributo.
4
Descrição do Tratamento/Preparação e Exploração
dos Dados (Data Understanding and Data Cleaning)
Após a atribuição do dataset, recorremos ao software Orange, uma

ferramenta open-source que utiliza uma perspetiva visual para exploração e
previsão de informação. Visando fazer uma análise mais aprofundada, foram
utilizadas técnicas de tratamento de dados para auxiliar a observação de
relações entre os dados disponibilizados.
Com ajuda do widget “Scatter Plot” e do recurso “Find Informative Projections”

podemos identificar o par com melhor “Score Plot”, ou seja, o par que mais
contribui para encontrar o nosso “target” (Figura 3), que neste caso seria o
preço do diamante em questão.
Figura 3 - Recurso “Find Informative Projections” Orange
5
Começámos por recorrer à eliminação de outliers para tentar reduzir ao
máximo o ruído que os dados apresentavam (indicado pelas setas vermelhas,
Figura 4). Este despiste retirou-nos 2 amostras de dados que, apesar de
residuais, decidimos removê-los.
Figura 4 - Eliminação de ruído entre os dados
Após a limpeza dos dados procedemos a uma breve análise sobre o seu
impacto e a sua dispersão.
Com recurso ao widget “Rank” podemos compreender o impacto de cada

variável na previsão do preço.
Figura 5 - Widget “Rank” Orange
6
Analisando a Figura 5 podemos concluir que a variável “y” é a mais influente
na determinação do preço, a par da variável “carat”. Consequentemente, as
variáveis com menor índice “RReliefF” apresentam menor influência.
No seguinte gráfico, podemos observar a distribuição dos preços pelas

características dos diamantes.
Figura 6 - Widget “Future Statistics” Orange
Cores correspondem a price points, sendo azul escuro o mais barato, verde o intermédio e amarelo o mais caro
Como é perceptível, quanto maior for o “carat”, mais caro se torna o diamante.
Esse aumento de preço pode também ser explicado pela escassez de
diamantes com um “carat” elevado. Esta é a característica em que há uma
maior variação dos preços. No entanto, existem características que não
influenciam tanto o preço de diamantes, tais como a “color”, “cut” ou “clarity”.
7
Descrição da Construção do Modelo de Previsão
(Modeling)
Para a construção do modelo de previsão recorremos a dois métodos distintos
sendo eles:
● “Tree” - uma estrutura de dados não linear que é utilizada para a

procura e organização de dados com a finalidade de obter um “target”.
Figura 7 - “Tree” Orange
● “Random Forest” - um algoritmo que estabelece o seu outcome

baseado na média das previsões de múltiplas “Tree”.
Figura 8 - “Random Forest” Orange
8
O que nos leva ao “Test and Score” (Figura 9) onde podemos testar e,
posteriormente, classificar a fiabilidade dos nossos modelos. Para isso
recorremos a um índice chamado “R2” que classifica a accuracy do modelo
numa escala de “0” até “1”, o menos e o mais fiável, respetivamente.
Figura 9 - “Test and Score” Orange
Figura 10 - Modelo do “Test and Score” no Orange
Depois de determinadas as previsões dos vários diamantes pelos diferentes

modelos, exportamos os dados para uma tabela onde podemos analisar e
tirar conclusões.
9
Conclusões
Tendo em conta tudo o que falámos e apresentámos, podemos referir que

criámos um bom modelo de previsão, com um desvio percentual médio de +/-
0.08% utilizando o modelo de previsão “Tree” e +/- 0.135 % utilizando o
modelo de previsão “Random Forest”. Podemos também comparar de forma
visual as nossas previsões com os preços praticados utilizando, por exemplo,
o widget “Violin Plot”. Nos seguintes gráficos podemos observar a distribuição
dos preços em função do corte.
Figura 11 - Distribuição do preço original em função do “cut” Figura 12 - Distribuição do preço no modelo
“Random Forest” em função do “Cut”
Figura 13 - Distribuição do preço no modelo “Tree” em função do “Cut”
10
Com base, não só no procedimento cauteloso que sempre foi levado em
conta, como também no tratamento rigoroso concluímos, tendo em conta o
desvio médio determinado previamente, que os resultados são todos
equiparados, o que torna quase impossível distinguir os gráficos a “olho nu”
sem recurso a uma legenda. Desta forma, atendendo à exploração, não só
dos dados que nos foram fornecidos, como também da própria ferramenta
Orange, conseguimos aprender e utilizar vários widgets novos que nos
auxiliaram na obtenção dos resultados e formalização das nossas conclusões.
No âmbito do trabalho foi crítico toda a matéria lecionada, visto que foi útil
compreender todo o processo de análise de dados, desde a sua limpeza, até
às relações e possíveis conclusões de serem retiradas dos dados
disponibilizados.
Por fim, é de realçar que o modelo de precisão poderia ter sido perfeito, se os
dados fornecidos não fossem falaciosos, ou seja, dois diamantes com
exatamente as mesmas características e, por sua vez as mesmas variáveis,
não correspondessem a preços diferentes. Com isto podemos concluir que a
nossa margem de erro foi consequência dos dados iniciais estarem
corrompidos.
11
Webgrafia
● Data set of diamonds that contains prices and other variables:
https://www.kaggle.com/shivam2503/diamonds [27 de maio de 2017];
12

Proje To

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Proje To

Enviado por

Direitos autorais:

Formatos disponíveis

2021/2022

Dados na Ciência, Gestão e Sociedade

Diamantes: Análise de Dados

O dataset que nos foi atribuído é relativo à recolha de diamantes e às suas

Desta forma, iremos basear o nosso trabalho na metodologia do CRISP-DM

Figura 1 - Metodologia CRISP-DM

Descrição do Conjunto de Dados

Figura 2 - Widget “File” Orange

Como podemos observar na figura 2, para cada atributo, temos o tipo

Após a atribuição do dataset, recorremos ao software Orange, uma

Com ajuda do widget “Scatter Plot” e do recurso “Find Informative Projections”

Figura 3 - Recurso “Find Informative Projections” Orange

Figura 4 - Eliminação de ruído entre os dados

Com recurso ao widget “Rank” podemos compreender o impacto de cada

Figura 5 - Widget “Rank” Orange

No seguinte gráfico, podemos observar a distribuição dos preços pelas

Figura 6 - Widget “Future Statistics” Orange

● “Tree” - uma estrutura de dados não linear que é utilizada para a

Figura 7 - “Tree” Orange

● “Random Forest” - um algoritmo que estabelece o seu outcome

Figura 8 - “Random Forest” Orange

Figura 9 - “Test and Score” Orange

Figura 10 - Modelo do “Test and Score” no Orange

Depois de determinadas as previsões dos vários diamantes pelos diferentes

Tendo em conta tudo o que falámos e apresentámos, podemos referir que

Figura 13 - Distribuição do preço no modelo “Tree” em função do “Cut”

Você também pode gostar