Você está na página 1de 12

2021/2022

1º semestre
9/11/2021

Dados na Ciência, Gestão e Sociedade

Diamantes: Análise de Dados

Grupo 1
Diogo Marques - 104845
Leonor Pimentel - 104820
Melissa Mateus - 104887
Pedro Rebelo - 105166
Tomás Guia - 104588
Índice

1
Introdução……………………………………………………………………............3
Descrição do Conjunto de Dados……………………………………………..…...4
Descrição do Tratamento/Preparação e Exploração dos Dados (Data
Understanding and Data Cleaning)……………………………………….....…..5-7
Descrição da Construção do Modelo de Previsão
(Modeling).............................................................…………………………..…8-9
Conclusões………………………………………………………………………10-11
Webgrafia…………………………………………………………………………....12

Introdução

2
Este projeto tem como objetivo pôr em prática os conteúdos e matérias
lecionados na cadeira de Dados na Ciência, Gestão e Sociedade.

O dataset que nos foi atribuído é relativo à recolha de diamantes e às suas


diversas características. Em termos minerais, estes são formados por carbono
puro cristalizado, são extremamente brilhantes e consistentes. Além disso, a
sua dureza corresponde ao valor máximo na escala de Mohs (escala que
quantifica a dureza dos minerais), podendo mesmo riscar qualquer outro
mineral, mas que, por sua vez, só pode ser riscado por outro diamante. Por
outro lado, relativamente a nível de joalharia é considerado a pedra mais
preciosa e desejada.

Desta forma, iremos basear o nosso trabalho na metodologia do CRISP-DM


que pode ser aplicada a qualquer negócio. Esta consiste em 6 etapas, a
primeira é o business understanding, na qual o objetivo é identificar o
problema a ser resolvido. Portanto, tendo em conta, que não nos foi fornecido
nenhum problema específico, decidimos através destes dados tentar prever o
valor monetário de um diamante em função das suas inúmeras
características. Em relação às restantes 5 etapas, estas irão ser
desenvolvidas mais tarde, ao longo do trabalho.

Figura 1 - Metodologia CRISP-DM

Descrição do Conjunto de Dados

3
Na base de dados com as informações relativamente aos diamantes,
apresentamos as diferentes variáveis, que iremos posteriormente discutir.
● carat - o peso do diamante
● cut - qualidade do corte
● color - a cor do diamante
● clarity - claridade do diamante
● depth - a altura do diamante em relação ao diâmetro médio do diamante
● table - comprimento da superfície plana vista de cima do diamante
● price - o valor monetário em dólares americanos
● x - comprimento do diamante
● y - largura do diamante
● z - altura do diamante

Figura 2 - Widget “File” Orange

Como podemos observar na figura 2, para cada atributo, temos o tipo


(“Type”), papel (“Role”) e valores (“Values”) correspondentes.
No atributo “Type” temos 3 hipóteses distintas: “text”, “numeric” e
“categorical”.
No atributo “Role” temos “meta”, “feature” e “target”.
No atributo “Values”, os dados são distintos para cada atributo.

4
Descrição do Tratamento/Preparação e Exploração
dos Dados (Data Understanding and Data Cleaning)

Após a atribuição do dataset, recorremos ao software Orange, uma


ferramenta open-source que utiliza uma perspetiva visual para exploração e
previsão de informação. Visando fazer uma análise mais aprofundada, foram
utilizadas técnicas de tratamento de dados para auxiliar a observação de
relações entre os dados disponibilizados.

Com ajuda do widget “Scatter Plot” e do recurso “Find Informative Projections”


podemos identificar o par com melhor “Score Plot”, ou seja, o par que mais
contribui para encontrar o nosso “target” (Figura 3), que neste caso seria o
preço do diamante em questão.

Figura 3 - Recurso “Find Informative Projections” Orange

5
Começámos por recorrer à eliminação de outliers para tentar reduzir ao
máximo o ruído que os dados apresentavam (indicado pelas setas vermelhas,
Figura 4). Este despiste retirou-nos 2 amostras de dados que, apesar de
residuais, decidimos removê-los.

Figura 4 - Eliminação de ruído entre os dados

Após a limpeza dos dados procedemos a uma breve análise sobre o seu
impacto e a sua dispersão.

Com recurso ao widget “Rank” podemos compreender o impacto de cada


variável na previsão do preço.

Figura 5 - Widget “Rank” Orange

6
Analisando a Figura 5 podemos concluir que a variável “y” é a mais influente
na determinação do preço, a par da variável “carat”. Consequentemente, as
variáveis com menor índice “RReliefF” apresentam menor influência.

No seguinte gráfico, podemos observar a distribuição dos preços pelas


características dos diamantes.

Figura 6 - Widget “Future Statistics” Orange

Cores correspondem a price points, sendo azul escuro o mais barato, verde o intermédio e amarelo o mais caro

Como é perceptível, quanto maior for o “carat”, mais caro se torna o diamante.
Esse aumento de preço pode também ser explicado pela escassez de
diamantes com um “carat” elevado. Esta é a característica em que há uma
maior variação dos preços. No entanto, existem características que não
influenciam tanto o preço de diamantes, tais como a “color”, “cut” ou “clarity”.

7
Descrição da Construção do Modelo de Previsão
(Modeling)
Para a construção do modelo de previsão recorremos a dois métodos distintos
sendo eles:

● “Tree” - uma estrutura de dados não linear que é utilizada para a


procura e organização de dados com a finalidade de obter um “target”.

Figura 7 - “Tree” Orange

● “Random Forest” - um algoritmo que estabelece o seu outcome


baseado na média das previsões de múltiplas “Tree”.

Figura 8 - “Random Forest” Orange

8
O que nos leva ao “Test and Score” (Figura 9) onde podemos testar e,
posteriormente, classificar a fiabilidade dos nossos modelos. Para isso
recorremos a um índice chamado “R2” que classifica a accuracy do modelo
numa escala de “0” até “1”, o menos e o mais fiável, respetivamente.

Figura 9 - “Test and Score” Orange

Figura 10 - Modelo do “Test and Score” no Orange

Depois de determinadas as previsões dos vários diamantes pelos diferentes


modelos, exportamos os dados para uma tabela onde podemos analisar e
tirar conclusões.

9
Conclusões

Tendo em conta tudo o que falámos e apresentámos, podemos referir que


criámos um bom modelo de previsão, com um desvio percentual médio de +/-
0.08% utilizando o modelo de previsão “Tree” e +/- 0.135 % utilizando o
modelo de previsão “Random Forest”. Podemos também comparar de forma
visual as nossas previsões com os preços praticados utilizando, por exemplo,
o widget “Violin Plot”. Nos seguintes gráficos podemos observar a distribuição
dos preços em função do corte.

Figura 11 - Distribuição do preço original em função do “cut” Figura 12 - Distribuição do preço no modelo
“Random Forest” em função do “Cut”

Figura 13 - Distribuição do preço no modelo “Tree” em função do “Cut”

10
Com base, não só no procedimento cauteloso que sempre foi levado em
conta, como também no tratamento rigoroso concluímos, tendo em conta o
desvio médio determinado previamente, que os resultados são todos
equiparados, o que torna quase impossível distinguir os gráficos a “olho nu”
sem recurso a uma legenda. Desta forma, atendendo à exploração, não só
dos dados que nos foram fornecidos, como também da própria ferramenta
Orange, conseguimos aprender e utilizar vários widgets novos que nos
auxiliaram na obtenção dos resultados e formalização das nossas conclusões.

No âmbito do trabalho foi crítico toda a matéria lecionada, visto que foi útil
compreender todo o processo de análise de dados, desde a sua limpeza, até
às relações e possíveis conclusões de serem retiradas dos dados
disponibilizados.

Por fim, é de realçar que o modelo de precisão poderia ter sido perfeito, se os
dados fornecidos não fossem falaciosos, ou seja, dois diamantes com
exatamente as mesmas características e, por sua vez as mesmas variáveis,
não correspondessem a preços diferentes. Com isto podemos concluir que a
nossa margem de erro foi consequência dos dados iniciais estarem
corrompidos.

11
Webgrafia
● Data set of diamonds that contains prices and other variables:
https://www.kaggle.com/shivam2503/diamonds [27 de maio de 2017];

12

Você também pode gostar