Você está na página 1de 20

Relatório de Estatística

LETI-ESTAT

Outubro de 2023

Trabalho realizado por:


Guilherme Soares 1221904 2DB
Igor Ferreira 1211907 2DB
Ana Lagame 1221410 2DB
Índice
Introdução..................................................................................................................................................
1..................................................................................................................................................................
2..................................................................................................................................................................
3................................................................................................................................................................................
4..................................................................................................................................................................
5..................................................................................................................................................................
6..................................................................................................................................................................
Conclusão....................................................................................................................................................
Referências Bibliográficas............................................................................................................................
Lista de Figuras............................................................................................................................................
Lista de Tabelas...........................................................................................................................................

1
Introdução
Este trabalho é realizado no âmbito da unidade curricular de Estatística,
lecionado pela professora Alexandra Gavina, no curso de Engenharia de
Telecomunicações e Informática.

O presente trabalho tem como objetivo utilizar os dados guardados na base de


dados “Computers” da biblioteca “Ecdat” presente no Sofware “RStudios” para
realizar uma análise desses mesmos dados.

Esta análise permitirá a consolidação dos conceitos e técnicas aprendidos


durante o decorrer do semestre, como a construção de gráficos e tabelas,
entre outros.

2
1.
Dentro do extenso package “Ecdat” oriunda do RStudio, é possível aceder à
base de dados “Computers”. Esta base de dados contém alguns dados
relevantes, tais como:

● Price
● Speed
● Hd
● RAM
● Screen
● Cd
● Multi
● Premium
● Ads
● Trend

Assim, através da análise dos dados presentes na base de dados referida


anteriormente, é notável a presença de dois tipos de variáveis distintas.
Por um lado, temos as variáveis numéricas, que são evidentes nos dados Price,
Speed, Hd, Ram, Screen, Ads e Trend.

Por outro lado, temos também as variáveis categóricas, isto é, variáveis que
não apresentam um valor numérico intrínseco, mas que são usadas para
caracterizar e classificar dados, que são evidentes nos dados Cd, Multi e
Premium.

Desta forma, conseguimos afirmar que a dimensão destes dados é de 100


linhas e 10 colunas.
Sendo este tipo de informação útil para análises e modelagem de preços de
computadores e fatores associados.

3
2.
a)
Considerando apenas a variável “price”, e tendo em conta as diferentes formas
de medidas, esta variável pode ser caracterizada por quatro tipos de medidas:

● Medidas de localização (média, mediana e moda,quantis)

● Medidas de dispersão (amplitude,amplitude interquartil, variância,


desvio padrão, coeficiente de dispersão e coeficiente de variação)

● Assimetria

● Achatamento (ou Curtose)

Medidas de localização

1. Média
A média da variável “price” representa o preço médio dos computadores da
amostra, que é calculada pela fórmula:
n
1
∑x
n i=1 i
E é dada pelo valor 2219.577, calculado pelo R, pela seguinte expressão:
[mean(Computers$price)].

2. Mediana
A mediana é o valor que divide a variável “price” ao meio, quando ordenada.

É dada pelo valor 2144, calculado pelo R, pela seguinte expressão:


[median(Computers$price)].

3. Moda ( m0 )
A moda é o valor mais frequente na variável “price”.
É dada pelo valor 1999 e está presente 103 vezes, ele é obtido no R através da
seguinte expressão: [table(Computers$price)].

4
4. Quantis
O valor do 1º quantil é 1794 e o valor do 3º quantil é 2595.
Estes valores são obtidos no R através da expressão: [summary(Computers$price)].

Medidas de dispersão

5. Amplitude e amplitude interquartil ( r e r q )


A amplitude é a diferença entre o maior e o menor valor da variável price,
enquanto que a amplitude interquartil é a diferença entre o valor do 3ºquartil
e o 1ºquartil.
Assim as expressões para o cálculo das mesmas são:
r =x max−x min r q =q 3−q 1

O valor da amplitude é 4450 e é possível ser calculado no R pela expressão:


[max(Computers$price)-min(Computers$price)]
O valor da amplitude interquartil é 801 e é possível ser calculado no R pelo
seguinte conjunto de expressões:
[IQR(Computers$price)].

6. Variância ( s2 )
A variância mede a dispersão dos valores em torno da média.
É calculada segundo a seguinte fórmula:
n
1
2
s= ∑
n−1 i=1
( xi −x)2

É dada pelo valor 337333.2, e é calculado pelo R, pela seguinte expressão:


[var(Computers$price)].

7. Desvio padrão ( s )
O desvio padrão fornece uma medida da dispersão para uma variável.
É dado pela expressão: s= √❑

O seu valor é 580.804, e é calculado no R pela expressão: [sd(Computers$price)].

8. Coeficiente de dispersão e coeficiente de variação ( c d e c v )


O cálculo destes dois coeficientes está interligado, sendo eles dados pelas
seguintes expressões:

5
s s
cd= e c v = ×100=c d ×100 %
x x
Assim o valor do coeficiente de dispersão e de variação são, respetivamente,
0.26167 e 26.167%, estes valores são calculados no R, pelas expressões
[sd(Computers$price)/mean(Computers$price)] e
[sd(Computers$price)/mean(Computers$price)x100].

Assimetria

9. Coeficiente de assimetria ( u3 )
m3
Dado pela expressão: u3 = 3
s
O valor do coeficiente de assimetria é 0.712, e é calculado no R, pelo seguinte
conjunto de comandos:
library(moments) (Necessário instalar este package pois é ele que contém o
comando para a realização da assimetria e da curtose).
[skewness(Computers$price)].

Achatamento

10.Coeficiente de achatamento ( u 4 )
m4
Dado pela expressão: u 4= 4
s
O valor do coeficiente de achatamento é 3.729, e é calculado no R, pelo
seguinte conjunto de comandos:
[library(moments)
kurtosis(Computers$price)].

6
Figura 1- Histograma

O histograma executa uma representação gráfica a partir das medidas de


localização, dispersão e forma. Este gráfico tem como principal objetivo
identificar características da distribuição que não são notáveis pelas medidas
estatísticas, ou seja, permite uma compreensão mais completa da distribuição
dos dados.
Desta forma, através da amplitude (medida de dispersão) conseguimos
verificar a largura do histograma, isto é, a dimensão do eixo do X. Com a ajuda
do desvio padrão (medida de dispersão) avalia-se a forma e a largura do
gráfico, onde podemos afirmar, que este tem uma maior dispersão, já que, é
um gráfico mais largo e achatado.
Através da análise do gráfico, podemos afirmar que um existe um
enviesamento à direita, o que é comprovado pelo coeficiente de assimetria
(u3 >0 ¿ .

[hist(Computers$price,right=F,labels = T,ylab="Quantidade de
preços",xlab="Preço",xlim=c(0,6000),main="Resultados preços",col="lightblue") ]

7
Figura 2- Caixa de Bigodes

A caixa de bigodes permite uma representação gráfica a partir das medidas de


localização, dispersão e forma. Este gráfico tem como principal objetivo
visualizar os outliers e a simetria da distribuição dos dados.
Assim, através da amplitude interquartil (medida de dispersão) conseguimos
saber o tamanho da nossa caixa de bigodes. Com a ajuda da mediana (medida
de localização) sabemos a posição da linha central presente na caixa, tendo em
conta, que com esta, podemos também determinar a Assimetria,
apresentando assimetria positiva, uma vez que, a mediana está mais próxima
ao primeiro quartil.

[boxplot(Computers$price,horizontal = T,main="Resultado preços",col="lightblue")]

b)
Para se saber os valores a partir dos quais estes são considerados outliers, é
necessário saber o limite inferior e superior, calculado através da expressão:
Limite inferior=q 1−1 ,5 × r q
Limite superior=q 3+ 1, 5 ×r q
Assim, sendo o limite superior igual a 3796.5 e o limite inferior igual a 592.5,
podemos afirmar que qualquer valor acima do limite superior ou abaixo do
limite inferior, é um outlier.
[IQR=801 q1=1794 q3=2595 LI=q1-1.5*IQR LS=q3+1.5*IQR]

8
Para determinar a quantidade de outliers presente na variável price, utilizamos
os seguintes códigos, que nos informa a presença de 75 outliers.
[outliers= Computers$price[Computers$price< LI | Computers$price > LS]
length(outliers)]

A fim de se avaliar a “forma” da distribuição é necessário criar um novo


histograma e realizar uma comparação.
Como tal, é necessário os seguintes comandos:
[dados_sem_outliers= Computers[!(Computers$price<LI | Computers$price >LS),]]

[hist(dados_sem_outliers$price,right=F,labels = T,ylab="Quantidade de
preços",xlab="Preço",xlim=c(0,4000),main="Resultados preços sem
outliers",col="lightblue")]

Figura 3- Histograma sem outliers

Desta forma, é possível observar uma alteração no histograma, o qual


apresenta uma distribuição mais simétrica, causada pela ausência dos outliers,
que anteriormente afetam a forma da distribuição dos dados.

9
3.
A variável escolhida para a realização do gráfico de barras foi a variável
“multi”.

Figura 4- Gráfico de Barras

[barplot(table(Computers$multi),main="Resultado multimédia",
xlab= "Opção",ylab="Quantidade",col="lightblue",border="black",cex.main=1) ]

4.
A variável escolhida para a realização do gráfico de barras foi a variável
“screen”.

Figura 5- Diagrama Circular

10
[pie(table(Computers$screen),main="Resultado ecrã",col=rainbow(3),radius=1)]

5.
Variável dependente- price
Variável independente- ram

Figura 6- Diagrama de dispersão ram/price

[plot(Computers$ram,Computers$price,,xlab="RAM",ylab="Preço",col="darkblue")
abline(lm(Computers$price~Computers$ram),col="Red")]
Equação da reta: Y = 64.23x + 1687.29
[lm(Computers$price~Computers$ram)]
Coeficiente de correlação = 0.623
[cor(Computers$ram, Computers$price,method = "pearson")]

Variável dependente- speed


Variável independente- ram

11
Figura 7- Diagrama de dispersão ram/speed

[plot(Computers$ram, Computers$speed, xlab = "RAM", ylab = "Preço", col = "darkblue")


abline(lm(Computers$speed~Computers$ram),col="Red")]
Equação da reta: Y = 0.882x + 44.701
[lm(Computers$speed~Computers$ram)]
Coeficiente de correlação: 0.235
[cor(Computers$ram, Computers$speed,method = "pearson")]

Figura 8- Diagrama de dispersão speed/price

[plot(Computers$speed, Computers$price, xlab = "RAM", ylab = "Preço", col = "darkblue")


abline(lm(Computers$speed~Computers$price),col="Red")]
Equação da reta: Y = 0.011x + 27.675
[lm(Computers$speed~Computers$ram)]
Coeficiente de correlação: 0.301
[cor(Computers$price, Computers$speed,method = "pearson")]

As variáveis anteriormente referidas são características fundamentais nos


computadores e estão intrinsecamente relacionadas.
A variável price, depende das variáveis ram uma vez que quanto maior for o
valor desta variável, maior será o valor da variável price, por outras palavras,
um preço de um computador tende a ser maior quanto maior for a capacidade
ram.

12
A variável ram, não depende de nenhuma variável, no entanto, relaciona-se
com a variável speed, já que, quanto maior a capacidade de ram, maior a
velocidade do dispositivo.

6.
Tabela de dupla entrada com as variáveis cd e multi:

Tabela
1- Tabela de dupla entrada cd/multi

[CrossTable(Computers$cd,Computers$multi)]

13
Tabela 2- Tabela de dupla entrada ram/speed

[CrossTable(Computers$ram,Computers$speed)]

14
a)
Considerando os seguintes acontecimentos,
CD: “O computador contém CD-ROM”
Multi”O computador contém kit de multimédia”

É pedido,
P(CD ∩ Multi)= 0.139
Dado confirmado pela tabela 1.

[sum(Computers$cd=="yes" & Computers$multi == "yes") / nrow(Computers)]

Neste caso, o comando anterior conta o número de computadores que contém


cd-rom e kit de multimédia, e de seguida, divide essa contagem pelo número
total de observações no conjunto de dados “Computers”.

b)
Dado os acontecimentos,
RAM: “O valor de RAM ser de 16MB”
Speed: “A velocidade do relógio do computador ser maior ou igual que
50MHz”

É pedido,
P ¿ Speed | RAM) = 0.675
[ram16_speed50= sum(Computers$ram == 16 & Computers$speed >= 50)
ram16= sum(Computers$ram == 16)
prob_ram16_speed50= ram16_speed50/ram_16]

15
Conclusão

Este trabalho consistiu na análise dos dados presentes na base de dados


“Computers” do pacote “Ecdat”. O principal objetivo foi compreender e
caracterizar as variáveis presentes neste conjunto, destacando as variáveis
price, ram e speed.

Deste modo, este trabalho teve um papel fundamental na compreensão e


interpretação da análise de dados, permitindo assim, aprofundar os nossos
conhecimentos, referentes aos tópicos abordados.

Esta análise, teve o uso de várias técnicas incluindo a descrição de variáveis de


medida, identificação de outliers, análise e interpretação da forma de
distribuição, identificação das relações entre as variáveis e a aplicação de
vários conceitos de probabilidades.

16
Referências Bibliográficas
● Alexandra Gavina,A.G. Apontamentos de apoio às aulas
teóricas,Instituto Superior de Engenharia do Porto
https://moodle.isep.ipp.pt/mod/resource/view.php?id=181161

● Cruz,J. (2019). Estatística Descritiva. Bioestatística


https://sweet.ua.pt/pedrocruz/bioestatistica/ed-boxplot.html

● Valente,F. & Mesquita,M. Estatística Descritiva.


https://www.google.com/url?
sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwjBqLrziauCAxW
kcKQEHVQuDL8QFnoECA0QAQ&url=https%3A%2F
%2Ffenix.isa.ulisboa.pt%2FqubEdu%2Fconteudos-publicos%2Fficheiros
%3Foid%3D3972844777236&usg=AOvVaw2BDRX41m1qEh-
o5IMT1Ja5&opi=89978449

17
Lista de Figuras
● Figura 1- Histograma
● Figura 2- Caixa de Bigodes
● Figura 3- Histograma sem outliers
● Figura 4- Gráfico de Barras
● Figura 5- Diagrama Circular
● Figura 6- Diagrama de dispersão ram/price
● Figura 7- Diagrama de dispersão ram/speed
● Figura 8- Diagrama de dispersão speed/price

18
Lista de Tabelas
● Tabela 1- Tabela de dupla entrada cd/multi

● Tabela 2- Tabela de dupla entrada ram/speed

19

Você também pode gostar