Escolar Documentos
Profissional Documentos
Cultura Documentos
LETI-ESTAT
Outubro de 2023
1
Introdução
Este trabalho é realizado no âmbito da unidade curricular de Estatística,
lecionado pela professora Alexandra Gavina, no curso de Engenharia de
Telecomunicações e Informática.
2
1.
Dentro do extenso package “Ecdat” oriunda do RStudio, é possível aceder à
base de dados “Computers”. Esta base de dados contém alguns dados
relevantes, tais como:
● Price
● Speed
● Hd
● RAM
● Screen
● Cd
● Multi
● Premium
● Ads
● Trend
Por outro lado, temos também as variáveis categóricas, isto é, variáveis que
não apresentam um valor numérico intrínseco, mas que são usadas para
caracterizar e classificar dados, que são evidentes nos dados Cd, Multi e
Premium.
3
2.
a)
Considerando apenas a variável “price”, e tendo em conta as diferentes formas
de medidas, esta variável pode ser caracterizada por quatro tipos de medidas:
● Assimetria
Medidas de localização
1. Média
A média da variável “price” representa o preço médio dos computadores da
amostra, que é calculada pela fórmula:
n
1
∑x
n i=1 i
E é dada pelo valor 2219.577, calculado pelo R, pela seguinte expressão:
[mean(Computers$price)].
2. Mediana
A mediana é o valor que divide a variável “price” ao meio, quando ordenada.
3. Moda ( m0 )
A moda é o valor mais frequente na variável “price”.
É dada pelo valor 1999 e está presente 103 vezes, ele é obtido no R através da
seguinte expressão: [table(Computers$price)].
4
4. Quantis
O valor do 1º quantil é 1794 e o valor do 3º quantil é 2595.
Estes valores são obtidos no R através da expressão: [summary(Computers$price)].
Medidas de dispersão
6. Variância ( s2 )
A variância mede a dispersão dos valores em torno da média.
É calculada segundo a seguinte fórmula:
n
1
2
s= ∑
n−1 i=1
( xi −x)2
7. Desvio padrão ( s )
O desvio padrão fornece uma medida da dispersão para uma variável.
É dado pela expressão: s= √❑
5
s s
cd= e c v = ×100=c d ×100 %
x x
Assim o valor do coeficiente de dispersão e de variação são, respetivamente,
0.26167 e 26.167%, estes valores são calculados no R, pelas expressões
[sd(Computers$price)/mean(Computers$price)] e
[sd(Computers$price)/mean(Computers$price)x100].
Assimetria
9. Coeficiente de assimetria ( u3 )
m3
Dado pela expressão: u3 = 3
s
O valor do coeficiente de assimetria é 0.712, e é calculado no R, pelo seguinte
conjunto de comandos:
library(moments) (Necessário instalar este package pois é ele que contém o
comando para a realização da assimetria e da curtose).
[skewness(Computers$price)].
Achatamento
10.Coeficiente de achatamento ( u 4 )
m4
Dado pela expressão: u 4= 4
s
O valor do coeficiente de achatamento é 3.729, e é calculado no R, pelo
seguinte conjunto de comandos:
[library(moments)
kurtosis(Computers$price)].
6
Figura 1- Histograma
[hist(Computers$price,right=F,labels = T,ylab="Quantidade de
preços",xlab="Preço",xlim=c(0,6000),main="Resultados preços",col="lightblue") ]
7
Figura 2- Caixa de Bigodes
b)
Para se saber os valores a partir dos quais estes são considerados outliers, é
necessário saber o limite inferior e superior, calculado através da expressão:
Limite inferior=q 1−1 ,5 × r q
Limite superior=q 3+ 1, 5 ×r q
Assim, sendo o limite superior igual a 3796.5 e o limite inferior igual a 592.5,
podemos afirmar que qualquer valor acima do limite superior ou abaixo do
limite inferior, é um outlier.
[IQR=801 q1=1794 q3=2595 LI=q1-1.5*IQR LS=q3+1.5*IQR]
8
Para determinar a quantidade de outliers presente na variável price, utilizamos
os seguintes códigos, que nos informa a presença de 75 outliers.
[outliers= Computers$price[Computers$price< LI | Computers$price > LS]
length(outliers)]
[hist(dados_sem_outliers$price,right=F,labels = T,ylab="Quantidade de
preços",xlab="Preço",xlim=c(0,4000),main="Resultados preços sem
outliers",col="lightblue")]
9
3.
A variável escolhida para a realização do gráfico de barras foi a variável
“multi”.
[barplot(table(Computers$multi),main="Resultado multimédia",
xlab= "Opção",ylab="Quantidade",col="lightblue",border="black",cex.main=1) ]
4.
A variável escolhida para a realização do gráfico de barras foi a variável
“screen”.
10
[pie(table(Computers$screen),main="Resultado ecrã",col=rainbow(3),radius=1)]
5.
Variável dependente- price
Variável independente- ram
[plot(Computers$ram,Computers$price,,xlab="RAM",ylab="Preço",col="darkblue")
abline(lm(Computers$price~Computers$ram),col="Red")]
Equação da reta: Y = 64.23x + 1687.29
[lm(Computers$price~Computers$ram)]
Coeficiente de correlação = 0.623
[cor(Computers$ram, Computers$price,method = "pearson")]
11
Figura 7- Diagrama de dispersão ram/speed
12
A variável ram, não depende de nenhuma variável, no entanto, relaciona-se
com a variável speed, já que, quanto maior a capacidade de ram, maior a
velocidade do dispositivo.
6.
Tabela de dupla entrada com as variáveis cd e multi:
Tabela
1- Tabela de dupla entrada cd/multi
[CrossTable(Computers$cd,Computers$multi)]
13
Tabela 2- Tabela de dupla entrada ram/speed
[CrossTable(Computers$ram,Computers$speed)]
14
a)
Considerando os seguintes acontecimentos,
CD: “O computador contém CD-ROM”
Multi”O computador contém kit de multimédia”
É pedido,
P(CD ∩ Multi)= 0.139
Dado confirmado pela tabela 1.
b)
Dado os acontecimentos,
RAM: “O valor de RAM ser de 16MB”
Speed: “A velocidade do relógio do computador ser maior ou igual que
50MHz”
É pedido,
P ¿ Speed | RAM) = 0.675
[ram16_speed50= sum(Computers$ram == 16 & Computers$speed >= 50)
ram16= sum(Computers$ram == 16)
prob_ram16_speed50= ram16_speed50/ram_16]
15
Conclusão
16
Referências Bibliográficas
● Alexandra Gavina,A.G. Apontamentos de apoio às aulas
teóricas,Instituto Superior de Engenharia do Porto
https://moodle.isep.ipp.pt/mod/resource/view.php?id=181161
17
Lista de Figuras
● Figura 1- Histograma
● Figura 2- Caixa de Bigodes
● Figura 3- Histograma sem outliers
● Figura 4- Gráfico de Barras
● Figura 5- Diagrama Circular
● Figura 6- Diagrama de dispersão ram/price
● Figura 7- Diagrama de dispersão ram/speed
● Figura 8- Diagrama de dispersão speed/price
18
Lista de Tabelas
● Tabela 1- Tabela de dupla entrada cd/multi
19