Lista Estatistica Descitiva 2

1)
CÓDIGO R:
peso=c(58,59,60,61,62,63,64,65,66,67,68,69,70,71,72)
altura=c(115,117,120,123,126,129,132,135,139,142,146,150,154,159,1
6)
covar=cov(peso,altura)
corrP=cor(peso, altura, method = "pearson")
corrS=cor(peso, altura, method = "spearman")
corrK=cor(peso, altura, method = "kendall")
print(corrP)
print(corrS)
print(corrK)
print(covar)
SAÍDA:
> print(corrP)
[1] 0.9954948
> print(corrS)
[1] 1
> print(corrK)
[1] 1
> print(covar)
[1] 69
2)
Frequências absolutas
Qualidade do serviço de transporte
região péssima ruim boa ótima total
A 210 40 30 20 300
B 80 200 70 150 500
C 120 50 150 130 450
D 50 10 100 100 260
total 460 300 350 400 1510
Frequências relativas (proporção por linha)

Qualidade do serviço de transporte
região péssima ruim boa ótima total
A 70,00% 13,33% 10,00% 6,67% 100,00%
B 16,00% 40,00% 14,00% 30,00% 100,00%
C 26,67% 11,11% 33,33% 28,89% 100,00%
D 19,23% 3,85% 38,46% 38,46% 100,00%
total 30,46% 19,87% 23,18% 26,49% 100,00%
a) Analisando as frequências relativas (proporção por linha), é possível analisar a

colaboração de cada conceito referente a qualidade do serviço para a porcentagem
total de avaliações em cada região . Nesse sentido, fica evidente que:
Na região A, 83,3% das pessoas avaliam o serviço negativamente.

Na região B, 56% das pessoas avaliam o serviço negativamente.
Na região C, 37,78% das pessoas avaliam o serviço negativamente.
Na região D,23,08% das pessoas avaliam o serviço negativamente.
Como essas porcentagens são discrepantes entre si e as porcentagens da última linha não
oscilam tanto, então é possível afirmar que a avaliação da qualidade do serviço é
influenciada pela área.
b)c)d)
CÓDIGO R
library(stats)
m=matrix(c(210,40,30,20,80,200,70,150,120,50,150,130,40,10,100,100
),nrow=4,byrow=TRUE)
print(m)
#QUI QUADRADO DE PEARSON
chiQm=chisq.test(m)
print(chiQm$statistic)
#V DE CRAMER
library(vcd)
vdCm=assocstats(m)
print(vdCm)
SAÍDA:
> library(stats)
>
m=matrix(c(210,40,30,20,80,200,70,150,120,50,150,130,40,10,100,100
),nrow=4,byrow=TRUE)
> print(m)
[,1] [,2] [,3] [,4]
[1,] 210 40 30 20
[2,] 80 200 70 150
[3,] 120 50 150 130
[4,] 40 10 100 100
> #QUI QUADRADO DE PEARSON
> chiQm=chisq.test(m)
> print(chiQm$statistic)
X-squared
522.2659
> #V DE CRAMER
> library(vcd)
> vdCm=assocstats(m)
> print(vdCm)
X^2 df P(> X^2)
Likelihood Ratio 504.82 9 0
Pearson 522.27 9 0
Phi-Coefficient : NA
Contingency Coeff.: 0.508
Cramer's V : 0.341
Analisando as medidas de associação entre as variáveis, é possível afirmar que as

variáveis têm um grau de associação razoável pois:
Teste Qui Quadrado: 522.2659>>0
V.de Cramer: 0.341
4)
Média(A) = (100 + 94 + 96 + 96 + 92) / 5 = 478 / 5 = 95.6
Variância(A) = [(100 - 95.6)^2 + (94 - 95.6)^2 + (96 - 95.6)^2 + (96 - 95.6)^2 + (92 - 95.6)^2] /
4 = (18.96 + 0.16 + 0.16 + 0.16 + 10.56) / 4 = 29.4 / 4 = 7.35
Média(B) = (76 + 80 + 76 + 84 + 82) / 5 = 398 / 5 = 79.6

Variância(B) = [(76 - 79.6)^2 + (80 - 79.6)^2 + (76 - 79.6)^2 + (84 - 79.6)^2 + (82 - 79.6)^2] /
4 = (12.96 + 0.16 + 12.96 + 17.64 + 4.84) / 4 = 48.56 / 4 = 12.14
Média(C) = (106 + 100 + 96 + 98 + 100) / 5 = 500 / 5 = 100

Variância(C) = [(106 - 100)^2 + (100 - 100)^2 + (96 - 100)^2 + (98 - 100)^2 + (100 - 100)^2] /
4 = (36 + 0 + 16 + 4 + 0) / 4 = 56 / 4 = 14
a)
Desvio Padrão(A) = √Variância(A) = √7.35 ≈ 2.71
Desvio Padrão(B) = √Variância(B) = √12.14 ≈ 3.48
Desvio Padrão(C) = √Variância(C) = √14 ≈ 3.74
b)
Com base apenas nas medidas de média, variância e desvio padrão, não podemos concluir
se há uma associação entre a duração e as marcas das baterias.
c)
marca <- c(rep("A", 5), rep("B", 5), rep("C", 5))
duracao <- c(100, 94, 96, 96, 92, 76, 80, 76, 84, 82, 106, 100, 96, 98, 100)
dados <- data.frame(marca, duracao)

dados
modelo <- lm(duracao ~ marca, data = dados)
summary(modelo)
# O coeficiente de determinação, R-squared = 0.8717, isso significa que 87% da variação

na variável
#dependente (tempo de duração) é explicada pelo modelo de regressão considerando
#a marca da bateria como variável independente. Ou seja, o modelo é capaz de explicar
#87% da variabilidade observada nos tempos de duração com base na marca da bateria.
3)
a) A covariância entre peso e largura é de 0.322. A medida está em milímetros
Portanto, a unidade de medida da covariância entre peso e largura seria "quilates x
milímetros".
b) correlação = 0.318 / (0.3689 * 0.897) = 0.9341. A unidade de medida também é
"quilates x milímetros".
c) 0.9341
d) Eu escolheria a variável peso como a mais relevante para prever o preço dos
diamantes, uma vez que ela tem a maior correlação com a variável preço.
5)
a)
Com base nos dados fornecidos, o grau de pureza da matéria-prima parece depender do
fornecedor. O Fornecedor A apresenta consistentemente valores mais altos e uma média
superior em comparação com o Fornecedor B.
b)
Conjunto de dados agregado do Fornecedor A:
Mínimo: 9.40
Primeiro quartil (1st Qu.): 10.82
Mediana: 11.75
Média: 11.76
Terceiro quartil (3rd Qu.): 12.90
Máximo: 14.10
Desvio padrão (Sd): 1.48
Conjunto de dados agregado do Fornecedor B:
Mínimo: 4.200
Primeiro quartil (1st Qu.): 6.175
Mediana: 6.900
Média: 7.450
Terceiro quartil (3rd Qu.): 8.100
Máximo: 12.700
Desvio padrão (Sd): 2.24
c)
Temos::
Fornecedor A:
Média: 11.76
Desvio padrão: 1.48
Número de observações (nA): 12
Fornecedor B:
Média: 7.450
Desvio padrão: 2.24
Número de observações (nB): 12
Calculando as somas dos quadrados:
SST = (nA - 1) * Var(A) + (nB - 1) * Var(B)

SSB = nA * (mean(A) - mean(Total))^2 + nB * (mean(B) - mean(Total))^2
SSW = (nA - 1) * Var(A) + (nB - 1) * Var(B)
Proporção da variação entre grupos: 0.7796
Proporção da variação dentro dos grupos: 0.2204
Aproximadamente 77.96% da variação global do grau de pureza é explicada pela variação

entre os fornecedores, enquanto 22.04% da variação é atribuída à variação dentro de cada
grupo (fornecedor).
6)
CÓDIGO R:
#6)
#A)
mEf=c(48,72,60,40)
tab=matrix(mEf,nrow=2,byrow=TRUE)
print(tab)
tab_relativa=prop.table(tabela_absoluta)
print(tab_relativa)
#B)
library(vcd)
cramer <- assocstats(tab)$cramer
print(cramer)
#C)
mEf=c(12,0,50,20)
print(tab)
print(tab_relativa)
library(vcd)
print(cramer)
#C'
mEf=c(36,72,10,20)
print(tab)
print(tab_relativa)
library(vcd)
print(cramer)
SAÍDA:
> #6)
> #A)
> mEf=c(48,72,60,40)
> tab=matrix(mEf,nrow=2,byrow=TRUE)
> print(tab)
[,1] [,2]
[1,] 48 72
[2,] 60 40
> tab_relativa=prop.table(tabela_absoluta)
> print(tab_relativa)
y
x 1 2 3
0 0.38624339 0.07936508 0.22222222
1 0.12169312 0.05820106 0.13227513
> #B)
> library(vcd)
> cramer <- assocstats(tab)$cramer
> print(cramer)
[1] 0.1992048
> #C)
> mEf=c(12,0,50,20)
> print(tab)
[,1] [,2]
[1,] 12 0
[2,] 50 20
y
x 1 2 3
0 0.38624339 0.07936508 0.22222222
1 0.12169312 0.05820106 0.13227513
> library(vcd)
> print(cramer)
[1] 0.2351585
> #C'
> mEf=c(36,72,10,20)
> print(tab)
[,1] [,2]
[1,] 36 72
[2,] 10 20
y
x 1 2 3
0 0.38624339 0.07936508 0.22222222
1 0.12169312 0.05820106 0.13227513
> library(vcd)
> print(cramer)
[1] 0
V de Cramer tabela 1 (nenhuma condenação anterior): 0.2351585
V de Cramer tabela 2 (uma ou mais condenações anteriores):0
Ao analisar os coeficientes em cada recorte, fica evidente que na tabela 1 a associação é

razoável e tabela 2 não há associação.

Lista Estatistica Descitiva 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lista Estatistica Descitiva 2

Enviado por

Direitos autorais:

Formatos disponíveis

1)

Frequências relativas (proporção por linha)

a) Analisando as frequências relativas (proporção por linha), é possível analisar a

Na região A, 83,3% das pessoas avaliam o serviço negativamente.

Analisando as medidas de associação entre as variáveis, é possível afirmar que as

Média(B) = (76 + 80 + 76 + 84 + 82) / 5 = 398 / 5 = 79.6

Média(C) = (106 + 100 + 96 + 98 + 100) / 5 = 500 / 5 = 100

Desvio Padrão(B) = √Variância(B) = √12.14 ≈ 3.48

Desvio Padrão(C) = √Variância(C) = √14 ≈ 3.74

dados <- data.frame(marca, duracao)

modelo <- lm(duracao ~ marca, data = dados)

# O coeficiente de determinação, R-squared = 0.8717, isso significa que 87% da variação

Conjunto de dados agregado do Fornecedor B:

Calculando as somas dos quadrados:

SST = (nA - 1) * Var(A) + (nB - 1) * Var(B)

Aproximadamente 77.96% da variação global do grau de pureza é explicada pela variação

Ao analisar os coeficientes em cada recorte, fica evidente que na tabela 1 a associação é

Você também pode gostar