Escolar Documentos
Profissional Documentos
Cultura Documentos
08/04/2021
summary(iris)
##
## setosa versicolor virginica
## 50 50 50
Podemos verificar que temos 50 amostras por espécie da planta. Isso foi
apresentado no início desse estudo, mas agora com a função “table”
podemos comprovar na prática.
Vamos investigar um pouco mais?? Inicialmente com a fução “summary”
obtivemos a estatística descritiva de cada variável independentemente de
cada espécie. Agora vamos obter os dados de maneira mais detalhada.
tapply(X = iris$Sepal.Length, INDEX = list(iris$Species), FUN = mean)
## Species Sepal.Length
## 1 setosa 5.006
## 2 versicolor 5.936
## 3 virginica 6.588
Vamos agora utilizar esse mesmo comando para o cálculo da média das
outras variáveis:
aggregate(Sepal.Length ~ Species, data = iris, mean)
## Species Sepal.Length
## 1 setosa 5.006
## 2 versicolor 5.936
## 3 virginica 6.588
## Species Sepal.Width
## 1 setosa 3.428
## 2 versicolor 2.770
## 3 virginica 2.974
## Species Sepal.Length
## 1 setosa 0.3524897
## 2 versicolor 0.5161711
## 3 virginica 0.6358796
## Species Sepal.Width
## 1 setosa 0.3790644
## 2 versicolor 0.3137983
## 3 virginica 0.3224966
## Species Petal.Length
## 1 setosa 0.1736640
## 2 versicolor 0.4699110
## 3 virginica 0.5518947
Média
A média é um dos fundamentos para obtenção de medidas de tendência
central.
n
∑ ×i
x= i=1
n
vars <- iris[, -5]
apply(vars, 2, mean)
Mediana
Vamos ao cálculo da mediana. Como dito anteriormente, é o calor central.
apply(vars, 2, median)
Moda
Calculando agora a moda da minha amostra:
freq_sl <- sort(table(iris$Sepal.Length), decreasing = TRUE)
freq_sl[1]
## 5
## 10
Medidas de dispersão
Agora que vimos alguns cálculos básicos de medidas de tendência central é
necessário verificar quanto desses valores estão espalhados em torno da
média. Isso chama-se na linguagem estatística de medidas de dispersão.
Variância da amostra
A variância mede o quanto os dados estão dispersos em torno da média, ou
seja, do valor esperado.
Monitorar a variância é essencial para as indústrias de manufatura e
qualidade porque a redução da variância dos processos aumenta a precisão
e diminui o número de defeitos dos produtos manufaturados.
n
2
s =∑ ¿ ¿ ¿
i =1
apply(vars, 2, var)
Desvio Padrão
O desvio padrão é uma medida que indica a dispersão dos dados dentro de
uma amostra com relação à média.
n
s=
√∑
i=1
¿¿ ¿ ¿
Correlação
Podemos avaliar a correlação entre as variáveis.
Tipos de Correlação
cor(vars)
Métodos Gráficos
Vamos agora falar dos métodos gráficos:
O R em seu pacote base possui funções para execução dos gráficos acima.
Contudo, pode ser instalado o pacote “ggplot2” que é uma ferramenta
poderosa para ambiente gráfico.
Na tabela abaixo segue um compilado das funções do Rbase e do pacote
ggplot2 para obtenção dos gráficos apresentados anteriormente.
Tipo de
bar
histog
densi
quantil-
box-
dispe
Gráfico de barras
barplot(table(iris$Species))
barplot(table(iris$Sepal.Width))
Histograma
par(mfrow=c(2, 2))
hist(iris$Sepal.Length)
hist(iris$Sepal.Width)
hist(iris$Petal.Length)
hist(iris$Petal.Length)
par(mfrow=c(1, 2))
hist(iris$Sepal.Width)
hist(iris$Sepal.Width, breaks = 4)
Densidade
A curva de densidade mostra a probabilidade de observar determinado
valor. Em comparação ao histograma, no eixo y, ao invés de termos a
frequência, temos a densidade probabilística.
par(mfrow=c(1, 2))
hist(iris$Sepal.Width)
hist(iris$Sepal.Width, freq = FALSE)
boxplot(iris$Sepal.Width)
boxplot(iris$Petal.Length)
boxplot(iris$Petal.Width)
Vamos rodar por espécie:
boxplot(Sepal.Length ~ Species, data = iris)
boxplot(Sepal.Width ~ Species, data = iris)
## $stats
## [,1]
## [1,] 2.2
## [2,] 2.8
## [3,] 3.0
## [4,] 3.3
## [5,] 4.0
##
## $n
## [1] 150
##
## $conf
## [,1]
## [1,] 2.935497
## [2,] 3.064503
##
## $out
## [1] 4.4 4.1 4.2 2.0
##
## $group
## [1] 1 1 1 1
##
## $names
## [1] "1"
# o objeto é uma lista e os valores outliers estão guardados no
elemento $out da lista
outliers <- my_boxplot$out
#qual a posicao dos outliers
which(iris$Sepal.Width %in% outliers)
## [1] 16 33 34 61
## Sepal.Width Species
## 16 4.4 setosa
## 33 4.1 setosa
## 34 4.2 setosa
## 61 2.0 versicolor
## Sepal.Width Species
## 42 2.3 setosa
qqnorm e qqline
par(mfrow = c(1,3))
qqnorm(iris$Sepal.Length[iris$Species == "setosa"],
main = "setosa")
qqline(iris$Sepal.Length[iris$Species == "setosa"])
qqnorm(iris$Sepal.Length[iris$Species == "versicolor"],
main = "versicolor")
qqline(iris$Sepal.Length[iris$Species == "versicolor"])
qqnorm(iris$Sepal.Length[iris$Species == "virginica"],
main = "virginica")
qqline(iris$Sepal.Length[iris$Species == "virginica"])
ggpairs(vars)