Escolar Documentos
Profissional Documentos
Cultura Documentos
CAPÍTULO II
ANÁLISE EXPLORATÓRIA DE DADOS
E ESTATÍSTICAS DESCRITIVAS
o Sobre um package
help(package=datasets)
ou > library(package)
oAs componentes de uma lista são indexadas e podem ser referidas pelo seu índice, utilizando
parêntesis rectos duplos. Também podem ser referidas pela sua designação, caso tenham.
Uma data frame - é um caso particular de uma lista em que todas as componentes têm o
mesmo número de componentes.
Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.
Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.
Vantagens da amostragem
oSuprir a escassez de recursos;
oEconomia de tempo;
oPrecisão dos dados ;
oTestes destrutivos.
NOTA: Nem sempre é necessário estudar toda a
população, basta analisar parte desta para tirar
conclusões fidedignas sobre a população.
oQualitativa
i) nominal: expressa uma qualidade não ordenável;
ii) ordinal: expressa uma qualidade ordenável
oQuantitativa
i) discreta: toma valores numéricos em número finito ou infinito
ii) numerável contínua: toma valores em intervalos reais
table(chokwe22$region)
oIndicadores: moda
i) Representação gráfica: diagrama de barras
plot(culturas$COD_AJUDA)
barplot(table(culturas$COD_AJUDA))
table(escolar$nivel)
ii) Variável nivel é qualitativa ordinal (data frame chokwe22)
quantile(chokwe22$school) #dá erro
oIndicadores: moda
Representação gráfica: diagrama de barras
Tabela de contingência para duas variáveis qualitativas
Variáveis sexo e nivel de escolaridade
i) Data frame escolar: table(escolar$sexo, escolar$nivel)
ii) Data frame chokwe22: table(chokwe22$gender, chokwe22$school)
oIndicadores: moda
Representação gráfica: diagrama de barras para duas variáveis
i) Data frame chokwe22:
barplot(table(chokwe22$gender,chokwe22$school),
beside=T,col=c("blue","pink"))
legend(x="topright",legend=c("Mulher", "Homem"),
fill=c("pink","blue"))
oTabelas de frequência:
Nota: Quando os dados são de natureza contínua ou de
natureza discreta com muitos valores distintos é necessário agrupar os
dados em classes.
Número de classes?
𝐿𝑜𝑔𝑛
Usar regra de Sturges: 1 +
𝐿𝑜𝑔2
oTabelas de frequência:
Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe
oTabelas de frequência:
Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe
oTabelas de frequência:
Histogramas
density: (frequência relativa / amplitude) de cada classe
mids: ponto médio de cada classe
equidist: valor lógico que indica se as classes têm ou não amplitude
constante
oIndicadores de localização:
Média
Amostragem: 𝑥1 + 𝑥2 + 𝑥3 + … . 𝑥𝑛
𝑛
1
𝑥ҧ = 𝑥𝑖
𝑛
𝑖=1
oIndicadores de localização:
Mediana
Amostra ordenados: 𝑥1 ≤ 𝑥2 ≤ 𝑥3 ≤ … . 𝑥𝑛
𝑋෨ = 𝑋(𝑛+1) se n for ímpar
2
1
𝑋(𝑛) + 𝑋(𝑛+1) se n for par
2 2 2
oIndicadores de localização:
Quartil de ordem p: com 0 < p < 1
quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)
oIndicadores de localização:
Quartil de ordem p: com 0 < p < 1
quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)
Moda: para dados de natureza contínua ou de natureza discreta com
muitos valores distintos, a moda é dada pela classe modal ou por um
valor da classe modal, calculado por regras empíricas.
oIndicadores de dispersão:
Variância e desvio padrão
1
𝑆𝑥2 = σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 >var(x) # Variância
𝑛 −1
Propriedades
𝑆𝑥2 ≥ 0 e 𝑆𝑥 ≥ 0
oIndicadores de dispersão:
Coeficiente de variação (relativa) > sd (x)/mean(x)
Se todos 𝑋𝑖 ≥ 0 e algum 𝑋𝑖 ≠ 0
𝑆 𝑆
𝐶𝑉 = ou 𝐶𝑉 = ∗ 100%
𝑋ത 𝑋ത
Amplitude total
Amplitude inter-quartil
∗
𝐴𝐼𝑄 = 𝑄3 − 𝑄1 em que 𝑄1 = 𝑄0.25 ∗
𝑒 𝑄3 = 𝑄0.75 > IQR(x)
oIndicadores de forma:
Coeficiente de Assimetria
• simetria: média=mediana=moda
• assimetria positiva: média>mediana>moda
• assimetria negativa: média<mediana<moda É necessário o package fbasics > skewness(x)
oIndicadores de forma:
Coeficiente de achatamento
Fonte: http://www.portalaction.com.br/estatistica-basica/26-curtose
• igual a zero: como a normal
• positiva: mais aguçada do que a normal
• negativa: menos aguçada do que a normal É necessário o package fbasics > kurtosis(x)
T.P.C.
chokwe22$Prod_tonha
Obrigado!.......