Aula 3 - 5.estatísticas Descritivas - Aula Última

ANÁLISE DE DADOS
CAPÍTULO II
ANÁLISE EXPLORATÓRIA DE DADOS
E ESTATÍSTICAS DESCRITIVAS
Unango aos 19 de Maio de 2021

Por Aires Afonso Mbanze
Sequência da aula
o Algumas funções no R – Recapitulação
o Importação de dados e criação de scrips
o Lista & Data frames
o Alguns conceitos básicos sobre estatísticas descritivas
o Variável qualitativa nominal
o Variável qualitativa ordinal
o Variável quantitativa
o Indicadores de localização
o Indicadores de dispersão
o Indicadores de forma
o BoxPlots
Análise Exploratória de Dados e Estatísticas Descritiva Pag 2

Algumas funções no R
o Ajuda sobre uma função

help(median) ou ?median
o Sobre um conjunto de dados

?chickwts
o Sobre um package
help(package=datasets)
o Para pesquisar uma sequência de caracteres na lista de funções

help.search("median") ou > ??median

Algumas funções no R
oPara instalar um package

menu Packages −→ Install package(s)...
O package, é instalado automaticamente no computador
oPara usar um package já instalado:

menu Packages → Load package...
ou > library(package)
oPara saber quais os packages instalados

library()

Importação de dados e criação de scrips
oCriar um ficheiro de script

menu File → New script
oUtilizar um ficheiro de script menu

File → Open script...
oCriar o ficheiro de script aula3_descritiva.R e gravar na pasta de trabalho

oAbrir uma dataframe
load("C:/D_Drive/FCATotal/FCA2020/Anáise de
Dados/dataframes/df_culturas.RData")

Lista & Data frames
Uma lista é uma colecção ordenada de objectos, que podem ser de tipos diferentes (vectores
numéricos, vectores lógicos, matrizes, listas, funções, ...).
oChama-se componente a cada um dos objectos da lista.

oAs componentes são numeradas e podem ter um nome associado.
aluno <- list(numero=12345, nome="Paulo Cabral", notas=c(15,12.4,16.1,14.3),"Eng.Flor")
O resultado de muitas funções é uma lista.
oAs componentes de uma lista são indexadas e podem ser referidas pelo seu índice, utilizando
parêntesis rectos duplos. Também podem ser referidas pela sua designação, caso tenham.
aluno[[2]] # segunda componente
aluno$nome # componente designada 'nome'

Lista & Data frames
Uma data frame - é um caso particular de uma lista em que todas as componentes têm o
mesmo número de componentes.
Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.
help(chickwts) ## devolve informação sobre a dataframe

str(chickwts)
head(chickwts) # para visualizar as primeiras linhas
chickwts[,2] # notação matricial
chickwts[[2]] # notação de lista
hickwts$feed # notação de lista
É a estrutura usual para armazenar tabelas de dados.

Uma data frame - é um caso particular de uma lista em que todas as componentes têm o
mesmo número de componentes.
Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.
help(chickwts) ## devolve informação sobre a dataframe

str(chickwts)
head(chickwts) # para visualizar as primeiras linhas
chickwts[,2] # notação matricial
chickwts[[2]] # notação de lista
hickwts$feed # notação de lista
É a estrutura usual para armazenar tabelas de dados.

Alguns conceitos básicos sobre estatísticas descritivas
Uma população pode ser estudada por censo ou amostragem.
o População ou universo: totalidade de elementos que possuem em comum

determinadas características de interesse para uma pesquisa.
O censo proporciona uma precisão incontestável.
Quanto ao tamanho, a população classifica-se em finita e infinita.
o População de estudo ou amostragem: parcela da população-alvo identificável e

passível de ser pesquisada.

Alguns conceitos básicos sobre estatísticas descritivas
Amostragem: é o subconjunto de uma população

que possa representá-la.
Vantagens da amostragem
oSuprir a escassez de recursos;
oEconomia de tempo;
oPrecisão dos dados ;
oTestes destrutivos.
NOTA: Nem sempre é necessário estudar toda a
população, basta analisar parte desta para tirar
conclusões fidedignas sobre a população.

Natureza dos dados
oQualitativa
i) nominal: expressa uma qualidade não ordenável;
ii) ordinal: expressa uma qualidade ordenável
oQuantitativa
i) discreta: toma valores numéricos em número finito ou infinito
ii) numerável contínua: toma valores em intervalos reais

Representação dos dados

Variável Qualitativa Nominal
oDados: Variável COD_AJUDA da data frame culturas que se encontra

no workspace “df_culturas.RData”
i) Tabela de frequências
table(culturas$COD_AJUDA)
oDados: Variável region da data frame chokwe22 que se encontra no

workspace “chokwe22.xlsx”
ii) Tabela de frequências
table(chokwe22$region)

Variável Qualitativa Nominal
oIndicadores: moda
i) Representação gráfica: diagrama de barras
plot(culturas$COD_AJUDA)
barplot(table(culturas$COD_AJUDA))
plot(table(culturas$COD_AJUDA)) #com barras mais finas
ii) Representação gráfica: diagrama de barras

plot(table(chokwe22$region))

Variável Qualitativa Ordinal
oDados: Nível de escolaridade mais elevado completo e sexo da população

activa nos Açores (INE, 16 Fev 2011). Os dados estão armazenados na
data frame escolar, que se encontra no workspace “escolaridade.RData”.
i) Variável nivel é qualitativa ordinal
table(escolar$nivel)
ii) Variável nivel é qualitativa ordinal (data frame chokwe22)
quantile(chokwe22$school) #dá erro
quantile(as.numeric(chokwe22$school), type=2) #quartis

oIndicadores: moda
Representação gráfica: diagrama de barras
Tabela de contingência para duas variáveis qualitativas
Variáveis sexo e nivel de escolaridade
i) Data frame escolar: table(escolar$sexo, escolar$nivel)
ii) Data frame chokwe22: table(chokwe22$gender, chokwe22$school)

oIndicadores: moda
Representação gráfica: diagrama de barras para duas variáveis
i) Data frame chokwe22:
barplot(table(chokwe22$gender,chokwe22$school),
beside=T,col=c("blue","pink"))
legend(x="topright",legend=c("Mulher", "Homem"),
fill=c("pink","blue"))

Variável quantitativa
oTabelas de frequência:
Nota: Quando os dados são de natureza contínua ou de
natureza discreta com muitos valores distintos é necessário agrupar os
dados em classes.
Número de classes?
𝐿𝑜𝑔𝑛
Usar regra de Sturges: 1 +
𝐿𝑜𝑔2

Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe

Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe

Histogramas
density: (frequência relativa / amplitude) de cada classe
mids: ponto médio de cada classe
equidist: valor lógico que indica se as classes têm ou não amplitude
constante

oIndicadores de localização:
Média
Amostragem: 𝑥1 + 𝑥2 + 𝑥3 + … . 𝑥𝑛
𝑛
1
𝑥ҧ = ෍ 𝑥𝑖
𝑛
𝑖=1
x <- c(0:10, 50)

mean(x); [1] 8.75

Mediana
Amostra ordenados: 𝑥1 ≤ 𝑥2 ≤ 𝑥3 ≤ … . 𝑥𝑛
𝑋෨ = 𝑋(𝑛+1) se n for ímpar
2
1
𝑋(𝑛) + 𝑋(𝑛+1) se n for par
2 2 2

oIndicadores de localização: (fonte:

https://wikiciencias.casadasciencias.org/wiki/index.php/Quantis)
Quartil de ordem p: com 0 < p < 1
Dada uma amostra (ou coleção de dados), define-se uma medida de localização a
que se dá o nome de quantil de ordem p, com 0 < p < 1, como sendo o valor Qp tal
que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes
100(1 - p)% elementos da amostra são maiores ou iguais a Qp.
Para facilitar a obtenção dos quantis, que se calculam a partir da amostra

ordenada, considere-se a seguinte notação para a amostra de dimensão n, x1, x2,
..., xn, depois de ordenada, por ordem crescente:
• x1:n, x2:n, ..., xn:n


Dada uma amostra (ou coleção de dados), define-se uma medida de
localização a que se dá o nome de quantil de ordem p, com 0 < p < 1, como
sendo o valor Qp tal que 100p% dos elementos da amostra são menores ou
iguais a Qp e os restantes 100(1 - p)% elementos da amostra são maiores ou
iguais a Qp.
Para facilitar a obtenção dos quantis, que se calculam a partir da amostra

ordenada, considere-se a seguinte notação para a amostra de dimensão n,
x1, x2, ..., xn, depois de ordenada, por ordem crescente:
• x1:n, x2:n, ..., xn:n



Com esta notação, a obtenção do quantil de ordem p, Qp, faz-se
da seguinte forma:
𝑄𝑝 = 𝑋(𝑛𝑝) + 1: 𝑛; se 𝑛𝑝 não é inteiro
1
𝑄𝑝 = 𝑥𝑛𝑝:𝑛 + 𝑥𝑛𝑝:𝑛 + 1: 𝑛 ; se 𝑛𝑝 inteiros
2
onde se representa por (np) a parte inteira de np.

quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)

quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)
Moda: para dados de natureza contínua ou de natureza discreta com
muitos valores distintos, a moda é dada pela classe modal ou por um
valor da classe modal, calculado por regras empíricas.

oIndicadores de dispersão:
Variância e desvio padrão
1
𝑆𝑥2 = σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 >var(x) # Variância
𝑛 −1
𝑆𝑥 = 𝑆𝑥2 >sd(x) >sd(x) # Desvio padrão
Propriedades
𝑆𝑥2 ≥ 0 e 𝑆𝑥 ≥ 0

oIndicadores de dispersão:
Coeficiente de variação (relativa) > sd (x)/mean(x)
Se todos 𝑋𝑖 ≥ 0 e algum 𝑋𝑖 ≠ 0
𝑆 𝑆
𝐶𝑉 = ou 𝐶𝑉 = ∗ 100%
𝑋ത 𝑋ത
Amplitude total
𝐴 𝑇 = 𝑋(𝑛) − 𝑋(1) # max(x) – min(x)
Amplitude inter-quartil
∗
𝐴𝐼𝑄 = 𝑄3 − 𝑄1 em que 𝑄1 = 𝑄0.25 ∗
𝑒 𝑄3 = 𝑄0.75 > IQR(x)

oIndicadores de forma:
Coeficiente de Assimetria
• simetria: média=mediana=moda
• assimetria positiva: média>mediana>moda
• assimetria negativa: média<mediana<moda É necessário o package fbasics > skewness(x)

oIndicadores de forma:
Coeficiente de achatamento
Fonte: http://www.portalaction.com.br/estatistica-basica/26-curtose
• igual a zero: como a normal
• positiva: mais aguçada do que a normal
• negativa: menos aguçada do que a normal É necessário o package fbasics > kurtosis(x)

oResumo dos indicadores:

summary(x)
basicStats(x)
T.P.C.
Calcular todos os indicadores para a veriável:
chokwe22$Prod_tonha

Obrigado!.......

Aula 3 - 5.estatísticas Descritivas - Aula Última

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 3 - 5.estatísticas Descritivas - Aula Última

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE DE DADOS

Unango aos 19 de Maio de 2021

Análise Exploratória de Dados e Estatísticas Descritiva Pag 2

o Ajuda sobre uma função

o Sobre um conjunto de dados

o Para pesquisar uma sequência de caracteres na lista de funções

Análise Exploratória de Dados e Estatísticas Descritiva Pag 3

oPara instalar um package

O package, é instalado automaticamente no computador

oPara usar um package já instalado:

oPara saber quais os packages instalados

Análise Exploratória de Dados e Estatísticas Descritiva Pag 4

oCriar um ficheiro de script

oUtilizar um ficheiro de script menu

oCriar o ficheiro de script aula3_descritiva.R e gravar na pasta de trabalho

Análise Exploratória de Dados e Estatísticas Descritiva Pag 5

oChama-se componente a cada um dos objectos da lista.

O resultado de muitas funções é uma lista.

aluno[[2]] # segunda componente

aluno$nome # componente designada 'nome'

Análise Exploratória de Dados e Estatísticas Descritiva Pag 6

help(chickwts) ## devolve informação sobre a dataframe

É a estrutura usual para armazenar tabelas de dados.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 7

help(chickwts) ## devolve informação sobre a dataframe

É a estrutura usual para armazenar tabelas de dados.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 8

Uma população pode ser estudada por censo ou amostragem.

o População ou universo: totalidade de elementos que possuem em comum

O censo proporciona uma precisão incontestável.

Quanto ao tamanho, a população classifica-se em finita e infinita.

o População de estudo ou amostragem: parcela da população-alvo identificável e

Análise Exploratória de Dados e Estatísticas Descritiva Pag 9

Amostragem: é o subconjunto de uma população

Análise Exploratória de Dados e Estatísticas Descritiva Pag 10

Análise Exploratória de Dados e Estatísticas Descritiva Pag 11

Análise Exploratória de Dados e Estatísticas Descritiva Pag 12

oDados: Variável COD_AJUDA da data frame culturas que se encontra

oDados: Variável region da data frame chokwe22 que se encontra no

Análise Exploratória de Dados e Estatísticas Descritiva Pag 13

plot(table(culturas$COD_AJUDA)) #com barras mais finas

ii) Representação gráfica: diagrama de barras

Análise Exploratória de Dados e Estatísticas Descritiva Pag 14

oDados: Nível de escolaridade mais elevado completo e sexo da população

i) Variável nivel é qualitativa ordinal

quantile(as.numeric(chokwe22$school), type=2) #quartis

Análise Exploratória de Dados e Estatísticas Descritiva Pag 15

Análise Exploratória de Dados e Estatísticas Descritiva Pag 16

Análise Exploratória de Dados e Estatísticas Descritiva Pag 17

Análise Exploratória de Dados e Estatísticas Descritiva Pag 18

Análise Exploratória de Dados e Estatísticas Descritiva Pag 19

Análise Exploratória de Dados e Estatísticas Descritiva Pag 20

Análise Exploratória de Dados e Estatísticas Descritiva Pag 21

x <- c(0:10, 50)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 22

Análise Exploratória de Dados e Estatísticas Descritiva Pag 23

oIndicadores de localização: (fonte:

Para facilitar a obtenção dos quantis, que se calculam a partir da amostra

Análise Exploratória de Dados e Estatísticas Descritiva Pag 24

oIndicadores de localização: (fonte:

Para facilitar a obtenção dos quantis, que se calculam a partir da amostra

Análise Exploratória de Dados e Estatísticas Descritiva Pag 25

oIndicadores de localização: (fonte: