Você está na página 1de 34

ANÁLISE DE DADOS

CAPÍTULO II
ANÁLISE EXPLORATÓRIA DE DADOS
E ESTATÍSTICAS DESCRITIVAS

Unango aos 19 de Maio de 2021


Por Aires Afonso Mbanze
Sequência da aula
o Algumas funções no R – Recapitulação
o Importação de dados e criação de scrips
o Lista & Data frames
o Alguns conceitos básicos sobre estatísticas descritivas
o Variável qualitativa nominal
o Variável qualitativa ordinal
o Variável quantitativa
o Indicadores de localização
o Indicadores de dispersão
o Indicadores de forma
o BoxPlots

Análise Exploratória de Dados e Estatísticas Descritiva Pag 2


Algumas funções no R

o Ajuda sobre uma função


help(median) ou ?median

o Sobre um conjunto de dados


?chickwts

o Sobre um package
help(package=datasets)

o Para pesquisar uma sequência de caracteres na lista de funções


help.search("median") ou > ??median

Análise Exploratória de Dados e Estatísticas Descritiva Pag 3


Algumas funções no R

oPara instalar um package


menu Packages −→ Install package(s)...

O package, é instalado automaticamente no computador

oPara usar um package já instalado:


menu Packages → Load package...

ou > library(package)

oPara saber quais os packages instalados


library()

Análise Exploratória de Dados e Estatísticas Descritiva Pag 4


Importação de dados e criação de scrips

oCriar um ficheiro de script


menu File → New script

oUtilizar um ficheiro de script menu


File → Open script...

oCriar o ficheiro de script aula3_descritiva.R e gravar na pasta de trabalho


oAbrir uma dataframe
load("C:/D_Drive/FCATotal/FCA2020/Anáise de
Dados/dataframes/df_culturas.RData")

Análise Exploratória de Dados e Estatísticas Descritiva Pag 5


Lista & Data frames
Uma lista é uma colecção ordenada de objectos, que podem ser de tipos diferentes (vectores
numéricos, vectores lógicos, matrizes, listas, funções, ...).

oChama-se componente a cada um dos objectos da lista.


oAs componentes são numeradas e podem ter um nome associado.
aluno <- list(numero=12345, nome="Paulo Cabral", notas=c(15,12.4,16.1,14.3),"Eng.Flor")

O resultado de muitas funções é uma lista.

oAs componentes de uma lista são indexadas e podem ser referidas pelo seu índice, utilizando
parêntesis rectos duplos. Também podem ser referidas pela sua designação, caso tenham.

aluno[[2]] # segunda componente

aluno$nome # componente designada 'nome'

Análise Exploratória de Dados e Estatísticas Descritiva Pag 6


Lista & Data frames

Uma data frame - é um caso particular de uma lista em que todas as componentes têm o
mesmo número de componentes.

Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.

help(chickwts) ## devolve informação sobre a dataframe


str(chickwts)
head(chickwts) # para visualizar as primeiras linhas
chickwts[,2] # notação matricial
chickwts[[2]] # notação de lista
hickwts$feed # notação de lista

É a estrutura usual para armazenar tabelas de dados.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 7


Uma data frame - é um caso particular de uma lista em que todas as componentes têm o
mesmo número de componentes.

Pode ser vista como uma matriz em que as colunas podem ter diferentes tipos. As
componentes podem ser selecionadas usando a notação matricial ou a notação de lista.

help(chickwts) ## devolve informação sobre a dataframe


str(chickwts)
head(chickwts) # para visualizar as primeiras linhas
chickwts[,2] # notação matricial
chickwts[[2]] # notação de lista
hickwts$feed # notação de lista

É a estrutura usual para armazenar tabelas de dados.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 8


Alguns conceitos básicos sobre estatísticas descritivas

Uma população pode ser estudada por censo ou amostragem.

o População ou universo: totalidade de elementos que possuem em comum


determinadas características de interesse para uma pesquisa.

O censo proporciona uma precisão incontestável.

Quanto ao tamanho, a população classifica-se em finita e infinita.

o População de estudo ou amostragem: parcela da população-alvo identificável e


passível de ser pesquisada.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 9


Alguns conceitos básicos sobre estatísticas descritivas

Amostragem: é o subconjunto de uma população


que possa representá-la.

Vantagens da amostragem
oSuprir a escassez de recursos;
oEconomia de tempo;
oPrecisão dos dados ;
oTestes destrutivos.
NOTA: Nem sempre é necessário estudar toda a
população, basta analisar parte desta para tirar
conclusões fidedignas sobre a população.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 10


Natureza dos dados

oQualitativa
i) nominal: expressa uma qualidade não ordenável;
ii) ordinal: expressa uma qualidade ordenável
oQuantitativa
i) discreta: toma valores numéricos em número finito ou infinito
ii) numerável contínua: toma valores em intervalos reais

Análise Exploratória de Dados e Estatísticas Descritiva Pag 11


Representação dos dados

Análise Exploratória de Dados e Estatísticas Descritiva Pag 12


Variável Qualitativa Nominal

oDados: Variável COD_AJUDA da data frame culturas que se encontra


no workspace “df_culturas.RData”
i) Tabela de frequências
table(culturas$COD_AJUDA)

oDados: Variável region da data frame chokwe22 que se encontra no


workspace “chokwe22.xlsx”
ii) Tabela de frequências

table(chokwe22$region)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 13


Variável Qualitativa Nominal

oIndicadores: moda
i) Representação gráfica: diagrama de barras

plot(culturas$COD_AJUDA)

barplot(table(culturas$COD_AJUDA))

plot(table(culturas$COD_AJUDA)) #com barras mais finas

ii) Representação gráfica: diagrama de barras


plot(table(chokwe22$region))

Análise Exploratória de Dados e Estatísticas Descritiva Pag 14


Variável Qualitativa Ordinal

oDados: Nível de escolaridade mais elevado completo e sexo da população


activa nos Açores (INE, 16 Fev 2011). Os dados estão armazenados na
data frame escolar, que se encontra no workspace “escolaridade.RData”.

i) Variável nivel é qualitativa ordinal

table(escolar$nivel)
ii) Variável nivel é qualitativa ordinal (data frame chokwe22)
quantile(chokwe22$school) #dá erro

quantile(as.numeric(chokwe22$school), type=2) #quartis

Análise Exploratória de Dados e Estatísticas Descritiva Pag 15


Variável Qualitativa Ordinal

oIndicadores: moda
Representação gráfica: diagrama de barras
Tabela de contingência para duas variáveis qualitativas
Variáveis sexo e nivel de escolaridade
i) Data frame escolar: table(escolar$sexo, escolar$nivel)
ii) Data frame chokwe22: table(chokwe22$gender, chokwe22$school)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 16


Variável Qualitativa Ordinal

oIndicadores: moda
Representação gráfica: diagrama de barras para duas variáveis
i) Data frame chokwe22:
barplot(table(chokwe22$gender,chokwe22$school),

beside=T,col=c("blue","pink"))

legend(x="topright",legend=c("Mulher", "Homem"),

fill=c("pink","blue"))

Análise Exploratória de Dados e Estatísticas Descritiva Pag 17


Variável quantitativa

oTabelas de frequência:
Nota: Quando os dados são de natureza contínua ou de
natureza discreta com muitos valores distintos é necessário agrupar os
dados em classes.
Número de classes?
𝐿𝑜𝑔𝑛
Usar regra de Sturges: 1 +
𝐿𝑜𝑔2

Análise Exploratória de Dados e Estatísticas Descritiva Pag 18


Variável quantitativa

oTabelas de frequência:
Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe

Análise Exploratória de Dados e Estatísticas Descritiva Pag 19


Variável quantitativa

oTabelas de frequência:
Histogramas
hist(chokwe22$`Prod_kg/ha`) #histograma: observar simetria e
existência de uma moda
hist(chokwe22$`Prod_kg/ha`,plot=F) #devolve uma lista
breaks: limites das classes
counts: frequência absoluta de cada classe

Análise Exploratória de Dados e Estatísticas Descritiva Pag 20


Variável quantitativa

oTabelas de frequência:
Histogramas
density: (frequência relativa / amplitude) de cada classe
mids: ponto médio de cada classe
equidist: valor lógico que indica se as classes têm ou não amplitude
constante

Análise Exploratória de Dados e Estatísticas Descritiva Pag 21


Variável quantitativa

oIndicadores de localização:
Média
Amostragem: 𝑥1 + 𝑥2 + 𝑥3 + … . 𝑥𝑛
𝑛
1
𝑥ҧ = ෍ 𝑥𝑖
𝑛
𝑖=1

x <- c(0:10, 50)


mean(x); [1] 8.75

Análise Exploratória de Dados e Estatísticas Descritiva Pag 22


Variável quantitativa

oIndicadores de localização:
Mediana
Amostra ordenados: 𝑥1 ≤ 𝑥2 ≤ 𝑥3 ≤ … . 𝑥𝑛
𝑋෨ = 𝑋(𝑛+1) se n for ímpar
2

1
𝑋(𝑛) + 𝑋(𝑛+1) se n for par
2 2 2

Análise Exploratória de Dados e Estatísticas Descritiva Pag 23


Variável quantitativa

oIndicadores de localização: (fonte:


https://wikiciencias.casadasciencias.org/wiki/index.php/Quantis)
Quartil de ordem p: com 0 < p < 1
Dada uma amostra (ou coleção de dados), define-se uma medida de localização a
que se dá o nome de quantil de ordem p, com 0 < p < 1, como sendo o valor Qp tal
que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes
100(1 - p)% elementos da amostra são maiores ou iguais a Qp.

Para facilitar a obtenção dos quantis, que se calculam a partir da amostra


ordenada, considere-se a seguinte notação para a amostra de dimensão n, x1, x2,
..., xn, depois de ordenada, por ordem crescente:
• x1:n, x2:n, ..., xn:n

Análise Exploratória de Dados e Estatísticas Descritiva Pag 24


Variável quantitativa

oIndicadores de localização: (fonte:


https://wikiciencias.casadasciencias.org/wiki/index.php/Quantis)
Quartil de ordem p: com 0 < p < 1
Dada uma amostra (ou coleção de dados), define-se uma medida de
localização a que se dá o nome de quantil de ordem p, com 0 < p < 1, como
sendo o valor Qp tal que 100p% dos elementos da amostra são menores ou
iguais a Qp e os restantes 100(1 - p)% elementos da amostra são maiores ou
iguais a Qp.

Para facilitar a obtenção dos quantis, que se calculam a partir da amostra


ordenada, considere-se a seguinte notação para a amostra de dimensão n,
x1, x2, ..., xn, depois de ordenada, por ordem crescente:
• x1:n, x2:n, ..., xn:n

Análise Exploratória de Dados e Estatísticas Descritiva Pag 25


Variável quantitativa

oIndicadores de localização: (fonte:


https://wikiciencias.casadasciencias.org/wiki/index.php/Quantis)

Quartil de ordem p: com 0 < p < 1


Com esta notação, a obtenção do quantil de ordem p, Qp, faz-se
da seguinte forma:
𝑄𝑝 = 𝑋(𝑛𝑝) + 1: 𝑛; se 𝑛𝑝 não é inteiro
1
𝑄𝑝 = 𝑥𝑛𝑝:𝑛 + 𝑥𝑛𝑝:𝑛 + 1: 𝑛 ; se 𝑛𝑝 inteiros
2

onde se representa por (np) a parte inteira de np.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 26


Variável quantitativa

oIndicadores de localização:
Quartil de ordem p: com 0 < p < 1
quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 27


Variável quantitativa

oIndicadores de localização:
Quartil de ordem p: com 0 < p < 1
quantile(x)
quantile(x,type=2)
quantile(x,prob=c(0.1,0.9),type=2)
Moda: para dados de natureza contínua ou de natureza discreta com
muitos valores distintos, a moda é dada pela classe modal ou por um
valor da classe modal, calculado por regras empíricas.

Análise Exploratória de Dados e Estatísticas Descritiva Pag 28


Variável quantitativa

oIndicadores de dispersão:
Variância e desvio padrão
1
𝑆𝑥2 = σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 >var(x) # Variância
𝑛 −1

𝑆𝑥 = 𝑆𝑥2 >sd(x) >sd(x) # Desvio padrão

Propriedades
𝑆𝑥2 ≥ 0 e 𝑆𝑥 ≥ 0

Análise Exploratória de Dados e Estatísticas Descritiva Pag 29


Variável quantitativa

oIndicadores de dispersão:
Coeficiente de variação (relativa) > sd (x)/mean(x)

Se todos 𝑋𝑖 ≥ 0 e algum 𝑋𝑖 ≠ 0
𝑆 𝑆
𝐶𝑉 = ou 𝐶𝑉 = ∗ 100%
𝑋ത 𝑋ത

Amplitude total

𝐴 𝑇 = 𝑋(𝑛) − 𝑋(1) # max(x) – min(x)

Amplitude inter-quartil

𝐴𝐼𝑄 = 𝑄3 − 𝑄1 em que 𝑄1 = 𝑄0.25 ∗
𝑒 𝑄3 = 𝑄0.75 > IQR(x)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 30


Variável quantitativa

oIndicadores de forma:
Coeficiente de Assimetria

• simetria: média=mediana=moda
• assimetria positiva: média>mediana>moda
• assimetria negativa: média<mediana<moda É necessário o package fbasics > skewness(x)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 31


Variável quantitativa

oIndicadores de forma:
Coeficiente de achatamento

Fonte: http://www.portalaction.com.br/estatistica-basica/26-curtose
• igual a zero: como a normal
• positiva: mais aguçada do que a normal
• negativa: menos aguçada do que a normal É necessário o package fbasics > kurtosis(x)

Análise Exploratória de Dados e Estatísticas Descritiva Pag 32


Variável quantitativa

oResumo dos indicadores:


summary(x)
basicStats(x)

T.P.C.

Calcular todos os indicadores para a veriável:

chokwe22$Prod_tonha

Análise Exploratória de Dados e Estatísticas Descritiva Pag 33


Variável quantitativa

Obrigado!.......

Análise Exploratória de Dados e Estatísticas Descritiva Pag 34

Você também pode gostar