Você está na página 1de 54

Estatística descritiva

Também designada
Análise exploratória de dados ou
Análise preliminar de dados

1
Estatística descritiva vs inferencial

 Estatística Descritiva: conjunto de métodos


estatísticos que visam sumariar e descrever
os atributos mais proeminentes aos dados.

 Estatística Inferencial: conjunto de métodos


estatísticos que visam caracterizar (ou inferir
sobre) uma população a partir de uma parte
dela (a amostra).

2
x

Estatísticas ou medidas amostrais


 Estatística ou medida amostral: uma medida
numérica que descreve alguma característica
de uma amostra. É habitualmente representada
por letras latinas. Por exemplo: x (média), s (desvio
padrão), r (coeficiente de correlação)

Amostra

Estatística / medida amostral


3
Parâmetros

 Parâmetro: uma medida numérica que


descreve alguma característica de uma
população. É habitualmente representado por
letras gregas. Por exemplo: μ (média), σ (desvio
padrão), ρ (coeficiente de correlação)

População

Parâmetro

4
Ferramentas de Estatística Descritiva

 Cálculo numérico de medidas amostrais.

 Resumo e descrição global dos dados


através da construção de tabelas e de
gráficos.

 Análise e interpretação dos resultados


obtidos.

5
Medidas amostrais

 Tendência ou localização central:


 média (mean),
 mediana (median),
 moda (mode),
 média aparada (trimmed mean).

6
Medidas amostrais

 Localização relativa:
 Mínimo (minimum),
 Máximo (maximum),
 Quantil (quantile),
 Quartil (quartile),
 Percentil (percentile).

7
Medidas amostrais

 Dispersão:
 amplitude (range),
 distância inter-quartil (inter-quartile range),
 variância (variance),
 desvio padrão (standard deviation),
 coeficiente de variação (coefficient of variation),

8
Medidas amostrais

 Assimetria:
 Coeficiente de assimetria (skweness).

9
Tabelas de frequências

 Tabelas que resumem a informação contida


na amostra, ordenando os seus valores e
agrupando-os em classes (de valores
repetidos ou de valores distribuídos por
intervalos).

10
Gráficos

 Gráficos de frequências
 Histogramas
 Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
 Diagramas de caule-e-folhas (stem and leaf)
 Diagramas de dispersão (scatterplot)

11
Descrição resumida das várias
ferramentas de Estatística
descritiva

12
Ordenação e tabela de frequências

 Tipos de frequências:
 Frequência absoluta
 Frequência relativa
 Frequência absoluta acumulada
 Frequência relativa acumulada
 Uma tabela de frequências é uma tabela
onde figuram os valores de pelo menos um
destes tipos de frequências.

13
Tabela de frequências
 Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o nº de golfinhos
presos nas redes dos pescadores das águas Açoreanas.
nº de golfinhos presos num dia

Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0

14
Medidas amostrais

 Tendência ou localização central:


 média (mean),
 mediana (median),
 moda (mode),
 média aparada (trimmed mean).

15
Medidas de localização central:
Média
 Média: Numa amostra de n observações, x1, x2, …, xn
n

x1  x2  ...  xn x x i
i
x   i 1

n n n
Se os dados estiverem agrupados (k valores distintos)
k

x1* f1  x2* f 2  ...  xn* f n  i fi


x *

 x *
f
i i
x  i 1

n n n

onde fi designa a frequência absoluta de xi* (ou a frequência absoluta


da classe com marca xi* no caso de dados agrupados em classes)

16
Medidas de localização central:
Média
 A média pode ser pensada como o centro de massa
dos valores das observações, ie, o ponto de
equilibrio após dispormos as observações sobre
uma régua.

Pontos afastados ou erros nas observações podem


afastar a média do grosso das observações.

17
Medidas de localização central: Mediana

 A mediana á a observação central, depois de


ordenada a amostra.
Se a amostra tiver dimensão ímpar, coincide com a
observação central. Exemplo:
Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é 2.1 .
Se a amostra tiver dimensão par, a mediana toma o valor da
média das duas observações mais centrais.
Exemplo:
Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é 0.8.
 A mediana é mais robusta que a média a erros ou a
observações afastadas.

18
Medidas de localização central: Média
aparada
 Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
 Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações em
cada extremo da amostra.

19
Medidas de localização central:
Moda
 A moda é o valor mais frequente de uma amostra.

 Ao contrário do que acontece com a mediana e a


média, uma amostra pode possuir mais do que uma
moda.

Moda

20
Medidas de localização central:
Moda
 A moda é a única medida de localização central que
pode ser utilizada para dados numa escala nominal.
 A moda pode não ter significado, especialmente em
dados de natureza contínua ou em dados discretos
com poucas observações repetidas!
 Quando os dados estão agrupados em classes
podemos falar da classe modal, ou seja, da classe
com maior frequência.

21
Medidas amostrais

 Localização relativa:
 Mínimo (minimum),
 Máximo (maximum),
 Quantil (quantile),
 Quartil (quartile),
 Percentil (percentile).

22
Medidas de localização relativa:
Mínimo e Máximo

 Mínimo – é o valor mais reduzido da amostra


 Máximo – é o valor mais elevado da amostra

23
Medidas de localização relativa: Quartis

 Quartis – são os valores (Q1, Q2 e Q3) que


dividem a amostra, depois de ordenada, em
quatro partes iguais (ou o mais iguais
possível). Q2 coincide com a mediana.

24
Medidas de localização relativa: Quantis
e Percentis
 Quantil de ordem p (0≤ p ≤ 1)– é um valor, xp,
que divide a amostra em duas partes, tal que
à esquerda de xp está a proporção p da
amostra e à direita a proporção 1-p.
 Percentil de ordem p (p vai de 1 a 100) - é o
mesmo que um quantil mas em que a
proporção é dada em percentagem.

25
Medidas amostrais

 Dispersão:
 amplitude (range),
 distância inter-quartil (inter-quartile range),
 variância (variance),
 desvio padrão (standard deviation),
 coeficiente de variação (coefficient of variation),

26
Medidas de dispersão: Amplitude

 A amplitude de uma amostra é a diferença


entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a
amplitude é 2.3 - 1.2 = 1.1.

27
Medidas de dispersão: Distância inter-
quartil

 Distância inter-quartil – é a diferença entre o


3º e o 1º quartis, Q3 - Q1.

 No intervalo que vai de Q1 a Q3 encontram-se


50% das observações (as mais centrais).

28
Medidas de dispersão: variância
 A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.

 Habitualmente considera-se uma versão corrigida


da variância

29
Medidas de dispersão: desvio padrão
 A variância não vem representada na mesma unidade das
observações. Se tomarmos a raiz quadrada da variância
obtemos o desvio padrão que também é uma medida de
dispersão e vem na mesma unidade das observações.

 Nos programas de estatística e nas máquinas de calcular o


que aparece são as versões corrigidas da variância e do
desvio padrão.
 O desvio padrão e a variância podem ser fortemente
afectados por erros ou observações muito afastadas.

30
Medidas de dispersão: coeficiente de
variação
 O Coeficiente de variação é a razão entre o desvio
padrão e a média, v = s / x.

 Trata-se de uma medida relativa de dispersão e por


isso não tem unidades.

31
Medidas amostrais: assimetria
 Coeficiente de assimetria – é uma medida que
assume o valor zero quando a distribuição de
frequências da amostra é completamente
simétrica e assume valores diferentes de zero
(positivos ou negativos) quando a distribuição não
é simétrica.

 Atenção que numa amostra é quase impossível observar


simetria pura. Por isso o coeficiente de assimetria assume
valores quase sempre diferentes de zero. Para termos uma
ideia se a assimetria é relevante devemos comparar o
valor do coeficiente com o erro associado. Se o coeficiente
não exceder 2 ou 3 vezes o erro, o seu valor não será
muito relevante, especialmente quando queremos
extrapolar para a população.

32
Medidas amostrais: assimetria
 Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da amostra.

Assimetria positiva Quase simetria Assimetria negativa


Coef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0

33
Medidas amostrais: assimetria
 A assimetria também pode ser avaliada comparando
os valores da média, mediana e moda (desde que
esta última faça sentido).

Assimetria positiva:

moda < mediana < média

moda média
mediana

34
Medidas amostrais: assimetria

Assimetria negativa: média < mediana < moda

Simetria pura: média = mediana = moda

Simetria aproximada: média ~ mediana ~ moda

35
Gráficos

 Gráficos de frequências
 Histogramas
 Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
 Diagramas de caule-e-folhas (stem and leaf)
 Diagramas de dispersão (scatterplot)

36
Histogramas
 O histograma é um gráfico que reflecte a forma da
distribuição de frequências da amostra. Também
procura reflectir a estrutura (forma) da população de
onde foi retirada a amostra.
 Para construir um histograma é necessário primeiro
repartir os dados por classes e depois calcular as
respectivas frequências. O histograma é um gráfico
de frequências construído a partir desta tabela de
frequências (por classes). Os histogramas são
particularmente úteis para variáveis contínuas ou
variáveis com poucos valores repetidos.

37
Histogramas

 A apresentação do histograma depende


muito do número de classes considerado.
Um número muito grande de classes produz
um histograma com demasiada
irregularidade, enquanto um histograma com
um número demasiado reduzido de classes
oculta a forma da distribuição (perde-se
demasiada informação).

38
Histogramas

Poucas classes Muitas classes

39
Gráficos de frequências
 Gráficos de frequências são gráficos de barras que
traduzem graficamente o conteúdo da tabela de
frequências. Os mais habituais são os gráficos de
frequências absolutas ou relativas, mas também
podemos construir gráficos de frequências
absolutas ou relativas acumuladas.
 Os gráficos de frequências (não acumuladas) são
apropriados para dados qualitativos ou numéricos
discretos (ou que se comportam como tal). Quando
as frequências absolutas são reduzidas e a gama
de valores da amostra é dispersa os gráficos de
frequências tornam-se pouco interessantes (muito
irregulares).

40
Gráficos de frequências
 Chama-se função de distribuição empírica à função
cuja imagem gráfica é o gráfico de frequências
relativas acumuladas.

100%

Exemplo: 75%

50%

25%

0%
0 1 2 3

41
Caixas de bigodes

 Pode ser encarada como a representação


gráfica de algumas medidas de localização:
mediana
Q1 Q3 outliers e extremos

42
Caixas de bigodes

Mínimo da amostra Máximo da amostra


mas não menos de mas não mais de
Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1)

43
Caixa de bigodes
 Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm representados
outliers.
 As caixas de bigodes dão informação sobre
 A localização central: mediana
 Outras localizações: 1º e 3º quartis e mínimo e
máximo.
 Dispersão: amplitude e distância inter-quartil
 Assimetria: posição relativa da mediana na caixa,
comprimento dos bigodes.

44
Caixas de bigodes

Assimetria positiva Simetria Assimetria negativa

45
Caixa de bigodes comparativas

 As caixas de bigodes também são úteis para


comparar várias amostras num mesmo
gráfico, caixas de bigodes comparativas.

46
Caixas de bigodes comparativas
 Exercício 3 da folha 2:

47
Diagramas de caule e folha
 Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)
diametro Stem-and-Leaf Plot
Exemplo:
Frequency Stem & Leaf
(10.5 10.7 10.8
11.0 11.0 11.1 3,00 10 . 578
8,00 11 . 00123447
11.2 11.3 11.4 3,00 12 . 099
11.4 11.7 12.0 3,00 13 . 378
12.9 12.9 13.3 2,00 14 . 01
13.7 13.8 14.0 Stem width: 1,00
14.1) Each leaf: 1 case(s)

48
Diagramas de caule e folha
Outro exemplo: altura Stem-and-Leaf Plot

Frequency Stem & Leaf


(63 64 65 66
2,00 6. 34
66 69 71 71 72 4,00 6. 5669
……… 6,00 7. 112244
8,00 7. 55566789
…....85 86 87) 9,00 8. 000001123
3,00 8. 567

Stem width: 10,00


Each leaf: 1 case(s)
Devemos multiplicar cada
valor por 10 para recuperar
os dados.

49
Formas de distribuições

 Os gráficos de frequências, histogramas,


diagramas de caule-e-folhas (e em parte as
caixas de bigodes) dão-nos informação
quanto à forma da distribuição dos dados (e
consequentemente da população de onde
foram retirados)
 Existem distribuições de vários tipos:
unimodais, bimodais e multimodais

50
Formas de distribuições

Exemplo:
unimodal bimodal

51
Diagramas de dispersão

 Os diagramas de dispersão são gráficos que


permitem relacionar duas variáveis entre si.

 Representam-se pares de dados (x,y), onde


no eixo horizontal marcam-se os valores de x
e no eixo vertical os valores de y

52
Diagramas de dispersão
 Exemplo: pesos e comprimentos de 414 recém-
nascidos.

53
Matrix de diagramas de dispersão
 Exercício 4 da folha 2: Árvores

54

Você também pode gostar