Escolar Documentos
Profissional Documentos
Cultura Documentos
Também designada
Análise exploratória de dados ou
Análise preliminar de dados
1
Estatística descritiva vs inferencial
2
x
Amostra
População
Parâmetro
4
Ferramentas de Estatística Descritiva
5
Medidas amostrais
6
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
7
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of variation),
8
Medidas amostrais
Assimetria:
Coeficiente de assimetria (skweness).
9
Tabelas de frequências
10
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
11
Descrição resumida das várias
ferramentas de Estatística
descritiva
12
Ordenação e tabela de frequências
Tipos de frequências:
Frequência absoluta
Frequência relativa
Frequência absoluta acumulada
Frequência relativa acumulada
Uma tabela de frequências é uma tabela
onde figuram os valores de pelo menos um
destes tipos de frequências.
13
Tabela de frequências
Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o nº de golfinhos
presos nas redes dos pescadores das águas Açoreanas.
nº de golfinhos presos num dia
Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0
14
Medidas amostrais
15
Medidas de localização central:
Média
Média: Numa amostra de n observações, x1, x2, …, xn
n
x1 x2 ... xn x x i
i
x i 1
n n n
Se os dados estiverem agrupados (k valores distintos)
k
x *
f
i i
x i 1
n n n
16
Medidas de localização central:
Média
A média pode ser pensada como o centro de massa
dos valores das observações, ie, o ponto de
equilibrio após dispormos as observações sobre
uma régua.
17
Medidas de localização central: Mediana
18
Medidas de localização central: Média
aparada
Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações em
cada extremo da amostra.
19
Medidas de localização central:
Moda
A moda é o valor mais frequente de uma amostra.
Moda
20
Medidas de localização central:
Moda
A moda é a única medida de localização central que
pode ser utilizada para dados numa escala nominal.
A moda pode não ter significado, especialmente em
dados de natureza contínua ou em dados discretos
com poucas observações repetidas!
Quando os dados estão agrupados em classes
podemos falar da classe modal, ou seja, da classe
com maior frequência.
21
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
22
Medidas de localização relativa:
Mínimo e Máximo
23
Medidas de localização relativa: Quartis
24
Medidas de localização relativa: Quantis
e Percentis
Quantil de ordem p (0≤ p ≤ 1)– é um valor, xp,
que divide a amostra em duas partes, tal que
à esquerda de xp está a proporção p da
amostra e à direita a proporção 1-p.
Percentil de ordem p (p vai de 1 a 100) - é o
mesmo que um quantil mas em que a
proporção é dada em percentagem.
25
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of variation),
26
Medidas de dispersão: Amplitude
27
Medidas de dispersão: Distância inter-
quartil
28
Medidas de dispersão: variância
A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.
29
Medidas de dispersão: desvio padrão
A variância não vem representada na mesma unidade das
observações. Se tomarmos a raiz quadrada da variância
obtemos o desvio padrão que também é uma medida de
dispersão e vem na mesma unidade das observações.
30
Medidas de dispersão: coeficiente de
variação
O Coeficiente de variação é a razão entre o desvio
padrão e a média, v = s / x.
31
Medidas amostrais: assimetria
Coeficiente de assimetria – é uma medida que
assume o valor zero quando a distribuição de
frequências da amostra é completamente
simétrica e assume valores diferentes de zero
(positivos ou negativos) quando a distribuição não
é simétrica.
32
Medidas amostrais: assimetria
Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da amostra.
33
Medidas amostrais: assimetria
A assimetria também pode ser avaliada comparando
os valores da média, mediana e moda (desde que
esta última faça sentido).
Assimetria positiva:
moda média
mediana
34
Medidas amostrais: assimetria
35
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
36
Histogramas
O histograma é um gráfico que reflecte a forma da
distribuição de frequências da amostra. Também
procura reflectir a estrutura (forma) da população de
onde foi retirada a amostra.
Para construir um histograma é necessário primeiro
repartir os dados por classes e depois calcular as
respectivas frequências. O histograma é um gráfico
de frequências construído a partir desta tabela de
frequências (por classes). Os histogramas são
particularmente úteis para variáveis contínuas ou
variáveis com poucos valores repetidos.
37
Histogramas
38
Histogramas
39
Gráficos de frequências
Gráficos de frequências são gráficos de barras que
traduzem graficamente o conteúdo da tabela de
frequências. Os mais habituais são os gráficos de
frequências absolutas ou relativas, mas também
podemos construir gráficos de frequências
absolutas ou relativas acumuladas.
Os gráficos de frequências (não acumuladas) são
apropriados para dados qualitativos ou numéricos
discretos (ou que se comportam como tal). Quando
as frequências absolutas são reduzidas e a gama
de valores da amostra é dispersa os gráficos de
frequências tornam-se pouco interessantes (muito
irregulares).
40
Gráficos de frequências
Chama-se função de distribuição empírica à função
cuja imagem gráfica é o gráfico de frequências
relativas acumuladas.
100%
Exemplo: 75%
50%
25%
0%
0 1 2 3
41
Caixas de bigodes
42
Caixas de bigodes
43
Caixa de bigodes
Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm representados
outliers.
As caixas de bigodes dão informação sobre
A localização central: mediana
Outras localizações: 1º e 3º quartis e mínimo e
máximo.
Dispersão: amplitude e distância inter-quartil
Assimetria: posição relativa da mediana na caixa,
comprimento dos bigodes.
44
Caixas de bigodes
45
Caixa de bigodes comparativas
46
Caixas de bigodes comparativas
Exercício 3 da folha 2:
47
Diagramas de caule e folha
Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)
diametro Stem-and-Leaf Plot
Exemplo:
Frequency Stem & Leaf
(10.5 10.7 10.8
11.0 11.0 11.1 3,00 10 . 578
8,00 11 . 00123447
11.2 11.3 11.4 3,00 12 . 099
11.4 11.7 12.0 3,00 13 . 378
12.9 12.9 13.3 2,00 14 . 01
13.7 13.8 14.0 Stem width: 1,00
14.1) Each leaf: 1 case(s)
48
Diagramas de caule e folha
Outro exemplo: altura Stem-and-Leaf Plot
49
Formas de distribuições
50
Formas de distribuições
Exemplo:
unimodal bimodal
51
Diagramas de dispersão
52
Diagramas de dispersão
Exemplo: pesos e comprimentos de 414 recém-
nascidos.
53
Matrix de diagramas de dispersão
Exercício 4 da folha 2: Árvores
54