Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Oficina I - Análise Exploratória de Dados
2
Oficina I - Análise Exploratória de Dados
3
Oficina I - Análise Exploratória de Dados
4
Oficina I - Análise Exploratória de Dados
Será que as pessoas deveriam poder ter armas de fogo com maior
facilidade?
5
Oficina I - Análise Exploratória de Dados
Planeamento de Experiências
6
Oficina I - Análise Exploratória de Dados
Variáveis estatísticas
7
Oficina I - Análise Exploratória de Dados
TIPOS DE VARIÁVEIS
8
Oficina I - Análise Exploratória de Dados
9
Oficina I - Análise Exploratória de Dados
Neste contexto,
1 n
Exemplos: Média aritmética de uma amostra ( x ), dada por x = ∑x ,
n i =1 i
AMOSTRAGEM
PLANEAMENTO
DE
EXPERIÊNCIAS
ESTATÍSTICA
DESCRITIVA
ANÁLISE
EXPLORATÓRIA
10
Oficina I - Análise Exploratória de Dados
Modelação
TEORIA DA
PROBABILIDADE
INFERÊNCIA
ESTATÍSTICA PREVISÃO
11
Oficina I - Análise Exploratória de Dados
EXEMPLO:
Algum sucesso?
12
Oficina I - Análise Exploratória de Dados
Questão?
Questões?
EXEMPLO
História de um Sr Reitor…
13
Oficina I - Análise Exploratória de Dados
Também podemos cometer erros com o registo dos nossos dados. Vejamos
novamente o peso dos rins dos ratos de linhagem C.
Questão?
14
Oficina I - Análise Exploratória de Dados
É possível que não esteja activo “Análise de Dados”. Esta janela NÃO se
instala por defeito.
Sites de interesse:
• http://www.ine.pt
• http://www.math.uah.edu/psol/
• http://www.math.uah.edu/stat/
• http://alea-estp.ine.pt
• http://www.peterwebb.co.uk/probability.htm
15
Oficina I - Análise Exploratória de Dados
Uma inspecção aos dados é bastante importante para que a análise posterior
não seja “enganada” por dados incorrectos. Existem erros que podem ser
detectados antes da análise estatística.
16
Oficina I - Análise Exploratória de Dados
No entanto, deve-se ter em atenção que por vezes os dados em análise têm
uma estrutura sequencial e, se forem ordenados, tal estrutura pode ser
perdida. São exemplos de dados cronológicos: as temperaturas diárias de
uma dada cidade ao longo do ano, etc.
por máximo.
17
Oficina I - Análise Exploratória de Dados
x(′k ) ou x(*k ) .
EXEMPLO:
Se considerarmos a amostra x = ( 5.3, 2.7, − 1.2, 2.1, 4.1)
~
18
Oficina I - Análise Exploratória de Dados
x(1) = x( n ) = x( 42 ) =
DISTRIBUIÇÕES DE FREQUÊNCIAS
( 2,3,3,3,6,6,6,6,6,7,7,8,8,9 )
Assim podemos “escrever” a amostra anterior num quadro bem mais fácil
de interpretar:
19
Oficina I - Análise Exploratória de Dados
I xi ni
1 2 1
2 3 3
3 6 5
4 7 2
5 8 2
6 9 1
quociente
ni
fi =
n
sendo muito usual apresentar-se em forma de percentagem
ni
fi = × 100% .
n
20
Oficina I - Análise Exploratória de Dados
5
Assim, a frequência relativa da observação 6 é × 100% = 35.71% .
14
N i = ∑ n j com i , j = 1,..., k
j ≤i
Fi = ∑ f j , com i , j = 1,..., k .
j ≤i
21
Oficina I - Análise Exploratória de Dados
i xi ni N i f i (%) Fi (%)
1 2 1 1 7.14 7.14
2 3 3 4 21.43 28.57
3 6 5 9 35.71 64.29
4 7 2 11 14.29 78.57
5 8 2 13 14.29 92.86
6 9 1 N k = n =14 7.14 Fk =100
I xi ni Ni f i (%) Fi (%)
1 x1 n1 N1 f1 F1
. . . . . .
. . . . . .
K xk nk N k = n fk Fk =1(100%)
Totais n 1 (100%)
22
Oficina I - Análise Exploratória de Dados
1 2 0 3 2 1 1 0 6 1
0 4 0 0 3 1 1 3 0 2
1 1 1 2 1 2 4 0 0 0
Tem-se:
• dimensão da amostra: n=
• menor observação (mínimo): x(1) =
FREQUÊNCIA (matriz_dados;matriz_bin)
{=Frequência(DADOS!B2:B61,DADOS!G3:G9)}
{=contar.se(B2:B61,”CHN”)}
23
Oficina I - Análise Exploratória de Dados
“Um bom gráfico vale mil palavras. Um mau gráfico vale muito mais,
provavelmente, se mau significar deliberadamente enganador, e
estivermos a falar de publicidade…”
Dinis Pestana
Diagrama de barras
24
Oficina I - Análise Exploratória de Dados
Diagrama de Barras
12
Frequências Absolutas
10
0
0 1 2 3 4 5 6
xi
Diagrama de Barras
35%
30%
Frequências Relativas
25%
20%
15%
10%
5%
0%
0 1 2 3 4 5 6
xi
25
Oficina I - Análise Exploratória de Dados
Inserir->Gráfico->Colunas….
Gráfico de Barras
100%
Freq. Relativas
80%
Acumuladas
60%
40%
20%
0%
0 1 2 3 4 5 6
xi
26
Oficina I - Análise Exploratória de Dados
27
Oficina I - Análise Exploratória de Dados
x( n ) − x(1)
h = amplitude da classe =
nº de classes
• Os intervalos são abertos à esquerda e fechados à direita. No entanto,
se necessário, considerar o primeiro intervalo fechado à esquerda e à
direita.
1. ε = excesso = N * h − ( x( n ) − x(1) ) .
ε
2. A primeira classe deverá começar em x(1) − .
2
ε
3. A última classe deverá terminar em x( n ) + .
2
Cada classe tem um ponto muito importante: o seu ponto médio. O ponto
∗
médio de uma classe xi é a média aritmética dos limites inferior e superior
da classe. Atendendo a que se espera que as observações se distribuam
uniformemente dentro de cada classe, podemos dizer que o ponto médio
28
Oficina I - Análise Exploratória de Dados
• n = 42
• N = nº de classes = 6
52 − 38
• h = amplitude das classes = = 2.33 2.4
6
• ε = Excesso = 6 × 2.4 − 14 = 0.4
Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi
1 (37.8;40.2]
2 (40.2;42.6]
3 (42.6;45.0]
4 (45.0;47.4]
5 (47.4:49.8]
6 (49.8;52.2]
k k
∑n
i =1
i = 42 ∑f
i =1
i =1
29
Oficina I - Análise Exploratória de Dados
Intervalo: Ponto
Classe i ∗
ni Ni fi Fi
( xi , xi +1 ] Médio: xi
12
12
1 (37.8;40.2] 39 12 12 42
42
8
2 (40.2;42.6] 41.4 8 20 42
20
42
8
3 (42.6;45.0] 43.8 8 28 28
42
42
4 (45.0;47.4] 46.2 4 32 4
32
42
42
5 (47.4:49.8] 48.6 6 38 6
38
42
6 (49.8;52.2] 51 4 42 42
4
42
1
k k
∑n
i =1
i = 42 ∑f
i =1
i =1
30
Oficina I - Análise Exploratória de Dados
Ferramentas>análise de dados…->histograma
Histograma/Polígono de Frequências/Ogiva
50
45
40
35
Frequência
30
25
20
15
10
5
0
]37,8;40,2] ]40,2;42,6] ]42,6;45,0] ]45,0;47,4] ]47,4;49,8] ]49,8;52,2]
31
Oficina I - Análise Exploratória de Dados
EXEMPLO: Uma empresa pretende saber qual o salário médio dos seus
empregados. Obteve-se uma lista dos vencimentos em unidades monetárias
(u.m.) pagos no mês anterior
32
Oficina I - Análise Exploratória de Dados
80 + 121 + 75 + 85 + 90 + 80 + 110
vencimentomédio = = 91.57 u.m.
7
Também é evidente que várias amostras podem ter a mesma média embora
tenham estruturas subjacentes diversas.
x = y = z = 10 (verifique).
x = ( 3,9,7,15,12,19,4,11)
y = (10,11,8,10,11,12,9,9 )
z = (10,10,10,10,10,10,10,10 )
constante.
33
Oficina I - Análise Exploratória de Dados
∑( x − x )
i =1
i
mas
n n n
∑( x − x ) = ∑ x − ∑ x
i =1
i
i =1
i
i =1
n
= ∑ xi − nx
i =1
n
1 n
= ∑ xi − n ∑ xi = 0
i =1 n i=1
o que não releva interesse. Assim, uma solução será somarmos não os
desvios mas sim os seus quadrados,
∑( x − x )
2
i .
i =1
34
Oficina I - Análise Exploratória de Dados
1 n
var ( x ) = s = ∑ i ( )
2
2
x x − x .
n − 1 i =1
Caso não estejamos na presença de uma amostra, mas com a totalidade dos
elementos da população a variância da população é obtida por
1 n
= ∑ ( xi − x ) .
2
varPopulação
n i =1
x = ( 3,9,7,15,12,19,4,11) , y = (10,11,8,10,11,12,9,9 ) e
z = (10,10,10,10,10,10,10,10 )
Obviamente que s z = 0 .
2
35
Oficina I - Análise Exploratória de Dados
1 n
sx = var ( x ) = ∑ i ( )
2
x − x .
n − 1 i =1
xi − x
zi =
sx
QUESTÃO: Qual o efeito da transformação na amostra dos zi ?
36
Oficina I - Análise Exploratória de Dados
( xi − x )
2
De facto, atendendo a que = xi2 − 2 xxi + x 2 e usando a
linearidade dos somatórios mostra-se facilmente que
n
∑x 2
i − nx 2
s2 = i =1
.
n −1
Repare que a expressão anterior é mais prática de utilizar uma vez que
37
Oficina I - Análise Exploratória de Dados
x n+1 se n é ímpar
2
Med = x n + x n .
2 +1
2
se n é par
2
3, 6, 4, 2, 8, 7, 6, 4, 5, 8, 6.
2, 3, 4, 4, 5, 6 , 6, 6, 7, 8, 8
Med
Med = x 11+1 = x( 6) = 6 .
2
38
Oficina I - Análise Exploratória de Dados
2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8
5+6
=5.5
2
x( 6) + x( 7 )
isto é, Med = = 5.5
2
Mod .
39
Oficina I - Análise Exploratória de Dados
interessados em saber a altura máxima que o rio atinge e não tanto a altura
média. Neste contexto, estamos mais interessados no conceito de
localização extremal do que localização central.
x(1) .
R = x( n ) − x(1) .
x(α n ) se α n inteiro
Qα =
x([α n]+1) se α n não inteiro
40
Oficina I - Análise Exploratória de Dados
ou igual.
41
Oficina I - Análise Exploratória de Dados
s
CV = × 100%
x
42
Oficina I - Análise Exploratória de Dados
1 n
mk = ∑ ( xi − x ) .
k
n i =1
n2 m3
g1 = .
( )(
n − 1 n − 2 ) m2 3
m3
Repare que para grandes amostras, isto é n elevado, temos que g1 ≈ 3
.
s
43
Oficina I - Análise Exploratória de Dados
0,18 0,18
0,16 0,16
0,45
0,14 0,14
0,4
0,12 0,12
0,35
0,1 0,3 0,1
0,08 0,25 0,08
0,06 0,2
0,06
0,15
0,04 0,04
0,1
0,02 0,02
0,05
0 0 0
0 5 10 15 20 -4 -3 -2 -1 0 1 2 3 4 0 5 10 15 20
g1 > 0 g1 = 0 g1 < 0
Assim:
44
Oficina I - Análise Exploratória de Dados
n 2 ( n + 1) ( n − 1) .
2
m
g2 = ⋅ 42 − 3 ⋅
( n − 1)( n − 2 )( n − 3) m2 ( n − 2 )( n − 3)
próximo de
m4
g2 = −3
m2 2
sendo esta a expressão mais utilizada na prática.
45
Oficina I - Análise Exploratória de Dados
Se
• g 2 > 0 a distribuição é leptocúrtica (os dados estão
concentrados no centro, pelo que a distribuição apresenta um forte pico no
centro).
• g 2 < 0 a distribuição é platocúrtica (os dados estão dispersos,
pelo que a distribuição é mais achatada no centro e caudas pesadas).
• g 2 = 0 a distribuição é mesocúrtica (para o caso da distribuição
Normal).
0,9
0,8
0,7
0,6
0,5 Mesocúrtica
Leptocúrtica
0,4 Platocúrtica
0,3
0,2
0,1
0
-4 -2 0 2 4
46
Oficina I - Análise Exploratória de Dados
Características
Expressão
Amostrais
1 k k
x x = ∑ xi ni = ∑ xi fi
n i =1 i =1
1 k n k
∑ ( xi − x ) ni = ∑ fi ( xi − x )
2 2
2
s
n − 1 i =1 n − 1 i=1
1 k k
∑ ( xi − x ) ni = ∑ ( xi − x ) fi
p p
mp
n i =1 i =1
Por vezes os dados já nos são fornecidos agrupados, não sendo portanto
possível aceder aos dados originais. Nesta situação, dada uma tabela de
47
Oficina I - Análise Exploratória de Dados
Assim, o ponto médio de cada classe vai representar cada uma das
observações da respectiva classe.
xi .
Características
Amostrais Expressão
Agrupadas
1 L L
x ∑
n i =1
xi ni = ∑ xi′ fi
′
i =1
1 L n L
∑ ( xi′ − x ) ni = ∑ fi ( xi′ − x )
2 2
2
s
n − 1 i =1 n − 1 i =1
1 L L
∑ i ( ) ∑ i ( )
p p
mp x ′ − x ni = x ′ − x fi
n i =1 i =1
48
Oficina I - Análise Exploratória de Dados
]42.6, 45.0] tem F1 = 66.66% , sendo este valor superior a 50%: é esta a
classe mediana.
49
Oficina I - Análise Exploratória de Dados
Neste caso, uma vez que possuímos os dados reais poderíamos fazer
comparações entre os parâmetros calculados com todos os dados e os
obtidos através dos dados agrupados, fazendo desta forma uma análise
sobre a qualidade do agrupamento.
Parece evidente que se um dado agrupamento dos dados for bom, produz
parâmetros amostrais muito próximos dos parâmetros que se obteriam com
os dados originais. Estando os dados disponíveis, dever-se-á fazer uma
comparação dos parâmetros de forma a validar as classes construídas.
50
Oficina I - Análise Exploratória de Dados
51
Oficina I - Análise Exploratória de Dados
4 | 065637
e nesta fase torna-se necessário considerar o caule 5 para prosseguir:
4 065637
e logo em seguida torna-se necessário considerar o caule 3
5 2
para acomodar o valor 39:
3 9
4 065637 .
5 2
Prosseguindo até ao fim da amostra, obtém-se a ordenação parcial
3 98988888
4 065637522401215892890628480415 .
5 2112
Basta agora, no segundo passo, ordenar as folhas de cada caule:
3 88888899
4 000011122222344455556667888899 .
5 1122
52
Oficina I - Análise Exploratória de Dados
42; 101
3 88888899
4 000011122222344455556667888899
5 1122
A ordenação das folhas dentro de cada caule foi trabalhosa, porque havia
muitas associadas ao caule 4. Por isso poderíamos ter optado, após simples
1
inspecção dos dados, por considerar “semicaules” de amplitude × 101 , e
2
pendurar as folhas 0,1,2,3,4 no primeiro, e as folhas 5,6,7,8,9 no segundo.
"∗"
Para guiar a vista, é bom usar o diacrítico para assinalar o segundo
semicaule.
Neste caso o primeiro passo levaria a
1
42; × 101
2
3∗ 98988888
4 0322401212024041
4∗ 65675589896885
5 2112
E o segundo passo levaria a
1
42; × 101
2
3∗ 88888899
4 0000111222223444
4∗ 55556667888899
5 1122
53
Oficina I - Análise Exploratória de Dados
∗
NOTA: Repare que as classes (caules) 3 e 5 não estão representadas no
diagrama de caule e folhas. Como não contêm elementos, estas são as
únicas classes que podem ser eliminadas. NUNCA elimine classes vazias
no meio do diagrama.
Poderíamos ter ido mais longe, e dividido cada caule em 5 subcaules (desta
1
vez de amplitude × 101 ), correspondendo às folhas 0 e 1, 2 e 3, 4 e 5, 6 e
5
7, e 8 e 9 respectivamente.
Os diacríticos usados para estes subcaules são “o” para o que suporta 0 e 1,
“t” para o que suporta 2 e 3 (two and three), “f” para o que suporta 4 e 5
"∗"
(four and five), “s” para o que suporta 6 e 7 (six and seven), e para o
último, suportando as folhas 8 e 9. No nosso exemplo o primeiro passo
levaria a
1
42; × 101
5
3∗ 98988888
4º 0011001
4t 322222
4 f 5545445
4 s 6676
4∗ 898988
5º 11
5t 22
54
Oficina I - Análise Exploratória de Dados
1
42; × 101
5
3∗ 98888889
4º 0000111
4t 222223
4 f 4445555
4 s 6667
4∗ 888899
5º 11
5t 22
55
Oficina I - Análise Exploratória de Dados
56
Oficina I - Análise Exploratória de Dados
( 2.3, 4.5,6.7,6.8,7.3,9.4,11.6 )
7 +1
n = 7 e prof ( M ) = = 4 , assim a mediana é 6.8.
2
( 5.4,6.2,6.6,6.8,7.2,9.5)
6 +1
n = 6 e prof ( M ) = = 3,5 .
2
Neste caso interpretamos a fracção 0,5 numa indicação que devemos fazer
interpolação de peso 0,5 entre os dois elementos de profundidade 3, os dois
elementos mais profundos daquela amostra. Assim,
6,6 + 6,8
M = 0,5 × 6,6 + 0,5 × 6,8 = = 6,7 ,
2
a média aritmética dos dois elementos centrais que existem numa amostra
de dimensão par.
57
Oficina I - Análise Exploratória de Dados
Nota: A profundidade das linhas acima da linha onde está a mediana é feita
de cima para baixo e da esquerda para a direita. O inverso para as linhas
abaixo da mediana.
58
Oficina I - Análise Exploratória de Dados
1
42; × 102
2
2 8∗ 89
10 9 00112223
13 9∗ 699
20 10 0011224
(4) 10∗ 6778
18 11 113444
12 11∗ 66
10 12 001112
4 12∗ 557
1 13 2
59
Oficina I - Análise Exploratória de Dados
Eighth”).
Z L e ZU , YL e YU , etc.
Por serem marcadas com letras, estas “estatísticas ordinais” que vão
avançando nas caudas das amostras, apontando para os valores a uma
1
profundidade da ordem são denominadas letras-resumo.
2k
n +1
Definição: Sabemos que a prof ( M ) = . Podemos definir a
2
profundidade de uma letra-resumo por:
60
Oficina I - Análise Exploratória de Dados
42 + 1
Temos n = 42 , e portanto prof ( M ) = = 21,5 , prof ( F ) = 11,
2
prof ( E ) = 6 , prof ( D) = 3,5 , prof (C ) = 2 , prof ( B ) = 1,5 e
Caixa com L − R
42 M 1065 21,5
F 965 1160 11
E 915 1215 6
D 900 1250 3.5
C 895 1275 2
B 890 1300 1.5
1 885 1325 1
61
Oficina I - Análise Exploratória de Dados
Caixa com L − R
42 M 1065 21,5
F 965 1062.5 1160 11
E 915 1065 1215 6
D 900 1075 1250 3.5
C 895 1085 1275 2
B 890 1095 1300 1.5
1 885 1105 1325 1
que neste caso revelam um resvalar para a direita, que a amostra tem uma
cauda direita mais comprida do que a esquerda, e ficamos assim a suspeitar
que o modelo adequado deve ter assimetria direita.
62
Oficina I - Análise Exploratória de Dados
Caixa com 5 L − R
n M M prof ( M )
F FL FU prof ( F )
1 x(1) x( n ) 1
dF = …
Barreiras:…;…
63
Oficina I - Análise Exploratória de Dados
42 M 1065 21.5
F 965 1160 11
1 885 1325 1
d F = 195
Barreiras: 672.5; 1452.5
exteriores.
64
Oficina I - Análise Exploratória de Dados
x = ( 7.2,8.4,8.7,8.9,8.9,9.1,9.2,9.5,9.6,9.7,9.9,11.7,15.9 )
Caixa-com-Bigodes ou Boxplot
65
Oficina I - Análise Exploratória de Dados
0 100 200 300 400 500 600 700 800 900 1000 1100
66
Oficina I - Análise Exploratória de Dados
Causas Percentagem
Tumores malignos 21.9%
Aparelho circulatório 34.9%
Aparelho respiratório 9.7%
Suicídios 0.3%
Outros 32.8%
67
Oficina I - Análise Exploratória de Dados
fi (radianos) (graus)
Tumores
21.9% 1.376 78.84
malignos
Aparelho
34.9% 2.193 125.64
circulatório
Aparelho
9.7% 0.609 34.92
respiratório
Suicídios 0.7% 0.044 2.52
Outros 32.8% 2.061 118.08
Tumores
malignos
Outros
22%
33%
Suicídio
0%
Aparelho Aparelho
respiratório circulatório
10% 35%
68
Oficina I - Análise Exploratória de Dados
40%
35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório
ou ainda também
35%
30%
25%
20%
15%
10%
5%
0%
Tumores Aparelho Aparelho Suicídio Outros
malignos circulatório respiratório
69