Escolar Documentos
Profissional Documentos
Cultura Documentos
1-Estatística Descritiva
1-Estatística Descritiva
• N : tamanho da população;
• µ: média da população;
• σ: desvio-padrão da população.
• n: tamanho da amostra;
• s: desvio-padrão da amostra.
18 + 19 + 20
Idade média na amostra : x̄ = = 19 anos
3
A escala em que foi registada a opinião é ordinal, mas pode ser tra-
tada como se fosse quantitativa discreta, usando a codificação de 1 -
Discordo completamente a 5 - Concordo completamente. Esta escala é
habitualmente referida como uma escala de Likert de 5 pontos. Tendo
em conta a codificação usada, quanto maior for a média das respostas,
maior tende a ser a concordância dos inquiridos em relação à afirmação
apresentada.
X variável
x1 , . . . , x n observações da variável
n número total de observações
k número de valores distintos ou de classes de valores
ni frequência absoluta do valor ou classe de valores i
fi = ni
n frequência relativa do valor ou classe de valores i
Ni = n1 + . . . + ni frequência absoluta acumulada do valor ou
classe de valores i
Fi = f1 + . . . + fi frequência relativa acumulada do valor ou
Ni classe de valores i
=
n
Observações: x1, . . . , xn
Valores distintos: x01, . . . , x0k
Tabela de frequências:
Breve interpretação:
• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01
Com base na tabela, é possível dizer, por exemplo, que 4 dos 8 indivíduos
envolvidos no estudo, ou seja, 50%, são solteiros.
Observações: x1, . . . , xn
Valores distintos, por ordem crescente: x01 < . . . < x0k
Tabela de frequências:
Valores distintos Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(x0i ) (ni ) (fi ) (Ni ) (Fi )
n1
x01 n1 f1 = n N1 = n1 F1 = f 1
n2
x02 n2 f2 = n N2 = n1 + n2 F 2 = f1 + f2
.. .. .. .. ..
. . . . .
nk
x0k nk fk = n Nk = n Fk = 1
Total n 1
• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01
• F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor ou igual a x02
Uma variável quantitativa contínua pode tomar qualquer valor num in-
tervalo de números e, portanto, é alta a possibilidade de se observar
muitos valores distintos. Neste contexto, não faz muito sentido con-
siderar as frequências absolutas e relativas dos valores observados; a
tabela resultante não seria um verdadeiro resumo da informação re-
gistada. Definem-se então intervalos de valores (classes de valores) e
consideram-se as frequências absolutas e relativas desses intervalos (clas-
ses). O mesmo aplica-se quando a variável é quantitativa discreta e são
observados muitos valores distintos.
a = M − m,
c1 = [m, m + ac[
c2 = [m + ac, m + 2 × ac[
...
ck = [m + (k − 1) × ac, m + k × ac]
Observações: x1, . . . , xn
Classes: c1 = [L1, U1[, . . . , ck = [Lk , Uk ]
Pontos médios das classes: x01 < . . . < x0k , sendo o ponto médio da
classe ci = [Li, Ui[ dado por
Li + U i
x0i =
2
Tabela de frequências:
Classes P. médios Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
L1 +U1 n1
c1 = [L1 , U1 [ x01 = 2 n1 f1 = n N1 = n1 F 1 = f1
L2 +U2 n2
c2 = [L2 , U2 [ x02 = 2 n2 f2 = n N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. .. ..
. . . . . .
Lk +Uk nk
ck = [Lk , Uk ] x0k = 2 nk fk = n Nk = n Fk = 1
Total n 1
4.1 5.8 5.8 6.1 6.7 7.0 7.0 7.5 7.5 7.5 7.7 8.2
8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 9.2 9.4 9.4
9.7 9.8 10.0 10.0 10.2 10.2 10.3 10.6 10.6 10.8 10.9 10.9
11.6 11.7 11.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7
8.3 9.4 11.0 14.0 8.5 9.5 11.1 14.2 8.7 9.5 11.1 14.8
1. Número de classes:
ln(n) ln(60)
k= +1= + 1 = b5.906 . . .c + 1 = 5 + 1 = 6
ln(2) ln(2)
Produção diária (t) Pontos N.º de Prop. de N.º acum. de Prop. acum. de
Classes médios dias dias dias dias
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
[4.1, 5.9[ 5 3 0.050 3 0.050
[5.9, 7.7[ 6.8 7 0.117 10 0.167
[7.7, 9.5[ 8.6 18 0.300 28 0.467
[9.5, 11.3[ 10.4 17 0.283 45 0.750
[11.3, 13.1[ 12.2 12 0.200 57 0.950
[13.1, 14.9] 14 3 0.050 60 1.000
Total 60 1.000
Com base na tabela, é possível dizer, por exemplo, que a produção foi
inferior a 11.3 toneladas em 75% dos dias considerados e que se situou
n1 × x01 + . . . + nk × x0k
=
n
= f1 × x01 + . . . + fk × x0k
16 × 0 + 32 × 1 + . . . + 25 × 5
x̄ = ≈ 2.9 acidentes
397
ou
3 × 5 + 7 × 6.8 + . . . + 3 × 14
x̄ = = 9.71 t
60
ou
6 × 10 + 3 × 14 + 3 × 15
x̄w = = 12.25 valores.
6+3+3
No primeiro caso, dá-se a mesma importância às classificações obtidas
nas três disciplinas. No segundo caso, dá-se maior importância à clas-
sificação obtida na disciplina A, cujo ECTS é maior.
n1 × x012 + . . . + nk × x0k2 − n × x̄ 2
=
n−1
n 0 2 0 2
= × f1 × (x1 − x̄) + . . . + fk × (xk − x̄)
n−1
• e calcula-se em seguida o desvio-padrão s:
√
s = s2
1138
Média: x̄ = ≈ 2.9 acidentes
397
3814 − 397 × 2.92
Variância: s = 2
≈ 1.2 acidentes 2
397 − 1
√
Desvio-padrão: s = 1.2 ≈ 1.1 acidentes
582.6
Média: x̄ = = 9.71 t
60
5942.76 − 60 × 9.712
Variância: s =
2
≈ 4.84 t2
60 − 1
√
Desvio-padrão: s = 4.84 ≈ 2.20 t
Desvio-padrão: s ≈ 2.20 t
Média: x̄ ≈ 9.71 t
• Q1 = P25 = 2 acidentes:
25
j= × 397 = 99.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(100) = 2
• Q2 = x̃ = P50 = 3 acidentes:
50
j= × 397 = 198.5 não é inteiro, logo
100
P50 = x(bjc+1) = x(199) = 3
• Q3 = P75 = 4 acidentes:
75
j= × 397 = 297.75 não é inteiro, logo
100
P75 = x(bjc+1) = x(298) = 4
• Q1 = P25 = 8.6 t:
25
j= × 60 = 15 é inteiro, logo
100
x(j) + x(j+1) x(15) + x(16) 8.6 + 8.6
P25 = = = = 8.6
2 2 2
• Q2 = x̃ = P50 = 10.4 t:
50
j= × 60 = 30 é inteiro, logo
100
x(j) + x(j+1) x(30) + x(31) 10.4 + 10.4
P50 = = = = 10.4
2 2 2
• Q3 = P75 = 11.3 t:
75
j= × 60 = 45 é inteiro, logo
100
x(j) + x(j+1) x(45) + x(46) 10.4 + 12.2
P75 = = = = 11.3
2 2 2
Assim, é possível dizer que em 25% dos 60 dias considerados a produção
foi, no máximo, de 8.6 toneladas, em 50% dos dias foi, no máximo, de
10.4 toneladas e em 75% dos dias foi, no máximo, de 11.3 toneladas.
AIQ = Q3 − Q1.
AIQ = Q3 − Q1 = 4 − 2 = 2 acidentes.
Conforme já foi referido, uma variável ordinal com mais de três catego-
rias pode ser tratada como se fosse uma variável quantitativa discreta.
Para tal, regra geral, codifica-se a menor categoria como 1, a segunda
como 2, etc. No caso de as categorias serem intervalos limitados de
números, a codificação é feita usando o correspondente ponto médio.
Assim, pode-se determinar todas as medidas estatísticas introduzidas
anteriormente para dados quantitativos. No caso de a variável ordinal
ter duas ou três categorias, o habitual é determinar apenas a moda, os
quartis e a amplitude interquartil.
Variável:
Medida: Ordinal Quantitativa ou
Nominal
com 2 ou 3 categorias Ordinal com mais de 3 categorias
Moda: x̂
Localização:
1º quartil: Q1 = P25
2º quartil : Q2 = x̃ = P50
3º quartil: Q3 = P75
Média: x̄
Dispersão:
120
98
100
89
N.º de profissionais
80
60
40 32
25
16
20
0
0 1 2 3 4 5
N.º de acidentes por profissional
Produção em 60 dias
0.35
0.300
0.3 0.283
0.25
0.200
Prop. de dias
0.2
0.15
0.117
0.1
0.050 0.050
0.05
0
4.1 5.9 7.7 9.5 11.3 13.1 14.9
Produção diária (t)
x < Q1 − 3 × AIQ
ou
x > Q3 + 3 × AIQ
ou
Q3 + 1.5 × AIQ < x ≤ Q3 + 3 × AIQ
x < 15 = Q1 − 3 × AIQ
ou
x > 50 = Q3 + 3 × AIQ
ou
Q3 + 1.5 × AIQ = 42.5 < x ≤ 50 = Q3 + 3 × AIQ
60
Vendas (centenas de euros)
55
50
45
40
35
1 1.5 2 2.5 3 3.5 4 4.5 5
N.º de anúncios
xi yi xi y i x2i yi2
2 50 100 4 2500
5 57 285 25 3249
1 41 41 1 1681
3 54 162 9 2916
4 54 216 16 2916
1 38 38 1 1444
5 63 315 25 3969
3 48 144 9 2304
4 59 236 16 3481
2 46 92 4 2116
Total 30 510 1629 110 26576
Assim,
Pn Pn
i=1 xi 30 i=1 yi 510
x= = =3 , y= = = 51
n 10 n 10
Y
Total
Classe 1 Classe 2 . . . Classe C
Classe 1 n11 (e11) n12 (e12) . . . n1C (e1C ) n1•
Classe 2 n21 (e21) n22 (e22) . . . n2C (e2C ) n2•
X ... ... ... ... ... ...
onde
ni• × n•j
eij =
n
• em seguida, determina-se o valor da estatística representada por χ2:
L X
C
X (nij − eij )2
χ2 =
i=1 j=1
eij
• forte, se 0.6 ≤ V ≤ 1.
Outros
Mutuário Incumpridor
créditos
1 Não Não
2 Não Sim
3 Não Não
4 Não Não
5 Sim Sim
6 Não Não
7 Sim Não
8 Sim Sim
9 Não Não
10 Não Não
s s
χ2 2.744
V = = ≈ 0.52.
n (q − 1) 10 × (2 − 1)