Escolar Documentos
Profissional Documentos
Cultura Documentos
Distribuições de freqüências
X : Π → V.
X = Sexo
Y = Escolaridade
W = Número de filhos
Z = Salário
1
Π Sexo Escolaridade Filhos Salário Idade
1 masculino 1o grau 0 4.00 26
2 masculino 1o grau 1 4.56 32
3 feminino 1o grau 2 5.25 36
4 masculino 2o grau 0 5.73 20
5 feminino 1o grau 1 6.26 40
6 masculino 1o grau 1 6.66 28
7 feminino 1o grau 0 6.86 41
8 masculino 1o grau 0 7.39 43
9 feminino 2o grau 1 7.59 34
10 masculino 2o grau 0 7.84 23
11 feminino 2o grau 2 8.12 33
12 masculino 1o grau 0 8.46 27
13 feminino 2o grau 0 8.74 37
14 masculino 1o grau 3 8.95 44
15 feminino 2o grau 0 9.13 30
16 masculino 2o grau 3 9.35 38
17 feminino 2o grau 1 9.77 31
18 masculino 1o grau 2 9.80 39
19 feminino superior 1 10.53 25
20 masculino 2o grau 0 10.76 37
21 feminino 2o grau 1 11.06 30
22 masculino 1o grau 2 11.59 34
23 feminino 2o grau 4 12.00 41
24 masculino superior 0 12.79 26
25 feminino 2o grau 2 13.23 32
26 masculino 2o grau 2 13.60 35
27 feminino 1o grau 0 13.85 46
28 masculino 2o grau 2 14.69 29
29 masculino 2o grau 5 14.71 40
30 masculino 2o grau 2 15.99 35
31 feminino superior 3 16.22 31
32 masculino 2o grau 1 16.61 36
33 feminino superior 3 17.26 43
34 masculino superior 4 18.75 33
35 feminino 2o grau 2 19.40 48
36 masculino superior 3 23.30 42
Tabela 1.1
2
X e Y são variáveis qualitativas; W e Z são variáveis quantitativas. A
tabela da Figura 1.1. representa Π bem como os valores que as variáveis
X, Y, W, Z tomam em Π.
Estamos interessados na distribuição de freqüências de uma ou mais des-
tas variáveis. Genericamente, dadas uma população Π e uma variável X aı́
definida, a distribuição de freqüências (relativas) de X (em Π) é a função
que associa a cada valor possı́vel de X, v ∈ V, a sua freqüência relativa na
população :
P (X = v) = Nv /N (1.2)
Nv = #{X = v} (1.3)
{X = v} = {I ∈ Π : X(I) = v} (1.4)
Em outras palavras, {X = v} é o subconjunto de indivı́duos de Π para os
quais X vale v, Nv é o seu tamanho, e P (X = v) a sua proporção em Π.
No exemplo acima,
P (X = f ) = 0.44, P (X = m) = 0.56
3
Y freqüência
X freqüência
1o 0.33
fem 0.44
2o 0.50
masc 0.56
sup 0.17
Tabela 1.2
W freqüência
Z freqüência
0 0.30
[4.00, 8.00) 0.28
1 0.22
[8.00, 12.00) 0.33
2 0.25
[12.00, 16.00) 0.22
3 0.14
[16.00, 20.00) 0.14
4 0.06
[20.00, 24.00) 0.03
5 0.03
Tabela 1.3
C1 = [4.00, 8.00),
C2 = [8.00, 12.00),
C3 = [12.00, 16.00),
C4 = [16.00, 20.00),
C5 = [20.00, 24.00)
4
Note que a soma das freqüências da distribuição de freqüências de uma
variável naturalmente sempre totaliza 1:
X
P (X = v) = 1. (1.7)
v∈V
5
f m
1 2 s
0 1 2 3 4 5
6
4 8 12 16 20 24
7
4 8 12 16 20 24
4 8 12 16 20 24
8
Figura 1.5 Histograma de X.
descontando a escala, entre os gráficos nas Figuras 1.2 e 1.4, do que entre os
gráficos nas Figuras 1.2 e 1.3).
Este gráfico de densidades de freqüência relativa é o que chamamos de
um histograma de Z.
Observação 1.2 Em vez da altura, como nos gráficos de freqüência, nos his-
togramas são as áreas das barras que representam as freqüências das classes
respectivas. De fato,
(1.11)
Área da i-ésima barra = base × altura = ℓi × fi = P (X ∈ Ci ). (1.13)
A área total sob o histograma (soma das áreas de todas as barras) vale
portanto 1.
9
Figura 1.6 Curva superposta ao histograma de X.
10
a b
Então,
3 3
3/4
(3/4)3 − (1/2)3 3 1 19
Z
2
P (1/2 < X < 3/4) = 3x dx = 3 = − = ,
1/2 3 4 2 64
o que representa a área na Figura 1.9. (Veja o Apêndice.)
Para variáveis numéricas como Z, podemos usar (e usaremos) a função
de densidade de freqüência para representar sua distribuição de freqüências.
Neste caso, diremos que Z é contı́nua. Quando a distribuição de Z for dada
por uma função de freqüência pZ , então diremos que Z é discreta.
Note que mesmo no caso do histograma por classes, podemos definir uma
função de densidade de freqüência de Z como:
(
fi , se x ∈ Ci para algum i = 1, 2, . . . ,
f (x) = (1.17)
0, caso contrário.
11
0 1/2 3/4 1
Observação 1.5 Como fizemos no Exemplo 1.3 acima, vamos daqui para
frente muitas vezes deixar implı́cita a população Π em que estiver definida
uma variável cuja distribuição de freqüências for dada (seja através da função
de freqüência, ou da função de densidade de freqüência, seja de outra forma).
12
0.10
0.05
4 8 12 16 20 24
P (X ∈ U ∪ V ) = P (X ∈ U) + P (X ∈ V ). (1.18)
P (X ∈ U c ) = 1 − P (X ∈ U). (1.19)
13
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
14
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
Figura 1.12 Gráficos da densidade normal nos casos padrão (linhas cheias)
e µ = 1, σ = 1 (linhas pontilhadas).
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
√
Figura 1.13 Gráficos do caso padrão (cheio) e o caso µ = 0, σ = 2
(pontilhado).
15
cessário que
∞ ∞
1
Z Z
1 x−µ 2
f (x) dx = √ e− 2 ( σ ) dx = 1, (1.22)
−∞ −∞ 2πσ
o que pode ser demonstrado. Expressões fechadas para
Z b Z b
1 1 x−µ 2
P (a < X < b) = f (x) dx = √ e− 2 ( σ ) dx, (1.23)
a a 2πσ
não existem para a, b ∈ R genéricos, mas podem ser aproximadas numerica-
mente. Tabelas com os resultados são então construı́das e podemos utilizá-las
em cálculos especı́ficos, como veremos abaixo.
16
z 0 -z
Figura 1.14
17
Concluı́mos que
1
P (Z < 0) = P (Z > 0) = . (1.30)
2
Seja agora a função A : R → (0, 1) tal que para z ∈ R
Então, se a < b
P (a < Z < b) = A(b) − A(a). (1.32)
Valores de A(z) são tabelados para diversos valores de z. Na tabela
disponı́vel no site do curso, os valores de z são positivos apenas, mas isto é
suficiente pois, por (1.29), se z < 0
18
X−48
logo σ = 25. Então, a variável padronizada é Z = 25
e
(1.26) (1.32)
P (X < 69) = P (Z < 0.84) = A(0.84) = 0.7995,
(1.26) (1.19)
P (X > 51) = P (Z > 0.12) = 1 − P (Z < 0.12) = 1 − A(0.12)
= 1 − 0.5478 = 0.4522,
(1.26) (1.32)
P (51 < X < 69) = P (0.12 < Z < 0.84) = A(0.84) − A(0.12)
= 0.7995 − 0.5478 = 0.2517,
(1.26) (1.32)
P (12 < X < 37) = P (−1.44 < Z < −0.44) = A(−0.44) − A(−1.44),
(1.33)
= (1 − A(0.44)) − (1 − A(1.44)) = A(1.44) − A(0.44)
= 0.9251 − 0.6700 = 0.2551,
(1.26) (1.32)
P (24 < X < 78) = P (−0.96 < Z < 1.20) = A(1.20) − A(−0.96)
(1.33)
= A(1.20) − (1 − A(0.96)) = A(1.20) + A(0.96) − 1
= 0.8849 + 0.8315 − 1 = 0.0534,
onde os valores numéricos de A foram obtidos da tabela disponı́vel no site do
curso.
Invertendo o problema
Vamos inverter o problema e, ao invés de pedir a freqüência com que X
assume valores em dado intervalo, vamos perguntar que intervalo corresponde
a dada freqüência. Comecemos com o caso padrão.
Observamos primeiramente que a função A (veja (1.31)) é inversı́vel. Isto
é, existe uma função B : (0, 1) → R tal que
B(A(z)) = z, para todo z ∈ R. (1.34)
Observação 1.9 Valores de B(α) para diversos valores de α podem ser ob-
tidos da tabela de A consultando-a de forma inversa.
Exemplo 1.10 Suponha que Z ∼ N(0, 1). Qual o valor de z para o qual
P (Z < z) = 0.90? (1.35)
Veja a Figura 1.15.
Queremos z tal que A(z) = 0.90. De (1.34),
z = B(0.90) = 1.28.
19
z
Figura 1.15
z = B(0.63) = 0.33.
Notemos que z deve ser negativo, do contrário P (Z < z) não poderia ser
menor do que 0.50. Veja a Figura 1.17.
Neste caso, podemos escrever, pela simetria da distribuição normal padrão
(veja (1.29)), P (Z < z) = P (Z > −z) e estamos no caso do Exemplo 1.12.
20
z
Figura 1.16
Figura 1.17
21
-z z
Figura 1.18
Logo, de (1.38)
A(z) = (1 + 0.95)/2 = 0.975.
De (1.34),
z = B(0.975) = 1.96.
22
Exemplo 1.15 Suponha como no Exemplo 1.8 que X ∼ N(48, 625). Qual
o valor de x para o qual
P (X > x) = 0.37? (1.39)
Padronizando, i.e., fazendo Z = (X − 48)/25, (1.39) é equivalente a
onde
z = (x − 48)/25. (1.41)
Do Exemplo 1.12 temos que z = 0.33, e de (1.41)
onde
z = y/25. (1.45)
Do Exemplo 1.12 temos que z = 1.96, e de (1.45)
23
iguais a x. Se a distribuição de freqüências de X for dada pela função de
freqüência P (X = ·), então
X
F (x) = P (X = v);
v≤x
F (x) = P (X ≤ x).
FW (x) = P (W = 0) + P (W = 1)
+ P (W = 2) + P (W = 3) = 0.91, se 3 ≤ x < 4. (1.52)
FW (x) = P (W = 0) + P (W = 1) + P (W = 2)
+ P (W = 3) + P (W = 4) = 0.97, se 4 ≤ x < 5. (1.53)
24
1.0
0.8
0.6
0.4
0.2
0
1 0
1 0
1 0
1 0
1
0
1 0
1 0
1 0
1 0
1
0000000000000000000000000000000000000
1111111111111111111111111111111111111
0
1 0
1 0
1 0
1 0
1
0 1 2 3 4 5
25
1.2
0.8
0.6
0.4
0.2
0
-0.5 0 0.5 1 1.5
26
1.2
0.8
0.6
0.4
0.2
0
-4 -3 -2 -1 0 1 2 3 4
• É não decrescente;
• limx→−∞ F (x) = 0;
• limx→+∞ F (x) = 1;
onde F (x−) = limy→x,y<x F (y). Isto é, os pontos em que X toma valores
(com freqüência positiva) são os pontos de salto de F (isto é, v’s tais que
F (v) > F (v−)), e as freqüências respectivas são os tamanhos dos saltos (isto
é, F (v) − F (v−)).
27
E se X for contı́nua, então
x
d d
Z
fX (x) = fX (x) dx = F (x).4
dx −∞ dx
28
W 0 1 2 3 4 5
X
f 0.11 0.14 0.11 0.06 0.03 0
m 0.19 0.08 0.14 0.08 0.03 0.03
Tabela 1.5
onde
P (X1 = x1 , . . . , Xn = xn )
#{I ∈ Π : X1 (I) = x1 , . . . , Xn (I) = xn }
= .
N
Chamaremos P (X1 = ·, . . . , Xn = ·) de função de freqüência conjunta de
(X1 , . . . , Xn ). (Note que V1 × . . . × Vn é o conjunto de valores possı́veis de
(X1 , . . . , Xn ).)
P (X1 = x1 , . . . , Xm = xm ) =
X
P (X1 = x1 , . . . , Xm = xm , Xm+1 = ym+1 , . . . , Xn = yn ). (1.62)
ym+1 ∈Vm+1 ,...,yn ∈Vn
29
W 0 1 2 3 4 5 total
X
f 0.11 0.14 0.11 0.06 0.03 0 0.44
m 0.19 0.08 0.14 0.08 0.03 0.03 0.56
total 0.30 0.22 0.25 0.14 0.06 0.03
Tabela 1.6
-1
10 15 20 25 30 35 40 45 50 55 60
Diagrama de dispersão
Quando há pouca ou nenhuma repetição de valores de uma dupla de
variáveis numéricas (X, Y ), a tabela de dupla entrada não será muito in-
formativa. Nestes casos, é muitas vezes conveniente representar os valores
possı́veis de (X, Y ) no plano coordenado, num diagrama de dispersão de
X × Y . Nas Figuras 1.22 e 1.23, exemplificamos com V × W e V × Z.
30
25
20
15
10
0
10 15 20 25 30 35 40 45 50 55 60
31
Temos então
P (X = v, W = i)
P (W = i|X = v) = , i = 0, . . . , 5, (1.67)
P (X = v)
P (X = v, W = i)
P5 , (1.69)
j=0 P (X = v, W = j)
32
Generalizando o exemplo, dada uma dupla de variáveis (X, Y ) com (função
de) distribuição conjunta P (X = ·, Y = ·), a (função de) distribuição condi-
cional de X dado Y é dada por
P (X = x, Y = y) P (X = x, Y = y)
P (X = x|Y = y) = =P ; x, y, (1.70)
P (Y = y) z P (X = x, Y = z)
P (X = x, Y = y) = P (X = x|Y = y) P (Y = y) (1.73)
Independência
Como indicado na discussão acima, a condição de independência entre
uma dupla de variáveis (X, Y ) é que a distribuição condicional de X dado
Y não dependa de Y , isto é, para todo x, P (X = x|Y = y) não depende de
33
y, ou seja, é constante em y, digamos π(x). Se (X, Y ) forem independentes,
então de (1.74), obtemos
X X
P (X = x) = P (X = x|Y = y) P (Y = y) = π(x) P (Y = y),
y y
X
= π(x) P (Y = y) = π(x), (1.75)
y
P
já que y P (Y = y) = 1. Concluı́mos que se (X, Y ) forem independentes,
então
P (X = x|Y = y) = P (X = x) para todo x, y. (1.76)
De (1.73), temos que (1.76) é equivalente a
verificar a fatoração (1.77), e isto pode ser feito da seguinte maneira: para
cada entrada do corpo da tabela, faça o produto dos respectivos valores nas
margens, e verifique que o resultado equivale ao valor da entrada.
34
X 1 2 3 4 total
Y
a 0.06 0.12 0.09 0.03 0.30
b 0.10 0.22 0.09 0.09 0.50
c 0.04 0.06 0.07 0.03 0.20
total 0.20 0.40 0.25 0.15
Tabela 1.7
X 1 2 3 4
Y
a 0.20 0.40 0.30 0.10
b 0.20 0.44 0.18 0.18
c 0.20 0.30 0.35 0.15
Tabela 1.8
X′ x y z total
′
Y
a 0.16 0.20 0.04 0.40
b 0.24 0.30 0.06 0.60
total 0.40 0.50 0.10
Tabela 1.9
35
Podemos estender a noção de condicionamento e independência para mais
do que duas variáveis seguindo as idéias acima. Fazemos uma discussão breve
a seguir.
Dadas X1 , . . . , Xn , n ≥ 2, variáveis com função de freqüência conjunta
P (X1 = ·, . . . , Xn = ·) e 1 ≤ m < n, a distribuição condicional de (X1 , . . . ,
Xm ) dado (Xm+1 , . . . , Xn ) é dada pela função de distribuição condicional de
(X1 , . . ., Xm ) dado (Xm+1 , . . . , Xn )
36