V - VARIÁVEIS ALEATÓRIAS
1. INTRODUÇÃO
Ao descrever o espaço amostral de um experimento aleatório, o resultado individual
não necessariamente é um número. Por exemplo: no lançamento de duas moedas consecutivas
podemos obter: S = {cara-cara, cara-coroa, coroa-cara, coroa-coroa}. Contudo, em muitas
situações experimentais, estaremos interessados na mensuração de alguma coisa e no seu
registro como um número. Ou seja, desejamos atribuir um número real x a todo elemento a do
espaço amostral S. Portanto, no caso do lançamento consecutivo de duas moedas, podemos
transformar os resultados de S em números, atribuindo-se de acordo com a contagem do
NÚMERO DE COROAS obtidas, ou seja, S ={0, 1, 2}, ou de acordo com o NÚMERO DE
CARAS obtidas, ou seja, S ={2, 1, 0}.
A este procedimento de obter uma função X, que associe aos elementos a pertencentes
a S um número real, X(a), é denominada VARIÁVEL ALEATÓRIA.
1
Definição estatística: Seja E um experimento aleatório e S o espaço amostral
associado a este experimento. Uma função X, que associe a cada elemento a pertencente a S
um número real, X(a), é denominada VARIÁVEL ALEATÓRIA.
v.a.X
a X(a)
S R
Cara-cara 0
Cara-coroa 1
Coroa-cara
Coroa-coroa 2
R
S
Em que,
S = espaço amostral original correspondente a todos os possíveis resultados do experimento
(numérico ou não);
R = novo espaço amostral associado à variável aleatória X, representando todos os valores
numéricos de interesse (todos os valores possíveis e definidos de X(a) de a em S).
2
Observações:
a) Apesar da terminologia “variável aleatória”, ela é uma função cujo domínio é o
conjunto S e o contradomínio é o conjunto R;
b) O uso de variáveis aleatórias equivale a descrever os resultados de um experimento
aleatório por meio de números ao invés de palavras, o que apresenta a vantagem de
possibilitar melhor tratamento estatístico;
c) Nem toda função é uma variável aleatória, pois uma vez que ao mesmo s forem
atribuídos diferentes X(a), a relação não poderá se caracterizar uma relação funcional
ou função.
Lembrete: Uma quantidade é uma função de outra quando, para cada quantidade da variável
independente (x), corresponde a um único valor denominado f(x) (variável dependente). O
conjunto em que os valores de x podem ser tomados é chamado de domínio da função, e o
conjunto dos valores que f assume para cada x é denominado imagem da função.
X(a)
v.a.X
S v.a.Y
Y(a)
3
3. VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS
3.1. Variável Aleatória Discreta
3.1.1. Definição: Seja X uma variável aleatória (v.a.). Se o número de valores possíveis de
X(a) (isto é o seu contradomínio) for finito ou infinito enumerável, denominaremos X de
variável aleatória discreta, assim, os valores possíveis de X são x1, x2,....,xn. No caso finito a
lista de valores de x acaba e no caso infinito enumerável, a lista continua indefinidamente.
Em geral uma variável aleatória é obtida mediante alguma forma de contagem.
OBS.: Mesmo que a variável assuma um número infinito enumerável de valores não há
nenhum problema em comprovar que cada xi contribui com uma quantidade f(xi) ao total, de
modo que,
∞ ∞ ∞
∑
i =1
f ( xi ) = ∑ p ( x i ) = ∑ P ( X = x i ) = 1
i =1 i =1
4
xi x1 x2 … xn ∑
P(X=xi) P(x1) P(x2) ... P(xn) 1,0
Exemplo 1:
Considere o experimento probabilístico ou aleatório: lançamento de duas moedas
consecutivas, logo:
S = {cara-cara; cara-coroa; coroa-cara; coroa-coroa}
Considere agora que X é a variável aleatória definida como o NÚMERO DE COROAS
obtidas, ou seja:
X = {0, 1, 2},
Portanto,
X(cara-cara) = 0, X(cara-coroa) = X(coroa-cara) = 1, X(coroa-coroa) = 2. Cujas probabilidades de ocorrência
são: P (0) = 1/4, P (1) = 2/4 e P (2) = 1/4.
Logo, a representação tabular da DISTRIBUIÇÃO DE PROBABILIDADE de X é:
xi 0 1 2 ∑
P(X=xi) 1/4 2/4 1/4 1,0
Em que,
k
P (xi) ≥ 0 e ∑ P[ X = x ] = 1
i =1
i
Nota-se que para uma variável aleatória discreta as probabilidades de cada valor x
correspondem à própria função, por isso esta é chamada de FUNÇÃO DE
PROBABILIDADE.
5
E a representação gráfica da DISTRIBUIÇÃO DE PROBABILIDADE de X é:
2/4
1/4
0 1 2 x
Exemplo 2:
Tem-se 5 animais: 2 animais de uma raça bovina A (A1 e A2) e 3 animais de uma raça
bovina B (B1, B2 e B3). Deseja-se obter uma amostra de 2 animais da raça A, escolhidos ao
acaso dentre os 5 animais.
a) Obter o espaço amostral desse experimento aleatório
S: {A1A2, A1B1, A1B2, A1B3, A2B1, A2B2, A2B3, B1B2, B1B3, B2B3}
xi 0 1 2 ∑
3 6 1
P(X=xi) 1,0
10 10 10
6
Em que,
k
P (xi) ≥ 0 e ∑ P[ X = x ] = 1
i =1
i
6/10
3/10
1/10
0 1 2 x
Definição: A variável aleatória discreta X, assumindo os valores x1, x2, ..., xn, tem distribuição
uniforme, se e se somente se:
1
f(x) = P (X = xi) = P (xi) = p = , para todo i = 1, 2, …, n
n
Exemplo:
Considere o experimento aleatório o lançamento de um dado não-viciado.
S = {1, 2, 3, 4, 5, 6}
Considere a variável aleatória discreta X dada pelo NÚMERO DE PONTOS OBTIDOS.
Essa variável assume obviamente os valores de 1 a 6, e a cada valor é possível associar um
único número real, ou seja, um valor de probabilidade, que no caso, para todos é igual a 1/6.
7
Portanto, a representação tabular da função de probabilidade F(x) = P (X = xi) = P (xi), ou
seja, a DISTRIBUIÇÃO DE PROBABILIDADE de X:
xi 1 2 3 4 5 6 ∑
P(X=xi) 1/6 1/6 1/6 1/6 1/6 1/6 1,0
1/6
1 2 3 4 5 6
8
caso das variáveis aleatórias discretas, mas sim fazer a soma das probabilidades dos valores
em intervalos da reta real. Nesse caso, o que generaliza o conceito de ∑ é o de integral ( ∫ ) ,
Exemplo 1: Seja X a variável diâmetro (em mm) de frutos de mamão colhidos no estado
inicial, cuja função de x [f(x)] é dada por:
9
kx, se 10 ≤ x ≤ 20
f(x) =
0, outros valores de x.
Dada a função desta variável, calcule k de modo que f (x) seja uma f.d.p.
Resposta:
+∞
Para isto, a f (x) deve atender as duas condições f ( x ) ≥ 0 para todo x e ∫ f ( x )dx = 1 .
−∞
Assim,
+∞
∫ f ( x)dx = 1
−∞
20
∫ (kx)dx = 1
10
20
x2
k .( ) =1
2 10
1 1
k . (20 2 − 10 2 ) =
2 150
Logo, k = 1/150 também atende a primeira condição de f ( x) ≥ 0 ∀ x .
1
P(10 ≤ x ≤ 12) = (12 2 − 10 2 ) = 0,15 ou 15%
300
10
Exemplo 2: Considerando que a demanda diária, em quilogramas, de determinado produto
em um supermercado é uma variável aleatória, dada pela seguinte função densidade
probabilidade (f. d. p.):
kx, se 0 ≤ x ≤ 1/2
f(x) = k(1 - x), se 1/2 ≤ x ≤ 1
0, outros valores de x.
a) Determinar o valor de k.
Para isto, a f (x) ser f.d.p deve atender as duas condições f ( x ) ≥ 0 para todo x e
+∞
∫ f ( x )dx = 1 .
−∞
Assim,
+∞
∫ f ( x)dx = 1
−∞
1/ 2 1
∫ (kx)dx + ∫ [k (1 − x)]dx = 1
0 1/ 2
1/ 2 1 1
x2 x x2
k .( ) + k .( ) − k .( ) = 1
2 0 1 1/ 2 2 1/ 2
1 1
k . [(1 / 2) 2 − 0 2 )] + k .[(1) 2 − (1 / 2) 2 ] − k . [(1) 2 − (1 / 2) 2 ] = 1
2 2
k =4
Logo, k = 4
Portanto,
4x, se 0 ≤ x ≤ 1/2
f(x) = 4(1 - x), se 1/2 ≤ x ≤ 1
0, outros valores de x.
b) Calcular a probabilidade de que a demanda diária do produto esteja entre 250 e 750g.
Sabe-se que para a demanda diária entre 0 e 500 g (ou 0 e 1/2) a função é 4x, e que
para a demanda entre 500g e 1000g (ou 1/2 e 1) a função é 4(x – 1). Logo, para saber a
demanda diária entre 250 e 750 deve-se integrar e somar nos intervalos de 250 a 500g (ou 1/4
e 1/2) e de 500 a 750g (ou 1/2 e 3/4). Ou seja:
11
750 1/ 2 3/ 4
∫
250
f ( x)dx = ∫
1/ 4
f ( x)dx + ∫ f ( x)dx
1/ 2
750 1/ 2 3/ 4
∫
250
f ( x)dx = ∫ (4 x)dx + ∫ [4(1 − x)]dx
1/ 4 1/ 2
750 1/ 2 3/ 4
∫
250
f ( x)dx = ∫ (4 x)dx +
1/ 4
∫ (4 − 4 x)dx
1/ 2
750 1/ 2 3/ 4 3/ 4
∫
250
f ( x)dx = ∫ (4 x)dx +
1/ 4
∫ (4)dx −
1/ 2
∫ (4 x)dx
1/ 2
750 1/ 2 3/ 4 3/ 4
x2 x x2
∫
250
f ( x ) dx = 4 .( )
2 1/ 4
+ 4 .( )
1 1/ 2
− 4 .( )
2 1/ 2
750
4 4
∫ f ( x)dx = 2 .[(1 / 2)
2
+ (1 / 4) 2 ] + 4.(3 / 4 − 1 / 2) − .[(3 / 4) 2 − (1 / 2) 2 ]
250
2
750
Logo, a probabilidade de que a demanda diária do produto esteja entre 250 e 750 é 75%.
12
distribuições de probabilidades da v.a. bidimensional (X,Y). Para o nosso estudo
consideraremos que X e Y são ambas discretas ou ambas contínuas.
Para que P(xi, yi) seja uma função de probabilidade conjunta é necessário que satisfaça
às seguintes condições:
i) P(xi, yi) ≥ 0, ∀ (xi,yj)
m n
ii) ∑∑ P( x , y
j =1 i =1
i j ) = 1 ,0
M M M M M M
m
13
A partir da distribuição conjunta das duas variáveis aleatórias X e Y podemos
determinar a distribuição de X sem considerar Y e a de Y sem considerar X. São as chamadas
DISTRIBUIÇÕES MARGINAIS.
A distribuição marginal é constituída pelos valores da variável aleatória e suas
respectivas probabilidades marginais. A probabilidade marginal para cada valor é obtida da
seguinte forma:
m
Para X: P(X = xi) = P (xi) = ∑ P( x , y
j =1
i j )
n
Para Y: P(Y = yi) = P (yi) = ∑ P( x , y
i =1
i j )
Para X:
xi x1 x2 … xn
Para Y:
yi y1 y2 … ym
14
Exemplo:
Seja a variável discreta bidimensional (X, Y), cuja distribuição de probabilidade conjunta é
dada pela tabela:
Y
X
-3 0 1
-2 1/9 0 2/9
0 0 2/9 2/9
1 1/9 1/9 0
Ou seja,
xi -2 0 1 ∑
P(X = xi) 3/9 4/9 2/9 1,0
n
Para Y: P(Y = yi) = P (yi) = ∑ P( x , y
i =1
i j )
Ou seja,
yi -2 0 1 ∑
P(Y = yi) 2/9 3/9 4/9 1,0
15
4.2. Quando (X,Y) é variável aleatória contínua bidimensional
Se a variável (X,Y) puder assumir todos os valores em algum conjunto infinito não-
enumerável, esta será uma v.a. contínua bidimensional.
+∞
f ( y) = ∫ f ( x, y)dx
−∞
Exemplo:
Sejam X e Y variáveis aleatórias contínuas com f.d.p. conjunta dada por:
k (2x +y), se 2 ≤ x ≤ 6 0≤ y≤ 5
f(x,y) = 0, para outros valores de x e y
a) Calcular o valor de k
6 5
∫∫
2 0
f ( x, y )dxdy = 1,0
6 5
∫ ∫ k (2 x + y)dxdy = 1,0
2 0
6 5 6 5
∫ ∫ k (2 x)dxdy + ∫ ∫ (ky)dxdy = 1,0
2 0 2 0
6 5 6 5
∫∫
2 0
k (2 x)dxdy + ∫
2 ∫ (ky)dxdy = 1,0
0
16
6 6
5 x2 5 x1
∫0 2
2 k .( ) dy + ∫2 1 ) dy = 1,0
ky.(
2 2
5 5
∫ k.(6 − 2 2 ) dy + ∫ ky.(6 − 2) dy = 1,0
2
0 2
5 5
∫ 32k.dy + ∫ 4ky.dy = 1,0
0 2
5 5
y1 y2
32k ( ) + 4k ( ) = 1,0
1 0 2 0
32k (5 − 0) + 2k (5 2 − 0 2 ) = 1,0
160k + 50 = 1,0
210k = 1,0
1
k=
210
5
2x 5 1 y2
f ( x) = y0 + .
210 210 2 0
x 1 2
f ( x) =
105
(5 − 0) +
420
5 −0 ( )
x 5
f ( x) = +
21 84
4x + 5
f ( x) =
84
Função marginal de Y:
6 1
f ( y) = ∫ (2 x + y )dx
2 210
6 2x 6 y
f ( x) = ∫ dx + ∫ dx
2 210 2 210
17
6 6
2 x2 y
f ( y) = + .x
210 2 2
210 2
6 6
1 2 y
f ( y) = x + .x
210 2 210 2
1 y
f ( y) = (6 3 − 2 3 ) + (6 − 2)
210 210
1 y
f ( y) = (216 − 8) + 4
210 210
208 4 y
f ( y) = +
210 210
16 2 y
f ( y) = +
105 105
16 + 2 y
f ( y) =
105
Exemplo:
Considerando o experimento probabilístico ou aleatório: lançamento de duas moedas
consecutivas, em que X é a variável aleatória definida como o NÚMERO DE COROAS
obtidas, ou seja: X = {0, 1, 2}, cujas probabilidades de ocorrência são: P (0) = 1/4, P (1) = 2/4
e P (2) = 1/4.
18
n 1 2 1
E(X) = ∑ x .P ( X
i −1
i = x i ) = 0. + 1. + 2
4 4 4
= 1,0
Interpretação: Se esse experimento aleatório constituído pelo lançamento de duas moedas for
realizado n vezes, espera-se, em média, obter 1,0 coroa.
Exemplo: Seja X a variável diâmetro (em mm) de frutos de mamão colhidos no estado
inicial, cuja função de x [f(x)] é dada por:
1
x, se 10 ≤ x ≤ 20
f(x) = 150
0, outros valores de x.
20
1
E ( X ) = ∫ x( x)dx
10
150
20
1 x3
E( X ) = .( )
150 3 10
1 1
E( X ) = . (20 3 − 10 3 ) = 15,56mm
150 3
19
3.2. Medidas de dispersão
3.2.1. Variância - V(X) ou σ 2
Definição. A variância quantifica a dispersão dos dados em torno da média. É dada por:
V(X) = E[X - µX]2
V(X) = E[X2 – 2.X.µX + µX2]
V(X) = E(X2) – 2.E(X.µX) + E(µX2)
V(X) = E(X2) – 2. µX.E(X) + µX2
V(X) = E(X2) – 2. E(X).E(X) + [E(X)]2
V (X) = E(X2) – 2.[E(X)]2 +[E(X)]2
V (X) = E(X2) – [E(X)]2
Exemplo:
Considerando o experimento probabilístico ou aleatório: lançamento de duas moedas
consecutivas, em que X é a variável aleatória definida como o NÚMERO DE COROAS
obtidas, ou seja: X = {0, 1, 2}, cujas probabilidades de ocorrência são: P (0) = 1/4, P (1) = 2/4
e P (2) = 1/4.
n n
1 2 1
∑ xi .P ( X = xi ) = 1,0 e E ( X ) = ∑ xi .P( xi ) = 0 .1 + 1 . + 2
2 2 2 2 2
E(X) = =
i −1 i =n 4 4 4
V (X) = E(X2) – [E(X)]2
V (X) =1,5 – 1,02
V(X) = 0,5
20
V (X) = E(X2) – [E(X)]2
∞
Em que E ( X 2 ) = ∫x
2
. f ( x)dx
−∞
Exemplo: Seja X a variável diâmetro (em mm) de frutos de mamão colhidos no estado
inicial, cuja função de x [f(x)] é dada por:
1
x, se 10 ≤ x ≤ 20
f(x) = 150
0, outros valores de x.
20
1
V (X ) = ∫ x2 ( x)dx − [15,56] 2
10
150
20
1
V (X ) = ∫ x2 ( x)dx − [15,56] 2
10
150
20
1 x4
V (X ) = .( ) - [242,1136]
150 4 10
1 1
V (X ) = . (20 4 − 10 4 ) - [242,1136] = 7,8864 mm2
150 4
21
A covariância entre duas v. a. X e Y é o produto dos desvios das variáveis (medida de
discrepância), qual seja:
Cov (X,Y) = E[(X - µX).(Y - µY)]
Desenvolvendo a expressão acima, temos:
Cov (X, Y) = E [(XY – X. µY –YµX + µXµY]
Cov (X, Y) = E [(XY – X.E(X) –YE(X) + E(X)E(Y)]
Cov (X, Y) = E (XY) – E(X)E(Y) –E(Y)E(X) + E(Y)E(X)]
Cov (X,Y) = E(XY) – E(X).E(Y)
Em que,
n m n
E(X ) = ∑ x .P ( X
i −1
i = x i ) e E ( XY ) = ∑∑x y
j =1 i −1
i j .P ( x i , y j ) ⇒ para (X,Y) discreta
+∞ +∞ +∞
E(X ) = ∫ x. f ( x ) dx
−∞
e E ( XY ) = ∫ ∫ xy . f ( x , y ) dx dy
− ∞− ∞
⇒ para (X,Y) contínua
Como a covariância é, por definição, a média dos produtos dos desvios (X - µx) por (Y -
µy), a covariância será positiva se ocorrerem desvios do mesmo sinal com maior
probabilidade, e negativa se correrem, com maior probabilidade, desvios com sinais
contrários. Ou seja,
- ∞ < Cov (X,Y) < + ∞
22
3º) Cov (X,X) = V(X)
4º) Cov (aX, bY) = ab.Cov(X,Y)
4º) Cov (X + Z, Y) = Cov (X,Y) + Cov (Z,Y)
5º) Cov (X,Y) = 0, se X e Y são independentes
6º) Cov (X,Y) ≠ 0, se X e Y são dependentes
b) V(Y)
V(3X – 5) = 32.V(X) – V(5) = 9.1 – 0 = 9
c) Cov (X,Y)
Cov (X, 3X – 5) = Cov (X, 3X) - Cov (X, 5) = 3. Cov (X,X) – 0 = 3. V(X) = 3. 1 = 3
d) V(X/3 – Y)
V(X/3) – V(Y) = (1/3)2.V(X) + V(Y) – 2.Cov (X/3,Y) = 1/9.V(X) + V(Y) – 2.1/3.Cov (X,Y)
V(X/3 – Y) = 1/9.1 + 9 – 2/3.(3) = 64/9
X
Y -1 0 2 P (yi)
1 1/9 2/9 0 3/9
3 3/9 1/9 2/9 6/9
P(xi) 4/9 3/9 2/9 1,0
23
n
4 3 2
E(X) = ∑ x .P ( x ) = − 1 . 9 + 0 . 9 + 2 . 9
i −1
i i
=0
m
3 6
E(Y) = ∑y
j −1
j .P ( y j ) = 1 .
9
+ 3 . = 2,33
9
m n
1 2 3 1 2
E(XY) = ∑ ∑ x .y
j =1 i −1
i j .P ( x i , y j ) = 1 .( − 1).
9
+ 1 .0 . + 1 .2 .0 + 3 .( − 1). + 3 .0 . + 3 .2 . = 0,22
9 9 9 9
Interpretação: Como a Cov (X,Y) ≠ 0, X e Y são dependentes, havendo uma relação linear
positiva entre as duas variáveis, ou seja, à medida que ocorre aumento em X ocorre aumento
em Y, ou à medida que ocorre decréscimo em X ocorre decréscimo em Y.
Exemplo 3: Sejam X e Y variáveis aleatórias CONTÍNUAS com f.d.p. conjunta dada por:
1
(2x +y), se 2 ≤ x ≤ 6 0≤y≤5
210
f(x,y) =
0, para outros valores de x e y
16 + 2 y
f ( y) = se 0 ≤ y ≤ 5
105
f(y) =
0, para outros valores de y
5 6
1
E ( XY ) = ∫ ∫ xy . 210 (2 x + y ) dx dy
0 2
24
5 6 2 x 2 y xy 2
E ( XY ) = ∫ 0
∫2
210
+ dx dy
210
5 2y 6 y2 6
E ( XY ) = ∫ 0
210
∫
2
x 2 dx +
210 ∫2
xdx dy
5 2y x3 6
y2 x2
6
E ( XY ) = ∫ 0
210 3
+ dy
210 2 2
2
5
∫ [0,00317 y (6 ]
3
E ( XY ) = − 2 3 ) + 0,00238 y 2 ( 6 2 − 2 2 ) dy
0
5
∫ [0,65936 y + 0,07616 y ]dy
2
E ( XY ) =
0
5 5
E ( XY ) = ∫ 0
0,65936 ydy + ∫
0
0 ,07616 y 2 dy
5 5
E ( XY ) = 0,65936 ∫ ydy + 0,07616 ∫ y 2 dy
0 0
5 5
y2 y3
E ( XY ) = 0,65936 + 0 ,07616
2 0
3 0
E ( XY ) = 0,32968 (5 2 − 0 2 ) + 0 ,0254 (5 3 − 0 3 )
E ( XY ) = 11, 4153
+∞
6 4x + 5
E(X ) = ∫ x. f ( x ) dx = ∫
−∞
2
x
84
dx = 4 , 2540
+∞
5 16 + 2 y
E (Y ) = ∫ y. f ( y ) dy = ∫
−∞
0
y
105
dy = 2,1429
Interpretação: Como a Cov (X,Y) ≠ 0, X e Y são dependentes, havendo uma relação linear
positiva entre as duas variáveis, ou seja, à medida que ocorre aumento em X ocorre aumento
em Y, ou à medida que ocorre decréscimo em X ocorre decréscimo em Y.
25
covariância pelos desvios-padrão de X e Y), que é o coeficiente de correlação linear
populacional de Pearson, representado por ρXY.
⇒ É fácil notar que o coeficiente de correlação linear é uma medida mais eficiente de
associação entre variáveis que a covariância, por possibilitar a quantificação da associação.
Em outras palavras, a covariância apenas indica a existência ou não de relação linear entre as
variáveis e, se existir, se essa é positiva ou negativa. O coeficiente de correlação por sua vez,
além de fazer as mesmas indicações que a covariância sobre a relação linear entre as
variáveis, ainda a quantifica!
1 1 1
2
E( X − µ X ) 2 + 2
E (Y − µ Y ) 2 ± 2 [( X − µ X )(Y − µY )] ≥ 0
σ X σ Y σ XσY
Como, E( X − µ X ) 2 = σ X2
E(Y − µ Y ) 2 = σ Y2
E [( X − µ X )((Y − µ Y )]
=ρ , tem-se,
σ XσY
σ X2 σ Y2
+ ± 2ρ ≥ 0
σ X2 σ Y2
2±2ρ>0 ou
26
ρ > 1 e ρ < -1 , logo,
- 1 < ρXY < 1
27
3. DISTRIBUIÇÕES E FUNÇÕES DE PROBABILIDADES DISCRETAS E
CONTÍNUAS
Foi visto nos assuntos anteriores como os dados de uma investigação científica são
representados e como parâmetros da forma da distribuição, valores mais freqüentes e medidas
de posição e variabilidade, são estimados. Foram vistas, também, formas para lidar e
apresentar dados em função de seus tipos. Todavia, além da descrição amostral dos dados, a
estatística como parte integrante do método científico, lida também com aspectos que
envolvem a modelagem teórica das realizações das variáveis aleatórias nos fenômenos
estudados. Essa modelagem envolve os modelos probabilísticos, cujo conhecimento auxilia o
investigador científico na escolha do modelo mais adequado para estudar um determinado
fenômeno e daquele que mais se aproxima de uma situação real. Aqui, iremos estudar os
modelos probabilísticos de algumas variáveis aleatórias discretas e contínuas.
As distribuições de probabilidade (discretas e contínuas) ficam completamente
definidas conhecendo-se os diversos valores que a variável aleatória pode assumir, dentro do
seu intervalo de definição, e as respectivas probabilidades. O conhecimento da distribuição de
uma variável aleatória é importante na descrição dos fenômenos, na especificação dos testes
dos processos da teoria de decisão estatística e na teoria da estimação. Pode-se afirmar que, de
forma geral, os modelos probabilísticos formam a base da teoria estatística, e a linguagem
aplicada representa o fundamento da linguagem científica empreendida nos processos de
decisão e estimação.
28
chamado de sucesso, bastando somente que a probabilidade de ocorrência seja denominada
por p.
A distribuição de probabilidade para uma variável aleatória X que assume dois
valores: o valor 1 se ocorrer sucesso, e o valor 0 se ocorrer fracasso, é dada por:
xi P(xi)
1 p
0 1-p
k n−k
Como os k sucessos podem ocorrer em qualquer uma das ordens possíveis nos n
experimentos de Bernoulii, que é igual a ao número de combinações de n elementos k a k
29
n!
dada por C kn = , a probabilidade de obtenção de k sucessos nas n realizações do
k!(n − k )!
experimento é calculada por:
n n
f (x) = P (X=x) = . p k .(1 − p) n − k = C k
. p k .q n − k
k
Exemplo: No rebanho bovino 30% dos animais estão atacados por febre aftosa. Retira-se
por acaso uma amostra de 10 animais.
a) Verifique se a variável “número de animais doentes” pode ser estudada pelo
modelo binomial. Justifique sua resposta.
b) Estruturar a função de probabilidade.
c) Qual a probabilidade de se encontrar 6 animais doentes.
d) Qual a probabilidade de se encontrar pelo menos 6 animais doentes.
30
e) Qual a probabilidade de se encontrar no máximo 6 animais doentes
Para que uma variável aleatória X tenha distribuição de Poisson, deve satisfazer às
seguintes condições:
i) Para intervalos de observação ∆t muito pequenos, a probabilidade de ocorrência de mais de
um sucesso é desprezível;
ii) Para intervalos de observação ∆t muito pequenos, a probabilidade de ocorrência de um
sucesso é proporcional ao tamanho do intervalo e igual a λ.∆t, onde λ > 0 é a taxa de sucesso
por unidade de observação;
iii) As ocorrências de sucessos em intervalos disjuntos (não sobrepostos) são independentes.
31
Então, se uma variável aleatória X, igual ao número de sucessos em um intervalo t de
observação tem distribuição de Poisson, pode-se demonstrar que a sua distribuição de
probabilidade é dada por:
e − λt ( λ t ) k
P( X = k ) = , k = 0,1,2,3,...
k!
Sendo µ = λt o número médio de ocorrências no intervalo t, a expressão acima pode
ser escrita na forma:
e − λt ( µ ) k
P( X = k ) =
k!
32
e −7 ,5 .7,5 0 e −7 ,5 .7,51 e −7 ,5 .7,5 2
P( X ≥ 3) = 1 − + + = 1 – 0,020256 = 0,9797 ou 97,97%
0! 1! 2!
−
( x −µ )
1 2σ 2
f(x)= ×e
2
2πσ
33
assintoticamente aos eixos, de modo que qualquer valor “muito distante” da média é possível
mesmo que pouco provável.
A forma do sino de Gauss depende dos parâmetros µ e σ . O parâmetro µ indica a
Figura 3. Distribuições gaussianas com média igual, mas com variâncias diferentes.
34
(iv) área total sob a curva é igual a 1.
−z2
1
φ (z ) = e 2
2π
2 x−µ
Logo, se X ~ N ( µ , σ ), então a variável aleatória definida por z = , terá
σ
distribuição normal padronizada, com média 0 e variância 1. Sabe-se que a probabilidade de
X estar entre dois valores quaisquer (a, b) é dado pela área sob a curva normal entre estes
valores:
Como a cálculo dessa integral não é trivial, usam-se as tabelas obtidas a partir da curva
normal padronizada.
Vejamos, então, como obter probabilidades a partir da Tabela (ANEXO 1). Essa tábua dá
as probabilidades sob uma curva normal padrão, que nada mais são do que as correspondentes
áreas sob a curva.
P ( 0 ≤ Z ≤ zc ) onde, Z ~ N (0,1)
35
Figura 5. Probabilidade de P(0 ≤ Z ≤ Zc )
(b) P (-1,73 ≤ Z ≤ 0) =
(c) P (Z ≥ 1,73) =
(d) P (Z ≥ 0) =
(e) P (0,47 ≤ Z ≤ 1,73) =
2
Suponha, agora, que X seja uma v. a. N ( µ , σ ), com µ =3e σ 2 = 16, e queiramos
calcular P(2 ≤ X ≤ 5). Temos:
2− µ X − µ 5− µ 2 − 3 X − µ 5 − 3
P(2 ≤ X ≤ 5)= P ≤ ≤ = P ≤ ≤
σ σ σ 4 σ 4
36
Se temos n variáveis aleatórias independentes Zi ~ N (0, 1), a soma de seus quadrados
respectivos é uma distribuição que denominaremos de LEI DE DISTRIBUIÇÃO DE χ2 com n
graus de liberdade, χ n2 .
n
Ou seja: χ n2 = Z12 + Z 22 + ... + Z n2 = ∑ Z i2
i =1
( X i − X )2
Se, σˆ 2 = é obtido de uma amostra aleatória de uma distribuição normal com
n −1
(n − 1).σˆ 2
média µ e variância σ 2 , então a variável: χ 2 = , com n - 1 graus de liberdade.
σ2
37
A distribuição de Qui-quadrado possui várias aplicações em estatística. Uma delas é a
de propiciar mecanismos para a realização de inferências sobre o parâmetro σ 2 de uma
população normal. Outra aplicação refere-se aos testes de falta de ajuste de um modelo teórico
aos dados observados em um experimento ou levantamento amostral.
38
3.2.4. Distribuição F de Snedecor
A distribuição de F se define como o quociente de distribuições χ2 independentes.
Sejam X ∼ χ2 e Y ∼ χ2 variáveis aleatórias independentes. Dizemos então que a
1
X
mX
variável F = n = ∼ Fn,m segue distribuição de probabilidade de Snedecor, com (n, m)
1 n Y
Y
m
graus de liberdade.
4. LITERATURA CONSULTADA
ARA, A. B.; MUSETTI, A. V.; SHNEIDERMAN, B. Introdução à estatística. São Paulo:
Egard Blucher: Instituto Mauá de Tecnologia, 2003.152p.
CARVALHO, S. Estatística básica. Rio de Janeiro: Campus/Elsevier, 2006. 464p.
FERREIRA, D. F. Estatística básica. Lavras: UFLA, 2005. 664p.
REGAZZI, A. Curso de iniciação à estatística (Apostila). Universidade Federal de Viçosa,
Viçosa – MG, 1997. 136p.
TRIOLA, M. F. Introdução à estatística. Rio de Janeiro: LTC, 2005. 656p.
Este conteúdo é resultado de pesquisa em vários livros e apostilas de estatística e bioestatística, portanto, ainda
deve ser revisado. Qualquer crítica, erro de digitação (ou outro qualquer), etc., por favor, me comunique.
Obrigada, Profa. Gisele
39
ANEXO 1: Tabela I - Distribuição Normal Padrão Z~N(0,1)
P(0<Z<Zc)
40
UNIVERSIDADE FEDERAL DO PIAUÍ
Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI
Lista de exercícios: Variáveis aleatórias
1. Cite pelo menos 5 exemplos de variáveis aleatórias discretas e 5 exemplos de variáveis aleatórias
contínuas na área de seu curso. Conceitualmente, como você diferenciaria essas variáveis das
quantitativas discretas e contínuas?
xi -2 -1 2 4 Total
3. Dado X,Y é uma variável aleatória discreta bidimensional com a seguinte distribuição conjunta:
Y
X
-3 2 4
1 0,1 0,2 0,2
3 0,3 0,1 0,1
Calcular:
a) E (X), V (X) e DP (X)
b) E (Y), V (Y) e DP (Y)
c) E (X + Y), Cov (X,Y) e rxy
d) X e Y são independentes? Justifique.
Resposta:
a) 2; 1 e 1 b) 0,6; 9,24 e 3,04 c) 2,6; -1,2 e -0,395 d) não
41
4. Dado X,Y é uma variável aleatória discreta bidimensional com a seguinte distribuição conjunta:
Y
X
-3 -2 -1
-2 1/15 1/15 3/30
0 8/30 4/30 2/15
1 2/30 1/30 4/30
Calcular:
a) E (X), V (X) e DP (X)
b) E (Y), V (Y) e DP (Y)
X 2 2Y
c) E − − 10 ,
3 5
d) Cov (X,Y), rxy. X e Y são independentes? Justifique.
Resposta:
a) -7/30; 1,112 e 1,055 b) -61/30; 0,766 e 0,875 c) -8,798 d) não
5. Seja a variável discreta bidimensional (X, Y), cuja distribuição de probabilidade conjunta é dada
pela tabela:
Y
X
-3 0 1
-2 1/9 0 2/9
0 0 2/9 2/9
1 1/9 1/9 0
Calcular:
a) E (X)
b) E (Y)
c) V (X)
d) V (Y)
e) E (XY)
f) Cov (X,Y). Interprete.
g) rxy Interprete
Resposta:
a) -0,45 b) -0,22 c) 1,353 d) 0 e) 0
42
6. Dada a funçao de densidade probabilidade (f.d.p.) abaixo:
1/2, se 0 ≤ x ≤ 1
-1/4(x – 3), se 1 ≤ x ≤ 3
f(x) =
0, para outros valores de x.
Calcular:
a) E(X)
b) V (X)
c) V(12X – 8)
d) P (0,5 ≤ x ≤ 1,5)
Resposta: a) 1,083 b) 1,667 c) 240,048 d) 0,469
7. Dada a função:
43
E as funções de densidade probabilidade marginais são:
1
, se 0 ≤ x < 4
4
f(x) =
0, para outros valores de x.
1
(3 − y ) , se 0 ≤ y < 2
4
f(y) =
0, para outros valores de y.
Calcular:
a) E (X)
b) E (Y)
c) V (X)
d) V (Y)
e) E (XY)
f) Cov (X,Y). Interprete.
g) rxy Interprete
Resposta: a) 2,0 b) 0,83 c) 5,33 d) 1,0 e) -0,33 f) -1,996
g) -0,86
9. Suponha que as dimensões, X e Y, de uma chapa retangular de metal possam ser consideradas
variáveis aleatórias contínuas com a seguinte função de densidade probabilidade conjunta:
x −1
, se 1 < x ≤ 2 2<y<4
f(x,y) = 2
− x+3
se 2 < x < 3 2<y<4
2
0, para outros valores de x e y.
(x – 1) se 1 < x ≤ 2
f(x) = (- x + 3) se 2 < x < 3
0, para outros valores de x.
1
, se 2 < y < 4
2
f(y) =
0, para outros valores de y.
44
Calcular:
a) E (X)
b) E (Y)
c) V (X)
d) V (Y)
e) E (XY)
f) Cov (X,Y). Interprete.
g) rxy Interprete
Resposta: a) 1,83 b) 3,0 c) 4,17 d) 9,33 e) 6,0 f) 0,51
g) 0,082
10. Numa família de 4 filhos, seja X = número de meninos e Y = número de variações na seqüência de
mesmo sexo. Relacionar o espaço amostral e, então:
a) Construir a distribuição de probabilidade conjunta de X e Y;
a) X e Y são independentes?
11. Demonstre, com base nas fórmulas gerais de média e variância de uma variável aleatória discreta
que, a média ou valor médio e a variância de uma variável aleatória binomial X [X ∼ Bin (n; p)]
correspondem a E(X) = np e V(X) = npq, respectivamente. Calcule a média e a variância de uma v. A.
X ∼ Bin (10; 0,3)].
Resposta: E(X) = 3 V(X) = 2,1
12. Entre 2000 famílias com 4 crianças cada uma, quantas se esperaria que tivessem:
a) Pelo menos um menino?
b) Exatamente dois meninos?
Resposta: a) 1875 b) 750
13. Supondo que o número de sementes que germine (Y) de uma espécie forrageira siga distribuição
binomial, e a probabilidade de uma semente germinar é 70%. Pede-se:
a) Qual a probabilidade, em um experimento com um vaso com n = 5 sementes, de pelo menos 4
germinarem?
b) Sabe-se que X representa o número de vasos que tem pelo menos 4 sementes germinadas dessa
espécie (originadas do item a), então qual é o número (tamanho da amostra) de vasos, semeados com 5
sementes, necessário para que um experimento venha a ser realizado com um número não inferior a
200 plantas.
Resposta: a) 0,528 ou 52,8%
45
14. Suponha que a peste suína siga a distribuição binomial, ocorrendo, em média em 1 a cada 50
animais em uma população de suínos de certa região. Qual é a probabilidade de que em uma amostra
aleatória de n = 100 suínos, seja encontrado, pelo menos, um com a doença?
Resposta: 0,87 ou 87%
15. Um fabricante de certo tipo de peças garante que uma caixa de suas peças conterá, no máximo,
duas defeituosas. Se a caixa contém 20 peças e a experiência tem demonstrado que o processo de
fabricação produz 5% de peças defeituosas.
a) Calcule a probabilidade de que uma caixa satisfaça a garantia;
b) Considerando que a caixa vendida determina um lucro de R$ 120,00, caso esteja conforme a
garantia, e um prejuízo de R$ 50,00, se não corresponder à garantia, indique qual será o lucro médio
por caixa vendida.
Resposta: a) 0,924 ou 9,24% b) R$ 107,08
16. Sementes certificadas de feijão são vendidas em um saco de 15 kg ao preço de R$ 20,00 cada. É
característica de produção que 20% das sementes apresentem poder germinativo abaixo do
especificado. Um comprador fez a seguinte proposta ao produtor de sementes: de cada saco escolhe 25
sementes, ao acaso, e paga por saco:
- R$ 25,00 se todas as sementes germinarem;
- R$ 17,00 se uma ou duas sementes não germinarem;
- R$ 10,00 se três ou mais sementes não germinarem.
O que é melhor para o produtor, manter o seu preço de 20,00 u.m. por saco ou aceitar a
proposta do comprador?
Sugestão: encontrar o preço médio esperado pelo produtor.
Resposta: O vendedor não deve aceitar a proposta do comprador [E(X) = 19,51)]
17. Suponhamos que a porcentagem de germinação de sementes de feijão seja de 70%. Vão ser
semeadas 4 sementes por cova, as quais serão espaçadas de 0,40m entre linhas e 0,20m entre covas.
Supondo-se que cada canteiro a ser semeado conste de 6 linhas de 5m de comprimento, qual o número
médio esperado de covas falhadas (nem uma semente germinou, das quatro semeadas) por canteiro?
Resposta: 0,9919 ou 99,19%
18. Um contador eletrônico de bactérias registra em média 5 bactérias por cm3 de um líquido.
Admitindo-se que esta variável tenha distribuição de Poisson:
a) qual é o desvio padrão do número de bactérias por cm3?
b) Encontre a probabilidade de que pelo menos duas bactérias ocorram num volume de líquido de
1cm3.
46
Resposta: a) V(X) = 5 b) 95,96%
19. Numa área dividida em quadrantes de 0,50m2, foram encontrados em média 2,5 espécimes.
Considerando que o modelo de Poisson é adequado, e seja X o número de espécimes por 0,5m2.
a) Qual é a probabilidade de se encontrar num quadrante exatamente 4 espécimes?
b) Qual é a probabilidade de encontrar no máximo 1 espécime por quadrante?
Resposta: a) 13,36% b) 28,7%
20. Numa placa de microscópio, dividida em quadrantes de 1mm2, encontra-se em média 5 colônias
por mm2. Considerando que a distribuição de Poisson é adequada, ou seja: as colônias distribuem-se
aleatoriamente na placa e, o número médio de colônias por mm2 permanece constante e é baixo.
a) Qual a probabilidade de um quadrante ter exatamente uma colônia?
b) Qual a probabilidade de encontrar duas colônias por mm2?
c) Qual a probabilidade de encontrar oito colônias em 2 mm2?
Resposta: a) 3,37% b) 8,42% c) 11,26%
21. Supondo que o peso de animais da raça Charolês, com dois meses de idade, obedeça a
uma distribuição normal com média igual a 75kg e desvio padrão de 10kg. Calcule a
probabilidade de que, um bovino dessa raça e dessa idade, escolhido ao acaso, pese:
a) mais de 69,8kg
b) menos de 97,2kg
c) entre 77,7kg e 82,2kg
d) menos de 77,7kg e mais de 82,2kg
Resposta: a) 69,85% b) 98,68% c) 15,78% c) 84,22%
22. Uma raça de coelhos híbrida, Norfolk, possui peso ao abate aos 90 dias X com distribuição N
(2,60; 0,04). Obter:
a) P (X > 2,70)
b) P (X < 2,45)
c) P (2,55 < X < 2,65)
d) P (X > x) = 0,80
e) P (-x < X < x) = 0,95
f) P (-x < X < x) = 0,90
47
23. Um agricultor usa uma máquina automática para encher sacos de trigo, cada um com um peso
nominal de 112 lb de grão. No entanto, devido a flutuações aleatórias do mecanismo de pesagem, o
peso de cada saco é uma V.A. Normal de média 112,375 lb e desvio padrão 0,226 lb;
a) Calcule a probabilidade de um saco escolhido ao acaso conter menos do que o peso nominal;
b) O agricultor fornece o trigo a um moleiro com a condição de que não mais do que 5% dos sacos são
sub-pesados. Determine o valor mais baixo do peso médio de cada saco que satisfaça a esta condição.
24. Num povoamento florestal temos uma distribuição aproximadamente normal dos Diâmetros na
altura do peito (D.A.P.) das árvores, com média de 12,6 cm e variância de 3,1 cm. Se cortarmos todas
as árvores de menos de 15 cm de diâmetro, qual a porcentagem de árvores que restarão de pé?
Resposta: 8,69%
25. As vendas de sementes de milho têm distribuição normal com média igual a 500 sacos e desvio
padrão 50 sacos. Se a empresa decide produzir 600 sacos no mês em estudo, qual é a probabilidade de
que não possa atender a todos os pedidos do mês, por estar com a produção esgotada?
Resposta: 22,28%
26. Sabe-se que o comprimento de pétalas de uma população de plantas da espécie X é normalmente
distribuída com média µ = 3,2 cm e σ = 1,8 cm. Qual proporção na população é ter um comprimento
de pétalas:
a) Maior do que 4,5 cm?
b) Entre 2,9 e 3,6 cm?
c) Determinar o valor do comprimento de pétalas que é superado por 65% das plantas.
Resposta: a) 23,89% b) 15,46% c) 4,874 cm
48