Você está na página 1de 142

UNIVERSIDADE FEDERAL DO PAMPA

UNIPAMPA

APOSTILA DE PROBABILIDADES E
ESTATÍSTICA - v0.9

Autor: Prof. Jorge P. Arpasi.

Apostila com material de apoio à disciplina de


Probabilidades e Estatı́stica da UNIPAMPA -
Campus Alegrete

Dezembro - 2022
Alegrete - RS
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2
Conteúdo

1 Preliminares 5
P
1.1 O somatório Sigma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Conjuntos finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Cardinalidade e distribuição dos subconjuntos em P(A) . . . . . . . . . . . . 9
1.2.3 Conjuntos infinitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Técnicas de contagem para conjuntos finitos . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Fatorial n! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 n-uplas, arranjos e combinações . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Cálculo de permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Cálculo de combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.5 Exemplos de aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Probabilidades 15
2.1 Experimento Aleatório, Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . 15
2.2 Regra da Adição e Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Probabilidade Total e Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Outros Exemplos Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Análise completa de um canal binário através de um experimento . . . . . . . 26
2.5.2 Extração de três bolas sem reposição . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.3 Extração de bolas com reposição . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Variáveis Aleatórias Discretas e Distribuições de Probabilidade 33


3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Cálculo de Probabilidades, Média e Variança . . . . . . . . . . . . . . . . . . 35
3.2 Distribuição de Probabilidade Acumulada . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Modelos de Distribuições Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

3.3.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40


3.3.2 Distribuição Binomial (n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.3 Distribuição de Poisson α = λt . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 Variáveis Aleatórias Continuas e Distribuições de Probabilidade 53


4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Cálculo da Média e Variança . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Modelos de Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.2 Distribuição Gaussiana ou Normal . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.3 Cálculo de probabilidades em X(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . 60
4.3.4 Cálculo de erros com as funções Q e Φ . . . . . . . . . . . . . . . . . . . . . . 63
4.3.5 Aproximação da distribuição binomial pela distribuição Gaussiana . . . . . . 64
4.3.6 A distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Funções de uma variável aleatória Y = g(X) . . . . . . . . . . . . . . . . . . . . . . . 65
4.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Distribuições de Probabilidade Conjuntas 67


5.1 Variáveis aleatórias conjuntas XY e distribuição conjunta fXY (x, y) . . . . . . . . . 67
5.1.1 Variáveis Aleatórias Marginais X, Y e suas distribuições fX (x), fY (y) . . . . 70
5.2 Covariância σXY e ı́ndice de correlação ρXY . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Distribuições de probabilidade e densidade condicionais . . . . . . . . . . . . . . . . 75
5.3.1 Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.2 Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4 Aplicações da covariança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Covariância de aX e bY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Variável soma Z = X + Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.3 A variável média amostral X̄ = n1 ni=1 Xi . . . . . . . . . . . . . . . . . . . .
P
79
5.4.4 Distribuições fZ (z) e fZ|x (z) = f (z|x) para Z = Y + Y . . . . . . . . . . . . 79
5.4.5 Covariância e Correlação COV (X, Z) onde Z = X +Y e X, Y são independentes 82
5.5 Canal binário com ruı́do aditivo Z = X + Y . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.1 Canal Gaussiano (AWGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.5.2 Deteção ML (Maximum Likelihood) Máxima Verossimilhança . . . . . . . . . 84
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6 Estatı́stica descritiva 87
6.1 Parâmetros que resumem os dados amostrais . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Organização e apresentação gráfica dos dados amostrais . . . . . . . . . . . . . . . . 89

2
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

6.2.1 Caso discreto: amostra grande com muitos dados repetidos . . . . . . . . . . 89


6.2.2 Caso contı́nuo: amostra grande com poucos dados repetidos . . . . . . . . . . 93
6.2.3 Cálculo aproximado da média x̄ e variança amostral s2 . . . . . . . . . . . . . 93
6.3 Diagramas de Dispersão e Correlação de dados Estatı́sticos . . . . . . . . . . . . . . 97
6.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7 Estimação de parâmetros 103


7.1 Estimador não tendencioso da variança . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2 Estimador de Máxima Verosimilitude . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.1 Estimador do parâmetro de proporção p de uma VA de Bernoulli . . . . . . . 106
n
7.3 Propriedades da média amostral X̄ = n1
P
Xi . . . . . . . . . . . . . . . . . . . . . . 107
i=1

8 Intervalos de Confiança 111


8.1 Construir Intervalos para a média µ . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.1.1 X Gaussiana e variança σ 2 conhecida . . . . . . . . . . . . . . . . . . . . . . 111
8.1.2 X Gaussiana com variança σ 2 desconhecida . . . . . . . . . . . . . . . . . . . 115
8.2 Construir Intervalo de confiança para a variança σ 2 . . . . . . . . . . . . . . . . . . . 116
8.3 X com distribuição desconhecida, tamanho de amostra grande, e variança σ 2 conhecida118
8.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

9 Testes de Hipóteses 121


9.1 Testes de Hipóteses para a média µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1.1 X Gaussiana com variança σ 2 conhecida . . . . . . . . . . . . . . . . . . . . . 121
9.1.2 Valor p de uma média amostral x̄ . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.1.3 X com distribuição desconhecida, tamanho de amostra grande, e variança σ 2
conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.1.4 X Gaussiana com variança σ 2 desconhecida . . . . . . . . . . . . . . . . . . . 131
9.2 Teste de hipótese para a variança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

10 Apendice: Algumas demonstrações 133


10.1 A função Γ e suas aplicações em estatı́stica . . . . . . . . . . . . . . . . . . . . . . . 133
10.1.1 A densidade de probabilidade χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.1.2 Densidade da variável aleatória soma de quadrados Gaussianos . . . . . . . . 135
10.2 Distribuição de Poisson, distribuição exponencial e distribuição Gamma . . . . . . . 136
10.3 Software Octave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4 Esperança e Variança para distribuição uniforme de uma variável uniformemente
espalhada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

3
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

4
Capı́tulo 1

Preliminares
P
1.1 O somatório Sigma
Suponha que temos os números {x1 , x2 , x3 } então a somatória dos três elementos é dado por
3
X
xi = x1 + x2 + x3
i=1

Algumas propriedades da somatória são


Pn Pn
1. i=1 cxi = c i=1 xi .
Pn Pn Pn
2. i=1 xi + yi = i=1 xi + i=1 yi .
Pn Pn
3. i=1 c = nc. Em geral, i=k c = (n − k + 1)c

Outras propriedades de potências de números naturais de muita utilidade são


Pn n(n+1)
1. i=1 i = 2
Pn 2 n(n+1)(2n+1)
2. i=1 i = 6
Pn 3 n2 (n+1)2
3. i=1 i = 4

Exemplo 1.1 Calcular 8i=1 i, 9i=1 i2 , 7i=1 i3 , e 12 3 2


P P P P
k=1 (2k − 3k + k − 3)

i = 8(8+1) = (8)(9)
P8
= 36
Pi=1 2
9(9+1)(18+1)
2
9 2
i = = (9)(10)(19) = 285
Pi=1
7 3
2
7 (7+1)
6
2 (49)(64)
6

i=1 i = 4 = 4 = 784
(12)2 (13)2
− 3 (12)(13)(25)
P12 3 2
P 12 3
P12 2 P12 P12
k=1 (2k − 3k + k − 3) = 2 k=1 k − 3 k=1 k + k=1 k − k=1 3 = 2 4 6 +
12(13)
2 − 12(3) =2(6084) − 3(650) + 78 − 36 = 10260

5
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 1.2 Considere os conjuntos de dados xi da Tabela 1.1 e da Tabela 1.2

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
8 4.6 -7.1 0 3.4 3.7 -6.1 5 7 4

Tabela 1.1: Conjunto de dados X

y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
1 4.1 4.1 -3 -2.4 -6.7 5.2 -0.2 0.3 7

Tabela 1.2: Conjunto de dados Y

então calcular
P10
1. i=1 xi ,
P10
2. i=1 yi ,
P10
3. i=3 xi ,
P10
4. i=2 (xi + yi ),
P10 2
5. i=1 (xi − 2yi2 ),
P10 3
6. j=2 (xj + 5yj2 + 1),
P4
7. k=3 (2xk + k 2 + 2),
P4 3
8. i=1 (xi + 3x2i − 3k),
P10 3
9. i=1 (xi − 21x2i + 3xi − i2 ),
P10 4
10. i=1 (yi − 32yi2 + 5yi − 9 + i3 − 2)
P10 3
11. i=1 (xi − 3yi + 7i2 + i − 2),
P10 5
12. i=1 (xi − 21x2i yi3 + 3xi yi2 − 2)
P10 3
13. + i2 − i − 2)
i=1 (xi
P10 P10
i=1 xi + 3 yi x2i
14. P10
i=1 cos(xi )

6
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Tabela 1.3: Organização de dados Exemplo 1


xi yi x2
i x3
i x4
i x5
i yi2 yi3
8.0 1.0 64.00 512.000 4096.0000 32768.0000 1.00 1.000
4.6 4.1 21.16 97.336 447.7456 2059.6298 16.81 68.921
-7.1 4.1 50.41 -357.911 2541.1681 -18042.2935 16.81 68.921
0.0 -3.0 0.00 0.000 0.0000 0.0000 9.00 -27.000
3.4 -2.4 11.56 39.304 133.6336 454.3542 5.76 -13.824
3.7 -6.7 13.69 50.653 187.4161 693.4396 44.89 -300.763
-6.1 5.2 37.21 -226.981 1384.5841 -8445.9630 27.04 140.608
5.0 -0.2 25.00 125.000 625.0000 3125.0000 0.04 -0.008
7.0 0.3 49.00 343.000 2401.0000 16807.0000 0.09 0.027
4.0 7.0 16.00 64.000 256.0000 1024.0000 49.00 343.000
P P P 2 P 3 P 4 P 5 P 2 P 3
xi = yi = xi = xi = xi = xi = yi = yi =
22.5 9.4 288.03 646.401 12072.5475 30443.16705 170.44 280.882

Tabela 1.4: Organização de dados Exemplo 1 (Cont.)


xi yi yi4 yi5 x2 3
i yi xi yi2
8.0 1.0 1.0000 1.0000 64.0000 8.000
4.6 4.1 282.5761 1158.5620 1458.3684 77.326
-7.1 4.1 282.5761 1158.5620 3474.3076 -119.351
0.0 -3.0 81.0000 -243.0000 0.0000 0.000
3.4 -2.4 33.1776 -79.6262 -159.8054 19.584
3.7 -6.7 2015.1121 -13501.2511 -4117.4455 166.093
-6.1 5.2 731.1616 3802.0403 5232.0237 -164.944
5.0 -0.2 0.0016 -0.0003 -0.2000 0.200
7.0 0.3 0.0081 0.0024 1.3230 0.630
4.0 7.0 2401.000 16807.0000 5488.0000 196.000
P P P 4 P 5 P 2 3 P
xi = yi = yi = yi = xi yi = xi yi2 =
22.5 9.4 5827.6132 9103.28914 11440.57174 183.538

Organizamos os dados conforme os requerimentos de potências n nas Tabelas 1.3 e 1.4 para
depois usar as propriedades do somatório.
P
P10A seguir usando as propriedades do somatório resolveremos
3 2
i=1 (xi − 21xi + 3xi − 2). Os outros somatórios deixamos para o leitor.
P10 3
P10 3 P10 2 P10 P10
i=1 (xi − 21x2i + 3xi − 2) = i=1 xi − 21 i=1 xi + 3 i=1 xi − i=1 2
= 646.401 − 21(288.03) + 3(22.5) − 10(2)
= −5354.7

Todos estes somatórios podem ser ser resolvidos usando planilhas eletrônicas. Nesse caso as pro-
priedades de somatório não tem muita utilidade.

1.2 Conjuntos
Conjunto é uma coleção de objetos com a única restrição de que o conjunto não pode ser elemento
dele mesmo. Cada objeto é chamado de elemento do conjunto. Cardinalidade de um conjunto é

7
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

o número de elementos que possui o mesmo. Ela pode ser finita ou infinita. Alguns exemplos de
conjuntos são:

• A = {a, b, c, d}, é um conjunto com cardinalidade 4.

• B= Conjunto de alunos da UNIPAMPA; conjunto com cardinalidade não determinada, mas


finita

• C={x ∈ A tal que x nasceu em SC}, conjunto com cardinalidade não determinada mas finita

• N={1, 2, 3, . . . }, Conjunto dos números naturais, conjunto com cardinalidade infinita.

O conjunto vazio φ é o conjunto que não possui elementos, a cardinalidade de φ é zero. A


cardinalidade de um conjunto finito A é denotado por

|A|=cardinalidade de A

ou também

#A=cardinalidade de A

1.2.1 Conjuntos finitos


Um conjunto é finito quando possui sua cardinalidade é finita. Isto significa que existe um número
n tal que |A| = n ou podemos escrever explicitamente seus elementos A = {a1 , a2 , . . . , an }.
É claro que todo subconjunto de um conjunto finito, também é finito.
Um conjunto associado a conjuntos finitos é o “conjunto potência”. O conjunto potência de A
denotado por P(A) é o conjunto de todos os subconjuntos de A, isto é,

P(A) = {subconjuntos de A}.

Algumas vezes este conjunto é também chamado de “partes de A”.

Exemplo 1.3 Seja A = {a, b, c}, então P(A) = {φ, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, A}

Exemplo 1.4 Seja A = {a, b, c, d}, então P(A) = {φ, {a}, {b}, {c}, {d}, {a, b}, {a, c}, {a, d},
{b, c}, {b, d}, {c, d}, {a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, A}

8
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

1.2.2 Cardinalidade e distribuição dos subconjuntos em P(A)


Teorema 1.1 Suponha que |A| = n então |P(A)| = 2n distribuı́dos de acordo a seus pesos
Pelo binômio de Newton temos que
n
X
(a + b)n = C(n, k)ak bn−k ,
k=0
n!
onde C(n, k) = é a combinatória n de k. Se a = 1 e b = 1, substituindo no binômio de
(k!)(n − k)!
Newton teremos
X n Xn
n n k n−k
2 = (1 + 1) = C(n, k)1 1 = C(n, k).
k=0 k=0
Alguns exemplos:
1. Para n = 3, 23 = 8 distribuı́dos assim
8 = C(3, 0) + C(3, 1) + C(3, 2) + C(3, 3) = 1 + 3 + 3 + 1.

2. Para n = 4, 24 = 16 distribuı́dos assim


16 = C(4, 0) + C(4, 1) + C(4, 2) + C(4, 3) + C(4, 4) = 1 + 4 + 6 + 4 + 1.

Exemplo 1.5 Um exemplo importante de aplicação são as strings binárias a1 a2 . . . an , ai ∈ {0, 1},
de comprimento n
Definindo como peso de uma string como sendo o número de uns que possui, isto é w(a1 a2 . . . an )=
número de uns. Por exemplo w(10001) = 2, w(1111111) = 7,etc. Temos que os pesos estão dis-
tribuı́dos obedecendo os coeficientes combinatórios. Para o caso n = 4, teremos 16 palavras binárias
de comprimento 4, distribuidas assim
C(4, 0)=1 palavra de peso 0: 0000
C(4, 1)= 4 palavras de peso 1: 1000, 0100, 0010, 0001,
C(4, 2)= 6 palavras de peso 2: 1100, 0110, 0011, 1001, 1010, 0101,
C(4, 3)= 4 palavras de peso 3: 1110, 0111, 1011, 1101,
C(4, 4) =1 palavra de peso 4: 1111.

1.2.3 Conjuntos infinitos


Um conjunto é infinito quando não é finito. Existem dois tipos de conjunto infinitos:
• Conjuntos infinito enumeráveis, por exemplo, N o conjunto dos números naturais é um con-
junto infinito enumerável
• Conjuntos infinitos não enumeráveis, por exemplo, o conjunto do números reais R.

9
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

1.3 Técnicas de contagem para conjuntos finitos


1.3.1 Fatorial n!
O fatorial de um numero natural n é

n! = n × (n − 1) × (n − 2) × . . . × 2 × 1

Alguns exemplos:

• 1! = 1

• 2! = 2 × 1 = 2

• 3! = 3 × 2 × 1 = 6

• 5! = 5 × 4 × 3 × 2 × 1 = 120

• 10! = 10 × 9 × . . . × 2 × 1 = 3628800, etc.

O factorial de zero é por definição um, isto é,

0! = 1

1.3.2 n-uplas, arranjos e combinações


Dado um conjunto finito A com m elementos suponha queremos extrair n elementos, com n ≤ m,
então;

1. Se os n elementos podem ser repetidos teremos mn possibilidades chamadas de n-uplas


m!
2. Se os n elementos são sem repetição teremos P(m, n) = (m−n)! possibilidades chamados de
permutações.
m!
3. Se os n elementos não admitem repetições nem permutações teremos C(m, n) = (m−n)!n!
possibilidades, que são combinações. O número C(m, n) é chamado “combinatória n de m”.

10
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 1.6 Suponha o seguinte conjunto de quatro letras A = {a, b, c, d} Calculamos o número
de duplas, permutações e combinações de dois elementos

Neste caso m = |A| = 4 e n = 2


a) Temos mn = 42 = 16 duplas (admitem repetições).

aa ba ca da
ab bb cb db
ac bc cc dc
ad bd cd dd

Tabela 1.5: 16 = 42 duplas

m! 4!
b) Temos (m−n)! = (4−2)! = 12 permutações de dois elementos (sem repetições).

ba ca da
ab cb db
ac bc dc
ad bd cd

4!
Tabela 1.6: (4−2)! = 12 permutações

m! 4!
c) Temos (m−n)!n! = (4−2)!2! = 06 combinações de dois elementos (não admitem repetições nem
permutações).

ab
ac bc
ad bd cd
4!
Tabela 1.7: 6 = (4−2)!2!

Exemplo 1.7 Seja outra vez o conjunto A = {a, b, c, d}

Teremos 43 = 64 triplas, 4!(4 − 3)! = 24 permutações e 43 = (4−3)!3!


4!

= 4 combinações. Como este
exemplo é pequeno podemos verificar os resultados das fórmulas na seguinte Tabela.

11
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

aaa baa caa daa


aab bab cab dab
aac bac cac dac
aad bad cad dad
aba bba cba dba
abb bbb cbb dbb
abc bbc cbc dbc
abd bbd cbd dbd
aca bca cca dca
acb bcb ccb dcb
acc bcc ccc dcc
acd bcd ccd dcd
ada bda cda dda
adb bdb cdb ddb
adc bdc cdc ddc
add bdd cdd ddd

Dos exemplos observados temos as seguintes desigualdades:

n! n!
nm ≥ ≥ (1.1)
(n − m)! (m!)(n − m)!

1.3.3 Cálculo de permutações


Permutação é a troca de ordem de uma lista de elementos. Se a lista de elementos é A =
{a1 , a2 , a3 , · · · , an }, então o número de permutações é n!

Exemplo 1.8 Considere os conjuntos A={a,b}, e B = {a,b,c}

A tem dois elementos portanto o número de permutações é 2! = 2; a saber {a,b} e {b,a}.


Agora, para o conjunto B teremos 3! = 6 permutações. Com efeito as permutações de B são
{a,b,c},{c,a,b},{b,c,a},{a,c,b},{c,b,a}, e {b,a,c}.

1.3.4 Cálculo de combinações


É transmitido um pacote de de 4 bits através de um canal de comunicações. Quantos pacotes tem
4! 4!
exatamente dois bits zero? C(4, 2) = (4−2)!2! = 2!2! = 6 que são {0011, 0101, 0110, 1010, 1100, 1001}

12
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

1.3.5 Exemplos de aplicações


1. Jogo da sena
Aqui o conjunto alfabeto é

A = {01, 02, 03, . . . , 58, 59, 60}

e n = 6. Se o sorteio dos números fosse com reposição, os 06 número sorteados seriam inde-
pendentes, neste caso o número total de 6-uplas seria 606 = 46.656.000.000 ≈ 46.7 bilhões.
O problema deste tipo de sorteio é haveria confusão pelas repetições e permutações. Por
exemplo {01,02,02,03,17,28} e {01,02,03,02,17,28} são duas 6-uplas diferentes qual o critério
para decidir um ganhador?

Então o sorteio da Megasena é feito sem reposição, com isto os 06 números sorteados não são
independentes e o número de possibilidades é:

60 possibilidades para a primeira dezena


59 possibilidades para a segunda dezena
58 possibilidades para a terceira dezena
57 possibilidades para a quarta dezena
56 possibilidades para a quinta dezena
55 possibilidades para a sexta dezena

Com isto o número de combinações diferentes é:

60 × 59 × 58 × 57 × 56 × 55 = 50.063.860

A fórmula combinatória destes mais de 50 milhões de combinações é é

60!
C(60, 6) = = 50.063.860
54!6!

pelas condições do sorteio, o resultado de cada 6-upla é independente de outra, então a


probabilidade de ganhar o jogo com uma aposta simples é
1
P (ganhar) = = 0.00000001997668858 = 1.997448858 × 10−8 ,
50.063.860
aproximadamente “uma em 50 milhões”.
7!
O total de possı́veis combinações para o jogo duplo são Jogo duplo: C(7, 6) = (7−6)!6! = 7,
equivalente a 7 apostas simples Para o jogo triplo teremos o equivalente a C(8, 6) = 28 apostas

13
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

simples Para o jogo quádruplo teremos C(9, 6) = 84 apostas simples E para o jogo quı́ntuplo
teremos C(10, 6) = 210 apostas simples
Portanto a a probabilidade de ganhar na Sena, por exemplo, no jogo quı́ntuplo é
1 3 1
210 × = = 4.1946426024681 × 10−6 ≈ ,
50.063.860 715198 238399.3
aproximadamente “uma em 238 mil”.
Para o caso de aceitar cartela com 30 números teremos
C(30, 6) 593775
= = 0.01186
C(60, 6) 50063860

2. Aplicação em placas de carros: As placas de carros têm um esquema de três letras


e quatro números a1 a2 a3 n1 n2 n3 n4 É um caso de triplas e quádruplas. Pois, são
utilizadas três letras do alfabeto, composto por vinte e seis letras, e quatro números de zero
a nove, admitindo repetição e comutação. Então o número total de placas diferentes é dado
por 263 × 104 = 175.760.000. Podemos inferir então que quando no Brasil houver mais
de 175 milhões de carros haverá a necessidade de aumentar uma letra ou um número. Se
aumentar uma letra teremos 264 × 104 = 4.569.760.000 mais de 4 bilhões de placas possı́veis.
Se aumentar um número teremos 263 × 105 = 1.757.600.000, mais de um bilhão e meio de
placas diferentes. Com certeza esta última deverá ser a próxima mudança do esquema das
placas de carros.

3. Aplicação senhas de 06 algarismos: As senhas de um banco possuem 06 algarismos. O


número de senhas diferentes é 106 = um milhão.

4. Aplicação senhas da UNIPAMPA: As senhas da UNIPAMPA precisam ter entre 6 a 8


caracteres com pelo menos um número e um caractere não alfanumérico. Quantas senhas são
possı́veis?

n β a1 a2 a3 . . . a6
Então a quantidade máxima de senhas da UNIPAMPA é é 10 × 15 × 256 = 3.6621 × 1010
aproximadamente umas 36.6 bilhões de senhas diferentes.

14
Capı́tulo 2

Probabilidades

2.1 Experimento Aleatório, Espaço Amostral e Eventos


1. Um experimento aleatório é uma atividade que tem “mais de um resultado” possı́vel.
Em caso contrário, quando o experimento tem um único resultado o experimento é chamado
determinı́stico.

2. Espaço Amostral é o conjunto de todos os resultados possı́veis de um experimento. É


denotado pela S=“espaço amostral” (S do inglês sample=amostra)

3. Evento é qualquer subconjunto do espaço amostral, isto é, E ⊂ S.

Exemplo 2.1 Experimento: “Lançar uma moeda e observar os resultados”

O espaço amostral que é o conjunto de resultados deste experimento é S = {c, k}, onde c=“cara”
e k=“coroa”.

Exemplo 2.2 Experimento:“Lançar um dado e observar os resultados”

Neste caso S = {1, 2, 3, 4, 5, 6} e um exemplo de evento é A=“resultado par”, que é A = {2, 4, 6}.
O evento complementar de resultado par é A′ = {1, 2, 3}.

Exemplo 2.3 Experimento: “Lançar duas moedas e observar os resultados”

Neste caso
S = {cc, ck, kc, kk}
e um evento é A = {cc} ou seja A=“obter duas caras”. O evento complementar de A é “não obter
duas caras”: A′ = {ck, kc, kk}.
Neste caso pequeno podemos mostrar a lista completa de eventos

15
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

01 Evento com zero elementos


∅ = {} (vazio)
04 Eventos com um elemento
{cc}, {ck},{kc},{kk}.
06 Eventos com dois elementos
{cc, ck}, {cc, kc},{cc, kk},{ck, kc}, {ck, kk}, {kc, kk}.
04 Eventos com três elementos
{cc, ck, kc}, {cc, ck, kk},{cc, kc, kk}, {ck, kc, kk}.
01 Evento com quatro elementos
S = {cc, ck, kc, kk} (tudo)
Então, para este espaço amostral temos um total de 1+4+6+4+1=16=24 eventos. No seguinte
exemplo veremos que nem sempre é possı́vel exibir a lista completa de eventos.

Exemplo 2.4 Experimento: lançar quatro vezes uma moeda equilibrada.

O espaço amostral é  

 cccc kkkk ccck kkkc 

cckc kkck cckk kkcc
 
S=
 ckcc kckk ckck kckc 
 
ckkc kcck ckkk kccc
 

Alguns eventos deste experimento aleatório são:

• A =“obter três coroas”={kkkc, kkck, kckk, ckkk}, evento com 04 elementos.

• B=”obter duas caras“= {cckk, ckck, ckkc, kcck, kckc, kkcc}, evento com 06 elementos.

• C “obter pelo menos uma coroa”=


 

 kkkk ccck kkkc 
cckc kkck cckk kkcc
 
S=

 ckcc kckk ckck kckc 
ckkc kcck ckkk kccc,
 

evento com 15 elementos.

Neste caso mostrar a lista completa de eventos seria tedioso e quase impossı́vel pois em total o
espaço amostral tem 216 = 65536 eventos.

Definição 2.1 Dado um espaço amostral S a função probabilidade é uma função matemática
definida nos eventos A ⊂ S tal que

• P (S)=1

16
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• 0 ≤ P (A) ≤ 1

• Para dois eventos A, B tais que A ∩ B = ∅,

P (A ∪ B) = P (A) + P (B)

Algumas propriedades imediatas da probabilidade são:


• P (A′ ) = 1 − P (A)

• P (∅) = 0

• Se A ⊂ B então P (A) ≤ P (B).

Prova.-
• A ∩ A′ = ∅ e A ∪ A′ = S donde

1 = P (S) = P (A ∪ A′ ) = P (A) + P (A′ )

Daı́
P (A′ ) = 1 − P (A)

• ∅ = S ′ donde
P (∅) = P (S ′ ) = 1 − P (S) = 1 − 1 = 0

• A ⊂ B implica que B = A ∪ (B \ A) com A e (B \ A) disjuntos. então

P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ≥ P (A)

Exemplo 2.5 Considere o experimento de lançar duas vezes uma moeda. Calcular a probabilidade
do evento A=“Obter cara e coroa” se (a) A moeda é honesta e (b) A moeda esta carregada com
probabilidade de cara=0.6.

O espaço amostral é S = {cc, ck, kc, kk}. O evento “obter cara e coroa” é A = {ck, kc}
Caso (a): moeda honesta
P (c) = 0.5, P (k) = 0.5 daı́ P (ck) = P (c)P (k) = (0.5)(0.5) = 0.25. Também teremos P (kc) =
P (k)P (c) = (0.5)(0.5) = 0.25. Portanto

P (A) = P ({ck, kc}) = P (ck) + P (kc) = 0.25 + 0.25 = 0.5

Poderı́amos ter obtido este resultado com a formula


|A| 2
P (A) = = = 0.5,
|S| 4

17
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

como é bastante usual. Esta formula “numero de resultados favoráveis” dividido pelo total de
resultados nem sempre é correto como veremos no caso da moeda carregada.
Caso (b): moeda carregada
P (c) = 0.6, P (k) = 0.4 daı́ P (ck) = P (c)P (k) = (0.6)(0.4) = 0.24. Também teremos P (kc) =
P (k)P (c) = (0.4)(0.6) = 0.24. Portanto
P (A) = P ({ck, kc}) = P (ck) + P (kc) = 0.24 + 0.24 = 0.48,
|A|
que é diferente de |S| .

2.2 Regra da Adição e Probabilidade condicional


Dados dois eventos A, B a probabilidade da união A ∪ B é definida por
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Formula que é amplamente conhecida como a regra da adição.
Dados dois eventos A, B a probabilidade condicional do evento A depois que ocorreu o evento
B é
P (A ∩ B)
P (A|B) =
P (B)
Da fórmula de probabilidade condicional obtemos a regra do produto para conjunção de eventos

P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)

Exemplo 2.6 Um lote de 400 Pendrives são classificados de acordo a dois critérios “Pendrives
com trincos” e “Pendrives operativos” de acordo com a seguinte Tabela
Pendrives operativos
sim não
sim 10 30
Pendrives com trincos
não 342 18

Se O é o evento “Pendrive operativo” e T é o evento “Pendrive com trincos”, calcular P (O), P (T ),


P (O ∩ T ), P (O ∪ T ), P (O|T ), P (T |O).

Solução-̇
Pendrives operativos
sim não Total Trincados
sim 10 30 40
Pendrives com trincos
não 342 18 360
Total Operativos 352 48 Total=400

18
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

O espaço amostral, toda a amostra, é S=“Pendrives”. E os eventos O e T são subconjuntos de S.

|O|
• P (O) = |S| = 352
400 = 0.88.

|T |
• P (T ) = |S| = 40
400 = 0.1.

|O∩T |
• P (O ∩ T ) = |S| = 10
400 = 0.025.

• P (O ∪ T ) = |O∪T |
|S| =
10+30+342
400 = 382
400 = 0.955. Esta mesma probabilidade pode ser calculada
coma regra da adição
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (O ∪ T ) = P (O) + P (T ) − P (O ∩ T ) = 0.88 + 0.1 − 0.025 = 0.955.

• P (O|T ) = |O∩T | 10
|T | = 40 = 0.25. O evento neste caso é “o pendrive funciona mesmo trincado”=
“O pendrive esta operativo dado que esta trincado”= O|T .

• P (T |O) = |O∩T | 10
|O| = 352 = 0.028409. O evento neste caso é “o pendrive esta trincado embora
operativo”= “O pendrive esta trincado dado que esta operativo”= T |O.

Exemplo 2.7 Extração de duas bolas sem reposição de uma única urna
Uma urna contem 24 bolas brancas e 6 bolas pretas. Da urna são extraı́das aleatoriamente, sem
reposição, duas bolas.

1. Qual é a probabilidade da segunda bola ser branca quando a primeira foi branca

2. Qual é a probabilidade da segunda bola ser branca quando a primeira foi preta

3. Qual é a probabilidade de ambas as bolas serem pretas

4. Qual é a probabilidade de ambas as bolas serem brancas

5. Quais são as probabilidades da primeira ser branca e a segunda preta? e ao contrário primeira
ser preta e a segunda branca?

6. Qual é o espaço amostral?.

Solução.-
Uma ferramenta gráfica de ajuda para resolver problemas de probabilidades condicionais é o
diagrama da arvore, que para o caso deste problema é representada na seguinte figura:

19
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

1era
Extração

2da
Extração

Onde os eventos são representados assim PP =“primeira bola preta”, PB =“primeira bola branca”,
SB =“segunda bola branca” e SP =“segunda bola preta”. Com isto temos

24 6
P (PB ) = , P (PP ) =
30 30
Por outro lado as probabilidades dos eventos SP e SB precisam de cálculos preliminares.

1.
23
P (SB |PB ) = ,
29
6
O que significa que P (SP |PB ) = 29 .

2.
24
P (SB |PP ) = ,
29
5
O que significa que P (SP |PP ) = 29 .

3.   
5 6 5 1
P (SP , PP ) = P (SP |PP )P (PP ) = = =
29 30 145 29

4.   
23 24 92
P (SB , PB ) = P (SB |PB )P (PB ) = =
29 30 145

5.   
6 24 24
P (PB , SP ) = P (SP |PB )P (PB ) = =
29 30 145

6. Sejam P ri=“Primeira bola extraı́da” e Seg=“Segunda bola extraı́da”. O espaço amostral é


S = P ri × Seg e |S| = 30 × 29 = 870

Todas as outras probabilidades conjuntas estão na seguinte Tabela de probabilidades.

20
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2da extração
brancas pretas
brancas 92/145 24/145
1era extração
pretas 24/145 5/145

Por outro lado os 870 = 30 × 29 pares do espaço amostral de pares S = P × S estão organizados
na seguinte Tabela

2da extração
brancas pretas
brancas 552 144
1era extração
pretas 144 30

Que tem a seguinte interpretação: “Existem 552+144=696 pares com a primeira bola branca”,
“Existem 144+30=174 pares com a primeira bola preta”, “Existem 552+144=696 pares com a
segunda bola branca” e “Existem 144+30=174 pares com a segunda bola preta”.

2.3 Independência de eventos


Dados os eventos A e B é dito que são independentes se

P (A|B) = P (A)

Isto é a ocorrência de B não altera as probabilidades de A. Pode se mostrar que quando os eventos
A e B são independentes então

• P (A|B) = P (A) e P (B|A) = P (B)

• P (A ∩ B) = P (A)P (B)

• P (A′ |B) = P (A′ )

Exemplo 2.8 As falhas de diferentes máquinas são independentes umas das outras. Se as quatro
máquinas e suas respectivas probabilidades de falha são 1%, 2%, 5% e 10% em determinado dia.
Calcule a probabilidade de:

1. Todas falharem num determinado dia

2. De nenhuma falhar

Este é um exemplo de Independência.

1. P = 0.01 × 0.02 × 0.05 × 0.1 = 0.0000001 = 10−6 ou 0.00001%

21
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2. P = 0.99 × 0.98 × 0.95 × 0.9 = 0.829521 ou 82.95%

Exemplo 2.9 Considere duas urnas A e B com 10 fichas cada uma. A urna A tem oito fichas
vermelhas e duas fichas brancas. A urna B tem quatro vermelhas e seis brancas. Extraem-se duas
fichas, uma de cada urna.

1. Qual a probabilidade de extrair uma ficha vermelha e uma ficha branca;

2. Qual a probabilidade de que ambas as fichas sejam brancas;

3. Qual a probabilidade de que ambas sejam vermelhas;

Sejam os seguintes eventos;


A=“Extrair uma ficha da urna A”
B=“Extrair uma ficha da urna B”
F V =“A ficha extraı́da é vermelha”
F B=“A ficha extraı́da é branca”

Assim temos, por exemplo, P (F V |A)=“probabilidade de extrair ficha vermelha da urna A”.
Então
8
P (F V |A) = 10
2
P (F B|A) = 10
4
P (F V |B) = 10
6
P (F B|B) = 10
Como as urnas são independentes, temos:
8 6 48
1. P (F V ∩ F B) = P (F V |A)P (F B|B) = 10 × 10 = 100 = 0.48
2 6 12
2. P (F B ∩ F B) = P (F B|A)P (F B|B) = 10 × 10 = 100 = 0.12
8 4 32
3. P (F V ∩ F V ) = P (F V |A)P (F V |B) = 10 × 10 = 100 = 0.32

2.4 Probabilidade Total e Regra de Bayes


Dados os eventos A e B, temos S = B ∪ B ′ e A ∩ S = A

A = A ∩ S = A ∩ (B ∪ B ′ ) = (A ∩ B) ∪ (A ∩ B ′ )

Como B e B ′ são disjuntos então (A ∩ B) e (A ∩ B ′ ) também são disjuntos. Logo

P (A) = P (A ∩ B) + P (A ∩ B ′ ) = P (A|B)P (B) + P (A|B ′ )P (B ′ ),

que é conhecida como a formula da probabilidade total.

22
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Por outro lado, P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A), então

P (A|B)P (B)
P (B|A) =
P (A|B)P (B) + P (A|B ′ )P (B ′ )
que é conhecida como a formula a regra de de Bayes ou (Teorema de Bayes).

Exemplo 2.10 Um jovem suspeita que esta com uma doença rara e para tirar suas dúvidas ele se
submete a uma exame de sangue. Os resultados destes exames não são 100% certeiros, tem uma
pequena probabilidade de falha. Quando uma pessoa não esta com a doença e o resultado é positivo,
este resultado é chamado de falso positivo. Quando uma pessoa esta com a doença e o resultado é
negativo, este resultado é chamado de falso negativo. Sabe-se que 4.8% da população está infectada
com essa doença rara enquanto que a probabilidade de falso positivo é 0.005 e a probabilidade de
falso negativo é 0.003. Se o resultado do exame é positivo qual é a probabilidade do jovem estar
livre da doença?

Sejam
D=“Pessoa com a doença rara”
P =“Resultado do exame é positivo”
Temos então P (D′ |P )=“Probabilidade do jovem estar sadio mesmo que o resultado do seu exame
seja positivo”

Calculamos esta probabilidade com formula de Bayes


P (P |D′ )P (D′ )
P (D′ |P ) =
P (P |D′ )P (D′ ) + P (P |D)P (D)
Temos P (D′ ) = 0.048 que implica P (D) = 0.952. Também P (P ′ |D) = 0.003 que implica P (P |D) =
0.997. Por outro lado
P (P ′ |D)=“Probabilidade de exame negativo mesmo que a pessoa esteja doente” = “Probabilidade
de falso negativo”=0.003 que implica P (P |D)= 0.997. Logo
P (P |D′ )P (D′ ) (0.005)(0.952)
P (D′ |P ) = ′ ′
= = 0.090467
P (P |D )P (D ) + P (P |D)P (D) (0.005)(0.952) + (0.997)(0.048)
Que significa que a probabilidade de estar doente é 1-0.090467=0.90953= 90.95%.

P(D) P(D')

D D'
P(P|D) P(P'|D')
P(P'|D)
P(P|D')
P P' P P'

23
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 2.11 Considere o Exemplo 2.7 da extração de duas bolas sem reposição de uma urna,
então calcular

1. Probabilidade de que a segunda bola seja branca

2. Probabilidade da primeira bola ser branca sendo que a segunda foi preta

3. Probabilidade da primeira bola ser preta sendo que a segunda foi preta

Solução.-

1. Neste caso aplicamos a regra do produto total


     
23 24 6 24 4
P (SB ) = P (SB |PB )P (PB ) + P (SB |PP )P (PP ) = + =
29 30 30 29 5

2. Para esta questão aplicamos a regra de Bayes:


6 24
 
P (SP |PB )P (PB ) 29 30  24
P (PB |SP ) = = 6
 24
 5 6
=
P (SP |PB )P (PB ) + P (SP |PP )P (PP ) 29 30 + 29 30
29

3.
5 6
 
P (SP |PP )P (PP ) 29 30  5
P (PP |SP ) = = 5
 6
 6 24
=
P (SP |PP )P (PP ) + P (SP |PB )P (PB ) 29 30 + 29 30
24

Exemplo 2.12 Num canal de comunicações binário a probabilidade de recepcionar corretamente o


bit “1” é de 80 % e a probabilidade de recepcionar incorretamente o bit “0” é de 5 %. Um arquivo
de 3.2 Megabytes, com 42 % de bits “1” é transmitido através deste canal.

• Qual é a probabilidade de ter transmitido o bit “1” quando foi recepcionado o bit “0”? (com-
parar com a probabilidade a priori)

• Qual é a probabilidade de ter transmitido o bit “0” quando foi recepcionado o bit “1”? (com-
parar com a probabilidade a priori)

• Qual é a probabilidade de ter transmitido o bit “0” quando foi recepcionado o bit “0”? (com-
parar com a probabilidade a priori)

• Qual é a probabilidade de ter transmitido o bit “1” quando foi recepcionado o bit “1”? (com-
parar com a probabilidade a priori)

• Qual é a probabilidade de ter recepcionado o bit “1”?

• Quantos bytes serão transmitidos corretamente?

24
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Solução.- Seja T1 o simbolo que denota o evento “bit 1 é transmitido”, R0 =“bit 0 é recepcionado”,
analogamente T0 e R1 então o seguinte gráfico de arvore é uma ferramenta de visualização da solução
do problema:

P (R0 |T1 )P (T1 ) (0.2)(0.42)


• P (T1 |R0 ) = P (R0 |T1 )P (T1 )+P (R0 |T0 )P (T0 ) = (0.2)(0.42)+(0.95)(0.58) = 0.13228.
Interpretação: A priori, a probabilidade de transmitir o bit “1” é 42 %. Más depois de
recepcionado o bit “0” a probabilidade do bit “1” ter sido transmitido diminui para 13.228
%.
P (R1 |T0 )P (T0 ) (0.05)(0.58)
• P (T0 |R1 ) = P (R1 |T0 )P (T0 )+P (R1 |T1 )P (T1 ) = (0.05)(0.58)+(0.8)(0.42) = 0.079452.
Interpretação: A priori, a probabilidade de transmitir o bit “0” é 58 %. Más depois de
recepcionado o bit “1” a probabilidade do bit “0” ter sido transmitido diminui para 7.9452
%.
P (R0 |T0 )P (T0 ) (0.95)(0.58)
• P (T0 |R0 ) = P (R0 |T0 )P (T0 )+P (R0 |T1 )P (T1 ) = (0.95)(0.58)+(0.2)(0.42) = 0.86772.
Interpretação: A priori, a probabilidade de transmitir o bit “0” é 58 %. Más depois de
recepcionado o bit “0” a probabilidade do bit “1” ter sido transmitido aumenta para 86.772
%.
P (R1 |T1 )P (T1 ) (0.8)(0.42)
• P (T1 |R1 ) = P (R1 |T1 )P (T1 )+P (R1 |T0 )P (T0 ) = (0.8)(0.42)+(0.05)(0.58) = 0.92055.
Interpretação: A priori, a probabilidade de transmitir o bit “1” é 42 %. Más depois de
recepcionado o bit “1” a probabilidade do bit “1” ter sido transmitido aumenta para 92.055
%.

• P (R1 ) = P (R1 |T1 )P (T1 ) + P (R1 |T0 )P (T0 ) = (0.05)(0.58) + (0.8)(0.42) = 0.365

• Probabilidade de erro quando foi transmitido o bit “1” é P (ǫ|T1 ) = P (R0 |T1 ) e a probabilidade
de erro quando foi transmitido o bit “0” é P (ǫ|T0 ) = P (R1 |T0 ). Logo a probabilidade de erro

P (ǫ) = P (ǫ|T0 )P (T0 ) + P (ǫ|T1 )P (T1 ) = (0.2)(0.42) + (0.05)(0.58) = 0.113

Portanto a probabilidade de transmissão correta é P (C) = 1 − P (ǫ) = 0.887. Daı́, o número


de bytes transmitidos corretamente é N = 3.2 ∗ 0.887 = 2.8384 Megabytes.

25
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2.5 Outros Exemplos Importantes


2.5.1 Análise completa de um canal binário através de um experimento
Um pacote de 1000 bits é transmitido através de um canal digital. No processo de transmissão
alguns bits foram transmitidos corretamente e outros com erros conforme a Tabela a seguir;

Bit recepcionado
“1” “0”
“1” 380 62
Bits transmitido
“0” 28 530

Considere os seguintes eventos T1 =“bit 1 é transmitido”, T0 =“bit 0 é transmitido”, R1 =“bit 1


é recepcionado”, R0 =“bit 0 é recepcionado” e=“bit tem transmissão equivocada”. Então calcular
P (T0 ), P (R1 ), P (R1 |T0 ), P (R0 |T1 ), P (e), etc.
Solução-̇ Calculamos as marginais “Bits Transmitidos” e “Bits recepcionados”:

Bit recepcionado
“1” “0” Total Transmitidos
“1” 380 62 442
Bits transmitidos
“0” 28 530 558
Total recepcionados 408 592 Total=1000

Neste caso não é importante averiguar qual é o espaço amostral do processo. Os eventos T0 e T1 R1 ,
R0 , e são suficientes para responder as questões do problema. Começamos com as probabilidades
totais:

|T0 |
• P (T0 ) = |S| = 558
1000 = 0.558, “probabilidade de que o bit 0 seja transmitido”.

• P (T1 ) = 0.442, “probabilidade de que o bit 1 seja transmitido”.

• P (R0 ) = 0.592, “probabilidade de que o bit 0 seja recepcionado”.

• P (R1 ) = 0.408, “probabilidade de que o bit 1 seja recepcionado”.

A seguir calculamos as probabilidades de eventos simultâneos P (Ti ∩ Rj ) = P (Tj ∩ Ri )= “pro-


babilidade de ocorrência simultânea de que o bit j é transmitido e o bit i é recepcionado”.

• P (R0 ∩ T0 ) = |R0|S|
∩T0 |
= 530
1000 = 0.530, “probabilidade de que o bit 0 é transmitido e o bit 0 é
recepcionado”

• P (R1 ∩ T0 ) = 0.028, “probabilidade de que o bit 0 é transmitido e o bit 1 é recepcionado”

26
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• P (R0 ∩ T1 ) = 0.062, “probabilidade de que o bit 1 é transmitido e o bit 0 é recepcionado”

• P (R1 ∩ T1 ) = 0.380. “probabilidade de que o bit 1 é transmitido e o bit 1 é recepcionado”

A seguir estudamos os eventos de recepção(futuro) condicionados aos eventos de transmissão


(presente) e suas probabilidades. Assim, Ri |Tj significa “O bit i será recepcionado quando é trans-
mitido o bit j”. Com isto,

P (Ri |Tj )= “probabilidade de que o bit i será recepcionado quando é transmitido o bit j”,

que pode ser interpretado como a predição de recepção do bit i quando é transmitido o bit j.

• P (R1 |T1 ) = |R|T


1 ∩T1 |
1|
380
= 442 = 0.85973. O evento R1 |T1 também pode ser interpretado assim:
“Haverá recepção correta quando o bit 1 é transmitido”.

• P (R1 |T0 ) = |R|T


1 ∩T0 |
0|
28
= 558 = 0.050179. O evento R1 |T0 também pode ser interpretado assim:
“Haverá recepção com erro quando o bit 0 é transmitido”.

• P (R0 |T1 ) = |R|T


0 ∩T1 |
1|
62
= 442 = 0.140271. O evento R0 |T1 também pode ser interpretado assim:
“Haverá recepção com erro quando o bit 1 é transmitido”.

• P (R0 |T0 ) = |R|T


0 ∩T0 |
0|
530
= 558 = 0.94982. O evento R1 |T0 também pode ser interpretado assim:
“Haverá recepção correta quando o bit 0 é transmitido”.

Um gráfico muito utilizado na teoria das comunicações ilustrando as probabilidades condicionais


P (Rj |Ti ) é o seguinte

Este é gráfico padrão de canal binário de comunicações


Continuando, estudamos os eventos de transmissão(passado) condicionados aos eventos de re-
cepção (presente) e suas probabilidades. Assim, Ti |Rj significa “O bit i foi transmitido quando é
recepcionado o bit j”. Com isto,

27
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

P (Ti |Rj )= “probabilidade de que o bit i foi transmitido quando é recepcionado o bit j”,

que pode ser interpretado como a suspeita de transmissão do bit i quando é recepcionado o bit j.

• P (T1 |R0 ) = |R|R


0 ∩T1 |
0|
62
= 592 = 0.104729. O evento T1 |R0 também pode ser interpretado assim:
“Houve transmissão com erro quando o bit 0 é recepcionado”.
Comparando com a probabilidade a priori P (T1 ) = 0.442 temos que a probabilidade a poste-
riori P (T1 |R0 ) diminui para 0.104729.

• P (T0 |R1 ) = |T0|R∩R


1|
1| 28
= 408 = 0.06862. O evento T0 |R1 também pode ser interpretado assim:
“Houve transmissão com erro quando o bit 1 é recepcionado”.
Comparando com a probabilidade a priori P (T0 ) = 0.558 temos que a probabilidade a poste-
riori P (T0 |R1 ) diminui para 0.06862.

• P (T0 |R0 ) = |R|R


0 ∩T0 |
0|
530
= 592 = 0.89527. O evento T0 |R0 também pode ser interpretado assim:
“Houve transmissão correta quando o bit 0 é recepcionado”.
Comparando com a probabilidade a priori P (T0 ) = 0.558 temos que a probabilidade a poste-
riori P (T0 |R0 ) aumenta para 0.89527.

• P (T1 |R1 ) = |T1|R∩R


1|
1| 380
= 408 = 0.93137. O evento T1 |R0 ambém pode ser interpretado assim:
“Houve transmissão correta quando o bit 0 é recepcionado”.
Comparando com a probabilidade a priori P (T1 ) = 0.442 temos que a probabilidade a poste-
riori P (T1 |R1 ) aumenta para 0.93137.

Finalmente, calculamos as probabilidades de erro e transmissão correta

• A probabilidade de erro é

P (e) = P (T0 )P (e|T0 ) + P (T1 )P (e|T1 ) = (0.558)(0.050179) + (0.442)(0.140271) = 0.09

• A probabilidade de transmissão correta é

P (C) = 1 − P (e) = 1 − 0.09 = 0.91

Isto mostra que a cada 1000 bits, em média, 910 bits serão transmitidos corretamente.

28
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2.5.2 Extração de três bolas sem reposição


Da mesma urna que contem 24 bolas brancas e 6 bolas pretas são extraı́das aleatoriamente, sem
reposição, três bolas. Qual é o espaço amostral?.

S = {bbb, bbp, bpb, bpp, pbb, pbp, ppb, ppp}


Os eventos são ∅, S e alguns dos outros 254 eventos não triviais são: B1 : “a primeira bola é
branca”= {bbb, bbp, bpb, bpp}, B2 : “a segunda bola é branca”= {bbb, bbp, pbb, pbp}, P1 : “a primeira
bola é preta”= {pbb, pbp, ppb, ppp}, P3 : “a terceira bola é preta”= {bbp, bpp, pbp, ppp}, P2 ∩ B1 : “a
segunda bola é preta e a primeira bola é branca”= {bpb, bpp}, etc. Para calcular as probabilidades
dos diferentes eventos deste experimento é muito útil o seguinte arvore

2.5.3 Extração de bolas com reposição


Quando as bolas são extraı́das com reposição os eventos são independentes, por exemplo, P (B2 |P1 ) =
P (B2 ) = P (B1 ).

2.6 Exercı́cios
1. Joga-se um par de dados equilibrados e o resultado deste experimento é observado:

(a) Qual a probabilidade do ambas as faces serem seis?


(b) Qual a probabilidade de ambas as faces serem dois?
(c) Qual a probabilidade de ambas as faces serem números pares?

Rpta.-a=1/36, b=1/36, c=1/4.

29
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2. Joga-se uma moeda cinco vezes e o resultado deste experimento é observado.

• Se a moeda é honesta, qual é probabilidade de duas caras?


• Se a moeda esta carregada P (c) = 0.7, qual é probabilidade de duas caras?

Rpta.- 0.3125, 0.1324

3. É escolhida uma amostra de 1000 estudantes da UNIPAMPA e os estudantes deste grupo são
classificados de acordo aos critérios “Sexo” e “Origem Gaúcho” de acordo a seguinte tabela

Origem Gaucho
sim não
Masculino 380 300
Sexo
Feminino 120 200

(a) Se o estudante tem origem gaucho, qual é a probabilidade de que seja de sexo femenino?
(b) Se o estudante é de sexo masculino, qual é a probabilidade de não tenha origem gaucho?
(c) Qual é a probabilidade de que o estudante seja gaucho e seja de sexo femenino?

Rptas.- 6/25, 15/34, 3/25

4. Considere uma urna com 42 fichas, sendo 8 brancas e 34 amarelas. Extraem-se sem reposição
2 fichas.

(a) Qual é a probabilidade de extrair duas fichas amarelas?


(b) Qual é a probabilidade de extrair uma ficha branca e uma ficha amarela (nessa ordem)?
(c) Qual é a probabilidade da segunda bola ser amarela?
(d) Qual é a probabilidade de que a primeira bola seja amarela se a segunda foi branca?
Comparar com a probabilidade a priori das bolas amarelas

Rptas.- 0.65156, 0.15795, 0.80952, 0.82926

5. Durante uma competição esportiva de primeiro nı́vel sabe-se que 98 % dos atletas são hones-
tos e não utilizam substancias proibidas para melhorar seus resultados. As provas anti-doping
identificam corretamente um caso de dopagem em um 99.2 % dos casos e identificam corre-
tamente os casos de não-dopagem em 98.3 % dos casos. Um atleta famoso é submetido ao
teste de dopagem e o resultado é positivo. Qual que probabilidade de que este famoso atleta
tinha utilizado efetivamente substancias proibidas?
Rpta.- 0.54356

30
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

6. A probabilidade de um Pendrive estar operativo quando está com trincos é de 75 %. Enquanto


que a probabilidade de um Pendrive operar quando está sem trincos sobe para 98 %. Se 28
% dos Pendrives estão trincados.

• Qual é a probabilidade do Pendrive estar operativo se está com trincos?


• Qual é a probabilidade do Pendrive estar com trincos se não está operativo?
• Qual é a probabilidade do Pendrive estar com trincos se está operativo? (comparar com
a probabilidade a priori)
• Qual é a probabilidade do Pendrive estar operativo?

Rptas.- 0.75; 0.82938; 0.22936; 0.9156

31
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

32
Capı́tulo 3

Variáveis Aleatórias Discretas e


Distribuições de Probabilidade

3.1 Introdução
O espaço amostral S de alguns experimentos, tais como lançamentos de moedas, pode ser um
conjunto não-numérico. Por outro lado, a aplicação mais importante do cálculo de Probabilidades
é a Estatı́stica onde se lida com conjuntos de dados numéricos cujos parâmetros mais importantes
são as médias e as varianças. Para poder medir com médias e varianças conjuntos de dados não-
numéricos há a necessidade de associar os eventos do espaço amostral S a subconjuntos de números
reais. Assim define-se uma função X : S 7→ R, e define-se as probabilidades de U ⊂ Im(X) como
P (U ) = P (X −1 (U )). Em toda a literatura existente a este respeito a imagem Im(X) é denotado
simplesmente como X. A razão desta simplificação é que X é chamada de variável aleatória.

Exemplo 3.1 No experimento de lançamento de 4 moedas, o espaço amostral é


 
 cccc, ccck, cckc, ckcc, kccc, cckk, 
S= ckck, ckkc, kkcc, kckc, kcck, kkkc,
kkck, kckk, ckkk, kkkk
 

Os elementos do conjunto de resultados S são quartetos s = s1 s2 s3 s4 . A cada quarteto podemos


associar uma função numérica X : S 7→ R, por exemplo se X(s1 s2 s3 s4 )=“número de caras” então,
teremos X(cccc) = 4, X(ccck) = 3, X(kkkk) = 0, etc. e esta variável aleatória, X=“número de
caras, assume o conjunto de valores numérico {0, 1, 2, 3, 4} ⊂ R.
Agora, o evento “quartetos de S com zero caras” em notação de conjuntos pode ser representada
assim

“quartetos de S com zero caras”={s ∈ S ; X(s) = 0} ={kkkk},

33
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

de maneira análoga
“quartetos de S com uma cara”= {s ∈ S ; X(s) = 1}={kkkc, kkck, kckk, ckkk},
etc. Conforme mencionado linhas acima, X classifica os quartetos de S em 05 subconjuntos
{X = 0} = {kkkk} = “quartetos com 0 caras”
{X = 1} = {ckkk, kckk, kkck, kkkc} = ”quartetos com 1 cara“
{X = 2} = {cckk, ckck, ckkc, kckc, kkcc, kcck} = “quartetos com 2 caras”
{X = 3} = {kccc, ckcc, cckc, ccck} = ”quartetos com 3 caras“
{X = 4} = {cccc} = “quartetos com 4 caras”
Observa-se, também a simplificação {X = i} = {s ∈ S . X(s) = i}, para i = 0, 1, 2, 3, 4. Esta
simplificação esta disseminada em todos os livros texto de Probabilidades e Estatı́stica. Nesta
linha de simplificação, a probabilidade do evento {X = i} é denotado por P (X = i) ao invés de
P ({X = i}). Finalmente, P (X = i) define uma função f (i) = P (X = i) que é chamada de função
massa de probabilidade pmf.
f (i) = P (X = i) = P ({X = i}) = P ({s ∈ S ; X(s) = i})
Se as 4 moedas são honestas então P (c) = P (k) = 12 . Pela independência das 04 moedas
P ({s}) = P ({s1 s2 s3 s4 }) = P (s1 s2 s3 s4 ) = P (s1 )P (s2 )P (s3 )P (s4 ), logo:
1
 1 1 1 1
P (cccc) = P (c)P (c)P (c)P (c) = 2 2 2 2 = 16
1 1 1 1 1
P (ccck) = P (c)P (c)P (c)P (k) = 2 2 2 2 = 16
1 1 1 1 1
P (ckkc) = P (c)P (k)P (k)P (c) = 2 2 2 2 = 16 ,
etc.
1
A probabilidade de qualquer quarteto s1 s2 s3 s4 de S é sempre 16 . Neste caso teremos;
1
f (0) = P (X = 0) = 16
4 1
f (1) = P (X = 1) = 16 = 4
6 3
f (2) = P (X = 2) = 16 = 8
4 1
f (3) = P (X = 3) = 16 = 4
1
f (4) = P (X = 4) = 16

Suponha agora que as moedas não estivessem equilibradas. Por exemplo P (c) = 0.3 e P (k) =
0.7. Então, as probabilidades dos quartetos s1 s2 s3 s4 de S são diferentes do caso das moedas
honestas. Por exemplo, P (cccc) = 0.34 = 0.0081, P (ckkk) = (0.3)(0.73 ) = 0.1029, etc. Para este
caso, organizamos as probabilidades assim:
f (0) = P (X = 0) = P (kkkk) = 0.74 = 0.2401
f (1) = P (X = 1) = 4P (ckkk) = (4)(0.73 )(0.3) = 0.4116
f (2) = P (X = 2) = 6P (cckk) = (6)(0.72 )(0.32 ) = 0.2646
f (3) = P (X = 3) = 4P (ccck) = (4)(0.7)(0.33 ) = 0.0756
f (4) = P (X = 4) = P (cccc) = 0.34 = 0.0081

34
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Em qualquer caso, moedas equilibradas ou sem equilı́brio, sempre teremos


X
f (xi ) = f (0) + f (1) + f (2) + f (3) + f (4) = 1

Definição 3.1 Seja X uma variável aleatória finita que toma os valores {x1 , x2 , x3 , . . . , xn }. Uma
distribuição de probabilidades é uma função tal que

1. f (xi ) ≥ 0
n
P
2. f (xi ) = 1
i=1

3. f (xi ) = P (X = xi )

3.1.1 Cálculo de Probabilidades, Média e Variança


Em geral os eventos de uma VA são do tipo A = {a ≤ X ≤ b}, A = {a < X < b}, A = {a ≤ X < b}
etc. Analisamos as técnicas para calcular as probabilidades de estes eventos:

• Se A = {a ≤ X ≤ b} então P (a ≤ X ≤ b) =
P P
P (X = x) = f (x) com x ∈ [a, b] ∩ X

• Se A = {a < X < b} então P (a ≤ X ≤ b) =


P P
P (X = x) = f (x) com x ∈]a, b[∩X

• Se A = {a ≤ X < b} então P (a ≤ X ≤ b) =
P P
P (X = x) = f (x) com x ∈ [a, b[∩X, etc.

Definição 3.2 A esperança de uma variável aleatória é dada por


n
X
E(X) = µX = xi f (xi ). (3.1)
i=1

e a variança é dada por


n
X
2
V AR(X) = σX = (xi − µx )2 f (xi ). (3.2)
i=1

O desvio padrão é a raiz quadrada da variança


p
σX = V AR(X).

Uma fórmula pratica para o calculo da variança é

V AR(X) = E(X 2 ) − (E(X))2

Exemplo 3.2 Considere o experimento de lançar 4 moedas.

35
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Temos que X tem 5 elementos X = {x1 , x2 , x3 , x4 , x5 } = {0, 1, 2, 3, 4}. Para o caso das moedas
equilibradas temos as probabilidades
ni
f (xi ) = P (X = xi ) = probabilidade do evento {X = xi } =
16

i xi ni f (xi ) xi f (xi ) x2i x2i f (xi )


1
1 0 1 16 0 0 0
4 1 1
2 1 4 16 4 1 4
6 3 12
3 2 6 16 4 4 4
4 3 27
4 3 4 16 4 9 4
1 1 16
5 4 1 16
P P16 P4 80
4
= 16 =1 =2 16 =5

Temos que a esperança da variável aleatória X é


5
X
µX = E(X) = xi f (xi ) = 2.
i=1

A variança
V AR(X) = E(X 2 ) − (E(X))2 = 5 − 22 = 1
E o desvio padrão é σX = 1.
Cálculo de Probabilidades
Calcularemos

P (0 ≤ X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 1/16 + 4/16 + 6/16 = 11/16.

Para o caso em que P (c) = 0.3 e P (k) = 0.7, com a ajuda de uma Planilha eletrônica podemos
montar a seguinte tabela

xi f (xi ) xi f (xi ) x2i x2i f (xi )


0 0.2401 0.000 0 0.0000
1 0.4116 0.4116 1 0.4116
2 0.2646 0.5292 4 1.05
3 0.0756 0.2268 9 0.6804
4 0.0081 0.0324 16 0.1296
Σ=1 Σ = 1.2 Σ = 2.28

Com isto teremos X


E(X) = xi f (xi ) = 1.2

36
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

e
VAR(X) = E(X 2 ) − (E(X))2 = 2.28 − (1.2)2 = 0.84
Finalmente o desvio padrão é
σX = 0.9165
Exemplo 3.3 Considere o experimento de lançar 2 dados equilibrados.
O espaço amostral é dado por S= {11,12,13,14,15,16,21,22,23,24,25,26,31,32,33,34,35,36,41,42,43,44,
45,46,51,52,53,54,55,56,61,62,63,64,65,66} Seja X=“soma dos valores das caras”, então temos a se-
guinte tabela de distribuição
i xi ni f (xi ) xi f (xi ) x2i x2i f (xi )
1 1 4
1 2 1 36 18 4 36
1 1 9
2 3 2 18 6 9 18
1 1 16
3 4 3 12 3 16 12
1 5 25
4 5 4 9 9 25 9
5 5
5 6 5 36 6 36 5
1 7 49
6 7 6 6 6 49 6
5 10 80
7 8 5 36 9 64 9
1
8 9 4 9 1 81 9
1 5 100
9 10 3 12 6 100 12
1 11 121
10 11 2 18 18 121 18
1 1 144
11 12 1 144
P P36 P3 P 36
= 36 =1 =7 = 54.833
A esperança é
11
X
µX = E(X) = xi f (xi ) = 7
i=1
A variança
V AR(X) = 54.833 − 72 = 5.833 = 5.833
O desvio padrão é σX = 2.41.
Cálculo de Probabilidades
Neste caso fica pouco prático escrever uma função acumulada em 11 linhas, então o cálculo de
Probabilidades de intervalos é realizado com a definição original. Calculamos
P (4 ≤ X ≤ 6) = P (X = 4) + P (X = 5) + P (X = 6) = 1/12 + 1/9 + 5/36 = 1/3

Exemplo 3.4 Considere a distribuição de probabilidade


xi -1.2 0.5 0.8 1.5 2.0 2.8 5.0 6.1 7.1 8.0
f (xi ) 0.12 0.15 0.02 0.16 0.15 0.12 0.04 0.09 0.05 0.10
Calcular E(X), V AR(X), P (−0.5 ≤ X ≤ 4.95).

37
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Organizamos os dados na seguinte tabela

xi f (xi ) xi f (xi ) x2i f (xi )


-1.2 0.120 -0.1440 0.17280
0.5 0.150 0.0750 0.03750
0.8 0.020 0.0160 0.01280
1.5 0.160 0.2400 0.36000
2.0 0.150 0.3000 0.60000
2.8 0.120 0.3360 0.94080
5.0 0.040 0.2000 1.00000
6.1 0.090 0.5490 3.34890
7.1 0.050 0.3550 2.52050
8.0 0.100 0.8000 6.40000
P P P
=1.000 =2.7270 =15.3933

Daı́ temos que a esperança é


X
E(X) = xi f (xi ) = (−1.2)(0.12) + · · · + (8.0)(0.1) = 2.727

enquanto que a variança é

V AR(X) = E(X 2 ) − (E(X))2 = 15.3933 − (2.727)2 = 7.9567

com o qual o desvio padrão é σ = 2.82077


Finalmente

P (−0.5 ≤ X ≤ 4.95) = f (0.5)+f (0.8)+f (1.5)+f (2.0)+f (2.8) = 0.15+0.02+0.16+0.150.12 = 0.60 = 60%

3.2 Distribuição de Probabilidade Acumulada


Definição 3.3 A distribuição probabilidades acumulada de uma variável aleatória X é a função
X
F (x) = P (X ≤ x) = f (xi )
xi ≤x

A distribuição acumulada tem as seguintes propriedades


P
1. F (x) = P (X ≤ x) = f (xi )
xi ≤x

2. 0 ≤ F (x) ≤ 1

3. Se x ≤ y então F (x) ≤ F (y)

38
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

A função de probabilidade acumulada F (x) = P (X ≤ x) também pode ser utilizada para


calcular probabilidades:

• De F (x) = P (X ≤ x) = P (X < x) + P (X = x) = P (X < x) + f (x) obtemos

P (X < x) = F (x) − f (x)

• Usando propriedades de operações de conjuntos pode-se mostrar que

{a ≤ X ≤ b} = ({x < a} ∪ {x > b})′

Daı́ P (a ≤ X ≤ b) = 1 − P (X < a) − P (X > b) = P (X ≤ b) − P (X < a). Portanto

P (a ≤ X ≤ b) = F (b) − F (a) + f (a)

Exemplo 3.5 Distribuição acumulada no exemplo das 04 moedas equilibradas

X
F (x) = P (X ≤ x) = f (xi )
xi ≤x

onde {x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4} então



 0, se x < 0
1


 , se 0 ≤ x < 1
 16

5

16 , se 1 ≤ x < 2
F (x) = 11

 16 , se 2 ≤ x < 3
15
, se 3 ≤ x < 4


 16


1, se x ≥ 4

Com a formula F (a) − F (b) + f (a) temos

P (0 ≤ X ≤ 2) = F (2) − F (0) − f (0) = 11/16 − 1/16 + 1/16 = 11/16.

3.3 Modelos de Distribuições Discretas


A lista de modelos de distribuição discreta é grande, mencionamos alguns: Bernoulli, Uniforme,
Binomial, Geométrica, Poisson, etc. Estudaremos a Uniforme e a Binomial que é um modelo muito
popular e utilizado.

39
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

3.3.1 Distribuição Uniforme


Neste modelo a variável aleatória X = {x1 , x2 , . . . , xn } tem a distribuição de probabilidade f (xi ) =
1
n UNIFORME para cada xi .
x x1 x2 ... xk ... xn
1 1 1 1
f (x) n n ... n ... n
Neste caso a Esperança é
n
P
n n   xi
X X 1 i=1
E(X) = xi f (xi ) = xi = ,
n n
i=1 i=1

que pode ser reconhecida como a média aritmética dos dados.


Enquanto que a Variança é
n
x2i
P

V AR(X) = E(X 2 ) − µ2X = i=1 − µ2x


n
Finalmente;
|Xab |
P (a ≤ X ≤ b) = ,
n
onde |Xab | significa número de elementos do evento Xab = {xi ∈ X ; a ≤ xi ≤ b} ⊂ X.
Exemplo 3.6 Considere o conjunto das notas de um aluno
X = {7.7, 8.2, 6.1, 4.5}.
Se a distribuição é uniforme então, a esperança das notas é
7.7 + 8.2 + 6.1 + 4.5
E(X) = = 6.625
4
e a esperança dos quadrados das notas é
59.290 + 67.240 + 37.210 + 20.250
E(X 2 ) = = 45.998
4
Com isto, a variança é
V AR(X) = 45.998 − 6.6252 = 2.1074
Para as probabilidades temos X67 = {xi ; 6 ≤ xi ≤ 8} = {6.1}, logo |X67 | = 1 e portanto
1
P (6 ≤ X ≤ 7) =
4
Por outro lado X08 = {4.5, 6.1, 7.7} donde
3
P (0 ≤ X ≤ 8) =
4

40
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 3.7 Considere um conjunto de números igualmente espaçado


X = {1.3, 1.8, 2.3, 2.8, . . . , 15.3}.
Se X tem distribuição de probabilidade uniforme calcular a média e variança de uma maneira
econômica.
Solução.-
Temos que os elementos de X estão igualmente espaçados por ∆ = 0.5, então chamando de a = 1.3
o primeiro elemento e b = 15.3 = a + 28∆ o último elemento, temos que X possui 29 elementos e
pode ser representado de maneira simbólica da seguinte maneira
X = {a, a + ∆, a + 2∆, . . . , a + 28∆},
Calculamos a soma dos dados:
28 28 28 28
X X X X (28)(29)
xi = a+ i∆ = 29a + ∆ i = 29a + ∆ = 29(a + 14∆)
2
i=0 i=0 i=0 i=0
Com isto
28
P
xi
i=0 a+b
E(X) = = a + 14∆ = .
29 2
ou seja
1.3 + 15.3
E(X) = = 8.3
2
Para a Variança temos

28
(xi − µX )2
P
i=0
V AR(X) =
29
Calculamos
xi − µX = (a + i∆) − (a + 14∆) = (i − 14)∆
Elevando ao quadrado temos
(xi − µX )2 = (i2 − 28i + 194)∆2
Fazendo o somatório
28 28 28
!
X X X
(i2 − 28i + 194)∆2 = ∆2 i2 − 28 i + 194(29)
i=0 i=0 i=0
   
2 (28)(29)(57) (28)(29) 2 28(57)
=∆ − 28 + 196(29) = 29∆ − 14(28) + 142
6 2 6
= (14)(29)∆2 (19 − 28 + 14) = 5(14)(29)∆2

41
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Portanto a variança é
35
V AR(X) = (5)(14)∆2 = = 17.5
2
No Apêndice é exibido a demonstração das formulas da esperança e variança para o caso de
distribuição de probabilidades de uma variável aleatória uniformemente espalhada.

3.3.2 Distribuição Binomial (n, p)


Um experimento binário é aquele cujo espaço amostral S possui exatamente 02 resultados. Os
exemplos clássicos deste tipo de experimentos é o lançamento de uma moeda cujo espaço amostral
é S = {c, k}= cara, corôa ou transmissão de um bit com S = {1, 0}=bit zero, bit um.
Quando um experimento binário é repetido n vezes temos que os espaço amostral S n é um con-
junto de listas ou vetores de comprimento n. A distribuição de probabilidade sobre o espaço
S n é chamada de distribuição binomial. Para maior claridade da nomenclatura ”binomial” desta
distribuição tomemos como exemplo o lançamento de um moeda n vezes. Se a probabilidade de
“cara” é p, isto é P (c) = p, então sabemos que P (k) = 1 − p.
Seja X= “número de caras de uma lista de tamanho n”, então

P ({X = 0})
= P (evento com 0 caras)
P ({X = 1})
= P (evento com 1 cara)
P ({X = 2})
= P (evento com 2 caras)
P ({X = 3})
= P (evento com 3 caras)
.. .. ..
. . .
P ({X = 4}) = P (evento com n caras)
A única lista do “evento com 0 caras” é {k, k, . . . , k}, todas corôas, logo P (X = 0) = P (kk . . . k)=
P (k)P (k) . . . P (k) = (1 − p)n

O “evento com 1 cara” possui n listas, logo P (X = 1) = nP (ck . . . k)= P (c)P (k) . . . P (k) =
np(1 − p)n−1
n!
Por combinatória pode-se mostrar que o “evento com i caras” tem C(n, i) = (n−i)!(i)! listas, onde
C(n, i) é o coeficiente binomial da expansão (a + b)n . É por isso que esta distribuição é chamada
de distribuição binomial.
Portanto, a probabilidade do evento pontual {X = i} é dado por
 
n i
f (i) = P (X = i) = p (1 − p)n−i
i

Esperança e Variança da distribuição binomial

µX = E(X) = µ = np (3.3)

42
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2
σX = V AR(X) = np(1 − p) (3.4)

Exemplo 3.8 Dada a distribuição binomial X(4, 0.1) calcular P (0 < X ≤ 3), P (−2 ≤ X < 2),
P (1 ≤ X < 5), E(X), σ.

Solução.- A distribuição de probabilidade é


• f (0) = P (X = 0) = 40 (0.1)0 (0.9)4 = 0.94 = 0.6561


• f (1) = P (X = 1) = 41 (0.1)1 (0.9)3 = 4(0.1)0.93 = 0.2916




• f (2) = P (X = 2) = 42 (0.1)2 (0.9)2 = 6(0.1)2 (0.9)2 = 0.0486




• f (3) = P (X = 3) = 43 (0.1)3 (0.9)1 = 4(0.1)3 (0.9) = 0.0036




• f (4) = P (X = 4) = 44 (0.1)4 (0.9)0 = 0.14 = 0.0001,




copiamos estes dados a seguinte tabela


x 0 1 2 3 4
f (x) 0.6561 0.2916 0.0486 0.0036 0.0001
Com isto teremos
• P (0 < X ≤ 3) = f (1) + f (2) + f (3) = 0.2916+0.0486+0.0036= 0.3438 = % 34.28.

• P (−2 ≤ X ≤ 2) = f (0) + f (1) + f (2) = 0.6561+ 0.2916+0.0486 = 0.9963 = % 99.63.

• P (1 ≤ X < 5) = 1 − P (X = 0) = 1-0.6561= 0.3439 = % 34.389.

• E(X) = np = 4(0.1) = 0.4

• V AR(X) = np(1 − p) = 4(0.1)(0.9) = 0.36, donde σ=0.6.

Exemplo 3.9 Uma fabricante de mesas de bilhar suspeita que 2% do seu produto apresenta al-
gum defeito. Se tal suspeita é correta, para uma amostra de 9 mesas, determinar as seguintes
probabilidades:
1. Haja uma defeituosa

2. Haja duas defeituosas

3. Haja 3 defeituosas

4. Haja 6 defeituosas

5. As 9 sejam defeituosas

43
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

6. Nenhuma seja defeituosa

7. Haja ao menos uma defeituosa

8. Haja pelo menos 3 defeituosas

9. Haja mais de 4 defeituosas

10. Haja menos de 4 defeituosas


2
Solução.- Se p = 100 = 0.02, este caso é modelado pela distribuição binomial X(n, p) com n = 9
e p = 0.02. Usando a formula f (x) = k9 (0.02)k (0.98)9−k construı́mos a tabela da distribuição de


probabilidade

x 0 1 2 3 4 5 ...
f (x) 0.83374 0.15314 0.01250 5.9529 × 10−4 1.82223 × 10−5 3.7189 × 10−7 . . .

... 6 7 8 9 x
... 5.0598 × 10−9 4.4255 × 10−11 2.2579 × 10−13 5.12 × 10−16 f (x)
Então;
1. Probabilidade de que haja uma defeituosa é P (x = 1) = f (1) = 0.15314

2. Probabilidade de duas defeituosas P (x = 2) = f (2) = 0.012501

3. Probabilidade de três defeituosas P (x = 3) = f (3) = 5.9529 × 10−4

4. Probabilidade de seis defeituosas P (x = 6) = f (6) = 5.0598 × 10−9

5. Probabilidade de nove defeituosas P (x = 9) = f (9) = 5.1200 × 10−16

6. Probabilidade de nenhuma ser defeituosa P (x = 0) = f (0) = 0.83375

7. Probabilidade de “ao menos uma defeituosa” é P (X ≥ 1). Como as repetições são indepen-
dentes, temos P (X ≥ 1) = P (X = 1) + P (X = 2) + · · · + P (X = 9). Pela probabilidade
complementar temos

P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0)

Logo
P (X ≥ 1) = 1 − P (X = 0) = 0.16625

8. Pelo mesmo argumento do item anterior

P (X ≥ 3) = 1−P (X < 3) = 1−P (X ≤ 2) = 1−(0.83375+0.15314+0.012501) = 6.09×10−4 .

44
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

9. Temos

P (X > 4) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)]
= 1 − (0.83375 + 0.15214 + 0.012501 + 5.9529 × 10−4 + 1.8223 × 10−5 )
= 1 − 0.99900 = 0.001

10.
P (X < 4) = P (X ≤ 3) = 0.99998

A esperança e desvio para o caso das mesas defeituosas é

E(X) = np = 9(0.02) = 0.18


enquanto que a para o desvio calculamos a variança;

V AR(X) = np(1 − p) = 9(0.02)(0.98) = 0.1764

com isto √
σ= 0.1764 = 0.42
Os cálculos das probabilidades P (X = k) de uma distribuição binomial (n, p) podem ser reali-
zados de modo simples com o comando

distr.binom(k;n;p;0)

da planilha LibreOfficeCalc ou outras planilhas. Por exemplo, para calcular f (3) = P (X = 3)


do exemplo anterior das mesas executamos distr.binom(3;9;0.02;0) e obteremos de resposta
5.9529 × 10−4 .
Enquanto que para P (X > 4) podemos colocar os valores distr.binom(k;9;0.02;0), k=5,6,7,8,9
em uma coluna da planilha, por exemplo A1, A2, A3, A4, A5 e depois fazer a soma sum(A1:A5)
para obter 0.001. Em inglês o comando é binom.dist.
Também o software livre Octave possui o comando binopdf(k,n,p) que realiza o mesmo cálculo.

Exemplo 3.10 Doze por cento dos que reservam lugar num vôo, sistematicamente faltam ao em-
barque. O avião comporta 15 passageiros.
a) determinar a probabilidade de que todos os 15 que reservaram lugar compareçam ao embarque.
b) Se houve 16 pedidos de reserva determine a probabilidade;

• De uma pessoa ficar de fora

• De nenhuma ficar de fora

• De mais de uma ficar de fora

45
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• O avião decolar com menos de 07 passageiros

Solução.-
Se 12 % dos passageiro não comparece ao embarque, então 88% comparecem ao embarque seja X
a variável aleatória
X=“Numero de passageiros que comparecem ao embarque”.
88
a) n=15, p = 100 = 0.88, X(15, 0.88)
Todos os 15 passageiro comparecem ao embarque significa X = 15, logo
 
15
P (X = 15) = (0.88)15 (0.12)0 = 0.1470
15
88
b) n=16, p = 100 = 0.88, X(16, 0.88)

• Um passageiro ficar fora significa que todos comparecem ao embarque, pois no avião cabem
15: X = 16.
Logo  
16
P (X = 16) = (0.88)16 (0.12)0 = 0.1293.
16
• Para nenhum ficar de fora devem comparecer 15 ou menos: X ≤ 15. Logo a probabilidade a
ser calculada é
P (X ≤ 15) = 1 − P (X = 16) = 1 − 0.1293 = 0.8707

• Mais de um ficar de fora significa X > 16 que é um evento impossı́vel com probabilidade zero
isto é P (X > 16) = 0.

• Avião decola com menos de 07 passageiros significa o número de passageiros que comparecem
ao embarque é menor ou igual a 07: X ≤ 7
     
16 0 16 16 1 15 16
P (X ≤ 7) = (0.88) (0.12) + (0.88) (0.12) + (0.88)2 (0.12)14 + . . .
0 1 2
   
16 6 10 16
··· + (0.88) (0.12) + (0.88)7 (0.12)9 .
6 7

P (X ≤ 7) = 1.8488 × 10−15 + 2.1693 × 10−13 + 1.1931 × 10−11 + 4.0831 × 10−10


+ 9.7314 × 10−9 + 1.7127 × 10−7 + 2.3026 × 10−6 + 2.4123 × 10−5
= 2.6607 × 10−5

46
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Para o caso dos 15 passageiros que fizeram a reserva de viagem temos

E(X) = µX = (0.12)(15) = 1.8


2
σX = (15)(0.12)(0.88) = 1.5840
Finalmente, ara o caso dos 16 passageiros que fizeram a reserva de viagem temos

E(X) = µX = (0.12)(16) = 1.92


2
σX = (16)(0.12)(0.88) = 1.6896

Aplicação do modelo binomial na análise do jogo da mega-sena

Aplicamos a distribuição binomial para fazer a análise da crença popular da existência de es-
trategias para ganhar o jogo mega-sena.
Seja n=“Número total de apostas” (ganhadoras ou perdedoras). Seja X=“Número de apostas ga-
nhadoras”. Então {X = 0}=“Ganhar nada em n tentativas” é complementar do evento G=“Ganhar
pelo menos uma vez em n tentativas”. Daı́;

P (G) = 1 − P (X = 0)

Como o mais importante para um apostador é ganhar, então podemos dizer que evento G pode
ser G=“ganhar na MegaSena em n tentativas”. Sabemos que a probabilidade de ganhar em uma
1 1
tentativa é p = C(60,6) = 50063860 .

Com isto, temos;

P (G) = 1 − P (X = 0) = 1 − C(n, 0)p0 (1 − p)n−0 = 1 − (1 − p)n .


1
Assim para 10 tentativas teremos 1 − (1 − C(60,6) )10 = 1.99744868201179E − 07, em 100 tentativas
1
1−(1− C(60,6) )100 = 1.99744688689218E −06. A tabela a seguir ilustra o número total de tentativas
n e as probabilidades de ganhar P (G) para cada n:
P (G)=“probabilidade de ganhar em n tentativas” é quase nula até para um milhão de vezes,
onde é de 1.97%. Já para 10 milhões de tentativas teremos poucos 18.1% de probabilidade de
ganhar. Todas as “estratégias” que circulam em torno deste jogo (como a teimosinha: apostar a
cada semana no mesmo número), são falazes, pois não consideram o fato crucial da independencia
entre sorteio e sorteio. Se o resultado de um sorteio dependesse do resultado de algum sorteio
anterior, o modelo binomial não seria o mais adequado. Se houvesse dependencia entre sorteios um
modelo melhor seria, por exemplo cadeias de Markov.

47
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

n P (G)
10 1.99744688689218E-06
100 1.99744688689218E-06
1000 1.99742893294275E-05
10000 0.00019972494049969
100000 0.00199545530837375
106 0.0197763203476904
107 0.181060352386297

3.3.3 Distribuição de Poisson α = λt


Esta distribuição mede o número de ocorrências esperadas em um intervalo de tempo. Para sim-
plicidade considere X=“numero de clientes que entram numa loja em um minuto”. Temos que X
pode assumir os valores 0,1,2,. . . . Onde o evento {X = 0}=“não entra cliente algum num minuto”,
{X = 1}=“entra um cliente em um minuto”, em geral {X = k}=“entram k clientes num minuto”.
Neste modelo assume-se que em lojas semelhantes a média de clientes por minuto que entram nessas
lojas é λ [clientes/minuto]. Daı́ decorre que a média de clientes em t minutos será de α = λt.
Então a probabilidade de que k clientes entram na loja em t minutos é

(α)k
f (k) = P (X = k) = e−α
k!
(α)k
Como ∞ α
P
k=0 k! = e , temos f (k), é uma distribuição de Probabilidade. Note-se que a média
α depende de t.
Pode-se mostrar que
E(X) = λ
e
V AR(X) = λ

Exemplo 3.11 Sabe-se que em média uma loja de sapatos recebe 4 clientes/hora. Qual é a proba-
bilidade da loja receber:

1. nenhum cliente em uma hora

2. 2 clientes em 3 horas e meia

3. 30 clientes em 8 horas

4. Mais 02 clientes em 40 minutos.

48
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Sol.-
Como a média α depende do tempo t, cada item do Exercı́cio tem tempos diferentes que implica
αs diferentes.
1. Neste caso temos que α = λt= (4[clientes/hora])(1[hora]) = 4 clientes. Logo

(4)0
P (X = 0) = e−4 = e−4 = 0.018316
0!

2. Neste caso temos que α = λt= (4[clientes/hora])(3.5[hora]) = 14 clientes. Logo

(14)2
P (X = 2) = e−14 = 0.00008149
2!

3. Neste caso temos que α = λt= (4[clientes/hora])(8[hora]) = 32 clientes. Logo

(32)30
P (X = 30) = e−32 = 0.068142
30!

4. Neste caso temos que α = λt= (4[clientes/hora])(2/3[hora]) = 8/3 clientes. Logo

(8/3)2
P (X > 2) = 1 − P (X ≤ 2) = 1 − e−8/3 (1 + 8/3 + ) = 0.49818
2

Para o cálculo das diferentes probabilidades f (k) = P (X = k) de uma variável aleatória de


Poisson de parâmetro α = λt, o comando do LibreofficeCalc é
poisson(k;α;0
Por exemplo, para calcular a probabilidade de 30 clientes em 8 horas que resulta em α = 32, o
commando poisson(30;32;0) devolve o resultado 0.068142153.
Por outro lado, também o software livre Octave pode realizar este cálculo com o comando poisspdf(k,α).

3.4 Exercı́cios
1. Uma variável aleatória X tem a seguinte distribuição de Probabilidade

x −1.2 0.0 0.5 1.2 3.5 5.0 5.1


f (x) 0.30 0.10 0.15 0.08 0.12 0.20 0.05

Calcular E(X), VAR(X), P (0 < X ≤ 5)

Respostas: 1.486; 6.147; 0.55

49
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2. Considere a VA do Exercı́cio anterior X = {−1.2, 0.0, 0.5, 1.2, 3.5, 5.0, 5.1} com distribuição
de probabilidade uniforme. Calcular E(X), VAR(X) e P (0 < X ≤ 5)

Respostas: 2.0142; 5.4269; 4/7

3. Se X = {0.4, 0.8, 1.2, . . . 6.4} é uma VA uniformemente espaçada com distribuição de proba-
bilidade uniforme, calcular E(X), VAR(X) e P (X ≤ 3).
Respostas: 3.4; 3.4; 7/16

4. Uma prova com respostas de múltipla escolha tem 25 questões, cada questão com 4 alterna-
tivas de resposta. Suponha que o estudante se limita a ”chutar“ as respostas.

• Qual é a probabilidade que o estudante acertar mais de 20 questões?


• Qual é a probabilidade que o estudante acertar menos de 5 questões?
• Qual é a probabilidade que o estudante acertar entre 4 e 7 questões?

Respostas: 9.6769 × 10−10 ; 0.21374; 0.63029

5. A probabilidade de erro de transmissão por bit em um canal digital é de 0.05 %. Se é


transmitido um pacote de 16 bits, calcular

(a) A probabilidade de todos os 16 bits sejam transmitidos corretamente.


(b) A probabilidade de que mais de 13 bits sejam transmitidos corretamente.
(c) A probabilidade de que menos de 5 bits sejam transmitidos com erro.

Respostas: 0.99203; 1; 1

6. Uma famı́lia tem uma prole de 10 filhos entre homens e mulheres. Considerando que a
probabilidade de ser homem ou mulher é de 50%, para cada, calcular a probabilidade desta
famı́lia ter

(a) 5 meninas e 5 meninos


(b) 3 filhos homens
(c) Dez filhas
(d) Menos de 7 filhos homens
(e) O número de filhos homens estar entre 3 e 5

Respostas: 0.24609, 0.11719, 9.76 × 10−4 , 0.8281, 0.56836

50
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

7. Amostras de 20 peças de um processo de perfuração de metais são colhidas cada hora. Tipi-
camente 1% das peças precisa de refazer o trabalho. Seja X o número de peças das 20 que
precisam refazer o trabalho. Suspeita-se um problema de processo se X excede sua média em
mais de 3 desvios padrão.

(a) Se o percentual de peças que precisam refazer o trabalho se mantem em 1%, qual é a
probabilidade que X exceda sua média em mais de 3 desvios padrão?
(b) Se o percentual das peças para refazer aumenta para 4% qual é a probabilidade que X
exceda 1?
(c) Se o percentual das peças para refazer aumenta para 4% qual é a probabilidade que X
exceda 1 em pelo menos uma das 5 seguintes horas de amostras?

Respostas:

(a) Se p = 0.01 e n = 20 então µ = np = 0.2, e σ = 0.44972, logo P (X > µ + 3σ) = P (X >


1.5349) = P (X > 1) = 1 − P (X ≤ 1) = 1 − 0.9831 = 0.0169
(b) Se p = 0.04 então P (X > 1) = 0.18966.
(c) Agora n = 5 e pelo item anterior p = 0.18966, logo P (X ≥ 1) = 1 − P (X = 0) = 0.65058

8. A média de falhas (quedas) por mes que sofre um usuário de uma empresa provedora de
internet é de 2 [quedas]/[mes]. Calcular as seguintes probabilidades

(a) Nenhuma queda em uma semana


(b) Duas quedas em uma semana
(c) Oito falhas em 20 dias
(d) 10 falhas em meio ano
(e) Menos de 05 falhas em um mes.

Respostas usando LibreOfficeCalc: 0.606530659712633, 0.0758163324640792, 6.53025379480248E-


05, 0.104837255883659, 0.947346982656289

51
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

52
Capı́tulo 4

Variáveis Aleatórias Continuas e


Distribuições de Probabilidade

4.1 Introdução
Uma variável aleatória X é continua em algum intervalo [a, b] ⊂ R quando assume todos os valores
do intervalo. No entanto, neste caso, a probabilidade de um ponto isolado deve ser nula, pois
se P (X = x) > 0 então a probabilidade de todo o intervalo seria infinita, P ([a, b]) = ∞. Esta
dificuldade é superada com a introdução de densidade de probabilidade.

Definição 4.1 Seja X uma variável aleatória que toma valores num intervalo da reta [a, b] ⊂ R.
Uma densidade de probabilidade é uma função f : [a, b] 7→ R tal que

1. f (x) ≥ 0
Rb
2. a f (x)dx = 1

4.2 Cálculo de probabilidades


Com a densidade de probabilidade f (x) é possı́vel calcular a probabilidade do evento {c ≤ X ≤ d}
utilizando a formula;
Zd
P (c ≤ X ≤ d) = f (x)dx
c

Observamos que para o evento de ocorrência de um ponto isolado {X = x0 }, pelas propriedades


x0R+h
das integrais temos que: P (X = x0 ) = lim f (x)dx = 0.
h→0 x0

53
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Em muitas situações, especialmente quando a função densidade não possui uma integração
exata, o cálculo de probabilidades pode ser efetuado com a distribuição de probabilidade
acumulada

Definição 4.2 A distribuição de probabilidade acumulada de uma variável aleatória X é definida


por Z x
F (x) = P (X ≤ x) = f (t)dt
−∞

A distribuição acumulada tem as seguintes propriedades

1. 0 ≤ F (x) ≤ 1

2. Se x ≤ y então F (x) ≤ F (y)

3. P (c ≤ X ≤ d) = F (d) − F (c)

4. P (X > x) = 1 − P (X ≤ x) = 1 − F (x)

Prova.- Suponha que X assume valores em [a, b] e que [c, d] ⊂ [a, b], então;
Rx
1. Se x ≤ a, então F (x) = −∞ f (t)dt = 0.
Rx Ra Rx Rx
Se a ≤ x ≤ b, F (x) = −∞ f (t)dt = −∞ f (t)dt + a f (t)dt = a f (t)dt ≤ 1.
Rx Ra Rb Rx
Se x > b, então F (x) = −∞ f (t)dt = −∞ f (t)dt + a f (t)dt + b f (t)dt = 0 + 1 + 0 = 1
Ry Rx Ry Ry
2. F (y) = −∞ f (t)dt = −∞ f (t)dt + x f (t)dt = F (x) + x f (t)dt ≥ F (x)

3.
Zd Zd Zc
P (c ≤ X ≤ d) = f (x)dx = f (x)dx − f (x)dx
c −∞ −∞
= P (X ≤ d) − P (X ≤ c)
= F (d) − F (c)

4. O complementar do evento {X ≤ x} é o evento {X > x}.

Exemplo 4.1 Seja X uma variável aleatória que toma valores no intervalo [0, 1].

1. Mostrar que a função (


2
3 (x + 1); x ∈ [0, 1]
f (x) =
0; outro caso
é uma densidade de probabilidade.

54
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2. Calcular P (0.2 ≤ X ≤ 0.8), P (X ≤ 0.4)

Solução.-

1. Temos que
1 1
x2
 
2 2
Z Z
1
f (x)dx = (x + 1)dx = +x =1
0 3 0 3 2 0

que confirma f (x) função densidade.

2.
Z0.8
x2
 
2 2 0.8
P (0.2 ≤ X ≤ 0.8) = (x + 1)dx = +x = 0.119999
3 3 2 0.2
0.2

Para calcular estas mesmas probabilidade com a distribuição acumulada, primeiramente cal-
culamos F (x):
Zx Zx
t2 x2
   
2 2 2 x 2
F (x) = (t + 1)dt = (t + 1)dt = +t = +x .
3 3 3 2 0 3 2
−∞ 0

Com isto Então calcular F (0.8) − F (0.2) = 0.2666666 − 0.1466666 = 0.11999999


Finalmente P (P (X ≤ 0.4) = F (0.4) = 0.32

4.2.1 Cálculo da Média e Variança


Definição 4.3 A esperança de uma variável aleatória contı́nua X é dada por
Z b
E(X) = µX = xf (x)dx. (4.1)
a

e a variança é dada por


Z b
2
V AR(X) = σX = (x − µx )2 f (x)dx (4.2)
a
O desvio padrão é a raiz quadrada da variança
p
σX = V AR(X)

Uma fórmula pratica para o calculo da variança é

V AR(X) = E(X 2 ) − (E(X))2

55
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 4.2 X é uma VA com densidade f (x) = 32 (x + 1) para 0 ≤ x ≤ 1


1 1
x3 x2
 
2 2 5
Z Z 1
2
E(X) = xf (x)dx = (x + x)dx = + =
0 3 0 3 3 2 0 9


1 1
x4 x3
 
2 2 7
Z Z
1
2 2 3 2
E(X ) = x f (x)dx = (x + x )dx = + =
0 3 0 3 4 3 0 18

donde
 2
7 2 2 5 13
V AR(X) = E(X ) − (E(X)) = − =
18 9 162

4.3 Modelos de Variáveis Aleatórias Contı́nuas


4.3.1 Distribuição Uniforme
Uma variável aleatória X que toma valores no intervalo [a, b] é uniforme se sua densidade f (x) é
1
constante, isto é f (x) = b−a para a ≤ x ≤ b. Claramente temos


b b
1
Z Z
f (x)dx = dx = 1
a b−a a


b b
1 1 b2 − a 2 a+b
Z Z 1
E(X) = xf (x)dx = xdx = x2 = =
a b−a a 2(b − a) 0 2(b − a) 2

• Pode-se mostrar que a variança é

(b − a)2
V AR(X) =
12

• Se [c, d] ⊂ [a, b] então

d d
1 d−c
Z Z
P (c ≤ X ≤ d) = f (x)dx = dx =
c b−a c b−a

56
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Area =

2
Figura 4.1: f (x) = e−x

4.3.2 Distribuição Gaussiana ou Normal


De longe esta é a distribuição de probabilidade mais importante. Todas as “estatı́sticas” das dife-
rentes áreas do conhecimento são baseadas nesta distribuição. Na área das engenharias é conhecida
como “Gaussiana” e na área da matemática é mais conhecida como “Normal”. A densidade de
probabilidade desta distribuição está baseada na função
2
f (x) = e−x
cujo gráfico é mostrado na Figura 4.1 e é conhecida como o “sino de Gauss”. Para maior ilustração,
alguns valores desta função são mostrados na Tabela a seguir:
x -3 -2 -1 0 1 2 3
2
e−x 0.00012 0.018 0.3678 1 0.3678 0.018 0.000123
Esta função não tem integração exata, isto é, no existe uma função elementar F (x) tal que
Z
2
e−x dx = F (x) + C.

Porem para o intervalo (−∞, ∞), pode-se mostrar que


Z∞
2 √
e−x dx = π,
−∞

que é a área embaixo de e−x2 conforme pode ser observado na Figura 4.1.
2
Isto significa que f (x) = √1π e−x é uma densidade de probabilidade. Calculamos a média,
Z∞ Z∞ ∞
1 −x2 1 2
E(X) = xf (x)dx = √ xe dx = − √ e−x =0
π 2 π
−∞ −∞ −∞

57
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Por outro lado podemos calcular a variança utilizando a formula

1 1
Z Z
2 −x2 2 2
x e = e−x − xe−x ,
2 2
que pode ser obtida integrando por partes.
2 = V AR(X) = E(X 2 ) − (E(X))2 = E(X 2 ), donde:
Então σX

Z∞
2 1 2 1
σX =√ x2 e−x dx = .
π 2
−∞

Para obter uma função densidade Gaussiana que tenha média µ e variança σ 2 arbitrárias,
fazemos a substituição
y−µ
x= √

então temos
dy
dx = √

e
(y − µ)2
x2 = ,
2σ 2
com isto;
∞ ∞ (y−µ)2 ∞ (y−µ)2
1 1 dy 1
Z Z Z
−x2 −
1= √ e dx = √ e 2σ 2 √ =√ e− 2σ 2 dy
π −∞ π −∞ 2σ 2πσ −∞

que mostra que função


1 (x−µ)2
f (x) = √ e− 2σ2 ,
2πσ
é uma função densidade com µ = E(X) e σ 2 = V AR(X). Esta densidade Gaussiana geral é
denotada por X(µ, σ) e tem as seguintes propriedades:

• E(X) = µ e V AR(X) = σ 2

• Simetria respeito da média µ: f (µ − x) = f (µ + x). No caso particular µ = 0 temos


f (x) = f (−x).

• P (µ − σ ≤ X ≤ µ + σ) = 0.68268 = 68.268 % (Figura 4.2)

• P (µ − 2σ ≤ X ≤ µ + 2σ) = 0.95449 = 95.449 % (Figura 4.2)

• P (µ − 3σ ≤ X ≤ µ + 3σ) = 0.9973 = 99.73 % (Figura 4.2)

58
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

68.3%
95.5%
99.7%

Figura 4.2: Probabilidades dos intervalos {µ − kσ ≤ X ≤ µ + kσ}, k=1,2,3

Exemplo 4.3 Estudar a densidade Gaussiana X(0, 0.5), X(0, 1), e X(0, 1.5)

• Para X(0, 0.5), temos


2
1 − x 2 2
f (x) = √ e 2(0.5)2 = √ e−2x
2π(0.5) 2π

x -1.5 -1 -0.5 0 0.5 1 1.5


f (x) 0.0088637 0.10798 0.48394 0.79788 0.48394 0.10798 0.0088637

• Para X(0, 1), temo temos


2
1 −
(x−0)
1 −x2
f (x) = √ e 2(1)2 = √ e 2
2π(1) 2π

x -3 -2 -1 0 1 2 3
f (x) 0.0044318 0.053991 0.24197 0.39894 0.24197 0.053991 0.0044318

• Para X(0, 1.5), temos


2
1 − x 2 −x2
f (x) = √ e 2(1.5)2 = √ e 4.5
2π(1.5) 3 2π

x -3 -2 -1 0 1 2 3
f (x) 0.035994 0.109340 0.212965 0.265962 0.212965 0.109340 0.035994

59
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Figura 4.3: Densidades Gaussianas X(0, 0.5), X(0, 1), e X(0, 1.5)

4.3.3 Cálculo de probabilidades em X(µ, σ 2 )


Em geral para a Gaussiana X(µ, σ), a probabilidade P (a ≤ X ≤ b) é calculada com

P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) =
Zb Za Zb
1 (x−µ)2 1 (x−µ)2 1 (x−µ)2
− −
√ e 2σ 2 dx − √ e 2σ 2 dx = √ e− 2σ 2 dx
2πσ 2πσ 2πσ
−∞ −∞ a

Como foi dito linhas acima, nenhuma destas integrais pode ser calculada de maneira exata.
Então, estas integrais são calculadas com métodos de aproximação numéricos.

Cálculo de probabilidades usando software

Para esta distribuição Gaussiana ou Normal, existe uma quantidade razoavelmente grande de
software livre ou pago, tanto para computadores, dispositivos móveis, ou online, que permite cal-
cular diretamente P (X ≤ a). Alguns destes softwares até possuem uma interface gráfica intuitiva.

60
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Mencionamos, aqui, somente dois deles;

Software LibreOfficeCalc
Para calcular P (X ≤ x) da distribuição X(µ, σ) a sintaxe é:

dist.norm(x;µ;σ;1)

Por exemplo para calcular P (2 ≤ X ≤ 5) na distribuição Gaussiana X(3, 1) temos:

P (X ≤ 5) = dist.norm(5;3;1;1) = 0.97724
P (X ≤ 2) = dist.norm(2;3;1;1) = 0.15865

Portanto

P (2 ≤ X ≤ 5) = P (X ≤ 5) − P (X ≤ 2) = 0.97724-0.15865=0.81859

Na interface em inglês o comando é norm.dist.

Por outro lado, o cálculo de x que resolve a = P (X ≤ x) = F (x) é factı́vel pois a probabilidade
acumulada F (x) = P (X ≤ x) é uma função estritamente crescente, portanto possui função inversa
F −1 . Daı́, a sintaxe para calcular x = F −1 (a) é;

inv.norm(a;µ;σ)

Por exemplo, em X(3, 1), se queremos saber qual é o valor x tal que P (X ≤ x) = 0.45 então
calculamos

x=F −1 (0.45) = inv.norm(0.45;3;1)=2.8743

Isto significa que P (X ≤ 2.8743) = 0.45 conforme podemos verificar novamente com norm.dist.
Na interface em lı́ngua inglesa o comando é norminv.

Software Octave
Para calcular P (X ≤ x) em X(µ, σ) é

normcdf(x, µ, σ)

Por exemplo para calcular P (1 ≤ X ≤ 4), em X(6, 2) temos

P (1 ≤ X ≤ 4) = normcdf(4,6,2)-normcdf(1,6,2)= 0.1524

Por outro lado, para calcular o valor de x em a = P (X ≤ x) a sintaxe é

61
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

norminv(a, µ, σ).
Por exemplo para calcular o valor x em P (X ≤ x) = 0.8 em X(6, 2)
x=F −1 (0.8) = norminv(0.8,6,2)=7.6832
que significa que P (X ≤ 7.6832) = 0.8 conforme pode ser verificado com normcdf(7.6832,6,2).
Além disso, existem várias calculadoras web tais como shiny.leg.ufpr.br/hektor/calc dist/,
www.hackmath.net/en/calculator/normal-distribution etc. onde é possı́vel fazer estes cálculos
de maneira gráfica.

Cálculo manual usando Tabela de Z


Em tempos passados, quando não existia essa disponibilidade massiva de softwares, a única maneira
de calcular as probabilidades P (a ≤ X ≤ b) para a Gaussiana ou Normal X(µ, σ) era com a Tabela
da distribuição X(0, 1) que é a distribuição Gaussiana de média zero e desvio um. Esta distribuição
é chamada de distribuição padrão e sua importância era tal que merecia sua própria nome de
variável z. Assim, sua densidade é escrita como
1 −z2
f (z) = √ e 2

e a variável é denotada como Z = Z(0, 1) ao invés de X(0, 1). Para muitos cálculos, como em
estatı́stica inferencial, esta Tabela de Z ainda tem importância nos dias de hoje.
Dada uma distribuição Gaussiana qualquer X(µ, σ), na integral que calcula as probabilidades,
podemos fazer mudança de de variáveis z = x−µ σ .Então, temos dz = dx/σ e

b−µ
b (x−µ)2
1 1
Z Z
σ z

P (a ≤ X ≤ b) = √ e 2σ 2 dx = √ e− 2 σdz =
2πσ a 2πσ a−µ
σ
b−µ  
1 a−µ b−µ
Z
σ
− z2
√ e dz = P ≤Z≤
2π a−µ σ σ
σ

Se representarmos por Φ(z) a probabilidade acumulada:


Zz
1 2 /2
Φ(z) = P (Z ≤ z) = √ e−u du

−∞

teremos que
P (z1 ≤ Z ≤ z2 ) = Φ(z2 ) − Φ(z1 ).
Portanto    
b−µ a−µ
P (a ≤ X ≤ b) = Φ −Φ = Φ(z2 ) − Φ(z1 )
σ σ

62
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

A tabela de Z é a tabela da função Φ(z)

Exemplo 4.4 Considere uma população que obedece uma distribuição normal de média µ = 6 e
desvio σ = 2, calcular a probabilidade de um elemento da população estar entre 1 e 4.
1−6
Transformamos os pontos x = 1 e x = 4 em pontos da distribuição padrão. z1 = 2 = −2.5 e
z2 = 4−6
2 = −1. Logo

P (−2 ≤ X ≤ 1) = P (−2.5 ≤ Z ≤ −1) = Φ(−1) − Φ(−2.5)

Na tabela de Φ temos que


Φ(−1) = 0.15866
e
Φ(−2.5) = 0.0062097
Portanto
P (−2 ≤ X ≤ 1) = P (−2.5 ≤ Z ≤ −1) = Φ(−1) − Φ(−2.5) = 0.15245.

4.3.4 Cálculo de erros com as funções Q e Φ


Das técnicas de cálculo, por Tabelas ou Software temos que a função de probabilidade acumulada
Rx −u2 /2
da Gaussiana padronizada Φ(x) = √12π e du assume um rol muito importante no cálculo de
−∞
probabilidades. Algumas propriedades importantes desta função são

• Φ(x) + Φ(−x) = 1

• Φ(−∞) = 0, Φ(0) = 0.5, Φ(∞) = 1

• Φ é crescente

Em processos de comunicação digital uma medida importante é a probabilidade de transmissão


com erro P (ǫ) e esta probabilidade de erro é medido pelo complementar de Φ que é a função Q

Zx +∞
1 1
Z
−u2 /2 2
Q(x) = 1 − Φ(x) = 1 − √ e du = √ e−u /2 du
2π 2π
−∞ x

A função Q tem propriedades semelhantes (simetricamente contrários) a Φ

• Q( x) + Q(−x) = 1

• Q(−∞) = 1, Q(0) = 0.5, Q(+∞) = 0

63
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Q é decrescente

Por exemplo, mostraremos no seguinte Cap. 5 que, a probabilidade de erro per bit de transmissão
de um canal BPSK-AWGN é r !
2Eb
P (ǫ) = Q
N0
onde
Eb =“Energia per bit” em Joules/bit,
N0 =“Densidade Espectral de potencia do ruido Gaussiano” em Watts/Hertz.

4.3.5 Aproximação da distribuição binomial pela distribuição Gaussiana


Uma população discreta com distribuição binomial de p
parametros n e p pode ser aproximada por
uma distribuição normal de parametros µ = np e σ = np(1 − p). As melhores aproximações são
obtidas quando n é grande e p esta próximo de 0.5.
Então  
n a
P (X = a) = p (1 − p)n−a
a
é aproximado por
!
a − 0.5 − np a + 0.5 − np
P (a − 0.5 ≤ X ≤ a + 0.5) = P p ≤z≤ p
np(1 − p) np(1 − p)

Exemplo 4.5 Considere a distribuição binomial com parâmetros n = 30 e p = 0.4. Calcular pelo
método binomial P (X = 8). Aproximar esta estatı́stica pela distribuição normal

Pela formula do binomial:


 
30
P (X = 8) = (0.4)8 (0.6)22 = 5852925(6.5536 × 10−4 )(1.3162 × 10−5 ) = 0.05048
8

Por outro lado, usando a aproximação normal teremos

8 − 0.5 − 30(0.4) −4.5


z1 = p = = −1.6791
30(0.4)(0.6) 2.68
8 + 0.5 − 30(0.4) −3.5
z2 = p = = −1.3059
30(0.4)(0.6) 2.68

Logo
P (−1.6791 ≤ Z ≤ −1.3059) = 0.4530 − 0.4040 = 0.0490.
Que é uma aproximação com erro de 0.00148.

64
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

4.3.6 A distribuição Exponencial


Na distribuição de Poisson X=“Número de ocorrências em t segundos”, com média de ocorrências
igual a λ [ocorrências/segundo]. Considere a variável aleatória T =“Número de segundos até a
primeira ocorrência”; temos que o evento “Nenhuma ocorrência em t segundos”={X = 0} é equi-
valente ao evento {T > t}. Logo,

P (X = 0) = e−λt = P (T > t) = 1 − P (T ≤ t) = F (t)

Daı́ F (t) = 1 − e−λt e


f (t) = λeλt , t≥0
é uma densidade de probabilidade que em estatı́stica se escreve f (x) = λe−λx chamada de densidade
Exponencial. Podemos calcular que E(X) = λ1 e V AR(X) = λ12 .
Para as probabilidades

P (a ≤ X ≤ b) = (1 − e−λb ) − (1 − e−λa ) = e−λa − e−λb

4.4 Funções de uma variável aleatória Y = g(X)


Para uma V.A. X com pdf ou pmf f (x), temos que Y = g(X) também é uma V.A. cuja esperança

Z∞
E(Y ) = g(x)f (x)dx
−∞

e variança
V AR(Y ) = E(Y 2 ) − E(X)2
Se g(X) é invertı́vel, isto é, X = g −1 (Y ), então

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)

e portanto
fY (y) = fX (g −1 (y))
Para o caso Y = aX + b

Z∞ Z∞ Z∞
E(Y ) = E(aX + b) = (ax + b)f (x)dx = a xf (x)dx + f (x)dx = aE(X) + b
−∞ −∞ −∞

65
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Em particular, se b = 0 então
E(aX) = aE(X).
Para a Variança V AR(Y ) = E(Y 2 ) − (E(Y ))2 , calculamos

E(Y 2 ) = E((aX + b)2 ) = E(a2 X 2 + 2abX + b2 ) = a2 E(X 2 ) + 2abE(X) + b2

Por outro lado


(E(Y ))2 = (aE(X) + b)2 = a2 (E(X))2 + 2abE(X) + b2
donde
V AR(X) = a2 (E(X 2 ) − (E(X))2 = a2 V AR(X).

4.5 Exercı́cios
1. Dada a densidade de probabilidade f (x) = 61 (2x + 1), 0 ≤ x ≤ 2. Calcular E(X), VAR(X) e
P (X ≤ 1) e também calcular x tal que P (X ≤ x) = 0.7
Respostas: 11/9; 23/81; 1/3; 1.6095
2. Para a densidade de probabilidade uniforme no intervalo [−1, 2], calcular E(X), VAR(X),
P (0 ≤ X ≤ 1). Encontrar x tal que P (X ≤ x) = 0.9.
Respostas: 1/2; 3/4; 1/3; 1.7
3. Dada uma distribuição normal(Gaussiana) X(1.2, 0.8). Calcular P (0 ≤ X ≤ 1). Também
encontrar o valor de x tal que P (x ≤ X ≤ 2.5) = 0.5.
Respostas: 0.3345; 1.0952
4. A amplitude de um conjunto de sinais digitais recepcionados num canal de comunicações tem
distribuição gaussiana com média de 5 volts e desvio padrão de 0.1 volt. a) Que percentagem
deste sinais tera uma amplitude menor do que 5.12 volts? b) Qual é a amplitude x tal que o
conjuntos de sinais com amplitude superior a x tem probabilidade de 3% ?
Respostas: 88.49%, 5.1881
5. Sabe-se que o conteúdo de cerveja numa lata de 12 oz, de uma marca determinada, tem
distribuição aproximadamente normal com média 12 oz e desvio padrão de 0,25 oz.
(a) Que percentagem de latas terá menos de 11,6 oz?
(b) Que percentagem apresentará variação não superior a 0,3 oz em relação à média?
(c) Qual a probabilidade de, numa amostra de 4 latas, todas as quatro terem conteúdo
inferior a a 12 oz?
Respostas: a) P (X ≤ 11.6) = 0.054799; b) P (X ≤ µ + 0.3) = P (X ≤ 12.3)= 0.8849; c)
P (X ≤ 12)4 = (0.5)4 = 0.0625.

66
Capı́tulo 5

Distribuições de Probabilidade
Conjuntas

Muitos experimentos aleatórios envolvem várias Variáveis Aleatórias. Em alguns experimentos é


medido um número de diferentes quantidades. Por exemplo selecionar aleatoriamente um grupo de
06 estudantes e anotar seu peso e altura. Neste experimento temos dua variáveis aleatórias: X =
Peso de estudantes em Kg., Y = Altura de estudantes em metros.

Est. Peso Altura


1 56 1.60
2 83 1.81
3 72 1.72
4 66 1.64
5 69 1.75
6 75 1.72

5.1 Variáveis aleatórias conjuntas XY e distribuição conjunta fXY (x, y)


Definição 5.1 Dado o par de variáveis aleatórias X, Y discretas, uma distribuição de probabilidade
conjunta sobre X, Y é uma função f que satisfaz

• fXY (x, y) ≥ 0


PP
fXY (x, y) = 1
X Y

• fXY (x, y) = P (X = x, Y = y)

67
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 5.1 Considere as variáveis aleatórias X = {1.2, 2.4, 3.1, 3.9, 4.6} e Y = {1, 3, 5, 7} com
a distribuição conjunta de probabilidade fXY (x, y) dada na Tabela 5.1

X
1.2 2.4 3.1 3.9 4.6
1 0.03 0.04 0.05 0.01 0.07
3 0.10 0.07 0.06 0.10 0.02
Y 5 0.09 0.05 0.08 0.02 0.01
7 0.07 0.01 0.08 0.02 0.02

Tabela 5.1: Distribuição conjunta de probabilidade fXY (x, y) do Exemplo 5.1

Temos que fXY satisfaz as condições da Definição 1.

Podemos fazer o gráfico das distribuições de duas VA discretas com o comando stem3(x,y,z) do
Octave. Para isto é necessário que X esteja ordenado de menor a maior.

Soma dos pesos


0.1
é1
0.08

0.06

0.04

0.02

0
7
6 5
5 4
4
3
3
2 2
1 1

Definição 5.2 Dado o par de variáveis aleatórias X, Y contı́nuas, uma densidade de probabilidade
conjunta sobre X, Y é uma função f que satisfaz

• fXY (x, y) ≥ 0


RR
fXY (x, y)dxdy = 1
R2

68
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Para qualquer região R ⊂ R2 :


RR
fXY (x, y)dxdy = P ((X, Y ) ∈ R)
R

Exemplo 5.2 Considere a seguinte função


(
1
(x + y), (x, y) ∈ [0, 2] × [0, 1]
fXY (x, y) = 3
0, outro caso
Temos

2Z 1 2Z 1
1
Z Z
fXY (x, y)dydx = (x + y)dydx =
0 0 3 0 0
1 2 1 2
Z Z
2 y=1
[xy + y /2]y=0 dydx = (x + 1/2)dx = 1
3 0 3 0
Então fXY é uma distribuição conjunta de probabilidade.
(x + y) / 3

0.8

0.6

0.4

0.2

Volume embaixo
0
1 do Plano é 1
0.8
0.6
2
0.4 1.5
y
0.2 1
0.5 x
0 0

Exemplo 5.3 A função


(
6a2 e−ax e−2ay se 0 < x < y
fXY (x, y) =
0 em outro caso,

onde a = 10−3 , é umaRRdensidade de probabilidade pois fXY (x, y) ≥ 0 para todo (x, y) ∈ R2 . Para
provar que a integral fXY (x, y)dA = 1, considere a região
R = {(x, y) ∈ R2 ; 0 < x < y},

69
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

então
Z∞ Z∞
 
ZZ ZZ
fXY (x, y)dydx = 6a2 e−ax e−2ax dydx = 6a2 e−ax  e−2ax dy  dx =
R2 R 0 x
Z∞    Z∞ Z∞
2 −ax 1 −2ay ∞
−ax −2ax
6a e e dx = −3a e (0 − e )dx = 3a e−3ax dx = 1
−2a x
0 0 0

5.1.1 Variáveis Aleatórias Marginais X, Y e suas distribuições fX (x), fY (y)


Definição 5.3 Dada uma distribuição conjunta discreta fXY (x, y) as marginais fX e fY e suas
respectivas E(X), E(Y ), V AR(X), V AR(Y ) estão definidas por
P
fX (x) = fXY (x, y)
y
P
fY (y) = fXY (x, y)
xP PP
E(X) = xfX (x) = xfXY (x, y)
x x y
P P P
E(Y ) = yfY (y) = yfXY (x, y)
y x y
V AR(X) = E(X 2 ) − (E(X))2
V AR(Y ) = E(Y 2 ) − (E(Y ))2

Definição 5.4 Dada uma distribuição de densidade conjunta fXY (x, y) as marginais fX e fY e
suas respectivas E(X), E(Y ), V AR(X), V AR(Y ) estão definidas por
R
fX (x) = fXY (x, y)dy
R
R
fY (y) = fXY (x, y)dx
RR RR
E(X) = xfX (x)dx = xfXY (x, y)dydx
R R 2
R RR
E(Y ) = yfY (y)dx = yfXY (x, y)dydx
R R2
V AR(X) = E(X 2 ) − (E(X))2
V AR(Y ) = E(Y 2 ) − (E(Y ))2

Exemplo 5.4 (Continuação do Exemplo 5.1)

x 1.2 2.4 3.1 3.9 4.6


fX (x) 0.29 0.17 0.27 0.15 0.12
y 1 3 5 7
fY (y) 0.20 0.35 0.25 0.20

70
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

5
X
E[X] = xk fX (xk ) = 1.2(0.29) + 2.4(0.17) + 3.1(0.27) + 3.9(0.15) + 4.6(0.12) = 2.73
k=1

4
X
E[Y ] = xk fY (yk ) = 1(0.20) + 3(0.35) + 5(0.25) + 7(0.20) = 3.9
k=1

V AR[X] = E[X 2 ] − (E[X])2


Cálculo de E[X 2 ]
5
X
E[X 2 ] = x2k fX (xk ) = 1.22 (0.29) + 2.42 (0.17) + 3.12 (0.27) + 3.92 (0.15) + 4.62 (0.12) = 8.8122
k=1

V AR[X] = 8.8122 − 2.732 = 1.3593


e com isto o desvio é
σX = 1.1659

V AR[Y ] = E[Y 2 ] − (E[Y ])2


Cálculo de E[Y 2 ]
4
X
2
E[Y ] = yk2 fY (yk ) = 12 (0.20) + 32 (0.35) + 52 (0.25) + 72 (0.20) = 19.4
k=1

V AR[Y ] = 19.4 − 3.92 = 4.19


e com isto o desvio é
σY = 2.0469

Exemplo 5.5 (Continuação do Exemplo 5.2)

1 1  
1 1 1
Z Z
fX (x) = fXY (x, y)dy = (x + y)dy = x+
0 3 0 3 2
2 2
1 2
Z Z
fY (y) = fXY (x, y)dx = (x + y)dy = (y + 1)
0 3 0 3
R2 R1
Claramente 0 fX (x)dx = 1 e 0 fY (y)dy = 1, com isto

71
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2 2
1
Z Z
E[X] = xfX (x)dx = x(x + 1/2)dx =
0 3 0
2 2
1 x3 x2

1 1 11
Z
2
= (x + x/2)dx = + = (8/3 + 1) = ≈ 1.222
3 0 3 3 4 0 3 9

V AR[X] = E[X 2 ] − E[X]2


Cálculo de E[X 2 ]
2
1 2 2
Z Z
2 2
E[X ] = x fX (x)dx = x (x + 1/2)dx =
0 3 0
2
1 2 3 1 x4 x3

1 16
Z
2
= (x + x /2)dx = + = (16/4 + 8/6) = ≈ 1.77778
3 0 3 4 6 0 3 9
 2
16 11 23 2 2
V AR[X] = E[X ] − E[X] = − = ≈ 0.28396
9 9 81
logo o desvio padrão é
σX = 0.53288

1 1
2
Z Z
E[Y ] = yfY (y)dy = y(y + 1)dy =
0 3 0
2 1
2 y3 y2

2 2 5
Z
2
= (y + y)dy = + = (1/3 + 1/2) = ≈ 0.5555
3 0 3 3 2 0 3 9

V AR[Y ] = E[Y 2 ] − E[Y ]2


Cálculo de E[Y 2 ]
1 1
2
Z Z
2 2
E[Y ] = y fY (y)dy = y 2 (y + 1)dy =
0 3 0
2 1
2 y4 y3

2 2 7
Z
3 2
= (y + y )dy = + = (1/4 + 1/3) = ≈ 0.38888
3 0 3 4 3 0 3 18
 2
7 5 13 2 2
V AR[Y ] = E[Y ] − E[Y ] = − = ≈ 0.080252
18 9 162
logo o desvio padrão é
σY = 0.28329

72
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 5.6 (Continuação do Exemplo 5.3)

Z∞ Z ∞
2 −ax −2ay 2 −ax
fX (x) = 6a e e dy = 6a e e−2ay dy = 3ae−3ax x>0
x
x

Temos que fX (x) é uma distribuição do tipo exponencial f (x) = λe−λx , λ > 0, cuja média são
dadas por E(X) = λ1 e V AR(X) = λ12 , respectivamente.
Utilizando estas formulas da esperança e variança para a densidade exponencial, temos que
1
E[X] = 3a = 333.333,
2 1
σX = 2
9a
1
donde σX = 3a = 111.11

Por outro lado escrevendo fY (y) = 6ae−2ay − 6ae−3ay = 3(2ae−2ay ) − 2(3ae−3ay )


temos
1 1 5
E[Y ] = 3( 2a ) − 2( 3a ) = 6a = 833.333
Para calcular σY = E[Y ] − E[Y ]2 calculamos
2 2

Z∞
2
E[Y ] = y 2 (6ae−2ay − 6ae−3ay )dy
0
Z∞ Z∞
2 −2ay
=3 y (2ae )−2 y 2 (3ae−3ay )dy
0 0
   
2 2 6 4 19
=3 −2 = − = .
(2a)2 (3a)2 4a2 9a2 18a2

Então  2
19 5 13
V AR[Y ] = σY2 = − =
18a2 6a 36a2

13
donde σY = 6a = 600.93.

5.2 Covariância σXY e ı́ndice de correlação ρXY


Definição 5.5 Dadas as variáveis aleatórias (X, Y ) a covariância é dada por
σXY = COV (X, Y ) = E(XY ) − E(X)E(Y )

73
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

e o ı́ndice de correlação é dado por


σXY
ρXY =
σX σY
Exemplo 5.7 (Continuação do ExemploP P 5.1)
Para calcular eficientemente E[XY ] = xyfXY (x, y) organizamos os produtos xyfXY (x, y) na
y y
seguinte Tabela

X
1.2 2.4 3.1 3.9 4.6
1 0.036 0.096 0.155 0.039 0.322
3 0.360 0.504 0.558 1.170 0.276
Y 5 0.540 0.600 1.240 0.390 0.230
7 0.588 0.168 1.736 0.546 0.644

Tabela 5.2: Distribuição dos produtos xyfXY (x, y) (Continuação do 5.1)

Portanto a correlação é
E[XY ] = 10.198
e a covariância
σXY = E[XY ] − E[X]E[Y ] = 10.198 − (2.73)(3.9) = −0.449
e o ı́ndice de correlação
σXY −0.449
ρXY = = = −0.18814
σX σY (1.1659)(2.0469)
Exemplo 5.8 (Continuação do Exemplo 5.2)

1Z 2
1 1 2 2
Z Z Z
E[XY ] = xyfXY (x, y)dydx = (x y + xy 2 )dydx
0 0 3 0 0
1
1 2 2 y2 y3 1 2 x2 x
Z  Z  
1  3 2 2
x +x dx = + dx = x + x2 0 = .
3 0 2 3 0 3 0 2 3 18 3
então   
2 11 5 1
COV [X, Y ] = E[XY ] − E[X]E[Y ] = − =−
3 9 9 81
e o ı́ndice de correlação é:
σXY −1/81 1
ρXY = =p p = −p = −0.081786
σX σY 23/81 13/162 23(13/2)

74
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 5.9 (Continuação do Exemplo 5.3)

Calculo de
Z∞ Z∞
E[XY ] = xy6a2 e−ax e−2ay dxdy
0 x
Z∞
∞ 
Z
= 6a2 xe−ax dx  ye−2ay dy 
0 x
Z∞ ∞
(−2a)y − 1 −2ay
= 6a2 xe−ax dx e
(−2a)2 x
0
Z∞  
−2ax − 1 −2ax
= 6a2 xe−ax dx 0 − e
4a2
0
Z∞ Z ∞ Z ∞
3 1
= (2ax + 1)xe−3ax dx = x2 (3ae−3ax )dx + x(3ae−3ax )dx
2 0 2a 0
0
  
2 1 1 7
= 2+ =
9a 2a 3a 18a2
Portanto
  
7 1 5 1
σXY = − = = 111111.111
18a2 3a 6a 9a2
enquanto que
1/9a2 2
ρXY = p p = √ = 0.5547
2
1/9a 13/36a 2 13

5.3 Distribuições de probabilidade e densidade condicionais


5.3.1 Caso discreto
Lembrando
P (A ∩ B)
P (A|B) = ,
P (B)
fazendo A = {X = x}, B = {Y = y} temos
P (X = x, Y = y) fXY (x, y)
P (X = x|Y = y) = =
P (Y = y) fY (y)

75
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

a probabilidade condicional P (X = x|Y = y) é denotada por fX|y (x) e também é uma distribuição
de probabilidade de X para cada y fixo:

fXY (x, y)
P (X = x|Y = y) = fX|y (x) =
fY (y)

Analogamente
fXY (x, y)
P (Y = y|X = x) = fY |x (y) =
fY (x)

Exemplo 5.10 (Continuação do Exemplo 5.1)

X
1.2 2.4 3.1 3.9 4.6
1 0.03 0.04 0.05 0.01 0.07
3 0.10 0.07 0.06 0.10 0.02
Y 5 0.09 0.05 0.08 0.02 0.01
7 0.07 0.01 0.08 0.02 0.02

Tabela 5.3: Distribuição conjunta de probabilidade fXY (x, y)

Calculamos
fXY (1.2, y) fXY (1.2, y)
fY |1.2 (y) = f (y|1.2) = =
fX (1.2) 0.29
Por exemplo para y = 3 temos

fXY (1.2, 2) 0.10


f (3|1.2) = = = 0.34483
0.29 0.29

y 1 3 5 7
f (y|1.2) 0.10345 0.34483 0.31034 0.24138

Como 4k=1 f (yk |1.2) = 0.10345+0.34483+0.31034+0.24138 = 1 então f (y|1.2) é uma distribuição


P
de probabilidade. Como tal tem esperança

4
X
E[Y |1.2] = yk f (yk |1.2) = 1(0.10345) + 3(0.34483) + 5(0.31034) + 7(0.24138) = 4.3793
1

76
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

5.3.2 Caso continuo


Para obter a densidade condicional não podemos aplicar a formula P (A|B) = P P(A∩B)
(B) diretamente
sobre as densidades. O raciocı́nio é sobre os acumulados
R y R x+∆x
P (Y ≤ y, x ≤ X ≤ x + ∆x) fXY (u, v)dudv
P (Y ≤ y|x ≤ X ≤ x + ∆x) = = −∞ Rx x+∆x
P (x ≤ X ≤ x + ∆x) fX (u)du x
Por um teorema de cálculo avançado
R y R x+∆x Ry Ry
−∞ x fXY (u, v)dudv −∞ ∆xfXY (x, v)dv fXY (x, v)dv
lim R x+∆x = = −∞
∆x7→0 fX (u)du ∆xfX (x) fX (x)
x
Portanto podemos escrever
Ry
−∞ fXY (x, v)dv
P (Y ≤ y|X = x) = .
fX (x)
R y 
∂ −∞ fXY (x,v)dv
Donde, efetuando a derivação parcial ∂y fX (x) , obtemos a densidade condicional

fXY (x, y)
f (y|x) = .
fX (x)
Analogamente para a reciproca f (x|y) podemos obter
fXY (x, y)
f (x|y) = .
fY (y)
Exemplo 5.11 (Continuação do Exemplo 5.2)
Considere o exemplo
(
1
(x + y), (x, y) ∈ [0, 2] × [0, 1]
fXY (x, y) = 3
0, outro caso
Temos
  
fXY (0.6, y) 30 30 1 3 6 10
fX|0.6 (y) = f (y|0.6) = = fXY (0.6, y) = +y = + y, y ∈ [0, 1]
fX (0.6) 11 11 3 5 11 11
Observamos que
1 1 
6 10y
Z Z
f (y|0.6)dy = + dy = 1
0 0 11 11
portanto f (y|0.6) é uma distribuição de probabilidade que tem esperança e variança.
Z 1 Z 1
6y 10y 2

19
E[Y |0.6] = yf (y|0.6)dy = + dy = ≈ 0.57576
0 0 11 11 33

77
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

5.4 Aplicações da covariança


5.4.1 Covariância de aX e bY
COV (aX, bY ) = E(aXbY ) − E(aX)E(bY )
Calculamos
ZZ ZZ
E(aXbY ) = axbyfXY (x, y)dydx = ab xyfXY (x, y)dydx = abE(XY ).
R2 R2

Portanto

COV (aX, bY ) = abE(XY ) − E(aX)E(bY ) = abE(XY ) − abE(X)E(Y ) = abCOV (X.Y ).

5.4.2 Variável soma Z = X + Y


Dadas as variáveis aleatórias X e Y com distribuição conjunta fXY (x, y) estudamos avariável
aleatória Z = X + Y cuja Esperança e Variança pode ser obtida a partir da conjunta, sem conhe-
cimento da distribuição de probabilidade fZ (z).
Z ∞Z ∞
E[Z] = E[X + Y ] = (x + y)fXY (xy)dA
−∞ −∞
Z ∞Z ∞ Z ∞Z ∞
= xfXY (xy)dA + yfXY (xy)dA
−∞ −∞ −∞ −∞
Z ∞ Z ∞  Z ∞ Z ∞ 
= x fXY (xy)dy dx + y fXY (xy)dx dy
−∞ −∞
Z ∞ −∞ −∞
Z ∞
= xfX (x)dx + yfY (y)dy = E[X] + E[Y ]
−∞ −∞

V AR[Z] = E[(Z − E[Z])2 ] = E[(X + Y − µX − µY )2 ] = E[((x − µX ) + (Y − µy ))2 ]


= E[(X − µX )2 + 2(X − µX )(Y − µY ) + (Y − µY )2 ]
= E[(X − µX )2 ] + 2E[(X − µX )(Y − µY )] + E[(Y − µY )2 ]
= V AR[X] + 2COV [X, Y ] + V AR[Y ]

A Variável soma aX + bY

E(aX + bY ) = aE(X) + bE(Y )


e
V AR(aX + bY ) = a2 V AR(X) + 2abCOV (X, Y ) + b2 V AR(Y )

78
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Se X, Y são independentes então E[XY ] = E[X]E[Y ] e COV [X, Y ] = 0, com isto

COV (aX, bY ) = a2 V AR(X) + b2 V AR(Y )

1
Pn
5.4.3 A variável média amostral X̄ = n i=1 Xi
Seja {Xi } um conjunto IID ( independentes e identicamente distribuı́das). Isto significa X = Xi
para cada i = 1, 2, . . . n e os Xi são dois a dois independentes, com E(Xi ) = E(X) = µX e
V AR(Xi ) = V AR(X) = σX 2 .

Considere a variável “média amostral X̄”


n
1X
X̄ = Xi
n
i=1

temos
n n
!
1 X 1X nµX
µX̄ E(X̄) = E Xi = E(Xi ) = = µX
n n n
i=1 i=1
Por outro lado
n  ! n 2 2
X 1 1 X nσX σX
V AR(X̄) = V AR Xi = V AR(X i ) = =
n n2 n2 n
i=1 i=1

ou seja
σX
σX̄ = √
n
esta fórmula será de FUNDAMENTAL importância em inferência Estatı́stica.

5.4.4 Distribuições fZ (z) e fZ|x (z) = f (z|x) para Z = Y + Y


Caso X, Y discretos

P [Z = z, X = xi ] P [X + Y = z, X = xi ]
fZ|xi (z) = f (z|xi ) = P [Z = z|X = xi ] = =
P [X = xi ] P [X = xi ]
P [Y = z − xi , X = xi ] fXY (xi , z − xi )
=
P [X = xi ] fX (xi )
Daı́
fXZ (xi , z) = f (z|xi )fX (xi ) = fXY (xi , z − xi )
Portanto X
fZ (z) = fXY (xi , z − xi )
i
Se X, Y são independentes então temos:

79
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• a convolução X
fZ (z) = fX (xi )fY (z − xi )
i


f (z|x) = fY (z − xi )

Caso X discreto, Y continuo

P [Z ≤ z, X = xi ] P [X + Y ≤ z, X = xi ]
FZ|xi (z) = F (z|xi ) = P [Z ≤ z|X = xi ] = =
P [X = xi ] P [X = xi ]
R z−xi
P [Y ≤ z − xi , X = xi ] fXY (xi , y)dy
= −∞
P [X = xi ] fX (xi )

Derivando
∂F (z|xi ) fXY (xi , z − xi )
= f (z|xi ) =
∂z fX (xi )
Daı́
fXZ (xi , z) = f (z|xi )fX (xi ) = fXY (xi , z − xi )
Portanto X
fZ (z) = fXY (xi , z − xi )
i

Se X, Y são independentes então temos:

• a convolução X
fZ (z) = fX (xi )fY (z − xi )
i


f (z|x) = fY (z − xi )

Caso X, Y contı́nuos
Para este caso utilizaremos o Teorema de Mudança de variáveis;
ZZ
F (z) = P [Z ≤ z] = P [X + Y ≤ z] = fXY (x, y)dA
R

onde R é a região
R = {(x, y) ; x ∈ R , −∞ ≤ y ≤ z − x}

80
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Fazendo a mudanças u = x e v = x + y temos;

x=u
y =v−u

Temos que a transformação T (u, v) = (u, v − u) transforma a região

S = {(u, v) ; u ∈ R , −∞ ≤ v ≤ z}

na região R, ou seja T (S) = R. Por outro lado

∂T
= (1, −1)
∂u
e
∂T
= (0, 1)
∂v
∂(x, y)
= det(DT ) = 1
∂(u, v)
Então pelo Teorema de mudança de variáveis

∂(x, y)
ZZ ZZ
F (z) = fXY (x, y)dAxy = fXY (x(u, v), y(u, v))) dAuv
∂(u, v)
R S
Z ∞ Z z
= fXY (u, v − u)dvdu
−∞ −∞

Dai ∞
∂F (z)
Z
fZ (z) = = fXY (u, z − u)du
∂z −∞
Para X, Y independentes temos

• a convolução Z ∞
fZ (z) = fX (x)fY (z − x)dx
−∞
R∞
• Também fZ (z) = −∞ fXZ (x, z)dx. Por comparação

fX (x)fY (z − x) = fXZ (x, z)

e portanto
fXZ (x, z)
f (z|x) = = fY (z − x)
fX (x)

81
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

5.4.5 Covariância e Correlação COV (X, Z) onde Z = X + Y e X, Y são indepen-


dentes
Temos

µZ = E[Z] = E[X] + E[Y ] = µX + µY


e
V AR[Z] = V AR[X] + V AR[Y ] + 2COV [X, Y ] = V AR[X] + V AR[Y ],
pois X, Y são independentes. dai
σZ2 = σX
2
+ σY2 .
Por outro lado

σXZ = COV (X, Z) = E(XZ) − E(X)E(Z) = E[X(X + Y )] − E[X](E[X] + E[Y ])


= E[X 2 + XY ] − (E(X))2 − E(X)E(Y ) = E(X 2 ) − (E(X))2 + E(XY ) − E(X)E(Y ) =
E(X 2 ) − (E(X))2 = V AR(X) = σX
2

e o coeficiente de correlação
2
σX
COV (X, Z) σX σX 1
ρXZ = = = =q =r
σX σZ σX σZ σZ 2 + σ2
σX
2
σY
Y 1+ 2
σX

2
σZ
Quando 2
σX
→ 0, temos que Z e X estão fortemente correlacionados, pois ρXZ → 1.
2
σY
Quando 2
σX
→ ∞, Z e X estão fracamente correlacionados, pois ρXZ → 0.

5.5 Canal binário com ruı́do aditivo Z = X + Y


Considere um sinal φ(t) com energia unitária, isto é, kφ(t)k2 = 1. Então os sinais para transmissão
binária (1 bit/ sinal) unidimensional e simétrica são x1 (t) = aφ(t) e x2 (t) = −aφ(t), onde a é a
amplitude do sinal em volts. O modelo probabilı́stico para esta transmissão através de um canal
com ruido aditivo é
Z =X +Y
onde

• X é a variável aleatória que toma os valores {a, −a}, (entrada do canal)

• Y é a variável aleatória do ruı́do que toma valores em R com densidade de probabilidade


pY (y)

82
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Z = X + Y é a variável aleatória que toma valores em R, (saı́da do canal)


• As variáveis aleatórias X e Y são independentes.
A probabilidade do evento {Z ≤ z} dado que foi transmitido o simbolo X = a é P (Z ≤ z|X = a)
e mostramos na Seção anterior que é dada por
Z z−a
P (Z ≤ z|X = a) = pY (y)dy
−∞
donde a densidade
f (z|a) = fY (z − a)

5.5.1 Canal Gaussiano (AWGN)


Um processo estocástico Gaussiano que tem densidade espectral de potência constante N0 /2 [Watts/Hertz]
é chamado de WG (White Gaussian, ruı́do “branco” pois a a densidade de potencia esta distri-
buida uniformemente em todas as frequências). Um canal é AWGN (Additive White Gaussian
Noise) quando o sinal transmitido X(t) e sinal recepcionado Y (t) estão relacionados pela equação
Y (t) = X(t) + N (t),
onde N (t) é um processo estocástico Gaussiano, que é chamado de ruido Gaussiano pois altera o
sinal X(t). Em cada instante t, N (t) é uma variável aleatória Gaussiana X(0, σ) onde σ 2 = N0 /2.
Este canal é quando o ruı́do Y tem densidade
1 2 2
fN (n) = √ e−n /2σ , n ∈ R.
2πσ
Temos então

FY |a (y) = P (Y ≤ y|X = a) = P (X + N ≤ y|X = a) =


y−a
1
Z
2 2
P (N ≤ y − a) = √ e−n /2σ dn.
2πσ
−∞

donde
∂FY |a(y) 1 2 2
f (y|a) = =√ e−(y−a) /2σ
∂y 2πσ
Portanto em transmissão binária com ruido Gaussiano, a densidade de probabilidade condicio-
nada à transmissão do sinal X = a é:
1 2 2
f (y|a) = √ e−(y−a) /2σ
2πσ
e analogamente
1 2 2
f (y| − a) = √ e−(y+a) /2σ
2πσ

83
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

5.5.2 Deteção ML (Maximum Likelihood) Máxima Verossimilhança


Este é um caso onde se supõe que P (X = a) = fX (a) = fX (−a) = P (X = −a) = 1/2. A
probabilidade de detecção correta dado que foi transmitido X = a é
Z ∞
1 2 2
P r[C|a] = √ e−(y−a) /2σ dy
2πσ 0
enquanto que a probabilidade de erro dado que foi transmitido X = a é
Z 0
1 2 2
P r[ǫ|a] = 1 − P r[C|a] = √ e−(y−a) /2σ dy
2πσ −∞

A função erro Q(x) = 1 − Φ(x)


A função erro Q(x) é definida assim

1
Z
2 /2
Q(x) = √ e−u du
2π x

É uma função decrescente e para alguns valores especiais temos

Q(0) = 0.5, Q(−∞) = 1, Q(∞) = 0

e uma propriedade importante é que

Q(−x) = 1 − Q(x)

Com isto, podemos calcular P r[ǫ|a] em termos da função Q(x). Fazemos a mudança de variáveis
y−a
σ = u e na formula de P r[C|a] obtemos
 a a
P r[C|a] = Q − =1−Q
σ σ
isto significa que a
P r[ǫ|a] = Q
σ
Analogamente pode-se mostrar que
a
P r[ǫ| − a] = Q
σ
Portanto a probabilidade de erro de detecção é
1  a  a  a
P r[ǫ] = P r[ǫ|a]p(a) + P r[ǫ| − a]p(−a) = Q +Q =Q
2 σ σ σ

84
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica


A amplitude a é definida por a = Eb , onde Eb é a energia por bit em [Joules/bit] Com isto, o
quociente √ r
a Eb 2Eb
=p = ,
σ N0 /2 N0
Joules/bit
não tem unidades fı́sicas, pois na divisão as unidades fı́sicas são canceladas.
Watts/Hertz
r !
2Eb
P [ǫ] = Q
N0

5.6 Exercı́cios
1. Dada a distribuição conjunta de Probabilidades discreta

x 1.0 1.5 2.3 3.1 5.0


y 2 3 4 5 6
fXY (x, y) 1/8 1/4 1/8 1/4 1/4

(a) Calcular E[X]


(b) Calcular E[X|Y = 3].

Rpta. E(X) = 2.8125, E(X|Y = 3) = 1.5

2. Dada a distribuição conjunta de Probabilidades fXY (x, y) discreta da Tabela 5.4

X
0.2 1.3 2.1 3.9 4.5
1.5 0.02 0.02 0.05 0.01 0.04
2.0 0.03 0.04 0.07 0.02 0.02
Y 2.5 0.05 0.08 0.01 0.02 0.06
3.0 0.01 0.10 0.06 0.03 0.04
3.5 0.04 0.07 0.03 0.04 0.04

Tabela 5.4: Distribuição conjunta de probabilidade fXY (x, y)

calcular: E(Y |X = 3.9), E(X|Y = 2.0) e o coeficiente de correlação ρXY . Sugestão: fazer os
cálculos em Planilha Eletrônica (Ex. LibreOfficeCalc)
1
3. Considere a densidades de probabilidade conjunta continua fXY (x, y) = 39 (2x + y + 3), onde
0 ≤ x ≤ 2 e 0 ≤ y ≤ 3. Calcular E(Y |X = 1), VAR(X|Y = 2) e o coeficiente de correlação

85
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

ρXY .
Alguns resultados preliminares antes de chegar as respostas finais
fX (x) = 2x 9 2 1
13 + 26 ; fY (y) = 39 (x + 5); f (y|1) = fY (y); f (x|2) = 14 (2x + 5);
43 21 23 20 87
E(X) = 39 ; E(Y ) = 13 ; E(XY ) = 13 ; E(X 2 ) = 13 ; E(Y 2 ) = 26 . Com tudo isto temos as:

Respostas: 21/13; 23/21; -0.0497632

86
Capı́tulo 6

Estatı́stica descritiva

Um amostra é um conjunto finito de dados numéricos X = {x1 , x2 , . . . , xn } representativa da po-


pulação. Estatı́stica descritiva lida com a organização, apresentação e resumo dos dados amostrais.

6.1 Parâmetros que resumem os dados amostrais


Os parâmetros que resumem os dados de uma amostra são: média, mediana, moda, variança e
desvio padrão.

Definição 6.1 A média amostral é definida por


n
P
xi
i=1
x̄ = (6.1)
n

Esta média amostral é um estimador da verdadeira média µ da população.

Definição 6.2 Ordenando os dados de menor a maior, a mediana amostral é o número tal que
a metade dos dados são menores e a outra metade são maiores. Se n é impar então a mediana é
o elemento na posição n+1 n n+1
2 . Se n é par a mediana é a media dos elementos nas posições 2 e 2 .

Definição 6.3 A moda amostral é o dado mais frequente.

Definição 6.4 A variança amostral é definida por


n
(xi − x̄)2
P
i=1
s2 = . (6.2)
n−1

87
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Pn
Desenvolvendo o quadrado, e lembrando que nx̄ = i=1 xi , temos;
n
X n
X n
X n
X
(xi − x̄)2 = (x2i − 2x̄xi + x̄2 ) = x2i − 2x̄ xi + nx̄2 =
i=1 i=1 i=1 i=1
n n
! !
X X
x2i − 2x̄nx̄ + nx̄2 = x2i − nx̄2 ,
i=1 i=1

Então, podemos também calcular a variança amostral com a formula


n 
P 2
xi − nx̄2
s2 = i=1 . (6.3)
n−1
No próximo Capı́tulo 7 mostraremos esta Variança amostral é um estimador não-tendencioso da
Variança populacional σ 2 .
Definição 6.5 O desvio padrão amostral é a raiz quadrada da variança amostral, isto é;

s = s2 (6.4)
Exemplo 6.1 Considere os seguintes dados amostrais X = {1.1, 2.3, 0.5, 1.1, 3.4, 4.5, 7.3, 0.8, 3.6, 2.8}
Temos que a média é
P10
1.1 + 2.3 + · · · + 2.8
i=1 xi 27.4
x̄ = = = = 2.74.
10 10 10
Para a mediana ordenamos os dados de modo crescente: {0.5, 0.8, 1.1, 1.1, 2.3, 2.8, 3.4, 3.6, 4.5, 7.3}
e assim temos que a mediana é
x5 + x6 2.3 + 2.8
= = 2.55
2 2
E a moda é 1.1.
Neste caso a variância amostral calculada com a primeira formula é
P10
2 (xi − x̄)2 (1.1 − 2.74)2 + · · · + (2.8 − 2.74)2 39.424
s = i=1 = = = 4.38
9 9 9
enquanto que com a segunda formula é
10
x2i − 10(2.742 )
P
i=1 114.5 − 75.056 39.424
s2 = = = = 4.38.
9 6 9
Com isto, o desvio amostral é √
s= 4.38 = 2.0929.
Os comandos do LibreOffice que calculam este parâmetros são

88
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Média : average(x1,x2,...,xn), em português média.

• Mediana: median(x1,x2,...,xn), em português med.

• Moda: mode(x1,x2,...xn), em português modo.

• Variança: var(x1,x2,...xn), em português var.

• Desvio Padrão: stdev(x1,x2,...xn), em português desvpad.

6.2 Organização e apresentação gráfica dos dados amostrais


Na prática o tamanho da amostra é grande, mais de 30 dados. A organização e apresentação gráfica
dos dados destas amostras depende da quantidade de valores que assumem os dados.

6.2.1 Caso discreto: amostra grande com muitos dados repetidos


Suponha que temos o conjunto de dados numéricos Y = {y1 , y2 , . . . , yn } com muitas repetições.
Suponha que o número de valores diferentes que assume este conjunto seja m. Como Y tem muitas
repetições então m << n ( m é muito menor do que n).
Organizamos os dados de Y classificando em subconjuntos menores da seguinte maneira:
Suponha que existem n1 dados repetidos iguais ao dado y1 , então definimos o subconjunto

Y1 = {y1 = y11 , y12 , . . . , y1n1 },

onde y11 = y12 = · · · = y1n1 . Por conveniência fazemos a mudança de variável x1 = y1 e assimx1
será o representante da classe Y1
De modo similar definimos a classe (subconjunto)

Y2 = {y21 , y22 , . . . , y2n2 },

onde y21 = y22 = · · · = y2n2 = x2 .

Este processo vai até a última classe

Ym = {ym1 , ym2 , . . . , ymnm },

onde ym1 = ym2 = · · · = ymnm = xm .


Claramente temos que

• Y = Y1 ∪ Y2 ∪ · · · ∪ Ym e Yi ∩ Yj = ∅ para i 6= j.

• n = n1 + n2 + · · · + nm .

89
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Cada número ni é chamado de frequência do dado xi , então podemos representar o conjunto


de dados original Y na tabela de frequências
dado x1 x2 ... xm
frequência n1 n2 ... nm
A partir desta tabela de frequências podemos construir os diferentes gráficos com os quais
podemos representar o conjunto de dados Y = {y1 , yP
2 , . . . , yn }.
n
Pn Pm yj
Como j=1 yj = i=1 ni xi temos que a média ȳ = j=1 n pode ser calculada com a formula
m
P
ni xi
i=1
x̄ = .
n
Pn
( yj2 )−nȳ 2
Analogamente, a igualdade nj=1 yj2 = m 2 2 j=1
P P
i=1 ni xi implica que a variança s = n−1
pode ser calculada com a formula
m
ni x2i ) − nx̄2
P
(
2 i=1
s = .
n−1
Exemplo 6.2 A Tabela 6.1 apresenta o valor de um litro de gasolina em 45 postos diferentes de
uma cidade grande no mês de Outubro de 2020.

4.2 4.3 4.4 4.4 4.3 4.0 4.1 3.9 4.5


4.2 4.0 4.4 4.2 4.3 4.3 4.2 4.3 4.3
4.3 3.9 4.3 4.4 4.3 4.0 4.2 4.5 4.0
4.2 4.3 4.3 4.3 4.3 4.4 4.6 4.4 4.1
4.1 3.9 4.4 4.3 4.1 4.3 4.2 4.1 4.4

Tabela 6.1: Preço do litro de gasolina em 45 postos diferentes

A repetição dos preços dos 45 postos permite resumir estes dados a 8 valores

X = {3.9, 4.0, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6},

onde o preço mais barato é de 3.9 reais praticado por 3 postos, o mais caro é de 4.6 reais praticado
por um posto. O preço mais comum é de 4.3 reais praticado por 15 postos. Toda essa informação
pode ser organizada e melhor apresentada em na Tabela de Frequências 6.2.
Dados organizados da Tabela de frequências 6.2 podem ser facilmente representados nas Figuras
6.1 e 6.2 que são o gráfico de linhas e gráfico de barras dos preços de combustı́veis de 45 postos.

90
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

20

15

10

0
3.9 4 4.1 4.2 4.3 4.4 4.5 4.6

Figura 6.1: Gráfico de linhas do preço do litro de gasolina

20

15

10

0
3.8 4 4.2 4.4 4.6 4.8 5

Figura 6.2: Gráfico de barras do preço do litro de gasolina

91
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

preço litro de gasolina xi 3.9 4.0 4.1 4.2 4.3 4.4 4.5 4.6
número de postos (frequência) ni 3 4 5 7 15 8 2 1

Tabela 6.2: Frequências dos preços por litro de gasolina

Com isto, a média amostral pode ser facilmente calculada por

8
P
ni xi
i=1 3(3.9) + 4(4.0) + 5(4.1) + 7(4.2) + 15(4.3) + 8(4.4) + 2(4.5) + 4.6
x̄ = =
n 45
190.9
= 4.242222
45
Por outro lado a variança é

8
ni x2i ) − nx̄
P
(
i=1
s2 = =
n−1
[3(3.9)2 + 4(4.0)2 + 5(4.1)2 + 7(4.2)2 + 15(4.3)2 + 8(4.4)2 + 2(4.5)2 + 4.62 ] − 45(4.2422)2
44
811.05 − 89.8402
= 0.0275
44

92
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

6.2.2 Caso contı́nuo: amostra grande com poucos dados repetidos


Se o o conjunto de dados amostrais Y = {y1 , y2 , . . . , yn }, com n grande tem poucos ou nenhum
dado repetido, estes dados são classificados em m subconjuntos menores Y1 , Y2 , ...., Ym de modo
que Y = Y1 ∪ Y2 ∪ · · · ∪ Ym e Yi ∩ Yj = ∅ para i 6= j. Necessariamente m << n, m deverá ser muito
menor do que n. Normalmente 5 ≤ m ≤ 10, um valor inteiro entre 5 e 10. Podemos resumir este
processo de classificação no seguinte algoritmo:
• Determinar a = min{y1 , y2 , . . . , yn }, b = max{y1 , y2 , . . . , yn }

• Determinar o comprimento dos m intervalos de classe ∆ = b−a


m .

• O primeiro intervalo é C1 = [a, a + ∆) e a primeira classe é Y1 = {yj ∈ Y ; yj ∈ C1 }.


Do mesmo modo C2 = [a + ∆, a + 2∆) e Y2 = {yj ∈ Y ; yj ∈ C2 },...,
...até a última classe Cm = [a + (m − 1)∆, a + m∆ = b] com Ym = {yj ∈ Y ; yj ∈ Cm }.

• O número de elementos de cada Yi é denotado por ni é chamado de frequência de classe.

• Finalmente com os intervalos de classe Ci e as frequências montamos a Tabela de frequências


de classe. A partir desta tabela pode ser construir alguma das apresentações gráficas tais
como histograma, diagrama de pizza, etc.

6.2.3 Cálculo aproximado da média x̄ e variança amostral s2


Dada uma amostra Y =P{y1 , y2 , . . . , yn } com poucos dados repetidos podemos calcular uma apro-
n
j=1 yj
ximação da média ȳ = n utilizando a formula
m
X
x̄aprox = fi x̄i , (6.5)
i=1

onde x̄i é a média da classe Yi dada por x̄i = a + (2i − 1)∆/2, e fi é a frequência relativa fi = nni
da classe Yi .
Enquanto que a variância amostral aproximada pode ser calculada com
m
!
2 n X
2 2
saprox = ( x̄i fi ) − x̄ (6.6)
n−1
i=1

Mesmo sendo próximos, x̄aprox 6= ȳ e também s2aprox 6= s2 .


Por outro lado as frequências relativas fi podem ser consideradas como uma distribuição de pro-
babilidades das médias de classe x̄i , pois
m m Pm
X X ni ni n
fi = = i=1 = =1
n n n
i=1 i=1

93
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 6.3 O conjunto de dados da Tabela 6.3 mostra o rendimento em km/litro de combustı́vel
de uma amostra de 40 veı́culos motorizados.

11.1 12.5 32.4 7.8 21.0 16.4 11.2 22.3


4.4 6.1 27.5 32.8 18.5 16.4 15.1 6.0
10.7 15.8 25.0 18.2 12.2 12.6 4.7 23.5
14.8 22.6 16.0 19.1 7.4 9.2 10.0 26.2
3.5 16.2 15.5 3.2 8.1 12.9 19.1 13.7

Tabela 6.3: Rendimento de combustı́vel, em km/litro, de 40 veı́culos

Vamos construir o histograma de frequências com 6 classes.

Temos a = min{yj } = 3.2 e b = max{yj } = 32.8. A seguir calculamos os comprimentos dos


intervalos com 32.8−3.2
6 = 4.9333 que podemos arredondar a 5. Com isto fazemos um acomodação
das classes Ci e as frequências ni conforme a tabela a seguir
Ci 3-8 8-13 13-18 18-23 23-28 28-33
ni 8 10 9 7 4 2
Com isto construı́mos o histograma de frequências da Figura 6.3

10
número de ocorrencias

3 8 13 18 23 28 33
consumo de combustivel de veiculos

Figura 6.3: Histograma de frequências de rendimentos dos veı́culos

Para o cálculo da média e variança aproximadas construı́mos a seguinte tabela de médias de


classe e frequências relativas.
x̄i 5.5 10.5 15.5 20.5 25.5 30.5
fi 0.20 0.25 0.225 0.175 0.10 0.05

organizamos as operações das formulas de x̄aprox e s2aprox na seguintes tabela

94
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

x̄i 5.5 10.5 15.5 20.5 25.5 30.5


fi 0.20 0.25 0.225 0.175 0.10 0.05 1
x̄2i 5.5 10.5 15.5 20.5 25.5 30.5
fi x̄i 1.1 2.625 3.4875 3.5875 2.55 1.525 14.875
fi x̄2i 6.05 27.5625 54.05625 73.54375 65.025 46.5125 272.75

Então,
6
X
x̄aprox = fi x̄i = 14.875
i=1
e
6
!
40 X 40
s2aprox = fi x̄2i − x̄ 2
= (272.75 − 14.8752 ) = 51.4843
39 39
i=1

Com isto o desvio aproximado é saprox = 7.175.

601.7
Por outro lado LibreOfficeCalc podemos calcular diretamente a média amostral x̄ = 40 =
15.0425 enquanto que a a variança amostral s2 = 2224
39 = 57.02609.

95
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 6.4 Consideremos o conjunto de 200 dados numéricos da Tabela 6.4 que representam o
número de horas que duram 200 lampadas.
Tempo de duração de lampadas (horas)
1067 919 1196 785 1126 936 918 1156 920 948
855 1092 1162 1170 929 950 905 972 1035 1045
1157 1195 1195 1340 1122 938 970 1237 956 1102
1022 978 832 1009 1157 1151 1009 765 958 902
923 1333 811 1217 1085 896 958 1311 1037 702
521 933 928 1153 946 858 1071 1069 830 1063
930 807 954 1063 1002 909 1077 1021 1062 1157
999 932 1035 944 1049 940 1122 1115 833 1320
901 1324 818 1250 1203 1078 890 1303 1011 1102
996 780 900 1106 704 621 854 1178 1138 951
1187 1067 1118 1037 958 760 1101 949 992 966
824 653 980 935 878 934 910 1058 730 980
844 814 1103 1000 788 1143 935 1069 1170 1067
1037 1151 863 990 1035 1112 931 970 932 904
1026 1147 883 867 990 1258 1192 922 1150 1091
1039 1083 1040 1289 699 1083 880 1029 658 912
1023 984 856 924 801 1122 1292 1116 880 1173
1134 932 938 1078 1180 1106 1184 954 824 529
998 996 1133 765 775 1105 1081 1171 705 1425
610 916 1001 895 709 860 1110 1149 972 1002

Tabela 6.4: Duração em horas de 200 lampadas

Pela natureza e volume de dados organizamos este conjunto em 10 classes detalhadas juntamente
co as suas frequências, frequências relativas e outros dados necessários para calcular x̄approx e s2aprox
na seguinte tabela
Ci ni
500-600 2
600-700 5
700-800 12
800-900 25
900-1000 58
1000-1100 41
1100-1200 43
1200-1300 7
1300-1400 6
1400-1500 1

donde podemos desenhar o histograma de frequências respectivo mostrado na Figura 6.4


Os pontos médios de classe x̄i são X = {550, 650, . . . , 1450} e as frequências de classe ni são
{2, 5, 12, 25, 58, 41, 43, 7, 6, 1}. Então
200
1 X 200500
x̄ = x̄i ni = = 1002.5
200 200
i=1

Enquanto que a variança é


1
s2 = (205920000 − 201001250) = 24717.33668
199
que resulta num desvio padrão de s = 157.22

96
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

60

50

número de ocorrencias
40

30

20

10

5 6 7 8 9 10 11 12 13 14 15
duração de lampadas em unidades de 100 horas

Figura 6.4: Histograma de frequências de classes da lampadas

Por outro lado com uma planilha eletrônica podemos calcular que a verdadeira média amostral
é x̄ = 998.13 e o verdadeiro desvio padrão é s = 157.8624.

6.3 Diagramas de Dispersão e Correlação de dados Estatı́sticos


Um conjunto de dados pode ser bi-variado X = {x1 , x2 , . . . , xn } e Y = {y1 , y2 , . . . , yn }, então o
coeficiente de correlação destes dados pode ser calculado por
n
P
(xi − x̄)(yi − ȳ)
i=1
rxy = s (6.7)
n n
x̄)2 ȳ)2
P P
(xi − (yi −
i=1 i=1

Desenvolvendo o produto (xi − x̄)(yi − ȳ) e utilizando os fatos ni=1 xi = nx̄ e ni=1 yi = nȳ
P P
temos
X X X X X
(xi − x̄)(yi − ȳ) = xi yi − nx̄ȳ = yi (xi − x̄) + yi x̄ − nx̄ȳ = yi (xi − x̄).

Então, o calculo do coeficiente de correlação também pode ser feito com


n
P
yi (xi − x̄)
i=1
rxy = s (6.8)
n n
x̄)2 ȳ)2
P P
(xi − (yi −
i=1 i=1

Uma propriedade importante é que


−1 ≤ rxy ≤ 1

97
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 6.5 Considere o seguinte conjunto de dados de 10 pessoas com informações de número
de anos de escolaridade e número de batimentos por minuto do coração. Se X=“Numero de anos

Pessoa 1 2 3 4 5 6 7 8 9 10
Anos escolaridade 12 16 13 18 19 12 18 19 12 14
Batimentos 73 67 74 63 73 84 60 62 76 71

de escolaridade” e Y =“Número de batimentos cardı́acos” Calculamos as médias amostrais


153
x̄ = = 15.3
10
e
703
= 70.3 ȳ =
10
Com isto organizamos os dados necessários para calcular o coeficiente de correlação na seguinte
tabela

i 1 2 3 4 5 6 7 8 9 10
P
xi 12 16 13 18 19 12 18 19 12 14 = 153
P
yi 73 67 74 63 73 84 60 62 76 71 = 703
xi − x̄ -3.3 0.7 -2.3 2.7 3.7 -3.3 2.7 3.7 -3.3 -1.3
yi − ȳ 2.7 -3.3 3.7 -7.3 2.7 13.7 -10.3 -8.3 5.7 0.7
(xi − x̄)2
P
10.89 0.49 5.29 7.29 13.69 10.89 7.29 13.69 10.89 1.69 =82.1
(yi − ȳ)2
P
7.29 10.89 13.69 53.29 7.29 187.69 106.09 68.89 32.49 0.49 =488.1
P
yi (xi − x̄) -240.9 46.9 -170.2 170.1 270.1 -277.2 162.0 229.4 -250.8 -92.3 =-152.9

n
P
yi (xi − x̄)
i=1 −152.9 −152.9
rxy = s =p = = −0.76381
n n (82.1)(488.1) 200.18
(xi − x̄)2 (yi − ȳ)2
P P
i=1 i=1

6.4 Exercı́cios
1. Considere os conjuntos de dados X e Y da Tabela 6.5 e da Tabela 6.6, então calcular:

(a) x̄, ȳ, s2X , s2Y , sX , e sY .


P10 3 2
(b) i=1 (xi − 3xi − 3)

98
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

P10 3
(c) i=1 (xi − 3yi2 − 3)
P10
(x2 +yi2 )
(d) P10 i
i=1
i=1 xi

(e) rXY

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
5 4.6 -2.1 0 3.4 3.7 -3.1 1.2 5.6 4

Tabela 6.5: Conjunto de dados X

y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
1.3 2.8 4.1 -3.5 -2.4 -4.7 2.2 0.2 5.3 2.7

Tabela 6.6: Conjunto de dados Y

2. Considere as seguintes temperaturas observadas durante os 90 dias do verão(Janeiro, Fevereiro


e Março) de 1926, em Florianópolis;

26.1 34.0 32.3 25.0 28.7 31.0 32.3 36.0 36.1 38.0
32.4 33.4 33.6 34.2 34.2 30.0 30.9 32.0 32.9 34.0
28.4 31.3 29.2 29.3 21.1 34.0 26.1 36.0 37.0 37.2
33.4 29.2 35.4 36.0 35.5 33.7 35.3 31.2 29.8 38.5
25.0 33.4 36.4 32.0 33.2 31.3 33.4 34.3 33.4 33.2
23.7 32.4 33.7 34.2 34.0 31.0 28.9 33.0 32.0 35.0
27.3 33.3 29.3 29.2 21.1 34.0 27.1 34.0 38.6 27.2
31.4 28.2 35.7 36.8 35.0 29.7 35.6 37.2 28.8 24.5
27.0 34.4 36.8 32.0 33.2 31.3 33.4 31.3 34.4 29.2

então

(a) Organizar os dados numa Tabela de frequências de classes, com 5 classes. Desenhar o
histograma.

(b) Organizar os dados numa Tabela de frequências de classes, com 8 classes. Desenhar o
histograma.

99
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

3. Considere as seguintes notas de 70 alunos;

6.3 4.1 5.2 7.3 7.9 6.8 1.1 7.3 6.2 3.5
7.3 6.8 0.0 8.6 7.3 5.1 8.6 5.5 6.0 6.0
6.5 9.0 8.7 5.5 4.5 7.8 7.8 5.3 5.3 4.8
10.0 3.8 6.1 9.3 9 9.8 9.5 8.6 8.3 3.2
7.2 7.3 5.1 7.5 6.1 5.3 9.7 2.0 2.1 4.7
8.1 3.8 9.3 9.3 9.0 8.9 5.5 6.8 3.8 3.2
5.0 7.3 5.1 4.9 6.1 5.3 5.7 2.0 1.3 7.1

então

(a) Desenhar um histograma de frequências de classe com 6 classes.


(b) Por quaisquer método achar a media, desvio, mediana e moda amostrais

4. Considere as seguintes notas de 40 alunos

7.8 10 10 7.3 7.9 6.8 10 7.3


7.3 8.8 10 8.6 7.3 5.1 8.6 5.5
6.5 7 8.7 5.5 3.5 7.8 7.8 5.3
10 6 10 9.3 9 9.8 9.5 8.6
10 7.3 5.1 7.5 6.1 5.3 9.7 10

então

(a) Desenhar um histograma de frequências de classe com 6 classes.


(b) Por quaisquer método achar a media, desvio, mediana e moda amostrais

5. Considere as seguintes temperaturas medidas numa região do Brasil durante 50 dias conse-
cutivos de um verão, no perı́odo da tarde.

36.1 34.0 32.3 25.0 28.7 31.0 32.3 36.0 36.1 38.0
32.4 33.4 33.6 34.2 34.2 30.0 30.9 32.0 32.9 34.0
28.0 31.3 29.2 29.3 32.1 27.0 26.1 36.0 37.0 37.2
33.4 34.2 35.4 36.0 35.5 33.7 35.3 31.2 29.8 29.5
25.0 33.4 36.4 32.0 33.2 31.3 33.4 34.3 33.4 33.2
Organizar os dados em 05 classes que correspondam com as condições “bem agradável”,
“agradável”, “quente”, “muito quente”, e “sufocante”.

(a) Montar a tabela de frequências e desenhar um diagrama de pizza para as 05 classes de


temperaturas.

100
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

(b) Achar o primeiro quartil e o segundo quartil.


2
6. (Computador) Considere o conjunto de dados X = {xi = i + logsin(i)
10 (i )
; i = 1, 2, 3, . . . , 100},

e também o conjunto de dados Y = {yi = cos(i + i) ; i = 1, 2, 3, . . . , 100}. Calcular;

(a)
P100 2
i=1 (xi + 3yi − i + 1)
P  P 
100 100
i=1 (xi − x̄) i=1 (yi − ȳ)
P100 √ √
(b) i=1 [sin( xi ) cos( yi )]
(c) Para o conjunto de dados X, construir uma distribuição de frequências com 12 classes.

101
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

102
Capı́tulo 7

Estimação de parâmetros

Dada uma variável aleatória X os parâmetros mais importantes a serem estimados são a média µ,
a variança σ 2 e alguma proporção P (A), onde A é um evento de X. Esta estimação é realizada via
a repetição do experimento que determina X. O resultado deste experimento é um vetor aleatório
X1 , X2 , . . . , Xn do tipo IID (identically independent distributions) e o estimador ou estatı́stica é
uma função
Θ̂ = g(X1 , X2 , . . . , Xn ),
que é também uma variável aleatória. Esta função deve satisfazer a condição
E(Θ̂) = E(g(X1 , X2 , . . . , Xn )) = θ,
o parâmetro que se esta estimando.
Exemplo 7.1 O estimador mais importante da média µ é a média amostral
n
P
Xi
i=1
X̄ =
n
Temos que
n
P
E(Xi )
i=1 nµ
E(X̄) = = = µ,
n n
que prova que este estimador é não-tendencioso.
Exemplo 7.2 O estimador mais importante de variância σ 2 é
n
(Xi − x̄)2
P
i=1
s2 = ,
n−1
que na seguinte seção mostramos é um estimador não-tendencioso. Isto é E(s2 ) = σ 2 .

103
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

7.1 Estimador não tendencioso da variança


Se considerarmos como estimador da variança

n
(Xi − X̄)2
P
i=1
S2 =
n

mostramos que este estimador é tendencioso, isto significa que não é bom estimador. Para isto

n n
(Xi − X̄)2 (Xi − µ + µ − X̄)2
P P
2 i=1 i=1
S = =
n n
n
(Xi − µ)2 + 2(Xi − µ)(µ − X̄) + (µ − X̄)2
P
i=1
=
n
n n
!
1 X 1X
= (Xi − µ)2 + 2(µ − X̄) (Xi − µ) + (µ − X̄)2
n n
i=1 i=1
n
1X
= (Xi − µ)2 + 2(µ − X̄)(X̄ − µ) + (µ − X̄)2
n
i=1
n
1X
= (Xi − µ)2 − (µ − X̄)2
n
i=1

Por outro lado

n n
1X 1X
(Xi − µ)2 = (Xi − 2µXi + µ2 )
n n
i=1 i=1
n n
!
1X 2 1X
= Xi − 2µ Xi + µ2
n n
i=1 i=1
n
!
1X 2
= Xi − µ2 .
n
i=1

Portanto
n
!
2 1X 2
S = Xi − µ2 − (X̄ − µ)2
n
i=1

104
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Aplicando o operador esperança:


n
1X
E(S 2 ) = E(Xi2 ) − µ2 − E(X̄ − µ)2
n
i=1
= (µ2 + σ 2 ) − µ2 − V AR(X̄)
σ2
= σ2 −
n
n−1 2
= σ
n
Então, se definirmos como estimador da variância
n
(Xi − X̄)2
P
i=1
s2 = ,
n−1
temos;
n
(Xi − X̄)2
P
   
2 n i=1 n
s = = S2
n−1 n n−1
daı́     
2 n 2 n n−1
E(s ) = E(S ) = σ2 = σ2,
n−1 n−1 n
o que significa que este estimador é não-tendencioso.

7.2 Estimador de Máxima Verosimilitude


Dado um vetor amostral X1 , X2 , . . . , Xn este estimador do parâmetro θ ∈ Θ escolhe θ∗ tal que

θ∗ = max{P r(x1 , x2 , . . . , xn |θ)}


θ∈Θ

Como as Xi são do tipo IID então P r(x1 , x2 , . . . , xn |θ) = Πni=1 P r(xi |θ). Por outro lado, a
propriedade injetora da função logaritmo faz com que

θ∗ = max{P r(x1 , x2 , . . . , xn |θ)} = max{log(P r(x1 , x2 , . . . , xn |θ))}


θ∈Θ θ∈Θ

com o qual podemos calcular


n
X
θ∗ = log(P r(xi )|θ).
i=1

105
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Que pode ser calculada derivando a função f (θ) = ni=1 log(P r(xi )|θ) e resolvendo para θ a
P
equação
Xn ∂P r(xi |θ)
∂θ
=0
P r(xi |θ)
i=1

7.2.1 Estimador do parâmetro de proporção p de uma VA de Bernoulli


Uma VA de Bernoulli com parametro p é X = {0, 1} ∈ R e probabilidades P r(0) = 1 − p e
P r(1) = p. Então podemos caracterizar estas probabilidades com
(
p, x=1
P r(x|p) = px (1 − p)1−x =
1 − p, x = 0
Temos então
∂P r(x|p) ∂px (1 − p)1−x
=
∂p ∂p
= (p ) (1 − p)1−x + px ((1 − p)1−x )′
x ′
 x−1  x
p p
=x − (1 − x)
1−p 1−p

Dividindo por P r(x|p) obtemos


 x−1  x
∂P r(x|p) p p
x 1−p − (1 − x) 1−p
∂p
=
P r(x|p) px (1 − p)1−x
x−1
  x
p p
x 1−p − (1 − x) 1−p
=  x
p
1−p (1 − p)
   
1 1−p
= x −1+x
1−p p
 
1 x
= −1
1−p p
n ∂P r(xi |p)  
P ∂p 1 Pn xi
Portanto P r(xi |p) = 0 implica 1−p i=1 p − 1 = 0 donde
i=1
n
1X
p∗ = xi ,
n
i=1

que intuitivamente é um estimador obvio.

106
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 7.3 Qual é o valor de p se o vetor amostral é x1 = 1, x2 = 0, x3 = 0, x4 = 1, x5 = 1, x6 = 1,


x7 = 0, x8 = 1, x9 = 1, x10 = 1
Temos n = 10 e
1 7
p= (1 + 0 + 0 + 1 + 1 + 1 + 0 + 1 + 1 + 1) = = 0.7
10 10

n
1
P
7.3 Propriedades da média amostral X̄ = n Xi
i=1

Nos Capı́tulos 4 e 5 foi visto que a Esperança é um operador linear isto é

E(aX + bY ) = aE(X) + bE(Y )

Por outro lado a variança não é linear, mas têm a seguinte propriedade

V AR(aX+bY ) = V AR(aX)+2COV (aX, bY )+V AR(bY ) = a2 V AR(X)+2abCOV (X, Y )+b2 V AR(Y )

Se X, e Y são independentes, para o caso da variança, temos a seguinte propriedade adicional

V AR(aX + bY ) = a2 V AR(X) + b2 V AR(Y ).

Dado um numero natural n e uma variável aleatória X com média µ e desvio σ, considere a
repetição independente de X por n vezes. O resultado deste experimento repetido é o vetor
aleatório X1 , X2 , . . . , Xn , onde cada Xi é a variável aleatória X.
A média amostral definida por

X1 + X2 + · · · + Xn
X̄ = (7.1)
n
tem as seguintes propriedades;


E(X̄) = µ


σ2
V AR(X̄) =
n
Isto significa que quanto maior o tamanho de n, maior será o grau de confiança de que a
média amostral se aproxime da média verdadeira.

• Se X é Gaussiana então X̄ é também Gaussiana para qualquer n ≥ 1

107
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Se X não é Gaussiana então a VA definida por

X¯n − µ
Yn = √
σ/ n

é aproximadamente a Gaussiana Z(0, 1), para n suficientemente grande. (Teorema do limite


central)

Exemplo 7.4 Considere a variável aleatória X = {0, 2, 4} com probabilidades {0.5, 0.25, 0.25}
respectivamente. Estudar a média amostral

• Para um tamanho de amostra n = 5

• Para um tamanho de amostra n = 10

• Para um tamanho de amostra n = 20

A media de X é
n
X
µX = pi xi = (0.5)(0) + (0.25)(2) + (0.25)(4) = 1.5
i=1

enquanto que a variança é


2
σX = (0 − 1.5)2 (0.5) + (2 − 1.5)2 (0.25) + (4 − 1.5)2 (0.25) = 2.75
q
σX
• Se n = 5, temos que √ n
= 2.75
5 = 0.74162, então X̄ é uma Gaussiana X̄(1.5, 0.74162).
Logo


P (0.75838 ≤ X̄ ≤ 2.2416) = 0.68,
que pode ser interpretado assim “Uma média amostral de tamanho n = 5 esta no inter-
valo [0.75838,2.2416] com un 68% de confiança.

P (0.016760 ≤ X̄ ≤ 2.9832) = 0.955,
que pode ser interpretado assim “Uma média amostral de tamanho n = 5 esta no inter-
valo [0.016760,2.9832] com un 95.5% de confiança.

P (−0.72486 ≤ X̄ ≤ 3.7249) = 0.997,
que pode ser interpretado assim “Uma média amostral de tamanho n = 5 esta no inter-
valo [-0.72486,3.7249] com un 99.7% de confiança.

108
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

q
σX
• Se n = 10, temos que √
n
= 2.75
10 = 0.52440, então X̄ é uma Gaussiana X̄(1.5, 0.52440).
Logo

P (0.97560 ≤ X̄ ≤ 2.0244) = 0.68,
que pode ser interpretado assim “Uma média amostral de tamanho n = 10 esta no
intervalo [0.97560,2.0244] com un 68% de confiança.

P (0.45119 ≤ X̄ ≤ 2.5488) = 0.955,
que pode ser interpretado assim “Uma média amostral de tamanho n = 10 esta no
intervalo [0.45119,2.5488] com un 95.5% de confiança.

P (−0.073213 ≤ X̄ ≤ 3.0732) = 0.997,
que pode ser interpretado assim “Uma média amostral de tamanho n = 10 esta no
intervalo [-0.073213, 3.0732] com un 99.7% de confiança.
q
σX
• Se n = 20, temos que √ n
= 2.75
20 = 0.37081, então X̄ é uma Gaussiana X̄(1.5, 0.37081).
Logo

P (1.1292 ≤ X̄ ≤ 1.8708) = 0.68,
que pode ser interpretado assim “Uma média amostral de tamanho n = 20 esta no
intervalo [1.1292,1.8708] com un 68% de confiança.

P (0.75838 ≤ X̄ ≤ 2.2416) = 0.955,
que pode ser interpretado assim “Uma média amostral de tamanho n = 20 esta no
intervalo [0.75838,2.2416] com un 95.5% de confiança.

P (0.38757 ≤ X̄ ≤ 2.6124) = 0.997,
que pode ser interpretado assim “Uma média amostral de tamanho n = 20 esta no
intervalo [0.38757, 2.6124] com un 99.7% de confiança.

Exemplo 7.5 Considere a variável aleatória X = {0, 2, 4} com probabilidades {1/3, 1/3, 1/3} res-
pectivamente. Estudar a média amostral para os mesmos tamanhos amostrais n = 5, 10, 20.
Neste caso temos que a µX = 2 e σX 2 = E(X 2 ) − µ2 = 20 − 22 = 8 = 2.6666. Para as amostras
√ X 3 3
de tamanhos 5,10 e 20 teremos os desvios σX / n = 0.73030, 0.51640, e 0.36515 respectivamente
que mostra que a estimação da média amostral será mais precisa do que no caso anterior.

109
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

110
Capı́tulo 8

Intervalos de Confiança

8.1 Construir Intervalos para a média µ


Alguns valores zα e z α2

1−α z α2 zα sup zα inf


0.99 2.58 2.33 −2.33
0.98 2.33 2.06 −2.06
0.95 1.96 1.65 −1.65
0.90 1.65 1.28 −1.28

8.1.1 X Gaussiana e variança σ 2 conhecida


Intervalo bilateral

1-
/2 /2
x-  x x +

Dada a média amostral x̄, obtida de uma amostra de tamanho n de uma VA com variança
σ 2 , queremos determinar o intervalo = [x̄ − ǫ, x̄ + ǫ] onde esteja a verdadeira média µ com um
nı́vel de confiança 1 − α. Este intervalo que depende do número positivo ǫ, é chamado “Intervalo
de confiança” (IC) e o número positivo ǫ, algumas vezes é chamado de “margem de erro”. A
dependência do IC de ǫ é estabelecida pela fórmula

ǫ = Metade do comprimento do IC.

111
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Começamos calculando “Probabilidade da média populacional µ estar no intervalo [x̄−ǫ, x̄+ǫ]”,


isto é calcular P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ). Para isto, consideremos a seguinte sequencia de equivalência
de eventos:

{X̄ − ǫ ≤ µ ≤ X̄ + ǫ} ⇔ {−ǫ ≤ µ − X̄ ≤ ǫ}
⇔ {−ǫ ≤ X̄ − µ ≤ ǫ}
 
ǫ ǫ
⇔ − √ ≤Z≤ √ ,
σ/ n σ/ n
Então    
ǫ ǫ ǫ
P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = P − √ ≤Z≤ √ = 2Φ √ −1
σ/ n σ/ n σ/ n
Fazendo
ǫ
z α2 = √
σ/ n
e impondo a condição do nı́vel de confiança do IC, P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = 1 − α temos que

1 − α = 2Φ(z α2 ) − 1

donde z α2 pode ser calculado com


 α
z α2 = Φ−1 1 − .
2
Para encontrar o valor de z α2 podemos usar a Tabela de Φ ou também a planilha LibreOfficeCalc
onde temos as opções

norminv(1- α2 ; 0; 1) ou norm.s.inv(1- α2 ).

No Octave temos o comando norminv(1- α2 ).


Portanto, o comprimento pode ser calculado pela fórmula
σ
ǫ = z α2 √
n

1-α
α/2 α/2
-z α/2 0 zα/2

Exemplo 8.1 Seja X uma variável aleatória normal com variança 32. Considere uma amostra de
tamanho 25 cuja média amostral é 63.5. Determinar o IC para um nı́vel de confiança de 85 % ?

112
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Solução.-
Como 1−α = 0.85 temos que α = 0.15. Logo obtemos Φ(z α2 ) = 1−0.075 = 0.925, donde z α2 = 1.44.
Com isto √
(1.44) 32
ǫ= = 1.6292
5
e o intervalo com um 85% de confiança é

IC = [63.5 − 1.6292, 63.5 + 1.6292] = [61.871, 65.129]

Exemplo 8.2 No IC [x̄ − z α2 √σn , x̄ + z α2 √σn ], qual é o valor de z α2 que fornece 92 % de confiança?

Sol.-
Temos que para o nı́vel de confiança de 92 % o valor de α é 8 %, ou seja α = 0.08 e α/2 = 0.04.
Com isto, Φ(z α2 ) = 1 − 0.04 = 0.96 donde, da Tabela Φ, obtemos z α2 = 1.75068.

Exemplo 8.3 Esta sendo estudado o comprimento do IC da amplitude de um sinal, em volts.


Suponha que esta amplitude esteja normalmente distribuı́da com variança σ 2 = 25. Qual deve ser
o tamanho da amostra para que o comprimento do IC de 90 % seja de 12 volts?.

Sol.- zα σ
O erro é dado por ǫ = √2
n
donde
z 2α σ 2
2
n=
ǫ2
Para o IC de 90 % temos que α = 0.1 e α/2 = 0.05, logo Φ(z α2 ) = 1 − 0.05 = 0.95. Disto
z α2 = 1.64485
Por outro lado, se o comprimento do intervalo é 12 então ǫ = 6.
Portanto
(1.64485)2 (25)
n= = 1.8788,
62
que significa n = 2.

Exemplo 8.4 O comprimento de um IC de 98 % é 40 se o tamanho da amostra também é 40 qual


é a variança?

Sol.- zα σ
O erro é dado por ǫ = √2
n
donde
ǫ2 n
σ2 =
z 2α
2

Para o IC de 98 % temos que α = 0.02 e α/2 = 0.01, logo Φ(z α2 ) = 1 − 0.01 = 0.99. Disto
z α2 = 2.326

113
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Por outro lado, se o comprimento do intervalo é 40 então ǫ = 20.


Portanto
(20)2 (40)
σ2 = = 2956.451
2.3262

Intervalos Unilaterais
• Para um IC inferior é considerada a “probabilidade de µ estar no intervalo (−∞, x̄ + ǫ]”.
ǫ
P (µ ≤ X̄ + ǫ) = P (X̄ − µ ≥ −ǫ) = P (Z ≥ − √ )
σ/ n
= P (Z ≥ −zα ) = 1 − Φ(−zα ) = Φ(zα ) = 1 − α.

• Para um IC superior é considerada a “probabilidade de µ estar no intervalo [x̄ + ǫ, ∞)”.


ǫ
P (X̄ − ǫ ≤ µ) = P (X̄ − µ ≤ ǫ) = P (Z ≤ √ )
σ/ n
= P (Z ≤ zα ) = Φ(zα ) = 1 − α.

Exemplo 8.5 O tempo de duração de uma lampada tem uma distribuição Gaussiana com σ = 25
horas. Uma amostra de 20 lampadas têm uma duração média de 1014 horas.
1. Construir um IC bilateral com um nı́vel de confiança de 95 %
2. Construir um IC unilateral inferior com um nı́vel de confiança de 95 %.

Solução.-

1. Como 1 − α = 0.95 temos que α = 0.05. Logo obtemos Φ(z α2 ) = 1 − 0.025 = 0.975, donde
z α2 = 1.96.
Com isto
(1.96)(25)
ǫ= √ = 10.957
20
e o intervalo bilateral com um 95% de confiança é
IC = [1014 − 10.957, 1014 + 10.957] = [1003.0, 1025.0]

2. Como 1 − α = 0.95 = Φ(zα ) temos que zα = 1.65 Com isto


(1.65)(25)
ǫ= √ = 9.2238
20
e o intervalo unilateral inferior com um 95% de confiança é
IC = (−∞, 1014 + 9.2238] = (−∞, 1023.2]

114
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

8.1.2 X Gaussiana com variança σ 2 desconhecida


P
(xi −x̄)
Quando a variança σ 2 da população é desconhecida pode ser usado o estimador s2 = n−1 ea
variável aleatória T de student que é definida por

X̄ − µ
T = √
s/ n
A densidade desta variável aleatória é
n+1
!  − n+1
1 Γ 2 x2 2
fn (x) = √ +1 ,
πn Γ( n2 ) n

que é função par. A média e variança desta densidade, para n ≥ 3 são

E(X) = 0
n
V AR(X) =
n−2
Observe que para n grande V AR(X) ≈ 1 e assim esta distribuição T se aproxima da distribuição
Z. Por outro lado, denotando por ΦT (t) = P (T ≤ t) também observamos que ΦT (t) tem um
comportamento semelhante a Φ(z). Em particular

P (−t ≤ T ≤ t) = 2ΦT (t) − 1.

Os cálculos de s = ΦT (t) e sua inversa t = Φ−1T (s) podem ser realizados com software e tabelas.
No LibreOfficeCalc: s=t.dist(t;n-1;1) e para a inversa t=t.inv(s;n-1)
No Octave: s=tcdf(t,n-1) e para sua inversa t=tinv(s,n-1)
. Para o cálculo com Tabelas, é necessário considerar a função complementar QT (t) = 1 − ΦT (t) =
P (T ≥ t). Os valores das áreas s implementadas nas Tabelas tradicionais são s = QT (t, n − 1) e a
inversa é t = Q−1
T (s, n − 1).
A construção do IC onde a média µ possa estar é semelhante ao caso da variança σ 2 conhecida.

P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = P (−ǫ ≤ µ − X̄ ≤ ǫ) =
 
ǫ ǫ
= P (−ǫ ≤ X̄ − µ ≤ ǫ) = P − √ ≤T ≤ √
s/ n s/ n
Definindo
ǫ
t α2 ,n−1 = √
s/ n
temos a margem de erro
s
ǫ = t α2 ,n−1 √
n

115
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Donde
1 − α = P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = 2ΦT (t α2 ,n−1 ) − 1.
O cálculo de
t α2 ,n−1 = Φ−1
T (1 − α/2)

pode ser realizado com o comando t.inv(1- α2 ; n-1) do LibreOfficeCalc.

Exemplo 8.6 A media de uma amostra de notas de 40 alunos é 7.6 com uma variança amostral
de s2 = 8. Construir um intervalo de confiança de 98 %.

Solução.-
α
1 − α = 0.98, donde α = 0.02 e 1 − 2 = 0.99. Logo:
t α2 ,39 = t.inv(0.99; 39) = 2.42584
Com isto √
s 2.42584 8
ǫ = t α2 ,39 √ = √ = 1.084868
n 40
e portanto a média populacional µ esta no intervalo [6.51513137149238, 8.68486862850762] com um
98 % de confiança

Os casos Unilaterais são tratados semelhantemente aos da variança conhecida, com a substi-
tuição de zα por tα,n−1 .

8.2 Construir Intervalo de confiança para a variança σ 2


Para determinar um intervalo de confiança para a variança é usado a variável aleatória χ2 definida
por
(n − 1)s2
χ2 =
σ2
cuja densidade é um caso particular da densidade Gamma;
n x
x 2 −1 e− 2
fn (x) = n , x≥0
2 2 Γ( n2 )

Note-se que diferente das densidades Gaussiana e t-student esta densidade de χ2 não é simétrica. A
probabilidade acumulada y = Φχ2 (x) = P (χ2 ≤ x) e sua inversa x = Φ−1 χ2
(y) podem ser calculados
com software e tabelas.
No LibreOfficeCalc: y=chisq.dist(x;n-1;1) e para a inversa x=chisq.inv(y;n-1)
No Octave: y=chi2cdf(x,n-1) e para sua inversa x=chi2inv(y,n-1).
Para o cálculo com Tabelas, é necessário considerar a função complementar Qχ2 (x) = 1 − Φχ2 (x) =

116
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

P (χ2 ≥ x). Os valores das áreas y implementadas nas Tabelas tradicionais são y = Qχ2 (x, n − 1) e
a inversa é x = Q−1
χ2
(y, n − 1).
Caso bilateral
Desta vez o intervalo é determinado da seguinte maneira;

(n − 1)s2
 
2 2 2 2 2
{χ α ,n−1 ≤ χ ≤ χ1− α ,n−1 } ⇔ χ α ,n−1 ≤ ≤ χ1− α ,n−1
2 2 2 σ2 2
( )
1 σ2 1
⇔ ≥ ≥ 2
χ2α ,n−1 (n − 1)s2 χ1− α ,n−1
( 2 2
)
(n − 1)s 2 (n − 1)s 2
⇔ ≤ σ2 ≤
χ21− α ,n−1 χ2α ,n−1
2 2

O intervalo de confiança com um nı́vel de 1-α é determinado por


!
(n − 1)s2 (n − 1)s2
P (χ2α ,n−1 ≤ χ2 ≤ χ21− α ,n−1 ) = P ≤ σ 2
≤ = 1 − α.
2 2 χ21− α ,n−1 χ2α ,n−1
2 2

Exemplo 8.7 A variança amostral de 40 notas de alunos é 8. Com um 90% de confiança, calcular
o intervalo onde esta a variança populacional σ 2 .

α
Solução α = 0.1, então 2 = 0.05. Com isto:
(n−1)s2 39(8)
χ2
α
,39 =chisq.inv(0.05; 39)=25.69539; que implica χ2α ,n−1
= 54.57223 = 5.7172.
2
2
(n−1)s2 39(8)
Por outro lado, χ21− α ,39 =chisq.inv(0.95; 39)=54.57223 que implica χ21− α ,n−1
= 25.69539 =
2
2
12.14225
Portanto, com um 90 % de confiança, a variança populacional σ 2 está entre 5.7172 e 12.14225.
Caso unilateral  
2 2 2 (n−1)s2
Para o caso unilateral consideramos a equivalencia de eventos {χ ≥ χα,n−1 } ⇔ σ ≤ χ2
α,n−1
(n−1)s2
para afirmar que o limite superior da variança σ2, com um nı́vel de confiança de 1-α, é χ2α,n−1
.
Mais precisamente; !
(n − 1)s2
P σ2 ≤ = P (χ2 ≥ χ2α,n−1 ) = 1 − α
χ2α,n−1

Exemplo 8.8 Considere o Exemplo anterior das notas de 40 alunos. Calcular o limite superior
da variança sigma com o mesmo 90 % de confiança.

117
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Solução
Calculamos
χα,n−1 = chisq.inv(0.1;39)=28.1957851824004
39(8)
Portanto, o limite superior de σ 2 com um 90 % de confiança é 28.195786 = 11.06548

8.3 X com distribuição desconhecida, tamanho de amostra grande,


e variança σ 2 conhecida
Pela lei dos grandes números X̄ é aproximadamente Gaussiana X̄(µ, √σn ). Nesse caso também
obtemos um intervalo de confiança com

1 − α = 2Φ(z α2 ) − 1,
determinando z α2 com:
α
z α2 = Φ−1 (1 − ).
2

Exemplo 8.9 O IBOPE anuncia que um candidato tem 48 % das intenções de voto com uma
margem de erro de 2 pontos percentuais. As intenções de voto tem um desvio padrão σ de 50 pon-
tos percentuais. Qual deve ser a tamanho da amostra para os seguintes nı́veis de confiança 99%,
95% e 90%?

Para 99 % , z α2 = 2.58, para 95 % , z α2 = 1.96, e para para 95 % , z α2 = 1.65


zα σ
ǫ = √2
n
donde 2
z α2 σ

n=
ǫ
Com isto para o nı́vel de confiança de 99 % temos n = 4161, para o nı́vel de confiança de 95 %
temos n = 2401, e para o nı́vel de confiança de 90 % temos n = 1702,

8.4 Exercı́cios
1. No IC [x̄ − z α2 √σn , x̄ + z α2 √σn ], qual é o valor de z α2 que fornece 91 % de confiança?

Resposta: 1.6953

118
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

2. A amostra X = {1.89, 0.30, 1.53, 4.08, 3.10, −1.98, 3.2, 5.4, −0.39 − 2.51} foi obtida de uma
população com distribuição Gaussiana com σ = 3. Encontrar um IC para a média µ com um
99 % de confiança.
Resposta: [-0.9816, 3.9056]

3. Está sendo estudado a altura média da espuma produzido por um shampoo de uma certa
marca, em mm. Suponha que esta altura esteja normalmente distribuı́da com variança
σ 2 = 18. Calcular o tamanho da amostra para que o comprimento do IC seja de 4 mm,
com um nı́vel de confiança de 95 %.

Resposta: n=18

4. O comprimento de um IC de 98 % é 60 se o tamanho da amostra é 20 qual é a variança?


Resposta: 3326

119
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

120
Capı́tulo 9

Testes de Hipóteses

9.1 Testes de Hipóteses para a média µ


Ao invés de averiguar em que intervalo está a média populacional µ, neste caso é testado uma
hipótese ao respeito de µ.

9.1.1 X Gaussiana com variança σ 2 conhecida


Caso unilateral
É testada a hipótese H0 : µ = µ0 usando a média amostral x̄ e um nı́vel de significância α. O
nı́vel de significância α determina um limiar γ que divide a reta real em dois intervalos(regiões)
complementares R0 e R0c = R − R0 com µ0 ∈ R0 . Temos dois casos unilaterais:

• γ > µ0 que significa R0c = {x ≥ γ > µ0 }

• γ < µ0 que significa R0c = {x ≤ γ < µ0 }

A decisão tem dois resultados possı́veis:

• Aceitar H0 se x̄ ∈ R0

• Rejeitar H0 se x̄ ∈ R0c

A toma de decisão é acertada ou errada de acordo à seguinte itens

1. H0 é aceita quando H0 é verdadeira (decisão acertada).

2. H0 é rejeitada quando H0 é falsa (decisão acertada))

3. H0 é rejeitada quando H0 é verdadeira (decisão errada)

121
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

4. H0 é aceita quando H0 é falsa (decisão errada).


A decisão errada de rejeitar H0 quando H0 é verdadeira é chamado de Erro de Tipo I enquanto
que decisão errada de aceitar H0 quando H0 é falsa é chamada de Erro de Tipo II e requer o
conhecimento da verdadeira média µ = µ1 .
A probabilidade de erro de tipo I é igual ao nı́vel de significância α do teste, isto é,
α = P (erro tipo I)
Quando γ > µ0 , o erro α pode ser calculado de maneira precisa por:
   
X̄ − µ0 γ − µ0 γ − µ0
α = P (X̄ > γ | µ0 ) = P √ > √ =1−Φ √ = 1 − Φ(zα )
σ/ n σ/ n σ/ n
donde
γ − µ0
zα = √ .
σ/ n
Para o caso γ < µ0 o erro α é calculado por
α = Φ(zα ).

Exemplo 9.1 Existe um estimado que os ônibus de Alegrete que servem a linha Praça Central -
UNIPAMPA realizam esse trajeto em um tempo médio de 8.5 minutos com um desvio de 4 minutos.
Um grupo de estudantes da UNIPAMPA suspeita que esse tempo é maior. Para testar sua suspeita
eles vão realizar sua pesquisa com amostras de tamanhos 5, 10 e 30. Quais devem ser os limiares
γ para que erro do tipo I da sua conclusão (decisão) seja igual a 5%?

Solução.-
De α = 1 − Φ(zα ) obtemos
zα = Φ−1 (1 − α).
Para α = 0.05 obtemos com o LibreOfficeCalc
zα =norm.inv(0.95,0,1)
que fornece zα = 1.644853.

γ−µ
√0
Por outro lado, da fórmula zα = σ/ n
obtemos que
σ
γ = µ0 + zα √ .
n
(1.644853)(4)
Para n = 5 teremos γ = 8.5 + √
5
= 11.4424
(1.644853)(4)
Para n = 10 teremos γ = 8.5 + √
10
= 10.58
(1.644853)(4)
Para n = 30 teremos γ = 8.5 + √
30
= 9.70.

122
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Exemplo 9.2 Um fabricante de azulejos quer testar a hipótese de que em média a área das peças
é 230 cm2 com um desvio de 4 cm2 . Devido a reclamações de clientes, ele suspeita que a verdadeira
área média seja menor e testa sua suspeita, utilizando o limiar γ = 229. Calcular o erro do tipo I
para os casos em que n = 5, n = 10 e n = 30.

Solução.-
Para n = 5 temos
γ − µ0 229 − 230
zα = √ = √ = −0.5590
σ/ n 2/ 5
Do mesmo modo para n = 10, obtemos zα = −0.79055 e para n = 30 temos zα = −1.3650. Com
isto a probabilidade de rejeitar H0 , mesmo quando H0 está correto, para n = 5 é

α = Φ(−0.559) = 0.287740

enquanto que para n = 10 e n = 30 esses erros de tipo I são 0.214764 e 0.086915 respectivamente.

Exemplo 9.3 Uma companhia de produtos de limpeza esta produzindo um novo shampoo e tem
interesse na altura da espuma em mm. A altura da espuma esta normalmente distribuı́da e tem um
desvio padrão de 15 mm. A companhia testa H0 : µ = 96 mm contra H1 : µ > 96 mm utilizando a
média de de uma amostra de tamanho 10.

1. Calcular α se a região de rejeição é {x ; x > 102}

2. Calcular β se a média verdadeira é µ = 105 mm.

Sol.-

1.  
102 − 96
α = P (X̄ > 102) = P Z > √ = P (Z > 1.264911) = 1 − Φ(1.264911),
15/ 10
donde α = 0.1029.

2.  
102 − 105
β = P (X̄ ≤ 102 | µ1 ) = P Z ≤ √ = Φ(−0.6324),
15/ 10
donde β = 0.2635.

Exemplo 9.4 No Exemplo anterior, encontrar o valor crı́tico (limiar) γ se

1. α = 0.01 e n = 10

2. α = 0.05 e n = 10

123
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Sol.-
1.
α = P (X̄ > γ) = P (Z > zα ) = 1 − Φ(zα )
donde Φ(zα ) = 1 − α = 0.99. Portanto, zα = 2.34634. Finalmente
σ (2.32634)(15)
γ = µ0 + zα √ = 96 + √ = 107.0348
n 10
2.
α = P (X̄ > γ) = P (Z > zα ) = 1 − Φ(zα )
donde Φ(zα ) = 1 − α = 0.95. Portanto, zα = 1.644. Finalmente
σ (1.644)(15)
γ = µ0 + zα √ = 96 + √ = 103.8022
n 10

Para o cálculo do erro do tipo II considere a hipótese alternativa H1 : µ = µ1 > µ0 . Isto


significa que o limiar é γ > µ0 . Esta decisão equivocada acontece quando x̄ ∈ R0 , isto é, x̄ ≤ γ
quando H1 é verdadeira. Então se
β = P (erro do tipo II)
temos que
   
X̄ − µ1 γ − µ1 γ − µ1
β = P (X̄ ≤ γ | µ1 ) = P √ ≤ √ =Φ √ = Φ(zβ )
σ/ n σ/ n σ/ n
γ−µ
√1
donde zβ = σ/ n
é calculado como a solução da equação

β = Φ(zβ )
Se a hipótese alternativa H1 : µ = µ1 é tal que µ1 < µ0 então γ < µ0 e assim
β = 1 − Φ(zβ )

Exemplo 9.5 É conhecido que o desvio padrão da variável aleatória X=“preço de uma cesta básica
familiar com 60 itens” é de 42 reais. Dois grupos de pesquisa, A e B, fizeram dois levantamentos
independentes do custo médio desta cesta básica. Para o grupo A o preço médio foi de 256.2 reais
enquanto que para o grupo B este preço foi de 275 reais. Sabe-se que somente um dos grupos tem
o resultado correto. Um estudante decide testar qual deles esta correto e para isso trabalha com 3
amostras de tamanhos 5, 10 e 30. Calcular as probabilidade do estudante cometer ambos tipos de
erros, I e II, para cada uma dessas amostras.

124
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Solução.-
Para n = 5 temos
γ − µ0 260 − 256.2
zα = √ = √ = 0.20231
σ/ n 42/ 5
donde
α = 1 − Φ(zα ) = 1 − Φ(0.20231) = 1 − 0.579260 = 0.42074
Por outro lado;
γ − µ1 260 − 275
zβ = √ = √ = −0.7986
σ/ n 42/ 5
donde
β = Φ(zβ ) = Φ(−0.7986) = 0.211855
Para n = 10 calculamos que zα = 0.28611 donde α = 1 − Φ(0.28611) = 0.38974. Enquanto que
zβ = −1.1294 que implica que β = Φ(−1.1294) = 0.131357.
Para n = 30 calculamos que zα = 0.49556 donde α = 1 − Φ(0.49556) = 0.31207. Enquanto que
zβ = −1.9562 que implica que β = Φ(−1.9562) = 0.025588.

Ao invés de calcular zβ em função de µ1 , podemos calcular também zβ como função de µ0 . Para


isto é necessário considerar que o limiar deve ser tal que

µ0 < γ < µ1

Então, fazendo d = µ1 − µ0 obtemos µ1 = µ0 + d, logo



γ − µ1 γ − µ0 − d d n
zβ = √ = √ = zα −
σ/ n σ/ n σ

Portanto  √ 
d n
β = Φ zα − .
σ

Caso bilateral
É testada a hipótese nula H0 : µ = µ0 contra a hipótese H1 : µ 6= µ0 . Para isto é estabelecido dois
valores crı́ticos (limiares) γ1 , γ2 ,com γ1 < γ2 e simétricos respeito de µ0 , isto é
γ1 + γ2
µ0 = .
2
A reta real R é dividida em três regiões (intervalos) L1 = {x ; x < γ1 }, L2 = {x ; x > γ2 } e
R0 = {x ; γ1 ≤ x ≤ γ2 }. Temos que R0c = L1 ∪ L2 . A toma de decisão é feita com os seguinte
critérios:

125
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• Se a média amostral x̄ ∈ R0 então aceitar H0

• Se a média amostral x̄ ∈ R0c então rejeitar H0

O erro de decisão Tipo I acontece quando x̄ ∈ R0c , mesmo H0 correto, isto é x̄ < γ1 ou x̄ > γ2 .
A probabilidade deste erro é

α = P (x̄ ∈ R0c | µ0 ) = 1 − P (x̄ ∈ R0 | µ0 ) = 1 − P (γ1 ≤ X̄ ≤ γ2 |µ0 ) =


 
γ 1 − µ0 γ 2 − µ0
=1−P √ ≤Z≤ √
σ/ n σ/ n
γ2 −µ γ1 −µ γ1 +γ2
Se z α2 = √0
σ/ n
então −z α2 = √ 0,
σ/ n
isto porque µ0 = 2 . Logo

α = 1 − P (−z α2 ≤ Z ≤ z α2 ) = 1 − (2Φ(z α2 ) − 1) = 2(1 − Φ(z α2 ))

donde
α
Φ(z α2 ) = 1 −
2
Exemplo 9.6 A prefeitura de uma cidade tem uma estatı́stica antiga ao respeito do gasto em
transporte dos seus moradores. Segundo essa estatı́stica um morador, em média gasta 9.8 reais
com um desvio de 5 reais. A atual gestão dessa cidade decide testar se essa média de gastos ainda
tem validade.

• Se vai ser usado uma amostra de tamanho n = 30, quais devem ser os limiares para obter
uma probabilidade erro Tipo I de 0.1 %?

• Se no teste são utilizados os limiares 11 e 8.6 reais, de que tamanho deve ser a amostra para
que α seja igual a 0.15 %?

Solução.-

• α = 0.001 donde α2 = 0.0005, então Φ(z α2 ) = 1−0.0005 = 0.9995. Na tabela de Φ encontramos


que z α2 = 3.3.
Da formula z α2 = γσ/
2 −µ
√ 0 obtemos
n

zα σ (3.3)(5)
γ2 = µ0 + √2 = 9.8 + √ = 12.812
n 30
γ1 +γ2
Finalmente de µ0 = 2 obtemos que

γ1 = 2µ0 − γ2 = 2(9.8) − 12.812 = 6.788

126
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• α = 0.0015 donde α2 = 0.00075, então Φ(z α2 ) = 1 − 0.00075 = 0.99925. Na tabela de Φ


encontramos que z α2 = 3.18.
Da formula z α2 = γσ/
2 −µ
√ 0 obtemos que
n
2 2
z α2 σ
 
(3.18)(5)
n= = = 176
γ 2 − µ0 11 − 9.8

O erro de Tipo II é cometido quando se aceita H0 mesmo que H0 esteja incorreto (falso
positivo). Neste caso é necessária uma hipótese alternativa especı́fica H1 : µ = µ1 6= µ0 , suponha
µ1 > µ0 . Esta decisão equivocada acontece quando x̄ ∈ R0 , isto é, γ1 ≤ x̄ ≤ γ2 quando H1 é
verdadeira. A probabilidade deste erro é denotado por β e:
 
γ 1 − µ1 γ 2 − µ1
β = P (γ1 ≤ X̄ ≤ γ2 | µ1 ) = P √ ≤Z≤ √
σ/ n σ/ n
Chamando
γ 1 − µ1
zβ1 = √
σ/ n
e
γ 2 − µ1
zβ2 = √
σ/ n
temos que
β = Φ(zβ1 ) − Φ(zβ2 )
De modo semelhante ao caso unilateral, fazendo d = µ1 − µ0 , podemos calcular zβ1 e zβ2 em
função de µ0 e obter;  √   √ 
d n d n
β = Φ z α2 − − Φ −z α2 −
σ σ
Desta formula observamos que

d n
zβ1 = −z α2 − <0
σ
e Φ(zβ1 ) → 0 conforme α → 0. Por exemplo se α < 0.1 então z α2 > 1.64, donde zβ1 < −3 se

d n
σ > 1.36, ou seja para α < 0.1 é suficiente que
 σ 2
n > 1.84
d
d 2

Em aplicações na área de Telecomunicações a relaçãoé chamada de relação sinal-ruido
σ
2
(SNR) e normalmente seu valor em deciveis (dB) é positivo o que significa σd ≥ 1. Portanto,
para qualquer n ≥ 2 e α < 0.1 teremos Φ(zβ1 ) ≈ 0.

127
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica


Então podemos supor Φ(zβ1 ) = Φ(−z α2 − d σ n ) ≈ 0 e com isto
 √ 
d n
β ≈ Φ z α2 − = Φ(zβ2 ).
σ
Nestes casos é possı́vel aproximar β, para como se fosse unilateral, por

d n
zβ ≈ zβ2 = z α2 −
σ
Exemplo 9.7 No exemplo anterior dos gastos de transporte de uma cidade, suponha que o setor
de Estatı́sticas da atual gestão da Prefeitura suspeite que a média de gastos em transporte atual
seja de 12.5 reais.
• Se vai ser usado uma amostra de tamanho n = 30, com α = 0.001, qual é o erro de tipo II?
• Se no teste são utilizados os limiares 11 e 8.6 reais, de que tamanho deve ser a amostra para
que β seja igual a 0.15 %? Neste caso qual é o valor de α?

Solução.-

• Para α = 0.001, n = 30 obtivemos os limiares γ2 = 12.812 e γ1 = 6.78 donde z α2 = 3.3.


Calculamos a distancia entre as hipóteses: d = µ1 − µ0 = 12.5 − 9.8 = 2.7. Então
√ √
d n 2.7 30
zβ2 = z α2 − = 3.3 − = 0.34230
σ 5
e √ √
d n 2.7 30
zβ1 = −z α2 − = −3.3 − = −6.2577
σ 5
Portanto
β = Φ(0.34230) − Φ(−6.2577) = 0.63394 − 0.00000 = 0.63394
“O erro α = 0.001 é baixo mais e erro β = 0.63394 é alto”.
γ2 −µ
• Para β = 0.0015 obtemos zβ ≈ zβ2 = −2.96. Da formula zβ2 = √1
σ/ n
obtemos
 2  2
zβ σ (5)(2.96)
n= = = 98
γ 2 − µ1 1.5
Por outro lado √ √
d n 2.7 98
z = zβ2 +
α = −2.96 + = 2.3857
2 σ 5
α
Finalmente de 2 = 1 − Φ(z α2 ) obtemos
α = 2(1 − Φ(z α2 )) = 2(1 − Φ(2.3857)) = 2(1 − 0.991314) = 0.017372

128
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Para o caso µ1 < µ0 teremos claramente z2 = γσ/ 2 −µ


√ 1 > pois γ2 > µ0 > µ1 . Também é prático
n
estabelecer que γ1 > µ1 , com isto também z2 > z1 > 0, daı́ é suposto que Φ(z2 ) ≈ 1

β = P (z1 ≤ Z ≤ z2 ) = Φ(z2 ) − Φ(z1 ) ≈ 1 − Φ(z1 )

donde
γ 1 − µ1
zβ = z1 = √
σ/ n
é calculada com
1 − β = Φ(zβ ).

Exemplo 9.8 Um relatório de empresa fornecedora de energia elétrica da região sul-oeste do RS


indica que em média o consumo de energia por usuário é de 68.5 KW-hora, a cada mês com um
desvio de 25 KW-hora. Um pesquisador acredita que este consumo é menor, de 65 KW-hora,
e para testar sua suspeita, ele vai usar um limiar de 66 KW-hora. Calcular a probabilidade do
pesquisador cometer erro do tipo II se ele testa sua hipótese com os seguintes tamanhos de amostra:
n = 5, 10, 30.

Solução.-
Para n = 5 temos
γ − µ1 66 − 65
zβ = √ = √ = 0.089443
σ/ n 25/ 5
donde
β = 1 − Φ(zβ ) = 1 − Φ(0.089443) = 1 − 0.464148 = 0.53585
Para n = 10 e n = 30 temos zβ = 0.12649 e zβ = 0.21909, respectivamente. Os erros de tipo II
para esse casos são
β = 1 − Φ(0.12649) = 1 − 0.547758 = 0.45224
e
β = 1 − Φ(0.21909) = 1 − 0.587064 = 0.41294.

Exemplo 9.9 Amplitudes, em volts, de sinais recepcionados num sistema de comunicações tem
distribuição Gaussiana. A amplitude do sinal 1 tem média -2 volt e desvio 1.8 volts. A amplitude
do sinal 2 tem média +2 volt e 1.8 de desvio. Estamos interessados em determinar se um pacote
de amplitudes de sinais recepcionados corresponde ao sinal 1 (Hipótese nula: H0 ). Se a região de
aceitação é {x ; x ≤ 0}

1. Qual deve ser o tamanho de n para que α = 0.01?

2. Qual deve ser o tamanho de n para que β = 0.0015

Sol.-

129
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

1. α = 0.01 implica Φ(zα ) = 1 − α = 0.99, donde zα = 2.33.


γ−µ
√ 0 obtemos
Por outro lado de zα = σ/ n
 2  2
zα σ (2.33)(1.8)
n= = = 4.3974
γ − µ0 0 − (−2)
donde n = 5;
2. Se β = 0.0015, então zβ = −2.96. Daı́;
2 
(−2.96)(1.8) 2
 
zβ σ
n= = = 7.0969
γ − µ1 0−2
donde n = 8.

9.1.2 Valor p de uma média amostral x̄


A hipótese nula H0 : µ = µ0 também pode ser testada com o valor p de uma média amostral x̄.
Para o caso unilateral H0 : µ = µ0 versus H1 : µ > µ0 temos
   
x̄ − µ0 x̄ − µ0
p = P (X̄ ≥ x̄|µ0 ) = P Z ≥ √ =1−Φ √
σ/ n σ/ n
x̄−µ
√0
Denotando z0 = σ/ n
temos
 
x̄ − µ0
p = P (X̄ ≥ x̄|µ0 ) = P Z≥ √ = 1 − Φ(z0 )
σ/ n
Para o caso unilateral H0 : µ = µ0 versus H1 : µ < µ0 temos
 
x̄ − µ0
p = P (X̄ ≤ x̄|µ0 ) = P Z ≤ √ = Φ(z0 )
σ/ n
Para o caso bilateral H0 : µ = µ0 versus H1 : µ 6= µ0 , supondo x̄ ≥ 0, temos
 
x̄ − µ0
{|X̄| < x̄} ⇐⇒ |Z| < √
σ/ n
donde

p = P (|X̄| ≥ x̄|µ0 ) = 1 − P (−z0 ≤ Z ≤ z0 ) = 1 − (Φ(z0 ) − Φ(−z0 )) = 2(1 − Φ(z0 ))


Em todos os casos a toma de decisão é:

Aceita H0 se p está próximo de 1


Rejeita H0 se p está próximo de 0

130
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

9.1.3 X com distribuição desconhecida, tamanho de amostra grande, e variança


σ 2 conhecida
Pelo Teorema central do limite X̄ é aproximadamente Gaussiana X̄(µ, √σn ).

9.1.4 X Gaussiana com variança σ 2 desconhecida


Neste caso a análise é feita utilizando a distribuição T de student.

9.2 Teste de hipótese para a variança


Neste caso é utilizado a distribuição χ2

9.3 Exercı́cios
1. Startups da área da informática produzem aplicativos para smartphones que reportam inci-
dentes policiais a uma central da prefeitura de uma grande cidade. Devido a problemas de
segurança e melhorias nos algoritmos, novas versões destes aplicativos (upgrades) devem ser
lançadas a cada certo tempo. Suponha, esse tempo inter-versões dos aplicativos está nor-
malmente distribuı́do com um desvio padrão de 1.8 semanas. A prefeitura interessada nestes
aplicativos testa H0 : µ = 3.2 semanas contra H1 : µ > 3.2 semanas, utilizando uma amostra
de 10 versões.

(a) Calcular α se a região de rejeição é {x ; x > 4.5}


(b) Calcular β se a média verdadeira é µ = 5.4 semanas.

Respostas: a) 0.011189; b) 0.05692

2. Na questão anterior, encontrar o valor crı́tico (limiar) γ se

(a) α = 0.01 e n = 10
(b) α = 0.05 e n = 10

Respostas: a) 4.5241; b) 4.1362

131
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

132
Capı́tulo 10

Apendice: Algumas demonstrações

10.1 A função Γ e suas aplicações em estatı́stica


Neste capı́tulo, além de Z(0, 1) que a distribuição Gaussiana de média 0 e variança 1, também
utilizaremos a distribuição T de “Student” e a “CHI-QUADRADO”. Ambas estão relacionadas
com a distribuição Gaussiana e a função Gamma:
Z∞
Γ(x) = t(x−1) e−t dt
0

Esta função possui muitas propriedades entre elas



Γ(1) = 1


Γ(x + 1) = xΓ(x)
um consequência disto é que Γ(n + 1) = n!


 
1
Γ = π
2
A função Γ permite definir a distribuição Gamma cuja densidade é
λ(λx)α−1 e−λx
f (x) = , 0≤x≤∞
Γ(α)
R∞
Integramos o numerador de f (x) fazendo a mudança t = λx então obteremos 0 λ(λx)α−1 e−λx dx =
Γ(α), que mostra que f (x) é uma densidade de probabilidade.

133
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Pode ser calculado a média e variança


α
E(X) =
λ

α(α + 1)
E(X 2 ) =
λ2
α
V AR(X) = 2
λ

10.1.1 A densidade de probabilidade χ2


Na densidade Gamma, se α = k/2 e λ = 1/2 teremos
k x
x 2 −1 e− 2
f (x) = k
2 2 Γ k2


Esta densidade de probabilidade é chamada de “chi-quadrado” com k graus de liberdade. Para


k = 1, 2, 3, 4, 5, 6 temos as seguintes formas da densidade chi-quadrado

k Subst. Direta f (x)


1 x x
x 2 −1 e− 2 e− 2
1 1 1

2πx
( )
22 Γ 2
2 x
x 2 −1 e− 2 1 − x2
2 2 2e
2 2 Γ 22
( )
3 x √ −x
x 2 −1 e− 2 xe 2
3 3 3


( )
22 Γ 2
4 x x
x 2 −1 e− 2 xe− 2
4 4 4
2 2 Γ 42
( )
5 x 3 x
x 2 −1 e− 2 x 2√e− 2
5 5 5 3 2π
( )
22 Γ 2
6 x x
x 2 −1 e− 2 x2 e− 2
6 6 16
2 2 Γ 62
( )

Neste caso, também podemos calcular a média e variança

E(X) = k

E(X 2 ) = k(k + 2)

V AR(X) = 2k

134
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

10.1.2 Densidade da variável aleatória soma de quadrados Gaussianos


Considere a variável aleatória
U = X12 + X22 + · · · + Xn2 ,

onde as Xi são independentes e cada Xi é gaussiana Z(0, 1) (média zero e variância um). Mos-
traremos que que U tem uma densidade de probabilidade chi-quadrado com n-graus de liberdade.
Começamos esta prova indutiva com o caso n = 1, onde U = X 2

Zu
√ √ 1 t2
F (u) = P (U ≤ u) ⇔ P (X 2 ≤ u) ⇔ P (− u ≤ X ≤ u) = √ e− 2 dt
√ 2π
− u
√ √
= Φ( u) − Φ(− u))

∂F (u)
Logo, a densidade f (u) = ∂u é
u
e− 2
   
′ √ 1 ′ √ −1
f (u) = Φ ( y) √ − Φ (− y) √ =√ ,
2 u 2 u 2πu

que é idêntico à densidade χ2 de grau 1



Para n = 2 onde U = X 2 +Y 2 , seja Ru a região do circulo de raio u, isto é, Ru = {x2 +y 2 ≤ u}
ZZ   
2 2 1 x2 1 y2
F (u) = P (U ≤ u) ⇔ P (X + Y ≤ u) ⇔ √ e− 2 √ e− 2 dydx
2π 2π
Ru
1
ZZ
x2 +y 2
= e− 2 dydx

Ru

Utilizando coordenadas polares, temos que


√ √
2π u u
1
Z Z 2
Z
r2
− r2
F (u) = re dθdr = re− 2 dr
2π 0 0 0

∂F (u)
Logo, a densidade f (u) = ∂u é
√ −u
−u √ ′ ue 2 1 u
= e− 2 ,
p
f (u) = (u)e 2 ( u) = √
2 u 2

que é idêntico à densidade χ2 de grau 2.

135
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica


Para n = 3 onde U = X 2 + Y 2 + Z 2 , seja Su a esfera de raio u, isto é, Su = {x2 + y 2 + z 2 ≤ u}
ZZZ    
2 2 2 1 x2 1 − y2 1 − z2
F (u) = P (U ≤ u) ⇔ P (X +Y +Z ≤ u) ⇔ √ e− 2 √ e 2 √ e 2 dzdydx
2π 2π 2π
Su
1
ZZZ 2 2 2
− x +y2 +z
= e dzdydx
(2π)3/2
Su

Utilizando coordenadas esféricas, temos que


√ √
2π π u π u
1 1
Z Z Z 2
Z Z
ρ2
2 − ρ2
F (u) = ρ e sin φdρdφdθ = √ sin φdφ ρ2 e− 2 dρ
(2π)3/2 0 0 0 2π 0 0

u
2
Z
ρ2
=√ ρ2 e− 2 dρ
2π 0

∂F (u)
Logo, a densidade f (u) = ∂u é
√ −u
√ √
 
2 u 2 u 1 ue 2
f (u) = √ (ue− 2 )( u)′ = √ (ue− 2 )( u)′ √ = √ ,
2π 2π 2 u 2π

que é idêntico à densidade χ2 de grau 3.

10.2 Distribuição de Poisson, distribuição exponencial e distri-


buição Gamma
Considerar um processo em que sejam contados numero de [ocorrências] por [unidade de tempo]
e seja λ [ocorr/seg] a taxa média destas ocorrências. Considere a variável aleatória X=“numero
de ocorrências em t segundos”. Observar que X = {0, 1, 2, . . . } então a distribuição de Poisson é
definida por
(λt)k
P (X = k) = e−λt
k!
Agora considere as variáveis aleatórias :

• T0 =“número de segundos até a primeira ocorrência”, temos a equivalência de eventos

{T0 > t} ⇔ {X = 0}.

• T1 =“número de segundos até a segunda ocorrência”, temos a equivalência de eventos

{T1 > t} ⇔ {X = 0} ∪ {X = 1}.

136
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

• T2 =“número de segundos até a terceira ocorrência”, temos a equivalência de eventos

{T2 > t} ⇔ {X = 0} ∪ {X = 1} ∪ {X = 2}.

• Em geral; Tk =“número de segundos até a k + 1 ocorrência”, temos a equivalência de eventos


k
[
{Tk > t} ⇔ {X = k}.
i=0

Para as probabilidades temos

• P (T0 > t) = P (X = 0) = e−λt , donde a CDF de T0 é F (t) = P (T0 ≤ t) = 1 − e−λt que é a


distribuição exponencial pois F ′ (t) = f (t) = e−λt .

• P (T1 > t) = P (X = 0) + P (X = 1) = e−λt (1 + λt), donde a CDF de T1 é F (t) = P (T1 ≤


t) = 1 − e−λt (1 + λt) cuja densidade é F ′ (t) = f (t) = λ2 te−λt .
2 2
• P (T2 > t) = P (X = 0) + P (X = 1) + P (X = 2) = e−λt (1 + λt + λ 2t ), donde a CDF de T2 é
2 2 3 2
F (t) = P (T2 ≤ t) = 1 − e−λt (1 + λt + λ 2t ) cuja densidade é F ′ (t) = f (t) = λ 2t e−λt .

• Em geral para a VA Tn temos; P


i i
P (Tk > t) = 1 − P (Tk ≤ t) = 1 − ki=0 P (X = i) = 1 − ki=0 e−λt λi!t ), donde a CDF de T2 é
P

k k
X λi t i X λi ti
F (t) = P (T2 ≤ t) = 1 − e−λt ) = 1 − e−λt )
i! i!
i=0 i=0

λk+1 tk −λt
cuja densidade é F ′ (t) = f (t) = k! e .

Para cada k = 0, 1, 2, . . . ; pode-se verificar por indução que


Z∞
λk+1 tk −λt
e dt = 1
k!
0

Mas uma maneira simples de verificar isto é reconhecendo que a VA Tk é um caso particular da VA
Gamma de parâmetros α, λ que tem densidade

λ(λx)α−1 e−λx
f (x) = ,
Γ(α)
onde para Tk , o parâmetro α = k + 1.

137
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

10.3 Software Octave


Os comandos são normpdf(x, µ, σ) para a densidade f (x) de X(µ, σ). Para o acumulado é normcdf(x, µ, σ).
Para inversa é norminv(a,µ,σ)=x onde a = P (X ≤ x).
• Calculando P (1 ≤ X ≤ 4) para X(6, 2) com o comando normcdf

normcdf(4,6,2)-normcdf(1,6,2)

• Calculando P (−2.5 ≤ Z ≤ −1) para Z(0, 1) com o comando normcdf

normcdf(-1,0,1)-normcdf(-2.5,0,1)

• Calcular x tal que P (x ≤ X ≤ 7) = 0.8 para X(2, 3) com o comando norminv Temos que
0.8 = P (X ≤ 7) − P (X ≤ x) donde P (X ≤ x) = F (x) = P (X ≤ 7) − 0.8 = normcdf(7,2,3)-0.8
0.9522-0.8= 0.1522. Logo
x = F −1 (0.1522) = norminv(0.1522,2,3) = -1.0811.
R4 2 /8
• Calculando a integral P (1 ≤ X ≤ 4) = √1
2 2π
e−(x−6) dx
1

f=@(x) (1/sqrt(8*pi))*exp(-(x-6).^2/8);
I=quad(f,1,4)

−1
2 /2
• Calculando a integral P (−2.5 ≤ Z ≤ −1) = √1 e−z
R

dz
−2.5

f=@(z) (1/sqrt(2*pi))*exp(-z.^2/2);
I=quad(f,-2.5,-1)

Rx
• Calculando com a função erro erf(x)= √2π 0 exp(−t2 )dt que corresponde a distribuição Gaus-
siana X(0, √12 ). Pela simetria erro erf(x) = P (−x ≤ X ≤ x). O comando erf e seu comple-
mentar erfc aparecem ainda em muitos softwares. A equação que justifica a formula de erf
é  
1 x 1
Φ(x) = erf √ +
2 2 2
onde Φ(x) é o acumulado da distribuição Gaussiana padronizada.

0.5*erf(-1/sqrt(2))-0.5*erf(-2.5/sqrt(2))

138
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

10.4 Esperança e Variança para distribuição uniforme de uma


variável uniformemente espalhada

Para o caso geral de uma variável aleatória X = {a, a + ∆, a + 2∆, . . . , a + n∆} com n + 1
pontos e igualmente espaçadas e que tenha distribuição de probabilidade uniforme, teremos
que b = a + n∆ que é equivalente a dizer b − a = n∆.
Temos
Pn
(a + i∆)
i=0
E(X) =
n+1
Calculamos
n    
X n(n + 1) b−a a+b
(a + i∆) = a(n + 1) + ∆ = (n + 1) a + = (n + 1)
2 2 2
i=0

donde
a+b
E(X) = .
2
Para obter uma formula da variança E((X − µX )2 ) consideremos
 
a+b b−a n
xi − µX = a + i∆ − = i∆ − = ∆(i − )
2 2 2

Disto
n2
 
2 2 2
(xi − µX ) = ∆ i − in +
4
e o somatório
n
n(n + 1)(2n + 1) n(n)(n + 1) n2 (n + 1)
   
X
2 2 2 n+2
(xi − µX ) = ∆ − + = ∆ n(n + 1)
6 2 2 12
i=0

portanto a variança
n
(xi − µX )2
P
i=0 ∆2 (n)(n + 2) (∆n)2 + 2n∆2 (b − a)2 + 2(b − a)∆
VAR(X) = = = =
n+1 12 12 12
Alguns autores preferem escrever

(b − a + ∆)2 − ∆2
VAR(X) =
12

139
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica

Poderı́amos também ter obtido esta formula partindo de VAR(X) = E(X 2 )−µ2X . Finalmente,
note-se que neste caso de distribuição uniforme com dados xi igualmente espaçados:
A Esperança é o ponto médio de a e b, e no depende do número de pontos n
A variança depende se a, b e o espaçamento ∆, e também não depende do número de pontos
n.

140

Você também pode gostar