Apostila

UNIVERSIDADE FEDERAL DO PAMPA
UNIPAMPA
APOSTILA DE PROBABILIDADES E
ESTATÍSTICA - v0.9
Autor: Prof. Jorge P. Arpasi.
Apostila com material de apoio à disciplina de

Probabilidades e Estatı́stica da UNIPAMPA -
Campus Alegrete
Dezembro - 2022
Alegrete - RS
Jorge P Arpasi: Material de apoio Probabilidades e Estatı́stica
2
Conteúdo
1 Preliminares 5
P
1.1 O somatório Sigma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Conjuntos finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Cardinalidade e distribuição dos subconjuntos em P(A) . . . . . . . . . . . . 9
1.2.3 Conjuntos infinitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Técnicas de contagem para conjuntos finitos . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Fatorial n! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 n-uplas, arranjos e combinações . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Cálculo de permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Cálculo de combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.5 Exemplos de aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Probabilidades 15
2.1 Experimento Aleatório, Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . 15
2.2 Regra da Adição e Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Probabilidade Total e Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Outros Exemplos Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Análise completa de um canal binário através de um experimento . . . . . . . 26
2.5.2 Extração de três bolas sem reposição . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.3 Extração de bolas com reposição . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Variáveis Aleatórias Discretas e Distribuições de Probabilidade 33

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Cálculo de Probabilidades, Média e Variança . . . . . . . . . . . . . . . . . . 35
3.2 Distribuição de Probabilidade Acumulada . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Modelos de Distribuições Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1
3.3.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.2 Distribuição Binomial (n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.3 Distribuição de Poisson α = λt . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Variáveis Aleatórias Continuas e Distribuições de Probabilidade 53

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Cálculo da Média e Variança . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Modelos de Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.2 Distribuição Gaussiana ou Normal . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.3 Cálculo de probabilidades em X(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . 60
4.3.4 Cálculo de erros com as funções Q e Φ . . . . . . . . . . . . . . . . . . . . . . 63
4.3.5 Aproximação da distribuição binomial pela distribuição Gaussiana . . . . . . 64
4.3.6 A distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Funções de uma variável aleatória Y = g(X) . . . . . . . . . . . . . . . . . . . . . . . 65
4.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 Distribuições de Probabilidade Conjuntas 67

5.1 Variáveis aleatórias conjuntas XY e distribuição conjunta fXY (x, y) . . . . . . . . . 67
5.1.1 Variáveis Aleatórias Marginais X, Y e suas distribuições fX (x), fY (y) . . . . 70
5.2 Covariância σXY e ı́ndice de correlação ρXY . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Distribuições de probabilidade e densidade condicionais . . . . . . . . . . . . . . . . 75
5.3.1 Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.2 Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4 Aplicações da covariança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Covariância de aX e bY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Variável soma Z = X + Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.3 A variável média amostral X̄ = n1 ni=1 Xi . . . . . . . . . . . . . . . . . . . .
P
79
5.4.4 Distribuições fZ (z) e fZ|x (z) = f (z|x) para Z = Y + Y . . . . . . . . . . . . 79
5.4.5 Covariância e Correlação COV (X, Z) onde Z = X +Y e X, Y são independentes 82
5.5 Canal binário com ruı́do aditivo Z = X + Y . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.1 Canal Gaussiano (AWGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.5.2 Deteção ML (Maximum Likelihood) Máxima Verossimilhança . . . . . . . . . 84
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6 Estatı́stica descritiva 87
6.1 Parâmetros que resumem os dados amostrais . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Organização e apresentação gráfica dos dados amostrais . . . . . . . . . . . . . . . . 89
2
6.2.1 Caso discreto: amostra grande com muitos dados repetidos . . . . . . . . . . 89

6.2.2 Caso contı́nuo: amostra grande com poucos dados repetidos . . . . . . . . . . 93
6.2.3 Cálculo aproximado da média x̄ e variança amostral s2 . . . . . . . . . . . . . 93
6.3 Diagramas de Dispersão e Correlação de dados Estatı́sticos . . . . . . . . . . . . . . 97
6.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7 Estimação de parâmetros 103

7.1 Estimador não tendencioso da variança . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2 Estimador de Máxima Verosimilitude . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.1 Estimador do parâmetro de proporção p de uma VA de Bernoulli . . . . . . . 106
n
7.3 Propriedades da média amostral X̄ = n1
P
Xi . . . . . . . . . . . . . . . . . . . . . . 107
i=1
8 Intervalos de Confiança 111

8.1 Construir Intervalos para a média µ . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.1.1 X Gaussiana e variança σ 2 conhecida . . . . . . . . . . . . . . . . . . . . . . 111
8.1.2 X Gaussiana com variança σ 2 desconhecida . . . . . . . . . . . . . . . . . . . 115
8.2 Construir Intervalo de confiança para a variança σ 2 . . . . . . . . . . . . . . . . . . . 116
8.3 X com distribuição desconhecida, tamanho de amostra grande, e variança σ 2 conhecida118
8.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9 Testes de Hipóteses 121

9.1 Testes de Hipóteses para a média µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1.1 X Gaussiana com variança σ 2 conhecida . . . . . . . . . . . . . . . . . . . . . 121
9.1.2 Valor p de uma média amostral x̄ . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.1.3 X com distribuição desconhecida, tamanho de amostra grande, e variança σ 2
conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.1.4 X Gaussiana com variança σ 2 desconhecida . . . . . . . . . . . . . . . . . . . 131
9.2 Teste de hipótese para a variança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10 Apendice: Algumas demonstrações 133

10.1 A função Γ e suas aplicações em estatı́stica . . . . . . . . . . . . . . . . . . . . . . . 133
10.1.1 A densidade de probabilidade χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.1.2 Densidade da variável aleatória soma de quadrados Gaussianos . . . . . . . . 135
10.2 Distribuição de Poisson, distribuição exponencial e distribuição Gamma . . . . . . . 136
10.3 Software Octave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4 Esperança e Variança para distribuição uniforme de uma variável uniformemente
espalhada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3
4
Capı́tulo 1
Preliminares
P
1.1 O somatório Sigma
Suponha que temos os números {x1 , x2 , x3 } então a somatória dos três elementos é dado por
3
X
xi = x1 + x2 + x3
i=1
Algumas propriedades da somatória são

Pn Pn
1. i=1 cxi = c i=1 xi .
Pn Pn Pn
2. i=1 xi + yi = i=1 xi + i=1 yi .
Pn Pn
3. i=1 c = nc. Em geral, i=k c = (n − k + 1)c
Outras propriedades de potências de números naturais de muita utilidade são

Pn n(n+1)
1. i=1 i = 2
Pn 2 n(n+1)(2n+1)
2. i=1 i = 6
Pn 3 n2 (n+1)2
3. i=1 i = 4
Exemplo 1.1 Calcular 8i=1 i, 9i=1 i2 , 7i=1 i3 , e 12 3 2

P P P P
k=1 (2k − 3k + k − 3)
i = 8(8+1) = (8)(9)
P8
= 36
Pi=1 2
9(9+1)(18+1)
2
9 2
i = = (9)(10)(19) = 285
Pi=1
7 3
2
7 (7+1)
6
2 (49)(64)
6
i=1 i = 4 = 4 = 784
(12)2 (13)2
− 3 (12)(13)(25)
P12 3 2
P 12 3
P12 2 P12 P12
k=1 (2k − 3k + k − 3) = 2 k=1 k − 3 k=1 k + k=1 k − k=1 3 = 2 4 6 +
12(13)
2 − 12(3) =2(6084) − 3(650) + 78 − 36 = 10260
5
Exemplo 1.2 Considere os conjuntos de dados xi da Tabela 1.1 e da Tabela 1.2
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
8 4.6 -7.1 0 3.4 3.7 -6.1 5 7 4
Tabela 1.1: Conjunto de dados X
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
1 4.1 4.1 -3 -2.4 -6.7 5.2 -0.2 0.3 7
Tabela 1.2: Conjunto de dados Y
então calcular
P10
1. i=1 xi ,
P10
2. i=1 yi ,
P10
3. i=3 xi ,
P10
4. i=2 (xi + yi ),
P10 2
5. i=1 (xi − 2yi2 ),
P10 3
6. j=2 (xj + 5yj2 + 1),
P4
7. k=3 (2xk + k 2 + 2),
P4 3
8. i=1 (xi + 3x2i − 3k),
P10 3
9. i=1 (xi − 21x2i + 3xi − i2 ),
P10 4
10. i=1 (yi − 32yi2 + 5yi − 9 + i3 − 2)
P10 3
11. i=1 (xi − 3yi + 7i2 + i − 2),
P10 5
12. i=1 (xi − 21x2i yi3 + 3xi yi2 − 2)
P10 3
13. + i2 − i − 2)
i=1 (xi
P10 P10
i=1 xi + 3 yi x2i
14. P10
i=1 cos(xi )
6
Tabela 1.3: Organização de dados Exemplo 1

xi yi x2
i x3
i x4
i x5
i yi2 yi3
8.0 1.0 64.00 512.000 4096.0000 32768.0000 1.00 1.000
4.6 4.1 21.16 97.336 447.7456 2059.6298 16.81 68.921
-7.1 4.1 50.41 -357.911 2541.1681 -18042.2935 16.81 68.921
0.0 -3.0 0.00 0.000 0.0000 0.0000 9.00 -27.000
3.4 -2.4 11.56 39.304 133.6336 454.3542 5.76 -13.824
3.7 -6.7 13.69 50.653 187.4161 693.4396 44.89 -300.763
-6.1 5.2 37.21 -226.981 1384.5841 -8445.9630 27.04 140.608
5.0 -0.2 25.00 125.000 625.0000 3125.0000 0.04 -0.008
7.0 0.3 49.00 343.000 2401.0000 16807.0000 0.09 0.027
4.0 7.0 16.00 64.000 256.0000 1024.0000 49.00 343.000
P P P 2 P 3 P 4 P 5 P 2 P 3
xi = yi = xi = xi = xi = xi = yi = yi =
22.5 9.4 288.03 646.401 12072.5475 30443.16705 170.44 280.882
Tabela 1.4: Organização de dados Exemplo 1 (Cont.)

xi yi yi4 yi5 x2 3
i yi xi yi2
8.0 1.0 1.0000 1.0000 64.0000 8.000
4.6 4.1 282.5761 1158.5620 1458.3684 77.326
-7.1 4.1 282.5761 1158.5620 3474.3076 -119.351
0.0 -3.0 81.0000 -243.0000 0.0000 0.000
3.4 -2.4 33.1776 -79.6262 -159.8054 19.584
3.7 -6.7 2015.1121 -13501.2511 -4117.4455 166.093
-6.1 5.2 731.1616 3802.0403 5232.0237 -164.944
5.0 -0.2 0.0016 -0.0003 -0.2000 0.200
7.0 0.3 0.0081 0.0024 1.3230 0.630
4.0 7.0 2401.000 16807.0000 5488.0000 196.000
P P P 4 P 5 P 2 3 P
xi = yi = yi = yi = xi yi = xi yi2 =
22.5 9.4 5827.6132 9103.28914 11440.57174 183.538
Organizamos os dados conforme os requerimentos de potências n nas Tabelas 1.3 e 1.4 para
depois usar as propriedades do somatório.
P
P10A seguir usando as propriedades do somatório resolveremos
3 2
i=1 (xi − 21xi + 3xi − 2). Os outros somatórios deixamos para o leitor.
P10 3
P10 3 P10 2 P10 P10
i=1 (xi − 21x2i + 3xi − 2) = i=1 xi − 21 i=1 xi + 3 i=1 xi − i=1 2
= 646.401 − 21(288.03) + 3(22.5) − 10(2)
= −5354.7
Todos estes somatórios podem ser ser resolvidos usando planilhas eletrônicas. Nesse caso as pro-
priedades de somatório não tem muita utilidade.
1.2 Conjuntos
Conjunto é uma coleção de objetos com a única restrição de que o conjunto não pode ser elemento
dele mesmo. Cada objeto é chamado de elemento do conjunto. Cardinalidade de um conjunto é
7
o número de elementos que possui o mesmo. Ela pode ser finita ou infinita. Alguns exemplos de
conjuntos são:
• A = {a, b, c, d}, é um conjunto com cardinalidade 4.
• B= Conjunto de alunos da UNIPAMPA; conjunto com cardinalidade não determinada, mas

finita
• C={x ∈ A tal que x nasceu em SC}, conjunto com cardinalidade não determinada mas finita
• N={1, 2, 3, . . . }, Conjunto dos números naturais, conjunto com cardinalidade infinita.
O conjunto vazio φ é o conjunto que não possui elementos, a cardinalidade de φ é zero. A

cardinalidade de um conjunto finito A é denotado por
|A|=cardinalidade de A
ou também
#A=cardinalidade de A
1.2.1 Conjuntos finitos

Um conjunto é finito quando possui sua cardinalidade é finita. Isto significa que existe um número
n tal que |A| = n ou podemos escrever explicitamente seus elementos A = {a1 , a2 , . . . , an }.
É claro que todo subconjunto de um conjunto finito, também é finito.
Um conjunto associado a conjuntos finitos é o “conjunto potência”. O conjunto potência de A
denotado por P(A) é o conjunto de todos os subconjuntos de A, isto é,
P(A) = {subconjuntos de A}.
Algumas vezes este conjunto é também chamado de “partes de A”.
Exemplo 1.3 Seja A = {a, b, c}, então P(A) = {φ, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, A}
Exemplo 1.4 Seja A = {a, b, c, d}, então P(A) = {φ, {a}, {b}, {c}, {d}, {a, b}, {a, c}, {a, d},
{b, c}, {b, d}, {c, d}, {a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, A}
8
1.2.2 Cardinalidade e distribuição dos subconjuntos em P(A)

Teorema 1.1 Suponha que |A| = n então |P(A)| = 2n distribuı́dos de acordo a seus pesos
Pelo binômio de Newton temos que
n
X
(a + b)n = C(n, k)ak bn−k ,
k=0
n!
onde C(n, k) = é a combinatória n de k. Se a = 1 e b = 1, substituindo no binômio de
(k!)(n − k)!
Newton teremos
X n Xn
n n k n−k
2 = (1 + 1) = C(n, k)1 1 = C(n, k).
k=0 k=0
Alguns exemplos:
1. Para n = 3, 23 = 8 distribuı́dos assim
8 = C(3, 0) + C(3, 1) + C(3, 2) + C(3, 3) = 1 + 3 + 3 + 1.
2. Para n = 4, 24 = 16 distribuı́dos assim

16 = C(4, 0) + C(4, 1) + C(4, 2) + C(4, 3) + C(4, 4) = 1 + 4 + 6 + 4 + 1.
Exemplo 1.5 Um exemplo importante de aplicação são as strings binárias a1 a2 . . . an , ai ∈ {0, 1},
de comprimento n
Definindo como peso de uma string como sendo o número de uns que possui, isto é w(a1 a2 . . . an )=
número de uns. Por exemplo w(10001) = 2, w(1111111) = 7,etc. Temos que os pesos estão dis-
tribuı́dos obedecendo os coeficientes combinatórios. Para o caso n = 4, teremos 16 palavras binárias
de comprimento 4, distribuidas assim
C(4, 0)=1 palavra de peso 0: 0000
C(4, 1)= 4 palavras de peso 1: 1000, 0100, 0010, 0001,
C(4, 2)= 6 palavras de peso 2: 1100, 0110, 0011, 1001, 1010, 0101,
C(4, 3)= 4 palavras de peso 3: 1110, 0111, 1011, 1101,
C(4, 4) =1 palavra de peso 4: 1111.
1.2.3 Conjuntos infinitos

Um conjunto é infinito quando não é finito. Existem dois tipos de conjunto infinitos:
• Conjuntos infinito enumeráveis, por exemplo, N o conjunto dos números naturais é um con-
junto infinito enumerável
• Conjuntos infinitos não enumeráveis, por exemplo, o conjunto do números reais R.
9
1.3 Técnicas de contagem para conjuntos finitos

1.3.1 Fatorial n!
O fatorial de um numero natural n é
n! = n × (n − 1) × (n − 2) × . . . × 2 × 1
Alguns exemplos:
• 1! = 1
• 2! = 2 × 1 = 2
• 3! = 3 × 2 × 1 = 6
• 5! = 5 × 4 × 3 × 2 × 1 = 120
• 10! = 10 × 9 × . . . × 2 × 1 = 3628800, etc.
O factorial de zero é por definição um, isto é,
0! = 1
1.3.2 n-uplas, arranjos e combinações

Dado um conjunto finito A com m elementos suponha queremos extrair n elementos, com n ≤ m,
então;
1. Se os n elementos podem ser repetidos teremos mn possibilidades chamadas de n-uplas

m!
2. Se os n elementos são sem repetição teremos P(m, n) = (m−n)! possibilidades chamados de
permutações.
m!
3. Se os n elementos não admitem repetições nem permutações teremos C(m, n) = (m−n)!n!
possibilidades, que são combinações. O número C(m, n) é chamado “combinatória n de m”.
10
Exemplo 1.6 Suponha o seguinte conjunto de quatro letras A = {a, b, c, d} Calculamos o número
de duplas, permutações e combinações de dois elementos
Neste caso m = |A| = 4 e n = 2

a) Temos mn = 42 = 16 duplas (admitem repetições).
aa ba ca da
ab bb cb db
ac bc cc dc
ad bd cd dd
Tabela 1.5: 16 = 42 duplas
m! 4!
b) Temos (m−n)! = (4−2)! = 12 permutações de dois elementos (sem repetições).
ba ca da
ab cb db
ac bc dc
ad bd cd
4!
Tabela 1.6: (4−2)! = 12 permutações
m! 4!
c) Temos (m−n)!n! = (4−2)!2! = 06 combinações de dois elementos (não admitem repetições nem
permutações).
ab
ac bc
ad bd cd
4!
Tabela 1.7: 6 = (4−2)!2!
Exemplo 1.7 Seja outra vez o conjunto A = {a, b, c, d}
Teremos 43 = 64 triplas, 4!(4 − 3)! = 24 permutações e 43 = (4−3)!3!

4!

= 4 combinações. Como este
exemplo é pequeno podemos verificar os resultados das fórmulas na seguinte Tabela.
11
aaa baa caa daa

aab bab cab dab
aac bac cac dac
aad bad cad dad
aba bba cba dba
abb bbb cbb dbb
abc bbc cbc dbc
abd bbd cbd dbd
aca bca cca dca
acb bcb ccb dcb
acc bcc ccc dcc
acd bcd ccd dcd
ada bda cda dda
adb bdb cdb ddb
adc bdc cdc ddc
add bdd cdd ddd
Dos exemplos observados temos as seguintes desigualdades:
n! n!
nm ≥ ≥ (1.1)
(n − m)! (m!)(n − m)!
1.3.3 Cálculo de permutações

Permutação é a troca de ordem de uma lista de elementos. Se a lista de elementos é A =
{a1 , a2 , a3 , · · · , an }, então o número de permutações é n!
Exemplo 1.8 Considere os conjuntos A={a,b}, e B = {a,b,c}
A tem dois elementos portanto o número de permutações é 2! = 2; a saber {a,b} e {b,a}.

Agora, para o conjunto B teremos 3! = 6 permutações. Com efeito as permutações de B são
{a,b,c},{c,a,b},{b,c,a},{a,c,b},{c,b,a}, e {b,a,c}.
1.3.4 Cálculo de combinações

É transmitido um pacote de de 4 bits através de um canal de comunicações. Quantos pacotes tem
4! 4!
exatamente dois bits zero? C(4, 2) = (4−2)!2! = 2!2! = 6 que são {0011, 0101, 0110, 1010, 1100, 1001}
12
1.3.5 Exemplos de aplicações

1. Jogo da sena
Aqui o conjunto alfabeto é
A = {01, 02, 03, . . . , 58, 59, 60}
e n = 6. Se o sorteio dos números fosse com reposição, os 06 número sorteados seriam inde-
pendentes, neste caso o número total de 6-uplas seria 606 = 46.656.000.000 ≈ 46.7 bilhões.
O problema deste tipo de sorteio é haveria confusão pelas repetições e permutações. Por
exemplo {01,02,02,03,17,28} e {01,02,03,02,17,28} são duas 6-uplas diferentes qual o critério
para decidir um ganhador?
Então o sorteio da Megasena é feito sem reposição, com isto os 06 números sorteados não são
independentes e o número de possibilidades é:
60 possibilidades para a primeira dezena

59 possibilidades para a segunda dezena
58 possibilidades para a terceira dezena
57 possibilidades para a quarta dezena
56 possibilidades para a quinta dezena
55 possibilidades para a sexta dezena
Com isto o número de combinações diferentes é:
60 × 59 × 58 × 57 × 56 × 55 = 50.063.860
A fórmula combinatória destes mais de 50 milhões de combinações é é
60!
C(60, 6) = = 50.063.860
54!6!
pelas condições do sorteio, o resultado de cada 6-upla é independente de outra, então a

probabilidade de ganhar o jogo com uma aposta simples é
1
P (ganhar) = = 0.00000001997668858 = 1.997448858 × 10−8 ,
50.063.860
aproximadamente “uma em 50 milhões”.
7!
O total de possı́veis combinações para o jogo duplo são Jogo duplo: C(7, 6) = (7−6)!6! = 7,
equivalente a 7 apostas simples Para o jogo triplo teremos o equivalente a C(8, 6) = 28 apostas
13
simples Para o jogo quádruplo teremos C(9, 6) = 84 apostas simples E para o jogo quı́ntuplo
teremos C(10, 6) = 210 apostas simples
Portanto a a probabilidade de ganhar na Sena, por exemplo, no jogo quı́ntuplo é
1 3 1
210 × = = 4.1946426024681 × 10−6 ≈ ,
50.063.860 715198 238399.3
aproximadamente “uma em 238 mil”.
Para o caso de aceitar cartela com 30 números teremos
C(30, 6) 593775
= = 0.01186
C(60, 6) 50063860
2. Aplicação em placas de carros: As placas de carros têm um esquema de três letras

e quatro números a1 a2 a3 n1 n2 n3 n4 É um caso de triplas e quádruplas. Pois, são
utilizadas três letras do alfabeto, composto por vinte e seis letras, e quatro números de zero
a nove, admitindo repetição e comutação. Então o número total de placas diferentes é dado
por 263 × 104 = 175.760.000. Podemos inferir então que quando no Brasil houver mais
de 175 milhões de carros haverá a necessidade de aumentar uma letra ou um número. Se
aumentar uma letra teremos 264 × 104 = 4.569.760.000 mais de 4 bilhões de placas possı́veis.
Se aumentar um número teremos 263 × 105 = 1.757.600.000, mais de um bilhão e meio de
placas diferentes. Com certeza esta última deverá ser a próxima mudança do esquema das
placas de carros.
3. Aplicação senhas de 06 algarismos: As senhas de um banco possuem 06 algarismos. O

número de senhas diferentes é 106 = um milhão.
4. Aplicação senhas da UNIPAMPA: As senhas da UNIPAMPA precisam ter entre 6 a 8

caracteres com pelo menos um número e um caractere não alfanumérico. Quantas senhas são
possı́veis?
n β a1 a2 a3 . . . a6
Então a quantidade máxima de senhas da UNIPAMPA é é 10 × 15 × 256 = 3.6621 × 1010
aproximadamente umas 36.6 bilhões de senhas diferentes.
14
Capı́tulo 2
Probabilidades
2.1 Experimento Aleatório, Espaço Amostral e Eventos

1. Um experimento aleatório é uma atividade que tem “mais de um resultado” possı́vel.
Em caso contrário, quando o experimento tem um único resultado o experimento é chamado
determinı́stico.
2. Espaço Amostral é o conjunto de todos os resultados possı́veis de um experimento. É

denotado pela S=“espaço amostral” (S do inglês sample=amostra)
3. Evento é qualquer subconjunto do espaço amostral, isto é, E ⊂ S.
Exemplo 2.1 Experimento: “Lançar uma moeda e observar os resultados”
O espaço amostral que é o conjunto de resultados deste experimento é S = {c, k}, onde c=“cara”
e k=“coroa”.
Exemplo 2.2 Experimento:“Lançar um dado e observar os resultados”
Neste caso S = {1, 2, 3, 4, 5, 6} e um exemplo de evento é A=“resultado par”, que é A = {2, 4, 6}.
O evento complementar de resultado par é A′ = {1, 2, 3}.
Exemplo 2.3 Experimento: “Lançar duas moedas e observar os resultados”
Neste caso
S = {cc, ck, kc, kk}
e um evento é A = {cc} ou seja A=“obter duas caras”. O evento complementar de A é “não obter
duas caras”: A′ = {ck, kc, kk}.
Neste caso pequeno podemos mostrar a lista completa de eventos
15
01 Evento com zero elementos

∅ = {} (vazio)
04 Eventos com um elemento
{cc}, {ck},{kc},{kk}.
06 Eventos com dois elementos
{cc, ck}, {cc, kc},{cc, kk},{ck, kc}, {ck, kk}, {kc, kk}.
04 Eventos com três elementos
{cc, ck, kc}, {cc, ck, kk},{cc, kc, kk}, {ck, kc, kk}.
01 Evento com quatro elementos
S = {cc, ck, kc, kk} (tudo)
Então, para este espaço amostral temos um total de 1+4+6+4+1=16=24 eventos. No seguinte
exemplo veremos que nem sempre é possı́vel exibir a lista completa de eventos.
Exemplo 2.4 Experimento: lançar quatro vezes uma moeda equilibrada.
O espaço amostral é  

 cccc kkkk ccck kkkc 

cckc kkck cckk kkcc
 
S=
 ckcc kckk ckck kckc 
 
ckkc kcck ckkk kccc
 
Alguns eventos deste experimento aleatório são:
• A =“obter três coroas”={kkkc, kkck, kckk, ckkk}, evento com 04 elementos.
• B=”obter duas caras“= {cckk, ckck, ckkc, kcck, kckc, kkcc}, evento com 06 elementos.
• C “obter pelo menos uma coroa”=

 

 kkkk ccck kkkc 
cckc kkck cckk kkcc
 
S=

 ckcc kckk ckck kckc 
ckkc kcck ckkk kccc,
 
evento com 15 elementos.
Neste caso mostrar a lista completa de eventos seria tedioso e quase impossı́vel pois em total o
espaço amostral tem 216 = 65536 eventos.
Definição 2.1 Dado um espaço amostral S a função probabilidade é uma função matemática
definida nos eventos A ⊂ S tal que
• P (S)=1
16
• 0 ≤ P (A) ≤ 1
• Para dois eventos A, B tais que A ∩ B = ∅,
P (A ∪ B) = P (A) + P (B)
Algumas propriedades imediatas da probabilidade são:

• P (A′ ) = 1 − P (A)
• P (∅) = 0
• Se A ⊂ B então P (A) ≤ P (B).
Prova.-
• A ∩ A′ = ∅ e A ∪ A′ = S donde
1 = P (S) = P (A ∪ A′ ) = P (A) + P (A′ )
Daı́
P (A′ ) = 1 − P (A)
• ∅ = S ′ donde
P (∅) = P (S ′ ) = 1 − P (S) = 1 − 1 = 0
• A ⊂ B implica que B = A ∪ (B \ A) com A e (B \ A) disjuntos. então
P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ≥ P (A)
Exemplo 2.5 Considere o experimento de lançar duas vezes uma moeda. Calcular a probabilidade
do evento A=“Obter cara e coroa” se (a) A moeda é honesta e (b) A moeda esta carregada com
probabilidade de cara=0.6.
O espaço amostral é S = {cc, ck, kc, kk}. O evento “obter cara e coroa” é A = {ck, kc}
Caso (a): moeda honesta
P (c) = 0.5, P (k) = 0.5 daı́ P (ck) = P (c)P (k) = (0.5)(0.5) = 0.25. Também teremos P (kc) =
P (k)P (c) = (0.5)(0.5) = 0.25. Portanto
P (A) = P ({ck, kc}) = P (ck) + P (kc) = 0.25 + 0.25 = 0.5
Poderı́amos ter obtido este resultado com a formula

|A| 2
P (A) = = = 0.5,
|S| 4
17
como é bastante usual. Esta formula “numero de resultados favoráveis” dividido pelo total de
resultados nem sempre é correto como veremos no caso da moeda carregada.
Caso (b): moeda carregada
P (c) = 0.6, P (k) = 0.4 daı́ P (ck) = P (c)P (k) = (0.6)(0.4) = 0.24. Também teremos P (kc) =
P (k)P (c) = (0.4)(0.6) = 0.24. Portanto
P (A) = P ({ck, kc}) = P (ck) + P (kc) = 0.24 + 0.24 = 0.48,
|A|
que é diferente de |S| .
2.2 Regra da Adição e Probabilidade condicional

Dados dois eventos A, B a probabilidade da união A ∪ B é definida por
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Formula que é amplamente conhecida como a regra da adição.
Dados dois eventos A, B a probabilidade condicional do evento A depois que ocorreu o evento
B é
P (A ∩ B)
P (A|B) =
P (B)
Da fórmula de probabilidade condicional obtemos a regra do produto para conjunção de eventos
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)
Exemplo 2.6 Um lote de 400 Pendrives são classificados de acordo a dois critérios “Pendrives
com trincos” e “Pendrives operativos” de acordo com a seguinte Tabela
Pendrives operativos
sim não
sim 10 30
Pendrives com trincos
não 342 18
Se O é o evento “Pendrive operativo” e T é o evento “Pendrive com trincos”, calcular P (O), P (T ),

P (O ∩ T ), P (O ∪ T ), P (O|T ), P (T |O).
Solução-̇
Pendrives operativos
sim não Total Trincados
sim 10 30 40
Pendrives com trincos
não 342 18 360
Total Operativos 352 48 Total=400
18
O espaço amostral, toda a amostra, é S=“Pendrives”. E os eventos O e T são subconjuntos de S.
|O|
• P (O) = |S| = 352
400 = 0.88.
|T |
• P (T ) = |S| = 40
400 = 0.1.
|O∩T |
• P (O ∩ T ) = |S| = 10
400 = 0.025.
• P (O ∪ T ) = |O∪T |
|S| =
10+30+342
400 = 382
400 = 0.955. Esta mesma probabilidade pode ser calculada
coma regra da adição
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (O ∪ T ) = P (O) + P (T ) − P (O ∩ T ) = 0.88 + 0.1 − 0.025 = 0.955.
• P (O|T ) = |O∩T | 10
|T | = 40 = 0.25. O evento neste caso é “o pendrive funciona mesmo trincado”=
“O pendrive esta operativo dado que esta trincado”= O|T .
• P (T |O) = |O∩T | 10
|O| = 352 = 0.028409. O evento neste caso é “o pendrive esta trincado embora
operativo”= “O pendrive esta trincado dado que esta operativo”= T |O.
Exemplo 2.7 Extração de duas bolas sem reposição de uma única urna
Uma urna contem 24 bolas brancas e 6 bolas pretas. Da urna são extraı́das aleatoriamente, sem
reposição, duas bolas.
1. Qual é a probabilidade da segunda bola ser branca quando a primeira foi branca
2. Qual é a probabilidade da segunda bola ser branca quando a primeira foi preta
3. Qual é a probabilidade de ambas as bolas serem pretas
4. Qual é a probabilidade de ambas as bolas serem brancas
5. Quais são as probabilidades da primeira ser branca e a segunda preta? e ao contrário primeira
ser preta e a segunda branca?
6. Qual é o espaço amostral?.
Solução.-
Uma ferramenta gráfica de ajuda para resolver problemas de probabilidades condicionais é o
diagrama da arvore, que para o caso deste problema é representada na seguinte figura:
19
1era
Extração
2da
Extração
Onde os eventos são representados assim PP =“primeira bola preta”, PB =“primeira bola branca”,
SB =“segunda bola branca” e SP =“segunda bola preta”. Com isto temos
24 6
P (PB ) = , P (PP ) =
30 30
Por outro lado as probabilidades dos eventos SP e SB precisam de cálculos preliminares.
1.
23
P (SB |PB ) = ,
29
6
O que significa que P (SP |PB ) = 29 .
2.
24
P (SB |PP ) = ,
29
5
O que significa que P (SP |PP ) = 29 .
3.
5 6 5 1
P (SP , PP ) = P (SP |PP )P (PP ) = = =
29 30 145 29
4.
23 24 92
P (SB , PB ) = P (SB |PB )P (PB ) = =
29 30 145
5.
6 24 24
P (PB , SP ) = P (SP |PB )P (PB ) = =
29 30 145
6. Sejam P ri=“Primeira bola extraı́da” e Seg=“Segunda bola extraı́da”. O espaço amostral é

S = P ri × Seg e |S| = 30 × 29 = 870
Todas as outras probabilidades conjuntas estão na seguinte Tabela de probabilidades.
20
2da extração
brancas pretas
brancas 92/145 24/145
1era extração
pretas 24/145 5/145
Por outro lado os 870 = 30 × 29 pares do espaço amostral de pares S = P × S estão organizados
na seguinte Tabela
2da extração
brancas pretas
brancas 552 144
1era extração
pretas 144 30
Que tem a seguinte interpretação: “Existem 552+144=696 pares com a primeira bola branca”,
“Existem 144+30=174 pares com a primeira bola preta”, “Existem 552+144=696 pares com a
segunda bola branca” e “Existem 144+30=174 pares com a segunda bola preta”.
2.3 Independência de eventos

Dados os eventos A e B é dito que são independentes se
P (A|B) = P (A)
Isto é a ocorrência de B não altera as probabilidades de A. Pode se mostrar que quando os eventos
A e B são independentes então
• P (A|B) = P (A) e P (B|A) = P (B)
• P (A ∩ B) = P (A)P (B)
• P (A′ |B) = P (A′ )
Exemplo 2.8 As falhas de diferentes máquinas são independentes umas das outras. Se as quatro
máquinas e suas respectivas probabilidades de falha são 1%, 2%, 5% e 10% em determinado dia.
Calcule a probabilidade de:
1. Todas falharem num determinado dia
2. De nenhuma falhar
Este é um exemplo de Independência.
1. P = 0.01 × 0.02 × 0.05 × 0.1 = 0.0000001 = 10−6 ou 0.00001%
21
2. P = 0.99 × 0.98 × 0.95 × 0.9 = 0.829521 ou 82.95%
Exemplo 2.9 Considere duas urnas A e B com 10 fichas cada uma. A urna A tem oito fichas
vermelhas e duas fichas brancas. A urna B tem quatro vermelhas e seis brancas. Extraem-se duas
fichas, uma de cada urna.
1. Qual a probabilidade de extrair uma ficha vermelha e uma ficha branca;
2. Qual a probabilidade de que ambas as fichas sejam brancas;
3. Qual a probabilidade de que ambas sejam vermelhas;
Sejam os seguintes eventos;

A=“Extrair uma ficha da urna A”
B=“Extrair uma ficha da urna B”
F V =“A ficha extraı́da é vermelha”
F B=“A ficha extraı́da é branca”
Assim temos, por exemplo, P (F V |A)=“probabilidade de extrair ficha vermelha da urna A”.
Então
8
P (F V |A) = 10
2
P (F B|A) = 10
4
P (F V |B) = 10
6
P (F B|B) = 10
Como as urnas são independentes, temos:
8 6 48
1. P (F V ∩ F B) = P (F V |A)P (F B|B) = 10 × 10 = 100 = 0.48
2 6 12
2. P (F B ∩ F B) = P (F B|A)P (F B|B) = 10 × 10 = 100 = 0.12
8 4 32
3. P (F V ∩ F V ) = P (F V |A)P (F V |B) = 10 × 10 = 100 = 0.32
2.4 Probabilidade Total e Regra de Bayes

Dados os eventos A e B, temos S = B ∪ B ′ e A ∩ S = A
A = A ∩ S = A ∩ (B ∪ B ′ ) = (A ∩ B) ∪ (A ∩ B ′ )
Como B e B ′ são disjuntos então (A ∩ B) e (A ∩ B ′ ) também são disjuntos. Logo
P (A) = P (A ∩ B) + P (A ∩ B ′ ) = P (A|B)P (B) + P (A|B ′ )P (B ′ ),
que é conhecida como a formula da probabilidade total.
22
Por outro lado, P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A), então
P (A|B)P (B)
P (B|A) =
P (A|B)P (B) + P (A|B ′ )P (B ′ )
que é conhecida como a formula a regra de de Bayes ou (Teorema de Bayes).
Exemplo 2.10 Um jovem suspeita que esta com uma doença rara e para tirar suas dúvidas ele se
submete a uma exame de sangue. Os resultados destes exames não são 100% certeiros, tem uma
pequena probabilidade de falha. Quando uma pessoa não esta com a doença e o resultado é positivo,
este resultado é chamado de falso positivo. Quando uma pessoa esta com a doença e o resultado é
negativo, este resultado é chamado de falso negativo. Sabe-se que 4.8% da população está infectada
com essa doença rara enquanto que a probabilidade de falso positivo é 0.005 e a probabilidade de
falso negativo é 0.003. Se o resultado do exame é positivo qual é a probabilidade do jovem estar
livre da doença?
Sejam
D=“Pessoa com a doença rara”
P =“Resultado do exame é positivo”
Temos então P (D′ |P )=“Probabilidade do jovem estar sadio mesmo que o resultado do seu exame
seja positivo”
Calculamos esta probabilidade com formula de Bayes

P (P |D′ )P (D′ )
P (D′ |P ) =
P (P |D′ )P (D′ ) + P (P |D)P (D)
Temos P (D′ ) = 0.048 que implica P (D) = 0.952. Também P (P ′ |D) = 0.003 que implica P (P |D) =
0.997. Por outro lado
P (P ′ |D)=“Probabilidade de exame negativo mesmo que a pessoa esteja doente” = “Probabilidade
de falso negativo”=0.003 que implica P (P |D)= 0.997. Logo
P (P |D′ )P (D′ ) (0.005)(0.952)
P (D′ |P ) = ′ ′
= = 0.090467
P (P |D )P (D ) + P (P |D)P (D) (0.005)(0.952) + (0.997)(0.048)
Que significa que a probabilidade de estar doente é 1-0.090467=0.90953= 90.95%.
P(D) P(D')
D D'
P(P|D) P(P'|D')
P(P'|D)
P(P|D')
P P' P P'
23
Exemplo 2.11 Considere o Exemplo 2.7 da extração de duas bolas sem reposição de uma urna,
então calcular
1. Probabilidade de que a segunda bola seja branca
2. Probabilidade da primeira bola ser branca sendo que a segunda foi preta
3. Probabilidade da primeira bola ser preta sendo que a segunda foi preta
Solução.-
1. Neste caso aplicamos a regra do produto total

23 24 6 24 4
P (SB ) = P (SB |PB )P (PB ) + P (SB |PP )P (PP ) = + =
29 30 30 29 5
2. Para esta questão aplicamos a regra de Bayes:

6 24

P (SP |PB )P (PB ) 29 30 24
P (PB |SP ) = = 6
24
5 6
=
P (SP |PB )P (PB ) + P (SP |PP )P (PP ) 29 30 + 29 30
29
3.
5 6

P (SP |PP )P (PP ) 29 30 5
P (PP |SP ) = = 5
6
6 24
=
P (SP |PP )P (PP ) + P (SP |PB )P (PB ) 29 30 + 29 30
24
Exemplo 2.12 Num canal de comunicações binário a probabilidade de recepcionar corretamente o

bit “1” é de 80 % e a probabilidade de recepcionar incorretamente o bit “0” é de 5 %. Um arquivo
de 3.2 Megabytes, com 42 % de bits “1” é transmitido através deste canal.
• Qual é a probabilidade de ter transmitido o bit “1” quando foi recepcionado o bit “0”? (com-
parar com a probabilidade a priori)
• Qual é a probabilidade de ter recepcionado o bit “1”?
• Quantos bytes serão transmitidos corretamente?
24
Solução.- Seja T1 o simbolo que denota o evento “bit 1 é transmitido”, R0 =“bit 0 é recepcionado”,
analogamente T0 e R1 então o seguinte gráfico de arvore é uma ferramenta de visualização da solução
do problema:
P (R0 |T1 )P (T1 ) (0.2)(0.42)

• P (T1 |R0 ) = P (R0 |T1 )P (T1 )+P (R0 |T0 )P (T0 ) = (0.2)(0.42)+(0.95)(0.58) = 0.13228.
Interpretação: A priori, a probabilidade de transmitir o bit “1” é 42 %. Más depois de
recepcionado o bit “0” a probabilidade do bit “1” ter sido transmitido diminui para 13.228
%.
P (R1 |T0 )P (T0 ) (0.05)(0.58)
• P (T0 |R1 ) = P (R1 |T0 )P (T0 )+P (R1 |T1 )P (T1 ) = (0.05)(0.58)+(0.8)(0.42) = 0.079452.
recepcionado o bit “1” a probabilidade do bit “0” ter sido transmitido diminui para 7.9452
%.
P (R0 |T0 )P (T0 ) (0.95)(0.58)
• P (T0 |R0 ) = P (R0 |T0 )P (T0 )+P (R0 |T1 )P (T1 ) = (0.95)(0.58)+(0.2)(0.42) = 0.86772.
recepcionado o bit “0” a probabilidade do bit “1” ter sido transmitido aumenta para 86.772
%.
P (R1 |T1 )P (T1 ) (0.8)(0.42)
• P (T1 |R1 ) = P (R1 |T1 )P (T1 )+P (R1 |T0 )P (T0 ) = (0.8)(0.42)+(0.05)(0.58) = 0.92055.
recepcionado o bit “1” a probabilidade do bit “1” ter sido transmitido aumenta para 92.055
%.
• P (R1 ) = P (R1 |T1 )P (T1 ) + P (R1 |T0 )P (T0 ) = (0.05)(0.58) + (0.8)(0.42) = 0.365
• Probabilidade de erro quando foi transmitido o bit “1” é P (ǫ|T1 ) = P (R0 |T1 ) e a probabilidade
de erro quando foi transmitido o bit “0” é P (ǫ|T0 ) = P (R1 |T0 ). Logo a probabilidade de erro
P (ǫ) = P (ǫ|T0 )P (T0 ) + P (ǫ|T1 )P (T1 ) = (0.2)(0.42) + (0.05)(0.58) = 0.113
Portanto a probabilidade de transmissão correta é P (C) = 1 − P (ǫ) = 0.887. Daı́, o número

de bytes transmitidos corretamente é N = 3.2 ∗ 0.887 = 2.8384 Megabytes.
25
2.5 Outros Exemplos Importantes

2.5.1 Análise completa de um canal binário através de um experimento
Um pacote de 1000 bits é transmitido através de um canal digital. No processo de transmissão
alguns bits foram transmitidos corretamente e outros com erros conforme a Tabela a seguir;
Bit recepcionado
“1” “0”
“1” 380 62
Bits transmitido
“0” 28 530
Considere os seguintes eventos T1 =“bit 1 é transmitido”, T0 =“bit 0 é transmitido”, R1 =“bit 1

é recepcionado”, R0 =“bit 0 é recepcionado” e=“bit tem transmissão equivocada”. Então calcular
P (T0 ), P (R1 ), P (R1 |T0 ), P (R0 |T1 ), P (e), etc.
Solução-̇ Calculamos as marginais “Bits Transmitidos” e “Bits recepcionados”:
Bit recepcionado
“1” “0” Total Transmitidos
“1” 380 62 442
Bits transmitidos
“0” 28 530 558
Total recepcionados 408 592 Total=1000
Neste caso não é importante averiguar qual é o espaço amostral do processo. Os eventos T0 e T1 R1 ,
R0 , e são suficientes para responder as questões do problema. Começamos com as probabilidades
totais:
|T0 |
• P (T0 ) = |S| = 558
1000 = 0.558, “probabilidade de que o bit 0 seja transmitido”.
• P (T1 ) = 0.442, “probabilidade de que o bit 1 seja transmitido”.
• P (R0 ) = 0.592, “probabilidade de que o bit 0 seja recepcionado”.
• P (R1 ) = 0.408, “probabilidade de que o bit 1 seja recepcionado”.
A seguir calculamos as probabilidades de eventos simultâneos P (Ti ∩ Rj ) = P (Tj ∩ Ri )= “pro-

babilidade de ocorrência simultânea de que o bit j é transmitido e o bit i é recepcionado”.
• P (R0 ∩ T0 ) = |R0|S|
∩T0 |
= 530
1000 = 0.530, “probabilidade de que o bit 0 é transmitido e o bit 0 é
recepcionado”
• P (R1 ∩ T0 ) = 0.028, “probabilidade de que o bit 0 é transmitido e o bit 1 é recepcionado”
26
• P (R0 ∩ T1 ) = 0.062, “probabilidade de que o bit 1 é transmitido e o bit 0 é recepcionado”
• P (R1 ∩ T1 ) = 0.380. “probabilidade de que o bit 1 é transmitido e o bit 1 é recepcionado”
A seguir estudamos os eventos de recepção(futuro) condicionados aos eventos de transmissão

(presente) e suas probabilidades. Assim, Ri |Tj significa “O bit i será recepcionado quando é trans-
mitido o bit j”. Com isto,
P (Ri |Tj )= “probabilidade de que o bit i será recepcionado quando é transmitido o bit j”,
que pode ser interpretado como a predição de recepção do bit i quando é transmitido o bit j.
• P (R1 |T1 ) = |R|T

1 ∩T1 |
1|
380
= 442 = 0.85973. O evento R1 |T1 também pode ser interpretado assim:
“Haverá recepção correta quando o bit 1 é transmitido”.
• P (R1 |T0 ) = |R|T

1 ∩T0 |
0|
28
“Haverá recepção com erro quando o bit 0 é transmitido”.
• P (R0 |T1 ) = |R|T

0 ∩T1 |
1|
62
“Haverá recepção com erro quando o bit 1 é transmitido”.
• P (R0 |T0 ) = |R|T

0 ∩T0 |
0|
530
“Haverá recepção correta quando o bit 0 é transmitido”.
Um gráfico muito utilizado na teoria das comunicações ilustrando as probabilidades condicionais

P (Rj |Ti ) é o seguinte
Este é gráfico padrão de canal binário de comunicações

Continuando, estudamos os eventos de transmissão(passado) condicionados aos eventos de re-
cepção (presente) e suas probabilidades. Assim, Ti |Rj significa “O bit i foi transmitido quando é
recepcionado o bit j”. Com isto,
27
P (Ti |Rj )= “probabilidade de que o bit i foi transmitido quando é recepcionado o bit j”,
que pode ser interpretado como a suspeita de transmissão do bit i quando é recepcionado o bit j.
• P (T1 |R0 ) = |R|R

0 ∩T1 |
0|
62
= 592 = 0.104729. O evento T1 |R0 também pode ser interpretado assim:
“Houve transmissão com erro quando o bit 0 é recepcionado”.
Comparando com a probabilidade a priori P (T1 ) = 0.442 temos que a probabilidade a poste-
riori P (T1 |R0 ) diminui para 0.104729.
• P (T0 |R1 ) = |T0|R∩R

1|
1| 28
“Houve transmissão com erro quando o bit 1 é recepcionado”.
riori P (T0 |R1 ) diminui para 0.06862.
• P (T0 |R0 ) = |R|R

0 ∩T0 |
0|
530
“Houve transmissão correta quando o bit 0 é recepcionado”.
riori P (T0 |R0 ) aumenta para 0.89527.
• P (T1 |R1 ) = |T1|R∩R

1|
1| 380
= 408 = 0.93137. O evento T1 |R0 ambém pode ser interpretado assim:
“Houve transmissão correta quando o bit 0 é recepcionado”.
riori P (T1 |R1 ) aumenta para 0.93137.
Finalmente, calculamos as probabilidades de erro e transmissão correta
• A probabilidade de erro é
P (e) = P (T0 )P (e|T0 ) + P (T1 )P (e|T1 ) = (0.558)(0.050179) + (0.442)(0.140271) = 0.09
• A probabilidade de transmissão correta é
P (C) = 1 − P (e) = 1 − 0.09 = 0.91
Isto mostra que a cada 1000 bits, em média, 910 bits serão transmitidos corretamente.
28
2.5.2 Extração de três bolas sem reposição

Da mesma urna que contem 24 bolas brancas e 6 bolas pretas são extraı́das aleatoriamente, sem
reposição, três bolas. Qual é o espaço amostral?.
S = {bbb, bbp, bpb, bpp, pbb, pbp, ppb, ppp}

Os eventos são ∅, S e alguns dos outros 254 eventos não triviais são: B1 : “a primeira bola é
branca”= {bbb, bbp, bpb, bpp}, B2 : “a segunda bola é branca”= {bbb, bbp, pbb, pbp}, P1 : “a primeira
bola é preta”= {pbb, pbp, ppb, ppp}, P3 : “a terceira bola é preta”= {bbp, bpp, pbp, ppp}, P2 ∩ B1 : “a
segunda bola é preta e a primeira bola é branca”= {bpb, bpp}, etc. Para calcular as probabilidades
dos diferentes eventos deste experimento é muito útil o seguinte arvore
2.5.3 Extração de bolas com reposição

Quando as bolas são extraı́das com reposição os eventos são independentes, por exemplo, P (B2 |P1 ) =
P (B2 ) = P (B1 ).
2.6 Exercı́cios
1. Joga-se um par de dados equilibrados e o resultado deste experimento é observado:
(a) Qual a probabilidade do ambas as faces serem seis?

(b) Qual a probabilidade de ambas as faces serem dois?
(c) Qual a probabilidade de ambas as faces serem números pares?
Rpta.-a=1/36, b=1/36, c=1/4.
29
2. Joga-se uma moeda cinco vezes e o resultado deste experimento é observado.
• Se a moeda é honesta, qual é probabilidade de duas caras?

• Se a moeda esta carregada P (c) = 0.7, qual é probabilidade de duas caras?
Rpta.- 0.3125, 0.1324
3. É escolhida uma amostra de 1000 estudantes da UNIPAMPA e os estudantes deste grupo são
classificados de acordo aos critérios “Sexo” e “Origem Gaúcho” de acordo a seguinte tabela
Origem Gaucho
sim não
Masculino 380 300
Sexo
Feminino 120 200
(a) Se o estudante tem origem gaucho, qual é a probabilidade de que seja de sexo femenino?
(b) Se o estudante é de sexo masculino, qual é a probabilidade de não tenha origem gaucho?
(c) Qual é a probabilidade de que o estudante seja gaucho e seja de sexo femenino?
Rptas.- 6/25, 15/34, 3/25
4. Considere uma urna com 42 fichas, sendo 8 brancas e 34 amarelas. Extraem-se sem reposição
2 fichas.
(a) Qual é a probabilidade de extrair duas fichas amarelas?

(b) Qual é a probabilidade de extrair uma ficha branca e uma ficha amarela (nessa ordem)?
(c) Qual é a probabilidade da segunda bola ser amarela?
(d) Qual é a probabilidade de que a primeira bola seja amarela se a segunda foi branca?
Comparar com a probabilidade a priori das bolas amarelas
Rptas.- 0.65156, 0.15795, 0.80952, 0.82926
5. Durante uma competição esportiva de primeiro nı́vel sabe-se que 98 % dos atletas são hones-
tos e não utilizam substancias proibidas para melhorar seus resultados. As provas anti-doping
identificam corretamente um caso de dopagem em um 99.2 % dos casos e identificam corre-
tamente os casos de não-dopagem em 98.3 % dos casos. Um atleta famoso é submetido ao
teste de dopagem e o resultado é positivo. Qual que probabilidade de que este famoso atleta
tinha utilizado efetivamente substancias proibidas?
Rpta.- 0.54356
30
6. A probabilidade de um Pendrive estar operativo quando está com trincos é de 75 %. Enquanto

que a probabilidade de um Pendrive operar quando está sem trincos sobe para 98 %. Se 28
% dos Pendrives estão trincados.
• Qual é a probabilidade do Pendrive estar operativo se está com trincos?

• Qual é a probabilidade do Pendrive estar com trincos se não está operativo?
• Qual é a probabilidade do Pendrive estar com trincos se está operativo? (comparar com
a probabilidade a priori)
• Qual é a probabilidade do Pendrive estar operativo?
Rptas.- 0.75; 0.82938; 0.22936; 0.9156
31
32
Capı́tulo 3
Variáveis Aleatórias Discretas e

Distribuições de Probabilidade
3.1 Introdução
O espaço amostral S de alguns experimentos, tais como lançamentos de moedas, pode ser um
conjunto não-numérico. Por outro lado, a aplicação mais importante do cálculo de Probabilidades
é a Estatı́stica onde se lida com conjuntos de dados numéricos cujos parâmetros mais importantes
são as médias e as varianças. Para poder medir com médias e varianças conjuntos de dados não-
numéricos há a necessidade de associar os eventos do espaço amostral S a subconjuntos de números
reais. Assim define-se uma função X : S 7→ R, e define-se as probabilidades de U ⊂ Im(X) como
P (U ) = P (X −1 (U )). Em toda a literatura existente a este respeito a imagem Im(X) é denotado
simplesmente como X. A razão desta simplificação é que X é chamada de variável aleatória.
Exemplo 3.1 No experimento de lançamento de 4 moedas, o espaço amostral é

 
 cccc, ccck, cckc, ckcc, kccc, cckk, 
S= ckck, ckkc, kkcc, kckc, kcck, kkkc,
kkck, kckk, ckkk, kkkk
 
Os elementos do conjunto de resultados S são quartetos s = s1 s2 s3 s4 . A cada quarteto podemos

associar uma função numérica X : S 7→ R, por exemplo se X(s1 s2 s3 s4 )=“número de caras” então,
teremos X(cccc) = 4, X(ccck) = 3, X(kkkk) = 0, etc. e esta variável aleatória, X=“número de
caras, assume o conjunto de valores numérico {0, 1, 2, 3, 4} ⊂ R.
Agora, o evento “quartetos de S com zero caras” em notação de conjuntos pode ser representada
assim
“quartetos de S com zero caras”={s ∈ S ; X(s) = 0} ={kkkk},
33
de maneira análoga
“quartetos de S com uma cara”= {s ∈ S ; X(s) = 1}={kkkc, kkck, kckk, ckkk},
etc. Conforme mencionado linhas acima, X classifica os quartetos de S em 05 subconjuntos
{X = 0} = {kkkk} = “quartetos com 0 caras”
{X = 1} = {ckkk, kckk, kkck, kkkc} = ”quartetos com 1 cara“
{X = 2} = {cckk, ckck, ckkc, kckc, kkcc, kcck} = “quartetos com 2 caras”
{X = 3} = {kccc, ckcc, cckc, ccck} = ”quartetos com 3 caras“
{X = 4} = {cccc} = “quartetos com 4 caras”
Observa-se, também a simplificação {X = i} = {s ∈ S . X(s) = i}, para i = 0, 1, 2, 3, 4. Esta
simplificação esta disseminada em todos os livros texto de Probabilidades e Estatı́stica. Nesta
linha de simplificação, a probabilidade do evento {X = i} é denotado por P (X = i) ao invés de
P ({X = i}). Finalmente, P (X = i) define uma função f (i) = P (X = i) que é chamada de função
massa de probabilidade pmf.
f (i) = P (X = i) = P ({X = i}) = P ({s ∈ S ; X(s) = i})
Se as 4 moedas são honestas então P (c) = P (k) = 12 . Pela independência das 04 moedas
P ({s}) = P ({s1 s2 s3 s4 }) = P (s1 s2 s3 s4 ) = P (s1 )P (s2 )P (s3 )P (s4 ), logo:
1
1 1 1 1
P (cccc) = P (c)P (c)P (c)P (c) = 2 2 2 2 = 16
1 1 1 1 1
P (ccck) = P (c)P (c)P (c)P (k) = 2 2 2 2 = 16
1 1 1 1 1
P (ckkc) = P (c)P (k)P (k)P (c) = 2 2 2 2 = 16 ,
etc.
1
A probabilidade de qualquer quarteto s1 s2 s3 s4 de S é sempre 16 . Neste caso teremos;
1
f (0) = P (X = 0) = 16
4 1
f (1) = P (X = 1) = 16 = 4
6 3
f (2) = P (X = 2) = 16 = 8
4 1
f (3) = P (X = 3) = 16 = 4
1
f (4) = P (X = 4) = 16
Suponha agora que as moedas não estivessem equilibradas. Por exemplo P (c) = 0.3 e P (k) =
0.7. Então, as probabilidades dos quartetos s1 s2 s3 s4 de S são diferentes do caso das moedas
honestas. Por exemplo, P (cccc) = 0.34 = 0.0081, P (ckkk) = (0.3)(0.73 ) = 0.1029, etc. Para este
caso, organizamos as probabilidades assim:
f (0) = P (X = 0) = P (kkkk) = 0.74 = 0.2401
f (1) = P (X = 1) = 4P (ckkk) = (4)(0.73 )(0.3) = 0.4116
f (2) = P (X = 2) = 6P (cckk) = (6)(0.72 )(0.32 ) = 0.2646
f (3) = P (X = 3) = 4P (ccck) = (4)(0.7)(0.33 ) = 0.0756
f (4) = P (X = 4) = P (cccc) = 0.34 = 0.0081
34
Em qualquer caso, moedas equilibradas ou sem equilı́brio, sempre teremos

X
f (xi ) = f (0) + f (1) + f (2) + f (3) + f (4) = 1
Definição 3.1 Seja X uma variável aleatória finita que toma os valores {x1 , x2 , x3 , . . . , xn }. Uma
distribuição de probabilidades é uma função tal que
1. f (xi ) ≥ 0
n
P
2. f (xi ) = 1
i=1
3. f (xi ) = P (X = xi )
3.1.1 Cálculo de Probabilidades, Média e Variança

Em geral os eventos de uma VA são do tipo A = {a ≤ X ≤ b}, A = {a < X < b}, A = {a ≤ X < b}
etc. Analisamos as técnicas para calcular as probabilidades de estes eventos:
• Se A = {a ≤ X ≤ b} então P (a ≤ X ≤ b) =
P P
P (X = x) = f (x) com x ∈ [a, b] ∩ X
• Se A = {a < X < b} então P (a ≤ X ≤ b) =

P P
P (X = x) = f (x) com x ∈]a, b[∩X
• Se A = {a ≤ X < b} então P (a ≤ X ≤ b) =
P P
P (X = x) = f (x) com x ∈ [a, b[∩X, etc.
Definição 3.2 A esperança de uma variável aleatória é dada por

n
X
E(X) = µX = xi f (xi ). (3.1)
i=1
e a variança é dada por

n
X
2
V AR(X) = σX = (xi − µx )2 f (xi ). (3.2)
i=1
O desvio padrão é a raiz quadrada da variança

p
σX = V AR(X).
Uma fórmula pratica para o calculo da variança é
V AR(X) = E(X 2 ) − (E(X))2
Exemplo 3.2 Considere o experimento de lançar 4 moedas.
35
Temos que X tem 5 elementos X = {x1 , x2 , x3 , x4 , x5 } = {0, 1, 2, 3, 4}. Para o caso das moedas
equilibradas temos as probabilidades
ni
f (xi ) = P (X = xi ) = probabilidade do evento {X = xi } =
16
i xi ni f (xi ) xi f (xi ) x2i x2i f (xi )

1
1 0 1 16 0 0 0
4 1 1
2 1 4 16 4 1 4
6 3 12
3 2 6 16 4 4 4
4 3 27
4 3 4 16 4 9 4
1 1 16
5 4 1 16
P P16 P4 80
4
= 16 =1 =2 16 =5
Temos que a esperança da variável aleatória X é

5
X
µX = E(X) = xi f (xi ) = 2.
i=1
A variança
V AR(X) = E(X 2 ) − (E(X))2 = 5 − 22 = 1
E o desvio padrão é σX = 1.
Cálculo de Probabilidades
Calcularemos
P (0 ≤ X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 1/16 + 4/16 + 6/16 = 11/16.
Para o caso em que P (c) = 0.3 e P (k) = 0.7, com a ajuda de uma Planilha eletrônica podemos
montar a seguinte tabela
xi f (xi ) xi f (xi ) x2i x2i f (xi )

0 0.2401 0.000 0 0.0000
1 0.4116 0.4116 1 0.4116
2 0.2646 0.5292 4 1.05
3 0.0756 0.2268 9 0.6804
4 0.0081 0.0324 16 0.1296
Σ=1 Σ = 1.2 Σ = 2.28
Com isto teremos X

E(X) = xi f (xi ) = 1.2
36
e
VAR(X) = E(X 2 ) − (E(X))2 = 2.28 − (1.2)2 = 0.84
Finalmente o desvio padrão é
σX = 0.9165
Exemplo 3.3 Considere o experimento de lançar 2 dados equilibrados.
O espaço amostral é dado por S= {11,12,13,14,15,16,21,22,23,24,25,26,31,32,33,34,35,36,41,42,43,44,
45,46,51,52,53,54,55,56,61,62,63,64,65,66} Seja X=“soma dos valores das caras”, então temos a se-
guinte tabela de distribuição
i xi ni f (xi ) xi f (xi ) x2i x2i f (xi )
1 1 4
1 2 1 36 18 4 36
1 1 9
2 3 2 18 6 9 18
1 1 16
3 4 3 12 3 16 12
1 5 25
4 5 4 9 9 25 9
5 5
5 6 5 36 6 36 5
1 7 49
6 7 6 6 6 49 6
5 10 80
7 8 5 36 9 64 9
1
8 9 4 9 1 81 9
1 5 100
9 10 3 12 6 100 12
1 11 121
10 11 2 18 18 121 18
1 1 144
11 12 1 144
P P36 P3 P 36
= 36 =1 =7 = 54.833
A esperança é
11
X
µX = E(X) = xi f (xi ) = 7
i=1
A variança
V AR(X) = 54.833 − 72 = 5.833 = 5.833
O desvio padrão é σX = 2.41.
Cálculo de Probabilidades
Neste caso fica pouco prático escrever uma função acumulada em 11 linhas, então o cálculo de
Probabilidades de intervalos é realizado com a definição original. Calculamos
P (4 ≤ X ≤ 6) = P (X = 4) + P (X = 5) + P (X = 6) = 1/12 + 1/9 + 5/36 = 1/3
Exemplo 3.4 Considere a distribuição de probabilidade

xi -1.2 0.5 0.8 1.5 2.0 2.8 5.0 6.1 7.1 8.0
f (xi ) 0.12 0.15 0.02 0.16 0.15 0.12 0.04 0.09 0.05 0.10
Calcular E(X), V AR(X), P (−0.5 ≤ X ≤ 4.95).
37
Organizamos os dados na seguinte tabela
xi f (xi ) xi f (xi ) x2i f (xi )

-1.2 0.120 -0.1440 0.17280
0.5 0.150 0.0750 0.03750
0.8 0.020 0.0160 0.01280
1.5 0.160 0.2400 0.36000
2.0 0.150 0.3000 0.60000
2.8 0.120 0.3360 0.94080
5.0 0.040 0.2000 1.00000
6.1 0.090 0.5490 3.34890
7.1 0.050 0.3550 2.52050
8.0 0.100 0.8000 6.40000
P P P
=1.000 =2.7270 =15.3933
Daı́ temos que a esperança é

X
E(X) = xi f (xi ) = (−1.2)(0.12) + · · · + (8.0)(0.1) = 2.727
enquanto que a variança é
V AR(X) = E(X 2 ) − (E(X))2 = 15.3933 − (2.727)2 = 7.9567
com o qual o desvio padrão é σ = 2.82077

Finalmente
P (−0.5 ≤ X ≤ 4.95) = f (0.5)+f (0.8)+f (1.5)+f (2.0)+f (2.8) = 0.15+0.02+0.16+0.150.12 = 0.60 = 60%
3.2 Distribuição de Probabilidade Acumulada

Definição 3.3 A distribuição probabilidades acumulada de uma variável aleatória X é a função
X
F (x) = P (X ≤ x) = f (xi )
xi ≤x
A distribuição acumulada tem as seguintes propriedades

P
1. F (x) = P (X ≤ x) = f (xi )
xi ≤x
2. 0 ≤ F (x) ≤ 1
3. Se x ≤ y então F (x) ≤ F (y)
38
A função de probabilidade acumulada F (x) = P (X ≤ x) também pode ser utilizada para

calcular probabilidades:
• De F (x) = P (X ≤ x) = P (X < x) + P (X = x) = P (X < x) + f (x) obtemos
P (X < x) = F (x) − f (x)
• Usando propriedades de operações de conjuntos pode-se mostrar que
{a ≤ X ≤ b} = ({x < a} ∪ {x > b})′
Daı́ P (a ≤ X ≤ b) = 1 − P (X < a) − P (X > b) = P (X ≤ b) − P (X < a). Portanto
P (a ≤ X ≤ b) = F (b) − F (a) + f (a)
Exemplo 3.5 Distribuição acumulada no exemplo das 04 moedas equilibradas
X
F (x) = P (X ≤ x) = f (xi )
xi ≤x
onde {x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4} então


 0, se x < 0
1


 , se 0 ≤ x < 1
 16

5

16 , se 1 ≤ x < 2
F (x) = 11

 16 , se 2 ≤ x < 3
15
, se 3 ≤ x < 4


 16


1, se x ≥ 4
Com a formula F (a) − F (b) + f (a) temos
P (0 ≤ X ≤ 2) = F (2) − F (0) − f (0) = 11/16 − 1/16 + 1/16 = 11/16.
3.3 Modelos de Distribuições Discretas

A lista de modelos de distribuição discreta é grande, mencionamos alguns: Bernoulli, Uniforme,
Binomial, Geométrica, Poisson, etc. Estudaremos a Uniforme e a Binomial que é um modelo muito
popular e utilizado.
39
3.3.1 Distribuição Uniforme

Neste modelo a variável aleatória X = {x1 , x2 , . . . , xn } tem a distribuição de probabilidade f (xi ) =
1
n UNIFORME para cada xi .
x x1 x2 ... xk ... xn
1 1 1 1
f (x) n n ... n ... n
Neste caso a Esperança é
n
P
n n xi
X X 1 i=1
E(X) = xi f (xi ) = xi = ,
n n
i=1 i=1
que pode ser reconhecida como a média aritmética dos dados.

Enquanto que a Variança é
n
x2i
P
V AR(X) = E(X 2 ) − µ2X = i=1 − µ2x

n
Finalmente;
|Xab |
P (a ≤ X ≤ b) = ,
n
onde |Xab | significa número de elementos do evento Xab = {xi ∈ X ; a ≤ xi ≤ b} ⊂ X.
Exemplo 3.6 Considere o conjunto das notas de um aluno
X = {7.7, 8.2, 6.1, 4.5}.
Se a distribuição é uniforme então, a esperança das notas é
7.7 + 8.2 + 6.1 + 4.5
E(X) = = 6.625
4
e a esperança dos quadrados das notas é
59.290 + 67.240 + 37.210 + 20.250
E(X 2 ) = = 45.998
4
Com isto, a variança é
V AR(X) = 45.998 − 6.6252 = 2.1074
Para as probabilidades temos X67 = {xi ; 6 ≤ xi ≤ 8} = {6.1}, logo |X67 | = 1 e portanto
1
P (6 ≤ X ≤ 7) =
4
Por outro lado X08 = {4.5, 6.1, 7.7} donde
3
P (0 ≤ X ≤ 8) =
4
40
Exemplo 3.7 Considere um conjunto de números igualmente espaçado

X = {1.3, 1.8, 2.3, 2.8, . . . , 15.3}.
Se X tem distribuição de probabilidade uniforme calcular a média e variança de uma maneira
econômica.
Solução.-
Temos que os elementos de X estão igualmente espaçados por ∆ = 0.5, então chamando de a = 1.3
o primeiro elemento e b = 15.3 = a + 28∆ o último elemento, temos que X possui 29 elementos e
pode ser representado de maneira simbólica da seguinte maneira
X = {a, a + ∆, a + 2∆, . . . , a + 28∆},
Calculamos a soma dos dados:
28 28 28 28
X X X X (28)(29)
xi = a+ i∆ = 29a + ∆ i = 29a + ∆ = 29(a + 14∆)
2
i=0 i=0 i=0 i=0
Com isto
28
P
xi
i=0 a+b
E(X) = = a + 14∆ = .
29 2
ou seja
1.3 + 15.3
E(X) = = 8.3
2
Para a Variança temos
28
(xi − µX )2
P
i=0
V AR(X) =
29
Calculamos
xi − µX = (a + i∆) − (a + 14∆) = (i − 14)∆
Elevando ao quadrado temos
(xi − µX )2 = (i2 − 28i + 194)∆2
Fazendo o somatório
28 28 28
!
X X X
(i2 − 28i + 194)∆2 = ∆2 i2 − 28 i + 194(29)
i=0 i=0 i=0

2 (28)(29)(57) (28)(29) 2 28(57)
=∆ − 28 + 196(29) = 29∆ − 14(28) + 142
6 2 6
= (14)(29)∆2 (19 − 28 + 14) = 5(14)(29)∆2
41
Portanto a variança é
35
V AR(X) = (5)(14)∆2 = = 17.5
2
No Apêndice é exibido a demonstração das formulas da esperança e variança para o caso de
distribuição de probabilidades de uma variável aleatória uniformemente espalhada.
3.3.2 Distribuição Binomial (n, p)

Um experimento binário é aquele cujo espaço amostral S possui exatamente 02 resultados. Os
exemplos clássicos deste tipo de experimentos é o lançamento de uma moeda cujo espaço amostral
é S = {c, k}= cara, corôa ou transmissão de um bit com S = {1, 0}=bit zero, bit um.
Quando um experimento binário é repetido n vezes temos que os espaço amostral S n é um con-
junto de listas ou vetores de comprimento n. A distribuição de probabilidade sobre o espaço
S n é chamada de distribuição binomial. Para maior claridade da nomenclatura ”binomial” desta
distribuição tomemos como exemplo o lançamento de um moeda n vezes. Se a probabilidade de
“cara” é p, isto é P (c) = p, então sabemos que P (k) = 1 − p.
Seja X= “número de caras de uma lista de tamanho n”, então
P ({X = 0})
= P (evento com 0 caras)
P ({X = 1})
= P (evento com 1 cara)
P ({X = 2})
P ({X = 3})
.. .. ..
. . .
P ({X = 4}) = P (evento com n caras)
A única lista do “evento com 0 caras” é {k, k, . . . , k}, todas corôas, logo P (X = 0) = P (kk . . . k)=
P (k)P (k) . . . P (k) = (1 − p)n
O “evento com 1 cara” possui n listas, logo P (X = 1) = nP (ck . . . k)= P (c)P (k) . . . P (k) =
np(1 − p)n−1
n!
Por combinatória pode-se mostrar que o “evento com i caras” tem C(n, i) = (n−i)!(i)! listas, onde
C(n, i) é o coeficiente binomial da expansão (a + b)n . É por isso que esta distribuição é chamada
de distribuição binomial.
Portanto, a probabilidade do evento pontual {X = i} é dado por

n i
f (i) = P (X = i) = p (1 − p)n−i
i
Esperança e Variança da distribuição binomial
µX = E(X) = µ = np (3.3)
42
2
σX = V AR(X) = np(1 − p) (3.4)
Exemplo 3.8 Dada a distribuição binomial X(4, 0.1) calcular P (0 < X ≤ 3), P (−2 ≤ X < 2),
P (1 ≤ X < 5), E(X), σ.
Solução.- A distribuição de probabilidade é

• f (0) = P (X = 0) = 40 (0.1)0 (0.9)4 = 0.94 = 0.6561

• f (1) = P (X = 1) = 41 (0.1)1 (0.9)3 = 4(0.1)0.93 = 0.2916

• f (2) = P (X = 2) = 42 (0.1)2 (0.9)2 = 6(0.1)2 (0.9)2 = 0.0486

• f (3) = P (X = 3) = 43 (0.1)3 (0.9)1 = 4(0.1)3 (0.9) = 0.0036

• f (4) = P (X = 4) = 44 (0.1)4 (0.9)0 = 0.14 = 0.0001,

copiamos estes dados a seguinte tabela

x 0 1 2 3 4
f (x) 0.6561 0.2916 0.0486 0.0036 0.0001
Com isto teremos
• P (0 < X ≤ 3) = f (1) + f (2) + f (3) = 0.2916+0.0486+0.0036= 0.3438 = % 34.28.
• P (−2 ≤ X ≤ 2) = f (0) + f (1) + f (2) = 0.6561+ 0.2916+0.0486 = 0.9963 = % 99.63.
• P (1 ≤ X < 5) = 1 − P (X = 0) = 1-0.6561= 0.3439 = % 34.389.
• E(X) = np = 4(0.1) = 0.4
• V AR(X) = np(1 − p) = 4(0.1)(0.9) = 0.36, donde σ=0.6.
Exemplo 3.9 Uma fabricante de mesas de bilhar suspeita que 2% do seu produto apresenta al-
gum defeito. Se tal suspeita é correta, para uma amostra de 9 mesas, determinar as seguintes
probabilidades:
1. Haja uma defeituosa
2. Haja duas defeituosas
3. Haja 3 defeituosas
4. Haja 6 defeituosas
5. As 9 sejam defeituosas
43
6. Nenhuma seja defeituosa
7. Haja ao menos uma defeituosa
8. Haja pelo menos 3 defeituosas
9. Haja mais de 4 defeituosas
10. Haja menos de 4 defeituosas

2
Solução.- Se p = 100 = 0.02, este caso é modelado pela distribuição binomial X(n, p) com n = 9
e p = 0.02. Usando a formula f (x) = k9 (0.02)k (0.98)9−k construı́mos a tabela da distribuição de

probabilidade
x 0 1 2 3 4 5 ...
f (x) 0.83374 0.15314 0.01250 5.9529 × 10−4 1.82223 × 10−5 3.7189 × 10−7 . . .
... 6 7 8 9 x
... 5.0598 × 10−9 4.4255 × 10−11 2.2579 × 10−13 5.12 × 10−16 f (x)
Então;
1. Probabilidade de que haja uma defeituosa é P (x = 1) = f (1) = 0.15314
2. Probabilidade de duas defeituosas P (x = 2) = f (2) = 0.012501
3. Probabilidade de três defeituosas P (x = 3) = f (3) = 5.9529 × 10−4
4. Probabilidade de seis defeituosas P (x = 6) = f (6) = 5.0598 × 10−9
5. Probabilidade de nove defeituosas P (x = 9) = f (9) = 5.1200 × 10−16
6. Probabilidade de nenhuma ser defeituosa P (x = 0) = f (0) = 0.83375
7. Probabilidade de “ao menos uma defeituosa” é P (X ≥ 1). Como as repetições são indepen-
dentes, temos P (X ≥ 1) = P (X = 1) + P (X = 2) + · · · + P (X = 9). Pela probabilidade
complementar temos
P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0)
Logo
P (X ≥ 1) = 1 − P (X = 0) = 0.16625
8. Pelo mesmo argumento do item anterior
P (X ≥ 3) = 1−P (X < 3) = 1−P (X ≤ 2) = 1−(0.83375+0.15314+0.012501) = 6.09×10−4 .
44
9. Temos
P (X > 4) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)]
= 1 − (0.83375 + 0.15214 + 0.012501 + 5.9529 × 10−4 + 1.8223 × 10−5 )
= 1 − 0.99900 = 0.001
10.
P (X < 4) = P (X ≤ 3) = 0.99998
A esperança e desvio para o caso das mesas defeituosas é
E(X) = np = 9(0.02) = 0.18

enquanto que a para o desvio calculamos a variança;
V AR(X) = np(1 − p) = 9(0.02)(0.98) = 0.1764
com isto √
σ= 0.1764 = 0.42
Os cálculos das probabilidades P (X = k) de uma distribuição binomial (n, p) podem ser reali-
zados de modo simples com o comando
distr.binom(k;n;p;0)
da planilha LibreOfficeCalc ou outras planilhas. Por exemplo, para calcular f (3) = P (X = 3)

do exemplo anterior das mesas executamos distr.binom(3;9;0.02;0) e obteremos de resposta
5.9529 × 10−4 .
Enquanto que para P (X > 4) podemos colocar os valores distr.binom(k;9;0.02;0), k=5,6,7,8,9
em uma coluna da planilha, por exemplo A1, A2, A3, A4, A5 e depois fazer a soma sum(A1:A5)
para obter 0.001. Em inglês o comando é binom.dist.
Também o software livre Octave possui o comando binopdf(k,n,p) que realiza o mesmo cálculo.
Exemplo 3.10 Doze por cento dos que reservam lugar num vôo, sistematicamente faltam ao em-
barque. O avião comporta 15 passageiros.
a) determinar a probabilidade de que todos os 15 que reservaram lugar compareçam ao embarque.
b) Se houve 16 pedidos de reserva determine a probabilidade;
• De uma pessoa ficar de fora
• De nenhuma ficar de fora
• De mais de uma ficar de fora
45
• O avião decolar com menos de 07 passageiros
Solução.-
Se 12 % dos passageiro não comparece ao embarque, então 88% comparecem ao embarque seja X
a variável aleatória
X=“Numero de passageiros que comparecem ao embarque”.
88
a) n=15, p = 100 = 0.88, X(15, 0.88)
Todos os 15 passageiro comparecem ao embarque significa X = 15, logo

15
P (X = 15) = (0.88)15 (0.12)0 = 0.1470
15
88
b) n=16, p = 100 = 0.88, X(16, 0.88)
• Um passageiro ficar fora significa que todos comparecem ao embarque, pois no avião cabem
15: X = 16.
Logo
16
P (X = 16) = (0.88)16 (0.12)0 = 0.1293.
16
• Para nenhum ficar de fora devem comparecer 15 ou menos: X ≤ 15. Logo a probabilidade a
ser calculada é
P (X ≤ 15) = 1 − P (X = 16) = 1 − 0.1293 = 0.8707
• Mais de um ficar de fora significa X > 16 que é um evento impossı́vel com probabilidade zero
isto é P (X > 16) = 0.
• Avião decola com menos de 07 passageiros significa o número de passageiros que comparecem
ao embarque é menor ou igual a 07: X ≤ 7

16 0 16 16 1 15 16
P (X ≤ 7) = (0.88) (0.12) + (0.88) (0.12) + (0.88)2 (0.12)14 + . . .
0 1 2

16 6 10 16
··· + (0.88) (0.12) + (0.88)7 (0.12)9 .
6 7
P (X ≤ 7) = 1.8488 × 10−15 + 2.1693 × 10−13 + 1.1931 × 10−11 + 4.0831 × 10−10

+ 9.7314 × 10−9 + 1.7127 × 10−7 + 2.3026 × 10−6 + 2.4123 × 10−5
= 2.6607 × 10−5
46
Para o caso dos 15 passageiros que fizeram a reserva de viagem temos
E(X) = µX = (0.12)(15) = 1.8

2
σX = (15)(0.12)(0.88) = 1.5840
Finalmente, ara o caso dos 16 passageiros que fizeram a reserva de viagem temos
E(X) = µX = (0.12)(16) = 1.92

2
σX = (16)(0.12)(0.88) = 1.6896
Aplicação do modelo binomial na análise do jogo da mega-sena
Aplicamos a distribuição binomial para fazer a análise da crença popular da existência de es-
trategias para ganhar o jogo mega-sena.
Seja n=“Número total de apostas” (ganhadoras ou perdedoras). Seja X=“Número de apostas ga-
nhadoras”. Então {X = 0}=“Ganhar nada em n tentativas” é complementar do evento G=“Ganhar
pelo menos uma vez em n tentativas”. Daı́;
P (G) = 1 − P (X = 0)
Como o mais importante para um apostador é ganhar, então podemos dizer que evento G pode
ser G=“ganhar na MegaSena em n tentativas”. Sabemos que a probabilidade de ganhar em uma
1 1
tentativa é p = C(60,6) = 50063860 .
Com isto, temos;
P (G) = 1 − P (X = 0) = 1 − C(n, 0)p0 (1 − p)n−0 = 1 − (1 − p)n .

1
Assim para 10 tentativas teremos 1 − (1 − C(60,6) )10 = 1.99744868201179E − 07, em 100 tentativas
1
1−(1− C(60,6) )100 = 1.99744688689218E −06. A tabela a seguir ilustra o número total de tentativas
n e as probabilidades de ganhar P (G) para cada n:
P (G)=“probabilidade de ganhar em n tentativas” é quase nula até para um milhão de vezes,
onde é de 1.97%. Já para 10 milhões de tentativas teremos poucos 18.1% de probabilidade de
ganhar. Todas as “estratégias” que circulam em torno deste jogo (como a teimosinha: apostar a
cada semana no mesmo número), são falazes, pois não consideram o fato crucial da independencia
entre sorteio e sorteio. Se o resultado de um sorteio dependesse do resultado de algum sorteio
anterior, o modelo binomial não seria o mais adequado. Se houvesse dependencia entre sorteios um
modelo melhor seria, por exemplo cadeias de Markov.
47
n P (G)
10 1.99744688689218E-06
100 1.99744688689218E-06
1000 1.99742893294275E-05
10000 0.00019972494049969
100000 0.00199545530837375
106 0.0197763203476904
107 0.181060352386297
3.3.3 Distribuição de Poisson α = λt

Esta distribuição mede o número de ocorrências esperadas em um intervalo de tempo. Para sim-
plicidade considere X=“numero de clientes que entram numa loja em um minuto”. Temos que X
pode assumir os valores 0,1,2,. . . . Onde o evento {X = 0}=“não entra cliente algum num minuto”,
{X = 1}=“entra um cliente em um minuto”, em geral {X = k}=“entram k clientes num minuto”.
Neste modelo assume-se que em lojas semelhantes a média de clientes por minuto que entram nessas
lojas é λ [clientes/minuto]. Daı́ decorre que a média de clientes em t minutos será de α = λt.
Então a probabilidade de que k clientes entram na loja em t minutos é
(α)k
f (k) = P (X = k) = e−α
k!
(α)k
Como ∞ α
P
k=0 k! = e , temos f (k), é uma distribuição de Probabilidade. Note-se que a média
α depende de t.
Pode-se mostrar que
E(X) = λ
e
V AR(X) = λ
Exemplo 3.11 Sabe-se que em média uma loja de sapatos recebe 4 clientes/hora. Qual é a proba-
bilidade da loja receber:
1. nenhum cliente em uma hora
2. 2 clientes em 3 horas e meia
3. 30 clientes em 8 horas
4. Mais 02 clientes em 40 minutos.
48
Sol.-
Como a média α depende do tempo t, cada item do Exercı́cio tem tempos diferentes que implica
αs diferentes.
1. Neste caso temos que α = λt= (4[clientes/hora])(1[hora]) = 4 clientes. Logo
(4)0
P (X = 0) = e−4 = e−4 = 0.018316
0!
2. Neste caso temos que α = λt= (4[clientes/hora])(3.5[hora]) = 14 clientes. Logo
(14)2
P (X = 2) = e−14 = 0.00008149
2!
3. Neste caso temos que α = λt= (4[clientes/hora])(8[hora]) = 32 clientes. Logo
(32)30
P (X = 30) = e−32 = 0.068142
30!
4. Neste caso temos que α = λt= (4[clientes/hora])(2/3[hora]) = 8/3 clientes. Logo
(8/3)2
P (X > 2) = 1 − P (X ≤ 2) = 1 − e−8/3 (1 + 8/3 + ) = 0.49818
2
Para o cálculo das diferentes probabilidades f (k) = P (X = k) de uma variável aleatória de

Poisson de parâmetro α = λt, o comando do LibreofficeCalc é
poisson(k;α;0
Por exemplo, para calcular a probabilidade de 30 clientes em 8 horas que resulta em α = 32, o
commando poisson(30;32;0) devolve o resultado 0.068142153.
Por outro lado, também o software livre Octave pode realizar este cálculo com o comando poisspdf(k,α).
3.4 Exercı́cios
1. Uma variável aleatória X tem a seguinte distribuição de Probabilidade
x −1.2 0.0 0.5 1.2 3.5 5.0 5.1

f (x) 0.30 0.10 0.15 0.08 0.12 0.20 0.05
Calcular E(X), VAR(X), P (0 < X ≤ 5)
Respostas: 1.486; 6.147; 0.55
49
2. Considere a VA do Exercı́cio anterior X = {−1.2, 0.0, 0.5, 1.2, 3.5, 5.0, 5.1} com distribuição
de probabilidade uniforme. Calcular E(X), VAR(X) e P (0 < X ≤ 5)
Respostas: 2.0142; 5.4269; 4/7
3. Se X = {0.4, 0.8, 1.2, . . . 6.4} é uma VA uniformemente espaçada com distribuição de proba-
bilidade uniforme, calcular E(X), VAR(X) e P (X ≤ 3).
Respostas: 3.4; 3.4; 7/16
4. Uma prova com respostas de múltipla escolha tem 25 questões, cada questão com 4 alterna-
tivas de resposta. Suponha que o estudante se limita a ”chutar“ as respostas.
• Qual é a probabilidade que o estudante acertar mais de 20 questões?

• Qual é a probabilidade que o estudante acertar menos de 5 questões?
• Qual é a probabilidade que o estudante acertar entre 4 e 7 questões?
Respostas: 9.6769 × 10−10 ; 0.21374; 0.63029
5. A probabilidade de erro de transmissão por bit em um canal digital é de 0.05 %. Se é

transmitido um pacote de 16 bits, calcular
(a) A probabilidade de todos os 16 bits sejam transmitidos corretamente.

(b) A probabilidade de que mais de 13 bits sejam transmitidos corretamente.
(c) A probabilidade de que menos de 5 bits sejam transmitidos com erro.
Respostas: 0.99203; 1; 1
6. Uma famı́lia tem uma prole de 10 filhos entre homens e mulheres. Considerando que a
probabilidade de ser homem ou mulher é de 50%, para cada, calcular a probabilidade desta
famı́lia ter
(a) 5 meninas e 5 meninos

(b) 3 filhos homens
(c) Dez filhas
(d) Menos de 7 filhos homens
(e) O número de filhos homens estar entre 3 e 5
Respostas: 0.24609, 0.11719, 9.76 × 10−4 , 0.8281, 0.56836
50
7. Amostras de 20 peças de um processo de perfuração de metais são colhidas cada hora. Tipi-
camente 1% das peças precisa de refazer o trabalho. Seja X o número de peças das 20 que
precisam refazer o trabalho. Suspeita-se um problema de processo se X excede sua média em
mais de 3 desvios padrão.
(a) Se o percentual de peças que precisam refazer o trabalho se mantem em 1%, qual é a
probabilidade que X exceda sua média em mais de 3 desvios padrão?
(b) Se o percentual das peças para refazer aumenta para 4% qual é a probabilidade que X
exceda 1?
(c) Se o percentual das peças para refazer aumenta para 4% qual é a probabilidade que X
exceda 1 em pelo menos uma das 5 seguintes horas de amostras?
Respostas:
(a) Se p = 0.01 e n = 20 então µ = np = 0.2, e σ = 0.44972, logo P (X > µ + 3σ) = P (X >

1.5349) = P (X > 1) = 1 − P (X ≤ 1) = 1 − 0.9831 = 0.0169
(b) Se p = 0.04 então P (X > 1) = 0.18966.
(c) Agora n = 5 e pelo item anterior p = 0.18966, logo P (X ≥ 1) = 1 − P (X = 0) = 0.65058
8. A média de falhas (quedas) por mes que sofre um usuário de uma empresa provedora de
internet é de 2 [quedas]/[mes]. Calcular as seguintes probabilidades
(a) Nenhuma queda em uma semana

(b) Duas quedas em uma semana
(c) Oito falhas em 20 dias
(d) 10 falhas em meio ano
(e) Menos de 05 falhas em um mes.
Respostas usando LibreOfficeCalc: 0.606530659712633, 0.0758163324640792, 6.53025379480248E-

05, 0.104837255883659, 0.947346982656289
51
52
Capı́tulo 4
Variáveis Aleatórias Continuas e

4.1 Introdução
Uma variável aleatória X é continua em algum intervalo [a, b] ⊂ R quando assume todos os valores
do intervalo. No entanto, neste caso, a probabilidade de um ponto isolado deve ser nula, pois
se P (X = x) > 0 então a probabilidade de todo o intervalo seria infinita, P ([a, b]) = ∞. Esta
dificuldade é superada com a introdução de densidade de probabilidade.
Definição 4.1 Seja X uma variável aleatória que toma valores num intervalo da reta [a, b] ⊂ R.
Uma densidade de probabilidade é uma função f : [a, b] 7→ R tal que
1. f (x) ≥ 0
Rb
2. a f (x)dx = 1
4.2 Cálculo de probabilidades

Com a densidade de probabilidade f (x) é possı́vel calcular a probabilidade do evento {c ≤ X ≤ d}
utilizando a formula;
Zd
P (c ≤ X ≤ d) = f (x)dx
c
Observamos que para o evento de ocorrência de um ponto isolado {X = x0 }, pelas propriedades

x0R+h
das integrais temos que: P (X = x0 ) = lim f (x)dx = 0.
h→0 x0
53
Em muitas situações, especialmente quando a função densidade não possui uma integração
exata, o cálculo de probabilidades pode ser efetuado com a distribuição de probabilidade
acumulada
Definição 4.2 A distribuição de probabilidade acumulada de uma variável aleatória X é definida

por Z x
F (x) = P (X ≤ x) = f (t)dt
−∞
A distribuição acumulada tem as seguintes propriedades
1. 0 ≤ F (x) ≤ 1
2. Se x ≤ y então F (x) ≤ F (y)
3. P (c ≤ X ≤ d) = F (d) − F (c)
4. P (X > x) = 1 − P (X ≤ x) = 1 − F (x)
Prova.- Suponha que X assume valores em [a, b] e que [c, d] ⊂ [a, b], então;
Rx
1. Se x ≤ a, então F (x) = −∞ f (t)dt = 0.
Rx Ra Rx Rx
Se a ≤ x ≤ b, F (x) = −∞ f (t)dt = −∞ f (t)dt + a f (t)dt = a f (t)dt ≤ 1.
Rx Ra Rb Rx
Se x > b, então F (x) = −∞ f (t)dt = −∞ f (t)dt + a f (t)dt + b f (t)dt = 0 + 1 + 0 = 1
Ry Rx Ry Ry
2. F (y) = −∞ f (t)dt = −∞ f (t)dt + x f (t)dt = F (x) + x f (t)dt ≥ F (x)
3.
Zd Zd Zc
P (c ≤ X ≤ d) = f (x)dx = f (x)dx − f (x)dx
c −∞ −∞
= P (X ≤ d) − P (X ≤ c)
= F (d) − F (c)
4. O complementar do evento {X ≤ x} é o evento {X > x}.
Exemplo 4.1 Seja X uma variável aleatória que toma valores no intervalo [0, 1].
1. Mostrar que a função (

2
3 (x + 1); x ∈ [0, 1]
f (x) =
0; outro caso
é uma densidade de probabilidade.
54
2. Calcular P (0.2 ≤ X ≤ 0.8), P (X ≤ 0.4)
Solução.-
1. Temos que
1 1
x2

2 2
Z Z
1
f (x)dx = (x + 1)dx = +x =1
0 3 0 3 2 0
que confirma f (x) função densidade.
2.
Z0.8
x2

2 2 0.8
P (0.2 ≤ X ≤ 0.8) = (x + 1)dx = +x = 0.119999
3 3 2 0.2
0.2
Para calcular estas mesmas probabilidade com a distribuição acumulada, primeiramente cal-
culamos F (x):
Zx Zx
t2 x2

2 2 2 x 2
F (x) = (t + 1)dt = (t + 1)dt = +t = +x .
3 3 3 2 0 3 2
−∞ 0
Com isto Então calcular F (0.8) − F (0.2) = 0.2666666 − 0.1466666 = 0.11999999

Finalmente P (P (X ≤ 0.4) = F (0.4) = 0.32
4.2.1 Cálculo da Média e Variança

Definição 4.3 A esperança de uma variável aleatória contı́nua X é dada por
Z b
E(X) = µX = xf (x)dx. (4.1)
a
e a variança é dada por

Z b
2
V AR(X) = σX = (x − µx )2 f (x)dx (4.2)
a
O desvio padrão é a raiz quadrada da variança
p
σX = V AR(X)
Uma fórmula pratica para o calculo da variança é
V AR(X) = E(X 2 ) − (E(X))2
55
Exemplo 4.2 X é uma VA com densidade f (x) = 32 (x + 1) para 0 ≤ x ≤ 1
•
1 1
x3 x2

2 2 5
Z Z 1
2
E(X) = xf (x)dx = (x + x)dx = + =
0 3 0 3 3 2 0 9
•
1 1
x4 x3

2 2 7
Z Z
1
2 2 3 2
E(X ) = x f (x)dx = (x + x )dx = + =
0 3 0 3 4 3 0 18
donde
2
7 2 2 5 13
V AR(X) = E(X ) − (E(X)) = − =
18 9 162
4.3 Modelos de Variáveis Aleatórias Contı́nuas

4.3.1 Distribuição Uniforme
Uma variável aleatória X que toma valores no intervalo [a, b] é uniforme se sua densidade f (x) é
1
constante, isto é f (x) = b−a para a ≤ x ≤ b. Claramente temos
•
b b
1
Z Z
f (x)dx = dx = 1
a b−a a
•
b b
1 1 b2 − a 2 a+b
Z Z 1
E(X) = xf (x)dx = xdx = x2 = =
a b−a a 2(b − a) 0 2(b − a) 2
• Pode-se mostrar que a variança é
(b − a)2
V AR(X) =
12
• Se [c, d] ⊂ [a, b] então
d d
1 d−c
Z Z
P (c ≤ X ≤ d) = f (x)dx = dx =
c b−a c b−a
56
Area =
2
Figura 4.1: f (x) = e−x
4.3.2 Distribuição Gaussiana ou Normal

De longe esta é a distribuição de probabilidade mais importante. Todas as “estatı́sticas” das dife-
rentes áreas do conhecimento são baseadas nesta distribuição. Na área das engenharias é conhecida
como “Gaussiana” e na área da matemática é mais conhecida como “Normal”. A densidade de
probabilidade desta distribuição está baseada na função
2
f (x) = e−x
cujo gráfico é mostrado na Figura 4.1 e é conhecida como o “sino de Gauss”. Para maior ilustração,
alguns valores desta função são mostrados na Tabela a seguir:
x -3 -2 -1 0 1 2 3
2
e−x 0.00012 0.018 0.3678 1 0.3678 0.018 0.000123
Esta função não tem integração exata, isto é, no existe uma função elementar F (x) tal que
Z
2
e−x dx = F (x) + C.
Porem para o intervalo (−∞, ∞), pode-se mostrar que

Z∞
2 √
e−x dx = π,
−∞
que é a área embaixo de e−x2 conforme pode ser observado na Figura 4.1.
2
Isto significa que f (x) = √1π e−x é uma densidade de probabilidade. Calculamos a média,
Z∞ Z∞ ∞
1 −x2 1 2
E(X) = xf (x)dx = √ xe dx = − √ e−x =0
π 2 π
−∞ −∞ −∞
57
Por outro lado podemos calcular a variança utilizando a formula
1 1
Z Z
2 −x2 2 2
x e = e−x − xe−x ,
2 2
que pode ser obtida integrando por partes.
2 = V AR(X) = E(X 2 ) − (E(X))2 = E(X 2 ), donde:
Então σX
Z∞
2 1 2 1
σX =√ x2 e−x dx = .
π 2
−∞
Para obter uma função densidade Gaussiana que tenha média µ e variança σ 2 arbitrárias,
fazemos a substituição
y−µ
x= √
2σ
então temos
dy
dx = √
2σ
e
(y − µ)2
x2 = ,
2σ 2
com isto;
∞ ∞ (y−µ)2 ∞ (y−µ)2
1 1 dy 1
Z Z Z
−x2 −
1= √ e dx = √ e 2σ 2 √ =√ e− 2σ 2 dy
π −∞ π −∞ 2σ 2πσ −∞
que mostra que função

1 (x−µ)2
f (x) = √ e− 2σ2 ,
2πσ
é uma função densidade com µ = E(X) e σ 2 = V AR(X). Esta densidade Gaussiana geral é
denotada por X(µ, σ) e tem as seguintes propriedades:
• E(X) = µ e V AR(X) = σ 2
• Simetria respeito da média µ: f (µ − x) = f (µ + x). No caso particular µ = 0 temos

f (x) = f (−x).
• P (µ − σ ≤ X ≤ µ + σ) = 0.68268 = 68.268 % (Figura 4.2)
• P (µ − 2σ ≤ X ≤ µ + 2σ) = 0.95449 = 95.449 % (Figura 4.2)
• P (µ − 3σ ≤ X ≤ µ + 3σ) = 0.9973 = 99.73 % (Figura 4.2)
58
68.3%
95.5%
99.7%
Figura 4.2: Probabilidades dos intervalos {µ − kσ ≤ X ≤ µ + kσ}, k=1,2,3
Exemplo 4.3 Estudar a densidade Gaussiana X(0, 0.5), X(0, 1), e X(0, 1.5)
• Para X(0, 0.5), temos

2
1 − x 2 2
f (x) = √ e 2(0.5)2 = √ e−2x
2π(0.5) 2π
x -1.5 -1 -0.5 0 0.5 1 1.5

f (x) 0.0088637 0.10798 0.48394 0.79788 0.48394 0.10798 0.0088637
• Para X(0, 1), temo temos

2
1 −
(x−0)
1 −x2
f (x) = √ e 2(1)2 = √ e 2
2π(1) 2π
x -3 -2 -1 0 1 2 3
f (x) 0.0044318 0.053991 0.24197 0.39894 0.24197 0.053991 0.0044318
• Para X(0, 1.5), temos

2
1 − x 2 −x2
f (x) = √ e 2(1.5)2 = √ e 4.5
2π(1.5) 3 2π
x -3 -2 -1 0 1 2 3
f (x) 0.035994 0.109340 0.212965 0.265962 0.212965 0.109340 0.035994
59
Figura 4.3: Densidades Gaussianas X(0, 0.5), X(0, 1), e X(0, 1.5)
4.3.3 Cálculo de probabilidades em X(µ, σ 2 )

Em geral para a Gaussiana X(µ, σ), a probabilidade P (a ≤ X ≤ b) é calculada com
P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) =
Zb Za Zb
1 (x−µ)2 1 (x−µ)2 1 (x−µ)2
− −
√ e 2σ 2 dx − √ e 2σ 2 dx = √ e− 2σ 2 dx
2πσ 2πσ 2πσ
−∞ −∞ a
Como foi dito linhas acima, nenhuma destas integrais pode ser calculada de maneira exata.
Então, estas integrais são calculadas com métodos de aproximação numéricos.
Cálculo de probabilidades usando software
Para esta distribuição Gaussiana ou Normal, existe uma quantidade razoavelmente grande de
software livre ou pago, tanto para computadores, dispositivos móveis, ou online, que permite cal-
cular diretamente P (X ≤ a). Alguns destes softwares até possuem uma interface gráfica intuitiva.
60
Mencionamos, aqui, somente dois deles;
Software LibreOfficeCalc
Para calcular P (X ≤ x) da distribuição X(µ, σ) a sintaxe é:
dist.norm(x;µ;σ;1)
Por exemplo para calcular P (2 ≤ X ≤ 5) na distribuição Gaussiana X(3, 1) temos:
P (X ≤ 5) = dist.norm(5;3;1;1) = 0.97724
P (X ≤ 2) = dist.norm(2;3;1;1) = 0.15865
Portanto
P (2 ≤ X ≤ 5) = P (X ≤ 5) − P (X ≤ 2) = 0.97724-0.15865=0.81859
Na interface em inglês o comando é norm.dist.
Por outro lado, o cálculo de x que resolve a = P (X ≤ x) = F (x) é factı́vel pois a probabilidade
acumulada F (x) = P (X ≤ x) é uma função estritamente crescente, portanto possui função inversa
F −1 . Daı́, a sintaxe para calcular x = F −1 (a) é;
inv.norm(a;µ;σ)
Por exemplo, em X(3, 1), se queremos saber qual é o valor x tal que P (X ≤ x) = 0.45 então
calculamos
x=F −1 (0.45) = inv.norm(0.45;3;1)=2.8743
Isto significa que P (X ≤ 2.8743) = 0.45 conforme podemos verificar novamente com norm.dist.
Na interface em lı́ngua inglesa o comando é norminv.
Software Octave
Para calcular P (X ≤ x) em X(µ, σ) é
normcdf(x, µ, σ)
Por exemplo para calcular P (1 ≤ X ≤ 4), em X(6, 2) temos
P (1 ≤ X ≤ 4) = normcdf(4,6,2)-normcdf(1,6,2)= 0.1524
Por outro lado, para calcular o valor de x em a = P (X ≤ x) a sintaxe é
61
norminv(a, µ, σ).
Por exemplo para calcular o valor x em P (X ≤ x) = 0.8 em X(6, 2)
x=F −1 (0.8) = norminv(0.8,6,2)=7.6832
que significa que P (X ≤ 7.6832) = 0.8 conforme pode ser verificado com normcdf(7.6832,6,2).
Além disso, existem várias calculadoras web tais como shiny.leg.ufpr.br/hektor/calc dist/,
www.hackmath.net/en/calculator/normal-distribution etc. onde é possı́vel fazer estes cálculos
de maneira gráfica.
Cálculo manual usando Tabela de Z

Em tempos passados, quando não existia essa disponibilidade massiva de softwares, a única maneira
de calcular as probabilidades P (a ≤ X ≤ b) para a Gaussiana ou Normal X(µ, σ) era com a Tabela
da distribuição X(0, 1) que é a distribuição Gaussiana de média zero e desvio um. Esta distribuição
é chamada de distribuição padrão e sua importância era tal que merecia sua própria nome de
variável z. Assim, sua densidade é escrita como
1 −z2
f (z) = √ e 2
2π
e a variável é denotada como Z = Z(0, 1) ao invés de X(0, 1). Para muitos cálculos, como em
estatı́stica inferencial, esta Tabela de Z ainda tem importância nos dias de hoje.
Dada uma distribuição Gaussiana qualquer X(µ, σ), na integral que calcula as probabilidades,
podemos fazer mudança de de variáveis z = x−µ σ .Então, temos dz = dx/σ e
b−µ
b (x−µ)2
1 1
Z Z
σ z
−
P (a ≤ X ≤ b) = √ e 2σ 2 dx = √ e− 2 σdz =
2πσ a 2πσ a−µ
σ
b−µ
1 a−µ b−µ
Z
σ
− z2
√ e dz = P ≤Z≤
2π a−µ σ σ
σ
Se representarmos por Φ(z) a probabilidade acumulada:

Zz
1 2 /2
Φ(z) = P (Z ≤ z) = √ e−u du
2π
−∞
teremos que
P (z1 ≤ Z ≤ z2 ) = Φ(z2 ) − Φ(z1 ).
Portanto
b−µ a−µ
P (a ≤ X ≤ b) = Φ −Φ = Φ(z2 ) − Φ(z1 )
σ σ
62
A tabela de Z é a tabela da função Φ(z)
Exemplo 4.4 Considere uma população que obedece uma distribuição normal de média µ = 6 e
desvio σ = 2, calcular a probabilidade de um elemento da população estar entre 1 e 4.
1−6
Transformamos os pontos x = 1 e x = 4 em pontos da distribuição padrão. z1 = 2 = −2.5 e
z2 = 4−6
2 = −1. Logo
P (−2 ≤ X ≤ 1) = P (−2.5 ≤ Z ≤ −1) = Φ(−1) − Φ(−2.5)
Na tabela de Φ temos que

Φ(−1) = 0.15866
e
Φ(−2.5) = 0.0062097
Portanto
P (−2 ≤ X ≤ 1) = P (−2.5 ≤ Z ≤ −1) = Φ(−1) − Φ(−2.5) = 0.15245.
4.3.4 Cálculo de erros com as funções Q e Φ

Das técnicas de cálculo, por Tabelas ou Software temos que a função de probabilidade acumulada
Rx −u2 /2
da Gaussiana padronizada Φ(x) = √12π e du assume um rol muito importante no cálculo de
−∞
probabilidades. Algumas propriedades importantes desta função são
• Φ(x) + Φ(−x) = 1
• Φ(−∞) = 0, Φ(0) = 0.5, Φ(∞) = 1
• Φ é crescente
Em processos de comunicação digital uma medida importante é a probabilidade de transmissão

com erro P (ǫ) e esta probabilidade de erro é medido pelo complementar de Φ que é a função Q
Zx +∞
1 1
Z
−u2 /2 2
Q(x) = 1 − Φ(x) = 1 − √ e du = √ e−u /2 du
2π 2π
−∞ x
A função Q tem propriedades semelhantes (simetricamente contrários) a Φ
• Q( x) + Q(−x) = 1
• Q(−∞) = 1, Q(0) = 0.5, Q(+∞) = 0
63
• Q é decrescente
Por exemplo, mostraremos no seguinte Cap. 5 que, a probabilidade de erro per bit de transmissão
de um canal BPSK-AWGN é r !
2Eb
P (ǫ) = Q
N0
onde
Eb =“Energia per bit” em Joules/bit,
N0 =“Densidade Espectral de potencia do ruido Gaussiano” em Watts/Hertz.
4.3.5 Aproximação da distribuição binomial pela distribuição Gaussiana

Uma população discreta com distribuição binomial de p
parametros n e p pode ser aproximada por
uma distribuição normal de parametros µ = np e σ = np(1 − p). As melhores aproximações são
obtidas quando n é grande e p esta próximo de 0.5.
Então
n a
P (X = a) = p (1 − p)n−a
a
é aproximado por
!
a − 0.5 − np a + 0.5 − np
P (a − 0.5 ≤ X ≤ a + 0.5) = P p ≤z≤ p
np(1 − p) np(1 − p)
Exemplo 4.5 Considere a distribuição binomial com parâmetros n = 30 e p = 0.4. Calcular pelo
método binomial P (X = 8). Aproximar esta estatı́stica pela distribuição normal
Pela formula do binomial:

30
P (X = 8) = (0.4)8 (0.6)22 = 5852925(6.5536 × 10−4 )(1.3162 × 10−5 ) = 0.05048
8
Por outro lado, usando a aproximação normal teremos
8 − 0.5 − 30(0.4) −4.5

z1 = p = = −1.6791
30(0.4)(0.6) 2.68
8 + 0.5 − 30(0.4) −3.5
z2 = p = = −1.3059
30(0.4)(0.6) 2.68
Logo
P (−1.6791 ≤ Z ≤ −1.3059) = 0.4530 − 0.4040 = 0.0490.
Que é uma aproximação com erro de 0.00148.
64
4.3.6 A distribuição Exponencial

Na distribuição de Poisson X=“Número de ocorrências em t segundos”, com média de ocorrências
igual a λ [ocorrências/segundo]. Considere a variável aleatória T =“Número de segundos até a
primeira ocorrência”; temos que o evento “Nenhuma ocorrência em t segundos”={X = 0} é equi-
valente ao evento {T > t}. Logo,
P (X = 0) = e−λt = P (T > t) = 1 − P (T ≤ t) = F (t)
Daı́ F (t) = 1 − e−λt e

f (t) = λeλt , t≥0
é uma densidade de probabilidade que em estatı́stica se escreve f (x) = λe−λx chamada de densidade
Exponencial. Podemos calcular que E(X) = λ1 e V AR(X) = λ12 .
Para as probabilidades
P (a ≤ X ≤ b) = (1 − e−λb ) − (1 − e−λa ) = e−λa − e−λb
4.4 Funções de uma variável aleatória Y = g(X)

Para uma V.A. X com pdf ou pmf f (x), temos que Y = g(X) também é uma V.A. cuja esperança
é
Z∞
E(Y ) = g(x)f (x)dx
−∞
e variança
V AR(Y ) = E(Y 2 ) − E(X)2
Se g(X) é invertı́vel, isto é, X = g −1 (Y ), então
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)
e portanto
fY (y) = fX (g −1 (y))
Para o caso Y = aX + b
Z∞ Z∞ Z∞
E(Y ) = E(aX + b) = (ax + b)f (x)dx = a xf (x)dx + f (x)dx = aE(X) + b
−∞ −∞ −∞
65
Em particular, se b = 0 então
E(aX) = aE(X).
Para a Variança V AR(Y ) = E(Y 2 ) − (E(Y ))2 , calculamos
E(Y 2 ) = E((aX + b)2 ) = E(a2 X 2 + 2abX + b2 ) = a2 E(X 2 ) + 2abE(X) + b2
Por outro lado

(E(Y ))2 = (aE(X) + b)2 = a2 (E(X))2 + 2abE(X) + b2
donde
V AR(X) = a2 (E(X 2 ) − (E(X))2 = a2 V AR(X).
4.5 Exercı́cios
1. Dada a densidade de probabilidade f (x) = 61 (2x + 1), 0 ≤ x ≤ 2. Calcular E(X), VAR(X) e
P (X ≤ 1) e também calcular x tal que P (X ≤ x) = 0.7
Respostas: 11/9; 23/81; 1/3; 1.6095
2. Para a densidade de probabilidade uniforme no intervalo [−1, 2], calcular E(X), VAR(X),
P (0 ≤ X ≤ 1). Encontrar x tal que P (X ≤ x) = 0.9.
Respostas: 1/2; 3/4; 1/3; 1.7
3. Dada uma distribuição normal(Gaussiana) X(1.2, 0.8). Calcular P (0 ≤ X ≤ 1). Também
encontrar o valor de x tal que P (x ≤ X ≤ 2.5) = 0.5.
Respostas: 0.3345; 1.0952
4. A amplitude de um conjunto de sinais digitais recepcionados num canal de comunicações tem
distribuição gaussiana com média de 5 volts e desvio padrão de 0.1 volt. a) Que percentagem
deste sinais tera uma amplitude menor do que 5.12 volts? b) Qual é a amplitude x tal que o
conjuntos de sinais com amplitude superior a x tem probabilidade de 3% ?
Respostas: 88.49%, 5.1881
5. Sabe-se que o conteúdo de cerveja numa lata de 12 oz, de uma marca determinada, tem
distribuição aproximadamente normal com média 12 oz e desvio padrão de 0,25 oz.
(a) Que percentagem de latas terá menos de 11,6 oz?
(b) Que percentagem apresentará variação não superior a 0,3 oz em relação à média?
(c) Qual a probabilidade de, numa amostra de 4 latas, todas as quatro terem conteúdo
inferior a a 12 oz?
Respostas: a) P (X ≤ 11.6) = 0.054799; b) P (X ≤ µ + 0.3) = P (X ≤ 12.3)= 0.8849; c)
P (X ≤ 12)4 = (0.5)4 = 0.0625.
66
Capı́tulo 5
Conjuntas
Muitos experimentos aleatórios envolvem várias Variáveis Aleatórias. Em alguns experimentos é

medido um número de diferentes quantidades. Por exemplo selecionar aleatoriamente um grupo de
06 estudantes e anotar seu peso e altura. Neste experimento temos dua variáveis aleatórias: X =
Peso de estudantes em Kg., Y = Altura de estudantes em metros.
Est. Peso Altura

1 56 1.60
2 83 1.81
3 72 1.72
4 66 1.64
5 69 1.75
6 75 1.72
5.1 Variáveis aleatórias conjuntas XY e distribuição conjunta fXY (x, y)

Definição 5.1 Dado o par de variáveis aleatórias X, Y discretas, uma distribuição de probabilidade
conjunta sobre X, Y é uma função f que satisfaz
• fXY (x, y) ≥ 0
•
PP
fXY (x, y) = 1
X Y
• fXY (x, y) = P (X = x, Y = y)
67
Exemplo 5.1 Considere as variáveis aleatórias X = {1.2, 2.4, 3.1, 3.9, 4.6} e Y = {1, 3, 5, 7} com
a distribuição conjunta de probabilidade fXY (x, y) dada na Tabela 5.1
X
1.2 2.4 3.1 3.9 4.6
1 0.03 0.04 0.05 0.01 0.07
3 0.10 0.07 0.06 0.10 0.02
Y 5 0.09 0.05 0.08 0.02 0.01
7 0.07 0.01 0.08 0.02 0.02
Tabela 5.1: Distribuição conjunta de probabilidade fXY (x, y) do Exemplo 5.1
Temos que fXY satisfaz as condições da Definição 1.
Podemos fazer o gráfico das distribuições de duas VA discretas com o comando stem3(x,y,z) do
Octave. Para isto é necessário que X esteja ordenado de menor a maior.
Soma dos pesos

0.1
é1
0.08
0.06
0.04
0.02
0
7
6 5
5 4
4
3
3
2 2
1 1
Definição 5.2 Dado o par de variáveis aleatórias X, Y contı́nuas, uma densidade de probabilidade
conjunta sobre X, Y é uma função f que satisfaz
• fXY (x, y) ≥ 0
•
RR
fXY (x, y)dxdy = 1
R2
68
• Para qualquer região R ⊂ R2 :

RR
fXY (x, y)dxdy = P ((X, Y ) ∈ R)
R
Exemplo 5.2 Considere a seguinte função

(
1
(x + y), (x, y) ∈ [0, 2] × [0, 1]
fXY (x, y) = 3
0, outro caso
Temos
2Z 1 2Z 1
1
Z Z
fXY (x, y)dydx = (x + y)dydx =
0 0 3 0 0
1 2 1 2
Z Z
2 y=1
[xy + y /2]y=0 dydx = (x + 1/2)dx = 1
3 0 3 0
Então fXY é uma distribuição conjunta de probabilidade.
(x + y) / 3
0.8
0.6
0.4
0.2
Volume embaixo
0
1 do Plano é 1
0.8
0.6
2
0.4 1.5
y
0.2 1
0.5 x
0 0
Exemplo 5.3 A função

(
6a2 e−ax e−2ay se 0 < x < y
fXY (x, y) =
0 em outro caso,
onde a = 10−3 , é umaRRdensidade de probabilidade pois fXY (x, y) ≥ 0 para todo (x, y) ∈ R2 . Para
provar que a integral fXY (x, y)dA = 1, considere a região
R = {(x, y) ∈ R2 ; 0 < x < y},
69
então
Z∞ Z∞
 
ZZ ZZ
fXY (x, y)dydx = 6a2 e−ax e−2ax dydx = 6a2 e−ax  e−2ax dy  dx =
R2 R 0 x
Z∞ Z∞ Z∞
2 −ax 1 −2ay ∞
−ax −2ax
6a e e dx = −3a e (0 − e )dx = 3a e−3ax dx = 1
−2a x
0 0 0
5.1.1 Variáveis Aleatórias Marginais X, Y e suas distribuições fX (x), fY (y)

Definição 5.3 Dada uma distribuição conjunta discreta fXY (x, y) as marginais fX e fY e suas
respectivas E(X), E(Y ), V AR(X), V AR(Y ) estão definidas por
P
fX (x) = fXY (x, y)
y
P
fY (y) = fXY (x, y)
xP PP
E(X) = xfX (x) = xfXY (x, y)
x x y
P P P
E(Y ) = yfY (y) = yfXY (x, y)
y x y
V AR(X) = E(X 2 ) − (E(X))2
V AR(Y ) = E(Y 2 ) − (E(Y ))2
Definição 5.4 Dada uma distribuição de densidade conjunta fXY (x, y) as marginais fX e fY e
suas respectivas E(X), E(Y ), V AR(X), V AR(Y ) estão definidas por
R
fX (x) = fXY (x, y)dy
R
R
fY (y) = fXY (x, y)dx
RR RR
E(X) = xfX (x)dx = xfXY (x, y)dydx
R R 2
R RR
E(Y ) = yfY (y)dx = yfXY (x, y)dydx
R R2
V AR(X) = E(X 2 ) − (E(X))2
V AR(Y ) = E(Y 2 ) − (E(Y ))2
Exemplo 5.4 (Continuação do Exemplo 5.1)
x 1.2 2.4 3.1 3.9 4.6

fX (x) 0.29 0.17 0.27 0.15 0.12
y 1 3 5 7
fY (y) 0.20 0.35 0.25 0.20
70
5
X
E[X] = xk fX (xk ) = 1.2(0.29) + 2.4(0.17) + 3.1(0.27) + 3.9(0.15) + 4.6(0.12) = 2.73
k=1
4
X
E[Y ] = xk fY (yk ) = 1(0.20) + 3(0.35) + 5(0.25) + 7(0.20) = 3.9
k=1
V AR[X] = E[X 2 ] − (E[X])2

Cálculo de E[X 2 ]
5
X
E[X 2 ] = x2k fX (xk ) = 1.22 (0.29) + 2.42 (0.17) + 3.12 (0.27) + 3.92 (0.15) + 4.62 (0.12) = 8.8122
k=1
V AR[X] = 8.8122 − 2.732 = 1.3593

e com isto o desvio é
σX = 1.1659
V AR[Y ] = E[Y 2 ] − (E[Y ])2

Cálculo de E[Y 2 ]
4
X
2
E[Y ] = yk2 fY (yk ) = 12 (0.20) + 32 (0.35) + 52 (0.25) + 72 (0.20) = 19.4
k=1
V AR[Y ] = 19.4 − 3.92 = 4.19

e com isto o desvio é
σY = 2.0469
1 1
1 1 1
Z Z
fX (x) = fXY (x, y)dy = (x + y)dy = x+
0 3 0 3 2
2 2
1 2
Z Z
fY (y) = fXY (x, y)dx = (x + y)dy = (y + 1)
0 3 0 3
R2 R1
Claramente 0 fX (x)dx = 1 e 0 fY (y)dy = 1, com isto
71
2 2
1
Z Z
E[X] = xfX (x)dx = x(x + 1/2)dx =
0 3 0
2 2
1 x3 x2

1 1 11
Z
2
= (x + x/2)dx = + = (8/3 + 1) = ≈ 1.222
3 0 3 3 4 0 3 9
V AR[X] = E[X 2 ] − E[X]2

Cálculo de E[X 2 ]
2
1 2 2
Z Z
2 2
E[X ] = x fX (x)dx = x (x + 1/2)dx =
0 3 0
2
1 2 3 1 x4 x3

1 16
Z
2
= (x + x /2)dx = + = (16/4 + 8/6) = ≈ 1.77778
3 0 3 4 6 0 3 9
2
16 11 23 2 2
V AR[X] = E[X ] − E[X] = − = ≈ 0.28396
9 9 81
logo o desvio padrão é
σX = 0.53288
1 1
2
Z Z
E[Y ] = yfY (y)dy = y(y + 1)dy =
0 3 0
2 1
2 y3 y2

2 2 5
Z
2
= (y + y)dy = + = (1/3 + 1/2) = ≈ 0.5555
3 0 3 3 2 0 3 9
V AR[Y ] = E[Y 2 ] − E[Y ]2

Cálculo de E[Y 2 ]
1 1
2
Z Z
2 2
E[Y ] = y fY (y)dy = y 2 (y + 1)dy =
0 3 0
2 1
2 y4 y3

2 2 7
Z
3 2
= (y + y )dy = + = (1/4 + 1/3) = ≈ 0.38888
3 0 3 4 3 0 3 18
2
7 5 13 2 2
V AR[Y ] = E[Y ] − E[Y ] = − = ≈ 0.080252
18 9 162
logo o desvio padrão é
σY = 0.28329
72
Z∞ Z ∞
2 −ax −2ay 2 −ax
fX (x) = 6a e e dy = 6a e e−2ay dy = 3ae−3ax x>0
x
x
Temos que fX (x) é uma distribuição do tipo exponencial f (x) = λe−λx , λ > 0, cuja média são
dadas por E(X) = λ1 e V AR(X) = λ12 , respectivamente.
Utilizando estas formulas da esperança e variança para a densidade exponencial, temos que
1
E[X] = 3a = 333.333,
2 1
σX = 2
9a
1
donde σX = 3a = 111.11
Por outro lado escrevendo fY (y) = 6ae−2ay − 6ae−3ay = 3(2ae−2ay ) − 2(3ae−3ay )

temos
1 1 5
E[Y ] = 3( 2a ) − 2( 3a ) = 6a = 833.333
Para calcular σY = E[Y ] − E[Y ]2 calculamos
2 2
Z∞
2
E[Y ] = y 2 (6ae−2ay − 6ae−3ay )dy
0
Z∞ Z∞
2 −2ay
=3 y (2ae )−2 y 2 (3ae−3ay )dy
0 0

2 2 6 4 19
=3 −2 = − = .
(2a)2 (3a)2 4a2 9a2 18a2
Então 2
19 5 13
V AR[Y ] = σY2 = − =
18a2 6a 36a2
√
13
donde σY = 6a = 600.93.
5.2 Covariância σXY e ı́ndice de correlação ρXY

Definição 5.5 Dadas as variáveis aleatórias (X, Y ) a covariância é dada por
σXY = COV (X, Y ) = E(XY ) − E(X)E(Y )
73
e o ı́ndice de correlação é dado por

σXY
ρXY =
σX σY
Exemplo 5.7 (Continuação do ExemploP P 5.1)
Para calcular eficientemente E[XY ] = xyfXY (x, y) organizamos os produtos xyfXY (x, y) na
y y
seguinte Tabela
X
1.2 2.4 3.1 3.9 4.6
1 0.036 0.096 0.155 0.039 0.322
3 0.360 0.504 0.558 1.170 0.276
Y 5 0.540 0.600 1.240 0.390 0.230
7 0.588 0.168 1.736 0.546 0.644
Tabela 5.2: Distribuição dos produtos xyfXY (x, y) (Continuação do 5.1)
Portanto a correlação é
E[XY ] = 10.198
e a covariância
σXY = E[XY ] − E[X]E[Y ] = 10.198 − (2.73)(3.9) = −0.449
e o ı́ndice de correlação
σXY −0.449
ρXY = = = −0.18814
σX σY (1.1659)(2.0469)
1Z 2
1 1 2 2
Z Z Z
E[XY ] = xyfXY (x, y)dydx = (x y + xy 2 )dydx
0 0 3 0 0
1
1 2 2 y2 y3 1 2 x2 x
Z Z
1 3 2 2
x +x dx = + dx = x + x2 0 = .
3 0 2 3 0 3 0 2 3 18 3
então
2 11 5 1
COV [X, Y ] = E[XY ] − E[X]E[Y ] = − =−
3 9 9 81
e o ı́ndice de correlação é:
σXY −1/81 1
ρXY = =p p = −p = −0.081786
σX σY 23/81 13/162 23(13/2)
74
Calculo de
Z∞ Z∞
E[XY ] = xy6a2 e−ax e−2ay dxdy
0 x
Z∞
∞ 
Z
= 6a2 xe−ax dx  ye−2ay dy 
0 x
Z∞ ∞
(−2a)y − 1 −2ay
= 6a2 xe−ax dx e
(−2a)2 x
0
Z∞
−2ax − 1 −2ax
= 6a2 xe−ax dx 0 − e
4a2
0
Z∞ Z ∞ Z ∞
3 1
= (2ax + 1)xe−3ax dx = x2 (3ae−3ax )dx + x(3ae−3ax )dx
2 0 2a 0
0

2 1 1 7
= 2+ =
9a 2a 3a 18a2
Portanto

7 1 5 1
σXY = − = = 111111.111
18a2 3a 6a 9a2
enquanto que
1/9a2 2
ρXY = p p = √ = 0.5547
2
1/9a 13/36a 2 13
5.3 Distribuições de probabilidade e densidade condicionais

5.3.1 Caso discreto
Lembrando
P (A ∩ B)
P (A|B) = ,
P (B)
fazendo A = {X = x}, B = {Y = y} temos
P (X = x, Y = y) fXY (x, y)
P (X = x|Y = y) = =
P (Y = y) fY (y)
75
a probabilidade condicional P (X = x|Y = y) é denotada por fX|y (x) e também é uma distribuição
de probabilidade de X para cada y fixo:
fXY (x, y)
P (X = x|Y = y) = fX|y (x) =
fY (y)
Analogamente
fXY (x, y)
P (Y = y|X = x) = fY |x (y) =
fY (x)
X
1.2 2.4 3.1 3.9 4.6
1 0.03 0.04 0.05 0.01 0.07
3 0.10 0.07 0.06 0.10 0.02
Y 5 0.09 0.05 0.08 0.02 0.01
7 0.07 0.01 0.08 0.02 0.02
Tabela 5.3: Distribuição conjunta de probabilidade fXY (x, y)
Calculamos
fXY (1.2, y) fXY (1.2, y)
fY |1.2 (y) = f (y|1.2) = =
fX (1.2) 0.29
Por exemplo para y = 3 temos
fXY (1.2, 2) 0.10

f (3|1.2) = = = 0.34483
0.29 0.29
y 1 3 5 7
f (y|1.2) 0.10345 0.34483 0.31034 0.24138
Como 4k=1 f (yk |1.2) = 0.10345+0.34483+0.31034+0.24138 = 1 então f (y|1.2) é uma distribuição

P
de probabilidade. Como tal tem esperança
4
X
E[Y |1.2] = yk f (yk |1.2) = 1(0.10345) + 3(0.34483) + 5(0.31034) + 7(0.24138) = 4.3793
1
76
5.3.2 Caso continuo

Para obter a densidade condicional não podemos aplicar a formula P (A|B) = P P(A∩B)
(B) diretamente
sobre as densidades. O raciocı́nio é sobre os acumulados
R y R x+∆x
P (Y ≤ y, x ≤ X ≤ x + ∆x) fXY (u, v)dudv
P (Y ≤ y|x ≤ X ≤ x + ∆x) = = −∞ Rx x+∆x
P (x ≤ X ≤ x + ∆x) fX (u)du x
Por um teorema de cálculo avançado
R y R x+∆x Ry Ry
−∞ x fXY (u, v)dudv −∞ ∆xfXY (x, v)dv fXY (x, v)dv
lim R x+∆x = = −∞
∆x7→0 fX (u)du ∆xfX (x) fX (x)
x
Portanto podemos escrever
Ry
−∞ fXY (x, v)dv
P (Y ≤ y|X = x) = .
fX (x)
R y
∂ −∞ fXY (x,v)dv
Donde, efetuando a derivação parcial ∂y fX (x) , obtemos a densidade condicional
fXY (x, y)
f (y|x) = .
fX (x)
Analogamente para a reciproca f (x|y) podemos obter
fXY (x, y)
f (x|y) = .
fY (y)
Considere o exemplo
(
1
(x + y), (x, y) ∈ [0, 2] × [0, 1]
fXY (x, y) = 3
0, outro caso
Temos

fXY (0.6, y) 30 30 1 3 6 10
fX|0.6 (y) = f (y|0.6) = = fXY (0.6, y) = +y = + y, y ∈ [0, 1]
fX (0.6) 11 11 3 5 11 11
Observamos que
1 1
6 10y
Z Z
f (y|0.6)dy = + dy = 1
0 0 11 11
portanto f (y|0.6) é uma distribuição de probabilidade que tem esperança e variança.
Z 1 Z 1
6y 10y 2

19
E[Y |0.6] = yf (y|0.6)dy = + dy = ≈ 0.57576
0 0 11 11 33
77
5.4 Aplicações da covariança

5.4.1 Covariância de aX e bY
COV (aX, bY ) = E(aXbY ) − E(aX)E(bY )
Calculamos
ZZ ZZ
E(aXbY ) = axbyfXY (x, y)dydx = ab xyfXY (x, y)dydx = abE(XY ).
R2 R2
Portanto
COV (aX, bY ) = abE(XY ) − E(aX)E(bY ) = abE(XY ) − abE(X)E(Y ) = abCOV (X.Y ).
5.4.2 Variável soma Z = X + Y

Dadas as variáveis aleatórias X e Y com distribuição conjunta fXY (x, y) estudamos avariável
aleatória Z = X + Y cuja Esperança e Variança pode ser obtida a partir da conjunta, sem conhe-
cimento da distribuição de probabilidade fZ (z).
Z ∞Z ∞
E[Z] = E[X + Y ] = (x + y)fXY (xy)dA
−∞ −∞
Z ∞Z ∞ Z ∞Z ∞
= xfXY (xy)dA + yfXY (xy)dA
−∞ −∞ −∞ −∞
Z ∞ Z ∞ Z ∞ Z ∞
= x fXY (xy)dy dx + y fXY (xy)dx dy
−∞ −∞
Z ∞ −∞ −∞
Z ∞
= xfX (x)dx + yfY (y)dy = E[X] + E[Y ]
−∞ −∞
V AR[Z] = E[(Z − E[Z])2 ] = E[(X + Y − µX − µY )2 ] = E[((x − µX ) + (Y − µy ))2 ]

= E[(X − µX )2 + 2(X − µX )(Y − µY ) + (Y − µY )2 ]
= E[(X − µX )2 ] + 2E[(X − µX )(Y − µY )] + E[(Y − µY )2 ]
= V AR[X] + 2COV [X, Y ] + V AR[Y ]
A Variável soma aX + bY
E(aX + bY ) = aE(X) + bE(Y )

e
V AR(aX + bY ) = a2 V AR(X) + 2abCOV (X, Y ) + b2 V AR(Y )
78
Se X, Y são independentes então E[XY ] = E[X]E[Y ] e COV [X, Y ] = 0, com isto
COV (aX, bY ) = a2 V AR(X) + b2 V AR(Y )
1
Pn
5.4.3 A variável média amostral X̄ = n i=1 Xi
Seja {Xi } um conjunto IID ( independentes e identicamente distribuı́das). Isto significa X = Xi
para cada i = 1, 2, . . . n e os Xi são dois a dois independentes, com E(Xi ) = E(X) = µX e
V AR(Xi ) = V AR(X) = σX 2 .
Considere a variável “média amostral X̄”

n
1X
X̄ = Xi
n
i=1
temos
n n
!
1 X 1X nµX
µX̄ E(X̄) = E Xi = E(Xi ) = = µX
n n n
i=1 i=1
Por outro lado
n ! n 2 2
X 1 1 X nσX σX
V AR(X̄) = V AR Xi = V AR(X i ) = =
n n2 n2 n
i=1 i=1
ou seja
σX
σX̄ = √
n
esta fórmula será de FUNDAMENTAL importância em inferência Estatı́stica.
5.4.4 Distribuições fZ (z) e fZ|x (z) = f (z|x) para Z = Y + Y

Caso X, Y discretos
P [Z = z, X = xi ] P [X + Y = z, X = xi ]
fZ|xi (z) = f (z|xi ) = P [Z = z|X = xi ] = =
P [X = xi ] P [X = xi ]
P [Y = z − xi , X = xi ] fXY (xi , z − xi )
=
P [X = xi ] fX (xi )
Daı́
fXZ (xi , z) = f (z|xi )fX (xi ) = fXY (xi , z − xi )
Portanto X
fZ (z) = fXY (xi , z − xi )
i
Se X, Y são independentes então temos:
79
• a convolução X
fZ (z) = fX (xi )fY (z − xi )
i
•
f (z|x) = fY (z − xi )
Caso X discreto, Y continuo
P [Z ≤ z, X = xi ] P [X + Y ≤ z, X = xi ]
FZ|xi (z) = F (z|xi ) = P [Z ≤ z|X = xi ] = =
P [X = xi ] P [X = xi ]
R z−xi
P [Y ≤ z − xi , X = xi ] fXY (xi , y)dy
= −∞
P [X = xi ] fX (xi )
Derivando
∂F (z|xi ) fXY (xi , z − xi )
= f (z|xi ) =
∂z fX (xi )
Daı́
fXZ (xi , z) = f (z|xi )fX (xi ) = fXY (xi , z − xi )
Portanto X
fZ (z) = fXY (xi , z − xi )
i
Se X, Y são independentes então temos:
• a convolução X
fZ (z) = fX (xi )fY (z − xi )
i
•
f (z|x) = fY (z − xi )
Caso X, Y contı́nuos
Para este caso utilizaremos o Teorema de Mudança de variáveis;
ZZ
F (z) = P [Z ≤ z] = P [X + Y ≤ z] = fXY (x, y)dA
R
onde R é a região
R = {(x, y) ; x ∈ R , −∞ ≤ y ≤ z − x}
80
Fazendo a mudanças u = x e v = x + y temos;
x=u
y =v−u
Temos que a transformação T (u, v) = (u, v − u) transforma a região
S = {(u, v) ; u ∈ R , −∞ ≤ v ≤ z}
na região R, ou seja T (S) = R. Por outro lado
∂T
= (1, −1)
∂u
e
∂T
= (0, 1)
∂v
∂(x, y)
= det(DT ) = 1
∂(u, v)
Então pelo Teorema de mudança de variáveis
∂(x, y)
ZZ ZZ
F (z) = fXY (x, y)dAxy = fXY (x(u, v), y(u, v))) dAuv
∂(u, v)
R S
Z ∞ Z z
= fXY (u, v − u)dvdu
−∞ −∞
Dai ∞
∂F (z)
Z
fZ (z) = = fXY (u, z − u)du
∂z −∞
Para X, Y independentes temos
• a convolução Z ∞
fZ (z) = fX (x)fY (z − x)dx
−∞
R∞
• Também fZ (z) = −∞ fXZ (x, z)dx. Por comparação
fX (x)fY (z − x) = fXZ (x, z)
e portanto
fXZ (x, z)
f (z|x) = = fY (z − x)
fX (x)
81
5.4.5 Covariância e Correlação COV (X, Z) onde Z = X + Y e X, Y são indepen-

dentes
Temos
µZ = E[Z] = E[X] + E[Y ] = µX + µY

e
V AR[Z] = V AR[X] + V AR[Y ] + 2COV [X, Y ] = V AR[X] + V AR[Y ],
pois X, Y são independentes. dai
σZ2 = σX
2
+ σY2 .
Por outro lado
σXZ = COV (X, Z) = E(XZ) − E(X)E(Z) = E[X(X + Y )] − E[X](E[X] + E[Y ])

= E[X 2 + XY ] − (E(X))2 − E(X)E(Y ) = E(X 2 ) − (E(X))2 + E(XY ) − E(X)E(Y ) =
E(X 2 ) − (E(X))2 = V AR(X) = σX
2
e o coeficiente de correlação
2
σX
COV (X, Z) σX σX 1
ρXZ = = = =q =r
σX σZ σX σZ σZ 2 + σ2
σX
2
σY
Y 1+ 2
σX
2
σZ
Quando 2
σX
→ 0, temos que Z e X estão fortemente correlacionados, pois ρXZ → 1.
2
σY
Quando 2
σX
→ ∞, Z e X estão fracamente correlacionados, pois ρXZ → 0.
5.5 Canal binário com ruı́do aditivo Z = X + Y

Considere um sinal φ(t) com energia unitária, isto é, kφ(t)k2 = 1. Então os sinais para transmissão
binária (1 bit/ sinal) unidimensional e simétrica são x1 (t) = aφ(t) e x2 (t) = −aφ(t), onde a é a
amplitude do sinal em volts. O modelo probabilı́stico para esta transmissão através de um canal
com ruido aditivo é
Z =X +Y
onde
• X é a variável aleatória que toma os valores {a, −a}, (entrada do canal)
• Y é a variável aleatória do ruı́do que toma valores em R com densidade de probabilidade

pY (y)
82
• Z = X + Y é a variável aleatória que toma valores em R, (saı́da do canal)

• As variáveis aleatórias X e Y são independentes.
A probabilidade do evento {Z ≤ z} dado que foi transmitido o simbolo X = a é P (Z ≤ z|X = a)
e mostramos na Seção anterior que é dada por
Z z−a
P (Z ≤ z|X = a) = pY (y)dy
−∞
donde a densidade
f (z|a) = fY (z − a)
5.5.1 Canal Gaussiano (AWGN)

Um processo estocástico Gaussiano que tem densidade espectral de potência constante N0 /2 [Watts/Hertz]
é chamado de WG (White Gaussian, ruı́do “branco” pois a a densidade de potencia esta distri-
buida uniformemente em todas as frequências). Um canal é AWGN (Additive White Gaussian
Noise) quando o sinal transmitido X(t) e sinal recepcionado Y (t) estão relacionados pela equação
Y (t) = X(t) + N (t),
onde N (t) é um processo estocástico Gaussiano, que é chamado de ruido Gaussiano pois altera o
sinal X(t). Em cada instante t, N (t) é uma variável aleatória Gaussiana X(0, σ) onde σ 2 = N0 /2.
Este canal é quando o ruı́do Y tem densidade
1 2 2
fN (n) = √ e−n /2σ , n ∈ R.
2πσ
Temos então
FY |a (y) = P (Y ≤ y|X = a) = P (X + N ≤ y|X = a) =

y−a
1
Z
2 2
P (N ≤ y − a) = √ e−n /2σ dn.
2πσ
−∞
donde
∂FY |a(y) 1 2 2
f (y|a) = =√ e−(y−a) /2σ
∂y 2πσ
Portanto em transmissão binária com ruido Gaussiano, a densidade de probabilidade condicio-
nada à transmissão do sinal X = a é:
1 2 2
f (y|a) = √ e−(y−a) /2σ
2πσ
e analogamente
1 2 2
f (y| − a) = √ e−(y+a) /2σ
2πσ
83
5.5.2 Deteção ML (Maximum Likelihood) Máxima Verossimilhança

Este é um caso onde se supõe que P (X = a) = fX (a) = fX (−a) = P (X = −a) = 1/2. A
probabilidade de detecção correta dado que foi transmitido X = a é
Z ∞
1 2 2
P r[C|a] = √ e−(y−a) /2σ dy
2πσ 0
enquanto que a probabilidade de erro dado que foi transmitido X = a é
Z 0
1 2 2
P r[ǫ|a] = 1 − P r[C|a] = √ e−(y−a) /2σ dy
2πσ −∞
A função erro Q(x) = 1 − Φ(x)

A função erro Q(x) é definida assim
∞
1
Z
2 /2
Q(x) = √ e−u du
2π x
É uma função decrescente e para alguns valores especiais temos
Q(0) = 0.5, Q(−∞) = 1, Q(∞) = 0
e uma propriedade importante é que
Q(−x) = 1 − Q(x)
Com isto, podemos calcular P r[ǫ|a] em termos da função Q(x). Fazemos a mudança de variáveis
y−a
σ = u e na formula de P r[C|a] obtemos
a a
P r[C|a] = Q − =1−Q
σ σ
isto significa que a
P r[ǫ|a] = Q
σ
Analogamente pode-se mostrar que
a
P r[ǫ| − a] = Q
σ
Portanto a probabilidade de erro de detecção é
1 a a a
P r[ǫ] = P r[ǫ|a]p(a) + P r[ǫ| − a]p(−a) = Q +Q =Q
2 σ σ σ
84
√
A amplitude a é definida por a = Eb , onde Eb é a energia por bit em [Joules/bit] Com isto, o
quociente √ r
a Eb 2Eb
=p = ,
σ N0 /2 N0
Joules/bit
não tem unidades fı́sicas, pois na divisão as unidades fı́sicas são canceladas.
Watts/Hertz
r !
2Eb
P [ǫ] = Q
N0
5.6 Exercı́cios
1. Dada a distribuição conjunta de Probabilidades discreta
x 1.0 1.5 2.3 3.1 5.0

y 2 3 4 5 6
fXY (x, y) 1/8 1/4 1/8 1/4 1/4
(a) Calcular E[X]

(b) Calcular E[X|Y = 3].
Rpta. E(X) = 2.8125, E(X|Y = 3) = 1.5
2. Dada a distribuição conjunta de Probabilidades fXY (x, y) discreta da Tabela 5.4
X
0.2 1.3 2.1 3.9 4.5
1.5 0.02 0.02 0.05 0.01 0.04
2.0 0.03 0.04 0.07 0.02 0.02
Y 2.5 0.05 0.08 0.01 0.02 0.06
3.0 0.01 0.10 0.06 0.03 0.04
3.5 0.04 0.07 0.03 0.04 0.04
Tabela 5.4: Distribuição conjunta de probabilidade fXY (x, y)
calcular: E(Y |X = 3.9), E(X|Y = 2.0) e o coeficiente de correlação ρXY . Sugestão: fazer os
cálculos em Planilha Eletrônica (Ex. LibreOfficeCalc)
1
3. Considere a densidades de probabilidade conjunta continua fXY (x, y) = 39 (2x + y + 3), onde
0 ≤ x ≤ 2 e 0 ≤ y ≤ 3. Calcular E(Y |X = 1), VAR(X|Y = 2) e o coeficiente de correlação
85
ρXY .
Alguns resultados preliminares antes de chegar as respostas finais
fX (x) = 2x 9 2 1
13 + 26 ; fY (y) = 39 (x + 5); f (y|1) = fY (y); f (x|2) = 14 (2x + 5);
43 21 23 20 87
E(X) = 39 ; E(Y ) = 13 ; E(XY ) = 13 ; E(X 2 ) = 13 ; E(Y 2 ) = 26 . Com tudo isto temos as:
Respostas: 21/13; 23/21; -0.0497632
86
Capı́tulo 6
Estatı́stica descritiva
Um amostra é um conjunto finito de dados numéricos X = {x1 , x2 , . . . , xn } representativa da po-

pulação. Estatı́stica descritiva lida com a organização, apresentação e resumo dos dados amostrais.
6.1 Parâmetros que resumem os dados amostrais

Os parâmetros que resumem os dados de uma amostra são: média, mediana, moda, variança e
desvio padrão.
Definição 6.1 A média amostral é definida por

n
P
xi
i=1
x̄ = (6.1)
n
Esta média amostral é um estimador da verdadeira média µ da população.
Definição 6.2 Ordenando os dados de menor a maior, a mediana amostral é o número tal que
a metade dos dados são menores e a outra metade são maiores. Se n é impar então a mediana é
o elemento na posição n+1 n n+1
2 . Se n é par a mediana é a media dos elementos nas posições 2 e 2 .
Definição 6.3 A moda amostral é o dado mais frequente.
Definição 6.4 A variança amostral é definida por

n
(xi − x̄)2
P
i=1
s2 = . (6.2)
n−1
87
Pn
Desenvolvendo o quadrado, e lembrando que nx̄ = i=1 xi , temos;
n
X n
X n
X n
X
(xi − x̄)2 = (x2i − 2x̄xi + x̄2 ) = x2i − 2x̄ xi + nx̄2 =
i=1 i=1 i=1 i=1
n n
! !
X X
x2i − 2x̄nx̄ + nx̄2 = x2i − nx̄2 ,
i=1 i=1
Então, podemos também calcular a variança amostral com a formula

n
P 2
xi − nx̄2
s2 = i=1 . (6.3)
n−1
No próximo Capı́tulo 7 mostraremos esta Variança amostral é um estimador não-tendencioso da
Variança populacional σ 2 .
Definição 6.5 O desvio padrão amostral é a raiz quadrada da variança amostral, isto é;
√
s = s2 (6.4)
Exemplo 6.1 Considere os seguintes dados amostrais X = {1.1, 2.3, 0.5, 1.1, 3.4, 4.5, 7.3, 0.8, 3.6, 2.8}
Temos que a média é
P10
1.1 + 2.3 + · · · + 2.8
i=1 xi 27.4
x̄ = = = = 2.74.
10 10 10
Para a mediana ordenamos os dados de modo crescente: {0.5, 0.8, 1.1, 1.1, 2.3, 2.8, 3.4, 3.6, 4.5, 7.3}
e assim temos que a mediana é
x5 + x6 2.3 + 2.8
= = 2.55
2 2
E a moda é 1.1.
Neste caso a variância amostral calculada com a primeira formula é
P10
2 (xi − x̄)2 (1.1 − 2.74)2 + · · · + (2.8 − 2.74)2 39.424
s = i=1 = = = 4.38
9 9 9
enquanto que com a segunda formula é
10
x2i − 10(2.742 )
P
i=1 114.5 − 75.056 39.424
s2 = = = = 4.38.
9 6 9
Com isto, o desvio amostral é √
s= 4.38 = 2.0929.
Os comandos do LibreOffice que calculam este parâmetros são
88
• Média : average(x1,x2,...,xn), em português média.
• Mediana: median(x1,x2,...,xn), em português med.
• Moda: mode(x1,x2,...xn), em português modo.
• Variança: var(x1,x2,...xn), em português var.
• Desvio Padrão: stdev(x1,x2,...xn), em português desvpad.
6.2 Organização e apresentação gráfica dos dados amostrais

Na prática o tamanho da amostra é grande, mais de 30 dados. A organização e apresentação gráfica
dos dados destas amostras depende da quantidade de valores que assumem os dados.
6.2.1 Caso discreto: amostra grande com muitos dados repetidos

Suponha que temos o conjunto de dados numéricos Y = {y1 , y2 , . . . , yn } com muitas repetições.
Suponha que o número de valores diferentes que assume este conjunto seja m. Como Y tem muitas
repetições então m << n ( m é muito menor do que n).
Organizamos os dados de Y classificando em subconjuntos menores da seguinte maneira:
Suponha que existem n1 dados repetidos iguais ao dado y1 , então definimos o subconjunto
Y1 = {y1 = y11 , y12 , . . . , y1n1 },
onde y11 = y12 = · · · = y1n1 . Por conveniência fazemos a mudança de variável x1 = y1 e assimx1
será o representante da classe Y1
De modo similar definimos a classe (subconjunto)
Y2 = {y21 , y22 , . . . , y2n2 },
onde y21 = y22 = · · · = y2n2 = x2 .
Este processo vai até a última classe
Ym = {ym1 , ym2 , . . . , ymnm },
onde ym1 = ym2 = · · · = ymnm = xm .

Claramente temos que
• Y = Y1 ∪ Y2 ∪ · · · ∪ Ym e Yi ∩ Yj = ∅ para i 6= j.
• n = n1 + n2 + · · · + nm .
89
Cada número ni é chamado de frequência do dado xi , então podemos representar o conjunto

de dados original Y na tabela de frequências
dado x1 x2 ... xm
frequência n1 n2 ... nm
A partir desta tabela de frequências podemos construir os diferentes gráficos com os quais
podemos representar o conjunto de dados Y = {y1 , yP
2 , . . . , yn }.
n
Pn Pm yj
Como j=1 yj = i=1 ni xi temos que a média ȳ = j=1 n pode ser calculada com a formula
m
P
ni xi
i=1
x̄ = .
n
Pn
( yj2 )−nȳ 2
Analogamente, a igualdade nj=1 yj2 = m 2 2 j=1
P P
i=1 ni xi implica que a variança s = n−1
pode ser calculada com a formula
m
ni x2i ) − nx̄2
P
(
2 i=1
s = .
n−1
Exemplo 6.2 A Tabela 6.1 apresenta o valor de um litro de gasolina em 45 postos diferentes de
uma cidade grande no mês de Outubro de 2020.
4.2 4.3 4.4 4.4 4.3 4.0 4.1 3.9 4.5

4.2 4.0 4.4 4.2 4.3 4.3 4.2 4.3 4.3
4.3 3.9 4.3 4.4 4.3 4.0 4.2 4.5 4.0
4.2 4.3 4.3 4.3 4.3 4.4 4.6 4.4 4.1
4.1 3.9 4.4 4.3 4.1 4.3 4.2 4.1 4.4
Tabela 6.1: Preço do litro de gasolina em 45 postos diferentes
A repetição dos preços dos 45 postos permite resumir estes dados a 8 valores
X = {3.9, 4.0, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6},
onde o preço mais barato é de 3.9 reais praticado por 3 postos, o mais caro é de 4.6 reais praticado
por um posto. O preço mais comum é de 4.3 reais praticado por 15 postos. Toda essa informação
pode ser organizada e melhor apresentada em na Tabela de Frequências 6.2.
Dados organizados da Tabela de frequências 6.2 podem ser facilmente representados nas Figuras
6.1 e 6.2 que são o gráfico de linhas e gráfico de barras dos preços de combustı́veis de 45 postos.
90
20
15
10
0
3.9 4 4.1 4.2 4.3 4.4 4.5 4.6
Figura 6.1: Gráfico de linhas do preço do litro de gasolina
20
15
10
0
3.8 4 4.2 4.4 4.6 4.8 5
Figura 6.2: Gráfico de barras do preço do litro de gasolina
91
preço litro de gasolina xi 3.9 4.0 4.1 4.2 4.3 4.4 4.5 4.6
número de postos (frequência) ni 3 4 5 7 15 8 2 1
Tabela 6.2: Frequências dos preços por litro de gasolina
Com isto, a média amostral pode ser facilmente calculada por
8
P
ni xi
i=1 3(3.9) + 4(4.0) + 5(4.1) + 7(4.2) + 15(4.3) + 8(4.4) + 2(4.5) + 4.6
x̄ = =
n 45
190.9
= 4.242222
45
Por outro lado a variança é
8
ni x2i ) − nx̄
P
(
i=1
s2 = =
n−1
[3(3.9)2 + 4(4.0)2 + 5(4.1)2 + 7(4.2)2 + 15(4.3)2 + 8(4.4)2 + 2(4.5)2 + 4.62 ] − 45(4.2422)2
44
811.05 − 89.8402
= 0.0275
44
92
6.2.2 Caso contı́nuo: amostra grande com poucos dados repetidos

Se o o conjunto de dados amostrais Y = {y1 , y2 , . . . , yn }, com n grande tem poucos ou nenhum
dado repetido, estes dados são classificados em m subconjuntos menores Y1 , Y2 , ...., Ym de modo
que Y = Y1 ∪ Y2 ∪ · · · ∪ Ym e Yi ∩ Yj = ∅ para i 6= j. Necessariamente m << n, m deverá ser muito
menor do que n. Normalmente 5 ≤ m ≤ 10, um valor inteiro entre 5 e 10. Podemos resumir este
processo de classificação no seguinte algoritmo:
• Determinar a = min{y1 , y2 , . . . , yn }, b = max{y1 , y2 , . . . , yn }
• Determinar o comprimento dos m intervalos de classe ∆ = b−a

m .
• O primeiro intervalo é C1 = [a, a + ∆) e a primeira classe é Y1 = {yj ∈ Y ; yj ∈ C1 }.

Do mesmo modo C2 = [a + ∆, a + 2∆) e Y2 = {yj ∈ Y ; yj ∈ C2 },...,
...até a última classe Cm = [a + (m − 1)∆, a + m∆ = b] com Ym = {yj ∈ Y ; yj ∈ Cm }.
• O número de elementos de cada Yi é denotado por ni é chamado de frequência de classe.
• Finalmente com os intervalos de classe Ci e as frequências montamos a Tabela de frequências

de classe. A partir desta tabela pode ser construir alguma das apresentações gráficas tais
como histograma, diagrama de pizza, etc.
6.2.3 Cálculo aproximado da média x̄ e variança amostral s2

Dada uma amostra Y =P{y1 , y2 , . . . , yn } com poucos dados repetidos podemos calcular uma apro-
n
j=1 yj
ximação da média ȳ = n utilizando a formula
m
X
x̄aprox = fi x̄i , (6.5)
i=1
onde x̄i é a média da classe Yi dada por x̄i = a + (2i − 1)∆/2, e fi é a frequência relativa fi = nni
da classe Yi .
Enquanto que a variância amostral aproximada pode ser calculada com
m
!
2 n X
2 2
saprox = ( x̄i fi ) − x̄ (6.6)
n−1
i=1
Mesmo sendo próximos, x̄aprox 6= ȳ e também s2aprox 6= s2 .

Por outro lado as frequências relativas fi podem ser consideradas como uma distribuição de pro-
babilidades das médias de classe x̄i , pois
m m Pm
X X ni ni n
fi = = i=1 = =1
n n n
i=1 i=1
93
Exemplo 6.3 O conjunto de dados da Tabela 6.3 mostra o rendimento em km/litro de combustı́vel
de uma amostra de 40 veı́culos motorizados.
11.1 12.5 32.4 7.8 21.0 16.4 11.2 22.3

4.4 6.1 27.5 32.8 18.5 16.4 15.1 6.0
10.7 15.8 25.0 18.2 12.2 12.6 4.7 23.5
14.8 22.6 16.0 19.1 7.4 9.2 10.0 26.2
3.5 16.2 15.5 3.2 8.1 12.9 19.1 13.7
Tabela 6.3: Rendimento de combustı́vel, em km/litro, de 40 veı́culos
Vamos construir o histograma de frequências com 6 classes.
Temos a = min{yj } = 3.2 e b = max{yj } = 32.8. A seguir calculamos os comprimentos dos

intervalos com 32.8−3.2
6 = 4.9333 que podemos arredondar a 5. Com isto fazemos um acomodação
das classes Ci e as frequências ni conforme a tabela a seguir
Ci 3-8 8-13 13-18 18-23 23-28 28-33
ni 8 10 9 7 4 2
Com isto construı́mos o histograma de frequências da Figura 6.3
10
número de ocorrencias
3 8 13 18 23 28 33
consumo de combustivel de veiculos
Figura 6.3: Histograma de frequências de rendimentos dos veı́culos
Para o cálculo da média e variança aproximadas construı́mos a seguinte tabela de médias de

classe e frequências relativas.
x̄i 5.5 10.5 15.5 20.5 25.5 30.5
fi 0.20 0.25 0.225 0.175 0.10 0.05
organizamos as operações das formulas de x̄aprox e s2aprox na seguintes tabela
94
x̄i 5.5 10.5 15.5 20.5 25.5 30.5

fi 0.20 0.25 0.225 0.175 0.10 0.05 1
x̄2i 5.5 10.5 15.5 20.5 25.5 30.5
fi x̄i 1.1 2.625 3.4875 3.5875 2.55 1.525 14.875
fi x̄2i 6.05 27.5625 54.05625 73.54375 65.025 46.5125 272.75
Então,
6
X
x̄aprox = fi x̄i = 14.875
i=1
e
6
!
40 X 40
s2aprox = fi x̄2i − x̄ 2
= (272.75 − 14.8752 ) = 51.4843
39 39
i=1
Com isto o desvio aproximado é saprox = 7.175.
601.7
Por outro lado LibreOfficeCalc podemos calcular diretamente a média amostral x̄ = 40 =
15.0425 enquanto que a a variança amostral s2 = 2224
39 = 57.02609.
95
Exemplo 6.4 Consideremos o conjunto de 200 dados numéricos da Tabela 6.4 que representam o
número de horas que duram 200 lampadas.
Tempo de duração de lampadas (horas)
1067 919 1196 785 1126 936 918 1156 920 948
855 1092 1162 1170 929 950 905 972 1035 1045
1157 1195 1195 1340 1122 938 970 1237 956 1102
1022 978 832 1009 1157 1151 1009 765 958 902
923 1333 811 1217 1085 896 958 1311 1037 702
521 933 928 1153 946 858 1071 1069 830 1063
930 807 954 1063 1002 909 1077 1021 1062 1157
999 932 1035 944 1049 940 1122 1115 833 1320
901 1324 818 1250 1203 1078 890 1303 1011 1102
996 780 900 1106 704 621 854 1178 1138 951
1187 1067 1118 1037 958 760 1101 949 992 966
824 653 980 935 878 934 910 1058 730 980
844 814 1103 1000 788 1143 935 1069 1170 1067
1037 1151 863 990 1035 1112 931 970 932 904
1026 1147 883 867 990 1258 1192 922 1150 1091
1039 1083 1040 1289 699 1083 880 1029 658 912
1023 984 856 924 801 1122 1292 1116 880 1173
1134 932 938 1078 1180 1106 1184 954 824 529
998 996 1133 765 775 1105 1081 1171 705 1425
610 916 1001 895 709 860 1110 1149 972 1002
Tabela 6.4: Duração em horas de 200 lampadas
Pela natureza e volume de dados organizamos este conjunto em 10 classes detalhadas juntamente
co as suas frequências, frequências relativas e outros dados necessários para calcular x̄approx e s2aprox
na seguinte tabela
Ci ni
500-600 2
600-700 5
700-800 12
800-900 25
900-1000 58
1000-1100 41
1100-1200 43
1200-1300 7
1300-1400 6
1400-1500 1
donde podemos desenhar o histograma de frequências respectivo mostrado na Figura 6.4

Os pontos médios de classe x̄i são X = {550, 650, . . . , 1450} e as frequências de classe ni são
{2, 5, 12, 25, 58, 41, 43, 7, 6, 1}. Então
200
1 X 200500
x̄ = x̄i ni = = 1002.5
200 200
i=1
Enquanto que a variança é

1
s2 = (205920000 − 201001250) = 24717.33668
199
que resulta num desvio padrão de s = 157.22
96
60
50
número de ocorrencias
40
30
20
10
5 6 7 8 9 10 11 12 13 14 15
duração de lampadas em unidades de 100 horas
Figura 6.4: Histograma de frequências de classes da lampadas
Por outro lado com uma planilha eletrônica podemos calcular que a verdadeira média amostral
é x̄ = 998.13 e o verdadeiro desvio padrão é s = 157.8624.
6.3 Diagramas de Dispersão e Correlação de dados Estatı́sticos

Um conjunto de dados pode ser bi-variado X = {x1 , x2 , . . . , xn } e Y = {y1 , y2 , . . . , yn }, então o
coeficiente de correlação destes dados pode ser calculado por
n
P
(xi − x̄)(yi − ȳ)
i=1
rxy = s (6.7)
n n
x̄)2 ȳ)2
P P
(xi − (yi −
i=1 i=1
Desenvolvendo o produto (xi − x̄)(yi − ȳ) e utilizando os fatos ni=1 xi = nx̄ e ni=1 yi = nȳ
P P
temos
X X X X X
(xi − x̄)(yi − ȳ) = xi yi − nx̄ȳ = yi (xi − x̄) + yi x̄ − nx̄ȳ = yi (xi − x̄).
Então, o calculo do coeficiente de correlação também pode ser feito com

n
P
yi (xi − x̄)
i=1
rxy = s (6.8)
n n
x̄)2 ȳ)2
P P
(xi − (yi −
i=1 i=1
Uma propriedade importante é que

−1 ≤ rxy ≤ 1
97
Exemplo 6.5 Considere o seguinte conjunto de dados de 10 pessoas com informações de número
de anos de escolaridade e número de batimentos por minuto do coração. Se X=“Numero de anos
Pessoa 1 2 3 4 5 6 7 8 9 10
Anos escolaridade 12 16 13 18 19 12 18 19 12 14
Batimentos 73 67 74 63 73 84 60 62 76 71
de escolaridade” e Y =“Número de batimentos cardı́acos” Calculamos as médias amostrais

153
x̄ = = 15.3
10
e
703
= 70.3 ȳ =
10
Com isto organizamos os dados necessários para calcular o coeficiente de correlação na seguinte
tabela
i 1 2 3 4 5 6 7 8 9 10
P
xi 12 16 13 18 19 12 18 19 12 14 = 153
P
yi 73 67 74 63 73 84 60 62 76 71 = 703
xi − x̄ -3.3 0.7 -2.3 2.7 3.7 -3.3 2.7 3.7 -3.3 -1.3
yi − ȳ 2.7 -3.3 3.7 -7.3 2.7 13.7 -10.3 -8.3 5.7 0.7
(xi − x̄)2
P
10.89 0.49 5.29 7.29 13.69 10.89 7.29 13.69 10.89 1.69 =82.1
(yi − ȳ)2
P
7.29 10.89 13.69 53.29 7.29 187.69 106.09 68.89 32.49 0.49 =488.1
P
yi (xi − x̄) -240.9 46.9 -170.2 170.1 270.1 -277.2 162.0 229.4 -250.8 -92.3 =-152.9
n
P
yi (xi − x̄)
i=1 −152.9 −152.9
rxy = s =p = = −0.76381
n n (82.1)(488.1) 200.18
(xi − x̄)2 (yi − ȳ)2
P P
i=1 i=1
6.4 Exercı́cios
1. Considere os conjuntos de dados X e Y da Tabela 6.5 e da Tabela 6.6, então calcular:
(a) x̄, ȳ, s2X , s2Y , sX , e sY .

P10 3 2
(b) i=1 (xi − 3xi − 3)
98
P10 3
(c) i=1 (xi − 3yi2 − 3)
P10
(x2 +yi2 )
(d) P10 i
i=1
i=1 xi
(e) rXY
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
5 4.6 -2.1 0 3.4 3.7 -3.1 1.2 5.6 4
Tabela 6.5: Conjunto de dados X
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10
1.3 2.8 4.1 -3.5 -2.4 -4.7 2.2 0.2 5.3 2.7
Tabela 6.6: Conjunto de dados Y
2. Considere as seguintes temperaturas observadas durante os 90 dias do verão(Janeiro, Fevereiro

e Março) de 1926, em Florianópolis;
26.1 34.0 32.3 25.0 28.7 31.0 32.3 36.0 36.1 38.0
32.4 33.4 33.6 34.2 34.2 30.0 30.9 32.0 32.9 34.0
28.4 31.3 29.2 29.3 21.1 34.0 26.1 36.0 37.0 37.2
33.4 29.2 35.4 36.0 35.5 33.7 35.3 31.2 29.8 38.5
25.0 33.4 36.4 32.0 33.2 31.3 33.4 34.3 33.4 33.2
23.7 32.4 33.7 34.2 34.0 31.0 28.9 33.0 32.0 35.0
27.3 33.3 29.3 29.2 21.1 34.0 27.1 34.0 38.6 27.2
31.4 28.2 35.7 36.8 35.0 29.7 35.6 37.2 28.8 24.5
27.0 34.4 36.8 32.0 33.2 31.3 33.4 31.3 34.4 29.2
então
(a) Organizar os dados numa Tabela de frequências de classes, com 5 classes. Desenhar o
histograma.
(b) Organizar os dados numa Tabela de frequências de classes, com 8 classes. Desenhar o
histograma.
99
3. Considere as seguintes notas de 70 alunos;
6.3 4.1 5.2 7.3 7.9 6.8 1.1 7.3 6.2 3.5
7.3 6.8 0.0 8.6 7.3 5.1 8.6 5.5 6.0 6.0
6.5 9.0 8.7 5.5 4.5 7.8 7.8 5.3 5.3 4.8
10.0 3.8 6.1 9.3 9 9.8 9.5 8.6 8.3 3.2
7.2 7.3 5.1 7.5 6.1 5.3 9.7 2.0 2.1 4.7
8.1 3.8 9.3 9.3 9.0 8.9 5.5 6.8 3.8 3.2
5.0 7.3 5.1 4.9 6.1 5.3 5.7 2.0 1.3 7.1
então
(a) Desenhar um histograma de frequências de classe com 6 classes.

(b) Por quaisquer método achar a media, desvio, mediana e moda amostrais
4. Considere as seguintes notas de 40 alunos
7.8 10 10 7.3 7.9 6.8 10 7.3

7.3 8.8 10 8.6 7.3 5.1 8.6 5.5
6.5 7 8.7 5.5 3.5 7.8 7.8 5.3
10 6 10 9.3 9 9.8 9.5 8.6
10 7.3 5.1 7.5 6.1 5.3 9.7 10
então
(a) Desenhar um histograma de frequências de classe com 6 classes.

(b) Por quaisquer método achar a media, desvio, mediana e moda amostrais
5. Considere as seguintes temperaturas medidas numa região do Brasil durante 50 dias conse-
cutivos de um verão, no perı́odo da tarde.
36.1 34.0 32.3 25.0 28.7 31.0 32.3 36.0 36.1 38.0
32.4 33.4 33.6 34.2 34.2 30.0 30.9 32.0 32.9 34.0
28.0 31.3 29.2 29.3 32.1 27.0 26.1 36.0 37.0 37.2
33.4 34.2 35.4 36.0 35.5 33.7 35.3 31.2 29.8 29.5
25.0 33.4 36.4 32.0 33.2 31.3 33.4 34.3 33.4 33.2
Organizar os dados em 05 classes que correspondam com as condições “bem agradável”,
“agradável”, “quente”, “muito quente”, e “sufocante”.
(a) Montar a tabela de frequências e desenhar um diagrama de pizza para as 05 classes de

temperaturas.
100
(b) Achar o primeiro quartil e o segundo quartil.

2
6. (Computador) Considere o conjunto de dados X = {xi = i + logsin(i)
10 (i )
; i = 1, 2, 3, . . . , 100},
√
e também o conjunto de dados Y = {yi = cos(i + i) ; i = 1, 2, 3, . . . , 100}. Calcular;
(a)
P100 2
i=1 (xi + 3yi − i + 1)
P P
100 100
i=1 (xi − x̄) i=1 (yi − ȳ)
P100 √ √
(b) i=1 [sin( xi ) cos( yi )]
(c) Para o conjunto de dados X, construir uma distribuição de frequências com 12 classes.
101
102
Capı́tulo 7
Estimação de parâmetros
Dada uma variável aleatória X os parâmetros mais importantes a serem estimados são a média µ,
a variança σ 2 e alguma proporção P (A), onde A é um evento de X. Esta estimação é realizada via
a repetição do experimento que determina X. O resultado deste experimento é um vetor aleatório
X1 , X2 , . . . , Xn do tipo IID (identically independent distributions) e o estimador ou estatı́stica é
uma função
Θ̂ = g(X1 , X2 , . . . , Xn ),
que é também uma variável aleatória. Esta função deve satisfazer a condição
E(Θ̂) = E(g(X1 , X2 , . . . , Xn )) = θ,
o parâmetro que se esta estimando.
Exemplo 7.1 O estimador mais importante da média µ é a média amostral
n
P
Xi
i=1
X̄ =
n
Temos que
n
P
E(Xi )
i=1 nµ
E(X̄) = = = µ,
n n
que prova que este estimador é não-tendencioso.
Exemplo 7.2 O estimador mais importante de variância σ 2 é
n
(Xi − x̄)2
P
i=1
s2 = ,
n−1
que na seguinte seção mostramos é um estimador não-tendencioso. Isto é E(s2 ) = σ 2 .
103
7.1 Estimador não tendencioso da variança

Se considerarmos como estimador da variança
n
(Xi − X̄)2
P
i=1
S2 =
n
mostramos que este estimador é tendencioso, isto significa que não é bom estimador. Para isto
n n
(Xi − X̄)2 (Xi − µ + µ − X̄)2
P P
2 i=1 i=1
S = =
n n
n
(Xi − µ)2 + 2(Xi − µ)(µ − X̄) + (µ − X̄)2
P
i=1
=
n
n n
!
1 X 1X
= (Xi − µ)2 + 2(µ − X̄) (Xi − µ) + (µ − X̄)2
n n
i=1 i=1
n
1X
= (Xi − µ)2 + 2(µ − X̄)(X̄ − µ) + (µ − X̄)2
n
i=1
n
1X
= (Xi − µ)2 − (µ − X̄)2
n
i=1
Por outro lado
n n
1X 1X
(Xi − µ)2 = (Xi − 2µXi + µ2 )
n n
i=1 i=1
n n
!
1X 2 1X
= Xi − 2µ Xi + µ2
n n
i=1 i=1
n
!
1X 2
= Xi − µ2 .
n
i=1
Portanto
n
!
2 1X 2
S = Xi − µ2 − (X̄ − µ)2
n
i=1
104
Aplicando o operador esperança:

n
1X
E(S 2 ) = E(Xi2 ) − µ2 − E(X̄ − µ)2
n
i=1
= (µ2 + σ 2 ) − µ2 − V AR(X̄)
σ2
= σ2 −
n
n−1 2
= σ
n
Então, se definirmos como estimador da variância
n
(Xi − X̄)2
P
i=1
s2 = ,
n−1
temos;
n
(Xi − X̄)2
P

2 n i=1 n
s = = S2
n−1 n n−1
daı́
2 n 2 n n−1
E(s ) = E(S ) = σ2 = σ2,
n−1 n−1 n
o que significa que este estimador é não-tendencioso.
7.2 Estimador de Máxima Verosimilitude

Dado um vetor amostral X1 , X2 , . . . , Xn este estimador do parâmetro θ ∈ Θ escolhe θ∗ tal que
θ∗ = max{P r(x1 , x2 , . . . , xn |θ)}

θ∈Θ
Como as Xi são do tipo IID então P r(x1 , x2 , . . . , xn |θ) = Πni=1 P r(xi |θ). Por outro lado, a
propriedade injetora da função logaritmo faz com que
θ∗ = max{P r(x1 , x2 , . . . , xn |θ)} = max{log(P r(x1 , x2 , . . . , xn |θ))}

θ∈Θ θ∈Θ
com o qual podemos calcular

n
X
θ∗ = log(P r(xi )|θ).
i=1
105
Que pode ser calculada derivando a função f (θ) = ni=1 log(P r(xi )|θ) e resolvendo para θ a
P
equação
Xn ∂P r(xi |θ)
∂θ
=0
P r(xi |θ)
i=1
7.2.1 Estimador do parâmetro de proporção p de uma VA de Bernoulli

Uma VA de Bernoulli com parametro p é X = {0, 1} ∈ R e probabilidades P r(0) = 1 − p e
P r(1) = p. Então podemos caracterizar estas probabilidades com
(
p, x=1
P r(x|p) = px (1 − p)1−x =
1 − p, x = 0
Temos então
∂P r(x|p) ∂px (1 − p)1−x
=
∂p ∂p
= (p ) (1 − p)1−x + px ((1 − p)1−x )′
x ′
x−1 x
p p
=x − (1 − x)
1−p 1−p
Dividindo por P r(x|p) obtemos

x−1 x
∂P r(x|p) p p
x 1−p − (1 − x) 1−p
∂p
=
P r(x|p) px (1 − p)1−x
x−1
x
p p
x 1−p − (1 − x) 1−p
= x
p
1−p (1 − p)

1 1−p
= x −1+x
1−p p

1 x
= −1
1−p p
n ∂P r(xi |p)
P ∂p 1 Pn xi
Portanto P r(xi |p) = 0 implica 1−p i=1 p − 1 = 0 donde
i=1
n
1X
p∗ = xi ,
n
i=1
que intuitivamente é um estimador obvio.
106
Exemplo 7.3 Qual é o valor de p se o vetor amostral é x1 = 1, x2 = 0, x3 = 0, x4 = 1, x5 = 1, x6 = 1,

x7 = 0, x8 = 1, x9 = 1, x10 = 1
Temos n = 10 e
1 7
p= (1 + 0 + 0 + 1 + 1 + 1 + 0 + 1 + 1 + 1) = = 0.7
10 10
n
1
P
7.3 Propriedades da média amostral X̄ = n Xi
i=1
Nos Capı́tulos 4 e 5 foi visto que a Esperança é um operador linear isto é
E(aX + bY ) = aE(X) + bE(Y )
Por outro lado a variança não é linear, mas têm a seguinte propriedade
V AR(aX+bY ) = V AR(aX)+2COV (aX, bY )+V AR(bY ) = a2 V AR(X)+2abCOV (X, Y )+b2 V AR(Y )
Se X, e Y são independentes, para o caso da variança, temos a seguinte propriedade adicional
V AR(aX + bY ) = a2 V AR(X) + b2 V AR(Y ).
Dado um numero natural n e uma variável aleatória X com média µ e desvio σ, considere a
repetição independente de X por n vezes. O resultado deste experimento repetido é o vetor
aleatório X1 , X2 , . . . , Xn , onde cada Xi é a variável aleatória X.
A média amostral definida por
X1 + X2 + · · · + Xn
X̄ = (7.1)
n
tem as seguintes propriedades;
•
E(X̄) = µ
•
σ2
V AR(X̄) =
n
Isto significa que quanto maior o tamanho de n, maior será o grau de confiança de que a
média amostral se aproxime da média verdadeira.
• Se X é Gaussiana então X̄ é também Gaussiana para qualquer n ≥ 1
107
• Se X não é Gaussiana então a VA definida por
X¯n − µ
Yn = √
σ/ n
é aproximadamente a Gaussiana Z(0, 1), para n suficientemente grande. (Teorema do limite

central)
Exemplo 7.4 Considere a variável aleatória X = {0, 2, 4} com probabilidades {0.5, 0.25, 0.25}
respectivamente. Estudar a média amostral
• Para um tamanho de amostra n = 5
A media de X é
n
X
µX = pi xi = (0.5)(0) + (0.25)(2) + (0.25)(4) = 1.5
i=1
enquanto que a variança é

2
σX = (0 − 1.5)2 (0.5) + (2 − 1.5)2 (0.25) + (4 − 1.5)2 (0.25) = 2.75
q
σX
• Se n = 5, temos que √ n
= 2.75
5 = 0.74162, então X̄ é uma Gaussiana X̄(1.5, 0.74162).
Logo
–
P (0.75838 ≤ X̄ ≤ 2.2416) = 0.68,
que pode ser interpretado assim “Uma média amostral de tamanho n = 5 esta no inter-
valo [0.75838,2.2416] com un 68% de confiança.
–
P (0.016760 ≤ X̄ ≤ 2.9832) = 0.955,
valo [0.016760,2.9832] com un 95.5% de confiança.
–
P (−0.72486 ≤ X̄ ≤ 3.7249) = 0.997,
valo [-0.72486,3.7249] com un 99.7% de confiança.
108
q
σX
• Se n = 10, temos que √
n
= 2.75
Logo
–
P (0.97560 ≤ X̄ ≤ 2.0244) = 0.68,
que pode ser interpretado assim “Uma média amostral de tamanho n = 10 esta no
intervalo [0.97560,2.0244] com un 68% de confiança.
–
P (0.45119 ≤ X̄ ≤ 2.5488) = 0.955,
intervalo [0.45119,2.5488] com un 95.5% de confiança.
–
P (−0.073213 ≤ X̄ ≤ 3.0732) = 0.997,
intervalo [-0.073213, 3.0732] com un 99.7% de confiança.
q
σX
• Se n = 20, temos que √ n
= 2.75
Logo
–
P (1.1292 ≤ X̄ ≤ 1.8708) = 0.68,
intervalo [1.1292,1.8708] com un 68% de confiança.
–
P (0.75838 ≤ X̄ ≤ 2.2416) = 0.955,
intervalo [0.75838,2.2416] com un 95.5% de confiança.
–
P (0.38757 ≤ X̄ ≤ 2.6124) = 0.997,
intervalo [0.38757, 2.6124] com un 99.7% de confiança.
Exemplo 7.5 Considere a variável aleatória X = {0, 2, 4} com probabilidades {1/3, 1/3, 1/3} res-
pectivamente. Estudar a média amostral para os mesmos tamanhos amostrais n = 5, 10, 20.
Neste caso temos que a µX = 2 e σX 2 = E(X 2 ) − µ2 = 20 − 22 = 8 = 2.6666. Para as amostras
√ X 3 3
de tamanhos 5,10 e 20 teremos os desvios σX / n = 0.73030, 0.51640, e 0.36515 respectivamente
que mostra que a estimação da média amostral será mais precisa do que no caso anterior.
109
110
Capı́tulo 8
Intervalos de Confiança
8.1 Construir Intervalos para a média µ

Alguns valores zα e z α2
1−α z α2 zα sup zα inf

0.99 2.58 2.33 −2.33
0.98 2.33 2.06 −2.06
0.95 1.96 1.65 −1.65
0.90 1.65 1.28 −1.28
8.1.1 X Gaussiana e variança σ 2 conhecida

Intervalo bilateral
1-
/2 /2
x- x x +
Dada a média amostral x̄, obtida de uma amostra de tamanho n de uma VA com variança
σ 2 , queremos determinar o intervalo = [x̄ − ǫ, x̄ + ǫ] onde esteja a verdadeira média µ com um
nı́vel de confiança 1 − α. Este intervalo que depende do número positivo ǫ, é chamado “Intervalo
de confiança” (IC) e o número positivo ǫ, algumas vezes é chamado de “margem de erro”. A
dependência do IC de ǫ é estabelecida pela fórmula
ǫ = Metade do comprimento do IC.
111
Começamos calculando “Probabilidade da média populacional µ estar no intervalo [x̄−ǫ, x̄+ǫ]”,

isto é calcular P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ). Para isto, consideremos a seguinte sequencia de equivalência
de eventos:
{X̄ − ǫ ≤ µ ≤ X̄ + ǫ} ⇔ {−ǫ ≤ µ − X̄ ≤ ǫ}
⇔ {−ǫ ≤ X̄ − µ ≤ ǫ}

ǫ ǫ
⇔ − √ ≤Z≤ √ ,
σ/ n σ/ n
Então
ǫ ǫ ǫ
P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = P − √ ≤Z≤ √ = 2Φ √ −1
σ/ n σ/ n σ/ n
Fazendo
ǫ
z α2 = √
σ/ n
e impondo a condição do nı́vel de confiança do IC, P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = 1 − α temos que
1 − α = 2Φ(z α2 ) − 1
donde z α2 pode ser calculado com

α
z α2 = Φ−1 1 − .
2
Para encontrar o valor de z α2 podemos usar a Tabela de Φ ou também a planilha LibreOfficeCalc
onde temos as opções
norminv(1- α2 ; 0; 1) ou norm.s.inv(1- α2 ).
No Octave temos o comando norminv(1- α2 ).

Portanto, o comprimento pode ser calculado pela fórmula
σ
ǫ = z α2 √
n
1-α
α/2 α/2
-z α/2 0 zα/2
Exemplo 8.1 Seja X uma variável aleatória normal com variança 32. Considere uma amostra de
tamanho 25 cuja média amostral é 63.5. Determinar o IC para um nı́vel de confiança de 85 % ?
112
Solução.-
Como 1−α = 0.85 temos que α = 0.15. Logo obtemos Φ(z α2 ) = 1−0.075 = 0.925, donde z α2 = 1.44.
Com isto √
(1.44) 32
ǫ= = 1.6292
5
e o intervalo com um 85% de confiança é
IC = [63.5 − 1.6292, 63.5 + 1.6292] = [61.871, 65.129]
Exemplo 8.2 No IC [x̄ − z α2 √σn , x̄ + z α2 √σn ], qual é o valor de z α2 que fornece 92 % de confiança?
Sol.-
Temos que para o nı́vel de confiança de 92 % o valor de α é 8 %, ou seja α = 0.08 e α/2 = 0.04.
Com isto, Φ(z α2 ) = 1 − 0.04 = 0.96 donde, da Tabela Φ, obtemos z α2 = 1.75068.
Exemplo 8.3 Esta sendo estudado o comprimento do IC da amplitude de um sinal, em volts.

Suponha que esta amplitude esteja normalmente distribuı́da com variança σ 2 = 25. Qual deve ser
o tamanho da amostra para que o comprimento do IC de 90 % seja de 12 volts?.
Sol.- zα σ
O erro é dado por ǫ = √2
n
donde
z 2α σ 2
2
n=
ǫ2
Para o IC de 90 % temos que α = 0.1 e α/2 = 0.05, logo Φ(z α2 ) = 1 − 0.05 = 0.95. Disto
z α2 = 1.64485
Por outro lado, se o comprimento do intervalo é 12 então ǫ = 6.
Portanto
(1.64485)2 (25)
n= = 1.8788,
62
que significa n = 2.
Exemplo 8.4 O comprimento de um IC de 98 % é 40 se o tamanho da amostra também é 40 qual

é a variança?
Sol.- zα σ
O erro é dado por ǫ = √2
n
donde
ǫ2 n
σ2 =
z 2α
2
Para o IC de 98 % temos que α = 0.02 e α/2 = 0.01, logo Φ(z α2 ) = 1 − 0.01 = 0.99. Disto
z α2 = 2.326
113
Por outro lado, se o comprimento do intervalo é 40 então ǫ = 20.

Portanto
(20)2 (40)
σ2 = = 2956.451
2.3262
Intervalos Unilaterais
• Para um IC inferior é considerada a “probabilidade de µ estar no intervalo (−∞, x̄ + ǫ]”.
ǫ
P (µ ≤ X̄ + ǫ) = P (X̄ − µ ≥ −ǫ) = P (Z ≥ − √ )
σ/ n
= P (Z ≥ −zα ) = 1 − Φ(−zα ) = Φ(zα ) = 1 − α.
• Para um IC superior é considerada a “probabilidade de µ estar no intervalo [x̄ + ǫ, ∞)”.

ǫ
P (X̄ − ǫ ≤ µ) = P (X̄ − µ ≤ ǫ) = P (Z ≤ √ )
σ/ n
= P (Z ≤ zα ) = Φ(zα ) = 1 − α.
Exemplo 8.5 O tempo de duração de uma lampada tem uma distribuição Gaussiana com σ = 25
horas. Uma amostra de 20 lampadas têm uma duração média de 1014 horas.
1. Construir um IC bilateral com um nı́vel de confiança de 95 %
2. Construir um IC unilateral inferior com um nı́vel de confiança de 95 %.
Solução.-
1. Como 1 − α = 0.95 temos que α = 0.05. Logo obtemos Φ(z α2 ) = 1 − 0.025 = 0.975, donde
z α2 = 1.96.
Com isto
(1.96)(25)
ǫ= √ = 10.957
20
e o intervalo bilateral com um 95% de confiança é
IC = [1014 − 10.957, 1014 + 10.957] = [1003.0, 1025.0]
2. Como 1 − α = 0.95 = Φ(zα ) temos que zα = 1.65 Com isto

(1.65)(25)
ǫ= √ = 9.2238
20
e o intervalo unilateral inferior com um 95% de confiança é
IC = (−∞, 1014 + 9.2238] = (−∞, 1023.2]
114
8.1.2 X Gaussiana com variança σ 2 desconhecida

P
(xi −x̄)
Quando a variança σ 2 da população é desconhecida pode ser usado o estimador s2 = n−1 ea
variável aleatória T de student que é definida por
X̄ − µ
T = √
s/ n
A densidade desta variável aleatória é
n+1
! − n+1
1 Γ 2 x2 2
fn (x) = √ +1 ,
πn Γ( n2 ) n
que é função par. A média e variança desta densidade, para n ≥ 3 são
E(X) = 0
n
V AR(X) =
n−2
Observe que para n grande V AR(X) ≈ 1 e assim esta distribuição T se aproxima da distribuição
Z. Por outro lado, denotando por ΦT (t) = P (T ≤ t) também observamos que ΦT (t) tem um
comportamento semelhante a Φ(z). Em particular
P (−t ≤ T ≤ t) = 2ΦT (t) − 1.
Os cálculos de s = ΦT (t) e sua inversa t = Φ−1T (s) podem ser realizados com software e tabelas.
No LibreOfficeCalc: s=t.dist(t;n-1;1) e para a inversa t=t.inv(s;n-1)
No Octave: s=tcdf(t,n-1) e para sua inversa t=tinv(s,n-1)
. Para o cálculo com Tabelas, é necessário considerar a função complementar QT (t) = 1 − ΦT (t) =
P (T ≥ t). Os valores das áreas s implementadas nas Tabelas tradicionais são s = QT (t, n − 1) e a
inversa é t = Q−1
T (s, n − 1).
A construção do IC onde a média µ possa estar é semelhante ao caso da variança σ 2 conhecida.
P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = P (−ǫ ≤ µ − X̄ ≤ ǫ) =

ǫ ǫ
= P (−ǫ ≤ X̄ − µ ≤ ǫ) = P − √ ≤T ≤ √
s/ n s/ n
Definindo
ǫ
t α2 ,n−1 = √
s/ n
temos a margem de erro
s
ǫ = t α2 ,n−1 √
n
115
Donde
1 − α = P (X̄ − ǫ ≤ µ ≤ X̄ + ǫ) = 2ΦT (t α2 ,n−1 ) − 1.
O cálculo de
t α2 ,n−1 = Φ−1
T (1 − α/2)
pode ser realizado com o comando t.inv(1- α2 ; n-1) do LibreOfficeCalc.
Exemplo 8.6 A media de uma amostra de notas de 40 alunos é 7.6 com uma variança amostral
de s2 = 8. Construir um intervalo de confiança de 98 %.
Solução.-
α
1 − α = 0.98, donde α = 0.02 e 1 − 2 = 0.99. Logo:
t α2 ,39 = t.inv(0.99; 39) = 2.42584
Com isto √
s 2.42584 8
ǫ = t α2 ,39 √ = √ = 1.084868
n 40
e portanto a média populacional µ esta no intervalo [6.51513137149238, 8.68486862850762] com um
98 % de confiança
Os casos Unilaterais são tratados semelhantemente aos da variança conhecida, com a substi-
tuição de zα por tα,n−1 .
8.2 Construir Intervalo de confiança para a variança σ 2

Para determinar um intervalo de confiança para a variança é usado a variável aleatória χ2 definida
por
(n − 1)s2
χ2 =
σ2
cuja densidade é um caso particular da densidade Gamma;
n x
x 2 −1 e− 2
fn (x) = n , x≥0
2 2 Γ( n2 )
Note-se que diferente das densidades Gaussiana e t-student esta densidade de χ2 não é simétrica. A
probabilidade acumulada y = Φχ2 (x) = P (χ2 ≤ x) e sua inversa x = Φ−1 χ2
(y) podem ser calculados
com software e tabelas.
No LibreOfficeCalc: y=chisq.dist(x;n-1;1) e para a inversa x=chisq.inv(y;n-1)
No Octave: y=chi2cdf(x,n-1) e para sua inversa x=chi2inv(y,n-1).
Para o cálculo com Tabelas, é necessário considerar a função complementar Qχ2 (x) = 1 − Φχ2 (x) =
116
P (χ2 ≥ x). Os valores das áreas y implementadas nas Tabelas tradicionais são y = Qχ2 (x, n − 1) e
a inversa é x = Q−1
χ2
(y, n − 1).
Caso bilateral
Desta vez o intervalo é determinado da seguinte maneira;
(n − 1)s2

2 2 2 2 2
{χ α ,n−1 ≤ χ ≤ χ1− α ,n−1 } ⇔ χ α ,n−1 ≤ ≤ χ1− α ,n−1
2 2 2 σ2 2
( )
1 σ2 1
⇔ ≥ ≥ 2
χ2α ,n−1 (n − 1)s2 χ1− α ,n−1
( 2 2
)
(n − 1)s 2 (n − 1)s 2
⇔ ≤ σ2 ≤
χ21− α ,n−1 χ2α ,n−1
2 2
O intervalo de confiança com um nı́vel de 1-α é determinado por

!
(n − 1)s2 (n − 1)s2
P (χ2α ,n−1 ≤ χ2 ≤ χ21− α ,n−1 ) = P ≤ σ 2
≤ = 1 − α.
2 2 χ21− α ,n−1 χ2α ,n−1
2 2
Exemplo 8.7 A variança amostral de 40 notas de alunos é 8. Com um 90% de confiança, calcular
o intervalo onde esta a variança populacional σ 2 .
α
Solução α = 0.1, então 2 = 0.05. Com isto:
(n−1)s2 39(8)
χ2
α
,39 =chisq.inv(0.05; 39)=25.69539; que implica χ2α ,n−1
= 54.57223 = 5.7172.
2
2
(n−1)s2 39(8)
Por outro lado, χ21− α ,39 =chisq.inv(0.95; 39)=54.57223 que implica χ21− α ,n−1
= 25.69539 =
2
2
12.14225
Portanto, com um 90 % de confiança, a variança populacional σ 2 está entre 5.7172 e 12.14225.
Caso unilateral
2 2 2 (n−1)s2
Para o caso unilateral consideramos a equivalencia de eventos {χ ≥ χα,n−1 } ⇔ σ ≤ χ2
α,n−1
(n−1)s2
para afirmar que o limite superior da variança σ2, com um nı́vel de confiança de 1-α, é χ2α,n−1
.
Mais precisamente; !
(n − 1)s2
P σ2 ≤ = P (χ2 ≥ χ2α,n−1 ) = 1 − α
χ2α,n−1
Exemplo 8.8 Considere o Exemplo anterior das notas de 40 alunos. Calcular o limite superior
da variança sigma com o mesmo 90 % de confiança.
117
Solução
Calculamos
χα,n−1 = chisq.inv(0.1;39)=28.1957851824004
39(8)
Portanto, o limite superior de σ 2 com um 90 % de confiança é 28.195786 = 11.06548
8.3 X com distribuição desconhecida, tamanho de amostra grande,

e variança σ 2 conhecida
Pela lei dos grandes números X̄ é aproximadamente Gaussiana X̄(µ, √σn ). Nesse caso também
obtemos um intervalo de confiança com
1 − α = 2Φ(z α2 ) − 1,
determinando z α2 com:
α
z α2 = Φ−1 (1 − ).
2
Exemplo 8.9 O IBOPE anuncia que um candidato tem 48 % das intenções de voto com uma
margem de erro de 2 pontos percentuais. As intenções de voto tem um desvio padrão σ de 50 pon-
tos percentuais. Qual deve ser a tamanho da amostra para os seguintes nı́veis de confiança 99%,
95% e 90%?
Para 99 % , z α2 = 2.58, para 95 % , z α2 = 1.96, e para para 95 % , z α2 = 1.65

zα σ
ǫ = √2
n
donde 2
z α2 σ

n=
ǫ
Com isto para o nı́vel de confiança de 99 % temos n = 4161, para o nı́vel de confiança de 95 %
temos n = 2401, e para o nı́vel de confiança de 90 % temos n = 1702,
8.4 Exercı́cios
1. No IC [x̄ − z α2 √σn , x̄ + z α2 √σn ], qual é o valor de z α2 que fornece 91 % de confiança?
Resposta: 1.6953
118
2. A amostra X = {1.89, 0.30, 1.53, 4.08, 3.10, −1.98, 3.2, 5.4, −0.39 − 2.51} foi obtida de uma
população com distribuição Gaussiana com σ = 3. Encontrar um IC para a média µ com um
99 % de confiança.
Resposta: [-0.9816, 3.9056]
3. Está sendo estudado a altura média da espuma produzido por um shampoo de uma certa
marca, em mm. Suponha que esta altura esteja normalmente distribuı́da com variança
σ 2 = 18. Calcular o tamanho da amostra para que o comprimento do IC seja de 4 mm,
com um nı́vel de confiança de 95 %.
Resposta: n=18
4. O comprimento de um IC de 98 % é 60 se o tamanho da amostra é 20 qual é a variança?

Resposta: 3326
119
120
Capı́tulo 9
Testes de Hipóteses
9.1 Testes de Hipóteses para a média µ

Ao invés de averiguar em que intervalo está a média populacional µ, neste caso é testado uma
hipótese ao respeito de µ.
9.1.1 X Gaussiana com variança σ 2 conhecida

Caso unilateral
É testada a hipótese H0 : µ = µ0 usando a média amostral x̄ e um nı́vel de significância α. O
nı́vel de significância α determina um limiar γ que divide a reta real em dois intervalos(regiões)
complementares R0 e R0c = R − R0 com µ0 ∈ R0 . Temos dois casos unilaterais:
• γ > µ0 que significa R0c = {x ≥ γ > µ0 }
• γ < µ0 que significa R0c = {x ≤ γ < µ0 }
A decisão tem dois resultados possı́veis:
• Aceitar H0 se x̄ ∈ R0
• Rejeitar H0 se x̄ ∈ R0c
A toma de decisão é acertada ou errada de acordo à seguinte itens
1. H0 é aceita quando H0 é verdadeira (decisão acertada).
2. H0 é rejeitada quando H0 é falsa (decisão acertada))
3. H0 é rejeitada quando H0 é verdadeira (decisão errada)
121
4. H0 é aceita quando H0 é falsa (decisão errada).

A decisão errada de rejeitar H0 quando H0 é verdadeira é chamado de Erro de Tipo I enquanto
que decisão errada de aceitar H0 quando H0 é falsa é chamada de Erro de Tipo II e requer o
conhecimento da verdadeira média µ = µ1 .
A probabilidade de erro de tipo I é igual ao nı́vel de significância α do teste, isto é,
α = P (erro tipo I)
Quando γ > µ0 , o erro α pode ser calculado de maneira precisa por:

X̄ − µ0 γ − µ0 γ − µ0
α = P (X̄ > γ | µ0 ) = P √ > √ =1−Φ √ = 1 − Φ(zα )
σ/ n σ/ n σ/ n
donde
γ − µ0
zα = √ .
σ/ n
Para o caso γ < µ0 o erro α é calculado por
α = Φ(zα ).
Exemplo 9.1 Existe um estimado que os ônibus de Alegrete que servem a linha Praça Central -
UNIPAMPA realizam esse trajeto em um tempo médio de 8.5 minutos com um desvio de 4 minutos.
Um grupo de estudantes da UNIPAMPA suspeita que esse tempo é maior. Para testar sua suspeita
eles vão realizar sua pesquisa com amostras de tamanhos 5, 10 e 30. Quais devem ser os limiares
γ para que erro do tipo I da sua conclusão (decisão) seja igual a 5%?
Solução.-
De α = 1 − Φ(zα ) obtemos
zα = Φ−1 (1 − α).
Para α = 0.05 obtemos com o LibreOfficeCalc
zα =norm.inv(0.95,0,1)
que fornece zα = 1.644853.
γ−µ
√0
Por outro lado, da fórmula zα = σ/ n
obtemos que
σ
γ = µ0 + zα √ .
n
(1.644853)(4)
Para n = 5 teremos γ = 8.5 + √
5
= 11.4424
(1.644853)(4)
10
= 10.58
(1.644853)(4)
30
= 9.70.
122
Exemplo 9.2 Um fabricante de azulejos quer testar a hipótese de que em média a área das peças
é 230 cm2 com um desvio de 4 cm2 . Devido a reclamações de clientes, ele suspeita que a verdadeira
área média seja menor e testa sua suspeita, utilizando o limiar γ = 229. Calcular o erro do tipo I
para os casos em que n = 5, n = 10 e n = 30.
Solução.-
Para n = 5 temos
γ − µ0 229 − 230
zα = √ = √ = −0.5590
σ/ n 2/ 5
Do mesmo modo para n = 10, obtemos zα = −0.79055 e para n = 30 temos zα = −1.3650. Com
isto a probabilidade de rejeitar H0 , mesmo quando H0 está correto, para n = 5 é
α = Φ(−0.559) = 0.287740
enquanto que para n = 10 e n = 30 esses erros de tipo I são 0.214764 e 0.086915 respectivamente.
Exemplo 9.3 Uma companhia de produtos de limpeza esta produzindo um novo shampoo e tem
interesse na altura da espuma em mm. A altura da espuma esta normalmente distribuı́da e tem um
desvio padrão de 15 mm. A companhia testa H0 : µ = 96 mm contra H1 : µ > 96 mm utilizando a
média de de uma amostra de tamanho 10.
1. Calcular α se a região de rejeição é {x ; x > 102}
2. Calcular β se a média verdadeira é µ = 105 mm.
Sol.-
1.
102 − 96
α = P (X̄ > 102) = P Z > √ = P (Z > 1.264911) = 1 − Φ(1.264911),
15/ 10
donde α = 0.1029.
2.
102 − 105
β = P (X̄ ≤ 102 | µ1 ) = P Z ≤ √ = Φ(−0.6324),
15/ 10
donde β = 0.2635.
Exemplo 9.4 No Exemplo anterior, encontrar o valor crı́tico (limiar) γ se
1. α = 0.01 e n = 10
2. α = 0.05 e n = 10
123
Sol.-
1.
α = P (X̄ > γ) = P (Z > zα ) = 1 − Φ(zα )
donde Φ(zα ) = 1 − α = 0.99. Portanto, zα = 2.34634. Finalmente
σ (2.32634)(15)
γ = µ0 + zα √ = 96 + √ = 107.0348
n 10
2.
α = P (X̄ > γ) = P (Z > zα ) = 1 − Φ(zα )
donde Φ(zα ) = 1 − α = 0.95. Portanto, zα = 1.644. Finalmente
σ (1.644)(15)
γ = µ0 + zα √ = 96 + √ = 103.8022
n 10
Para o cálculo do erro do tipo II considere a hipótese alternativa H1 : µ = µ1 > µ0 . Isto

significa que o limiar é γ > µ0 . Esta decisão equivocada acontece quando x̄ ∈ R0 , isto é, x̄ ≤ γ
quando H1 é verdadeira. Então se
β = P (erro do tipo II)
temos que

X̄ − µ1 γ − µ1 γ − µ1
β = P (X̄ ≤ γ | µ1 ) = P √ ≤ √ =Φ √ = Φ(zβ )
σ/ n σ/ n σ/ n
γ−µ
√1
donde zβ = σ/ n
é calculado como a solução da equação
β = Φ(zβ )
Se a hipótese alternativa H1 : µ = µ1 é tal que µ1 < µ0 então γ < µ0 e assim
β = 1 − Φ(zβ )
Exemplo 9.5 É conhecido que o desvio padrão da variável aleatória X=“preço de uma cesta básica
familiar com 60 itens” é de 42 reais. Dois grupos de pesquisa, A e B, fizeram dois levantamentos
independentes do custo médio desta cesta básica. Para o grupo A o preço médio foi de 256.2 reais
enquanto que para o grupo B este preço foi de 275 reais. Sabe-se que somente um dos grupos tem
o resultado correto. Um estudante decide testar qual deles esta correto e para isso trabalha com 3
amostras de tamanhos 5, 10 e 30. Calcular as probabilidade do estudante cometer ambos tipos de
erros, I e II, para cada uma dessas amostras.
124
Solução.-
Para n = 5 temos
γ − µ0 260 − 256.2
zα = √ = √ = 0.20231
σ/ n 42/ 5
donde
α = 1 − Φ(zα ) = 1 − Φ(0.20231) = 1 − 0.579260 = 0.42074
Por outro lado;
γ − µ1 260 − 275
zβ = √ = √ = −0.7986
σ/ n 42/ 5
donde
β = Φ(zβ ) = Φ(−0.7986) = 0.211855
Para n = 10 calculamos que zα = 0.28611 donde α = 1 − Φ(0.28611) = 0.38974. Enquanto que
zβ = −1.1294 que implica que β = Φ(−1.1294) = 0.131357.
Para n = 30 calculamos que zα = 0.49556 donde α = 1 − Φ(0.49556) = 0.31207. Enquanto que
zβ = −1.9562 que implica que β = Φ(−1.9562) = 0.025588.
Ao invés de calcular zβ em função de µ1 , podemos calcular também zβ como função de µ0 . Para

isto é necessário considerar que o limiar deve ser tal que
µ0 < γ < µ1
Então, fazendo d = µ1 − µ0 obtemos µ1 = µ0 + d, logo

√
γ − µ1 γ − µ0 − d d n
zβ = √ = √ = zα −
σ/ n σ/ n σ
Portanto √
d n
β = Φ zα − .
σ
Caso bilateral
É testada a hipótese nula H0 : µ = µ0 contra a hipótese H1 : µ 6= µ0 . Para isto é estabelecido dois
valores crı́ticos (limiares) γ1 , γ2 ,com γ1 < γ2 e simétricos respeito de µ0 , isto é
γ1 + γ2
µ0 = .
2
A reta real R é dividida em três regiões (intervalos) L1 = {x ; x < γ1 }, L2 = {x ; x > γ2 } e
R0 = {x ; γ1 ≤ x ≤ γ2 }. Temos que R0c = L1 ∪ L2 . A toma de decisão é feita com os seguinte
critérios:
125
• Se a média amostral x̄ ∈ R0 então aceitar H0
• Se a média amostral x̄ ∈ R0c então rejeitar H0
O erro de decisão Tipo I acontece quando x̄ ∈ R0c , mesmo H0 correto, isto é x̄ < γ1 ou x̄ > γ2 .
A probabilidade deste erro é
α = P (x̄ ∈ R0c | µ0 ) = 1 − P (x̄ ∈ R0 | µ0 ) = 1 − P (γ1 ≤ X̄ ≤ γ2 |µ0 ) =

γ 1 − µ0 γ 2 − µ0
=1−P √ ≤Z≤ √
σ/ n σ/ n
γ2 −µ γ1 −µ γ1 +γ2
Se z α2 = √0
σ/ n
então −z α2 = √ 0,
σ/ n
isto porque µ0 = 2 . Logo
α = 1 − P (−z α2 ≤ Z ≤ z α2 ) = 1 − (2Φ(z α2 ) − 1) = 2(1 − Φ(z α2 ))
donde
α
Φ(z α2 ) = 1 −
2
Exemplo 9.6 A prefeitura de uma cidade tem uma estatı́stica antiga ao respeito do gasto em
transporte dos seus moradores. Segundo essa estatı́stica um morador, em média gasta 9.8 reais
com um desvio de 5 reais. A atual gestão dessa cidade decide testar se essa média de gastos ainda
tem validade.
• Se vai ser usado uma amostra de tamanho n = 30, quais devem ser os limiares para obter
uma probabilidade erro Tipo I de 0.1 %?
• Se no teste são utilizados os limiares 11 e 8.6 reais, de que tamanho deve ser a amostra para
que α seja igual a 0.15 %?
Solução.-
• α = 0.001 donde α2 = 0.0005, então Φ(z α2 ) = 1−0.0005 = 0.9995. Na tabela de Φ encontramos

que z α2 = 3.3.
Da formula z α2 = γσ/
2 −µ
√ 0 obtemos
n
zα σ (3.3)(5)
γ2 = µ0 + √2 = 9.8 + √ = 12.812
n 30
γ1 +γ2
Finalmente de µ0 = 2 obtemos que
γ1 = 2µ0 − γ2 = 2(9.8) − 12.812 = 6.788
126
• α = 0.0015 donde α2 = 0.00075, então Φ(z α2 ) = 1 − 0.00075 = 0.99925. Na tabela de Φ

encontramos que z α2 = 3.18.
Da formula z α2 = γσ/
2 −µ
√ 0 obtemos que
n
2 2
z α2 σ

(3.18)(5)
n= = = 176
γ 2 − µ0 11 − 9.8
O erro de Tipo II é cometido quando se aceita H0 mesmo que H0 esteja incorreto (falso
positivo). Neste caso é necessária uma hipótese alternativa especı́fica H1 : µ = µ1 6= µ0 , suponha
µ1 > µ0 . Esta decisão equivocada acontece quando x̄ ∈ R0 , isto é, γ1 ≤ x̄ ≤ γ2 quando H1 é
verdadeira. A probabilidade deste erro é denotado por β e:

γ 1 − µ1 γ 2 − µ1
β = P (γ1 ≤ X̄ ≤ γ2 | µ1 ) = P √ ≤Z≤ √
σ/ n σ/ n
Chamando
γ 1 − µ1
zβ1 = √
σ/ n
e
γ 2 − µ1
zβ2 = √
σ/ n
temos que
β = Φ(zβ1 ) − Φ(zβ2 )
De modo semelhante ao caso unilateral, fazendo d = µ1 − µ0 , podemos calcular zβ1 e zβ2 em
função de µ0 e obter; √ √
d n d n
β = Φ z α2 − − Φ −z α2 −
σ σ
Desta formula observamos que
√
d n
zβ1 = −z α2 − <0
σ
e Φ(zβ1 ) → 0 conforme α → 0. Por exemplo se α < 0.1 então z α2 > 1.64, donde zβ1 < −3 se
√
d n
σ > 1.36, ou seja para α < 0.1 é suficiente que
σ 2
n > 1.84
d
d 2

Em aplicações na área de Telecomunicações a relaçãoé chamada de relação sinal-ruido
σ
2
(SNR) e normalmente seu valor em deciveis (dB) é positivo o que significa σd ≥ 1. Portanto,
para qualquer n ≥ 2 e α < 0.1 teremos Φ(zβ1 ) ≈ 0.
127
√
Então podemos supor Φ(zβ1 ) = Φ(−z α2 − d σ n ) ≈ 0 e com isto
√
d n
β ≈ Φ z α2 − = Φ(zβ2 ).
σ
Nestes casos é possı́vel aproximar β, para como se fosse unilateral, por
√
d n
zβ ≈ zβ2 = z α2 −
σ
Exemplo 9.7 No exemplo anterior dos gastos de transporte de uma cidade, suponha que o setor
de Estatı́sticas da atual gestão da Prefeitura suspeite que a média de gastos em transporte atual
seja de 12.5 reais.
• Se vai ser usado uma amostra de tamanho n = 30, com α = 0.001, qual é o erro de tipo II?
• Se no teste são utilizados os limiares 11 e 8.6 reais, de que tamanho deve ser a amostra para
que β seja igual a 0.15 %? Neste caso qual é o valor de α?
Solução.-
• Para α = 0.001, n = 30 obtivemos os limiares γ2 = 12.812 e γ1 = 6.78 donde z α2 = 3.3.

Calculamos a distancia entre as hipóteses: d = µ1 − µ0 = 12.5 − 9.8 = 2.7. Então
√ √
d n 2.7 30
zβ2 = z α2 − = 3.3 − = 0.34230
σ 5
e √ √
d n 2.7 30
zβ1 = −z α2 − = −3.3 − = −6.2577
σ 5
Portanto
β = Φ(0.34230) − Φ(−6.2577) = 0.63394 − 0.00000 = 0.63394
“O erro α = 0.001 é baixo mais e erro β = 0.63394 é alto”.
γ2 −µ
• Para β = 0.0015 obtemos zβ ≈ zβ2 = −2.96. Da formula zβ2 = √1
σ/ n
obtemos
2 2
zβ σ (5)(2.96)
n= = = 98
γ 2 − µ1 1.5
Por outro lado √ √
d n 2.7 98
z = zβ2 +
α = −2.96 + = 2.3857
2 σ 5
α
Finalmente de 2 = 1 − Φ(z α2 ) obtemos
α = 2(1 − Φ(z α2 )) = 2(1 − Φ(2.3857)) = 2(1 − 0.991314) = 0.017372
128
Para o caso µ1 < µ0 teremos claramente z2 = γσ/ 2 −µ

√ 1 > pois γ2 > µ0 > µ1 . Também é prático
n
estabelecer que γ1 > µ1 , com isto também z2 > z1 > 0, daı́ é suposto que Φ(z2 ) ≈ 1
β = P (z1 ≤ Z ≤ z2 ) = Φ(z2 ) − Φ(z1 ) ≈ 1 − Φ(z1 )
donde
γ 1 − µ1
zβ = z1 = √
σ/ n
é calculada com
1 − β = Φ(zβ ).
Exemplo 9.8 Um relatório de empresa fornecedora de energia elétrica da região sul-oeste do RS

indica que em média o consumo de energia por usuário é de 68.5 KW-hora, a cada mês com um
desvio de 25 KW-hora. Um pesquisador acredita que este consumo é menor, de 65 KW-hora,
e para testar sua suspeita, ele vai usar um limiar de 66 KW-hora. Calcular a probabilidade do
pesquisador cometer erro do tipo II se ele testa sua hipótese com os seguintes tamanhos de amostra:
n = 5, 10, 30.
Solução.-
Para n = 5 temos
γ − µ1 66 − 65
zβ = √ = √ = 0.089443
σ/ n 25/ 5
donde
β = 1 − Φ(zβ ) = 1 − Φ(0.089443) = 1 − 0.464148 = 0.53585
Para n = 10 e n = 30 temos zβ = 0.12649 e zβ = 0.21909, respectivamente. Os erros de tipo II
para esse casos são
β = 1 − Φ(0.12649) = 1 − 0.547758 = 0.45224
e
β = 1 − Φ(0.21909) = 1 − 0.587064 = 0.41294.
Exemplo 9.9 Amplitudes, em volts, de sinais recepcionados num sistema de comunicações tem
distribuição Gaussiana. A amplitude do sinal 1 tem média -2 volt e desvio 1.8 volts. A amplitude
do sinal 2 tem média +2 volt e 1.8 de desvio. Estamos interessados em determinar se um pacote
de amplitudes de sinais recepcionados corresponde ao sinal 1 (Hipótese nula: H0 ). Se a região de
aceitação é {x ; x ≤ 0}
1. Qual deve ser o tamanho de n para que α = 0.01?
2. Qual deve ser o tamanho de n para que β = 0.0015
Sol.-
129
1. α = 0.01 implica Φ(zα ) = 1 − α = 0.99, donde zα = 2.33.

γ−µ
√ 0 obtemos
Por outro lado de zα = σ/ n
2 2
zα σ (2.33)(1.8)
n= = = 4.3974
γ − µ0 0 − (−2)
donde n = 5;
2. Se β = 0.0015, então zβ = −2.96. Daı́;
2
(−2.96)(1.8) 2

zβ σ
n= = = 7.0969
γ − µ1 0−2
donde n = 8.
9.1.2 Valor p de uma média amostral x̄

A hipótese nula H0 : µ = µ0 também pode ser testada com o valor p de uma média amostral x̄.
Para o caso unilateral H0 : µ = µ0 versus H1 : µ > µ0 temos

x̄ − µ0 x̄ − µ0
p = P (X̄ ≥ x̄|µ0 ) = P Z ≥ √ =1−Φ √
σ/ n σ/ n
x̄−µ
√0
Denotando z0 = σ/ n
temos

x̄ − µ0
p = P (X̄ ≥ x̄|µ0 ) = P Z≥ √ = 1 − Φ(z0 )
σ/ n
Para o caso unilateral H0 : µ = µ0 versus H1 : µ < µ0 temos

x̄ − µ0
p = P (X̄ ≤ x̄|µ0 ) = P Z ≤ √ = Φ(z0 )
σ/ n
Para o caso bilateral H0 : µ = µ0 versus H1 : µ 6= µ0 , supondo x̄ ≥ 0, temos

x̄ − µ0
{|X̄| < x̄} ⇐⇒ |Z| < √
σ/ n
donde
p = P (|X̄| ≥ x̄|µ0 ) = 1 − P (−z0 ≤ Z ≤ z0 ) = 1 − (Φ(z0 ) − Φ(−z0 )) = 2(1 − Φ(z0 ))

Em todos os casos a toma de decisão é:
Aceita H0 se p está próximo de 1

Rejeita H0 se p está próximo de 0
130
9.1.3 X com distribuição desconhecida, tamanho de amostra grande, e variança

σ 2 conhecida
Pelo Teorema central do limite X̄ é aproximadamente Gaussiana X̄(µ, √σn ).
9.1.4 X Gaussiana com variança σ 2 desconhecida

Neste caso a análise é feita utilizando a distribuição T de student.
9.2 Teste de hipótese para a variança

Neste caso é utilizado a distribuição χ2
9.3 Exercı́cios
1. Startups da área da informática produzem aplicativos para smartphones que reportam inci-
dentes policiais a uma central da prefeitura de uma grande cidade. Devido a problemas de
segurança e melhorias nos algoritmos, novas versões destes aplicativos (upgrades) devem ser
lançadas a cada certo tempo. Suponha, esse tempo inter-versões dos aplicativos está nor-
malmente distribuı́do com um desvio padrão de 1.8 semanas. A prefeitura interessada nestes
aplicativos testa H0 : µ = 3.2 semanas contra H1 : µ > 3.2 semanas, utilizando uma amostra
de 10 versões.
(a) Calcular α se a região de rejeição é {x ; x > 4.5}

(b) Calcular β se a média verdadeira é µ = 5.4 semanas.
Respostas: a) 0.011189; b) 0.05692
2. Na questão anterior, encontrar o valor crı́tico (limiar) γ se
(a) α = 0.01 e n = 10
(b) α = 0.05 e n = 10
Respostas: a) 4.5241; b) 4.1362
131
132
Capı́tulo 10
Apendice: Algumas demonstrações
10.1 A função Γ e suas aplicações em estatı́stica

Neste capı́tulo, além de Z(0, 1) que a distribuição Gaussiana de média 0 e variança 1, também
utilizaremos a distribuição T de “Student” e a “CHI-QUADRADO”. Ambas estão relacionadas
com a distribuição Gaussiana e a função Gamma:
Z∞
Γ(x) = t(x−1) e−t dt
0
Esta função possui muitas propriedades entre elas

•
Γ(1) = 1
•
Γ(x + 1) = xΓ(x)
um consequência disto é que Γ(n + 1) = n!
•
√

1
Γ = π
2
A função Γ permite definir a distribuição Gamma cuja densidade é
λ(λx)α−1 e−λx
f (x) = , 0≤x≤∞
Γ(α)
R∞
Integramos o numerador de f (x) fazendo a mudança t = λx então obteremos 0 λ(λx)α−1 e−λx dx =
Γ(α), que mostra que f (x) é uma densidade de probabilidade.
133
Pode ser calculado a média e variança

α
E(X) =
λ
α(α + 1)
E(X 2 ) =
λ2
α
V AR(X) = 2
λ
10.1.1 A densidade de probabilidade χ2

Na densidade Gamma, se α = k/2 e λ = 1/2 teremos
k x
x 2 −1 e− 2
f (x) = k
2 2 Γ k2

Esta densidade de probabilidade é chamada de “chi-quadrado” com k graus de liberdade. Para

k = 1, 2, 3, 4, 5, 6 temos as seguintes formas da densidade chi-quadrado
k Subst. Direta f (x)

1 x x
x 2 −1 e− 2 e− 2
1 1 1
√
2πx
( )
22 Γ 2
2 x
x 2 −1 e− 2 1 − x2
2 2 2e
2 2 Γ 22
( )
3 x √ −x
x 2 −1 e− 2 xe 2
3 3 3
√
2π
( )
22 Γ 2
4 x x
x 2 −1 e− 2 xe− 2
4 4 4
2 2 Γ 42
( )
5 x 3 x
x 2 −1 e− 2 x 2√e− 2
5 5 5 3 2π
( )
22 Γ 2
6 x x
x 2 −1 e− 2 x2 e− 2
6 6 16
2 2 Γ 62
( )
Neste caso, também podemos calcular a média e variança
E(X) = k
E(X 2 ) = k(k + 2)
V AR(X) = 2k
134
10.1.2 Densidade da variável aleatória soma de quadrados Gaussianos

Considere a variável aleatória
U = X12 + X22 + · · · + Xn2 ,
onde as Xi são independentes e cada Xi é gaussiana Z(0, 1) (média zero e variância um). Mos-
traremos que que U tem uma densidade de probabilidade chi-quadrado com n-graus de liberdade.
Começamos esta prova indutiva com o caso n = 1, onde U = X 2
√
Zu
√ √ 1 t2
F (u) = P (U ≤ u) ⇔ P (X 2 ≤ u) ⇔ P (− u ≤ X ≤ u) = √ e− 2 dt
√ 2π
− u
√ √
= Φ( u) − Φ(− u))
∂F (u)
Logo, a densidade f (u) = ∂u é
u
e− 2

′ √ 1 ′ √ −1
f (u) = Φ ( y) √ − Φ (− y) √ =√ ,
2 u 2 u 2πu
que é idêntico à densidade χ2 de grau 1

√
Para n = 2 onde U = X 2 +Y 2 , seja Ru a região do circulo de raio u, isto é, Ru = {x2 +y 2 ≤ u}
ZZ
2 2 1 x2 1 y2
F (u) = P (U ≤ u) ⇔ P (X + Y ≤ u) ⇔ √ e− 2 √ e− 2 dydx
2π 2π
Ru
1
ZZ
x2 +y 2
= e− 2 dydx
2π
Ru
Utilizando coordenadas polares, temos que

√ √
2π u u
1
Z Z 2
Z
r2
− r2
F (u) = re dθdr = re− 2 dr
2π 0 0 0
∂F (u)
√ −u
−u √ ′ ue 2 1 u
= e− 2 ,
p
f (u) = (u)e 2 ( u) = √
2 u 2
que é idêntico à densidade χ2 de grau 2.
135
√
Para n = 3 onde U = X 2 + Y 2 + Z 2 , seja Su a esfera de raio u, isto é, Su = {x2 + y 2 + z 2 ≤ u}
ZZZ
2 2 2 1 x2 1 − y2 1 − z2
F (u) = P (U ≤ u) ⇔ P (X +Y +Z ≤ u) ⇔ √ e− 2 √ e 2 √ e 2 dzdydx
2π 2π 2π
Su
1
ZZZ 2 2 2
− x +y2 +z
= e dzdydx
(2π)3/2
Su
Utilizando coordenadas esféricas, temos que

√ √
2π π u π u
1 1
Z Z Z 2
Z Z
ρ2
2 − ρ2
F (u) = ρ e sin φdρdφdθ = √ sin φdφ ρ2 e− 2 dρ
(2π)3/2 0 0 0 2π 0 0
√
u
2
Z
ρ2
=√ ρ2 e− 2 dρ
2π 0
∂F (u)
√ −u
√ √

2 u 2 u 1 ue 2
f (u) = √ (ue− 2 )( u)′ = √ (ue− 2 )( u)′ √ = √ ,
2π 2π 2 u 2π
que é idêntico à densidade χ2 de grau 3.
10.2 Distribuição de Poisson, distribuição exponencial e distri-

buição Gamma
Considerar um processo em que sejam contados numero de [ocorrências] por [unidade de tempo]
e seja λ [ocorr/seg] a taxa média destas ocorrências. Considere a variável aleatória X=“numero
de ocorrências em t segundos”. Observar que X = {0, 1, 2, . . . } então a distribuição de Poisson é
definida por
(λt)k
P (X = k) = e−λt
k!
Agora considere as variáveis aleatórias :
• T0 =“número de segundos até a primeira ocorrência”, temos a equivalência de eventos
{T0 > t} ⇔ {X = 0}.
• T1 =“número de segundos até a segunda ocorrência”, temos a equivalência de eventos
{T1 > t} ⇔ {X = 0} ∪ {X = 1}.
136
• T2 =“número de segundos até a terceira ocorrência”, temos a equivalência de eventos
{T2 > t} ⇔ {X = 0} ∪ {X = 1} ∪ {X = 2}.
• Em geral; Tk =“número de segundos até a k + 1 ocorrência”, temos a equivalência de eventos

k
[
{Tk > t} ⇔ {X = k}.
i=0
Para as probabilidades temos
• P (T0 > t) = P (X = 0) = e−λt , donde a CDF de T0 é F (t) = P (T0 ≤ t) = 1 − e−λt que é a

distribuição exponencial pois F ′ (t) = f (t) = e−λt .
• P (T1 > t) = P (X = 0) + P (X = 1) = e−λt (1 + λt), donde a CDF de T1 é F (t) = P (T1 ≤

t) = 1 − e−λt (1 + λt) cuja densidade é F ′ (t) = f (t) = λ2 te−λt .
2 2
• P (T2 > t) = P (X = 0) + P (X = 1) + P (X = 2) = e−λt (1 + λt + λ 2t ), donde a CDF de T2 é
2 2 3 2
F (t) = P (T2 ≤ t) = 1 − e−λt (1 + λt + λ 2t ) cuja densidade é F ′ (t) = f (t) = λ 2t e−λt .
• Em geral para a VA Tn temos; P

i i
P (Tk > t) = 1 − P (Tk ≤ t) = 1 − ki=0 P (X = i) = 1 − ki=0 e−λt λi!t ), donde a CDF de T2 é
P
k k
X λi t i X λi ti
F (t) = P (T2 ≤ t) = 1 − e−λt ) = 1 − e−λt )
i! i!
i=0 i=0
λk+1 tk −λt
cuja densidade é F ′ (t) = f (t) = k! e .
Para cada k = 0, 1, 2, . . . ; pode-se verificar por indução que

Z∞
λk+1 tk −λt
e dt = 1
k!
0
Mas uma maneira simples de verificar isto é reconhecendo que a VA Tk é um caso particular da VA
Gamma de parâmetros α, λ que tem densidade
λ(λx)α−1 e−λx
f (x) = ,
Γ(α)
onde para Tk , o parâmetro α = k + 1.
137
10.3 Software Octave

Os comandos são normpdf(x, µ, σ) para a densidade f (x) de X(µ, σ). Para o acumulado é normcdf(x, µ, σ).
Para inversa é norminv(a,µ,σ)=x onde a = P (X ≤ x).
• Calculando P (1 ≤ X ≤ 4) para X(6, 2) com o comando normcdf
normcdf(4,6,2)-normcdf(1,6,2)
• Calculando P (−2.5 ≤ Z ≤ −1) para Z(0, 1) com o comando normcdf
normcdf(-1,0,1)-normcdf(-2.5,0,1)
• Calcular x tal que P (x ≤ X ≤ 7) = 0.8 para X(2, 3) com o comando norminv Temos que
0.8 = P (X ≤ 7) − P (X ≤ x) donde P (X ≤ x) = F (x) = P (X ≤ 7) − 0.8 = normcdf(7,2,3)-0.8
0.9522-0.8= 0.1522. Logo
x = F −1 (0.1522) = norminv(0.1522,2,3) = -1.0811.
R4 2 /8
• Calculando a integral P (1 ≤ X ≤ 4) = √1
2 2π
e−(x−6) dx
1
f=@(x) (1/sqrt(8*pi))*exp(-(x-6).^2/8);
I=quad(f,1,4)
−1
2 /2
• Calculando a integral P (−2.5 ≤ Z ≤ −1) = √1 e−z
R
2π
dz
−2.5
f=@(z) (1/sqrt(2*pi))*exp(-z.^2/2);
I=quad(f,-2.5,-1)
Rx
• Calculando com a função erro erf(x)= √2π 0 exp(−t2 )dt que corresponde a distribuição Gaus-
siana X(0, √12 ). Pela simetria erro erf(x) = P (−x ≤ X ≤ x). O comando erf e seu comple-
mentar erfc aparecem ainda em muitos softwares. A equação que justifica a formula de erf
é
1 x 1
Φ(x) = erf √ +
2 2 2
onde Φ(x) é o acumulado da distribuição Gaussiana padronizada.
0.5*erf(-1/sqrt(2))-0.5*erf(-2.5/sqrt(2))
138
10.4 Esperança e Variança para distribuição uniforme de uma

variável uniformemente espalhada
Para o caso geral de uma variável aleatória X = {a, a + ∆, a + 2∆, . . . , a + n∆} com n + 1
pontos e igualmente espaçadas e que tenha distribuição de probabilidade uniforme, teremos
que b = a + n∆ que é equivalente a dizer b − a = n∆.
Temos
Pn
(a + i∆)
i=0
E(X) =
n+1
Calculamos
n
X n(n + 1) b−a a+b
(a + i∆) = a(n + 1) + ∆ = (n + 1) a + = (n + 1)
2 2 2
i=0
donde
a+b
E(X) = .
2
Para obter uma formula da variança E((X − µX )2 ) consideremos

a+b b−a n
xi − µX = a + i∆ − = i∆ − = ∆(i − )
2 2 2
Disto
n2

2 2 2
(xi − µX ) = ∆ i − in +
4
e o somatório
n
n(n + 1)(2n + 1) n(n)(n + 1) n2 (n + 1)

X
2 2 2 n+2
(xi − µX ) = ∆ − + = ∆ n(n + 1)
6 2 2 12
i=0
portanto a variança
n
(xi − µX )2
P
i=0 ∆2 (n)(n + 2) (∆n)2 + 2n∆2 (b − a)2 + 2(b − a)∆
VAR(X) = = = =
n+1 12 12 12
Alguns autores preferem escrever
(b − a + ∆)2 − ∆2
VAR(X) =
12
139
Poderı́amos também ter obtido esta formula partindo de VAR(X) = E(X 2 )−µ2X . Finalmente,
note-se que neste caso de distribuição uniforme com dados xi igualmente espaçados:
A Esperança é o ponto médio de a e b, e no depende do número de pontos n
A variança depende se a, b e o espaçamento ∆, e também não depende do número de pontos
n.
140

Apostila

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO PAMPA

Autor: Prof. Jorge P. Arpasi.

Apostila com material de apoio à disciplina de

3 Variáveis Aleatórias Discretas e Distribuições de Probabilidade 33

3.3.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Variáveis Aleatórias Continuas e Distribuições de Probabilidade 53

5 Distribuições de Probabilidade Conjuntas 67

6.2.1 Caso discreto: amostra grande com muitos dados repetidos . . . . . . . . . . 89

7 Estimação de parâmetros 103

8 Intervalos de Conﬁança 111

9 Testes de Hipóteses 121

10 Apendice: Algumas demonstrações 133

Algumas propriedades da somatória são

Outras propriedades de potências de números naturais de muita utilidade são

Exemplo 1.1 Calcular 8i=1 i, 9i=1 i2 , 7i=1 i3 , e 12 3 2

Exemplo 1.2 Considere os conjuntos de dados xi da Tabela 1.1 e da Tabela 1.2

Tabela 1.1: Conjunto de dados X

Tabela 1.2: Conjunto de dados Y

Tabela 1.3: Organização de dados Exemplo 1

Tabela 1.4: Organização de dados Exemplo 1 (Cont.)

• A = {a, b, c, d}, é um conjunto com cardinalidade 4.

• B= Conjunto de alunos da UNIPAMPA; conjunto com cardinalidade não determinada, mas

• N={1, 2, 3, . . . }, Conjunto dos números naturais, conjunto com cardinalidade inﬁnita.

O conjunto vazio φ é o conjunto que não possui elementos, a cardinalidade de φ é zero. A

1.2.1 Conjuntos ﬁnitos

P(A) = {subconjuntos de A}.

Algumas vezes este conjunto é também chamado de “partes de A”.

1.2.2 Cardinalidade e distribuição dos subconjuntos em P(A)

2. Para n = 4, 24 = 16 distribuı́dos assim

1.2.3 Conjuntos inﬁnitos

1.3 Técnicas de contagem para conjuntos ﬁnitos

• 10! = 10 × 9 × . . . × 2 × 1 = 3628800, etc.

O factorial de zero é por deﬁnição um, isto é,

1.3.2 n-uplas, arranjos e combinações

1. Se os n elementos podem ser repetidos teremos mn possibilidades chamadas de n-uplas

Neste caso m = |A| = 4 e n = 2

Tabela 1.5: 16 = 42 duplas

Exemplo 1.7 Seja outra vez o conjunto A = {a, b, c, d}

Teremos 43 = 64 triplas, 4!(4 − 3)! = 24 permutações e 43 = (4−3)!3!

aaa baa caa daa

Dos exemplos observados temos as seguintes desigualdades:

1.3.3 Cálculo de permutações

Exemplo 1.8 Considere os conjuntos A={a,b}, e B = {a,b,c}

A tem dois elementos portanto o número de permutações é 2! = 2; a saber {a,b} e {b,a}.

1.3.4 Cálculo de combinações

1.3.5 Exemplos de aplicações

A = {01, 02, 03, . . . , 58, 59, 60}

60 possibilidades para a primeira dezena

Com isto o número de combinações diferentes é:

A fórmula combinatória destes mais de 50 milhões de combinações é é

pelas condições do sorteio, o resultado de cada 6-upla é independente de outra, então a

2. Aplicação em placas de carros: As placas de carros têm um esquema de três letras

3. Aplicação senhas de 06 algarismos: As senhas de um banco possuem 06 algarismos. O

4. Aplicação senhas da UNIPAMPA: As senhas da UNIPAMPA precisam ter entre 6 a 8

2.1 Experimento Aleatório, Espaço Amostral e Eventos

2. Espaço Amostral é o conjunto de todos os resultados possı́veis de um experimento. É

3. Evento é qualquer subconjunto do espaço amostral, isto é, E ⊂ S.

Exemplo 2.1 Experimento: “Lançar uma moeda e observar os resultados”

Exemplo 2.2 Experimento:“Lançar um dado e observar os resultados”

Exemplo 2.3 Experimento: “Lançar duas moedas e observar os resultados”

01 Evento com zero elementos

Exemplo 2.4 Experimento: lançar quatro vezes uma moeda equilibrada.

Alguns eventos deste experimento aleatório são: