Escolar Documentos
Profissional Documentos
Cultura Documentos
PROBABILIDADE
6.1 Introdução
A teoria da probabilidade é a parte da matemática que estuda os fenômenos
aleatórios. Todo fato ou acontecimento passível de observação é chamado de fenômeno, e os seus
possíveis resultados são determinísticos ou aleatórios. Qualquer ensaio ou experiência destinado à
verificação de um fenômeno é chamado de experimento. Diz-se que um fenômeno é determinístico
quando apresenta um só resultado sob as mesmas condições de experimentação, isto é, se a
experiência não se altera o seu resultado é sempre o mesmo. Já os fenômenos aleatórios, ainda que
repetidos sob as mesmas condições iniciais, apresentam resultados distintos ou incertos, porque
estão sujeitos às leis do acaso.
Tanto que quando se atira uma moeda para o alto a força da gravidade faz com que a sua
queda seja certa, a velocidade da queda da moeda, desde que lançada sob as mesmas condições, será
uma constante que se pode chamar de fenômeno determinístico. Mas a ocorrência de cara ou de coroa
é imprevisível, pois alguém pode apostar em cara e dar coroa, ou vice-versa. É essa incerteza quanto
aos resultados do acontecimento que denota o que se chama de fenômeno aleatório.
Neste contexto, a probabilidade é um número real que exprime quão provável é a chance de
ocorrer um particular resultado do acontecimento aleatório.
De início a teoria da probabilidade era utilizada para prever resultados de jogos de azar, e
daí a razão de tal vertente ser bastante explorada no estudo introdutório da matéria. Porém, com o
passar do tempo, as aplicações de probabilidade se expandiram notavelmente, sobretudo em
processos de tomada de decisão ligados a acontecimentos sujeitos aos efeitos do acaso, tais como:
previsão meteorológica e de safras agrícolas; risco de apólices de seguro; cotação de ações em bolsa
de valores; controle de qualidade; marketing, etc.
E1: arremessar um dado e anotar o número do lado que cai para cima;
E4: Conferir o número de peças defeituosas produzidas diariamente por uma máquina;
E5: Verificar a execução de uma tarefa e anotar o tempo gasto por cada trabalhador.
d) Contagem diária das peças defeituosas produzidas por uma máquina, para controle do
e) tempo que um grupo de trabalhadores gasta para executar uma tarefa que está a ser
implantada:
S5 = {x ∈ R / x > 0 }.
6.4 Eventos
Eis que quando se lança uma moeda o espaço amostral é formado por dois eventos simples
cara (c) e coroa (k), tal que S = {c, k}.
Agora quando se lançam duas moedas o espaço amostral corresponde a quatro seqüências
de coroa/coroa (kk), coroa/cara (kc), cara/coroa (ck) e cara/cara (cc), de modo que se tem S = {kk,
kc, ck, cc}, onde cada seqüência é um evento composto de S. E o evento relativo a pelo menos uma
cara é definido pelo subconjunto A = {kc, ck, cc}.
Veja-se ainda, neste caso, que os elementos de S podem ser definidos como pontos de uma
variável aleatória, quando se enuncia, por exemplo, que X é igual ao número de caras. Isso permite
descrever o mesmo espaço amostral através de números, tal que S = {0, 1, 2} e o referido evento A
pelo subconjunto numérico A = {1, 2}, como se vê no quadro abaixo.
kk 0
kc, ck 1
cc 2
b) Evento certo: Quando envolve todos os resultados do experimento. Seja, por exemplo, o
lançamento de um dado. O evento A = {ocorrer número natural entre 1 e 6} é um evento certo, pois os
seus resultados possíveis coincidem com o do conjunto S = {1, 2, 3, 4, 5, 6}.
Se os eventos A e B não têm qualquer elemento em comum a união é formada pela soma
dos seus elementos A ∪ B = A + B , e a interseção é um evento impossível tal que A ∩ B = Φ ,
como se nota na figura abaixo:
c) Complementares: A ∪A =S ; A ∩A = Φ ; S =Φ ; Φ =S e A = A .
d) Comutativa: A ∩ B = B ∩ A e A ∪ B = B ∪ A .
f) Idempotente: A ∩ A = A e A ∪ A = A .
g) Identidade: A ∩ Φ = Φ ; A ∪ Φ = A ; A ∩S = A e A ∪S = S .
h) Leis de Morgan: A ∩B = A ∪B e A ∪B = A ∩B .
l) A ∩B = A ∪B = {1, 3, 5}.
Esta “definição” é muito simples e intuitiva, e por isso é bastante utilizada para calcular
probabilidades de eventos associados a sorteios e jogos de azar (lançar moeda ou dado, extrair
cartas de baralho, etc.). Com ela se calcula probabilidades a priori, isto é, antes de ser observada
qualquer amostra de eventos.
Veja-se que quando duas moedas honestas são lançadas é possível antecipar a probabilidade
do evento duas caras (cc), pois cara (c) e coroa (k) são igualmente prováveis, considerando o espaço
amostral S = {cc, ck, kc, kk}. Definindo-se o evento A = {cc}, em que duas caras ocorrem, a sua
probabilidade é calculada do seguinte modo:
n (A) 1 1 1 1
P( A) = = , ou seja, P ( A ) = × = .
n (S) 4 2 2 4
No caso de duas moedas viciadas, a fórmula clássica não se aplica, pois as probabilidades
correspondentes aos pontos de S passam a ser diferentes e desconhecidas. E só poderão ser avaliadas
mediante observação da freqüência relativa numa experimentação repetida um número grande de vezes.
f
número n de observações tende para infinito, tal que P( A ) = lim ( i ) .
n → +∞ n
fi
Onde =f ri é a freqüência relativa e fi a freqüência absoluta simples.
n
fi
P(A ) ≅
n
O gráfico abaixo dá idéia da regularidade da freqüência relativa, quando o experimento é
repetido um número grande de vezes.
lançamentos.
Se o resultado da experimentação revelar que a freqüência de cara c é duas vezes mais que a
de coroa k, aí sim será possível calcular a probabilidade de cada ponto de S.
Com efeito, faz-se P(c) =2P(k) e P(k) = p, tal que p é uma probabilidade por enquanto
desconhecida de coroa. E, por substituição, acha-se P(c) = 2p.
1
2p +p =1 →3p =1 →p = .
3
Com isso as probabilidades de cara e de coroa, obtidas por substituição, serão iguais a
1 1 2
P(k) = e P(c) = 2 × → P (c) = .
3 3 3
2 2 4
E, por fim, a probabilidade do evento duas caras é P (cc ) = × = .
3 3 9
Apesar de ser muito útil na prática, a definição de probabilidade com base nas freqüências
relativas apresenta restrições do ponto de vista matemático, uma vez que o limite pode não existir.
Seja, por conseguinte, um experimento aleatório descrito pelo espaço amostral S. Seja A um
evento associado a S. Então, a probabilidade de A é uma função definida em S, que atribui um
número real a cada evento simples de S, nas seguintes condições:
a) 0 ≤ P (A ) ≤1 ;
b) P(S) = 1;
c) P( A ∪B) = (PA ) +P (B) , se A e B são mutuamente exclusivos (disjuntos).
Note-se que esta definição não ensina como avaliar objetivamente uma P(A), no entanto ela é
fundamental pela abrangência, pois as suas propriedades possibilitam operar até em espaços amostrais
infinitos não-enumeráveis, típicos de variáveis contínuas. Neste aspecto, a definição se completa com
os teoremas fundamentais, cujos mais importantes se apresentam adiante.
II - Se A é o complemento de A, então P ( A ) =1 −P (A ) .
Eis que o evento A e o seu complemento A são mutuamente excludentes, pois A ∪A = S
, como se nota na figura abaixo:
III - Se A e B são eventos quaisquer, então: P(A ∪B) = P( A) +P( B) −P( A ∩B) .
(i) A ∪B = A ∪( A ∩B)
Para comprovar o teorema basta subtrair (i) de (ii), como se faz a seguir:
Multiplicando a inequação acima por (-1), o sinal se inverte, tal que P( A )≤P( B).
6.7.1 Fatorial
Fatorial de um número n é definido como o produto de todos os números naturais de n até 1. É
representado pela notação n! (lê-se n fatorial) e pela fórmula:
{ABCD, ACBD, ADCB, ACDB, ABDC, ADCB, BACD, BADC, BCAD, BDCA, BCDA,
BDAC, CABD, CABD, CBAD, CBDA, CDAB, CDBA, DABC, DACB, DBAC, DBCA,
DCBA, DCAB}.
Significa que caso fossem reservadas quatro cadeiras num recinto para as quatro pessoas
identificadas pelas letras A, B, C e D, elas poderiam ocupar os quatro assentos de 24 maneiras distintas.
Por conseguinte:
A 1n = n , para n >1 ;
A 24 = 4 × 3 = 12 arranjos;
A 34 = 4 × 3 × 2 = 24 arranjos;
A 44 = 4! = 4 × 3 × 2 × 1 = 24 arranjos.
Observe-se que A nn = n! .
{AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC}.
Eis que no arranjo AB os elementos se distinguem pela natureza (A ≠ B), enquanto que os
arranjos AB e BA, constituídos dos mesmos elementos, diferem quanto à ordem (AB ≠ BA).
n! 4! 4! 4 × 3 × 2!
A kn = 2
, para k ≤ n, tal que A 4 = (4 − 2)! = 2! = =12 .
(n − k)! 2!
É um tipo de agrupamento sem repetição, no qual uma combinação difere da outra somente
pela natureza dos elementos e a ordem dos elementos não importa. Aqui o grupo AB = BA, e
constitui uma só combinação. A combinação de n elementos tomados k a k é dada através da
fórmula:
A kn n!
C kn = = , para k ≤ n.
k! k!( n − k )!
A 24 4 × 3
C 24 = = = 6 combinações, que são: {AB, AC, AD, BC, BD, CD}.
2! 2 ×1
Exemplo 2: Se numa sala existem 10 alunos, quantas comissões de três alunos podem ser
formadas? Este é um tipo de problema no qual a ordem dos indivíduos não tem importância, e que
se resolve por combinação simples.
3
3 A 10 10 × 9 ×8
C10 = = = 120 comissões.
3! 3 × 2 ×1
Exercícios Resolvidos
01. Dois dados honestos são lançados simultaneamente. Construa o espaço amostral e defina as
probabilidades com relação aos seguintes eventos: a) de a soma de pontos ser um número par;
b) de ocorrer número igual de pontos em ambos os dados; c) de a soma de pontos ser um
número ímpar ou primo; d) de a soma de pontos ser menor ou igual a 8.
■ Solução: O espaço amostral relativo ao jogo de dois dados é:
1;1 2;1 3;1 4;1 5;1 6;1
1;2 2;2 3;2 4;2 5;2 6;2
1;3 2;3 3;3 4;3 5;3 6;3
1;4 2;4 3;4 4;4 5;4 6;4
1;5 2;5 3;5 4;5 5;5 6;5
1;6 2;6 3;6 4;6 5;6 6;6
a) A = {(1;1), (1;3), (1;5), (2;2), (2;4), (2;6), (3;1), (3;3), (3;5), (4;2), (4;4), (4;6), (5;1), (5;3),
18 1
(5;5), (6;2), (6;4), (6;6)}: P(A) = = .
36 2
6 1
b) B ={números iguais} = {(1;1), (2;2), (3;3), (4;4), (5;5), (6;6)}: P( B) = = .
36 6
c) I = {nº ímpar}= {(1;2), (1;4), (1;6), (2;1), (2;3), (2;5), (3;2), (3;4), (3;6), (4;1), (4;3), (4;5),
18
(5;2), (5;4), (5;6), (6;1), (6;3), (6;5)}: P(I) = .
36
P = {nº primo} = {(1;1), (1;2), (2;1), (1;4), (4;1), (1;6), (6;1), (2;5), (5;2), (3;4), (4;3), (5;6),
13
(6;5)}: P( P) = .
36
I∪P ={nº impar e primo}= {(1,2), (2,1), (1;4), (4;1),(1;6), (6;1), (2;5), (5;2), (3;4), (4;3),
12
(5;6), (6;5)}: I ∪P = .
36
18 13 12 19
P(I ∪P ) = P(Ι ) + P(P ) − P(Ι ∩P ) = + − = .
36 36 36 36
26 13
d) D = {número ≤ 8} = {(1;1),.., (6;2)}: P(D) = = .
36 18
02. Dentro de um saco há 12 bolas: 5 azuis, 4 brancas e 3 verdes. Se uma bola é retirada ao acaso,
calcule a probabilidade de ela ser de cor: a) azul; b) branca; c) azul ou branca. Eis a solução:
5
a) A = {a bola é de cor azul}: P(A) = .
12
4 1
b) B = {a bola é de cor branca}: P(B) = = .
12 3
5 4 9 3
c) A∪B) = {a bola é azul ou branca}: P(A ∪B) = P(A ) + P(B) = + = =
12 12 12 4
03. Na mesma situação da questão 04, duas bolas são retiradas sem reposição. Calcule a
probabilidade de ambas serem: a) da mesma cor; b) verdes; c) de cores diferentes; d) uma azul e
a outra branca; e) a primeira azul e a segunda branca; f) pelo menos uma branca.
■ Solução: Como as bolas são sorteadas sem reposição, o número de elementos de cada evento
pode ser determinado através de combinação e de arranjo simples.
a) As duas bolas podem ser azuis, ou brancas, ou verdes;
C 52 + C 24 + C 32
P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 ) = 2
=
C12
5 × 4 4 × 3 3× 2
+ +
= 2 × 1 2 ×1 2 ×1 = 10 + 6 + 3 = 19 .
12 ×11 66 66
2 ×1
C 32 3 1
b) P(V1 ∩ V2 ) = 2
= = .
C12 66 22
c) P(ambas de cores diferentes) =
19 47
=1 −[P(A 1 ∩A 2 ) + P(B 1 ∩B 2 ) + P(V 1 ∩V2 ] =1 − = .
66 66
C15 C14 5 × 4 20 10
d) P(A ∩ B) = 2
= = = (não há especificação da ordem).
C12 66 66 33
A15 A 14 5 × 4 10 5
e) P(A ∩ B) = = = = (há especificação da ordem).
2
A12 12 ×11 66 33
C15 C13 5 × 3 15
P( A ∩ V ) = = = .
66 66 66
P = 1 − ( 16 06 + 636 + 16 56) = 1 − 62 68 = 1 − 13 93 → P = 14
33
04. Um dado é viciado tal que a probabilidade de dar um dos números de cada face é proporcional ao
seu valor, isto é, 6 é duas vezes mais provável que 3. Determine:
a) a probabilidade de cada ponto amostral;
b) a probabilidade de ocorrer a face 3 ou a face 5 num único lançamento.
■ Solução: Sejam P(1) =p; P(2) =2p; P(3) =3p; P(4) =4p; P(5) =5p e
1
21p =1 →p = . Por conseguinte, substituindo-se o valor de p nas expressões acima
21
definidas se obtém:
1 2 3 4 5 6
a) P(1) = ; P(2) = ; P(3) = ; P(4) = ; P(5) = e P(6) = .
21 21 21 21 21 21
3 5 8
b) P(3 ou 5) = P(3) + P(5) = + = .
21 21 21
05. Os atletas A, B e C disputarão uma prova de atletismo. Sabe-se que o atleta A tem 2 vezes mais
probabilidade de ganhar que B, e que B tem 2 vezes mais probabilidade de ganhar que C.
Calcule: a) as probabilidades de vitória de cada um; b) a probabilidade de B ou C ganhar a
prova.
P( A ∩B)
P(B / A) = , para P(A) > 0.
P(A)
A probabilidade P(B/A) mede a probabilidade relativa dos elementos comuns aos eventos A
e B em relação ao espaço amostral reduzido A, como se vê na área colorida da figura adiante:
P ( A ∩B)
Alternativamente, P ( A / B) = , para P(B) >0 .
P( B)
n ( A ∩B)
P(B / A) = , para n(A) ≠ 0.
n (A)
P( A ∩B) = P( A ) ×P( B / A ) ,
P(A ∩B ∩C ) = P ( A ) ×P ( B) ×P (C) .
Exercícios resolvidos
01. Um par de dados é lançado. Se alguém informa que ocorreu soma igual a 8, qual a
probabilidade haver ocorrido a face 3 em um deles?
B = {dar a face 3} = {(1;3), (2;3), (3;3), (4;3), (5;3), (6;3), (3;1), (3;2), (3;4), (3;5), (3;6)}.
P( A ∩B) 2
P(B / A) = =
P(A) 5
02. Dois dígitos são selecionados aleatoriamente de 1 a 9. Se a soma deles é par, qual a
probabilidade de ambos os números serem primos?
■ Solução: Sejam os eventos A = {soma dos números é par} e B = {ambos são primos}.
● A soma de dois números é par se ambos forem impares ou ambos forem pares, logo o total de
● Por sua vez, com relação ao evento B, o total de somas com os números 2, 3, 5 e 7, dois a
dois, será C 24 = 6 somas. Veja que A ∩ B = {soma dois a dois de 3, 5 e 7}, e o total de soma
P( A ∩B) 3
● Por conseguinte, P( B / A ) = = .
P( A ) 16
03. Na biblioteca de uma universidade, em dado momento, 20% dos alunos e 15% das alunas estão
estudando Estatística. As alunas representam 60% dos estudantes presentes. Se um estudante é
escolhido aleatoriamente e está estudando Estatística, qual a probabilidade de ser uma aluna?
■ Solução: Sejam 100 estudantes, onde 40 são alunos e 60 são alunas, logo:
9
P(B/A) = = 0,53 .
17
04. Sabe-se que dentro de uma sacola existem 12 bolas. Sendo 5 azuis, 4 brancas e 3 verdes. Se
forem retiradas duas bolas, sem reposição, determine as probabilidades de: a) ambas serem da
mesma cor; b) ambas serem verdes; c) ambas serem de cores diferentes; d) uma bola azul e a
outra branca; e) a primeira azul e a segunda branca; f) pelo menos uma bola branca.
■ Solução: Este problema já foi feito por análise combinatória, agora ele será resolvido pela
regra do produto, para eventos dependentes.
a)
5×4 4 ×3 3×2 20 + 12 + 6 19
P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 ) = + + = =
12 ×11 12 ×11 12 ×11 132 66
3 ×2 1
b) P(V 1 ∩V2 ) = P(V 1 )P(V 2 /V1 ) = =
12 ×11 22
c) C = {ambas são de cores diferentes}
19 47
P (C) = 1 − [P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 )] = 1 − =
66 66
5×4 10
P(A ∩ B) + P(B ∩ A) = 2P(A ∩ B) = 2 × = .
12 ×11 33
5 ×4 5
d) P(A ∩ B) = = (a ordem é especificada).
12 ×11 33
e) E = {pelo menos uma branca}: P( E ) =1 - [P(A 1 ∩ A 2 ) + 2P(A ∩ V) + P(V1 ∩V2 )]
5×4 5 ×3 3×2 20 + 30 + 6 56 19
P( E ) = 1 − ( +2 + ) =1 − =1 − = .
12 ×11 12 ×11 12 ×11 132 132 33
05. Resolva os itens a, b, e c, do problema 04, admitindo que as bolas são extraídas com reposição.
■ Solução: Aplica-se a regra do produto para eventos independentes.
a)
5 ×5 4 ×4 3 ×3 25 +16 + 9 50 25
P(A 1 ∩A 2 ) + P(B 1 ∩B2 ) + P(V1 ∩V2 ) = + + = = =
12 ×12 12 ×12 12 ×12 144 144 72
3 ×3 9 1
b) P(V 1 ∩V2 ) = P(V 1 ) × P( V2 ) = = = .
12 ×12 144 16
c) C = {ambas de cores diferentes}
25 47
P (C) =1 −[P(A 1 ∩A 2 ) + P(B 1 ∩B 2 ) + P(V 1 ∩V2 )] =1 − = .
72 72
06. Uma urna A contém 5 fichas verdes e 3 pretas. Outra urna B contém 3 fichas verdes e 2 pretas.
Sorteia-se uma ficha em cada urna. Calcule, então a probabilidade de: a) As 2 fichas serem
pretas; b) ambas de cores diferentes; c) ambas da mesma cor; d) pelo menos uma de cor verde;
e) agora, uma ficha é sorteada aleatoriamente na urna A e posta na urna B. Depois, sorteia-se
uma ficha em B, qual a probabilidade de ela ser verde?
■ Solução: Aqui o sorteio pode ser feito com ou sem reposição de fichas, sem prejudicar o
conceito de independência, pois os eventos ocorrem em urnas diferentes.
3 2 3
a) P(P A ∩ PB ) = P(P A ) × P(P B ) = × = .
8 5 20
5 2 3 3 10 +9 19
b) P(VA ∩PB ) ∪P( PA ∩VB ) = × + × = =
8 5 8 5 40 40
3 2 5 3 6 +15 21
c) P( PA ∩PB ) ∪P( VA ∩VB ) = × + × = = .
8 5 8 5 40 40
3 17
d) P(pelo menos uma verde) = 1 − P (PA ∩PB ) = 1 − = .
20 20
3 3 5 4 9 + 20 29
e) P( V / B) = P( PA ) P( VB / PA ) + P( VA )P( VB / VA ) = × + × = =
8 6 8 6 40 48
1 80
b) B = {pelo menos um deles acertar o alvo}: P( B) =1 − = .
81 81
qualquer de S, quando já se conhecem todos os eventos da família Ai, e com estes se intercepta, na
forma da figura abaixo:
Então, a probabilidade de B, dado que um dos eventos A i tenha ocorrido, é expressa pela
P(B) = P(A 1 )P(B/A 1 ) + P(A 2 )P(B/A 2) + ... + P(A n )P(B/A n ) , ou, ainda:
n
P(B) = ∑P(A )P(B / A ) .
i =1
i i
P( A i ) P( B / A i )
P( A i / B) = , onde P(B) ≠ 0.
P (B)
n
Como P(B) = ∑P(A )P(B / A ) ,
i =1
i i segue a fórmula geral
P(A i )P(B / A i )
P( A i / B) = n
.
∑P(A )P(B / A )
i =1
i i
P(A)P(D/A) 0,0105
b) P(A/D) = = →P(A/D) =0,4118 ou 41,18%.
P(D) 0,0255
Exercícios Propostos
(ver lista de exercícios já distribuída)
7
VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS
7.1 Definição
Variável aleatória (va) é uma função real definida sobre os eventos do espaço amostral S.
Neste particular, é uma função que tem domínio em S e contradomínio em R (a reta dos números
reais), tal que X : S →R .
A1 = {kk} 0
A2 = {kc, ck} 1
A3 ={cc} 2
Seja ainda uma amostra ao acaso de uma peça de um lote produzido em certo dia. A
peça pode ser classificada em defeituosa (d) ou perfeita (p), tal que S = {d, p}. Eis que essa
classificação pode ser expressa através de números, tal como zero para peça defeituosa e um
para peça perfeita, de modo que S = {0, 1}. Aí os pontos do espaço amostral representam uma
variável aleatória do tipo x = peça defeituosa, como exposto na tabela abaixo.
D = {a peça é defeituosa} 0
P = {a peça é perfeita} 1
A essa altura dá para perceber que a definição de uma vad visa facilitar o tratamento
matemático, uma vez que às vezes os pontos do espaço amostral são atributos, sendo necessário
transformá-los em números, mediante uma função de variável aleatória.
Definição: É uma função P(X) que associa probabilidades aos valores da vad X. Isto é,
Em casos mais simples é fácil elaborar uma distribuição de probabilidade mediante quadros
ou gráficos, como se verifica no lançamento de duas moedas, onde x é a vad número de caras:
A3 = {cc} 2 ¼
Total (Σ) 1
Figura 7.1 Distribuição de probabilidade relativa ao número de caras no jogo de duas moedas
X = número de
Eventos P(X = x i )
pontos
(1:1) 2 1/36
(1:2), (2:1) 3 2/36
(1:3), (2:2), (3:1) 4 3/36
(1:4), (2:3), (3:2), (4:1) 5 4/36
(1:5), (2:4), (3:3), (4:2), (5:1) 6 5/36
(1:6), (2:5), (3:4), (4:3), (5:2), (6:1) 7 6/36
(2:6), (3:5), (4:4), (5:3), (6:2) 8 5/36
(3:6), (4:5), (5:4), (6:3) 9 4/36
(4:6), (5:5), (6:4) 10 3/36
(5:6), (6:5) 11 2/36
(6:6) 12 1/36
Total (Σ) 36/36 = 1
Figura 7.3 Distribuição de probabilidade do número provável de pontos no lançamento de dois dados
Nem sempre é possível estabelecer distribuições de probabilidade de modo tão direto como nos casos
visto até aqui, há situações em que a probabilidade de eventos só pode ser definida por modelos apropriados,
como se verá no capítulo adiante.
Essa função é F(x) = P(X ≤ x i ) . Para o caso dos dois dados, em que X é igual ao número de
pontos que se pode obter, segue-se função distribuição pertinente:
Quadro 7.7 – Função distribuição referente ao número de pontos no jogo de dois dados
X 2 3 4 5 5 7 8 9 10 11 12
P(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
P(X ≤ x i 1/36
) 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1
1
Os valores de P(X ≤x i ) são interpretados da seguinte maneira: P(X ≤3) = éa
36
1 2 3
probabilidade de se obter dois pontos no jogo de dois dados; P(X ≤3) = + = ,é
36 36 36
a probabilidade de se obter no máximo três pontos no jogo de dois dados;
1 2 3 6
P ( X ≤4) = + + = é a probabilidade de ocorrer no máximo quatro pontos no
36 36 36 36
mesmo caso, e assim por diante.
Deste modo, o número esperado de pontos relativo ao lançamento dos dois dados pode ser
calculado com os operadores do quadro abaixo:
9 4/36 36/36
10 3/36 30/36
11 2/36 22/36
12 1/36 12/36
σ 2 =[E(X 2
) - E(X) 2
] =[E(X 2
) - μ2]
Como E ( X ) = ∑x i2 P ( x i ) e μ = ∑x i P( x i ), vem:
σ 2 =[ ∑x i2 P ( x i ) −( ∑x i P ( x i ) 2 ] ou σ 2 = ∑x i2 P( x i ) −μ 2 .
Assim, a variância da vad referente ao número de pontos quando se lançam dois dados é
calculada a partir dos operadores expostos no quadro a seguir:
Portanto, σ2 =54 ,83 −7 2 =54 ,83 −49 →σ2 =5,83 pontos (ao quadrado).
A variância é uma medida de dispersão expressa no quadrado da variável, o que pode gerar
confusão na hora da interpretação. Portanto, é melhor expressá-la na mesma unidade da variável
original, isto é, através da sua raiz quadrada, cujo resultado corresponde ao desvio padrão, como segue:
Significa que quando dois dados são lançados o número esperado de pontos é 7, sujeito a
uma variação média de mais ou menos 2,4 pontos.
a) f(x) ≥0 , ∀x ∈R ;
+
∞
b) ∫f ( x )dx
−∞
=1 (toda a área sob a curva de probabilidade, ou curva de freqüência,
pelo intervalo compreendido entre x = a e x = b). Este assunto será mais detalhado adiante, quando
do estudo da distribuição normal.
Exercícios
01. Numa caixa estão guardadas 4 bolas brancas e 3 pretas. As bolas pretas são retiradas uma a uma
até esgotar o seu estoque. Sendo X = número de bolas pretas, calcule:
a) A distribuição de probabilidade. R: 4/35; 18/35; 12/35 e 1/35.
b) A função distribuição F(x). R: 4/35; 22/35; 34/35 e 35/35.
c) O valor esperado e o desvio padrão de X. R: 9/7 e respectivamente.
02. Uma moeda é jogada 3 vezes, sendo X uma v. a. igual ao número de caras, elabore a distribuição
de probabilidade e a sua representação gráfica. R: 1/8, 3/8, 3/8 e 1/8.
03. Se uma moeda é viciada de modo que a ocorrência de cara é duas vezes mais provável que
coroa, determine a distribuição de probabilidade referente ao número de caras, em 3
lançamentos. R: 1/64, 9/64, 27/64 e 27/64.
04. Três peças são retiradas de um lote onde há 15 perfeitas e 5 defeituosas. Dado que X é o número
Para isso existem alguns modelos de distribuição que são utilizados para estudar o
comportamento de muitos fatos reais. Essas distribuições apresentam particularidades próprias que
facilitam a sua identificação. As distribuições de probabilidade dividem-se em discretas e contínuas.
As discretas descrevem variáveis cujos eventos podem ser contados e representados por números
inteiros. A distribuição binomial e a distribuição de Poisson são exemplos clássicos de distribuições
discretas.
As distribuições contínuas, por seu turno, são modelos que descrevem o comportamento de
variáveis passíveis de medição, isto é, podem assumir infinitos valores num dado intervalo, a
exemplo, entre outras, da distribuição normal e da distribuição t de Student.
b) cada tentativa só admite dois resultados, sucesso ou fracasso. Sendo que sucesso
corresponde ao número de eventos em que se está interessado. Em casos assim, a variável aleatória
apresenta valor igual a 0 (zero) quando ocorre insucesso e 1 (um) quando ocorre sucesso.;
probabilidade de 1 . Assim, quando se joga uma moeda três vezes há uma combinação de
2
resultados possíveis, que podem ser calculados um a um pela distribuição binomial sem precisar de
enumeração direta, basta que se defina a vad X = número de caras (sucesso), que deve assumir os
valores 0, 1, 2 3. Aqui a probabilidade dos respectivos eventos, para uma binomial do tipo
X ≈B(3, 1 / 2) , ou n = 3 e p =q =1/ 2 , é calculada assim:
P( x = 0) = C 30 ( 12 ) 3 = 1× 18 = 1/ 8 ;
b) uma cara, cujos eventos são {ckk, kck e kkc}:
P(x = 1) = C13 ( 12 )1 ( 12 ) 3− 1 = 3 × 12 × 14 = 3 / 8 ;
P( x = 2) = C 32 ( 12 ) 2 ( 12 ) 3− 2 = 3 × 14 × 12 = 3 / 8 ;
d) três caras, representadas pelo evento {ccc}:
P( x = 3) = C 33 ( 12 ) 3 ( 12 ) 3− 3 = 1× 18 × 1 = 1/ 8 .
Observe-se que a soma das probabilidades correspondente a estes eventos é igual a unidade,
caracterizando a distribuição de probabilidade do número de caras no jogo de três moedas.
A distribuição de Poisson é um caso limite da binomial, quando n tende para mais infinito (
n → + ∞ ) e p tende para zero ( p →0 ). Em problemas típicos da binomial, consegue-se boa
aproximação a partir de valores de n superior a 30 ( n > 30 ) e p inferior a 0,05 ( p < 0,05 ), havendo
até quem admita p <0,10 . A utilização da distribuição de Poisson baseia-se nas seguintes
hipóteses:
μ k e −μ
P( x = k ) = , para x =0, 1, 2, ......
k!
Tem-se aqui: μ = np , que é a média da distribuição; e = 2,71828 é a base do logaritmo
■ Solução: Seja a vad X = número de pedidos para entrega em domicilio e µ = 3 (média de
pedidos recebidos a cada meia hora). Logo, X ≈P( μ =3) .
6 5 e −6 7.776 ×0,00248
Assim, P( x = 5) = = = 0,1654
5! 120
Exemplo 2: Uma firma que transporta garrafões de vinho tem observado que 0,2% deles
sofrem algum tipo de avaria durante a viagem. Calcule a probabilidade de que se encontre num
carregamento de mil garrafões: a) nenhum com avaria; b) exatamente dois com avaria; c) mais de
um com avaria; d) no máximo dois garrafões avariados.
2 2 e −2 4 ×0,1353
b) P( x = 2) = = = 0,2706 ou 27,06%.
2! 2 ×1
A distribuição de probabilidade desse tipo de variável é definida por uma função densidade
de probabilidade (f.d.p.), com as seguintes propriedades:
b +
∞
a) f(x) ≥0 ; b) ∫
a
f ( x )dx = P (a < x ≤ b) ; c) ∫f ( x )dx
−∞
=1 .
Uma v. a. X que segue uma distribuição normal é representada por X ≈ N(μ, σ 2 ) , que se
A área total limitada pela curva normal e pelo eixo das abscissas é 1 (um) ou 100%. Por sua
vez, as áreas sob a curva, limitadas pela distância entre o desvio padrão e a média, têm os seguintes
percentuais: μ ±1σ = 68 ,26 % ; μ ± 2σ = 95 ,44 % e μ ±3σ = 99 ,74 % , conforme figura a seguir:
A maioria das tabelas traz as proporções de área de zero até um ponto positivo de z. Por
exemplo, a proporção da área situada entre os pontos de abscissa 0 e 1 é 0,3413, que, devido à
simetria da curva, é a mesma da área compreendida entre os pontos de abscissa 0 e -1 (vide tabela).
Exemplo: Um órgão de pesquisa conclui que o salário pago pelas microempresas de certa
região segue, de perto, uma distribuição normal de média R$ 360,00 e desvio padrão de R$ 120,00.
Neste caso, calcule a probabilidade de um assalariado qualquer: a) ganhar entre R$ 360,00 e 480,00;
b) ganhar menos de R$ 220,00; c) ganhar mais de R$ 450,00; d) ganhar entre R$ 460,00 e 520,00;
e) ganhar entre R$ 240,00 e 460,00; f) como se distribuem 95% dos salários em torno da média? g)
qual o número esperado e o desvio padrão de 600 desses trabalhadores que ganham entre R$ 360,00
e 480,00?
x −μ
360,00 e desvio padrão R$ 120,00. Transformando X em z, através de z = , acha-se na tabela
σ
de z as proporções de área sob a curva correspondentes às faixas de salários que se deseja saber:
220 − 360
b) P(x < 220) = P(z < z1 ) = P z < →
120
P( x < 220 ) = P(z < −1,17 ) = 0,5 −0,3790 = 0,1210
450 - 360
c) P(x > 450) = P(z > z 1 ) = P z > = P(z > 0,75) = 0,5 - 0,2734 = 0,2266
120
f) Eis que a metade da área de 0,95 é 0,475. Entrando-se com este valor na tabela da distribuição
x −μ
limites x1 e x2 mediante substituição na fórmula z = , tal que:
σ
9
TEORIA DA ESTIMAÇÃO
9.1 Introdução
A estimativa de um parâmetro de uma população pode ser feita por ponto ou por intervalo.
A teoria da estimação é a parte da Inferência Estatística em que se estuda a elaboração de intervalos
de confiança com base em estatísticas amostrais, nos quais se espera, com uma probabilidade
definida, que esteja incluído o verdadeiro valor do parâmetro populacional. Neste ponto, é de suma
importância o conhecimento da distribuição amostral da estatística eleita como estimador do
parâmetro da população.
Eis que em tempos de eleição é comum a divulgação de pesquisas sobre intenção de votos
pelos órgãos de comunicação, informando que o candidato tal lidera, naquele momento, a corrida
eleitoral, de acordo com pesquisa do instituto tal, e caso as eleições fossem logo realizadas, esse
candidato seria eleito com uma proporção p̂ de votos, com uma margem de erro de tantos por cento
(para mais ou para menos), tendo sido a pesquisa realizada nos últimos dias e que foram entrevistados
um número n de eleitores, no país, ou estado, ou município.
Significa, deste modo, que a proporção p̂ encontrada na amostra é divulgada como uma
estimativa da verdadeira proporção p de eleitores favoráveis a esse candidato, naquele momento, em
toda a população habilitada a votar. Isso demonstra como informações amostrais podem ser
generalizadas para fazer juízo sobre propriedades da população como um todo. O caminho para se
chegar a esse tipo de conclusão, dentre outros, será comentado mais à frente.
A vantagem dessa técnica é que ela confere um grau de precisão à estimativa, de maneira que
se a amplitude do intervalo é pequena, pode-se depreender que uma alta precisão foi atingida. Assim,
quanto menor for a amplitude de um IC melhor é a informação que ele fornece. Por isso, interessa
obter, tanto quanto possível, intervalos de amplitude mínima para um dado nível de confiança.
x −μ
padronizada é expressa por z = , que se identifica por x ~ N(μ, σ 2 ) .
σ
Por outro lado, se a distribuição amostral da média segue uma distribuição normal a variável
σ2
aleatória x terá média µ e variância σ 2x = , que se denota por x ~ N( μ , σ 2x ). E desta forma
n
x −μ x −μ σ
a variável z passa a ser z = σ ou z = , pois, como já comentado, σ x = .
x σ/ n n
x −μ
P( −z c ≤ ≤ z c ) = 1 − α → P( −z c σ x ≤ x − μ ≤ z c σ x ) = 1 − α . Eis que a solução
σx
σ
Como o desvio padrão da distribuição de x é σ x = , obtém-se, por substituição, a
n
σ σ σ
P( x − z c ≤ μ ≤ x + zc ) = 1 − α , ou μ = x ± z c .
n n n
• x = média da amostra;
• μ = média da população;
z
• z c ou α2 = z crítico, abscissa da distribuição normal padrão, cujo valor é obtido na tabela
da distribuição z, em face do nível de confiança adotado. Por isso, também é chamado de z tabelado.
σ
• e = zc = erro padrão da estimativa ou erro de amostragem (semi-amplitude do IC).
n
De um modo geral, o erro padrão e reflete a variação aleatória que ocorre de amostra para
amostra numa distribuição amostral de médias.
E ainda mais, o valor do erro padrão depende do nível de confiança adotado, do tamanho da
amostra e da dispersão dos elementos da população, isto é, do desvio padrão σ ou do seu estimador
s, quando σ é desconhecido.
Quando se aumenta o nível de confiança de uma estimativa o valor do erro padrão também
aumenta, para compensar a maior probabilidade de acerto que se atribui à estimação do parâmetro.
Assim, mantendo-se os demais fatores constantes, um IC de 95% de confiança proporciona um erro
padrão e menor que o de um IC de 99% de confiança.
σ
padrão equivalente a n , uma vez que e = z c .
n
σ
erro padrão e = z c , como demonstrado a seguir:
n
2 2
z σ (z σ) 2 (z σ) 2 z σ
e = c → e 2 = c
2
→ n = c 2 , ou então, n = c .
n n e e
É relevante dizer que a obtenção do desvio padrão σ para calcular o tamanho mínimo de
amostras é um problema crucial na teoria da estimação, e pode ser superado consultando-se
pesquisas ou estudos similares, em que se tenha estimado o “ σ ” da variável de interesse.
Em se tratando de estudo pioneiro, em que não há nada escrito sobre o assunto, a única
alternativa é a seleção de uma amostra piloto, que permita fazer uma estimativa preliminar da medida de
dispersão que será utilizada para calcular em definitivo o tamanho mínimo de amostra adequado.
Exemplo 1: Num censo passado apurou-se que a variação do consumo domiciliar de energia,
em certa cidade, era cerca de 50 kw/mês. Para estimar o consumo médio atual, coletou-se,
aleatoriamente, na lista da companhia distribuidora, o consumo mensal registrado em 100
domicílios, obtendo-se, dessa amostra, uma média equivalente a 320 kw/mês. Pretende-se estimar
um IC de 95% para o verdadeiro consumo médio domiciliar mensal de energia.
■ Solução: Para achar os valores críticos de z, dado o nível de confiança de 95%, entra-se na
tabela da distribuição normal com a probabilidade de 0,4750 equivalente à metade de 1 − α (0,95/2
= 0,4750), encontrando-se z = 1,96 e, por simetria, z = -1,96 (vide tabela da página 81). A arquitetura
σ 50
μ = x ± zc = 320 ±1,96 = 320 ± 9,8 → 310 ,2 ≤ μ ≤ 329 ,8 kw/mês, com 95% de
n 100
confiança. A estimativa em tela dá um erro padrão de 9,8 kw/mês.
Pergunta-se qual o tamanho mínimo da amostra necessário para reduzir o erro padrão de 9,8
para 5 kw/mês, mantendo-se o nível de confiança de 95%?
2 2
z σ 1,96 × 50
n = c = → n = 384 domicílios.
e 5
N −n
confiança para μ inclui o fator de correção , conforme se verifica a seguir:
N −1
σ N −n
μ = x ± zc .
n N −1
σ N −n
Neste caso, o erro padrão da estimativa é identificado pela expressão e = z c ,
n N −1
da qual se tira a fórmula de n para calcular o tamanho mínimo da amostra, como demonstrado a
seguir:
2
z σ N −n z 2σ 2 N − n
e = c ×
2 → e2 = c × .
n N −1 n N −1
z c2 σ 2 N − n
n ( N − 1)e 2 = × × n ( N − 1) → n ( N − 1)e 2 = z c2 σ 2 ( N − n )
n N −1
n ( N − 1)e 2 = z c2 σ 2 N − nz c2 σ 2 → n ( N − 1)e 2 + nz c2 σ 2 = z c2 σ 2 N
z c2 σ 2 N
n= .
( N − 1)e 2 + z c2 σ 2
( z c σ e) 2
A formula acima pode ser simplificada para: n = .
1 + ( z c σ e) 2 / N
35 500 - 40
μ = 260 ±1,96 → μ = 260 ±10 ,41 → 249 ,59 ≤ μ ≤ 270 ,41 R$
40 500 - 1
40
Note-se que = 0,08 > 0,05 .
50
Logo, o auditor poderia inferir que o saldo médio em aberto das 500 contas encerradas, em
face de erro contábil, seria um valor entre R$ 249,59 e R$ 270,41, com 95% de confiança.
N-n
Vale lembrar que o fator de correção de população finita pode ser ignorado para n
N -1
menor que 5% de N ( n < 0,05 N ).
N −n
É importante destacar que o fator de correção pode ser ignorado quando n é menor
N −1
que 5% de N ( n < 0,05 N ).
s s
P( x − z c < μ < x + zc ) =1− α .
n n
s
Ou, resumidamente: μ = x ± z c .
n
s
A fórmula para calcular o tamanho da amostra, a partir do erro padrão e = z c , é dada
n
2
z cs
pela expressão n = .
e
Exemplo 1: Seja um fabricante de lâmpadas que para estimar o tempo médio de duração do
seu produto seleciona para ensaio uma amostra aleatória de 50 unidades, donde obteve duração média
de 600 horas e desvio padrão de 25 horas. Estime-se, com 90% de confiança, um IC para o verdadeiro
tempo médio de duração de todas das lâmpadas.
s 25
μ = x ± zc = 600 ± 1,64 = 600 ± 5,8 → 594,2 ≤ µ ≤ 605,8 hs. A arquitetura do
n 50
Caso o fabricante decidisse fixar o erro padrão em 2,5 horas, com os mesmos 90% de
confiança, o número de lâmpadas a ser testado seria de:
2 2
z s 1,64 × 25
n = c = → n = 269 lâmpadas.
e 2,5
s N −n
μ = x ± zc .
n N −1
( z c s e) 2
n= .
1 + ( z c s e) 2 / N
A estimativa do saldo médio em aberto das 500 contas encerradas e arquivadas no mês, a
um nível de confiança de 95%, é calculado da maneira abaixo:
42 500 − 40
μ = 260 ± 1,96 →μ = 260 ±13 ,79 → 246 ,21 ≤ μ ≤ 273 ,79 reais.
40 500 −1
(1,96 × 42 5) 2 271,0633
n= = → n = 176 contas.
1 + (1,96 × 42 5) / 500 1 + 0,5421
2
A diferença básica entre a distribuição normal e a distribuição t é que esta, por ser mais
dispersa, tem as extremidades mais alongadas que a primeira, como se observa na figura abaixo:
s s
P( x − t c ≤ μ ≤ x + tc ) =1−α .
n n
s
Ou, de modo resumido: μ = x ± t c .
n
2
t s
Enquanto que a fórmula para estimar o tamanho da amostra é n = c .
e
s 25
Logo, μ = x ± t c = 600 ± 2,1315 × = 600 ±13 ,3 horas, ou 586 ,7 ≤ μ ≤ 613 ,7
n 4
horas.
Infere-se que o tempo médio global de duração das lâmpadas seria um valor entre 586,7 e
613,3 horas, com 95% de confiança.
Caso interessasse reduzir o erro padrão de 13,3 para 8 horas, mantendo o nível de confiança
de 95% para a estimativa da média μ, o número de lâmpadas que deveria ser testado seria de:
2 2
t .s 2,1315 × 25
n = c = → n = 144 lâmpadas.
e 8
Este tamanho de amostra permitiria ao fabricante utilizar sem problemas a distribuição normal
para estimar um novo intervalo de confiança para a média μ.
s N −n
μ = x ± tc .
n N −1
(t c s/e) 2
n= .
1 + (t c s/e) 2 / N
Exemplo 2: Uma amostra aleatória de 16 acionistas de uma grande empresa, dentre os 128
que comparecem a uma assembléia, apresenta idade média de 52 e desvio padrão de 6 anos,
respectivamente. Supondo que a idade dos acionistas é uma variável aleatória que se distribui
normalmente, construa um intervalo de confiança de 95% para a idade média de todos os acionistas
que freqüentam a assembléia.
n 16
■ Solução: Como n=16 e N=128, tem-se, = = 0,125 > 0,05 , sugerindo que se
N 128
deve utilizar o fator de correção de população finita. Deve-se, também, utilizar a distribuição t, com
n–1 graus de liberdade, pois σ é desconhecido e n é menor que 30.
6 128 − 16
μ = 52 ± 2,1315 × → μ = 52 ± 3 → 49 ≤ μ ≤ 55 anos.
16 128 − 1
Portanto, infere-se que a idade média de todos os acionistas que compareceram à assembléia
situa-se entre 49 e 55 anos, com 95% de confiança, cujo esboço gráfico se encontra abaixo.
Para estimar a idade média geral dos acionistas, com erro máximo de 2 anos e nível de confiança
de 95%, o tamanho mínimo da amostra seria de aproximadamente:
(2,1315 × 6 / 2) 2 40,89
n= = → n ≅ 31 acionistas.
2
1 + ( 2,1315 × 6 / 2) / 128 1 + 0,31945
x x
favoráveis na população é p = e o seu estimador na amostra é p̂ = .
N n
Apesar de a distribuição de p ser binomial, ela pode ser aproximada pela distribuição
normal, pois a estimativa de proporções envolve quase sempre grandes amostras retiradas de
populações muito grandes. Eis que a média e a variância da distribuição binomial são,
respectivamente, μ = np e σ 2 = npq . Substituindo estes parâmetros na fórmula de z, da
distribuição normal padrão, eis que surge:
x −μ x − np
z= →z = .
σ npq
x np
−
z = n n
Dividindo-se a nova expressão de z por n, tem-se: .
npq
n2
p̂ − p
x z=
Trocando por p̂ , chega-se a: pq .
n
n
Para encontrar a fórmula do IC para estimar a proporção populacional p, basta substituir a
p̂ − p
P( −z c ≤ ≤ zc ) =1 − α
pq , tirando o valor de p, vem:
n
pq pq
P( p̂ − z c ≤ p ≤ p̂ + z c ) =1 − α .
n n
Como os parâmetros p e q de dentro da raiz são desconhecidos, eles são substituídos pelos
seus respectivos estimadores p̂ e q̂ , resultando na seguinte fórmula do IC para a proporção p:
p̂q̂ p̂q̂
P( p̂ − z c ≤ p ≤ p̂ + z c ) =1 − α .
n n
p̂q̂
Ou, resumidamente: p = p̂ ± z c , onde:
n
• p = proporção na população, a que se pretende estimar;
p̂q̂
• e = zc = erro padrão da estimativa ou erro de amostragem.
n
18
■ Solução: n = 200 peças; x = peças defeituosas; p̂ = = 0,09 (proporção de peças
200
defeituosas na amostra); q̂ =1 −0,09 =0,91 (proporção de peças perfeitas na amostra);
1 − α = 0,95 (nível de confiança) donde se obtém na tabela da distribuição normal padrão
0,09 × 0,91
p = 0,09 ±1,96 → p = 0,09 ± 0,04 → 0,05 ≤ p ≤ 0,13 .
200
Assim, a verdadeira proporção de peças defeituosas é um valor compreendido no intervalo
acima, com 95% de confiança, que envolve o dito percentual de 6% de peças defeituosas. O esboço
do IC em comento consta no gráfico a seguir:
2 2
z 1,96
n = c p̂q̂ → n = (0,09)(0,9 1) → n = 503 peças.
e
0,025
Quando se trata de população finita, a fórmula do IC inclui o fator de correção e passa a ser:
p̂q̂ N −n p̂q̂ N −n
p = p̂ ± z c × , onde e = z c × é o erro padrão da estimativa.
n N −1 n N −1
z 2 p̂q̂N
n= .
z 2 p̂q̂ + ( N −1)e 2
Exemplo 2: Seja um levantamento por amostragem levado a cabo junto a 160 indivíduos
adultos, na área rural de um pequeno município, onde se constatou que 56 deles eram analfabetos. O
último censo demográfico assinala que a população adulta da área coberta pela pesquisa é de 1.500
indivíduos. Elabore-se um intervalo de confiança de 95% para a proporção geral de analfabetos.
56
analfabetos); p̂ = = 0,35 (proporção de analfabetos na amostra);
160
Sendo n > 0,05 N →160 > 0,05 ×1.500 →160 > 75 , é necessário adotar o fator de
correção de população finita para estimar a proporção populacional p, como se vê a seguir:
Verifica-se que a verdadeira proporção de analfabetos na área pesquisada se situa entre 28%
e 42%, com 95% de confiança, isto é, 35% com margem de erro de 7%.
10
TEORIA DA DECISÃO
10.1 Definição
Na teoria da decisão, que ao lado da teoria da estimação é outra importante vertente da Inferência
Estatística, estudam-se os testes de hipóteses, que são procedimentos destinados a verificar se é
verdadeira ou falsa a suposição que se estabelece acerca do valor do parâmetro populacional, com
nível máximo de confiança (probabilidade de aceitar a hipótese submetida a teste). E o fato de aceitar
ou não uma hipótese estatística implica sempre em tomar uma decisão.
Ainda mais que o percentual de 5%, com o tempo, deverá ser atualizado tendo em vista o
natural desgaste do equipamento no caminho da absolescência. Neste caso, seria interessante o
controle de qualidade formular e confrontar as hipóteses a seguir:
A decisão de aceitar ou não a hipótese inicial seria determinada por uma estatística teste que
avaliasse a significância de eventuais diferenças entre proporções obtidas por amostragem e a
proporção de 5% fixada pelo controle de qualidade. Caso o teste revelasse pouca significância para
essas diferenças, a hipótese inicial seria aceita. Este procedimento será detalhado mais adiante.
deseja provar, e da hipótese alternativa ( H1 ), que se contrapõe a H 0 , ou seja, aquela que é aceita
quando esta é rejeitada. H 0 é chamada de hipótese nula porque estabelece que é nula a diferença
entre valor real e valor suposto para o parâmetro populacional.
que consiste em rejeitar a hipótese nula H 0 quando ela é verdadeira; ou o ERRO TIPO II, que
consiste em aceitar a hipótese H 0 quando ela é falsa. A probabilidade do erro tipo I, que é o mais
O erro tipo I, ou erro alfa, corresponde ao nível de significância do teste. Daí a sua maior
importância técnica e de controle bem mais fácil que o do erro tipo II.
Enquanto que o erro tipo II, ou erro beta, menos importante, compreende a quantidade da
distribuição amostral, baseada no verdadeiro parâmetro da população, que intercepta a região de
a) Formulação do teste
segundo, testa-se a hipótese de desigualdade, para mais ou para menos, entre μ e μ 0 . O modo de
formular e decidir sobre um teste de hipóteses para a média μ resume-se no quadro abaixo:
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se H 0
H1 : µ ≠
Bicaudal H 0 : µ = µo se -zc ≤ zo ≤ zc
µo
H1 : µ >
Unicaudal à direita H 0 : µ = µo se zo < zc
µo
H1 : µ <
Unicaudal à esquerda H 0 : µ = µo se zo > -zc
µo
estatísticas amostrais. Enquanto que z c é o chamado z crítico, que delimita a área de aceitação do
teste e é obtido na tabela da distribuição normal, em face do nível de confiança 1 − α .
Eis que a hipótese nula estabelece uma igualdade entre a média populacional μ e a média
α
bilaterais, a probabilidade α fica repartida em duas partes iguais , correspondendo às duas
2
áreas demarcadas nas extremidades da curva normal, em destaque na figura anterior. Aceita-se
H 0 , com nível de confiança 1 − α , se a estatística teste zo (z observado) cair entre -zc e zc.
b) Estatística do teste
x −μ x −μ σ
zo = → zo = , eis que σ x = .
σx σ n n
x −μ 320 − 350
• Estatística do teste: z o = = → z o = −6
σ/ n 50 / 100
distribuição normal. Como zo = -6 está fora do intervalo [-1,96; 1,96], rejeita-se H 0 , com 95% de
confiança, não havendo evidência estatística de que o verdadeiro consumo médio domiciliar de
energia seja de 350 kw/mês, conforme esboço no gráfico abaixo.
Nota-se, no caso presente, uma discrepância muito grande entre a média amostral e a média
suposta para a população como um todo.
σ
xc = μo ± zc
n
caso, aceita-se H 0 quando o valor da média amostral cair no intervalo limitado pelos valores críticos
σ 50
• Valores críticos de x : x c = μ O ± z c = 350 ±1,96
n 100
Para um nível de confiança de 0,95 e sendo o teste unilateral, pega-se na tabela da distribuição
normal o valor zc = -1,64. Como este valor é superior ao de zo = -6, rejeita-se H 0 , havendo indícios
de que o consumo médio de energia na cidade é de fato inferior a 350 kw/mês (vide gráfico abaixo).
σ 50
• Valor crítico de x : x c = μ o − z c = 350 − 1,64
n 100
Rejeita-se H 0 , pois a média amostral de 320 é menor que 341,8 kw/mês. Aceitar-se-ia H 0
iguais a ±1,64, para o nível de confiança de 90%. O valor de z c =1,64 corresponde à probabilidade
de 0,4500 (0,90/2=0,4500), na tabela da distribuição normal.
Como dá para ver no gráfico acima, aceita-se H 0 com 90% de confiança, pois z o = 0,59
está compreendido entre ±1,64, intervalo que delimita a área de aceitação do teste, denotando que a
remuneração média mensal geral dos comerciários pode ser de cerca de R$ 325,00.
Isso acontece porque o desvio padrão da amostra (s) não é um bom estimador do desvio padrão da
população ( σ ). A distribuição t de Student é mais alongada nas extremidades do que a distribuição
normal, por refletir a maior dispersão verificada sempre em distribuições de pequenas amostras.
a) Formulação do teste
Neste caso, a formalização e a decisão inerentes ao teste seguem o mesmo ritual dos casos
anteriores, cujo resumo se encontra no quadro seguinte:
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se Ho
H1 : µ ≠
Bicaudal H 0 : µ = µo se -tc ≤ to ≤ tc
µo
H1 : µ >
Unicaudal à direita H 0 : µ = µo se to < tc
µo
H1 : µ <
Unicaudal à esquerda H 0 : µ = µo se to > -tc
µo
Em testes unilaterais toda a área de rejeição α se localiza numa das extremidades da curva
(direita ou esquerda), como já detalhado no caso da distribuição normal (vide figuras 10.2 e 10.3).
x −μ
b) Estatística do teste: t o = .
s/ n
s
xc = μo ± tc .
n
Neste sentido, rejeita-se H 0 quando a média da amostra exceder aos valores críticos x c .
Exemplo: Uma máquina é regulada para envasar margarina em potes de 500 gramas. Sabe-se
que a distribuição do peso líquido dos potes é quase normal. Iniciada a produção, foi recolhida uma
amostra de 12 potes, revelando peso líquido médio de 501,5 gramas e desvio padrão de 10 gramas. Ao
nível de confiança de 95%, pode-se aceitar que a máquina está operando satisfatoriamente?
que delimita a área de aceitação do teste. Então, aceita-se H 0 com 95% de confiança, havendo
forte evidência de que a máquina fora regulada satisfatoriamente.
s 10
xc = μo ± tc = 500 ± 2,201 × = 500 ± 6,4 ,
n 12
Como a média x = 501 ,5 gramas se situa no intervalo acima, aceita-se H 0 com 95% de confiança,
conforme se depreende também no gráfico a seguir:
O modo de formalizar e decidir sobre os testes de hipótese para proporção segue o mesmo
raciocínio até aqui desenvolvido, conforme resumo do quadro 18:
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se Ho
H 0 : p = po H1 : p ≠
Bicaudal se -zc ≤ zo ≤ zc
po
Os três tipos de testes anotados no quadro acima têm perfil gráfico igual aos do subitem 10.4,
quando se utilizou a distribuição normal para testar a média μ (vide figuras 10.1, 10.2 e 10.3).
p̂ − p
zo =
b) Estatística do teste: pq
n
p̂ − p 0,06 − 0,05
zo = = → z o = 0,65
• Estatística do teste: pq 0,05 × 0,95 .
n 200
Para o grau de confiança de 95%, correspondem valores críticos de z nos valores de ±1,96,
na tabela da normal. O esboço do teste se vê no gráfico abaixo:
Aqui, aceita-se H 0 , pois 0,65 pertence ao intervalo ±1,96, que delimita a área de aceitação
p̂ − p 0,06 − 0,07
zo = = → z o = −0,55
• Cálculo da estatística zo: pq 0,07 × 0,93 .
n 200
O valor de z crítico para 95% de confiança, num teste unilateral, é z c = 1,64 , que permite
aceitar H 0 , pois -0,55 < 1,64. Significa que a verdadeira proporção de peças defeituosas não é
superior a 7%, ao nível de confiança adotado, cujo desenho se observa no gráfico adiante.
valor–p. Com esse teste chega-se à mesma coisa de maneira diferente, ou seja, o seu resultado consiste
A rejeição da hipótese nula ( H 0 ) ocorre quando o p–valor do teste é menor que o valor
menor que α , rejeita-se H 0 , do contrário, aceita-se a hipótese nula. Em testes com a distribuição
normal o p–valor é calculado da seguinte maneira:
Exemplo: Voltemos ao caso do consumo domiciliar de energia em certa cidade, cuja variação
histórica é de 50 kw/mês. Julgando que atualmente consumo médio mensal seja de cerca de 350
kw/mês, coletou-se uma amostra aleatória junto a 100 consumidores, obtendo-se consumo médio de 320
kw/mês. Teste a hipótese de o consumo médio de energia ser de 350 kw/mês, com 95% de confiança.
x −μ 320 − 350
• Cálculo da estatística zo: z o = = → z o = −6 (como visto antes).
σ/ n 50/ 100
Vale relembrar, por fim, que quanto menor é o valor numérico do p–valor maior é a
11
CORRELAÇÃO E REGRESSÃO SIMPLES
A dependência funcional entre variáveis aleatórias é estudada por meio de duas técnicas
mutuamente relacionadas chamadas de correlação e de regressão. A análise de correlação é utilizada
para avaliar o grau de relacionamento entre duas ou mais variáveis. E a análise de regressão é
utilizada para estudar esse mesmo relacionamento mediante o ajustamento de uma curva ou função
matemática adequadamente escolhida, que pode ser de natureza linear, polinomial, exponencial, etc.
A determinação de uma função que se ajusta a um conjunto de pontos do plano é chamada técnica
de ajustamento.
Quando a relação é entre duas variáveis, a tendência dos dados é facilmente identificada por
meio do gráfico conhecido como diagrama de dispersão, em que os pares de valores x i e y i são
representados no plano, possibilitando definir a função que se ajusta à relação. Porém, se a relação
envolver mais de duas variáveis, pela dificuldade de representação no plano, a aderência da função
aos dados é avaliada por estatísticas que permitem testar a eficiência do ajustamento da função aos
valores da amostra que representa a relação. É um procedimento mais científico que utiliza
inferência estatística (análise de variância, testes de significância, etc). Neste caso, o coeficiente de
correlação e o coeficiente de determinação são indicadores eficientes da qualidade do ajustamento.
Não há correlação linear quando o coeficiente r é igual a zero. Quando todos os pontos
observados coincidem com a linha reta, tal que r = 1 ou r = -1, a correlação é perfeita, positiva ou
negativa, respectivamente, a depender da variação do sinal. O sinal de r indica o sentido da
correlação, ou seja, se é negativo há relação inversa entre as variáveis, denotando que a variação
numa delas causa efeito contrário em outra. Se r é positivo há relação direta entre as variáveis, de
forma que a variação de uma provoca efeito no mesmo sentido em outra, como ilustram os gráficos
a seguir.
Figura 11.1
a) se 0 < | r | ≤ 0,30 a correlação é muito fraca ou desprezível, pelo que praticamente nada
se pode concluir sobre a relação;
b) se 0,30 < | r | ≤ 0,60 a correlação é relativamente fraca, isto é, a relação entre as variáveis
não é muito expressiva;
cov( x , y) ∑( x − x )( y − y)
r= r=
var( x ). var( y) → ∑( x − x ) 2 ∑( y − y) 2
Exemplo: Um órgão de pesquisa coletou os seguintes dados sobre consumo e renda de uma
região (em bilhões de unidades monetárias constantes), a fim de avaliar a correlação linear entre tais
Quadro 11.1 - Amostra sobre Consumo e Renda Anual - Correlação linear simples pelo
método dos desvios em torno da média
Ano Renda (x) Consumo (y) x–4 (x – 4)² y–3 (y – 3)² (x – 4)(y – 3)
1999 3,2 2,1 -0,8 0,64 -0,9 0,81 0,72
2000 3,5 2,4 -0,5 0,25 -0,6 0,36 0,30
2001 3,7 2,7 -0,3 0,09 -0,3 0,09 0,09
2002 4,0 3,1 0,0 0,00 0,1 0,01 0,00
2003 4,2 3,3 0,2 0,04 0,3 0,09 0,06
2004 4,5 3,5 0,5 0,25 0,5 0,25 0,25
2005 4,9 3,9 0,9 0,81 0,9 0,81 0,81
Total 28,0 21,0 0,0 2,08 0,0 2,42 2,23
28 21
Cálculo das médias: x = =4 e y = = 3 . Então, com base nas somas obtidas no
7 7
quadro acima, segue-se o valor do coeficiente de correlação referente ao caso em estudo:
2,23 2,23 2,23
r= = = →r = 0,994
( 2,08 )( 2,42 ) 5,0336 2,2437
O valor de r indica que existe uma forte relação linear entre o consumo e a renda.
Existem outras fórmulas mais simples de operar, desenvolvidas a partir da fórmula original
vista acima, como a que se apresenta a seguir:
∑xy − ∑x ∑y / n
r=
[ ∑x 2 − ( ∑x ) 2 / n ][ ∑y 2 − ( ∑y) 2 / n ]
Então, o mesmo valor da estimativa de r para a relação entre o consumo e a renda, de modo
direto, sem precisar calcular os desvios de cada valor da variável em torno da sua média, é obtido a
partir dos somatórios elaborados no quadro adiante:
∑ xy − ∑ x ∑ y / n 86 ,23 − 28 × 21 / 7
r= = = 0,994
[ ∑ x 2 − (∑ x ) 2 / n ][ ∑ y 2 − (∑ y) 2 / n ] [114 ,08 − 28 2 / 7][ 65 ,42 − 212 / 7]
Cabe advertir que um índice de correlação elevado não implica necessariamente em relação
de dependência entre duas variáveis, pois a relação entre as mesmas pode ser decorrente de mera
casualidade - e não de causalidade.
O diagrama a seguir mostra uma situação em que a nuvem de pontos, apesar dos
afastamentos, segue uma tendência linear:
Figura 11.2
∑ε 2 = ∑( y −a −bx ) 2 .
∂Σε 2
= 2Σ( y − a − bx )( −1) = - 2( Σy − na − bΣx )
∂a
∂Σε 2
= 2Σ( y − a − bx )( −x ) = −2( Σxy − aΣx − bΣx 2 )
∂b
Σy Σx ∑ xy − ∑ x ∑ y / n
a= −b e b=
n n ∑ x 2 − (∑ x ) 2 / n
Exemplo: Seja a relação entre consumo e renda, constante do quadro 11.2.1, cujo
coeficiente de correlação igual a 0,994 sugere uma forte relação linear entre essas duas
variáveis, indicando que o ajustamento da reta ŷ = a + bx amolda-se bem à série histórica.
Os somatórios apurados naquele quadro permitem determinar os valores dos coeficientes da
equação da reta do seguinte modo:
∑ xy − ∑ x ∑ y / n
b= →
∑ x 2 − (∑ x ) 2 / n
Σy Σx 21 28
a= −b →a = −1,07 × → a = −1,28
n n 7 7
A equação estimada sugere que quando a renda (x) aumenta de um bilhão de unidades
monetárias, o consumo (y) sofre um acréscimo médio de 1,07 bilhão de unidades monetárias.
Σy
Σy = na → a = →a = y (i)
n
∑x c y
Σx c y = bΣx c2 → b = (ii)
∑ x c2
Agora, os coeficientes da reta de regressão vão ser estimados através do sistema reduzido
(centrado na média), com base nos somatórios elaborados no quadro seguinte:
Σy 21
a= = →a =3
n 7
∑ xcy 2,23
b= = → b = 1,07
∑ x c2 2,08
valores originais de X, basta apenas trocar x c por x − 4 na equação de ŷ, como segue:
Calcula-se r 2 através da relação entre a variação explicada (VE) e a variação total (VT),
ou ainda por intermédio da relação complementar, na qual a relação entre a variação residual (VR) e
a total (VT) é subtraída da unidade, como ilustram as fórmulas seguintes:
VE ∑( ŷ − y) 2 VR ∑( y − ŷ) 2
r2 = = 2
ou r = 1 − =1 − , que vale para qualquer tipo
VT ∑( y − y) 2 VT ∑( y − y) 2
ajustamento, inclusive de funções não lineares.
Exemplo: Eis o cálculo de r2 para a relação consumo e renda, com base nas somas do
quadro abaixo.
∑( y − ŷ) 2 0,0289
r 2 =1 − 2
=1 − = 1 − 0,0119 → r 2 = 0,988
∑( y − y) 2,42
O resultado acima informa que 98,8% da variação do consumo é explicada pela variação da
renda, ou seja, a regressão linear tem um alto poder de explicação sobre a variação da relação
consumo/renda.
ANEXOS
O valor de cada casa da tabela indica a proporção da área total sob a curva normal entre z = 0 e
um valor positivo de z. As áreas para os valores negativos de z são conseguidas por simetria.
Por exemplo, a área sob a curva entre z = 0 e z = 1 corresponde a 0,3413, que é o mesmo valor
da área compreendida entre z = 0 e z = -1.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
α
0,25 0,20 0,10 0,05 0,025 0,01
ν
1 2,4142 3,0777 6,3138 12,706 35,542 63,657
2 1,6036 1,8856 2,9200 4,3127 6,2053 9,9248