Você está na página 1de 146

ANLISE

ESTATSTICA

autora

VALRIA APARECIDA FERREIRA

1 edio
SESES
rio de janeiro 2015

Conselho editorial solange moura; roberto paes; gladis linhares


Autora do original valria aparecida ferreira
Projeto editorial roberto paes
Coordenao de produo gladis linhares
Projeto grfico paulo vitor bastos
Diagramao bfs media
Reviso lingustica amanda duarte aguiar
Reviso de contedo juarez jonas thives junior
Imagem de capa franz pfluegl | dreamstime.com

Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrnico ou mecnico, incluindo fotocpia e gravao) ou arquivada em
qualquer sistema ou banco de dados sem permisso escrita da Editora. Copyright seses, 2015.

Dados Internacionais de Catalogao na Publicao (cip)


F383a Ferreira Valria

Anlise estatstica / Valria Ferreira

Rio de Janeiro: SESES, 2015.

144 p : il.

isbn: 978-85-5548-104-8

1. Estatstica. 2. Probabilidadel. I. SESES. II. Estcio.


cdd 519.5

Diretoria de Ensino Fbrica de Conhecimento


Rua do Bispo, 83, bloco F, Campus Joo Ucha
Rio Comprido Rio de Janeiro rj cep 20261-063

Sumrio
1. Probabilidade 5
Objetivos 6
1.1 Conceitos bsicos de probabilidade

1.1.1 Experimento aleatrio, espao amostral e eventos

1.1.2 Operaes com eventos

1.1.2.1Unio

1.1.2.2Interseco

10

1.1.2.3Complementao

11

1.2 Definio clssica de probabilidade

14

1.3 Frequncia relativa como estimativa de probabilidade

17

1.4 Regras bsicas da probabilidade

19

1.5 Probabilidade condicional

19

1.6 Independncia de eventos

24

1.7 Teorema da soma ou a regra do ou

26

1.8 Teorema do produto ou a regra do e

29

1.9 Teorema da Probabilidade Total

34

1.10 Teorema de Bayes

37

Reflexo 41
Referncias bibliogrficas

2. Variveis Aleatrias Discretas

42

43

Objetivos 44
2.1 Varivel aleatria

45

2.1.1 Mdia, varincia e desvio padro de uma varivel aleatria

49

2.2 Modelo Binomial

57

2.3 Modelo Poisson

62

2.4 Distribuio de Poisson como aproximao da


Distribuio Binomial

66

2.5 Utilizao do Microsoft Excel no clculo de probabilidades

69

2.5.1 Utilizando o Excel para obter probabilidades binomiais

69

2.5.2 Utilizando o Excel para obter probabilidades Poisson

73

Reflexo 77
Referncias bibliogrficas

3. Correlao e Regresso Linear Simples

78

79

Objetivos 80
3.1 Diagrama de disperso

81

3.2 Coeficiente de correlao linear

82

3.3 Teste de hiptese para correlao

87

3.4 Regresso linear simples

89

3.5 Coeficiente de determinao

94

3.6 Utilizao do Microsoft Excel na anlise de


regresso e correlao

100

Reflexo 110
Referncias bibliogrficas

4. Teste de Hiptese com Duas Amostras

111

113

Objetivos 114
4.1 Viso geral do teste de hiptese para duas amostras

116

4.2 Comparao de duas mdias

117

4.2.1 Amostras independentes com varincias


desconhecidas e diferentes

118

4.2.2 Amostras independentes com varincias


desconhecidas e iguais

123

4.2.3 Amostras independentes com varincias conhecidas

127

4.2.4 Amostras dependentes

129

4.3 Comparao de duas propores

133

4.4 Utilizao do Microsoft Excel para testes de duas amostras

137

4.4.1 Comparao de duas mdias com varincias


desconhecidas e diferentes

137

4.4.2 Comparao de duas mdias (amostras dependentes)

141

Reflexo 143
Referncias bibliogrficas

144

1
Probabilidade

Neste primeiro captulo, estudaremos conceitos bsicos de probabilidade. O


objetivo desenvolver habilidades necessrias para a determinao de valores de probabilidades, utilizando a definio clssica de probabilidade e a frequncia relativa como estimativa de probabilidade. Abordaremos, tambm, o
conceito de probabilidade condicional e em quais situaes devemos utilizar
o teorema da soma ou do produto. E, finalizaremos o captulo, apresentando
o teorema da probabilidade total e o teorema de Bayes.

OBJETIVOS
Esperamos que, atravs dos conceitos abordados neste captulo, voc seja capaz de:
Identificar em um problema: experimento aleatrio, espao amostral e eventos;
Calcular probabilidades de eventos, por meio da definio clssica e frequencial;
Calcular probabilidades condicionais;
Identificar eventos independentes;
Compreender os conceitos do teorema da probabilidade total e do teorema de Bayes e
aprender a calcular probabilidades associadas a tais teoremas.

captulo 1

1.1 Conceitos bsicos de probabilidade


Em muitas situaes do nosso cotidiano, temos interesse em saber a probabilidade de algo acontecer. Por exemplo:
Qual a probabilidade de chuva no litoral norte de So Paulo em um feriado prolongado?
Qual a probabilidade de ganho investindo no mercado de aes?
Qual a probabilidade de ganharmos na Mega Sena jogando 1 volante com
6 nmeros?
Qual a probabilidade de uma mulher que faz tratamento de fertilidade
engravidar de gmeos?
Nestes exemplos, observamos que decises a serem tomadas podem ser baseadas na anlise de incertezas. Analisando a primeira situao: voc faz planos
para aproveitar um feriado prolongado no litoral norte de So Paulo e a meteorologia estima em 90% a probabilidade de chuva! Sendo que sua cidade fica
500 km do litoral, voc poder usar esta informao para manter, ou no, seus
planos.
Segundo Vieira (2013, p. 88)
O estudo de probabilidades teve incio com os jogos de azar. As pessoas queriam entender a lei desses jogos, para ganhar dinheiro nos cassinos. S que os matemticos
acabaram descobrindo que no possvel prever, por exemplo, se vai ocorrer a face 6
em determinado lanamento de um dado. Podemos apenas descobrir, por observao,
que a face 6 ocorre 1/6 das vezes, no decorrer de muitas jogadas.

CONEXO
Voc pode ouvir a histria da teoria da probabilidade, desde os primrdios, no seguinte endereo: http://m3.ime.unicamp.br/recursos/1253, primeiro mdulo. Neste udio, vamos viajar
no tempo e aprender que a ideia de jogos e apostas estavam presentes desde o antigo Egito
e ndia antiga.

captulo 1

Antes de comearmos, efetivamente, a calcular e interpretar probabilidades, precisamos definir alguns conceitos bsicos presentes nos clculos que
vamos efetuar ao longo do captulo.

1.1.1 Experimento aleatrio, espao amostral e eventos

Pelo prprio nome, um experimento cujo resultado no pode


ser previsto com certeza (por isto, a utilizao da palavra ale-

EXPERIMENTO
ALEATRIO

atrio). Poderemos repetir o experimento inmeras vezes sob


condies essencialmente inalteradas. Embora no possamos
afirmar qual ser o resultado de um particular experimento, podemos descrever o conjunto dos possveis resultados.

um conjunto com todos os resultados possveis do experi-

ESPAO
AMOSTRAL

mento aleatrio em estudo. Indicamos o espao amostral pela


letra grega (mega). Cada elemento do espao amostral
denominado ponto amostral.

qualquer subconjunto do espao amostral (indicado por le-

EVENTOS

tras maisculas do nosso alfabeto). O evento que possui somente um elemento denominado evento simples.

Estes conceitos sero explorados no exemplo a seguir.

EXEMPLO
1.1 Joga-se um dado. Os seguintes eventos so definidos:
A: ocorrncia de face maior ou igual a 4.
B: ocorrncia de face menor ou igual a 6.
C: ocorrncia de face menor que 1.
D: ocorrncia de face menor ou igual a 1.

captulo 1

Vamos identificar: o experimento aleatrio, o espao amostral referente a este experimento e os pontos amostrais pertencentes a cada evento definido.
Resoluo
Experimento aleatrio: lanamento do dado (experimento que est sendo realizado,
cujo resultado no pode ser previsto com certeza).
Espao amostral: = {12
, , 3, 4, 5, 6} (conjunto formado por todos os resultados possveis do experimento aleatrio, ou seja, faces de 1 a 6).
Eventos:
A = {4, 5, 6}

, , 3, 4, 5, 6}
B = {12

C = ( indicao o conjunto vazio )

D = {1}

Um evento pode ser o prprio espao amostral, o qual denominamos como evento
certo. Tambm pode acontecer de um evento no possuir pontos amostrais e, neste
caso, denominamos como evento impossvel.

1.1.2 Operaes com eventos


O clculo de probabilidades pode envolver mais de um evento. Para conseguirmos calcular tais probabilidades, precisamos compreender quais as possveis
operaes que podem ser realizadas com eventos.
1.1.2.1 Unio
Vamos considerar dois eventos quaisquer, A e B. A unio destes dois eventos
gera um novo evento que contm os pontos amostrais pertencentes a A, ou a B
ou a ambos. Denotamos a unio por A B . O diagrama de Venn, na Figura 1.1,
descreve a unio dos eventos A e B.

captulo 1

Figura 1.1 Unio de dois eventos.

A unio representa a ocorrncia de, pelo menos, um dos eventos. O nmero de elementos de A B representado por n (A B).

1.1.2.2 Interseco
A interseco de dois eventos A e B, denotado por , o evento que contm os
pontos amostrais comuns aos eventos A e B.

AB

A B

A
Figura 1.2 Interseco de dois eventos.

10

captulo 1

A unio representa a ocorrncia de, pelo menos, um dos eventos. O nmero de elementos de A B representado por n (A B).

Pode acontecer da interseco entre dois eventos ser vazia, ou seja, A B =.


Neste caso, dizemos que os eventos A e B so disjuntos ou mutuamente exclusivos. Por exemplo, sejam os eventos A: pessoas do sexo masculino e B: pessoas
do sexo feminino. Neste caso, no h elementos comuns entre estes eventos,
pois uma pessoa ou do sexo masculino ou feminino, no podendo estar nos
dois eventos simultaneamente.
Quando estamos interessados na interseco de dois eventos, utilizamos a conjuno
e, ou seja, queremos encontrar os elementos que pertencem ao evento A e ao evento
B. No caso da unio de dois eventos, utilizamos a conjuno ou, ou seja, so elementos
que pertencem ao evento A, ou ao B ou a ambos.

1.1.2.3 Complementao
O complemento do evento A, denotado por Ac, definido como o evento que
contm todos os pontos amostrais que no pertencem ao evento A, ou seja,
Ac = A.

AC
A

Figura 1.3 Evento complementar: Image.

captulo 1

11

CONEXO
O complementar de A representado por Ac. Temos A Ac = e A Ac = . .O nmero
de elementos de Ac representado por Image.

Em muitos exerccios de probabilidade, a visualizao de uma situao, envolvendo operaes com eventos, se torna mais fcil quando colocamos as informaes no diagrama de Venn. Vamos analisar o prximo exemplo.

EXEMPLO
1.2 Uma fbrica de montagem possui 40 funcionrios, que precisam completar as atribuies designadas no horrio estipulado, de tal modo que o produto montado passe em
uma inspeo final. Em algumas ocasies, alguns funcionrios no satisfazem os padres
de desempenho, ou seja, precisam de mais tempo para completar as atribuies e/ou montam produtos com defeitos. Aps um perodo de avaliao de desempenho, o gerente de
produo observou que 6 dos 40 funcionrios precisaram de mais tempo para completar as
atribuies, 8 dos 40 funcionrios montaram produto com defeitos e 3 dos 40 funcionrios
precisaram de mais tempo e montaram produtos com defeitos.
Os seguintes eventos so definidos:
A: funcionrios que completaram as atribuies alm do tempo estipulado.
B: funcionrios que montaram o produto com defeito.
Vamos encontrar:
Resoluo
Estas informaes ficam mais claras por meio do diagrama de Venn:

B
3

5
29

Figura 1.4 Diagrama de Venn para a situao descrita no Exemplo.

12

captulo 1

Quando colocamos as informaes no diagrama de Venn, a primeira informao a ser


inserida a interseco entre os eventos. No nosso exemplo, A B = 3, pois 3 funcionrios
completaram as atribuies alm do tempo estipulado e montaram produtos com defeitos.
Como todo o conjunto A tem 6 funcionrios, e j temos 3 deles na interseo, a parte do
conjunto A menos a interseco 6 3 = 3. Interpretamos esta informao da seguinte
maneira: somente o evento A ocorre. O mesmo raciocnio usado para o conjunto B. Como o
conjunto B tem 8 funcionrios e j temos 3 deles na interseco, a parte do conjunto B menos a interseco 8 3 = 5. E, tambm, interpretamos como somente o evento B ocorre.
Se somarmos os valores dentro do diagrama de Venn, obtemos 3 + 3 + 5 = 11 funcionrios.
Mas, o enunciado nos informa que a fbrica tem 40 funcionrios! E estes 29 funcionrios
que faltam? So os funcionrios que satisfizeram os padres de desempenho (no pertencem ao evento A, ou ao evento B ou a ambos).
Aps esta anlise:

n ( A B ) = 3 + 3 + 5 = 11 funcionrios
n ( A B ) = 3 funcionrios

n ( A c ) = 5 + 29 = 34 funcionrios

n (Bc ) = 3 + 29 = 32 funcionrios

O matemtico ingls John Venn (1834-1923) criou o diagrama de Venn, que recebe
seu sobrenome, no intuito de facilitar a compreenso na relao de unio e interseco
entre conjuntos.No diagrama, os elementos de um conjunto so representados no
interior de uma figura plana e fechada.

Agora que j sabemos identificar experimentos aleatrios e espaos amostrais e fazer operaes com eventos aleatrios, vamos ao clculo de probabilidades. Primeiro, vamos responder seguinte pergunta: o que probabilidade?
Probabilidade um nmero que mede a possibilidade de ocorrncia de um
evento.
O clculo de probabilidades pode ser efetuado de trs maneiras: atravs da
definio clssica de probabilidade, atravs da definio frequencial de probabilidade e atravs de probabilidades subjetivas.

captulo 1

13

Concentraremos nossos estudos na definio clssica e frequencial. No mtodo


subjetivo, a probabilidade estimada com base no ponto de vista pessoal sobre a possibilidade de ocorrer determinado evento. Por exemplo, dado o estado de sade do
paciente e a extenso dos ferimentos, um mdico com experincia pode sentir que
esse paciente tem uma probabilidade de 95% de se recuperar completamente.

1.2 Definio clssica de probabilidade


A definio clssica de probabilidade se aplica quando os pontos amostrais do
espao amostral so equiprovveis, ou seja, quando todos tm a mesma probabilidade de ocorrer. Ento, se A o evento de interesse, a probabilidade do
evento A ocorrer, representada por P(A), dada por:
P( A) =

nmero de resultados favorveis ocorrncia do evento A


nmeroo de resultados do espao amostral ( )

EXEMPLO
1.3 Retira-se uma carta de um baralho completo de 52 cartas. Qual a probabilidade de sair
uma carta de copas?
Resoluo
O espao amostral deste experimento :

= A o ,..., Ko , Ap ,..., Kp ,..., A c ,..., Kc ,..., A g ,..., Kg

Ele contm 52 cartas e cada uma delas tem mesma probabilidade de ser retirada. Ento,
os pontos amostrais so equiprovveis. O evento A: sair uma carta de copas o subconjunto:
A = {A c ,..., Kc }

13 cartas

Vale ressaltar que o conjunto A tem 13 cartas. Um baralho completo composto por 4
naipes (ouro, paus, copas e espada) e cada um dos naipes tm as mesmas 13 cartas (A, 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q, K), diferindo apenas pelos naipes (smbolos).

14

captulo 1

Utilizando a definio clssica de probabilidade temos:


P (A) =

nmero de resultados favorveis ocorrncia do evento A 13 1


=
= = 0, 25
nmeroo de resultados do espao amostral ( )
52 4

Ento, temos uma probabilidade de 25% de retirar uma carta de copas.

Em alguns experimentos aleatrios, no conseguimos enumerar o espao


amostral. Nesses casos, utilizamos a anlise combinatria como processo de contagem. No prximo exemplo, vamos verificar uma situao em que isto ocorre.

EXEMPLO
1.4 Qual a probabilidade de uma pessoa ganhar na Mega Sena jogando 1 volante com 6
nmeros?
Resoluo
Neste experimento aleatrio, que a escolha de 6 nmeros de um volante que contm
60 nmeros, o espao amostral contm milhes de pontos amostrais. Precisamos saber
quais so todas as possibilidades de escolhas. Por exemplo:
12 14 47 50 51 56
02 08 10 15 22 26
18 26 33 37 43 51
so possveis escolhas para um jogo. Para encontrarmos o nmero total de maneiras
diferentes de escolher 6 nmeros de um total de 60, utilizamos o conceito de combinao
60
60 !
60 !
60 59 58 57 56 55 54 !
= 50.063.860
=
=
=
6
6
!
60

6
!
6
!
54
!
6 5 4 3 2 1 54 !
(
)

Este nmero nos diz que temos mais de 50 milhes de possibilidades de escolhas!
Definindo o evento A: ganhar com 1 volante com 6 nmeros, a probabilidade do evento
A ocorrer :
P (A) =

nmero de resultados favorveis ocorrncia do evento A


1
=
nmeroo de resultados do espao amostral ( )
50.063.860

= 0, 00000002

captulo 1

15

Portanto, a probabilidade de uma pessoa ganhar na Mega Sena jogando 1 volante com
6 nmeros de 0,000002%

O nmero de combinaes de n elementos tomado k a k :


Cnk =

n!
k ! (n k ) !

onde n! = n (n 1) (n 2 ) ... ( 2 )(1) e 0 !1 . A notao ! significa fatorial. Por exemplo,


3! = 3 2 1 = 6 . Na combinao, s interessam os elementos que compem o agrupamento, no importando a ordem. A combinao tambm pode ser obtida por meio de
uma calculadora cientfica, utilizando, em muitas delas, a tecla nCr.

A definio clssica de probabilidade uma definio terica. Mesmo


sem ter feito qualquer coleta de dados, construmos o espao amostral e associamos um valor para a probabilidade de ocorrer determinado evento. Por
exemplo, se pensarmos no lanamento de uma moeda como um experimento
aleatrio, vamos atribuir em 50% a probabilidade de sair cara em um lanamento, pois a moeda tem dois lados (cara e coroa). Mas, simulaes nos mostram
que, em poucas repeties do experimento, a proporo de caras obtidas bastante varivel e medida que fazemos mais e mais repeties do experimento, a
proporo de caras obtidas aproxima-se de 0,5 e permanece neste valor.
De acordo com Moore et al. (2006, p. 199):
A ideia de probabilidade emprica. Ou seja, ela baseia-se na observao e no na
teoria. A probabilidade descreve o que acontece em muitas e muitas tentativas, sendo
necessrio que, de fato, executemos essas diversas tentativas a fim de determin-las.

16

captulo 1

1.3 Frequncia relativa como estimativa de


probabilidade
Vimos que a definio clssica de probabilidade terica e s pode ser aplicada
quando os pontos amostrais so igualmente provveis de ocorrer. No clculo de
probabilidades atravs da frequncia relativa como estimativa de probabilidade, utilizamos informaes baseadas em observaes repetidas do experimento aleatrio. Seja A o evento de interesse. A probabilidade P(A) obtida atravs
da frequncia relativa dada por:
P( A) =

nmerode vezesque oeventoA ocorreu


nmerode repeties do experimento aleatrio

Em que o nmero de repeties deve ser grande.


Podemos interpretar esta frmula para o clculo de probabilidades como a
frequncia relativa de um evento.
As frequncias relativas so empricas porque so calculadas com base nos
dados de uma amostra. As amostras fornecem estimativas variveis, mesmo
que tais amostras tenham sido tomadas no mesmo local e na mesma poca
VIEIRA (2008, p. 165).
Quando calculamos probabilidades por meio da frequncia relativa, obtemos uma estimativa em vez do valor exato. medida que o nmero de repeties do experimento aleatrio aumenta, as estimativas correspondentes tendem a se aproximar da verdadeira probabilidade. Este resultado conhecido
como lei dos grandes nmeros.

EXEMPLO
1.5 Uma loja de varejo tem registrado em seus arquivos que dos 2.500 televisores, de determinada marca, vendidas em certo perodo, 380 precisaram de reparos dentro da garantia
de um ano. Qual a probabilidade de que um consumidor que compre uma televiso dessa
marca no precise utilizar a garantia?

captulo 1

17

Resoluo
O espao amostral consiste de dois pontos amostrais: o televisor precisa de reparo durante a garantia ou no. Os pontos amostrais no so igualmente provveis, ento, no
usaremos a definio clssica de probabilidade. Usaremos a frequncia relativa como estimativa, levando em conta os resultados passados. Pelas informaes, temos que 2.120
televisores no precisaram de reparos durante a garantia. Sendo o evento A: a televiso no
precisa de reparo durante a garantia e utilizando a frequncia relativa como estimativa de
probabilidade, temos:

1.120
= 0, 848
2.500

P (A) =

Com base na amostra de 2.500 televisores vendidos, estima-se que a probabilidade de


um consumidor no precisar utilizar a garantia de 84,8%.
1.6 A distribuio de frequncias a seguir apresenta as reclamaes fundamentadas de
2013, por rea, na Fundao Procon SP.

REA

FREQUNCIA

FREQUNCIA RELATIVA (%)

Produtos
Assuntos Financeiros
Servios Essenciais
Servios Privados
Sade
Habitao
Alimentos
Total

9 683
8 464
5 298
4 838
1 408
1 327
67
31 085

31,15
27,23
17,04
15,56
4,53
4,27
0,22
100,00

Tabela 1.1 Reclamaes no Procon SP por rea, em 2013. Fonte: Disponvel em: <http://
www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf>. Acesso em: 03 de maio de 2015.
Com base nesses resultados, estime a probabilidade de uma nova reclamao ser da
rea de assuntos financeiros.
Resoluo
Vamos definir o evento A: a reclamao ser da rea de assuntos financeiros. Utilizando
a frequncia relativa como estimativa de probabilidade, temos:
P (A) =

18

captulo 1

8.464
= 0, 2723
31.085

Analisando a resposta encontrada, observamos que o mesmo valor que est na coluna da Frequncia Relativa (%), na Tabela 1.1. Vale lembrar que aprendemos a construir a
distribuio de frequncias, bem como a calcular a frequncia relativa, quando estudamos
organizao dos dados em estatstica descritiva.

1.4 Regras bsicas da probabilidade


a) 0 P ( A ) 1
A probabilidade varia entre zero e 1 (ou entre 0% e 100%), inclusive.
b) P ( ) = 1
Quando consideramos o evento o prprio espao amostral, temos que o
nmero de resultados favorveis ao evento igual ao nmero de resultados do
espao amostral. Portanto, a probabilidade ser igual a 1.
c) P ( A c ) = 1 P ( A )
Sabemos que Ac complementar do evento A, ou seja, Ac contm os elementos do espao amostral que no pertencem a A. Portanto, a probabilidade de
Ac igual a probabilidade do espao amostral (que 1, pelo item b) menos a
probabilidade de A.
Agora que j sabemos efetuar o clculo de probabilidades por meio da definio clssica e pela frequncia relativa, vamos analisar situaes em que podemos ter interesse em encontrar a probabilidade de ocorrncia de um evento levando em conta que outro evento j ocorreu. Esta probabilidade recebe o nome
de probabilidade condicional e definida a seguir.

1.5 Probabilidade condicional


Antes de formalizarmos o clculo da probabilidade condicional, vamos analisar o exemplo a seguir.

captulo 1

19

EXEMPLO
1.7 H 100 candidatos para uma vaga numa empresa multinacional. Alguns tm curso
superior, outros no. Alguns tm experincia no ramo, outros no. Os dados esto apresentados na tabela a seguir.

Com experincia
anterior

Sem experincia
anterior

Total

POSSUI CURSO
SUPERIOR

NO POSSUI
CURSO SUPERIOR

TOTAL

35

45

80

15

20

50

50

100

Tabela 1.2 Distribuio dos candidatos vaga, segundo experincia e curso.


Considerando que o candidato escolhido para a vaga possui curso superior, qual a probabilidade dele ter experincia anterior no ramo?
Resoluo
Este exemplo refere-se a um caso de probabilidade condicional, pois j sabemos que
o candidato escolhido possui curso superior. Definindo os eventos e analisando a tabela,
temos:
A: ter experincia anterior no ramo (definimos desta maneira, pois a pergunta do exerccio).
B: possui curso superior (definimos desta maneira, pois o evento que sabemos que
ocorreu).
Portanto:
P ( A | B) =

20

captulo 1

35
= 0, 7
50

intuitivo concluir que, se sabemos que o candidato escolhido possui curso superior,
temos um grupo restrito de 50 pessoas. Destas 50 pessoas, 35 apresentam experincia
anterior no ramo.

Lemos P (A | B) da seguinte maneira: probabilidade de A ocorrer sabendo que (indicado por | ) B ocorreu.

Agora, vamos formalizar o clculo da probabilidade condicional.


Dados dois eventos A e B, a probabilidade condicional de A, dado que B ocorreu, representada por P (A | B) e calculada por:
P ( A | B) =

P ( A B)
P (B )

desde que P (B) < 0.


Da definio acima obtemos o teorema do produto, de grande aplicao no clculo de
probabilidades, dado por:
P ( A B ) = P ( A | B ) P (B )

1.8 Vamos utilizar os dados do Exemplo 1.7 para aplicar a frmula da probabilidade condicional.
Resoluo
A: ter experincia anterior no ramo (definimos desta maneira, pois a pergunta do exerccio).
B: possui curso superior (definimos desta maneira, pois o evento que sabemos que
ocorreu).
Para utilizarmos a frmula, precisamos calcular P (A B) e P (B).
Utilizando a frequncia relativa como estimativa de probabilidade, temos que dos 100
candidatos, 35 deles tm experincia anterior e possuem curso superior. Portanto:
P ( A B) =

35
100

captulo 1

21

Vamos relembrar que a conjuno e est associada interseco. E, para dados tabelados, o valor da interseco est dentro da tabela, no cruzamento dos eventos de interesse.
Dos 100 candidatos, 50 deles possuem curso superior. Ento:
P (B ) =

50
100

Substituindo as probabilidades encontradas na frmula, temos:


35
P ( A B ) 100 35 100 3500
P ( A | B) =
=
=

=
= 0, 7
50 100 50 5000
P (B )
100

Note que o valor que aparece no denominador, quando calculamos a probabilidade


condicional utilizando os valores diretamente da tabela, o total de casos do evento
que sabemos que ocorreu. Neste exemplo, sabamos que o candidato escolhido tinha
curso superior e o total de candidatos com este perfil 50, justamente o valor que
aparece no denominador do clculo da probabilidade condicional.

1.9 A fbrica A produziu 6.000 lmpadas e a fbrica B 4.000 lmpadas. 70% das lmpadas de A so perfeitas e 60% das lmpadas de B so perfeitas tambm. Uma lmpada
selecionada, ao acaso, dentre as 10.000. Qual a probabilidade que:
a)

Seja defeituosa, sabendo-se que da marca A?

b)

Seja defeituosa?

c)

Sendo perfeita, tenha sido fabricada por B?


Resoluo
Vamos definir os seguintes eventos:
A: a lmpada foi fabricada por A.
B: a lmpada foi fabricada por B.
P: a lmpada perfeita.
D: a lmpada defeituosa.

a)

Temos que encontrar uma probabilidade condicional, pois sabemos que a lmpada da

marca A. Ento:

22

captulo 1

P (D | A ) =

P (D A )
P (A)

O nmero de lmpadas fabricadas por A e defeituosas :


6000 0, 3 = 1800
Ento, utilizando a frequncia relativa como estimativa da probabilidade, temos:
P ( A D) =
P (A) =

1800
10000

6000
10000

Substituindo as probabilidades encontradas na frmula, temos:


1800
P (D A ) 10000 1800
P (D | A ) =
=
=
= 0, 3
6000 6000
P (A)
10000

b)

O nmero de lmpadas defeituosas (independente da fbrica) :


6000
0
, 3 + 4000
0
, 4 = 1800 + 1600 = 3400


Fbrica A

Fbrica B

Ento:
P (D ) =
c)

3400
= 0, 34
10000

Aqui, tambm temos uma probabilidade condicional, pois sabemos que a lmpada

perfeita:
P (B | P ) =

P (B P )
P (B )

O nmero de lmpadas fabricadas por B e perfeitas :


4000 0, 6 = 2400

captulo 1

23

Utilizando a frequncia relativa como estimativa da probabilidade, temos:


P (B P ) =

2400
10000

O nmero de lmpadas perfeitas (independente da fbrica) :


10000 3400 = 6600
e,
P (P ) =

6000
10000

Substituindo as probabilidades encontradas na frmula, temos:


2400
P (B P ) 10000 2400
P (B | P ) =
=
=
= 0, 4
6000 6000
P (B )
10000

1.6 Independncia de eventos


Novamente, vamos fazer a anlise do conceito de independncia atravs de
uma interpretao intuitiva. natural pensar que dois eventos A e B so independentes se a ocorrncia de um deles no interferir na ocorrncia do outro.
Utilizando esta ideia na frmula da probabilidade condicional, temos que:
P (A|B) = P (A) e P (B|A) = P (A). Isto quer dizer que a probabilidade condicional
de um deles, sabendo que o outro ocorreu, igual respectiva probabilidade
simples.
Utilizando o teorema do produto, a independncia entre os eventos A e B
implica em:
P ( A B) = P ( A |B) P ( B)
P ( A B) = P ( A ) P (B)
Ento, dois eventos so independentes se a probabilidade de que ocorram
juntos igual a produto das probabilidades de que ocorram em separado.

24

captulo 1

EXEMPLO
1.10 No Exemplo 1.7, os eventos A e B so independentes?
Resoluo
Os eventos A e B so:
A: ter experincia anterior no ramo.
B: possui curso superior.
Precisamos encontrar as seguintes probabilidades:

P (A) =

80
60
35
; P (B ) =
e P ( A B) =
100
100
100

Ento, vamos verificar se Image


35
80 50
=

100 100 100


35
4000
=
100 10000
0, 35 0, 4

Portanto, os eventos A e B no so independentes.


1.11 O gerente de um posto de gasolina sabe, por experincias passadas, que 85% dos
clientes pagam a compra do combustvel com carto de crdito. Qual a probabilidade dos
prximos 3 clientes que comprarem combustvel pagarem, cada um deles, com carto de
crdito?
Resoluo
Definindo os eventos:
A: o primeiro cliente pagar com carto de crdito.
B: o segundo cliente pagar com carto de crdito.
C: o terceiro cliente pagar com carto de crdito.
A probabilidade de interesse Image. Ou seja, o primeiro pagar com carto e o segundo
pagar com carto e o terceiro pagar com carto.

captulo 1

25

Parece razovel pensarmos que os eventos so independentes, pois a deciso de um


deles pagar com carto no interfere na deciso dos outros. Ento:
P ( A B C ) = P ( A ) P (B ) P ( C )

P ( A B C ) = 0, 85 0, 85 0, 85 = 0, 6141

A probabilidade dos prximos 3 clientes pagarem com carto de crdito de 61,41%.

1.7 Teorema da soma ou a regra do ou


Em algumas situaes, podemos ter interesse em encontrar a probabilidade de que
ocorra ou o evento A ou o evento B ou que ambos ocorram como um nico resultado do experimento aleatrio. Esta probabilidade escrita da seguinte maneira:
P ( A B) = P ( A ) + P (B) P ( A B)

Em palavras: a probabilidade de ocorrer A ou B dada pela probabilidade de A ocorrer,


mais a probabilidade de B ocorrer, menos a probabilidade de ocorrer A e B.

Vamos pensar: por que aparece a subtrao da probabilidade P (A B)?


Quando somamos a probabilidade do evento A ocorrer com a probabilidade
do evento B ocorrer, estamos somando a probabilidade da interseco duas vezes. Ento, compensamos este fato subtraindo uma vez a probabilidade P (A B).
Quando os eventos forem mutuamente exclusivos, ou seja,P (A B) = 0, temos
que P (A B) = . Neste caso:
P (A B) = P (A) + P (B)

EXEMPLO
1.12 Em determinada cidade foi feito um levantamento de opinio sobre a situao econmica do pas hoje. As respostas obtidas, de acordo com faixas etrias, esto no quadro
abaixo.

26

captulo 1

OPINIO
FAIXA ETRIA

TOTAL
SATISFEITOS

INSATISFEITOS

18 | 35

64

35

99

35 | 49

58 (A B)

41

99

49 | 65

57

40

97

65 ou mais

70

26

96

Total

249

142

391

Tabela 1.3 Distribuio das opinies, segundo faixa etria.

Calcule a probabilidade de uma resposta selecionada aleatoriamente ser de uma opinio


satisfeita ou estar na faixa etria de 35 | 49.
Resoluo
Vamos definir os seguintes eventos, de acordo com a pergunta do enunciado:
A: ser uma opinio satisfeita.
B: estar na faixa etria de 35 | 49.
Temos que encontrar a probabilidade da resposta selecionada ser de uma opinio satisfeita ou estar na faixa etria de 35 | 49. A interpretao da pergunta nos informa que
temos que utilizar o teorema da soma ou a regra do ou. Portanto:
P ( A B ) = P ( A ) + P (B ) P ( A B )
P ( A B) =

249 99 58 290
+

=
= 0,7
7417
391 391 391 391

Quando estamos calculando uma probabilidade por meio de dados tabelados, a interseco entre os eventos est dentro da tabela, no cruzamento dos eventos de interesse.

captulo 1

27

1.13 Uma determinada empresa candidatou-se licitao de dois grandes projetos de


construo. Levando em conta a experincia de outras licitaes, o presidente da empresa
acredita que a probabilidade de ganhar o primeiro contrato 0,6, que a probabilidade de
ganhar o segundo contrato 0,5 e que a probabilidade de ganhar ambos 0,3. Qual a probabilidade de que a empresa ganhe pelo menos um dos dois contratos?
Resoluo
Apesar de no estar de forma explcita, precisamos encontrar a probabilidade da unio
de dois eventos. Como conseguimos identificar isto? A pergunta : qual a probabilidade de
que a empresa ganhe pelo menos um dos dois contratos. A unio representa a ocorrncia
de, pelo menos, um dos eventos.
Ento, vamos definir os eventos:
A: a empresa ganhar o primeiro contrato.
B: a empresa ganhar o segundo contrato.
A B: a empresa ganhar o primeiro e o segundo contrato.
Utilizando o teorema da soma ou a regra do ou, temos:
P ( A B ) = P ( A ) + P (B ) P ( A B )
P ( A B ) = 0, 6 + 0, 5 0, 3 = 0, 8
Vamos colocar as probabilidades no diagrama de Venn:

0,3

0,3

0,2

Ento:
P ( A B ) = 0, 3 + 0, 3 + 0, 2 = 0, 8

Quando colocamos informaes no diagrama de Venn, no podemos esquecer de:

28

captulo 1

Colocar, primeiramente, a interseo entre os eventos. Neste caso:


P ( A B ) = 0, 3
Encontrar a probabilidade de somente A ocorrer. Esta probabilidade obtida fazendo:
P ( somente A ) = P ( A ) P ( A B )

P ( somente A ) = 0, 5 0, 3 = 0, 2

Encontrar a probabilidade de somente B ocorrer:


P ( somente B ) = P (B ) P ( A B )

P ( somente A ) = 0, 5 0, 3 = 0, 2

1.8 Teorema do produto ou a regra do e


Utilizamos este teorema quando queremos encontrar a probabilidade de dois
eventos ocorrerem juntos, ou um seguido do outro. Portanto, queremos encontrar a probabilidade da interseco entre os eventos.
Para encontrar probabilidades deste tipo, precisamos levar em conta duas
situaes:
Se os eventos A e B forem independentes, sabemos que:
P (A B) = P (A) P (B)
Agora, se os eventos A e B forem dependentes, precisamos calcular a probabilidade da interseo por meio do teorema do produto:
P (A B) = P (A) P (B|A)
Vamos exercitar este teorema atravs do exemplo a seguir.

captulo 1

29

EXEMPLO
1.14 Numa caixa com 20 lmpadas, 4 so defeituosas. Extraindo-se aleatoriamente duas
lmpadas, qual a probabilidade de:
a)

nenhuma ser defeituosa, sendo que as extraes so feitas com reposio.

b)

nenhuma ser defeituosa, sendo que as extraes so feitas sem reposio.


Resoluo

a)

Nenhuma lmpada ser defeituosa significa as duas serem perfeitas. Vamos indicar os

eventos P1: primeira lmpada ser perfeita e P2 segunda lmpada ser perfeita. Como queremos encontrar a probabilidade da primeira ser perfeita e da segunda ser perfeita, devemos
utilizar o teorema do produto ou a regra do e. E, vamos considerar os dois eventos independentes, pois, as se extraes so feitas com reposio, o segundo evento no afetado pelo
primeiro resultado. Ento:
P (P1 P2 ) = P (P1) P (P2 )
P (P1 P2 ) =
b)

16 16 256

=
= 0, 64
20 20 400

Neste item, os eventos so dependentes, pois as extraes so feitas sem reposio.

Portanto, a probabilidade do segundo evento afetada pelo primeiro resultado:


P (P1 P2 ) = P (P1) P (P2 | P1)
P (P1 P2 ) =

16 15 240

=
= 0, 6316
20 19 380

1.15 As empresas de marketing e de pesquisas telefnicas de opinio utilizam equipamentos de discagem aleatria para fazer ligaes aleatoriamente. Uma determinada pesquisa
de opinio relata que a probabilidade de que uma chamada dessas possa de fato contatar
algum de 0,15. As chamadas so independentes umas das outras.
a)

Um aparelho desses faz 4 chamadas. Qual a probabilidade de que nenhuma delas

contate algum?
b)

Quando se fazem chamadas para a cidade de Belo Horizonte, a probabilidade de conta-

tar uma pessoa de somente 0,10. Qual a probabilidade de que nenhuma das 4 chamadas
consiga contatar algum de Belo Horizonte?

30

captulo 1

Resoluo
a)

Neste item, queremos encontrar a probabilidade de que nenhuma das 4 chamadas

contate algum. Como as chamadas so independentes, temos:


P (NC1 NC2 NC3 NC4 ) = P (NC1) P (NC2 ) P (NC3 ) P (NC4 )

P (NC1 NC2 NC3 NC4 ) = O, 85 O, 85 O, 85 O, 85 = O, 854 = 0, 5220


em que NC1 = no contratar algum na chamada i, i = 12
, , 3, 4.

b)

Temos que encontrar a probabilidade de que nenhuma das 4 chamadas contate algum

em Belo Horizonte. Sendo os eventos independentes:


P (NC1 NC2 NC3 NC4 ) = P (NC1) P (NC2 ) P (NC3 ) P (NC4 )

P (NC1 NC2 NC3 NC4 ) = O, 90 O, 90 O, 90 O, 90 = O, 854 = 0, 656

Como j sabemos quando devemos utilizar o teorema da soma, o teorema do produto e


como calcular uma probabilidade condicional, vamos colocar as informaes em um quadro,
com o objetivo de facilitar as regras de probabilidade.

TIPO DE EVENTO
Unio (ou)
(A B)
Os eventos
No so
so mutuamutuamente
mente
exclusivos
exclusivos
P ( A B) =

P ( A ) + P (B )

P ( A B) =

P ( A ) + P (B ) P

Interseco (e)
(A B)
Independentes

P ( A B) =

P ( A ) P (B )

Dependentes

P ( A B) =

P ( A | B ) P (B ) ==

Condicional (dado que)


(A|B) ou (B|A)
Independentes

P ( A | B) = P ( A )
P ( A | B ) = P (B )

Dependentes

P ( A | B ) ==

P ( A B)
P (B )

ou
P ( A | B ) ==

P ( A B)
P (A)

Tabela 1.4 Regras de probabilidade.

No prximo exemplo, exploraremos todas as possibilidades de clculos de probabilidades, utilizando os conceitos abordados at o momento.

captulo 1

31

1.16 Uma indstria opera em trs turnos diferentes. No ano anterior, ocorreram, na indstria,
180 acidentes. Alguns deles podem ser atribudos em parte a condies de trabalho inseguras,
enquanto outros no esto relacionados a condies de trabalho. A tabela, a seguir, fornece as
quantidades de acidentes que se encaixam em cada categoria de turno de trabalho.

CONDIES
INSEGURAS

NO
RELACIONADAS A
CONDIES

TOTAL

Diurno

17

64

81

Vespertino

14

36

50

Noturno

41

49

Total

39

141

180

Um dos 180 relatrios de acidentes selecionado aleatoriamente de um arquivo de


relatrios. Qual a probabilidade de:
a)

Ser um relatrio do turno vespertino?

b)

Ser um relatrio do turno vespertino ou um relatrio cujo acidente est atribudo a con-

dies de trabalho inseguras?


c)

Ser um relatrio do turno vespertino e um relatrio cujo acidente est atribudo a con-

dies de trabalho inseguras?


d)

Ser um relatrio cujo acidente no est relacionado a condies de trabalho?

e)

Se o relatrio est relacionado a condies inseguras, qual a probabilidade do acidente

ter acontecido no turno noturno?


f)

Ser um relatrio que no est relacionado a condies de trabalho, sabendo que o

relatrio o turno diurno?


Resoluo
a)

Neste item, temos que encontrar a probabilidade de ocorrncia de um nico evento,

ou seja:

32

captulo 1

P ( relatrio do turno vespertino ) =

b)

50
= 0, 2778
180

Agora, temos que utilizar o teorema da soma. Como percebemos isto no enunciado?

Queremos encontrar a probabilidade do relatrio ser do turno vespertino ou estar atribudo a


condies inseguras. Ento:
P ( relatrio do turno vespertino condies inseguras ) =

= P ( relatrio do turno vespertino ) + P ( condies inseguras )

P ( relatrio do turno vespertino condies inseguras )


=

50
39
9 14
75
+

=
= 0, 4167
180 180 180 180

Obs.: a interseco entre relatrio do turno vespertino e condies inseguras est dentro
da tabela, no cruzamento das informaes.
c)

A pergunta deste item muito parecida com a do item b), exceto pela troca do ou pelo

e. Isto indica que precisamos encontrar a probabilidade da interseco entre os dois eventos:
P ( relatrio do turno vespertino condies inseguras ) =
d)

Novamente, temos que encontrar a probabilidade de um nico evento:


P ( no estar relacionado a condies de trabalho ) =

e)

14
= 0, 0778
0
180

141
= 0,7
7833
180

Agora, temos uma probabilidade condicional. Por que? O enunciado diz: Se o relatrio

est relacionado a condies inseguras, ou seja, j sabemos que o relatrio selecionado est
relacionado a condies inseguras. Ento:
P ( relatrio do turno noturno | condies inseguras ) =

8
= 0, 20
051
39

Observao: quando estamos calculando uma probabilidade condicional, sem utilizar a


frmula apresentada na definio, o denominador o total de ocorrncias do evento que
voc sabe que ocorreu. Neste caso, sabemos que o relatrio est relacionado a condies
inseguras, portanto, o denominador o total de relatrios relacionados a este evento. Dos
39 relatrios relacionados a condies inseguras, 8 deles aconteceram no perodo noturno.
Por isto, o valor do numerador 8.

captulo 1

33

f)

Novamente, temos uma probabilidade condicional. Sabemos que o relatrio do turno

diurno. Ento:
P ( no estar relacionado a condies de trabalho | relatrio do turno noturno ) =

64
= 0, 7901
81

Observao: o denominador 81, pois este o nmero de relatrios que so provenientes do turno diurno. Destes, 64 no esto relacionados a condies de trabalho. Por isto,
colocamos 64 no numerador. A informao sabendo que pode estar no incio ou no final da
pergunta. Independente de onde esta informao estiver, o denominador sempre ser o total
do que voc sabe que ocorreu.

1.9 Teorema da Probabilidade Total


Novamente, antes de apresentarmos como se calcula uma probabilidade utilizando o teorema da probabilidade total, vamos analisar o exemplo a seguir.

EXEMPLO
1.17 Trs mquinas A, B e C produzem, respectivamente, 40%, 35% e 25% da produo
de uma empresa. Historicamente, as propores de peas defeituosas produzidas em cada
mquina so: 2%, 1% e 3%, respectivamente. Uma pea selecionada ao acaso de um lote.
Qual a probabilidade dela ser defeituosa?
Resoluo
Neste exemplo, o questionamento natural que surge com a pergunta : a probabilidade
dela ser defeituosa est associada produo de 3 mquinas! Ou seja, ela defeituosa e foi
produzida por A, ou ela defeituosa e foi produzida por B ou ela defeituosa e foi produzida
por C.
Escrevendo esta ideia em forma de probabilidade, temos:
D: a pea defeituosa.
P (D ) = P (D A ) + P (D B ) + P (D C )

34

captulo 1

Do enunciado, temos:
P ( A ) = 0, 40 probabilidade da pea ter sido produzido pela mqquina A
P (B ) = 0, 35 probabilidade da pea ter sido produzido pela mquina B

P ( C ) = 0, 25 probabilidade da pea ter sido produzido pela mquina C

e
P (D | A ) = 0, 02
probabilidade da pea ser defeituosa sabendo quue foi produzida pela A
P (D | B ) = 0, 01
probabilidade da pea ser defeituosa sabendo que foi produzida pela B
3
P (D | C ) = 0, 03
probabilidade da pea ser defeituosa sabendo que foi prooduzida pela C
Escrevemos as probabilidades condicionais desta maneira, pela interpretao do seguinte trecho contido no enunciado: historicamente, as propores de peas defeituosas produzidas em cada mquina so: 2%, 1% e 3%, respectivamente.
No podemos esquecer que queremos encontrar a seguinte probabilidade:
P (D ) = P (D A ) + P (D B ) + P (D C )

As probabilidades que encontramos no aparecem diretamente no clculo de P(D). Mas,


como podemos reescrever P (D A) ?
Utilizando a definio da probabilidade condicional para P (D A) , temos:
P (D | A ) =

P (D A )
P (A)

Do teorema do produto:
P (D A ) = P (D | A ) P ( A )

Pronto! A probabilidade P (D A) encontrada por P (D A) P (A), e estas probabilidades foram fornecidas no enunciado do problema.
Utilizamos o mesmo raciocnio para encontrar P (D B) e P (D C).

captulo 1

35

Portanto:
P (D ) = P (D A ) + P (D B ) + P (D C )

P ( D ) = P (D | A ) P ( A ) + P (D | B ) P ( B ) + P (D | C ) P ( C )
P (D ) = 0, 02 0, 4 + 0, 01 0, 35 + 0, 03 0, 25 = 0, 019

A probabilidade que acabamos de encontrar foi obtida utilizando o teorema da probabilidade total.
Agora, vamos formalizao do teorema.
Sejam C1, C2 ,..., Ck eventos que formam uma partio do espao amostral. Seja A um
evento desse espao. Ento:
k

i =1

i =1

P ( A ) = P ( A C1) = P ( A | C1) P ( C1)

C6

C1
C3

C4

C2

C5

Figura 1.5 Partio do espao amostral (k = 6). Fonte: MAGALHES e LIMA (2004, p. 46).

De acordo com MAGALHES e LIMA (2004, p. 46), os eventos C1, C2 ,..., Ck formam
uma partio do espao amostral, se eles no tm interseco entre si e se sua unio
igual ao espao amostral. Isto :
Ci C j = para i j e

36

captulo 1

Ci =
i =1

1.10 Teorema de Bayes


O Teorema de Bayes tambm conhecido como Teorema da Probabilidade a
Posteriori. Ele relaciona uma das parcelas da probabilidade total com a prpria
probabilidade total. Para facilitar esta visualizao, vamos utilizar os dados do
Exemplo 1.10.

EXEMPLO
1.18 Trs mquinas A, B e C produzem, respectivamente, 40%, 35% e 25% da produo
de uma empresa. Historicamente, as propores de peas defeituosas produzidas em cada
mquina so: 2%, 1% e 3%, respectivamente. Uma pea selecionada ao acaso de um lote e
verifica-se que ela defeituosa. Qual a probabilidade de ter sido produzida pela mquina A?
Resoluo
Primeiramente: qual a informao fundamental que temos neste enunciado e que no
aparece no Exemplo 1.10? A resposta : uma pea selecionada ao acaso de um lote e verifica-se que ela defeituosa. Ou seja, sabemos que a pea selecionada defeituosa. Ento,
estamos interessados em encontrar a seguinte probabilidade:
P (A|D) = ?
Em palavras: qual a probabilidade da pea selecionada ter sido produzida pela mquina
A, sabendo que uma pea defeituosa.
Temos que encontrar uma probabilidade condicional!
Utilizando conceitos j abordados na seo 1.9, sabemos que:
P (D | A ) =

P (D A )
P (A)

A probabilidade que precisamos encontrar no denominador j nos familiar, no ? Esta


probabilidade obtida pelo teorema da probabilidade total:
P ( D ) = P (D | A ) P ( A ) + P (D | B ) P ( B ) + P (D | C ) P ( C )

captulo 1

37

E o numerador ? Ele obtido utilizando o teorema do produto:


P (D | A ) =

P (D A )
P (A)

P (D A ) = P (D | A ) P ( A )

Portanto, encontramos P (A|D) por meio do seguinte clculo:


P ( A | D) =

P (D | A ) P ( A )
P ( A D)
=
P (D )
P ( A | D ) P ( A ) P (D | B ) P (B ) P (D | C ) P ( C )

Comeamos o texto do Teorema de Bayes dizendo que ele relaciona uma das parcelas da
probabilidade total com a prpria probabilidade total. Verificamos que a parcela P (D|A) P (D),
que aparece no numerador, est contida no denominador (que o teorema da probabilidade
total).
Portanto:
P ( A | D) =
=

P (D | A ) P ( A )
P ( A D)
=
P (D )
P ( A | D ) P ( A ) P (D | B ) P (B ) P (D | C ) P ( C )

0, 02 0, 4
0, 008
=
= 0,4
4211
0, 02 0, 4 + 0, 01 0, 35 + 0, 03 0, 25 0, 019

Formalizando o Teorema de Bayes: Sejam C1, C2 ,..., Ck eventos que formam uma partio

k
=j

do espao amostral . Seja um evento A e sejam conhecidas P (Ci) e P (A | Ci) para

) ( )todo,
P ( A | C ) P (C )

P A | Cj P Cj
j

j = 12
, ,..., k . Ento:

P Cj | A =

) ( ) ,
( A | C ) P (C )
P A | Cj P Cj
k
P
i= j

j = 12
, ,..., k

A frmula pode parecer, em um primeiro momento, complexa. O objetivo de apresent-la,


mostrar como podemos efetuar o clculo em qualquer tipo de situao que envolva o clculo de uma probabilidade condicional, cujo espao amostral est particionado. Mas, o mais
importante entender o conceito, por meio dos exemplos que utilizamos.
Podemos calcular probabilidades que necessitem do uso do teorema da probabilidade
total ou do teorema de Bayes, por meio de tabelas. Algumas vezes as informaes j esto
dispostas na tabela e, em outras, temos que constru-la.

38

captulo 1

1.19 Vamos utilizar os dados do Exemplo 1.18 para calcular a probabilidade


P (A|D) , com os dados apresentados em uma tabela.
Resoluo
Neste exemplo, temos que montar a tabela. Podemos direcionar nosso raciocnio da
seguinte maneira: precisamos construir a tabela com linhas e colunas. Ento, colocamos
as informaes de uma varvel em linhas e as informaes da outra varivel em colunas.
Como identificar quais so as variveis? Elas esto no enunciado: neste exemplo, temos
peas que so produzidas por 3 mquinas. Ento, podemos definir mquinas como uma
das variveis, com 3 respostas: A, B e C. As peas produzidas podem ser defeituosas ou
perfeitas. Ento, podemos definir qualidade da pea como outra varivel, com 2 respostas:
perfeita ou defeituosa.
Passo1: Preenchimento dos totais marginais da varivel Mquinas.

QUALIDADE DA
PEA
PERFEITA
DEFEITUOSA
TOTAL

Mquinas
B

Total

0,4

0,35

0,25

Sabemos que as mquinas A, B e C produzem, respectivamente, 40%, 35% e 25% da


produo de uma empresa. Podemos colocar estes valores em decimais.
Passo2: Preenchimento do corpo da tabela.

QUALIDADE DA
PEA
PERFEITA
DEFEITUOSA
TOTAL

Mquinas
A

Total

0, 4 0, 008 = 0, 392 0, 35 0, 0035 = 0, 3465 0, 25 0, 0075 = 0, 2425

0,981

0, 02 0, 4 = 0, 008

0, 01 0, 35 = 0, 0035

0, 03 0, 25 = 0, 0075

0,019

0,4

0,35

0,25

Quais as informaes que esto dentro da tabela? a interseo entre os eventos que
aparecem no cruzamento de cada uma das cdulas. Ou seja:

(P A ) a pea ser perfeita e ser produzida por A


(P B ) a peaa ser perfeita e ser produzida por B
(P C) a pea ser perfeita e ser produzida por C

captulo 1

39

(D A ) a pea ser defeituosa e ser produzida por A


(D B ) a peea ser defeituosa e ser produzida por B
(D C) a pea ser defeituosa e ser produzida por C
J sabemos, pelo Exemplo 1.17, que estas informaes no so obtidas diretamente no
enunciado do problema. Mas, como encontrar esta porcentagem? Por exemplo, em D A, queremos encontrar a porcentagem de peas defeituosas e produzidas por A. A mquina A produz
40% das peas e 2% delas so defeituosas. Ento, basta encontrar 2% de 40%, ou seja:
0, 4 0, 008 = 0, 392

Utilizamos este raciocnio para calcular as probabilidades em cada uma das cdulas, na
linha Defeituosa.
E, finalmente, como encontramos as porcentagens na linha Perfeita? Basta fazer a diferena entre as linhas total e defeituosa, ou seja:
Perfeita = Total Defeituosa
Ento, a tabela totalmente preenchida :

QUALIDADE DA
PEA
PERFEITA (P)
DEFEITUOSA (D)
TOTAL

Mquinas
A

0, 4 0, 008 = 0, 392 0, 35 0, 0035 = 0, 3465 0, 25 0, 0075 = 0, 2425

Total
0,981

0, 02 0, 4 = 0, 008

0, 01 0, 35 = 0, 0035

0, 03 0, 25 = 0, 0075

0,019

0,4

0,35

0,25

Tabela 1.5 Distribuio das peas, segundo qualidade e mquina.

A probabilidade pode ser encontrada diretamente pela tabela (como vimos nos Exemplo
1.7 e 1.16):
P ( A | D) =

0, 008
= 0, 4211
0, 019

0, 0035
0, 0035
a ) P (=
B 0| D
= 0,1842
)=
Vamos explorar um pouco aesta
) P (tabela,
B | D ) =calculando:
,1842
0, 019
0, 019
0, 0075
0, 0035
0, 0075
= 0, 3947
)=
a ) P ( B | D ) = b ) P (=
,1842
= b) P (=C 0| D
C 0| D
, 3947
)
0, 019
0, 019
0, 019
0, 008
0, 0075
0, 008
A) =
= 0, 02
b) P ( C | D ) = c ) P (=
, 3947
D 0| A
= c ) P=(D0,|02
)
0, 4
0, 019
0, 4
c ) P (D | A ) =

40

captulo 1

0, 008
= 0, 02
0, 4

Vale lembrar que P ( A | D ) P (D | A ) . Acreditar incorretamente que P ( A | D ) e P (D | A )


sejam iguais ou usar um valor no lugar do outro , s vezes, chamado confuso do inverso.
Neste item, queremos encontrar a probabilidade da pea ser defeituosa sabendo que foi
produzida pela mquina A. Ento, no denominador, colocamos a quantidade da informao
que sabemos, ou seja, total da mquina A.
0, 0035
= 0, 01
0, 35
0, 0075
= 0, 03
e ) P (D | C ) =
0, 25
0,, 392
= 0, 3996
f) P ( A | P ) =
0, 981
0, 3465
g) P (B | P ) =
= 0, 3532
0, 981
0, 2425
h) P ( C | P ) =
= 0, 2472
0, 981
0, 392
i) P (P | A ) =
= 0, 98
0, 4
0, 3465
j) P (P | B ) =
= 0, 99
0, 35
0, 2425
= 0, 97
k ) P (P | C ) =
0, 25
d) P (D | B ) =

REFLEXO
Durante todo este captulo nos dedicamos a estudar conceitos de probabilidade. Aprendemos a calcular probabilidades de eventos simples e probabilidades condicionais. E, exploramos situaes em que necessrio utilizar o teorema da probabilidade total e o teorema
de Bayes. Por exemplo, em muitas situaes prticas, podemos ter interesse em saber a
probabilidade de um produto, fabricado por uma indstria que utiliza 3 linhas de produo,
apresentar defeito, ou ainda, sabendo que o produto fabricado apresenta defeito, podemos
encontrar a probabilidade dele ter vindo de uma das linhas de produo.

captulo 1

41

LEITURA
No endereo https://www.youtube.com/watch?v=fYqeu1ckHv4 voc encontrar um vdeo
muito interessante, que utiliza o Teorema da Probabilidade Total e Teorema de Bayes em uma
situao prtica.

REFERNCIAS BIBLIOGRFICAS
DEVORE, Jay L. Probabilidade e estatstica para engenharia e cincias. So Paulo: Cengage
Learning, 2014.
MAGALHES, Marcos N.; LIMA, Antonio C. P. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
MOORE, David S. et al. A Prtica da Estatstica Empresarial Como Usar Dados para Tomar
Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Introduo Bioestatstica. 4. ed. Rio de Janeiro: Elsevier, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1253 >. Acesso em: 03 maio 2015.
Disponvel em: < http://www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 maio
2015.
Disponvel em: < https://www.youtube.com/watch?v=fYqeu1ckHv4 >. Acesso em: 03 de maio de
2015.

42

captulo 1

2
Variveis Aleatrias
Discretas

No Captulo 1, estudamos o clculo de probabilidades por meio de espaos


amostrais definidos de acordo com o experimento aleatrio que est sendo
realizado. Vimos que alguns experimentos geram espaos amostrais no numricos como, por exemplo, o lanamento de uma moeda, cujos possveis resultados so cara ou coroa, ou a retirada de uma lmpada de um lote, cujos
resultados podem ser perfeita ou defeituosa. Outros, geram pontos amostrais
que so nmeros e, com isto, podemos aprofundar o estudo e encontrar caractersticas importantes do experimento, como a mdia e o desvio padro.
Ento, neste captulo, aprenderemos como descrever por meio de valores numricos os resultados experimentais. Estudaremos, tambm, duas importantes distribuies discretas de probabilidade: Binomial e Poisson, abordando
as caractersticas de cada uma delas, bem como os clculos para encontrar
probabilidades associadas a cada uma das distribuies.

OBJETIVOS
Com os conceitos estudados neste captulo, esperamos que voc seja capaz de:
Definir uma varivel aleatria discreta;
Encontrar a distribuio de probabilidade de uma varivel aleatria discreta;
Calcular a mdia, a varincia e o desvio padro de uma varivel aleatria discreta;
Identificar o modelo binomial e encontrar probabilidades associadas a tal modelo;
Identificar o modelo Poisson e encontrar probabilidades associadas a tal modelo.

44

captulo 2

2.1 Varivel aleatria


Antes de definirmos o que varivel aleatria, vamos analisar a seguinte situao: algumas pessoas so escolhidas, aleatoriamente, para participar de uma
pesquisa. Uma das perguntas : voc est satisfeito com a poltica econmica
do atual governo? As possveis respostas so sim ou no.
Para esta situao, podemos definir uma varivel que assume dois valores,
1 ou 0, correspondentes s respostas sim ou no, respectivamente. Quando
definimos a varivel, transformamos o espao amostral formado por respostas
sim e no, em um espao formado por respostas 1 e 0. Ento:
Uma varivel aleatria X representa um valor numrico associado a cada um dos resultados de um experimento aleatrio.

Existem dois tipos de variveis aleatrias: as discretas e as contnuas.


As variveis aleatrias discretas assumem valores em um conjunto enumervel e as variveis aleatrias contnuas assumem valores em qualquer intervalo dos nmeros reais.
Estas definies j so familiares, no ? So as mesmas definies que estudamos quando coletados dados e classificamos como quantitativos discretos
ou contnuos. A palavra aleatria aparece para indicar que, a cada possvel valor
da varivel, atribumos uma probabilidade de ocorrncia. E, como na construo da distribuio de frequncias, que associa uma frequncia a cada valor
da varivel, tambm podemos construir uma distribuio de probabilidade. A
estrutura apresentada a seguir.
Estrutura da distribuio de probabilidade da varivel X.
X

P(X)

x1
x2
x3
...
xn
Total

p (x1)
p (x2)
p (x3)
...
p (xn)
1

captulo 2

45

Os valores x1, x2, x3, ... , xn so aqueles que a varivel aleatria pode assumir e
p (x1), p (x2), p (x3), ..., p (xn), suas respectivas probabilidades.
Uma distribuio de probabilidade deve satisfazer s seguintes condies:
4. A soma das probabilidades de ocorrerem todos os valores possveis de
X 1.
5. A probabilidade de ocorrer qualquer valor de X igual ou maior a 0 e
menor ou igual a 1.
Neste captulo, combinaremos os conceitos estudados na estatstica descritiva com
aqueles estudados no clculo de probabilidades. Na estatstica descritiva, construmos
distribuies de frequncias usando valores amostrais observados, que foram realmente coletados atravs da amostra. Agora, construiremos distribuies de probabilidade,
apresentando os possveis resultados juntamente com as frequncias relativas (que
so estimativas das probabilidades). A distribuio de probabilidade descreve o que
provavelmente acontecer, em vez do que realmente aconteceu (como na distribuio
de frequncias).

EXEMPLO
2.1 O gerente de uma loja de telefonia celular far o sorteio de 2 brindes para os clientes
que estiverem dentro da loja em determinado perodo. No horrio do sorteio, h 12 clientes
do sexo masculino (M) e 7 do sexo feminino (F). Seja X: nmero de homens sorteados.
Determine a distribuio de probabilidade de X, sendo que o sorteio feito sem reposio.
Resoluo
Para determinarmos a distribuio de probabilidade da varivel aleatria X precisamos
construir uma tabela com duas colunas: as respostas que X pode assumir e suas respectivas
7 6
42
7
probabilidades. Temos que X = 0, com probabilidade
, pois X = 0 se, e

=
=
19 18 342 57
12 7
84 14

=
=
somente se, ocorrer o resultado FF; X = 1 com probabilidade
para
19 18 342 57
7 12 84 14
o resultado MF ou
para o resultado FM e X = 2 com probabilidade

=
=
18 342 57
12 11 132 22 ,19
se e somente se, ocorrer o resultado MM. Portanto:

=
=
19 18 342 57

46

captulo 2

P ( X = 0 ) = P (FF ) =

7
57

P ( X = 1) = P (MF ou FM) =
P ( X = 2 ) = P (MM) =

14 14 28
+
=
57 57 57

22
57

Neste exemplo, observamos que a varivel aleatria X associa s respostas FF, MF, FM
e MM, os valores 0, 1 e 2.
A Tabela 2.1 apresenta a distribuio de probabilidade da varivel aleatria X.

P(X)

7
57

28
57

22
57

Total

57
=1
57

Tabela 2.1 Distribuio de probabilidade da varivel aleatria X: nmero de homens sorteados.


No

n
p
i

podemos

esquecer

( xi ) = 1 e 0 p ( xi ) 1 .

que,

em

uma

distribuio

de

probabilidade,

H duas caractersticas numricas muito importantes em uma distribuio de probabilidade de uma varivel aleatria discreta: os parmetros das distribuies. O primeiro parmetro que vamos estudar o valor esperado (ou simplesmente mdia) e, depois, o desvio
padro.

captulo 2

47

2.2 Uma companhia analisa diariamente o nmero de vendas, em unidades, de seus novos
funcionrios, no perodo de experincia. Os resultados obtidos por um novo funcionrio esto apresentados na tabela a seguir. Vamos utilizar a frequncia relativa como estimativa da
probabilidade para construir a distribuio de probabilidade.

VENDAS POR DIA X

P(X)

12

20

25

18

14

Total

90

Tabela 2.3 Distribuio de probabilidade da varivel aleatria X: vendas por dia.

Em uma distribuio de probabilidade:


Cada uma das probabilidades est entre 0 e 1, inclusive.
A soma das probabilidades igual a 1.
Alm das informaes sobre as probabilidades de venda por dia, a companhia pode ter
interesse em calcular o nmero mdio de vendas, por dia, ou a variabilidade no nmero de
vendas. Para obter estas informaes, vamos estudar o item a seguir.

48

captulo 2

2.1.1 Mdia, varincia e desvio padro de uma varivel aleatria


Para as distribuies de probabilidade, podemos definir as mesmas medidas
de tendncia central e de disperso estudadas na estatstica descritiva.
A mdia de uma varivel aleatria (v.a.) X, tambm chamada de valor esperado ou esperana matemtica, representada por E (X) e definida como:
n

E( X ) = xi p( xi )
i =1

Analisando a frmula, observamos que para se calcular o valor esperado de


uma v.a. precisamos multiplicar cada valor da v.a. por sua correspondente probabilidade p (xi) e somar os produtos resultantes.
Podemos interpretar o valor esperado de uma v.a. como uma mdia ponderada dos xi, onde os pesos so as probabilidades associadas. No exemplo a
seguir, conseguimos visualizar com facilidade esta interpretao.

EXEMPLO
2.3 Utilizando os dados do Exemplo 2.2, vamos encontrar a mdia aritmtica e o valor esperado (mdia ponderada) da varivel aleatria.
Resoluo
No clculo das medidas de posio, aprendemos que a mdia aritmtica obtida pela
seguinte frmula:

x f
x= i i i
n

Utilizando as informaes da Tabela 2.2, temos:


x=

0 12 + 1 20 + 2 25 + 3 18 + 4 14 + 5 1 185
=
= 2, 0556
9
90

Ento, o nmero mdio de vendas, por dia, para um funcionrio em perodo de experincia 2,06.

captulo 2

49

Agora, para encontrar o valor esperado da varivel aleatria X, vamos utilizar a seguinte frmula:
n

E ( X ) = xi p ( xi )
i =1

= 0 0,1333 + 1 0, 2222 + 2 0, 2778 + 3 0, 2 + 4 0,1556 + 5 0, 0111 = 2, 05


Com os dados da Tabela 2.3, obtemos:
n

E ( X ) = xi p ( xi )
i =1

= 0 0,1333 + 1 0, 2222 + 2 0, 2778 + 3 0, 2 + 4 0,1556 + 5 0, 0111 = 2, 0557


Encontramos os mesmos valores, utilizando frmulas aparentemente diferentes. Qual a
relao entre elas?

i xi fi , temos que
n

fi
nada mais que a frequncia relativa, que utilin f
n
zada para estimar a probabilidade, ou seja, i = pi . Reescrevendo a frmula, obtemos:
n
Na frmula x =

x f
x= i i i =
n

xi pi
i =1

Por isto, dizemos que o valor esperado de uma v.a. uma mdia ponderada dos Image,
onde os pesos so as probabilidades associadas.
Como na mdia aritmtica, o valor esperado de uma varivel aleatria possui algumas
propriedades importantes que merecem ser citadas.
Propriedades da mdia
Sejam a e b constantes e X uma varivel aleatria. Ento:
VII. E(a) = a
VIII. E (bX) = bE (X)
IX. E (X + a) = E (X) + a
X.

E (a + bX) = a + bE (X)
Agora, passaremos a estudar outro parmetro importante de uma distribuio de proba-

bilidade: varincia. Ela fornece informaes sobre a variabilidade dos resultados da varivel
aleatria em relao ao valor esperado.
A varincia de uma v.a. X definida como:
n
n

2
Var ( X ) = E ( X2 ) E ( X ) = x2i p ( xi ) xi p ( xi )
i =1
i=1

50

captulo 2

Analisando a frmula, percebemos que temos que encontrar o valor esperado da varivel
aleatria Image e subtrair do quadrado do valor esperado de X. Como a varincia medida
em unidades elevadas ao quadrado, torna-se difcil de fazermos a interpretao do valor
obtido. Ento, utilizamos o desvio padro, que exprime a disperso na mesma unidade de
medida da varivel aleatria. Ele definido como:
DP ( X ) = Var ( X )

A varincia tambm possui propriedades importantes, que veremos a seguir.


Propriedades da varincia.
Sejam a e b constantes e X uma varivel aleatria. Ento:
I.

Var (a) = 0

II.

Var (bX) = b2Var (X)

III.

Var (X + a) = Var (X)

IV. Var (a + bX) = b2Var (X)

varincia

tambm

ser obtida utilizando a seguinte frmula:


Var ( X ) = ( xi E ( X ) ) P ( XI ) . Atravs dela, conseguimos interpretar mais cla
ramente que a varincia uma mdia ponderada dos desvios de uma varivel aleatria
n
i =1

pode

em relao a sua mdia, elevados ao quadrado. Os pesos so as probabilidades associadas.

2.4 Agora que j sabemos calcular a varincia de uma distribuio de probabilidade, vamos
utilizar os dados do Exemplo 2.2 para encontrar a varincia e o desvio padro da varivel
aleatria.
Resoluo
Para facilitar os clculos, vamos acrescentar duas colunas na distribuio de probabilidade: x p (x) e x2 p (x).

captulo 2

51

VENDAS POR DIA

P (X)

X P (X)

X2 P (X).

0,1333

0,2222

0,2222

0,2222

0,2778

0,5556

1,1112

0,2000

0,6000

1,8

0,1556

0,6224

2,4896

0,0111

0,0555

0,2775

Total

2,0557

5,9005

Tabela 2.4 Clculos auxiliares para encontrar a varincia e desvio padro da v.a. X: vendas por dia.
Substituindo os valores encontrados na frmula, temos:
2

n
n

2
Var ( X ) = x2i p ( xi ) xi p ( xi ) = 5, 900 ( 2, 0557 ) = 5, 9005 4, 2259
i =1
i=1

= 16746
,
unidades2

Como fica difcil a interpretao da varincia, pois a unidade de medida fica ao quadrado,
vamos calcular o desvio padro:
DP ( X ) = Var ( X ) = 16746
,
= 12941
,
unidades

Ento, de acordo com os dados apresentados na Tabela 2.3, o valor esperado para o
nmero de vendas do funcionrio em perodo de experincia , aproximadamente, 2,06 unidades, com um desvio padro de, aproximadamente, 1,29 unidades.

52

captulo 2

2.5 Um banco pretende aumentar a eficincia de seus caixas. Para isso, oferece um prmio de R$ 200,00 para cada cliente atendido, alm de 45 por dia. O banco tem um ganho
operacional de R$ 150,00 para cada cliente atendido alm de 44. As probabilidades de
atendimento so:

N CLIENTES

At 44

45

46

47

48

49

PROBABILIDADE

0,89

0,05

0,04

0,01

0,006

0,004

Vamos encontrar o valor esperado (mdia), varincia e desvio padro do ganho do banco
se este novo sistema for implantado.
Resoluo
Primeiramente, vamos definir a v.a. Fazemos a definio de acordo com a pergunta do
exerccio. Ento:
X: ganho do banco.
Para facilitar os clculos da mdia e da varincia, vamos acrescentar duas colunas na distribuio de probabilidade: x p (x) e x2 p (x). Precisamos dos somatrios destas quantidades
para substituir nas respectivas frmulas.
Neste exemplo, alm destas duas colunas, temos que considerar o quanto o banco paga
para cada cliente atendido, alm de 45 por dia, e o ganho operacional para cada cliente atendido, alm de 44. Vamos analisar estas situaes e coloc-las em colunas, pois os valores
que a v.a. X pode assumir dependem destas anlises.

N CLIENTES

PAGA

GANHA

P(X)

X P (X)

X2 P (X)

At 44
45
46
47
48
49

0,00
0,00
200,00
400,00
600,00
800,00

0,00
150,00
300,00
450,00
600,00
750,00

0,00
150,00
100,00
50,00
0,00
-50,00

0,89
0,05
0,04
0,01
0,006
0,004

0,00
7,50
4,00
0,5
0
- 0,20

0,00
1.125,00
400,00
25,00
0
10,00

11,80

1.560,00

Total

Tabela 2.5 Clculos auxiliares para encontrar a mdia e desvio padro da v.a. X.

captulo 2

53

Vamos entender o porqu de X assumir os valores 0,00, 150,00 e 100,00.


Quando o caixa atende at 44 clientes, o banco no paga o prmio e no tem o ganho
operacional. Portanto, X = 0,00 com probabilidade P(X) = 0,89 (obtida pela distribuio de
probabilidade);
Quando o caixa atende 45 clientes, o banco no paga o prmio, mas tem um ganho operacional de R$ 150,00, pois passou de 44 clientes. Ento, X = 150,00 com probabilidade P(X)
= 0,05 (obtida pela distribuio de probabilidade);
Para 46 clientes atendidos pelo caixa, o banco paga o prmio de 200,00 para o caixa e
tem um ganho operacional de R$ 300,00 (dois clientes, alm de 44). Ento, X = 300,00
200,00 = R$ 100,00, com probabilidade P(X) = 0,04 (obtida pela distribuio de probabilidade).
O mesmo raciocnio utilizado para encontrar os outros valores (50,00, 0,00 e 50,00).
Agora, basta substituirmos os valores encontrados nas respectivas frmulas.
Valor esperado (mdia)
n

E ( X ) = xi p ( xi ) = 1180
,
i =1

O valor esperado do ganho do banco R$ 11,80. Ento, o novo sistema vantajoso para
o banco.
Varincia
n
n

2
Var ( X ) = E ( X2 ) E ( X ) = x2i p ( xi ) xi p ( xi )
i =1
i=1

Var ( X ) = 1560
,
(1180
, ) = 1560
,
139, 24 = 1.420, 76 reais2
2

Desvio padro
DP ( X ) = Var ( X )
DP ( X ) = 1.420, 76 = 37, 69 reais

2.6 O departamento de vendas de uma loja mantm extensos registros das vendas dirias
de certo aparelho eletrnico. A distribuio de probabilidade abaixo informa o nmero de
aparelhos vendidos em uma semana e a respectiva probabilidade.

54

captulo 2

P(X)

0,05

0,05

0,3

0,3

0,2

0,1

Total

Image

Tabela 2.6 Distribuio de probabilidade da v.a. X: nmero de aparelhos vendidos em uma semana.
O lucro por unidade vendida de R$ 25,00. Vamos encontrar o lucro esperado nas
vendas de uma semana.
Resoluo
Primeiramente, vamos encontrar o nmero esperado de aparelhos vendidos em uma
semana. Para isto, podemos acrescentar a coluna x p (x) na distribuio de probabilidade.

P (X)

0,05

X P (X)

captulo 2

55

P (X)

X P (X)

0,05

0,05

0,3

0,6

0,3

0,9

0,2

0,8

0,1

0,5

Total

2,85

Tabela 2.7 Clculo auxiliar para encontrar a mdia da v.a. X: nmero de aparelhos vendidos
em uma semana.
Temos que o valor esperado de aparelhos vendidos em uma semana E (X) =2,85.
O enunciado nos informa que o lucro por unidade vendida de R$ 25,00.
Ento, para 1 unidade vendida, o lucro R$ 25,00. Para 2 unidades vendidas, o lucro
R$ 50,00, e assim por diante. Portanto, para x unidades vendidas, o lucro 25x.
Utilizando a propriedade (ii) da mdia, temos:
E ( 25X ) = 25E ( X ) = 25 2, 85 = 7125
,

em que b = 25.
O lucro esperado nas vendas de uma semana R$ 71,25.

56

captulo 2

Como j sabemos o que significa uma varivel aleatria, o que uma distribuio de
probabilidade e como calculamos os parmetros de uma distribuio, vamos estudar algumas
variveis aleatrias que aparecem com bastante frequncia em situaes prticas e, por isso,
merecem um estudo mais aprofundado. Por exemplo, podemos pensar em melhorar o tempo
de espera em uma fila de banco. Para isto, devemos primeiro escolher um modelo probabilstico para esse tempo de espera, que uma varivel aleatria. Ou, uma loja virtual quer estudar
a necessidade de aumentar o nmero de operadores no atendimento telefnico. Este estudo
feito por meio de modelos probabilsticos.

O modelo probabilstico para uma varivel aleatria X uma forma especfica da distribuio de probabilidades, que reflete o comportamento de X.

H vrios modelos probabilsticos para variveis aleatrias discretas, mas vamos focar os
estudos no modelo Binomial e o modelo Poisson.

2.2 Modelo Binomial


Uma distribuio de probabilidade muito conhecida a distribuio binomial,
que estuda o nmero X de sucessos em N tentativas e as suas respectivas probabilidades. Naturalmente, os valores possveis da varivel aleatria X so os
nmeros inteiros 0, 1, 2, 3, 4, ... , n.
Segundo Vieira (2008, p. 192)
Uma distribuio binomial tem as seguintes caractersticas:
Consiste de n ensaios, ou N tentativas, ou N eventos idnticos.
Cada ensaio s pode resultar em um de dois resultados, identificados como sucesso e fracasso com valores 1 e zero, respectivamente.
A varivel aleatria X o nmero de sucessos em n ensaios.
A probabilidade de sucesso (ocorrer o evento de interesse) p e o valor de p permanece o mesmo em todos os ensaios.
Os ensaios so independentes: o resultado de um ensaio no tem efeito sobre o
resultado de outro.

captulo 2

57

Podemos citar algumas situaes que se enquadram em um experimento


binomial:
Nmero de peas defeituosas em 20 extraes, com reposio, de um lote
contendo 500 peas;
Nmero de pessoas do sexo feminino escolhidas, ao acaso, em 12 selees de um grupo contendo 240 pessoas.
Nas duas situaes, h repetio do experimento (20 extraes e 12, respectivamente). H somente dois resultados possveis (ser defeituosa ou no e ser
do sexo feminino ou no). Na primeira situao, a probabilidade de sucesso a
mesma em cada repetio e permanece a mesma durante todo o experimento,
e as repeties so independentes umas das outras, pois o experimento feito
com reposio. Ou seja, o resultado de uma repetio no altera a probabilidade de sucesso nas repeties subsequentes. Agora, na segunda situao, temos
um experimento sem reposio. Mas, vamos considerar repeties independentes, pois n 0, 05 N , ou seja, 12 0, 05 ( 240 ) .
A funo de probabilidade de uma varivel aleatria X, que segue o modelo
Binomial, definida como:
n
P ( X = k ) = pk q n k
k
onde:
n: nmero de tentativas do experimento aleatrio;
p = P (S): probabilidade de sucesso em uma nica tentativa;
q = P (F): probabilidade de fracasso em uma nica tentativa;
p + q = 1.

n

k

n!

denominado nmero binomial e obtido pela frmula k = k ! n k ! . Este nmero


(
)

indica o nmero de maneiras de obter k sucessos em n tentativas, independentemente
da ordem.

58

captulo 2

Quando a varivel aleatria X tiver distribuio binomial, com parmetros n


e p, indicaremos por X~b (n,p).

EXEMPLO
2.7 Se 6% das peas produzidas por uma mquina so defeituosas, qual a probabilidade
de que em dez peas escolhidas aleatoriamente, com reposio, de um lote contendo 800
peas:
a)

No haja peas defeituosas.

b)

Pelo menos 3 peas sejam defeituosas.

c)

Exatamente 5 peas sejam defeituosas.

d)

Entre 2 e 4 peas sejam defeituosas, inclusive.

e)

No mximo 8 sejam perfeitas.


Obs.: Utilizar 4 casas decimais.
Resoluo
Temos, aqui, um experimento binomial com:
X: nmero de peas defeituosas.
X = 0,1,2,3,...,10.
n = 10 peas
P (S) = p = 0,06
P (F) = q =0,94
Note que a probabilidade de sucesso est relacionada pea ser defeituosa, pois a vari-

vel aleatria est definida como o nmero de peas defeituosas.


10
0
10
a ) P ( X = 0 ) = ( 0, 06 ) ( 0, 94 ) = 0, 53862
0

b) P ( X 3) = P ( X = 3) + P ( X = 4 ) = P ( X = 5) + ... + P ( X = 10 )

Neste caso, podemos simplificar os clculos utilizando o evento complementar, isto ,


P ( X 3) = 1 ( X < 3) = 1 P ( X = 0 ) + P ( X = 1) + P ( X = 2 )
10
0
10 10
0
10 10
0
10
P ( X 3) = 1 ( 0, 06 ) ( 0, 94 ) + ( 0, 06 ) ( 0, 94 ) + ( 0, 06 ) ( 0, 94 )
0
0
0


P ( X 3) = 1 [0, 53862 + 0, 34380 + 0, 09875] = 1 0, 98117 = 0, 01883

captulo 2

59

10
5
5
c ) P ( X = 5) = ( 0, 06 ) ( 0, 94 ) = 0, 00014
5

d) P ( 2 x 4 ) = P ( X = 2 ) + P ( X = 3) + P ( X = 4 )
10
5
5 10
5
5 10
5
5
P ( 2 x 4 ) = ( 0, 06 ) ( 0, 94 ) + ( 0, 06 ) ( 0, 94 ) + ( 0, 06 ) ( 0, 94 )
5
5
5



P ( 2 x 4 ) = 0, 09875 + 0, 01681+ 0, 00188 = 0,11744

e) O intuito deste item mostrar que devemos ficar atentos pergunta! Agora, queremos encontrar a probabilidade de no mximo 8 peas serem perfeitas. Portanto, a definio
da varivel aleatria muda e, consequentemente, as probabilidades de sucesso e fracasso
tambm.
Ento:
X: nmero de peas perfeitas.
X = 0,1,2,3,...,10.
n = 10 peas
P (S) = p = 0,06
P (F) = q =0,94
P ( X 8 ) = P ( X = 0 ) + P ( X = 1) + ... + P ( X = 8 )

Calculando a probabilidade pelo evento complementar, temos:


P ( X 8 ) = 1 P ( X > 8 )
P ( X 8 ) = 1 P ( X = 9 ) + P ( X = 10 )
10
9
1 10
9
1
P ( X 8 ) = 1 ( 0, 94 ) ( 0, 06 ) + ( 0, 94 ) ( 0, 06 )
9
9

P ( X 8 ) = 1 [0, 3438 + 0, 53862]


P ( X 8 ) = 1 0, 88242 = 011758

Os clculos necessrios para o clculo de probabilidades de variveis aleatrias que tm


distribuio binomial so facilmente efetuados com o auxlio de uma calculadora cientfica.

2.8 Muitas empresas usam uma tcnica de controle da qualidade chamada de amostragem
de aceitao para monitorar o carregamento de chegada de peas, matrias-primas e assim
por diante. Na indstria eletrnica, as peas de componentes so comumente embarcadas

60

captulo 2

pelos fornecedores em grandes lotes. A inspeo de uma amostra de N componentes pode ser
vista como N ensaios de um experimento binomial. O resultado de cada componente testado (ensaio) ser aquele de que um componente bom ou defeituoso. Uma determinada empresa aceita
um lote de determinado fornecedor se os componentes defeituosos em um lote no excedem 1%.
Suponha que uma amostra aleatria de cinco itens de um recente embarque tenha sido testada.
a)

Assuma que 1% do embarque seja defeituoso. Calcule a probabilidade de que nenhum

item na amostra seja defeituoso.


b)

Assuma que 1% do embarque seja defeituoso. Calcule a probabilidade de que exata-

mente um item na amostra seja defeituoso.


c)

Qual a probabilidade de se observar um item ou mais com defeito na amostra, se 1%

do embarque defeituoso?
Resoluo
De acordo com o enunciado, temos um experimento binomial com:
X: nmero de itens defeituosos .
X = 0,1,2,3,4,5.
n = 5 itens
P (S) = p = 0,01
P (F) = q =0,99
5
0
5
a ) P ( X = 0 ) ( 0, 01) ( 0, 99 ) = 0, 95099
0
5
1
4
b) P ( X = 1) ( 0, 01) ( 0, 99 ) = 0, 04803
1

c ) P ( X 1) = P ( X = 1) + P ( X = 2 ) + P ( X = 3) + P ( X = 4 ) + P ( X = 5)

Neste caso, podemos simplificar os clculos utilizando o evento complementar, isto ,


P ( X 1) = 1 P ( X < 1) = 1 P ( X = 0 )

P ( X 1) = 1 0, 95099 = 0, 04901

No modelo Binomial, estudamos situaes em que temos interesse em calcular a probabilidade de ocorrer um nmero especfico de sucessos em um determinado nmero de
tentativas. Agora, vamos aprender como calcular a probabilidade de ocorrer um nmero
especfico de resultados dentro de uma determinada unidade de tempo ou espao.

captulo 2

61

2.3 Modelo Poisson


O modelo Poisson muito utilizado em experimentos fsicos e biolgicos.
Por exemplo, podemos definir as seguintes variveis aleatrias:
X1: nmero de bactrias em um litro de gua no purificada.
X2: nmero de partculas radioativas que entraram em um contador durante
um milissegundo, em um experimento de laboratrio.
Ou ainda, nestas situaes:
X3 : nmero de chamadas recebidas por uma central telefnica durante um
perodo de 45 minutos.
X4: nmero de carros que passam por um cruzamento por minuto, durante
certa hora do dia.
Em todas as situaes descritas, a varivel aleatria consiste na contagem
de resultados discretos que ocorrem em um meio contnuo (tempo, superfcie
ou volume). Essas variveis podem assumir os valores 0, 1, 2, ..., e seu comportamento descrito pela distribuio de Poisson, cuja funo distribuio de
probabilidade :
P(X = K) =

e k
k!

Em que o parmetro da distribuio e usualmente referido como a taxa


de ocorrncia ou nmero mdio de ocorrncias. Utilizamos a notao: X ~ P ()
De acordo com ANDERSON et al. (2003, p. 201)
1. A probabilidade de uma ocorrncia a mesma para quaisquer dois intervalos de
igual comprimento.
2. A ocorrncia ou no ocorrncia em qualquer intervalo independente da ocorrncia
ou no ocorrncia em qualquer outro intervalo.

62

captulo 2

EXEMPLO
2.9 O nmero mdio de acidentes mensais em um determinado cruzamento sete. Qual
a probabilidade de que em um determinado ms ocorram nove acidentes no cruzamento?
Resoluo
Vamos definir a varivel aleatria:
X: Nmero de acidentes, por ms, em determinado cruzemento
Queremos encontrar a probabilidade da ocorrncia de nove acidentes, ou seja, P (X=9).
O nmero mdio de acidentes sete, ento, X ~ P(7).
e k
k!
e 7 79
= 0,1014
P ( X = 9) =
9!
P (X = K) =

2.10 Uma indstria de tintas recebe pedidos de seus vendedores atravs de fax, telefone e
internet. O nmero de pedidos que chegam por qualquer meio (no horrio comercial) uma
varivel aleatria discreta com distribuio Poisson com taxa de 5 pedidos por hora:
a)

Calcule a probabilidade de mais de 2 pedidos por hora.

b)

Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50 pedidos?

c)

No haver nenhum pedido, em um dia de trabalho, um evento raro?


Resoluo

a)

A varivel aleatria definida como:


X: nmero de pedidos por hora
em que X ~P (5)
Queremos encontrar a probabilidade da ocorrncia de mais de dois pedidos por hora,

ou seja, P (X > 2). Vamos encontrar esta probabilidade utilizando o evento complementar:

captulo 2

63

P ( X > 2 ) = 1 P ( X 2 )

P ( X > 2 ) = 1 (P ( X = 0 ) + P ( X = 1) + P ( X = 2 ) )
e5 50 e 5 51 e 5 52
+
+
P ( X 2 ) = 1

1!
2!
0!
P ( X 2 ) = 1 ( 0, 00674 + 0, 03369 + 0, 08422 )
P ( X 2 ) = 1 0,12465 = 0, 87535

b)

O intuito deste item mostrar que, em algumas situaes, devemos encontrar o nmero

mdio de ocorrncias de acordo com a pergunta do exerccio. Sabemos que o nmero mdio
de ocorrncias (taxa) 5 para o perodo de uma hora.
Em um perodo de 8 horas, temos:

NMERO DE HORAS

Montando a proporo:
1 5
=
8 x
x = 40
Ento:
P ( X = 50 ) =
c)

e 40 4050
= 0, 01771
50 !

Para responder esta pergunta, precisamos encontrar P (X) = 0:


P ( X = 0) =

e 40 400
= e 40 = 1010
0!

Sim, no haver nenhum pedido um evento raro

64

captulo 2

Como na distribuio binomial, os clculos necessrios para o clculo de probabilidades de variveis aleatrias que tm distribuio Poisson so facilmente efetuados com
o auxlio de uma calculadora cientfica.

2.11 Os passageiros de linhas areas chegam aleatria e independentemente s instalaes de passageiros de um grande aeroporto internacional. A taxa mdia de chegada de
12 passageiros por minuto. Vamos encontrar as seguintes probabilidades:
a)

Nenhuma chegada em um perodo de um minuto.

b)

Quatro passageiros ou menos cheguem em um perodo de um minuto.

c)

Nenhuma chegada em um perodo de 20 segundos.

d)

Pelo menos uma chegada em um perodo de 20 segundos.


Resoluo

a)

A varivel aleatria :
X: nmero chegadas por minuto
em que X ~P (12)
Queremos encontrar a probabilidade da ocorrncia nenhuma chegada em um perodo de

um minuto, seja, P (X) = 0.


e 12 120
0!
P ( X = 0 ) = 0, 0000061
P ( X = 0) =

b)

Quatro passageiros ou menos cheguem em um perodo de um minuto, ou seja:


P ( X 4 ) = P ( X = 0 ) + P ( X = 1) + P ( X = 2 ) + P ( X = 3) + P ( X = 4 )
e 12 120 e 12 121 e 12 122 e 12 123 e 12 124
+
+
+
+
0!
1!
2!
3!
4!
P ( X 4 ) = 0, 0000061+ 0, 000073 + 0, 00044 + 0, 00177 + 0, 00531+ 0, 0076
P ( X 4) =

c)

Nenhuma chegada em um perodo de 20 segundos, ou seja:


P (X = 0)

captulo 2

65

Temos que ficar atentos pergunta! O intervalo de tempo no mais um minuto, e sim,
20 segundos. Ento:

NMERO DE SEGUNDOS

60

12

20

Montando a proporo:
60 12
=
20 x
60x = 240
x =4
Ento, em 20 segundo, a taxa mdia de ocorrncia de 4 passageiros.
e 4 40
0!
P ( X = 0 ) = 0, 01832
P ( X = 0) =

d)

Pelo menos uma chegada em um perodo de 20 segundos.


Utilizando a taxa mdia de ocorrncia de 4 passageiros, em 20 segundos, temos:
P ( X 1) = 1 P ( X < 1)

P ( X 1) = 1 P ( X = 0 )

P ( X 1) = 1 0, 018312 = 0, 98169

2.4 Distribuio de Poisson como


aproximao da Distribuio Binomial
Podemos utilizar a distribuio de Poisson como uma aproximao da distribuio binomial
de probabilidade quando p, que a probabilidade de sucesso, for pequena e o nmero de
tentativas, n, for grande. Nestes casos, = n p.

66

captulo 2

Segundo Anderson et al. (2003, p. 204) como regra prtica, a aproximao


ser boa sempre que p 0,05 e n 20.

EXEMPLO
2.12 Um tcnico visita os clientes que compraram assinatura de um canal de TV para
verificar o decodificador. Sabe-se, por experincia, que a probabilidade de defeito 0,0045.
Qual a probabilidade de que em 1500 visitas ocorra no mximo 1 decodificador com defeito?
Resoluo
Interpretando o enunciado, percebemos que o experimento binomial, pois h 1500
tentativas (visitas). Em cada visita h somente dois resultados possveis (defeito ou no) e
as tentativas so independentes (o resultado obtido em uma visita no interfere no resultado
de outras visitas).
Ento:
n = 1500
p = 0,0045
q = 0,9955
Como n > 20 e p 0,05, vamos calcular a probabilidade pedida usando a aproximao
pela Poisson. Neste caso, = 1500 0,0045 = 6,75.
Ento, definindo a varivel aleatria X: nmero de decodificadores com defeito, temos
que encontrar as seguintes probabilidades:
P ( X 1) = P ( X = 0 ) + P ( X = 1)
P ( X 1) =

e 6,75 6, 750 e 6,75 6, 751


+
= 0, 00117 + 0, 00790 = 0, 00907
0!
1!

Agora, utilizando a distribuio Binomial:


Y: nmero de decodificadores com defeito
P ( Y 1) = P ( Y = 0 ) + P ( Y = 1)
1500
0
1500 1500
1
1499
+
P ( Y 1) =
( 0, 0045) ( 0, 9955 )
( 0, 0045 ) ( 0, 9955 )
1
0

= 0, 00115 + 0, 00782 = 0,0


00897
Analisando as probabilidades obtidas pelas duas distribuies so muito prximas.

captulo 2

67

CONEXO
Recomendamos que voc assista ao vdeo disponvel em https://www.youtube.com/watch?v=kgJMVcjwbfE. Este vdeo aborda a aproximao da distribuio binomial pela distribuio
de Poisson.

O quadro a seguir apresenta um resumo das distribuies discretas de probabilidade estudadas neste captulo.
DISTRIBUIO

BINOMIAL

POISSON

RESUMO

DISTRIBUIO DE PROBABILIDADE

Identificamos um experimento como


binominal se ele satisfizer as seguintes
condies:
1. O experimento aleatrio repetido
n vezes.
2. H somente dois resultados possveis: sucesso ou fracasso.
3. A probabilidade de sucesso permanece constante em cada repetio do
experimento.
4. As repeties so independentes,
ou seja, o resultado obtido em uma
tentativa no afeta o resultado de outra
tentativa.
5. A varivel aleatria X o nmero de
sucessos em n ensaios.
Os parmetros de uma distribuio
binomial so n e p.
A varivel aleatria X o nmero de
ocorrncias de um evento ao longo de
algum intervalo. O intervalo pode ser
tempo, distncia, rea ou volume.
As ocorrncias devem ser independentes umas das outras.
As ocorrncias devem ser uniformemente distribudas sobre o intervalo em
uso.
O parmetro de uma distribuio de
Poisson .

n
P ( X = k ) = pk qnk
k
em que:
k = nmero de sucessos em n tentativas.
p = probabilidade de sucesso.
q = probabilidade de fracasso.
p+q=1

P (X = k) =

em que:
k = nmero de ocorrncias no intervalo
determinado.
= nmero mdio de ocorrncias em
determinado intervalo de tempo, distncia, rea ou volume.

Tabela 2.8 Resumo das distribuies de probabilidade.

68

captulo 2

e k
k!

2.5 Utilizao do Microsoft Excel no clculo


de probabilidades
Podemos utilizar o Excel para calcular probabilidades de variveis aleatrias
que tm distribuio binomial ou Poisson. Para aprendermos o processo, vamos utilizar exemplos j resolvidos por meio da funo distribuio de probabilidade. Utilizaremos a verso Excel 2010.

2.5.1 Utilizando o Excel para obter probabilidades binomiais


Para realizar os clculos, seguimos os seguintes procedimentos:
1 Passo: Clicar na aba Frmulas e, em seguida, Mais Funes. Selecionar
Estatstica e depois DISTR.BINOM.

Figura 2.1 Seleo da Distribuio Binomial.

2 Passo: Aps clicar em DISTR.BINOM aparecer uma janela onde teremos


que colocar os argumentos da funo. Utilizando os dados do Exemplo 2.7, vamos encontrar as probabilidades dos itens a), b) e e).

captulo 2

69

n = 10 peas
P (S) = p = 0,06
P (F) = q =0,94
a) no haja peas defeituosas

Figura 2.2 Preenchimento dos argumentos da funo.

Vamos entender como preencher cada uma das informaes exigidas:


o nmero de tentativas bem sucedidas. No item a)

NM_S

queremos encontrar P (X = 0), ou seja, o sucesso


que nenhuma pea seja defeituosa. Portanto, digitamos 0 neste campo.

o nmero de tentativas independentes, ou seja, o

TENTATIVAS

nmero de realizaes do experimento aleatrio. Neste exemplo, n = 10.

PROBABILIDADE_S

70

captulo 2

a probabilidade de sucesso em cada tentativa, ou


seja, P (S) = p. No exemplo, p = 0,06.

um valor lgico: para a funo de distribuio cumulativa, use VERDADEIRO. Para a funo de probabilidade de massa, use FALSO. Em outras palavras:
quando quisermos encontrar a probabilidade da va-

CUMULATIVO:

rivel aleatria assumir um valor pontual, P (X = k),


utilizamos FALSO; se quisermos encontrar a probabilidade da varivel aleatria assumir no mximo um valor,
P (X k), utilizamos VERDADEIRO. No nosso exemplo, queremos encontrar P (X = 0). Ento, digitamos a
palavra FALSO.

Aps preencher todos estes campos, clicar em OK e aparecer na planilha o


resultado da probabilidade:

Figura 2.3 Valor da probabilidade Image.

P (X = 0) = 0,538615
a) pelo menos 3 peas sejam defeituosas
Seguiremos o mesmo procedimento descrito no item a), mas agora vamos utilizar a palavra VERDADEIRO, pois queremos encontrar Image. O Excel
no calcula diretamente esta probabilidade, pois o argumento Cumulativo
para Image. Ento, teremos que calcular a probabilidade utilizando o evento
complementar:
P (X 3) = 1 P (X > 3)

captulo 2

71

O que significa P (X > 3)? Significa que queremos encontrar a probabilidade de serem escolhidas no mximo 2 peas defeituosas, ou seja, P (X 2).
Portanto, digitaremos o nmero 2 no argumento Nm_s.

Figura 2.5 Valor da probabilidade P (X < 3).

Precisamos lembrar que a probabilidade encontrada para P (X < 3). A probabilidade pedida no item :
P (X 3) = 1 P (X > 3) = 0,981162 = 0,018838
b) no mximo 8 sejam perfeitas.
Agora, a varivel aleatria X: nmero de peas perfeitas. Ento, p = 0,94.
Queremos encontrar P (X 8). O argumento Cumulativo calcula exatamente esta probabilidade. Digitamos 8 em Nm_s, 0,94 em Probabilidade_s e
VERDADEIRO em Cumulativo.

72

captulo 2

Figura 2.6 Preenchimento dos argumentos da funo.

Aps preencher todos estes campos, clicar em OK e aparecer na planilha o


resultado da probabilidade:

Figura 2.7 Valor da probabilidade P (X 8)..

P (X 8) = 0,117588

2.5.2 Utilizando o Excel para obter probabilidades Poisson


1 Passo: Clicar na aba Frmulas e, em seguida, Mais Funes. Selecionar Estatstica e depois DIST.POISSON.

captulo 2

73

Figura 2.8 Seleo da Distribuio Poisson.

2 Passo: Aps clicar em DIST.POISSON aparecer uma janela onde teremos que colocar os argumentos da funo. Utilizando os dados do Exemplo
2.10, vamos encontrar as probabilidades dos itens a) e b).
a) Mais de 2 pedidos por hora.
Neste caso, = 5.

Figura 2.9 Preenchimento dos argumentos da funo.

74

captulo 2

Vamos entender como preencher cada uma das informaes exigidas:


X: o nmero de eventos que queremos encontrar. No item a) queremos
encontrar P (X 2) e, ou seja, pelo menos 2 pedidos por hora. Neste item, utilizamos o evento complementar, para facilitar os clculos. Ento:
P (X > 2) = 1 P (X 2)
O Excel calcula a probabilidade que o nmero de eventos esteja entre 0 e k,
inclusive, ou seja, P (X k), e calcula a probabilidade que o nmero de eventos
seja exatamente k, ou seja, P (X = k). No nosso item: P (X 2)
Ento, digitamos 2 no campo X.
Mdia: o nmero mdio de ocorrncias. Neste item, = 5.
Cumulativo: um valor lgico: para a funo de distribuio cumulativa, use VERDADEIRO. Para a funo de probabilidade de massa, use FALSO.
Em outras palavras: quando quisermos encontrar a probabilidade da varivel
aleatria assumir um valor pontual, P (X = k), utilizamos FALSO; se quisermos
encontrar a probabilidade da varivel aleatria assumir no mximo um valor,
P (X k), utilizamos VERDADEIRO. No nosso exemplo, queremos encontrar
P (X 2). Ento, digitamos a palavra VERDADEIRO.
Aps preencher todos estes campos, clicar em OK e aparecer na planilha o
resultado da probabilidade:

Figura 2.10 Valor da probabilidade P (X 2).

captulo 2

75

No podemos esquecer que queremos encontrar a seguinte probabilidade:


P ( X > 2) = 1 P ( X 2)
P ( X > 2 ) = 1 0,124652 = 0,875348
b) 50 pedidos, em 8 horas.
Neste caso, = 40.
Queremos encontrar a seguinte probabilidade:
P (X = 50)
Preenchendo os argumentos da funo, temos:

Figura 2.11 Preenchimento dos argumentos da funo.

Vamos analisar os valores que colocamos em cada argumento:


X: o nmero de eventos que queremos encontrar. No item b) queremos
encontrar P (X = 50). Ento, digitamos 50 no campo X.
Mdia: o nmero mdio de ocorrncias. Neste item, = 40.

76

captulo 2

Cumulativo: um valor lgico: para a funo de distribuio cumulativa,


use VERDADEIRO. Para a funo de probabilidade de massa, use FALSO. Em
outras palavras: quando quisermos encontrar a probabilidade da varivel aleatria assumir um valor pontual, P (X = k), utilizamos FALSO; se quisermos encontrar a probabilidade da varivel aleatria assumir no mximo um valor, P (X k),
utilizamos VERDADEIRO. No nosso exemplo, queremos encontrar P (X = 50).
Ento, digitamos a palavra FALSO.
Aps preencher todos estes campos, clicar em OK e aparecer na planilha o
resultado da probabilidade:

Figura 2.12 Valor da probabilidade P (X = 50).

Ento,
P (X = 50) = 0,017707

REFLEXO
Estudamos que a transformao de espaos amostrais no numricos em numricos, por
meio da definio de variveis aleatrias, permite um estudo mais amplo do experimento
aleatrio em estudo. Aprendemos a construir distribuies de probabilidades e a calcular os
parmetros de uma distribuio. E, tambm, estudamos dois modelos probabilsticos que se
adaptam a uma srie de problemas prticos: modelo binomial e modelo Poisson. Conhecidos
os parmetros da distribuio binomial, podemos, por exemplo, calcular a probabilidade de
um lote conter no mximo 5 peas defeituosas. Em outra situao, podemos utilizar a distri-

captulo 2

77

buio de Poisson para encontrar a probabilidade da capacidade de uma central telefnica


ser ultrapassada, sabendo que ela recebe em mdia 400 chamadas por hora e que pode
processar no mximo 14 ligaes por minuto.

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1170 voc encontrar um vdeo chamado
Revendo a moratria, que apresenta uma situao em que, para se tomar a melhor deciso,
algumas consideraes sobre valor esperado ou esperana em probabilidade so abordadas

REFERNCIAS BIBLIOGRFICAS
ANDERSON, David R.; SWEENEY, Dennis, J.; WILLIAMS, Thomas A. Estatstica Aplicada
Administrao e Economia. 2. ed. So Paulo: Pioneira Thomson Learning, 2003.
FARIAS, Alfredo A.; SOARES, Jos F.; CSAR, Cibel C. Introduo Estatstica. 2 ed. Rio de Janeiro:
LTC, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
MORETTIN, Luiz G. Estatstica Bsica Volume I Probabilidade. So Paulo: Makron Books,
1999.
VIEIRA, Sonia. Introduo Bioestatstica. 4. ed. Rio de Janeiro: Elsevier, 2008.
Disponvel em:< https://www.youtube.com/watch?v=kgJMVcjwbfE >. Acesso em: 03 maio 2015.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1170 >. Acesso em: 03 maio 2015.

78

captulo 2

3
Correlao e
Regresso Linear
Simples

Estudaremos, neste captulo, uma tcnica estatstica muito aplicada em problemas prticos, denominada correlao. Esta tcnica tem como objetivo
verificar se existe relao entre duas variveis quantitativas: uma, chamada
varivel Y, e a outra, chamada varivel X.
Havendo relao entre as variveis X e Y, podemos descrev-la atravs de
uma equao da reta, que melhor represente esta relao. Esta reta chamada reta de regresso, e sua equao chamada equao de regresso. Para encontrarmos a equao de regresso, utilizaremos a tcnica de regresso linear
simples.
Um exemplo do estudo de correlao e regresso linear simples pode ser
visualizado na seguinte situao: aps a verificao de uma relao entre gastos
com publicidade e vendas de determinado produto (fazendo o estudo de correlao), o gerente de marketing pode prever as vendas do produto de acordo com
o nvel de gastos com a publicidade (utilizando a equao de regresso).

OBJETIVOS
Com as tcnicas estudadas neste captulo, esperamos que voc seja capaz de:
Construir e interpretar o diagrama de disperso;
Calcular e interpretar o coeficiente de correlao linear;
Compreender os conceitos bsicos da regresso linear simples;
Estimar a equao de regresso e utiliz-la para fazer previses.

80

captulo 3

3.1 Diagrama de disperso


Como dito anteriormente, neste captulo focaremos o estudo entre duas variveis quantitativas (X e Y). J sabemos calcular medidas de tendncia central
e disperso para este tipo de varivel. Agora, temos interesse em responder s
seguintes perguntas:
H algum tipo de relao entre as variveis X e Y?
Qual o tipo de relacionamento entre elas?
Qual a intensidade da relao?
Neste tipo de estudo, os dados amostrais vm em pares, ou seja, a anlise
dos dados envolve a resposta de duas variveis para cada elemento da amostra.
A primeira anlise feita para identificar se existe relao entre as duas variveis
utilizar os pares observados para construir um grfico denominado diagrama
de disperso. Neste diagrama, os pares ordenados Image representam pontos
em um plano coordenado. A varivel X representada no eixo das abscissas
(horizontal) e a varivel Y no eixo das ordenadas (vertical).
A figura 3.1 apresenta alguns tipos de correlao.
y

medida que
x cresce, y
tende a decrescer

medida que
x cresce, y
tende a crescer
x
Correlao linear negativa
y

No h correlao

x
Correlao linear positiva
y

x
Correlao no linear

Figura 3.1 Diagramas de disperso com alguns tipos de correlao. Fonte: LARSON
(2004, p. 334).

captulo 3

81

A anlise do diagrama de disperso nos permite identificar a forma, a direo e a fora da relao particular existente entre duas variveis quantitativas.
Na figura 3.1, identificamos nos dois primeiros grficos superiores uma forma
bem definida: os dados dispem-se aproximadamente ao longo de uma linha
reta, portanto, verificamos um padro linear. Tambm, identificamos nestes
dois grficos, uma direo bem clara: No grfico esquerda, medida que x
cresce, y tende a decrescer e, no da direita, medida que x cresce, y tende a crescer. A fora de uma relao determinada por quo prximo os pontos se aproximam mais de uma reta. Analisando os dois grficos inferiores, verificamos
que o da esquerda no mostra qualquer forma, sugerindo que no h relao
entre x e y. O grfico direita mostra uma forma bem distinta, sugerindo uma
relao entre x e y, cuja forma no de uma reta.

3.2 Coeficiente de correlao linear


Somente a utilizao do diagrama de disperso na identificao da relao entre duas variveis quantitativas pode gerar intepretaes subjetivas. Uma informao complementar anlise grfica obtida com o clculo do coeficiente de
correlao linear, r, que til para detectar padres lineares.
Os valores do coeficiente de correlao linear esto sempre entre -1 e +1.
Um valor de +1 indica uma correlao linear positiva perfeita entre x e y. Um valor de -1 indica uma correlao linear negativa perfeita entre x e y. Valores com
coeficiente de correlao linear prximo de zero indicam que x e y no esto linearmente relacionadas, ressaltando que pode haver um outro tipo de relacionamento entre x e y, mas no o linear. Um r positivo indica uma relao linear
positiva entre as variveis, e um r negativo, uma relao negativa. O coeficiente
de correlao linear no resistente, ou seja, a presena de outliers pode afetar
bastante o valor de r.
O coeficiente de correlao linear de Pearson definido pela seguinte
frmula:
r=

82

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( ni = 1 y i )
n ( ni = 1 x 2i ) ( ni = 1 x i ) n ( ni = 1 y 2i ) ( in = 1 y i )

captulo 3

, 1 r 1

O valor de r no afetado pela escolha de x ou y. Trocando todos os valores de x pelos


respectivos valores de y e vice-versa, o valor de r no mudar. O clculo de r feito com
dados amostrais. Se tivssemos todos os pares de valores populacionais x e y, substituiramos r por (letra grega r).

Aps o clculo do coeficiente de correlao linear, surge um questionamento natural: qual deve ser o valor do coeficiente de correlao linear para que a
relao entre as variveis seja interpretada como forte?
De acordo com VIEIRA (2008, p. 117), uma regra prtica para julgar o valor
de r, embora rudimentar, a seguinte:
0 < r < 0,25 ou 0,25 < r < 0: correlao pequena ou nula
0,25 < r < 0,50 ou 0,50 < r < 0,25: correlao fraca
0,50 < r < 0,75 ou 0,75 < r < 0,50: correlao moderada
0,75 < r < 1 ou 1 < r < 0,75: correlao forte ou perfeita (pefeita se r = 1
ou r = 1).
O coeficiente de correlao linear sempre pode ser calculado para qualquer
conjunto de dados amostrais em pares. Mas, para se testar hipteses ou fazer
inferncias sobre r, precisamos verificar alguns requisitos.
Segundo TRIOLA (2008, p . 413)
1. A amostra de dados emparelhados (x, y) uma amostra aleatria de dados quantitativos independentes. ( importante que os dados amostrais no tenham sido coletados
com o uso de mtodo no apropriado, por exemplo, amostra de resposta voluntria.)
2. O exame visual do diagrama de disperso deve confirmar que os pontos se aproximam do padro de uma reta.
3. Quaisquer outliers devem ser removidos caso se saiba que so erros. Os efeitos de
quaisquer outros outliers devem ser considerados pelo clculo de r com e sem o outlier
includo.

Vamos utilizar os dados do exemplo 3.1 para construir o diagrama de disperso e para calcular o coeficiente de correlao linear.

captulo 3

83

EXEMPLO
3.1. Uma construtora quer verificar a eficcia de seus anncios em determinado canal de
televiso. O objetivo verificar se h relao entre a quantidade de anncios e o nmero
de apartamentos vendidos. A tabela abaixo mostra o nmero de anncios que foram ao ar
por ms, durante seis meses, e o correspondente nmero de apartamentos vendidos de trs
torres em lanamento. Vamos supor que, durante o perodo de seis meses, o anncio em
televiso foi o nico meio de divulgao das torres em lanamento.

NMERO DE ANNCIOS (X)

NMERO DE APARTAMENTOS VENDIDOS (Y)

15
25
31
35
40
45

18
27
32
34
38
42

Tabela 3.1 Nmero de anncios que foram ao ar e nmero de apartamentos vendidos.


Vamos construir o diagrama de disperso e calcular o coeficiente de correlao linear.
Resoluo
Primeiro, vamos construir o diagrama de disperso colocando cada par Image no plano e

Nmero de apartamentos vendidos

depois verificamos, visualmente, o comportamento conjunto das variveis.

45
40
35
30
25
20
15
10
5
0

10

20
30
Nmero de anncios

40

50

Figura 3.2 Diagrama de disperso para os dados sobre o nmero de anncios e nmero
de apartamentos vendidos.

84

captulo 3

Pela anlise grfica observamos que medida que o nmero de anncios que foram ao
ar aumenta, ocorre um aumento no nmero de apartamentos vendidos. Vamos medir a intensidade desta correlao atravs do coeficiente de correlao linear.
Para efetuar este clculo, vamos acrescentar trs colunas na tabela original dos dados,
obtendo a seguinte tabela:

NMERO DE
ANNCIOS (X)

NMERO DE
APARTAMENTOS
VENDIDOS (Y)

XY

X2

Y2

15
25
31
35
40
45

18
27
32
34
38
42

270
675
992
1.190
1.520
1.890

225
625
961
1.225
1.600
2.025

324
729
1.024
1.156
1.444
1.764

= 191

= 191

= 6.537

= 6.661

= 6.441

Tabela 3.2 Clculos intermedirios para a obteno do coeficiente de correlao linear.


Os valores da coluna (x y) so obtidos fazendo a multiplicao de cada
par (x, y), ou seja, 15 18, 25 27 , e assim por diante. Os valores x2 so obtidos elevando ao quadrado cada valor da primeira coluna, ou seja, 15 15 = 225;
25 25 = 625, e assim por diante. Finalmente, obtemos y2 fazendo cada valor da segunda
coluna ao quadrado, isto , 18 18 = 324; 27 27 = 729, e assim por diante.
Temos todos os valores necessrios, ento, vamos substitu-los na frmula:

r=
r=

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( in = 1 y i )
n ( ni = 1 x 2i ) ( in = 1 x i ) n ( ni = 1 y 2i ) ( in = 1 y i )

6 ( 6.537 ) (191) (191)


6 ( 6.661) (191) 6 ( 6.441) (191)
2

r=

39.222 36.481
39.966 36.481 38.646 36.481

r=

2.741
2.741
2.741
=
= 0, 9979
=
3.485 2.165 59, 0339 46,5296 2,746,82

Como o coeficiente de correlao 0,9979, conclumos que as variveis nmero de


anncios e nmero de apartamentos vendidos so fortemente correlacionadas.

captulo 3

85

Aps o clculo do coeficiente de correlao linear, comum identificarmos trs fontes de


erros feitos na interpretao dos resultados que envolvem correlao:
5.

Associao no implica causalidade: quando estamos estudando a relao entre duas

variveis, frequentemente esperamos mostrar que as alteraes na varivel X causam alteraes na varivel Y. Mas, uma forte associao entre elas no suficiente para se tirem concluses de causa e efeito. A varivel Y pode ser afetada por alguma varivel oculta (varivel
que afeta as variveis em estudo, mas que no est includa nele).
6.

Dados que se baseiam em mdias: as mdias suprimem a variao individual e podem

aumentar o coeficiente de correlao. Um estudo produziu um coeficiente de correlao


linear 0,4 para dados emparelhados que relacionavam renda e educao entre indivduos,
mas o coeficiente de correlao linear se tornou 0,7 quando foram usadas mdias regionais
(TRIOLA, 2008, p. 417).
7.

Propriedade de linearidade: mesmo que o valor do coeficiente de correlao linear in-

dique que no h nenhuma correlao linear entre duas variveis, o diagrama de disperso
pode retratar um padro que reflete uma forte relao no-linear.

Um exemplo antigo, mas muito interessante, foi dado por um estatstico que mostrou
que havia correlao positiva entre o nmero de recm nascidos e o nmero de cegonhas em uma pequena cidade da Dinamarca, no decorrer dos anos 30. A correlao
entre essas duas variveis espria: no indica relao de causa e efeito. Existe uma
terceira varivel, o crescimento da cidade, que implicava tanto no nmero de recmnascidos (quanto maior a cidade, mais crianas nascem) quanto no nmero de casas
com chamins, perto das quais as cegonhas faziam seus ninhos (VIEIRA, 2008, p. 120).

J sabemos que utilizamos o digrama de disperso e o coeficiente de correlao para identificar a forma, a direo e a fora entre duas variveis quantitativas. O prximo passo determinar se a correlao linear significante, realizando um teste de hiptese. Vamos aprender o passo a passo no prximo item.

86

captulo 3

3.3 Teste de hiptese para correlao


Antes de descrever os passos que devemos seguir, vale lembrar que o teste de hiptese um mtodo da inferncia estatstica, em que utilizamos dados amostrais de uma populao para testar uma afirmativa sobre uma propriedade desta populao.
Os passos que devemos seguir para realizar um teste de hiptese para correlao so:
3. Estabelecer as hipteses nula e alternativa:
H0 : = 0 ( n o h correla o linear significante )

H1 : 0 ( h correla o linear significante )


Em que o coeficiente de correlao populacional.
4. Determinar a estatstica de teste:
t=

r
1 r2
n2

Em que n o nmero de pares ordenados e r o coeficiente de correlao


amostral de Pearson.
5. Especificar o nvel de significncia. Normalmente, utilizamos = 0,01,
= 0,05 ou = 0,10.
6. Determinar o nmero de graus de liberdade: g. l . = n 2.
7. Concluso:
Se t = > valores cr ti cos , encontrado na tabela 2 - Apndice, rejeitamos
H0 e conclumos que h uma correlao linear significante.
Se t = valores cr ti cos , encontrado na tabela 2 - Apndice, deixamos de
rejeitar H0. Ou seja, no h evidncia suficiente para se concluir que haja uma
correlao linear.

captulo 3

87

EXEMPLO
3.2. Utilizando os dados do Exemplo 3.1, vamos testar a hiptese de que h uma correlao
entre o nmero de anncios e o nmero de apartamentos vendidos. Considerar Image.
Resoluo
As hipteses so:

H0 : = 0 ( n o h correla o linear significante )

H1 : 0 ( h correla o linear significante )


A estatstica de teste :

t=

1 r2
n2

0, 9979
1 ( 0, 9979 )
62

0, 9979

1 ( 0, 9979 )
62

0, 9979
0, 9979
0, 9979
=
=
= 30,812
1 0, 99580441
0, 001048898 0, 032386695
4

Como = 0,05 e o nmero de graus de liberdade n 2 = 6 2 = 4, os valores crticos so


t = 2,776. O teste bicaudal devido maneira que as hipteses foram estabelecidas (= e ).
P ( t de Student valor tabelado ) = Valores bilaterais

G.L,.

0,5

0,20

0,10

0,05

0,04

0,02

0,01

1
2
3
4
5

1.000
0.816
0.765
0.741
0.727

3.078
1.886
1.638
1.533
1.476

6.314
2.920
2.353
2.132
2.015

12.706
4.303
3.182
2.776
2.571

15.894
4.849
3.482
2.999
2.757

31.821
6.965
4.541
3.747
3.365

63.656
9.925
5.841
4.604
4.032

0,005

0,001

127.321 636.578
14.089 31.600
7.453
12.924
5.598
8.610
4.773
6.869

De acordo com a estatstica de teste e os valores crticos, temos que 30,812 > 2,776.
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o nmero de
anncios e o nmero de apartamentos vendidos.
Quando a correlao linear significante, podemos encontrar a reta de regresso, que
melhor descreve os dados em estudo. Estudaremos, no prximo item, como obter a reta de
regresso.

88

captulo 3

3.4 Regresso linear simples


De acordo com Moore et al. (2006, p.95)
Uma reta de regresso uma linha reta que descreve como uma varivel de resposta y
muda medida que uma varivel explicativa x tambm varia. Frequentemente utilizamos
uma reta de regresso para predizer o valor de y a partir de um determinado valor de x.

Para obtermos a reta de regresso, precisamos da equao de regresso. Esta


equao estimada utilizando a tcnica de regresso linear simples. Em regresso linear simples, a varivel que est sendo calculada chamada de varivel dependente (y) e a varivel que est sendo usada para calcular a varivel dependente
chamada de varivel independente (x). Voltando ao nosso exemplo do incio do
captulo, o gerente de marketing tem interesse em prever as vendas do produto.
Portanto, as vendas a varivel dependente. O nvel de gastos com a publicidade
usado para calcular as vendas, portanto, a varivel independente.
A regresso linear simples envolve uma varivel independente e uma varivel dependente. A anlise de regresso envolvendo duas ou mais variveis independentes chamada de anlise de regresso mltipla.

Antes de comearmos o estudo para encontrar a equao de regresso, vamos relembrar qual a equao de uma reta.
A equao tpica de uma reta y = mx + b, em que m o coeficiente angular e
b o intercepto. O coeficiente angular informa a inclinao da reta em relao
ao eixo das abscissas (x).
Se m for um nmero:
positivo, a reta crescente;
negativo, a reta decrescente;
zero, a reta paralela ao eixo das abscissas.
O coeficiente linear a ordenada do ponto em que a reta corta o eixo das
ordenadas (y).

captulo 3

89

Em Estatstica, a equao de regresso expressa na forma:


y = b0 + b1 x
Os coeficientes b0 e b1 so estatsticas amostrais usadas para estimarem os
parmetros populacionais 0 e 1. Portanto, utilizaremos dados amostrais em
pares para estimar a equao de regresso.
Utilizaremos as seguintes frmulas para encontrar os coeficientes b0 e b1,
respectivamente:
b1 =

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( in = 1 y i )
n ( ni = 1 x 2i ) ( ni = 1 x i )

e
b0 = y b1 x

Podemos observar que o numerador do clculo do estimador b1 exatamente o numerador do coeficiente de correlao linear e o denominador o valor obtido dentro da
primeira raiz do denominador do coeficiente de correlao linear.

Vamos lembrar que:


x=
y=

ni = 1 x i
n
ni = 1 y i
n

(m

dia da var i vel x )

(m

dia da var i vel y )

Analisando a frmula para calcular b0, observamos que este coeficiente s


pode ser encontrado aps o clculo de b1.
A reta de regresso a que melhor se ajusta aos dados amostrais. O critrio
especfico usado para se determinar qual reta se ajusta melhor a propriedade dos
mnimos quadrados. Uma leitura interessante sobre a propriedade dos mnimos quadrados pode ser encontrada em TRIOLA (2008, p. 435).

90

captulo 3

Uma observao importante: diferentemente do clculo do coeficiente de


correlao linear r, a distino entre a varivel independente e a varivel dependente essencial. Se invertermos os papis das duas variveis, obteremos uma
reta de regresso diferente.

EXEMPLO
3.3. Vamos utilizar os dados do Exemplo 3.1 para encontrar a equao de regresso.
Resoluo
Precisaremos das informaes contidas no tabela 3.1.

NMERO DE
ANNCIOS (X)

NMERO DE
APARTAMENTOS
VENDIDOS (Y)

XY

X2

Y2

15
25
31
35
40
45

18
27
32
34
38
42

270
675
992
1.190
1.520
1.890

225
625
961
1.225
1.600
2.025

324
729
1.024
1.156
1.444
1.764

= 191

= 191

= 6.537

= 6.661

= 6.441

Tabela 3.2 Clculos intermedirios para a obteno dos coeficientes b0 e b1.


Os valores de b0 e b1 so, respectivamente,

b1 =
b1 =
b1 =

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( ni = 1 y i )
n ( ni = 1 x 2i ) ( ni = 1 x i )

6 ( 6.537 ) (191) (191)


6 ( 6.661) (191)

2,741
= 0,7
7865
3.485

e
b0 = y b1 x

b0 = 31,83 0,7865 ( 31,83 )


b0 = 31,83 25, 0343 = 6,7957
pois, x =

ni = 1 x i
n

n = y
191
191
= 31,83 e y = i 1 i =
= 31,83.
6
n
6

captulo 3

91

Portanto, a equao de regresso :

y = 6,7957 + 0,7865x

Como podemos interpretar a equao de regresso?


De acordo com TRIOLA (2008, p. 434)
Ao se trabalhar com duas variveis relacionadas por uma equao de regresso, a mudana marginal em uma varivel a quantidade que ela varia quando a outra varivel
varia de exatamente uma unidade. A inclinao b1 equao de regresso representa a
mudana marginal em y quando x varia de uma unidade.

Ento, para os dados da tabela 3.1, referentes ao nmero de anncios que foram
ao ar e nmero de apartamentos vendidos, a equao de regresso tem uma inclinao 0,7865, que mostra que, se aumentarmos x (nmero de anncios) em 1 unidade, o nmero de apartamentos vendidos aumenta em 0,7865 unidades, aproximadamente. Esta interpretao fica fcil de ser verificada de substituirmos valores
para x. Por exemplo, se x = 3, y = 6,7957 + 0,7865 ( 3 ) = 6,7957 + 2,3595 = 9,1552
e, se x = 4, y = 6,7957 + 0,7865 ( 4 ) = 6,7957 + 3,146 = 9, 9417 . A diferena entre os
valores de y encontrados, y = 9, 9417 0,7865 , exatamente o valor de b , ou
1

Nmero de apartamentos vendidos

seja, para cada acrscimo de 1 unidade em x, y cresce de 0,7865 unidades.


A figura 3.3 apresenta, no diagrama de disperso, a reta de regresso.
45

y = 0,7865x + 6,796
R2 = 0,9958

40
35
30
25
20
15
10
5
0

10

20

30

40

50

Nmero de anncios

Figura 3.3 Reta de regresso: nmero de apartamentos vendidos em funo do nmero de


anncios que foram ao ar.

92

captulo 3

Estudaremos, mais adiante, o que significa a informao R2 = 0,9958.


Podemos utilizar a equao de regresso para prever valores de Y para
quaisquer valores de X dentro do intervalo estudado, mesmo que tais valores no estejam na amostra. Por exemplo, para x = 38 (valor que no est na
tabela 3.1), podemos estimar o valor de Y. Basta substituir este valor na equao
da reta, ou seja:
y = 6,7957 + 0,7865 ( 38 ) = 36,6827
Interpretamos o valor y = 36,6827 como uma previso no nmero de apartamentos vendidos quando 38 anncios forem ao ar durante um ms.
A equao de regresso deve ser utilizada para fazer previses apenas se ela
for um bom modelo para os dados, ou seja, se for verificado por meio de um
teste de hiptese que a relao entre as duas variveis significante. Caso a
relao no seja significante, o melhor valor previsto de y y .
Devemos tomar o cuidado de no fazer extrapolaes, ou seja, utilizar a
equao de regresso para fazer previses para a varivel Y utilizando valores
para X muito distantes dos limites dos dados amostrais disponveis.
De acordo com Anderson et al. (2003, p. 447), usar a equao de regresso estimada
fora do intervalo dos valores da varivel independente deve ser feito com cuidado porque fora deste intervalo ns no podemos assegurar que a mesma relao seja vlida.

Agora que j aprendemos a utilizar as tcnicas de correlao e regresso linear simples, vamos listar alguns conceitos importantes que foram estudadas
e que no podemos esquecer:
1. O diagrama de disperso nos d uma ideia da relao, ou no, entre
duas variveis quantitativas.
2. O coeficiente de correlao linear de Pearson mede a intensidade da
relao linear, ou seja, s tem sentido calcul-lo se o diagrama de disperso
indicar uma relao linear.
3. Correlao no indica causa. Uma forte relao entre duas variveis
no suficiente para que se tirem concluses de causa e efeito.
4. Caso haja relao entre duas variveis quantitativas, podemos descrev
-la atravs da equao de regresso que melhor representa a relao.

captulo 3

93

5. Devemos usar a equao de regresso para previses somente se houver


uma correlao linear, confirmada pelo teste de hiptese. Caso contrrio, a melhor estimativa para a varivel y sua mdia amostral y .

3.5 Coeficiente de determinao


Em geral, h uma variao em torno da reta de regresso, ou seja, nem todos
os pontos que ficam sobre a reta (pode acontecer de nenhum estar exatamente
sobre a reta). Para medir a preciso da reta de regresso ajustada, isto , a proporo da variao de Y que explicada pela reta de regresso (variao de X),
utilizamos o coeficiente de determinao. O coeficiente de determinao, R2,
dado pelo quadrado do coeficiente de correlao. Este coeficiente particularmente importante se vamos usar a equao de regresso para fazer previses.
Nesse caso, queremos um R2 to prximo de 1 quanto possvel.
Para os dados do exemplo 3.1, o coeficiente de determinao :
R2 = (0,9979)2 = 0,9958
Isto significa que 99,58% da variao do nmero de apartamentos vendidos
se explica pela quantidade de anncios que foram ao ar durante o ms. Este
valor aparece na figura 3.3.
Com a definio do coeficiente de determinao, podemos perceber que se
o coeficiente de correlao for r = 7 , teremos um coeficiente de determinao r2 = 0,49, significando que a reta de regresso ajustada no consegue explicar nem a metade da variao de y. Por isso, para 0,7 r 0,7 no se deve, em
geral, ajustar a reta de regresso. Para r 0, 9 , a reta de regresso explica mais
de 80% da variao total de y.
Vamos estudar mais um exemplo para exercitar todos os contedos abordados ao longo do captulo.

94

captulo 3

EXEMPLO
3.4. Certa empresa est estudando a variao da demanda de um de seus produtos em relao variao de preo de venda. Os dados esto a seguir.

PREO (X)
DEMANDA (Y)

40

43

52

55

61

65

70

82

95

370

330

300

270

258

249

240

225

220

108
206

Tabela 3.2 Preos e demandas de um produto.

Analisando os dados, vamos responder os seguintes itens:


a)

Faa o diagrama de disperso e interprete.

b)

Calcule o coeficiente de correlao linear.

c)

Teste a hiptese de que h correlao linear significante, com um nvel de significncia 0,05.

d)

Encontre a equao de regresso por mnimos quadrados.

e)

Faa a previso para a demanda, considerando o preo de venda x = 105.

f)

Calcule o coeficiente de determinao e interprete. Faa novamente o diagrama de

disperso, incluindo a reta de regresso e o coeficiente de determinao.


Resoluo
a)

Para construir o diagrama de disperso, colocamos os pares ordenados (x,y) no plano

cartesiano e verificamos, visualmente, se h algum tipo de relacionamento entre as variveis


preo de demanda.
400
350

Demanda

300
250
200
150
100
50
0

20

40

60
Preo

80

100

120

Figura 3.4 Diagrama de disperso para os dados sobre o preo de venda e demanda de
um produto.

captulo 3

95

Pela anlise grfica observamos uma relao linear decrescente (negativa), ou seja,
medida que o preo de venda aumenta, ocorre uma diminuio da demanda.
b)

Para facilitar o clculo do coeficiente de correlao linear de Pearson, vamos construir

um quadro, acrescentando as seguintes informaes: x y, x2, y2.

PREO (X)

DEMANDA (Y)

XY

X2

Y2

40
43
52
55
61
65
70
82
95
108

370
330
300
270
258
249
240
225
220
206

14.800
14.190
15.600
14.850
15.738
16.185
16.800
18.450
20.900
22.248

1.600
1.849
2.704
3.025
3.721
4.225
4.900
6.724
9.025
11.664

136.900
108.900
90.000
72.900
66.564
62.001
57.600
50.625
48.400
42.436

= 671

= 2.668

= 169.761

= 49.437

= 736.326

Tabela 3.3 Clculos intermedirios para a obteno do coeficiente de correlao linear.

Substituindo os valores na frmula, temos:

r=
r=
r=
r=

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( ni = 1 y i )
n ( ni = 1 x 2i ) ( in = 1 x i ) n ( ni = 1 y 2i ) ( ni = 1 y i )

10 (169.761) ( 671) ( 2.668 )


10 ( 49.437 ) ( 671) 10 ( 736.326 ) ( 2.668 )
2

1.697.610 1.790.228
494.370 450.241 7.363.260 7.118.224
92.618
44.129 245.036

92.618
92.618
=
= 0,8907
210, 0690 495, 0111 103.986, 4868

Como o coeficiente de correlao 0,8907, conclumos que as variveis preo e demanda so fortemente correlacionadas. Pelo diagrama de disperso, j sabamos que o coeficiente de correlao linear seria negativo.

96

captulo 3

c)

Estabelecendo as hipteses:

H0 : = 0 ( n o h correla o linear significante )

H1 : 0 ( h correla o linear significante )


A estatstica de teste :

t=

1
10 2
r2

0,8907
1 ( 0,8907 )
10 2

0,8907
=
1 0,79334649
8

0,8907
0,8907
=
= 5,542
0, 25831689 0,160722397
Como = 0,05 e o nmero de graus de liberdade n 2 = 10 2 = 8, os valores crticos so t = 2,306. Novamente, o teste bicaudal devido maneira que as hipteses foram
estabelecidas (= e ).
P ( t de Student valor tabelado ) = Valores bilaterais

G.L,.

0,5

0,20

0,10

0,05

0,04

0,02

0,01

0,005

0,001

1.000

3.078

6.314

12.706

15.894

31.821

63.656

127.321 636.578

0.816

1.886

2.920

4.303

4.849

6.965

9.925

14.089

31.600

0.765

1.638

2.353

3.182

3.482

4.541

5.841

7.453

12.924

0.741

1.533

2.132

2.776

2.999

3.747

4.604

5.598

8.610

0.727

1.476

2.015

2.571

2.757

3.365

4.032

4.773

6.869

0.718

1.440

1.943

2.447

2.612

3.143

3.707

4.317

5.959

0.711

1.415

1.895

2.365

2.517

2.998

3.499

4.029

5.408

0.706

1.397

1.860

2.306

2.449

2.896

3.355

3.833

5.041

De acordo com a estatstica de teste e os valores crticos, temos que 05,542 > 2,306 .
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o preo de venda
e a demanda do produto.

captulo 3

97

Rejeitar
p=0

Deixar de rejeitar
p=0

Rejeitar
p=0

t = 5,542
p=0
ou
t=0

t = 2,306

t = 2,306

Figura 3.5 Teste de H0 : para o mtodo descrito.


Quando a correlao linear significante, podemos encontrar a reta de regresso, que
melhor descreve os dados em estudo.
d)

Para encontrar a equao de regresso, precisamos encontrar os valores estimados

dos parmetros.
Os valores de b1 e b0 so, respectivamente,

b1 =
b1 =
b1 =

n ( ni = 1 x i y i ) ( ni = 1 x i ) ( ni = 1 y i )
n ( ni = 1 x 2i ) ( ni = 1 x i )

10 (169.761) ( 671) ( 2.668 )


10 ( 49, 437 ) ( 671)

92.618
= 2, 0988
44.129

e
b0 = y b1 x

b0 = 266.8 ( 2, 0988 ) ( 67,1)


b0 = 266,8 140,82948 = 407,6295
pois, x =

98

captulo 3

ni = 1 x i
n

n = y
671
2,668
= 266,8.
= 67,1 e y = i 1 i =
10
n
10

Portanto, a equao de regresso :

y = 407,6295 2, 0988x

O coeficiente b1 = -2,0988 nos informa que se aumentarmos x (preo) em 1 unidade, a


demanda diminui em 2,0988 unidades, aproximadamente.
e)

Para encontrar a demanda para o valor do preo estipulado, basta substituirmos x =

105 na equao de regresso:

y = 407,6295 2, 0988 (105 )


y = 407,6295 220,374 = 187, 2555
f)

O coeficiente de determinao dado pelo quadrado do coeficiente de correlao, ou seja:


R2 = (-0,8907)2 = 0,7933
Isto significa que 79,33% da variao da demanda do produto se explica pela variao

do preo de venda.
A reta de regresso, o coeficiente de determinao e a equao de regresso esto
apresentadas na figura 3.6.
400

y = 2,0988x + 407,63
R2 = 0,7933

350

Demanda

300
250
200
150
100
50
0

20

40

60
Preo

80

100

120

Figura 3.6 Reta de regresso: demanda do produto em funo do preo de venda.

captulo 3

99

3.6 Utilizao do Microsoft Excel na anlise


de regresso e correlao
Podemos utilizar o Excel para construir o diagrama de disperso, obter o coeficiente de correlao linear de Pearson e o coeficiente de determinao e determinar a equao de regresso. Para aprendermos o processo, vamos utilizar os
dados do exemplo a seguir. Utilizaremos a verso Excel 2010.

EXEMPLO
3.5. Uma aplicao importante da anlise de regresso em contabilidade a estimativa de
custo. Coletando dados de volume e custo e usando o mtodo dos mnimos quadrados para
desenvolver uma equao de regresso estimada relacionando volume e custo, um contador
pode estimar o custo associado a uma determinada operao de manufatura. Considere a
amostra de volume de produo e o custo total para a operao de manufatura que segue.

VOLUME DE PRODUO
(UNIDADES)
CUSTO TOTAL (US$)

400

450

550

600

700

750

4.000

5.000

5.400

5.900

6.400

7.000

Fonte: Anderson et al. (2003, p. 460)


a)

Use esses dados para desenvolver uma equao de regresso estimada que possa ser

usada para prever o custo total para um dado volume de produo.


b)

Qual o custo varivel ou adicional por unidade produzida?

c)

Calcule o coeficiente de determinao. Que porcentagem da variao no custo total

pode ser explicada pelo volume de produo?


d)

O planejamento de produo da companhia mostra que 500 unidades devem ser pro-

duzidas no prximo ms. Qual o custo total estimado para essa operao?

100

captulo 3

Resoluo
1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.

Figura 3.7 Valores do volume e custo total para a operao de manufatura.


2 Passo: Neste passo, selecionamos os dados (podemos selecionar com os ttulos das
colunas). Aps a seleo, clicar na aba Inserir e depois selecionar o tipo de grfico a ser elaborado. Vamos escolher a primeira opo para o grfico de Disperso. Clicar sobre a figura.

Figura 3.8 Seleo dos dados e escolha do grfico Disperso.

captulo 3

101

3 Passo: Aps clicar na primeira opo do grfico Disperso, o grfico construdo est
apresentado na figura 3.9.

Figura 3.9 Diagrama de disperso.


4 Passo: Nesta etapa, vamos formatar o grfico: deletar a legenda, o ttulo e as linhas de
grade e vamos colocar nome nos eixos. Para deletar, basta clicarmos sobre a legenda e do ttulo
e usar o boto direito do mouse ou o prprio teclado do computador para excluir. Para as linhas
de grade, basta clicar sobre qualquer uma delas e utilizar o boto direito do mouse para excluir.

Figura 3.10 Diagrama de disperso (sem a legenda e sem o ttulo).

102

captulo 3

5 Passo: Agora, vamos colocar nome nos eixos: clicamos sobre o grfico e aparecer Ferramentas de Grfico com algumas opes de escolha. Clicar em Layout e logo
em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma para colocar ttulo no eixo
horizontal e a outra para colocar o ttulo no eixo vertical. A figura 3.11 ilustra a escolha para o
Ttulo do Eixo Horizontal Principal, com a opo Ttulo Abaixo do Eixo. Aps a insero
do ttulo horizontal, seguimos o mesmo procedimento para o eixo vertical.

Figura 3.11 Procedimentos para inserir ttulos nos eixos.


6 Passo: A figura 3.12 apresenta o diagrama de disperso finalizado.

Figura 3.12 Diagrama de disperso do volume e custo total para a operao de manufatura.

captulo 3

103

Agora, vamos obter o coeficiente de correlao linear de Pearson.


1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do
Excel.

Figura 3.13 Valores do volume e custo total para a operao de manufatura.


2 Passo: Para obtermos o coeficiente de correlao, clicamos na aba Frmulas e, em
seguida, clicamos em Mais Funes. Selecionando a primeira opo, Estatstica, aparecer
uma lista de funes. Escolher a opo CORREL.

Figura 3.14 Escolha da funo CORREL para obteno do coeficiente de correlao.


3 Passo: Aps a escolha da funo CORREL, aparecer uma janela Argumentos da
funo. No campo Matriz 1, selecionamos os dados da varivel volume (sem o ttulo) que

104

captulo 3

esto na planilha e, no campo Matriz 2, selecionamos os dados da varivel custo total (sem
o ttulo) que esto na planilha. Para selecionar os dados, basta clicar no primeiro valor e
arrastar (com o mouse) at o ltimo valor.

Figura 3.15 Preenchimento dos argumentos da funo.


4 Passo: Agora, clicamos em OK e obtemos o coeficiente de correlao.

Figura 3.16 Coeficiente de correlao linear. I17

captulo 3

105

O coeficiente de correlao r2 = 0,979127. J sabamos que seria positivo, pois o


diagrama de disperso indica uma relao linear positiva (crescente) entre as variveis em
estudo. Por definio, o coeficiente de determinao dado pelo quadrado do coeficiente
de correlao. Portanto:
R2 = (0,979127)2 = 0,95869
Isto significa que 95,87% da variao do custo total se explica pela variao do volume.
E, para finalizar, vamos obter a equao de regresso.
1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma planilha do Excel.

Figura 3.17 Valores do volume e custo total para a operao de manufatura.


2 Passo: A maioria das medidas apresentadas neste captulo podem ser obtidas utilizando o Excel. Para isto, o suplemento Anlise de Dados deve estar ativo. Caso ele esteja
ativo, deve aparecer o cone Anlise de Dados aps clicar na janela Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea, devemos seguir
o seguinte procedimento:
Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta de Anlise
e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e clicar em OK.

106

captulo 3

Com o suplemento ativo, podemos fazer vrias anlises estatsticas!


Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em Anlise de
dados. Escolhemos a Ferramenta de Anlise Regresso e clicamos em OK.

Figura 3.18 Escolha da Anlise de dados Regresso. I19


3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo Y
de entrada, selecionar os dados arrastando com o mouse desde B2 at B7. No campo Intervalo
X de entrada, selecionar os dados arrastando com o mouse desde A2 at A7. Devemos ficar
atentos para selecionar corretamente os valores de Y e X! Em Opes de sada, escolher Nova
planilha (as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos para
digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 3.19 Entrada dos dados para anlise de regresso. I20

captulo 3

107

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha. Vamos entender as informaes que esto grifadas:
1.

R mltiplo: o coeficiente de correlao.

2.

R Quadrado: o coeficiente de determinao.

3.

Interseco: o coeficiente b0.

4.

Varivel X1: o coeficiente b1.

5.

Observaes: nmero de pares ordenados (x, y).

Figura 3.20 Resumo dos resultados.


Utilizando os coeficientes obtidos, temos que a equao de regresso :

y = b0 + b1 x
y = 1, 246,67 + 7,6 x
Agora que j sabemos qual a equao de regresso, temos a opo de traar a reta
e mostrar a equao e o coeficiente de determinao no diagrama de disperso. Para isto,
quando estamos construindo o grfico, clicamos sobre qualquer um dos pontos. Aparecer:

108

captulo 3

Figura 3.21 Adicionar linha de tendncia no diagrama de disperso.


Quando clicamos em Adicionar Linha de Tendncia aparecer a janela Formatar Linha de Tendncia. Nela, escolhemos a opo Linear, Exibir Equao no grfico e Exibir
valor de R-quadrado no grfico.

Figura 3.22 Formatao da linha de tendncia.

captulo 3

109

Finalmente, quando clicamos em fechar aparecer, no diagrama de disperso, a reta


ajustada, a equao da reta e o coeficiente de determinao. Podemos deslocar, com o mouse, as informaes da reta e do coeficiente, colocando-os em uma posio mais conveniente
no diagrama. Basta clicar em cima das informaes e arrastar.

8000

y = 7,6x + 1246,7
R2 = 0,9587

7000

Custo total

6000
5000
4000
3000
2000
1000
0

100

200

300

400

500

600

700

800

Volume de produo (em unidades)


Figura 3.23 Reta de regresso: custo total de manufatura em funo do volume de produo.

REFLEXO
Chegamos ao final de mais um captulo. Nele, exploramos as tcnicas de correlao e regresso linear simples. Com larga aplicao, o contedo apresentado nos permite determinar, por exemplo, quais fatores mais interferem no nvel de venda dos produtos de uma
empresa, obter funes matemticas relacionando o preo com a demanda, a produo com
o custo, o nvel de venda com a receita, entre tantas outras aplicaes. Aprendemos que,
quando temos informaes, em pares, de duas variveis quantitativas, podemos estudar mais
profundamente um possvel relacionamento entre essas variveis, em particular, o relacionamento linear. Havendo um relacionamento linear, estimamos os coeficientes da equao de
regresso pelo mtodo de mnimos quadrados. Um dos maiores interesses conseguir fazer
previses da varivel dependente a partir valores atribudos para a varivel independente.

110

captulo 3

Mas, sabemos que para fazermos previses precisamos testar a adequabilidade de modelo!
Alm disto, temos que tomar cuidado em no fazer extrapolaes, pois no podemos garantir
que a mesma relao seja vlida para valores da varivel independente muito distantes daqueles utilizados para encontrar a equao de regresso.
Com o uso cuidadoso destas tcnicas, obtemos informaes estatsticas importantes no
auxlio tomada de decises, em vrias reas do conhecimento.

LEITURA
Um vdeo muito interessante, que aborda o conceito de correlao e correlaes esprias,
encontrado no endereo http://m3.ime.unicamp.br/recursos/1084. Vale a pena assistir!

REFERNCIAS BIBLIOGRFICAS
ANDERSON, David R.; SWEENEY, Dennis, J.; WILLIAMS, Thomas A. Estatstica Aplicada
Administrao e Economia. 2 ed. So Paulo: Pioneira Thomson Learning, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2 ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10 ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008. Disponvel em: <
http://m3.ime.unicamp.br/recursos/1084 >. Acesso em: 03 maio 2015.

captulo 3

111

112

captulo 3

4
Teste de Hiptese
com Duas Amostras

Neste captulo, concentraremos nossos estudos em uma das tcnicas mais importantes da inferncia estatstica: teste de hiptese. Estudaremos, particularmente, situaes em que so necessrias comparaes de dois conjuntos de
dados amostrais. Nas mais diversas reas de atuao profissional e de pesquisa, h uma busca contnua pelo desenvolvimento de novos mtodos ou procedimentos que superem, ou melhorem, os j existentes. Por exemplo, a eficcia
de um novo medicamento testada por meio de dados amostrais, em que uma
amostra utiliza o medicamento padro e outra utiliza o novo medicamento. Por
meio de um teste de hiptese, verificamos a eficcia, ou no, do novo medicamento. Mas, por que a necessidade de dois conjuntos amostrais e da realizao
do teste de hiptese? Se todos os pacientes se comportassem de maneira idntica em relao ao tratamento utilizado, poderamos examinar poucos deles
com o novo medicamento e o medicamento padro e a deciso seria obtida de
maneira rpida e fcil, sem a necessidade de alguma anlise estatstica. Porm,
a reao de um tratamento varia de indivduo para indivduo, e na maioria dos
casos, no h um tratamento timo para todos os pacientes. Ento, para identificar o tratamento mais eficiente, o estudo feito por meio de uma seleo
de duas amostras e, por meio do teste de hiptese, feita a comparao dos
resultados obtidos.
Uma outra situao que envolve o uso de teste de hiptese: uma empresa
est estudando os tempos de entrega de matria prima de dois fornecedores: A
e B. Ela pretende ficar com o fornecedor que apresentar o menor tempo mdio
de entrega. Atravs de uma coleta de dados amostrais dos dois fornecedores, a
empresa faz a comparao dos tempos mdios de entrega por meio de um teste
de hiptese e utiliza o resultado obtido para a tomada de deciso.
Por meio destes dois exemplos, conseguimos perceber a importncia e aplicabilidade dos testes de hiptese.
Comearemos nosso estudo fazendo comparaes entre mdias e, posteriormente, entre propores.

OBJETIVOS
Aps os conceitos apresentados neste captulo, esperamos que voc seja capaz de:
Realizar um teste de hiptese para verificar a diferena entre duas mdias populacionais,
no caso de amostras dependentes;

114

captulo 4

Realizar um teste de hiptese para verificar a diferena entre duas mdias populacionais,
no caso de amostras independentes;
Realizar um teste de hiptese para verificar a diferena entre duas propores populacionais, no caso de amostras independentes.

captulo 4

115

4.1 Viso geral do teste de hiptese para


duas amostras
A realizao de um teste de hiptese para duas amostras tem por objetivo testar
uma afirmao comparando parmetros de duas populaes.
Por exemplo, o departamento de marketing de uma agncia publicitria
est desenvolvendo uma campanha para o produto carto de crdito e h uma
suspeita de diferena entre a renda mdia das famlias portadoras de cartes
de crdito com bandeiras A e B. A nica maneira de saber, com certeza, se h
diferena, fazer um censo com todas as famlias portadoras dos cartes de
crdito com as bandeiras em estudo. Mas, sabemos que isto invivel, por vrios motivos, entre eles, tempo e custo.
Mas, podemos determinar com certo grau de certeza se a diferena existe.
Primeiramente, extramos uma amostra aleatria de cada uma das populaes
e usamos uma estatstica de teste para realizar um teste de hiptese e estabelecer uma concluso.
Para realizarmos o teste de hiptese, precisamos identificar a hiptese nula
e a hiptese alternativa. Para um teste com duas amostras, fazemos a alegao
sobre os parmetros das populaes por meio de uma equao matemtica.
Por exemplo, se a alegao for referente aos parmetros populacionais 1 e 2,
algumas possveis hipteses nula e alternativa so:

H0 : 1 = 2
,

H0 : 1 2

H0 : 1 2
,

H0 : 1 > 2

H0 : 1 2

H0 : 1 < 2

Tambm podemos escrever as hipteses nula e alternativa da seguinte maneira:

H0 : 1 2 = 0
,

H0 : 1 2 0

H0 : 1 2 0
,

H0 : 1 2 > 0

H0 : 1 2 0

H0 : 1 2 < 0

Estudaremos, ao longo deste captulo, como fazer inferncias sobre duas


mdias e duas propores.

116

captulo 4

4.2 Comparao de duas mdias


Quando utilizamos duas amostras, podemos nos deparar com as seguintes
situaes:
Dependentes
2 amostras

Varincias
conhecidas
Independentes

Varincias iguais
Varincias
desconhecidas
Varincias
diferentes

Figura 4.1 Situaes na comparao de duas amostras. Fonte: MAGALHES e LIMA


(2004, p. 295)

A Figura 4.1 nos informa que as 2 amostras podem ser dependentes ou independentes. Qual a diferena entre estas classificaes?
Duas amostras so independentes se os valores amostrais selecionados de
uma populao no esto relacionados com os valores amostrais selecionados
da outra populao. E, duas amostras so dependentes (ou emparelhadas) se os
membros de uma amostra podem ser usados para se determinarem os membros da outra amostra.
Podemos identificar o uso de amostras independentes quando um grupo
de pacientes tratado com determinada droga para reduo de colesterol, enquanto que outro grupo de pacientes tratado com placebo. A independncia
ocorre, pois os pacientes tratados com a droga no esto de forma alguma relacionados com os pacientes tratados com placebo.
No caso de amostras dependentes, por exemplo, o peso de um grupo de pessoas medido antes e aps uma dieta. Cada par de medidas antes/depois se
refere mesma pessoa.

captulo 4

117

4.2.1 Amostras independentes com varincias


desconhecidas e diferentes
Antes da realizao de qualquer teste de hiptese, precisamos verificar se algumas condies referentes aos dados esto satisfeitas.
Segundo TRIOLA (2008, p. 372), os requisitos necessrios para a realizao
deste teste so:
6. 1 e 2 so desconhecidos e no se faz qualquer suposio sobre igualdade de 1 e 2.
7. As duas amostras so independentes.
8. Ambas as amostras so amostras aleatrias simples.
9. Uma, ou ambas, das seguintes condies satisfeita: Os dois tamanhos
amostrais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras
provm de populaes com distribuies normais (Para amostras pequenas, a
exigncia de normalidade relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja outliers e o afastamento da normalidade no
seja extremo).
Seguimos os seguintes passos para a realizao do teste de hiptese:
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia (a).
3. Determinaremos a estatstica de teste:
t=

x1 x2 ( 1 2 )
s12 s22
+
n1 n2

4. Determinaremos o nmero de graus de liberdade: menor de n1 1 e


n2 1.
5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0 Caso contrrio, no rejeitamos H0.

118

captulo 4

Neste livro, utilizaremos uma estimativa simples e conservadora para o nmero de graus
de liberdade: o menor de n1 1 e n2 1. Os pacotes estatsticos, em geral, utilizam uma
estimativa mais precisa, porm mais difcil de ser calculada, dada por:
2

s12 s22
+
n n
g. l. = 12 2 2
s12
s22


n1 + n2
n1 1 n2 1

Apesar dos dois mtodos resultarem, geralmente, em nmeros diferentes


de graus de liberdade, a concluso do teste raramente afetada pela escolha.

EXEMPLO
Uma empresa de computadores desenvolveu um novo curso que, comparado com o usual, apresenta novas tcnicas para reparar computadores pessoais. Vinte estagirios foram
selecionados aleatoriamente em dois grupos: 31 deles fizeram o curso usual e os outros
31 frequentaram o novo curso. Aps 8 semanas, todos os estagirios foram submetidos ao
mesmo exame final. De acordo com os resultados apresentados a seguir, h evidncias de
que os dois cursos apresentam resultados diferentes em termos de habilidade nos reparos?
As pontuaes mais altas indicam maior habilidade nos reparos. Use a = 0,05.

USUAL

NOVO

USUAL

NOVO

3
5
7
9
8
9
7
4
9
9
8
7
5
4
8
8
9

8
5
9
9
5
6
4
5
2
5
8
4
8
4
9
5
7

7
6
5
5
4
8
9
7
6
6
4
4
8
7

9
6
7
7
8
5
6
4
8
7
5
6
5
4

Quadro 4.1 Pontuaes obtidas pelos estagirios, nos dois tipos de cursos.

captulo 4

119

Resoluo
Neste estudo, temos duas amostras independentes, que foram selecionadas aleatoriamente. No conhecemos os desvios padres das duas populaes e no h suposies
sobre a igualdade destes desvios. Os tamanhos amostrais so grandes (com n1 > 30 e
n2 > 30). Portanto, os requisitos necessrios para a realizao do teste de hiptese para
amostras independentes com varincias desconhecidas e diferentes esto satisfeitos. Como
precisaremos das mdias e desvios de cada uma das amostras, vamos organizar os dados
em um quadro, acrescentando xi fi e xi2 fi , para facilitar os clculos.

xi fi e xi2 fi

PONTUAO

FREQUNCIA

20

80

20

100

18

108

42

294

48

384

54

486

TOTAL

31

205

1.461

xi fi

Quadro 4.2 Clculos auxiliares para o clculo da mdia e do desvio padro curso usual.

A mdia amostral :

i =1 xi fi
k

x=

205
= 6, 61
31

e a varincia amostral :

i=1xi2 fi
k

s2 =

( i=1xi fi )2

n 1

1461

(205)2

31
31 1

= 3,52 pontos2
Portanto, o desvio padro amostral :

=
s

=
3, 52 187
, pontos

Faremos o mesmo procedimento para o novo curso.

120

captulo 4

1461 1355, 65 105, 35


=
30
30

PONTUAO

FREQUNCIA

2
4
5
6
7
8
9

1
5
8
4
4
5
4

TOTAL

31

XI FI

X2I FI

190

1.268

2
20
40
24
28
40
36

4
80
200
144
196
320
324

Quadro 4.3 Clculos auxiliares para o clculo da mdia e do desvio padro novo curso.
A mdia amostral :

xi fi = 190 = 6,13
x = i=1
k

31

e a varincia amostral :

i=1 xi2 fi
k

s2 =

( i=1xi fi )2
k

n 1

1268

(190 )2

31
31 1

1268 1164, 52 103, 48


=
30
30

Portanto, o desvio padro amostral :


=
s

=
3, 45 186
,
pontos

CURSO USUAL

NOVO CURSO

x1 = 6,61
s12 = 3,52
n1 = 31

x2 = 6,13
s22 = 3,45
n2 = 31

Quadro 4.4 Estatsticas amostrais para o curso usual e o novo curso.


Agora, seguiremos os passos necessrios para a realizao do teste:
6.

Hipteses:

H0 : 1 = 2

H0 : 1 2
7.

O nvel de significncia a = 0,05.

8.

A estatstica de teste :

t=

x1 x2 ( 1 2 )
s12 s22
+
n1 n2

6, 61 6,13 0
0, 48
0, 48
=
=
= 101
,
3, 52 3, 45
0, 2248 0, 4742
+
31
31

captulo 4

121

9.

O nmero de graus de liberdade o menor entre n1 1 e n2 1. Como os dois tama-

nhos amostrais so iguais, g.l. 31 1 = 30.


10. Os valores crticos so:

Tabela Valores crticos da distribuio t de Student


P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
G. L.
1
2
3

26
27
28
29
30

0.50

0.20

0.10

0.05

0.04

0.02

0.01

1.000

3.078

6.314

12.706

15.894

31.821

63.656

127.321 636.578

0.005

0.001

0.816

1.886

2.920

4.303

4.849

6.965

9.925

14.089

31.600

0.765

1.638

2.353

3.182

3.482

4.541

5.841

7.453

12.924

0.684

1.315

1.706

2.056

2.162

2.479

2.779

3.067

3.707

0.684

1.314

1.703

2.052

2.158

2.473

2.771

3.057

3.689

0.683

1.313

1.701

2.048

2.154

2.467

2.763

3.047

3.674

0.683

1.311

1.699

2.045

2.150

2.462

2.756

3.038

3.660

0.683

1.310

1.697

2.042

2.147

2.457

2.750

3.030

3.646

11. Concluso:

Rejeitar
1 = 2

Deixar de rejeitar
1 = 2

Rejeitar
1 = 2

t = 1,01
t = 2,042

t=0

t = 2,042

Como o teste bilateral, rejeitamos H0 se t < tc ou t > tc. Como t = 1,01, a estatstica
de teste no est na rea de rejeio. Portanto, deixamos de rejeitar H0, ou seja, os dados
amostrais no fornecem evidncias suficientes para apoiar a afirmativa de que os cursos
apresentam resultados diferentes em termos de habilidade nos reparos de computadores
pessoais.

122

captulo 4

Uma outra maneira de concluir um teste de hiptese por meio do valor P (ou valor p ou
valor de probabilidade). Supondo que a hiptese nula seja verdadeira, um valor p a
probabilidade de se obter uma estatstica amostral com valor to ou mais extremo do que
aquele determinado a partir dos dados amostrais. Rejeitamos a hiptese nula se o valor p
for menor ou igual ao nvel de significncia, ou seja, p < a.
Neste exemplo, consideramos varincias desconhecidas e diferentes, que o mais comum de acontecer. Caso as varincias possam ser consideradas iguais, o procedimento para
a realizao do teste muda. Abordaremos esta situao no prximo item.

4.2.2 Amostras independentes com varincias


desconhecidas e iguais
Quando as varincias populacionais no forem conhecidas, mas for razovel
supor que tenham o mesmo valor, ambas so utilizadas para se estimar 2. A
melhor maneira para combinar essas duas estimativas formar uma mdia
ponderada. O estimador resultante de 2 :

s2p =

( n1 1)s12 + ( n2 1)s22
n1 + n2 2

Este valor chamado estimador combinado de 2, pois combina as informaes de ambas as amostras.
De acordo com TRIOLA (2008, p. 378), os requisitos necessrios para a realizao deste teste so:
1. Os dois desvios padres populacionais no so conhecidos, mas supese que sejam iguais, isto , 1 = 2.
2. As duas amostras so independentes.
3. Ambas as amostras so amostras aleatrias simples.
4. Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos
amostrais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras
provm de populaes com distribuies normais (Para pequenas amostras,
a exigncia de normalidade relaxada, no sentido de que os procedimentos
funcionam bem, desde que no haja outliers e os desvios da normalidade no
sejam acentuados).
captulo 4

123

Os passos para a realizao do teste de hiptese so:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia (a).
3. Determinaremos a estatstica de teste:
t=

x1 x2 ( 1 2 )
sp

1
1
+
n1 n2

4. Determinaremos o nmero de graus de liberdade: n1 + n2 2.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
Para usar este teste, precisamos verificar que as varincias das duas amostras so iguais. Um maneira, usar um teste preliminar de 1 = 2. De acordo
com TRIOLA (2003), alguns autores ressaltam que dificilmente sabemos que
1 = 2. Eles analisam o desempenho de diferentes testes, considerando tamanhos amostrais e poderes dos testes e concluem que o esforo deve ser empregado em aprender o mtodo descrito no item 4.2.1 (varincias desconhecidas
e diferentes).
A menos que algum problema e/ou exerccio j fornea alguma informao
sobre varincias desconhecidas e iguais, vamos trat-las como diferentes e usar
o mtodo descrito no item 4.2.1.

EXEMPLO
Um banco tem interesse em comparar duas propostas para aumentar a quantidade gasta por
seus clientes com cartes de crdito (O banco recebe uma porcentagem dos gastos que os
clientes fazem, paga pelas lojas que aceitam o carto). A proposta A sugere eliminar a taxa
anual para os clientes que gastam R$ 2 400,00 ou mais durante o ano. A proposta B sugere
oferecer, ao final do ano, um reembolso em dinheiro calculado como um pequeno percentual
dos gastos totais do cliente. O banco oferece cada proposta a uma amostra aleatria simples
de 150 de seus atuais clientes de carto de crdito. Ao final do ano, registram-se gastos que

124

captulo 4

esses clientes tiveram com o carto. No h outliers nas amostras, pois o banco impe limites
sobre as contas dos cartes. Os desvios padres das duas populaes so desconhecidos,
mas, com base em estudos anteriores, vamos considera-los iguais. As estatsticas amostrais
so:

PROPOSTAS

A
B

150
150

R$ 1.850,00
R$ 2.070,00

R$ 390,00
R$ 415,00

Os dados amostrais mostram uma diferena significante entre os gastos dos clientes dos
dois tipos de propostas? Considere a = 0,05.
Resoluo
Temos duas amostras independentes, que foram selecionadas aleatoriamente. Os tamanhos amostrais so grandes (com n1 > 30 e n2 > 30). No h outliers, devido aos limites
impostos pelo banco. Portanto, os requisitos necessrios para a realizao do teste de hiptese para amostras independentes com varincias desconhecidas e iguais esto satisfeitos.
Vamos realizao do teste:
1.

Hipteses:

H0 : A = B

H0 : A B
2.

O nvel de significncia a = 0,05.

3.

A estatstica de teste :
t=

x1 x2 ( 1 2 )
sp

1 1
+
n1 n2

em que:

sp2 =

(n1 1) s12 + (n2 1) s22 = (150 1)( 390 )2 + (150 1)(415)2 =


n1 + n2 2

150 + 150 2

22.662.900 + 25.661.525 48.324.425


=
=
= 162.162, 5
298
298

captulo 4

125

=
sp

=
162.162, 5 402, 69

x x ( 1 2 )
220
1850 2070
220
=
t= 1 2
=
=
69 0,1155 46, 5107
402,6
1
1
1
1
Ento: sp
402, 69
+
+
n1 n2
150 150

4.

O nmero de graus de liberdade n1 + n2 2 = 298.

5.

Os valores crticos so:

Tabela Valores crticos da distribuio t de Student


P(|T DE STUDENT| VALOR TABELADO) = A VALORES BILATERAIS
G. L.

0.50

0.20

0.10

1.000

3.078

6.314

12.706 15.894 31.821 63.656 127.321 636.578

0.816

1.886

2.920

4.303

4.849

6.965

9.925

14.089

31.600

0.765

1.638

2.353

3.182

3.482

4.541

5.841

7.453

12.924

0.741

1.533

2.132

2.776

2.999

3.747

4.604

5.598

8.610

0.727

1.476

2.015

2.571

2.757

3.365

4.032

4.773

6.869

0.718

1.440

1.943

2.447

2.612

3.143

3.707

4.317

5.959

0.711

1.415

1.895

2.365

2.517

2.998

3.499

4.029

5.408

0.706

1.397

1.860

2.306

2.449

2.896

3.355

3.833

5.041

110

0.677

1.289

1.659

1.982

2.078

2.361

2.621

2.865

3.381

120

0.677

1.289

1.658

1.980

2.076

2.358

2.617

2.860

3.373

0.674

1.282

1.645

1.960

2.054

2.326

2.576

2.807

3.290

0,25

0,10

0,05

0,025

0,02

0,01

0,005

0,0025

0,0005

126

captulo 4

0.05

0.04

0.02

0.01

0.005

0.001

6.

Concluso

Rejeitar
1 = 2

Deixar de rejeitar
1 = 2

Rejeitar
1 = 2

t = 4,73
t = 1,96

t=0

t = 1,96

Como o teste bilateral, rejeitamos H0 se t < t0 ou t > t0. Como 4,73 < 1,96, a estatstica de teste est na rea de rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais
fornecem evidncias suficientes para apoiar a afirmativa de que os gastos dos clientes so
diferentes para duas propostas apresentados pelo banco.

4.2.3 Amostras independentes com varincias conhecidas


Como dito anteriormente, as varincias populacionais 1 e 1raramente so
conhecidas, mas, se forem, a estatstica de teste baseia-se na distribuio normal. Como nos casos anteriores, para a realizao do teste, temos que verificar
alguns requisitos.
De acordo com TRIOLA (2008, p. 378)
1. Os dois desvios padres populacionais so ambos conhecidos.
2. As duas amostras so independentes.
3. Ambas as amostras so amostras aleatrias simples.

4. Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos amostrais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas
as amostras provm de populaes com distribuies normais (Para pequenas amostras, a exigncia de normalidade relaxada, no sentido de

captulo 4

127

que os procedimentos funcionam bem, desde que no haja outliers e os


desvios da normalidade no sejam acentuados).
Novamente, utilizaremos os seguintes passos para a realizao do teste:
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia (a).
3. Determinaremos a estatstica de teste:
z=

x1 x2 ( 1 2 )
12 22
+
n1 n2

4. Determinaremos os valores crticos na Tabela 1 Apndice.


5. Concluso:
Se z estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
As situaes descritas para amostras independentes podem ser visualizadas na Figura 4.2.
Incio

1 e 2
so conhecidos?

Sim

Use a distribuio
normal com erro padro Este caso quase
nunca ocorre na
12
prtica.
22
n1 + n2

No
Pode-se supor
que 1 = 2 ?

Sim

Use adistribuio t com


erro padro
COMBINADO

Alguns estatsticos
socontra esta
abordagem.

No
Mtodo aproximado:
Use a distribuio t com
erro padro
s1
s2
n1 + n
2
2

Use este mtodo a menos que seja


intrudo de outra maneira.

Figura 4.2 Mtodos para inferncia sobre duas mdias independentes. Fonte: TRIOLA (2003).

128

captulo 4

Agora, estudaremos o caso em que as amostras so dependentes.

4.2.4 Amostras dependentes


Neste caso, desejamos comparar duas mdias populacionais sendo que,
para cada unidade amostral, realizamos duas medies da caracterstica de
interesse. No geral, estas medies so tomadas antes e aps uma dada interveno. Voltando ao exemplo j citado sobre o peso de um grupo de pessoas. A
medio feita antes e aps uma dieta e cada par de medidas antes/depois se
refere mesma pessoa.
No caso de amostras dependentes, tambm precisamos verificar alguns requisitos para a realizao do teste.
Segundo TRIOLA (2008, p. 384):
1. Os dados amostrais consistem em dados emparelhados.
2. As amostras so amostras aleatrias simples.

3. Uma, ou ambas, das seguintes condies so satisfeitas: O nmero de pares de dados grande (n > 30) ou os pares tm diferenas
que so provenientes de uma populao com distribuio aproximadamente normal. (Se houver um afastamento radical de uma distribuio
normal, no devemos usar os mtodos deste item, mas devemos usar
mtodos no paramtricos).
Passos para a realizao do teste:
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia (a).
3. Determinaremos a estatstica de teste:

t=

d d
sd
n

4. Determinaremos o nmero de graus de liberdade: n 1.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.

captulo 4

129

Vamos compreender a notao utilizada na estatstica de teste:


d: diferena individual entre os dois valores em um nico par.
d:valor mdio das diferenas d para a populao de todos os pares.
d: valor mdio das diferenas d para dados amostrais emparelhados.
sd:desvio padro das diferenas d para os dados amostrais emparelhados.
n: nmero de pares de dados.

EXEMPLO
Uma agncia de pesquisa de mercado usou uma amostra aleatria simples de pessoas para
avaliar o potencial de compra de um determinado produto antes e depois que os indivduos
vissem um comercial de televiso sobre ele. A amostra foi selecionada de uma populao
com distribuio normal. As avaliaes do potencial de compra foram baseadas em uma
escala de 0 a 10, com os valores mais altos indicando um potencial de compra mais alto. A
hiptese nula estabeleceu que a avaliao depois seria menor ou igual avaliao mdia
antes. A rejeio dessa hiptese mostraria que o comercial melhoraria a avaliao mdia
do potencial de compra. Use a = 0,05 e os dados a seguir para testar a hiptese e comente
a eficcia do comercial.
Fonte: Anderson et al. (2003, p. 381).

INDIVDUO
1
2
3
4
5
6
7
8

AVALIAO DE COMPRA
DEPOIS
6
6
7
4
3
9
7
6

ANTES
5
4
7
3
5
8
5
6

Quadro 4.5 Avaliaes de compras de 8 indivduos, antes e depois de um comercial.


Resoluo
Temos um estudo com amostras dependentes (ou emparelhadas), pois um mesmo indivduo faz a avaliao de compra antes e depois do comercial.
Avaliando os requisitos necessrios para a realizao do teste, temos: os dados amostrais
so emparelhados, a amostra aleatria simples e proveniente de uma distribuio normal.
Ento, podemos realizar o teste de acordo a avaliao das informaes do enunciado.

130

captulo 4

Realizando os passos do teste, temos:


1.

Hipteses:

H0 : d 0
(a avaliao depois menor ou igual avaliao antes)

H0 : d > 0
2.

O nvel de significncia a = 0,05.

3.

A estatstica de teste :

t=

d d
sd
n

Para encontrar o valor da estatstica, precisamos encontrar o valor mdio das diferenas
e o desvio padro das diferenas. Vamos acrescentar algumas colunas no Quadro 4.5, para
facilitar os clculos.

AVALIAO DE COMPRA
INDIVDUO

DEPOIS

ANTES

DIFERENA (D)
DEPOIS - ANTES

d2

1
2
3
4
5
6
7
8

6
6
7
4
3
9
7
6

5
4
7
3
5
8
5
6

65=1
64=2
77=0
43=1
35=2
98=1
75=2
66=0

(1)2 = 1
(2)2 = 4
(0)2 = 0
(1)2 = 1
( 4)2 = 4
(1)2 = 1
(2)2 = 4
(0)2 = 0

15

TOTAL

Quadro 4.6 Clculos auxiliares no clculo da mdia e do desvio padro das diferenas.
Ento, a mdia amostral :

i=1d = 5 = 0, 625
n

d=

captulo 4

131

e a varincia amostral :

s2 =

( i=1di )2
n

d2
i =1 i

n 1

15

(5)2

,
8 = 15 3,125 = 11875
= 1, 696
8 1
7
7

Portanto, o desvio padro amostral :


=
s

=
1696
,
130
,

Substituindo os valores encontrados, temos:


t=

1.

d d 0, 625 0 0, 625
,
=
=
= 136
130
,
sd
0, 4596
8
n

O nmero de graus de liberdade (g.l.) n 1 = 8 1 = 7. O valore crtico :

Tabela - Valores crticos da distribuio t de Student


P(|T DE STUDENT| VALOR TABELADO) = A VALORES BILATERAIS
G. L.

0.50

0.20

0.10

0.05

0.04

0.02

1.000

3.078

6.314

12.706

15.894

31.821

63.656 127.321

636.578

0.816

1.886

2.920

4.303

4.849

6.965

9.925

14.089

31.600

0.765

1.638

2.353

3.182

3.482

4.541

5.841

7.453

12.924

0.741

1.533

2.132

2.776

2.999

3.747

4.604

5.598

8.610

0.727

1.476

2.015

2.571

2.757

3.365

4.032

4.773

6.869

0.718

1.440

1.943

2.447

2.612

3.143

3.707

4.317

5.959

0.711

1.415

1.895

2.365

2.517

2.998

3.499

4.029

5.408

0,25

0,10

0,05

0,025

0,02

0,01

0,005

0,0025

0,0005

132

captulo 4

0.01

0.005

0.001

2.

Concluso

Deixar de rejeitar
1 = 2

Rejeitar
1 = 2

1 2 = 0
t = 1,895
ou
t=0
Estatstica de teste
t = 1,36

Como o teste unilateral direita (pois, H1 contm o sinal >), o valor crtico encontrado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
que escolhemos a terceira coluna (a = 0,05).
Rejeitamos H0 se t > tc. Como 1,36 < 1,895, a estatstica de teste no est na rea de
rejeio. Portanto, deixamos de rejeitar H0, ou seja, os dados amostrais no fornecem evidncias suficientes para se concluir que assistir ao comercial melhora o potencial de compra.
Agora, que j exploramos as possibilidades de realizaes de testes de hiptese para
duas mdias, vamos estudar como fazer inferncias sobre duas propores.

4.3 Comparao de duas propores


Neste item, aprenderemos a testar a diferena entre duas propores populacionais p1 e p2, usando uma proporo amostral de cada populao. Por exemplo, um estudo com uma amostra de homens e outra de mulheres feito com
o objetivo de verificar se h diferena na proporo de homens e mulheres que
planejam comprar pela internet, pelo menos uma vez, durante o prximo ms.
Como nos testes vistos anteriormente, para a mdia, temos que verificar alguns requisitos e seguir alguns passos para a realizao do teste.

captulo 4

133

Segundo TRIOLA (2003, p. 362), os requisitos necessrios so:


1. Temos propores de duas amostras aleatrias simples que so
independentes.
2. Para cada uma das duas amostras, o nmero de sucesso , pelo menos,
cinco e o nmero de fracassos , tambm, pelo menos cinco.
Os passos para a realizao do teste so:
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia (a).
3. Determinaremos a estatstica de teste para duas propores

(com H0 : p1 = p2).
z=

( p1 p2 ) ( p1 p2 )
1
1
pq +

n
n
1
2

Em que:
p1 p2= 0 (suposto na hiptese nula)
p1 =
p =

x1

e p2 =

n1
x1 + x 2

x2
n2

n1 + n2

q = 1 p
1. Determinaremos os valores crticos na Tabela 1 Apndice.
2. Concluso:
Se z estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejeitamos H0.
Se a hiptese nula estabelecer que p1 = p2, p1 p2 ou p1 p2, p1 p2, ento, pressupe-se
que p1 = p2, p1 = p2 e a expresso p1 p2, p1 p2 ser igual a zero na realizao do teste.

Para facilitar o entendimento, vamos descrever cada uma das quantidades


necessrias para encontrarmos a estatstica de teste:

134

captulo 4

p1 e p2: propores populacionais.


x1 e x2: nmero de sucessos em cada amostra.
n1 e n2: tamanho de cada amostra.
p
^1 e p
^ 2: proporo amostral de sucessos.
p: estimativa ponderada de p1 e p2.
O nmero de sucessos em cada amostra pode ser obtido, respectivamente, por: x1 = n1

p
^ 1 e x2 = n2 p
^ 2.

EXEMPLO
Dados de rgos internacionais indicam que o nvel de desemprego nas capitais nordestinas maior que no sudeste do pas. Pesquisa feita na regio metropolitana de Salvador,
com 1.260 pessoas selecionadas aleatoriamente, indicou que 218 estavam desempregadas.
Outra pesquisa similar feita no Rio de Janeiro, com 2.570 pessoas selecionadas aleatoriamente, indicou que 312 dos entrevistados estavam desempregados. possvel afirmar que
a proporo de desemprego maior em Salvador? Assuma um nvel de significncia de 5%.
Resoluo
Temos, duas amostras aleatrias simples e estas amostras so independentes. O nmero de sucessos na amostra de Salvador 218, de um grupo de 1.260, e o nmero de
fracassos 1.042. No Rio de Janeiro, o nmero de sucessos 312, de um grupo de 2.570,
e o de fracassos 2.258. Em cada uma das amostras, o nmero de sucessos pelo menos
5 e o de fracassos tambm. Portanto, verificamos os requisitos necessrios para a realizao
do teste.
Passos para a realizao do teste:
1.

Identificao das hipteses:

H0 : p1 = p2

H0 : p1 > p2

2.

O nvel de significncia a = 0,05.

3.

A estatstica de teste para duas propores (com H0 : p1 = p2) :

captulo 4

135

z=

(p1 p2 ) (p1 p2 )
1 1
pq +
n1 n2

Em que:
p1 p2 = 0 (suposto na hiptese nula)
x
x1
218
312
e p2 = 2 . Ento,
e p
p1 = 0,173 =
=
= 0,121
2
n2
n1
1260
2570
x +x
p = 1 2 . Portanto, p = 218 + 312 = 530 = 0,138
n1 + n2
1260 + 2570 3830
p1 =

q = 1 p . Temos, q = 1 0,138 = 0, 862


Substituindo os valores encontrados:

z=

4.

(p1 p2 ) (p1 p2 ) =
1 1
pq +
n1 n2

0,173 0,121
1
1
0,138 0, 862
2
+

1260 2570

Determinaremos o valor crtico na Tabela 1 Apndice.

O valor crtico z = 1,645.

136

captulo 4

0, 052
0, 000140696

5.

Concluso

= 0,05

P1 P2 = 0
ou
z=0

z = 1,645
Estatstica de teste
z = 4,38

Como o teste unilateral direita (pois, H1 contm o sinal >) e a rea de z = 0 at o


final da cauda direita 0,5, temos que 0,5 0,05 = 0,45. Portanto, o valor crtico z = 1,645.
Rejeitamos H0 se z > zc. Como 4,38 > 1,645, a estatstica de teste est na rea de rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficientes
para se concluir que a proporo de desemprego maior em Salvador.

4.4 Utilizao do Microsoft Excel para testes


de duas amostras
Vamos utilizar ferramentas disponveis no Excel para a realizao de testes de
hiptese para a comparao de duas mdias. Para facilitar a compreenso, utilizaremos os exemplos resolvidos ao longo do captulo. A verso utilizada o
Excel 2010.

4.4.1 Comparao de duas mdias com varincias desconhecidas e


diferentes
Utilizaremos, para este caso, os dados do Exemplo 4.1.
Vamos seguir os seguintes passos para a realizao do teste:

captulo 4

137

1 Passo: Digitar os dados das duas amostras na planilha:

Figura 4.3 Valores das pontuaes obtidas pelos estagirios, nos dois tipos de cursos.

2 Passo: Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas
amostras presumindo varincias diferentes e, em seguida, OK.

Figura 4.4 Escolha da Anlise de dados Teste T: duas amostras presumindo varincias
diferentes.

138

captulo 4

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde
A2 at A32. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B32. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0). O nvel de significncia
a = 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.5 Entrada dos dados para a realizao do teste.

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.


Vamos entender as informaes que esto grifadas:
1. Mdia: mdia de cada amostra.
2. Varincia: varincia de cada amostra.
3. Observaes: nmero de observaes em cada amostra
4. Hiptese da diferena de mdias: 1 2 = 0.
5. g.l.: graus de liberdade (calculada por meio da frmula descrita no box
explicativo).

captulo 4

139

6. Stat t: valor da estatstica de teste.


7. P(T < = t): valor p para o teste bicaudal (bilateral).
8. t crtico bicaudal: valores crticos para um teste bicaudal (bilateral).

Figura 4.6: Resultados obtidos a partir do Teste t duas amostras presumindo varincias
diferentes, para os dados do Exemplo 4.1.

Na resoluo do Exemplo 4.1, utilizamos o valor da estatstica de teste e dos


valores crticos para tomar uma deciso sobre rejeitar ou deixar de rejeitar a hiptese nula. Agora, por meio dos resultados obtidos pelo Excel, tambm podemos concluir pelo valor p. Como 0,313 > 0,050, deixamos de rejeitar a hiptese
nula, mesma concluso que aquela obtida pelo mtodo descrito ao longo do
captulo (valor da estatstica de teste e regio crtica).

140

captulo 4

4.4.2 Comparao de duas mdias (amostras dependentes)


Para este caso, utilizaremos o Exemplo 4.3.
Vamos seguir os seguintes passos para a realizao do teste:
1 Passo: Digitar os dados das duas amostras na planilha:

Figura 4.7: Avaliaes de compras de 8 indivduos, antes e depois de um comercial.

2 Passo: Para a anlise do exemplo, clicamos na janela Dados e a seguir em


Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amostras em par para mdias e, em seguida, OK.

Figura 4.8 Escolha da Anlise de dados Teste T: duas amostras em par para mdias.

captulo 4

141

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde A2 at A9. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B9. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0). O nvel de significncia
a = 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.9 Entrada dos dados para a realizao do teste.

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.


Vamos entender as informaes que esto grifadas:
1. Mdia: mdias (antes e depois).
2. Varincia: varincias (antes e depois).
3. Observaes: nmero de observaes.
4. Hiptese da diferena de mdias: D = 0.
5. gl: graus de liberdade.
6. Stat t: valor da estatstica de teste.
7. P(T < = t): valor p para o teste unicaudal (unilateral).
8. t crtico unicaudal: valores crticos para um teste unicaudal (unilateral).

142

captulo 4

Figura 4.10 Resultados obtidos a partir do Teste t duas amostras em par para mdias,
para os dados do Exemplo 4.3.

Nesta anlise, tambm temos a informao do valor p. Como 0,108 > 0,05,
deixamos de rejeitar a hiptese nula, mesma concluso que aquela obtida
pelo mtodo descrito ao longo do captulo (valor da estatstica de teste e regio
crtica).
O Excel no dispe de uma ferramenta de Anlise de Dados para testar hipteses para
diferenas entre duas propores, mas h a possibilidade de utilizar frmulas do Excel. O
modelo da planilha Clculos para esse teste encontrado em Levine et al. (2000, p. 438).

REFLEXO
Neste captulo, estudamos uma das ferramentas mais importantes da inferncia estatstica,
que so os testes de hipteses. Aprendemos a realizar os testes para dois parmetros populacionais muito importantes: mdia e proporo.

captulo 4

143

Com os exemplos apresentados, pudemos observar que a aplicabilidade dos testes de


hipteses esto nas mais diversas reas do conhecimento.
Quando queremos fazer comparaes sobre os parmetros de duas populaes, no
basta selecionarmos duas amostras e analisarmos somente as estatsticas amostrais obtidas.
Precisamos testar a afirmativa sobre estes parmetros analisando os dados amostrais, por
meio da realizao de um teste apropriado e, a partir da concluso do teste, teremos evidncias para apoiar ou no a afirmativa sobre os parmetros.
No podemos esquecer que os testes no podem ser utilizados indiscriminadamente.
H requisitos que devem ser verificados! Com um planejamento correto para a obteno dos
dados amostrais, podemos fazer uso de mais uma ferramenta imprescindvel na tomada de
decises!

LEITURA
Sugerimos que voc assista ao vdeo que est no seguinte endereo: http://m3.ime.unicamp.
br/recursos/1098. Voc aprender algumas tcnicas de planejamento de experimento, bem
como verificar a importncia da formulao correta de uma hiptese na anlise estatstica.

REFERNCIAS BIBLIOGRFICAS
ANDERSON, David R.; SWEENEY, Dennis, J.; WILLIAMS, Thomas A. Estatstica Aplicada
Administrao e Economia. 2. ed. So Paulo: Pioneira Thomson Learning, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.

144

captulo 4