Escolar Documentos
Profissional Documentos
Cultura Documentos
e
Probabilidade
Professores
Daniela Carine Ramires de Oliveira
Marcos Santos de Oliveira
Índice
1. Introdução à Estatística 1
2. Variáveis 3
3. Amostragem 6
4. Tabulação de Variáveis 10
5. Medidas de Posição 15
ii
6. Medidas de Dispersão 20
6.1. Motivação 20
6.2. Amplitude 20
6.3. Variância e desvio padrão 21
6.4. Intervalo interquartil 21
6.5. Exercícios 22
7. Estatística Gráfica 23
8. Correlação e Regressão 33
9. Introdução à probabilidade 44
9.1 Introdução 44
9.2 Experimento aleatório, espaço amostral e eventos 44
9.3 Definições de probabilidades 46
iii
10. Fundamentos de probabilidade 56
11.1 Introdução 64
11.2 Esperança matemática e variância 65
11.3 Distribuições de probabilidades para variáveis aleatórias discretas 66
11.3.1 Modelo uniforme discreta 67
11.3.2 Modelo Bernoulli 68
11.3.3 Modelo binomial 69
11.3.4 Modelo hipergeométrico 69
11.3.5 Modelo Poisson 70
12.1 Introdução 74
12.2 Esperança matemática e variância 77
12.3 Distribuições de probabilidades para variáveis aleatórias contínuas 78
12.3.1 Modelo uniforme 78
12.3.2 Modelo exponencial 79
12.3.3 Modelo normal 80
13.1 Introdução 88
13.2 Estimação de uma proporção 88
13.3 Estimação da média populacional 91
iv
14. Testes de hipóteses para uma população 95
14.1 Introdução 95
14.2 Formulação das hipóteses 95
14.3 Tipos de erros possíveis nos testes de hipóteses 96
14.4 Nível de significância de um teste de hipótese 96
14.5 Teste para a proporção 97
14.6 Testes sobre a média com variância populacional conhecida 99
14.7 Testes sobre a média com variância populacional desconhecida 101
14.8 Fórmulas para intervalos de confianças e testes de hipóteses 104
Apêndices
Referências 128
v
CAPÍTULO 1
INTRODUÇÃO À ESTATÍSTICA
Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar dados oriundos de
estudos em qualquer área do conhecimento. A aplicabilidade das técnicas a serem discutidas se dá nas mais
variadas áreas das atividades humanas. Com isso, o principal objetivo da Estatística é nos auxiliar a tomar
decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas.
População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na terminologia
estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo no qual reside nosso
interesse. Alguns exemplos são: todos os clientes de um banco, todos os alunos de uma faculdade, todos os
automóveis de uma montadora, etc.
Inferência estatística: técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população),
das informações e conclusões obtidas a partir de um subconjunto de valores (amostra).
1.3. Exercícios
a. Um estudante está interessado em descobrir informações sobre o valor médio dos veículos pertencentes aos
membros do corpo docente de sua universidade. Para isso ele questiona todos os docentes do departamento de
administração.
População:
Amostra:
b. Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de recém-
nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo Horizonte, foram
perguntadas a respeito da última vez que vacinaram seus filhos.
População:
Amostra:
c. Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com
relação ao canal em que estavam sintonizados.
População:
Amostra:
2
CAPÍTULO 2
VARIÁVEIS
Algumas variáveis como sexo, grau de instrução e região de procedência, apresentam como possíveis resultados
uma qualidade do indivíduo pesquisado. Logo estas variáveis são chamadas de variáveis qualitativas.
As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados números resultantes
de uma contagem ou mensuração e são, portanto, variáveis quantitativas.
Exemplo 2.2. Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos
socioeconômicos dos empregados da seção de orçamentos de uma empresa. Usando informações obtidas do
departamento pessoal, ele elaborou a Tabela 2.1.
TABELA 2.1
Informações sobre grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade
(medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa.
Idade
N° Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência
1 Fundamental ... 4,00 26 3 Interior
2 Fundamental 1 4,56 32 10 Capital
... ... ... ... ... ... ...
35 Médio 2 19,40 48 11 Capital
36 Superior 3 23,30 42 2 Interior
Fonte: Adaptado de Bussab e Morettin (2013). A tabela completa se encontra no apêndice.
De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado
correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável
estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia
3
haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas
no estudo).
Dentre as variáveis qualitativas, ainda podemos fazer uma distinção entre dois tipos:
Variável qualitativa nominal: para a qual não existe nenhuma ordenação nos possíveis resultados.
Variável qualitativa ordinal: para a qual existe uma ordem natural nos seus resultados.
Variável quantitativa discreta: é uma variável quantitativa que pode assumir um número contável de valores.
Frequentemente seu valor resulta de uma contagem.
Variável quantitativa contínua: é uma variável quantitativa que pode assumir um número incontável de
valores. Frequentemente seu valor resulta de uma mensuração.
Resumindo
Como as variáveis são classificadas e outros exemplos.
Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável
qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja
passível de interpretação.
Exemplos 2.7. Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.
4
2.3. Exercícios
1. Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações:
TABELA 2.2
Informações do questionário estudantil.
ID Turma Sexo Idade Alt Peso Filh Fuma Toler Cine Opcine Tv OpTV
1 A F 17 1,60 60,5 2 Não P 1 B 16,5 R
2 A F 18 1,69 55,0 1 Não M 1 B 7 R
... ... ... ... ... ... ... ... ... ... ... ... ...
49 B M 17 1,80 71,0 1 Não P 0 M 14 R
50 B M 18 1,83 86,0 1 Não P 7 M 20 B
Fonte: Adaptado de Magalhães e Lima (2004).
5
CAPÍTULO 3
AMOSTRAGEM
A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um
alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma
amostragem, ou seja, extraindo do todo (população) uma parte (amostra) com propósito de avaliarmos sobre a
qualidade do tempero de todo o alimento.
A técnica de amostragem aleatória simples é o método mais simples e um dos mais importantes para a seleção
de uma amostra. Para a seleção de uma AAS precisamos ter uma lista completa dos elementos da população.
Este tipo de amostragem consiste em selecionar a amostra através de um sorteio. Sua principal característica
está no fato de todos os elementos da população ter igual probabilidade de serem escolhidos.
1
Censo: estudo de todos os elementos da população.
6
Procedimento para o uso deste método:
1. Numerar todos os elementos da população (N elementos);
2. Efetuar sucessivos sorteios até completar o tamanho da amostra (n).
Para realizar este sorteio, podemos utilizar algum software que gere números aleatórios como, por exemplo, o
Excel® através do comando: =ALEATÓRIOENTRE(inferior;superior). Em inferior devemos colocar o
número 1 e em superior o número máximo da população alvo. Podemos também a função Ran# de utilizar de
uma calculadora científica.
Exemplo 3.1. Estamos interessados em estudar a qualidade da gasolina nos postos de uma determinada cidade
que possui N = 400 postos. A empresa que estudará a qualidade define que serão investigados n = 10 postos,
obtidos através da técnica de AAS. Usando a função Ran# de uma calculadora científica, temos:
{_____; _____; _____; _____;_____; _____;_____; _____;_____; _____}
É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas de cadastramento,
produção de garrafas da cervejas, etc.
Exemplo 3.2. Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para verificar
uma característica de interesse. Utilizando a técnica de amostragem sistemática para retirar essa amostra, temos:
1. Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7;
2. Sortear um número entre 1 e 7 usando a função Ran# de uma calculadora científica. Considerando que o
número sorteado foi 6, a amostra será composta dos elementos:
A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda, bairro, etc.) e a
AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem ser internamente mais
homogêneos do que a população toda, com respeito às variáveis em estudo. Aqui, um conhecimento prévio
sobre a população em estudo é fundamental.
7
A AE tem as seguintes características:
dentro de cada estrato há uma grande homogeneidade (pequena variabilidade);
entre os estratos há uma grande heterogeneidade (grande variabilidade).
Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da amostra de cada estrato
da população é mantida na amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população,
ele também deve corresponder a 20% da amostra.
Exemplo 3.3. Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em uma
determinada universidade, realizaremos um levantamento por amostragem. A população é composta por 80
professores, 80 servidores técnicos administrativos e 240 alunos, que identificaremos da seguinte forma:
População
Professores P1 P2 … P80
Servidores S1 S2 … S80
Alunos A1 A2 ... A240
Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo dentro de cada
categoria, realizaremos uma amostragem estratificada proporcional por categoria, para obter uma amostra
global de tamanho n = 10. A tabela a seguir mostra as relações de proporcionalidade.
Para selecionar aleatoriamente dois professores, devemos gerar dois números aleatórios no intervalo de 01 a 80.
De forma análoga, devemos gerar dois números aleatórios no intervalo de 01 a 80 para os servidores e mais seis
números aleatórios no intervalo de 001 a 240 para os alunos. Utilizando de uma calculadora científica, por
exemplo, uma possível amostra estratificada proporcional seria: {P61, P09, S47, S40, A50, A136, A152, A4, A48, A125}.
Cada indivíduo desta amostra deverá ser pesquisado para se obter a opinião em relação à gestão atual da
reitoria, considerando que esta é uma amostra estratificada proporcional da comunidade da universidade.
8
A AC tem as seguintes características:
dentro de cada conglomerado há uma grande heterogeneidade (grande variabilidade);
entre os conglomerados há uma pequena variabilidade (grande homogeneidade).
Exemplo 3.4. Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a técnica
de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e, em seguida,
entrevistar todos os eleitores dessas zonas selecionadas
5
3
Zona 9
6 11
1
7 12
2
4 10
8
Entrevistar todos os
eleitores dessas zonas
Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque ambas envolvem
a formação de subgrupos. A diferença é que a amostragem por conglomerado usa todos os membros de uma
amostra de conglomerados, enquanto a amostragem estratificada usa uma amostra de membros de todos os
estratos.
3.4 Exercícios
2. Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira transportadora
dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá ter n = 10
fontes, quais serão as fontes selecionadas utilizando a técnica de amostragem sistemática? Utilize a função
Ran# da calculadora.
3. Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 computadores
que estão separados em duas qualidades. N1 = 40 computadores Core i5 e N2 = 60 computadores Core i7. O
custo para verificar se cada computador está sob controle é muito alto. O administrador responsável disse que a
empresa tem condições de verificar apenas n = 12 computadores. Utilizando a técnica de amostragem
estratificada proporcional, quais computadores serão selecionados? Utilize a função Ran# da calculadora.
9
CAPÍTULO 4
TABULAÇÃO DE VARIÁVEIS
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável,
analisando a ocorrência de seus possíveis resultados.
Uma distribuição de frequências lista os valores dos dados (individualmente ou por grupos de intervalos,
juntamente com suas frequências correspondentes (ou contagens)).
A tabela a seguir apresenta a distribuição de frequências da variável grau de instrução dos dados da Tabela 2.1.
TABELA 4.1
Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB
segundo o grau de instrução.
Grau de Instrução Frequência Proporção Porcentagem
Fundamental 12
Médio 18
Superior 6
Total n = 36 1,0000
Fonte: Bussab e Morettin (2002)
Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% tem nível
fundamental, 50% nível médio e apenas 16,67% nível superior.
As proporções são muito úteis quando se querem comparar resultados de duas pesquisas distintas. O próximo
exemplo ilustra este fato.
Exemplo 4.1. Suponhamos que se queira comparar a variável grau de instrução para empregados da seção de
orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha
2000 empregados e que a distribuição de frequências seja a tabela abaixo:
10
TABELA 4.2
Frequências e porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução.
Grau de Instrução Frequência Proporção Porcentagem
Fundamental 650
Médio 1020 0,5100
Superior
Total n = 2000 1,0000
Fonte: Bussab e Morettin (2002)
Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas das
frequências das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 36 e n = 2000). Mas
as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos as frequências relativas a um
mesmo total.
A construção de tabelas de frequências para variáveis quantitativas necessita de certos cuidados. Por exemplo, a
construção da tabela de frequências para a variável Salário da Tabela 2.1., usando o mesmo procedimento que o
grau de instrução, não resumirá as 36 observações num grupo menor, pois não existem observações iguais.
Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela de Classes de
Frequências.
Exemplo 4.2. Distribuição de frequências dos salários dos 36 empregados da seção de orçamentos da
Companhia MB por faixas de salário:
TABELA 4.3
Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de
salário.
Classe de Salário Frequência Proporção Porcentagem
04 |– 08 10 0,2778 27,78%
08 |– 12 12
12 |– 16 8
16 |– 20 5
20 |– 24 1
Total 36 1,0000
Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se alguma
informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que
investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que todos os oito salários
daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14.
Número de Classes
A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe indicará quantas e
quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um número pequeno de
11
classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica
prejudicado.
Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o pesquisador não tenha
ideia alguma sobre o número de classes adotar. O número ideal de classes é um número inteiro próximo de:
Regra 1: C 1 3,2 x log n Regra 2: C n
onde n é o número de elementos pesquisado.
As duas regras são equivalentes para n 80. A partir daí, a Regra 2 fornece valores que crescem rapidamente e
desse modo a Regra 1, proposta por Sturges tem sido preferida.
As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de associação, tabela de
contingência ou distribuições conjuntas de frequências.
TABELA 4.4
Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence.
Seção Conceito em Metodologia Total por
A B C Seção
Dep. Pessoal 3 1 3 7
Séc. Técnica 0 4 3 7
Sec. Venda 4 3 4 11
Total por Conceito 7 8 10 25
TABELA 4.5
Vendas dos produtos A, B, C, no supermercado Glória, no primeiro semestre de 2005.
Meses Vendas em 1000 R$ Total por
A B C Mês
Janeiro 40,0 25,2 8,1 73,3
Fevereiro 40,1 28,0 10,0 78,1
Março 35,1 28,0 15,4 78,5
Abril 28,2 20,2 22,3 70,7
Maio 14,1 25,6 28,1 67,8
Junho 5,0 30,0 35,2 70,2
Total por Produto 162,5 157,0 119,1 438,6
Fonte: Dados Hipotéticos.
12
TABELA 4.6
Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística.
Estatística Matemática Totais em
0 |- 4 4 |- 7 7 |- 10 Estatística
0 |- 4 32 25 5 62
4 |- 7 20 183 82 285
7 |- 10 7 27 19 53
Totais em 59 235 106 400
Matemática
Fonte: Dados Hipotéticos.
4.4. Exercícios
TABELA 4.7
Conjuntos de dados da empresa MB Indústria e Comércio
Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia
1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5
2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0
3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5
4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5
5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0
6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5
7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0
8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5
9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0
10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5
11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5
12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0
13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5
14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5
15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0
16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5
17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5
18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5
19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5
20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5
21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0
22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0
23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0
24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0
25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5
(*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas.
Fonte: Bussab e Morettin (2002)
1. Baseado na Tabela 4.7., construa a distribuição de frequências da variável Metodologia, com as frequências
absoluta e relativa, as porcentagens, dê um título e interprete.
2. Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Frequências para a variável Redação, com
as frequências absoluta e relativa, as porcentagens, dê um título e interprete.
13
3. Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da Tabela 4.7.
4. Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 4.7.
5. Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 4.7.
14
CAPÍTULO 5
MEDIDAS DE POSIÇÃO
5.2. Moda
Valor ou atributo que ocorre com maior frequência.
Exemplo 5.5. Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais frequentes
que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Foram
selecionadas 30 residências e observadas 10 ligações em cada residência. O resultado foi:
Moda = __.
Interpretação: __ ligações a cobrar foi o que ocorreu com maior frequência.
15
5.3. Média
x1 x 2 x3 x n
xi
x i 1
(5.1)
n n
Exemplo 5.6. Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.
Exemplo 5.7. Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse seja
estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de
São Paulo no mês de março.
Nesse caso, a média é calculada levando em conta as frequências de cada valor da variável, da seguinte forma:
v
x n i i
,x i 1
(5.2)
n
em que v é a quantidade de resultados que a variável contém e ni a respectiva frequência da i-ésima classe.
Assim, para o exemplo temos:
n
Em algumas situações, os números que queremos sintetizar têm graus de importância diferentes. Nesse caso,
usa-se então, a média aritmética ponderada.
5.4. Mediana
É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e metade será menor
ou igual.
De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de valores: 2, 5, 6, 9,
10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9.
1. Ordenar os valores do menor para o maior, isto é, 𝑥(1) , … , 𝑥(𝑛) , em que 𝑥(1) é o mínimo e 𝑥(𝑛) é o máximo.
n 1
2. Calcular em que posição estará a mediana nos dados ordenados através da fórmula: P .
2
3. O valor da mediana será:
a. Se P for um número inteiro, então a mediana será o valor que está na posição P nos dados ordenados, isto é
Mediana = 𝑥(𝑝)
Notas:
1. Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos
17
elementos da série.
2. Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2
elementos centrais da série.
3. Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
4. A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença
marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos:
Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10;
Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10,
isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores
extremos, ao passo que a mediana permanece a mesma.
Nesse caso, utilizamos a frequência acumulada para identificar qual o valor da mediana.
Exemplo 5.11. Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número
de ligações a cobrar mais frequentes recebidas em um determinado bairro de classe alta da cidade de São Paulo
no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a frequência acumulada.
Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. Ambos valores
que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é a primeira frequência
acumulada que contém os elementos 15 e 16.
Além das medidas de posição que estudamos, há outras que, consideradas isoladamente, não são medidas de
tendência central, mas estão ligadas à mediana relativamente à sua característica de separar a série em duas
partes que apresentam o mesmo número de valores. Essas medidas - os quartis, os decis e os percentis - são,
juntamente com a mediana, conhecidas pelo nome de separatrizes.
Denominamos quartis, os valores de uma série que a dividem em quatro partes iguais. Todo conjunto de dados
possui 3 quartis (𝑄1 , 𝑄2 e 𝑄3 ). Se os dados estão ordenados da menor para a maior observação, os primeiros
25% dos dados são menores ou iguais ao primeiro quartil. Por outro lado, 75% dos dados são menores ou iguais
ao terceiro quartil (𝑄3 )e, também, 25% dos dados são maiores ou iguais ao 𝑄3 . Note que o quartil 2 (𝑄2 ) é, por
definição, a própria mediana da série.
Para calcular os quartis, primeiramente devemos ordenar o conjunto de dados da menor para a maior
observação. O primeiro quartil (𝑄1 ) é a observação que está na posição (𝑛 + 1)/4, em que 𝑛 representa o
número de observações. Se a posição calculada não é um número inteiro devemos fazer uma interpolação.
18
Por exemplo, suponha que 𝑛 = 10. Então, (10 + 1)/4 = 2,75 e 𝑄1 está entre a segunda (𝑥 2 ) e a terceira
(𝑥 3 ) observação ordenada, três quartos nesse intervalo. Assim,
𝑄1 = 𝑥(2) + 0,75(𝑥 3 − 𝑥 2 ).
De forma análoga, o terceiro quartil (𝑄3 ) é a observação que está na posição 3(𝑛 + 1)/4. Se a posição
calculada não é um número inteiro devemos novamente fazer uma interpolação.
Por exemplo, suponha que 𝑛 = 10. Então, 3(10 + 1)/4 = 8,25 e 𝑄3 está entre a oitava (𝑥 8 ) e a nona (𝑥 9 )
observação ordenada. Assim,
𝑄3 = 𝑥(8) + 0,25(𝑥 9 − 𝑥 8 ).
Exemplo 5.12. Considere a seguinte série de dados: 30, 20, 10, 40, 60, 50, 90, 100. Ordenando a série, temos:
10, 20, 30, 40, 50, 60, 90, 100. Como 𝑛 = 8, temos que as posições dos quartis 1 e 3 são, respectivamente,
(8 + 1)/4 = 2,25 e 3(8 + 1)/4 = 6,75 . Portanto:
𝑄1 = 𝑥(2) + 0,25 𝑥 3 − 𝑥 2 = 20 + 0,25 30 − 20 = 22,5
𝑄3 = 𝑥(6) + 0,75 𝑥 7 − 𝑥 6 = 60 + 0,75 90 − 60 = 82,5
Seguindo o mesmo principio dos quartis (que divide em quatro partes a série de dados) e levando em conta o
aumento do número de informações disponíveis, podemos dividir a série de dados em 10 partes ou 100 partes.
Quando dividimos em 10 partes, obtemos os decis (𝐷1 , 𝐷2 , ⋯ , 𝐷9 ) e, em 100 partes, obtemos os percentis
(𝑃1 , 𝑃2 , ⋯ , 𝑃99 ).
Como ilustração, o decil 𝐷6 representa o valor que deixa 60% das informações a sua esquerda e,
consequentemente, 40% a sua direita. De forma análoga, o percentil 𝑃74 representa o valor que deixa 74% das
observações a sua esquerda, e 26%, a sua direita.
5.6. Exercícios
5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60.
Calcule o mínimo, máximo, moda, média, mediana, quartis, 𝐷3 , 𝐷8 , 𝑃15 , 𝑃34 e 𝑃95 .
2. As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as
seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de
frequências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela.
19
CAPÍTULO 6
MEDIDAS DE DISPERSÃO
6.1 Motivação
6.2 Amplitude
6.3 Variância e desvio padrão
6.4 Intervalo interquartil
6.5 Exercícios
6.1. Motivação
Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre
conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas
na tabela abaixo:
TABELA 6.1
Distribuição das Notas
Provas
Candidatos
1 2 3 4 5 6
A 7,0 7,5 8,0 8,0 8,5 9,0
B 6,0 7,0 8,0 8,0 9,0 10,0
C 7,5 8,0 8,0 8,0 8,0 8,5
Fonte: Dados Hipotéticos
Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas:
Candidatos A B C
Média
De modo análogo, nem adianta pensar em moda ou mediana, pois:
Candidatos A B C
Moda
Mediana
Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas,
isto é, aquele que apresentou menor dispersão das notas.
6.2. Amplitude
A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja,
Amplitude = Máximo – Mínimo (6.1)
Exemplo 6.1. Para os três candidatos temos:
Candidatos A B C
Amplitude
20
6.3. Variância e desvio padrão
( x x ) 2 ( x 2 x ) 2 ( x3 x ) 2 ( x n x ) 2 (x i x)2
s2 1 i 1
(6.2)
n 1 n 1
O desvio padrão é simplesmente a raiz quadrada positiva da variância
s s2 (6.3)
Exemplo 6.2. Vamos calcular a variância e o desvio padrão para os três candidatos:
Notas Média
Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0
Notas Média
Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0
s B2 sB
6 1 5
Notas Média
Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0
sC2 sC
6 1 5
Resumindo
TABELA 6.2
Medidas de Posição e Dispersão dos 3 melhores candidatos
Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão
A 8,0 8,0 8,0
B 8,0 8,0 8,0
C 8,0 8,0 8,0
O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja,
IQ = Q3 – Q1. (6.4)
21
Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de dados ordenados.
6.5. Exercícios
1. Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o
seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você
trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi:
Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua
decisão.
2. Um laboratório clínico precisa decidir qual aparelho deve comprar entre três aparelhos (A, B, C) para
dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida
(10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada
um deles foram os seguintes:
A 5 10 7 15 16 12 4 8 10 13
B 10 9 10 9 11 8 9 7 8 9
C 10 11 9 10 10 9 11 12 8 10
Em medidas clínicas três termos são utilizados frequentemente:
Precisão: refere-se à dispersão dos resultados
Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro
valor”
Exato: refere-se ao instrumento preciso e não-viciado
22
CAPÍTULO 7
ESTATÍSTICA GRÁFICA
A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar
sobre sua variabilidade.
Existem vários tipos de gráficos para as variáveis qualitativas. Aqui serão ilustrados três deles: gráficos em
barras, o de composição em setores (“Pizza”) e o gráfico de Pareto.
O gráfico em barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à
magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são
dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico
em barras (verticais) para a variável Grau de Instrução.
TABELA 7.1
Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de
instrução.
Grau de Instrução Frequência Proporção Porcentagem
Fundamental 12 0,3333 33,33%
Médio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total n = 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)
23
Figura1: Gráfico em Barras para a Variável Grau de Instrução
18
18
16
14
12
12
Freqüência (ni)
10
6
6
4
0
Fundamental Médio Superior
Grau de Instrução
50%
Fundamental
Médio
33%
Superior
17%
O gráfico de Pareto é um gráfico de barras representando a frequência absoluta com um gráfico de linha,
representando a porcentagem acumulada. Ele exibe a frequência absoluta e a porcentagem acumulada no eixo
vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as
categorias em ordem decrescente da frequência de ocorrência, isto é, a de maior frequência absoluta fica à
esquerda, seguida pela segunda de maior frequência, e assim por diante.
24
500 100
400 80
Porcentagem Acumulada
Frequencia Absoluta
300 60
200 40
100 20
0 0
Modelo-Aviões MD-737 MD-777 MD-757 MD-767 MD-717 MD-747 MD-11 MD-90
Count 281 55 45 44 32 25 4 3
Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6
Cum % 57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0
FIGURA 7.3 – Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)
A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da Boeing Commercial
Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 777, 757, 767,
717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos
produzidos com maior frequência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior
frequência respondem aproximadamente 69% do total dos aviões produzidos em 2000.
90
Porcentagem Acumulada
80 100
Número de Defeitos
70
80
60
50 60
40
30 40
30
21
20
20
10 6 6 5 5 4 4
0 0
Tipo de Defeito as as as es as os
no ia
tor rad h ur ê nc ad e nt oiv utr
n c i
co
a an qü ifi sa
l /g O
o l ap s/r se ubr s d as
d a l
m ro de ão ar
te en
ora s fu ra n P s /f
F e e e
rt d Fo te
s lh
Pa lta ar nta
F a P E
Count 30 21 6 6 5 5 4 4
Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9
Cum % 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0
Curiosidade: O gráfico de Pareto tem esse nome em homenagem a um economista italiano que estabeleceu a
teoria de que, em certas economias, a maior parte da riqueza pertence à minoria da população. Em dados de
contagem, o “princípio de Pareto” ocorre frequentemente; daí a razão do nome.
Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas.
O gráfico em barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas.
Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da
Companhia MB. A Tabela 7.2 apresenta os dados.
TABELA 7.2
Frequências e porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de
filhos.
Números de Filhos Frequência Porcentagem
0 4 20
1 5 25
2 7 35
3 3 15
4 0 0
5 1 5
Total n = 20 100
Fonte: Bussab e Morettin (2002)
26
7
7
F 6
5
r
5
e 4
q 4
3
u
ê 3
n 2
c 1
i 1
0
a
0
0 1 2 3 4 5
Número de Filhos
Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se
uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas frequências
como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos.
Exemplo 7.1. Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando
na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.
2 3 4 5 6 7 8 9 10
C1 de pontos
FIGURA 7.6 – Gráfico
7.2.3. Histograma
O histograma é utilizado para representar a distribuição de frequência. É um gráfico de barras contíguas, com
bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva frequência
relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja
proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de frequência da i-
ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção,
a área total do histograma será 1 (um).
Exemplo 7.2. Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB,
temos os seguintes dados:
27
TABELA 7.3
Frequências e porcentagens dos 36 empregados da seção de orçamentos da
Companhia MB, por faixas de salário
Classe de Frequência Proporção Porcentagem Densidade de Frequência
Salário (di = propi/ai)
04 |-- 08 10 0,2778 27,78 0,0695
08 |-- 12 12 0,3333 33,33 0,0833
12 |-- 16 8 0,2222 22,22 0,0556
16 |-- 20 5 0,1389 13,89 0,0347
20 |-- 24 1 0,0278 2,78 0,0070
Total n = 36 1,0000 100,00
0,09
0,08
0,07 0,0833
Densidade de Freqüência
0,06 0,0695
0,05
0,0556
0,04
0,03 0,0347
0,02
0,01 0,007
0
04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24
Classes de Salários
É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais
conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento
de um fenômeno em certo intervalo de tempo.
28
TABELA 7.4
Dívida Externa Bruta do Brasil de 1956 a 2015, em Milhões de Dólares.
Ano Dívida Ano Dívida Ano Dívida Ano Dívida
1956 2736 1972 11464 1988 113511 2004 220182
1957 2491 1973 14857 1989 115506 2005 187987
1958 2870 1974 20032 1990 123439 2006 199372
1959 3160 1975 25115 1991 123910 2007 240495
1960 3738 1976 32145 1992 135949 2008 262910
1961 3291 1977 37951 1993 145726 2009 277563
1962 3533 1978 52187 1994 148295 2010 351941
1963 3612 1979 55803 1995 159256 2011 404117
1964 3294 1980 64259 1996 179935 2012 455295
1965 3823 1981 73963 1997 199998 2013 505842
1966 3771 1982 85487 1998 241644 2014 560577
1967 3440 1983 93745 1999 241468 2015 540456
1968 4092 1984 102127 2000 236156 2016 548641
1969 4635 1985 105171 2001 226067 2017 550775
1970 6240 1986 111203 2002 227689
1971 8284 1987 121188 2003 235414
Fonte: IPEADATA (www.ipeadata.gov.br)
FIGURA 7.8 – Gráfico de linhas para a variável Dívida Externa do Brasil no período 1956 a 2017.
7.2.5. Ramo-e-Folhas
Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista em, pelo menos, dois
dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi em duas partes: um ramo, que
consiste em um ou mais dos dígitos líderes, e uma folha, que consiste nos dígitos restantes. Por exemplo, se os
dados consistem nas porcentagens de informação defeituosa entre 0 e 100, em lotes de placas de
semicondutores, então poderíamos dividir o valor 76 no ramo 7 e na folha 6. Em geral, devemos escolher
poucos ramos em comparação com o número de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma
vez escolhido um conjunto de ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de
cada ramo, são listadas todas as folhas que correspondem aos valores dos dados observados.
29
TABELA 7.5
Força de ruptura em libras por polegada para 100 garrafas descartáveis de 1 litro de refrigerante.
176 221 242 253 261 265 271 278 286 301
187 223 243 254 262 265 272 278 287 307
197 228 245 254 263 267 274 280 290 308
200 231 246 257 263 267 274 280 293 317
205 231 248 258 264 268 274 280 294 318
208 234 248 258 264 268 274 280 296 321
210 235 250 260 265 269 275 281 298 328
214 235 250 260 265 269 276 281 299 334
215 235 250 260 265 270 276 283 299 337
220 242 251 260 265 271 277 283 300 346
Fonte: Hines et al. (2006), p. 157.
1 17 6
2 18 7
3 19 7
6 20 058
9 21 045
13 22 0138
19 23 114555
26 24 2235688
36 25 0001344788
(22) 26 0000123344555555778899
42 27 01124444566788
28 28 0000113367
18 29 0346899
11 30 0178
7 31 78
5 32 18
3 33 47
1 34 6
FIGURA 7.9 – Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5.
O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação revela
imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor central está em algum
ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas de maneira aproximadamente
simétrica em torno do valor central. Assim, o ramo-e-folhas, como o histograma, nos permite determinar
rapidamente algumas características importantes dos dados que não eram tão imediatamente óbvias na
apresentação original da Tabela 7.5. Note que, aqui, os números originais não se perdem, como ocorre em um
histograma. Através do ramo-e-folhas podemos calcular qualquer medida de posição e dispersão.
Representa os dados utilizando os três quartis (𝑄1 , 𝑄2 ou mediana e 𝑄3 ), o mínimo e o máximo em uma caixa
retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil para o cálculo das linhas extremas.
30
* (Outlier ou Ponto Discrepante ou Ponto Aberrante)
Q3+1,5(Q3-Q1)
“Máximo”
Q3
75%
Mediana
50%
Q1
25%
“Mínimo”
Q1-1,5(Q3-Q1)
O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou mais amostras. Para
ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que representam leituras de
viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos
objetivos do estudo que Hines et al discutem é comparar as três misturas.
TABELA 7.6
Medidas de viscosidade para três misturas
Mistura 1 Mistura 2 Mistura 3
22,02 21,49 20,33
23,50 22,56 20,49
23,83 22,67 21,67
25,38 22,78 21,95
25,49 24,18 22,28
25,90 24,46 22,45
26,67 24,62 27,00
A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa apresentação permite uma
interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade
mais alta que a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os
comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da viscosidade
máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, também, é maior que
os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais
aprofundados.
31
27 27
26,67
26 25,9
25,38
Viscosidade (centipoise) 25 24,62
24,46
24
23,5
23
22,78
22,56 22,45
22 22,02 21,95
21,49
21
20,49
20 20,33
FIGURA 7.11 – Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6.
7.3. Exercícios
1. Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na Tabela 7.7.
TABELA 7.7
Defeitos em elementos estruturais da porta
Tipo de Defeito Frequência Absoluta
Partes Salientes 5
Fora do Contorno 30
Partes mal aparadas 25
Total 60
2. Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de incremento
anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo:
3,67 1,82 3,73 4,10 4,30
1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07
3. Em um computador com acesso a internet, explore a utilização do gráfico de séries temporais no site “Carros
na Web”, no seguinte link: http://www.carrosnaweb.com.br/carrosmaisvendidos.asp
32
CAPÍTULO 8
CORRELAÇÃO E REGRESSÃO
O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista:
TABELA 8.1
Pares de observações (Xi, Yi)
Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
33
Construção do gráfico de dispersão
Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de “Dispersão (XY)”.
Figura 5: Gráfico de Dispersão das variáveis Tempo e Nota
10
6
Nota
0
0 2 4 6 8 10 12 14
Tempo
Exemplo 8.3. Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência
Médica.
Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários mínimos mediram-se:
TABELA 8.2
X Y X Y
12 7,2 40 6,0
16 7,4 48 5,6
18 7,0 50 6,0
20 6,5 54 5,5
28 6,6 32 6,5
30 6,7
34
8
0
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos)
FIGURA 8.2 – Diagrama de dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta
Anual gasta com assistência médica.
Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y (Porcentagem da Renda Bruta
Anual gasta com Assist. Médica). Podemos notar que, conforme aumenta a renda bruta mensal, a porcentagem
da renda bruta anual gasta com assistência médica diminui. Nota-se também uma tendência linear
decrescente.
Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que ilustra com maior
clareza essa tendência linear decrescente.
7,5
Porcentagem da Renda Bruta Anual gasta com Assist. Médica
6,5
5,5
5
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos)
FIGURA 8.3 – Diagrama de dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta
Anual gasta com Assistência Médica.
35
8.3. Coeficiente de correlação
em que 𝑋 e 𝑌 são as médias amostrais das variáveis 𝑋 e 𝑌, respectivamente, assim como, 𝑆𝑥 e 𝑆𝑦 são os desvios
padrão das mesmas variáveis.
n n
(X i X )2 (Y i Y )2
Recordando: S x i 1
e Sy i 1
n 1 n 1
O valor de 𝑟 está sempre entre −1 e 1, com 𝑟 = 0 correpondendo à não associação. Valores de 𝑟 negativos
indicam uma associação negativa entre as variáveis. Por outro lado, valores de 𝑟 positivos indicam uma
associação positiva entre as variáveis em estudo.
Usamos o termo correlação positiva quando 𝑟 > 0, e nesse caso à medida que a variável 𝑋 cresce, também
cresce a variável 𝑌; e correlação negativa quando 𝑟 < 0, e nesse caso à medida que a variável 𝑋 cresce,
descresce a variável 𝑌; em média.
Quanto maior o valor de 𝑟 (positivo ou negativo), mais forte a associação. O quadro seguinte fornece um guia
de como podemos descrever uma correlação em palavras dado o valor numérico. É claro que as interpretações
dependem de cada contexto em particular.
36
Gráficos - Exemplos da classificação da correlação
r r1=, 1correlação
, correlaçãolinear
linear positiva
positiva eeperfeita
perfeita r r=1-1
, correlação
, correlação linear negativae eperfeita
linear negativa perfeita
r0
r 0 , inexistência de correlação linear
40
30
Y
20
10
r 0,01
r =0 r = 0.91
37
Exemplo 8.4. (Uso da calculadora científica para o cálculo do coeficiente de correlação). Considere o Estudo
da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Obter o
coeficiente de correlação com os dados da Tabela 8.2.
𝑟=
Podemos observar uma correlação negativa entre a renda bruta mensal e a porcentagem da renda bruta anual
gasta com assistência médica, isto é quanto maior for a renda bruta mensal, menor será em média, a
porcentagem de sua renda gasta com assistência médica.
Reta Ajustada
a: intercepto;
b: inclinação da reta.
Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento (se b é positivo) ou um
decréscimo (se b é negativo) médio de b unidades em Y.
Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os valores de a e b, que
minimiza a soma dos quadrados dos erros (ou desvios)
n n
SQ(a, b) ei2 {Yi (a bX i )}2
i 1 i 1
O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. Derivando e
igualando a zero, observamos que as soluções de a e b devem satisfazer:
n
X i Yi nXY
a Y bX b i 1
(n 1) S x2
Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos:
=INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a);
=INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b).
38
Exemplo 8.5. Consumo de cerveja e temperatura
As variáveis foram observadas em nove localidades com as mesmas características demográficas e
socioeconômicas.
Y: consumo de cerveja em um dia (em 100 litros)
X: temperatura máxima (em ºC)
TABELA 8.3
A correlação entre X e Y é: 𝑟=
450
430
410
y = 5,2194x + 200,42
390
Consumo de Cerveja
370
350
330
310
290
270
250
10 15 20 25 30 35 40 45
Temperatura Máxima
FIGURA 8.4 – Diagrama de dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja,
juntamente com a Reta de Regressão
Exemplo 8.6. Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta com
assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os dados da Tabela
8.2, logo, o coeficiente de determinação será r2 88,35%, isto é, 88,35% da variabilidade nos dados é explicada
pelo modelo de regressão y = 7,7212 – 0,04x.
7,5
porcentagem da renda bruta anual gasta com assistência médica
6,5
5,5
y = -0,04x + 7,7212
R2 = 0,8835
5
10 15 20 25 30 35 40 45 50 55 60
renda bruta mensal (em salários mínimos)
FIGURA 8.5 – Diagrama de dispersão para as variáveis renda bruta mensal e porcentagem da renda gasta com
assistência médica com a reta de regressão
8.6. Exercícios
Tempo 3 7 2 1,5 12
Nota 4,5 6,5 3,7 4 9,3
a. Faça o Gráfico de Dispersão.
b. Obtenha o Coeficiente de Correlação.
c. Calcule a Reta de Regressão e represente no Gráfico de Dispersão.
d. Obtenha o coeficiente de determinação.
40
1° Lista de Exercícios Complementares
1. Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para presidente dos
brasileiros, 122 pessoas foram entrevistadas em Brasília.
3. Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de amostragem aleatória
simples e sistemática. Depois, levando em conta que o sexo dos funcionários é importante na pesquisa, obtenha
uma amostra de mesmo tamanho utilizando amostragem estratificada proporcional considerando que dos 80
funcionários, 30 são mulheres e 50 são homens. (Utilize a primeira linha da tabela de números aleatórios,
quando for necessário)
4. Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa eleitoral vai
selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão dentro dessas zonas eleitorais,
isto é, foi utilizada amostragem por conglomerado. Apresentem quais serão as 15 zonas eleitorais amostradas.
(Utilize a primeira linha da tabela de números aleatórios, quando for necessário)
5. Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística na Escola E.
TABELA 1
Dados Brutos
R : Ruim M : Médio B: Bom O : Ótimo
M R M M M R B B M M R B M M M M R B B R
B M R M B M R M R M B M R M R M B M B M
B B B B O M M M M M B B B B B B B O B O
a. Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e relativa,
porcentagens e interpretação.
b. Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1.
6. Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material de
construção.
TABELA 2
Dados Brutos (em m)
19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0
12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3
15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9
8. Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação,
por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores
(codificados) da tabela abaixo:
TABELA 4
Valores codificados do investimento em educação
Cidade A B C D E F G H I J
Investimento 20 16 14 7 19 15 14 16 19 18
a. Calcule a média e o desvio-padrão das observações;
b. Receberão um programa especial às cidades com valores de investimento inferiores à média menos duas
vezes o desvio padrão. Alguma cidade receberá o programa?
c. Será considerado como investimento básico a média das observações compreendidas entre a média original
menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o investimento básico e
compare com a média obtida no item a). Justifique a diferença encontrada.
9. Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar o tempo (em
dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados abaixo mostram o tempo de
cicatrização em cobaias submetidas a um dos três tratamentos (A, B, C):
TABELA 5
Tempo (em dias) do completo fechamento em cortes provenientes de cirurgia
A 13 14 15 13 15 14 15 15 14 14
B 14 12 13 13 14 14 13 14
C 12 12 13 13 12 13 11 11
Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente.
10. A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo (em
milhares) que circulam em seu habitat na Flórida-EUA.
TABELA 6
Dados Brutos
Barcos(X) 68 68 67 70 71 73 76 81 83 84
Mortes(Y) 53 38 35 49 42 60 54 67 82 78
a. Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis.
b. Verifique se a correlação é significativa (através do coeficiente de correlação (r)).
c. Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o número de
barcos como a variável independente.
d. Interprete o coeficiente de determinação (r2).
42
11. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma
nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e
a massa muscular (Y).
TABELA 7
Dados Brutos
X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68
Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78
a. Faça o diagrama de dispersão dos dados.
b. Calcule o coeficiente de correlação linear entre X e Y e interprete-o.
c. Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular (dependente)
e X: idade (independente). Interprete os coeficientes.
43
CAPÍTULO 9
INTRODUÇÃO À PROBABILIDADE
9.1 Introdução
9.2 Experimento aleatório, espaço amostral e eventos
9.3 Definições de probabilidades
9.1. Introdução
Nesse capítulo será introduzido o conceito de probabilidade de um evento. Na sequência mostramos como
probabilidades podem ser calculadas em certas situações. Antes disso, no entanto, necessitamos compreender os
conceitos de espaço amostral e eventos de um experimento aleatório.
Qualquer fenômeno que gere resultado incerto ou casual é chamado de experimento aleatório.
Exemplo 9.1. Os quatro itens, a seguir, ilustram experimentos aleatórios, pois não sabemos, com certeza, o
possível resultado que ocorrerá em cada um.
(a) Jogar uma moeda duas vezes e observar a sequência obtida de caras e coroas.
(b) Jogar um dado e observar o número mostrado na face superior.
(c) Observar o peso de animais.
(d) Observar o número de filhos de um casal.
Todo experimento aleatório tem associado um espaço amostral. Vejamos o próximo exemplo.
44
Exemplo 9.2. Experimentos aleatórios e seus respectivos espaços amostrais.
Experimento aleatório Espaço amostral
(a) Jogar um dado e observar o resultado Ω = {1,2,3,4,5,6}
(b) Lançar uma moeda duas vezes e observar as Ω = {𝐶𝐶, 𝐶𝐾, 𝐾𝐶, 𝐾𝐾}, com
faces obtidas 𝐶 = Cara e 𝐾 = Coroa
(c) Dois dados são lançados simultaneamente e Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
estamos interessados na soma das faces observadas
Evento é qualquer subconjunto do espaço amostral. Usualmente, denotamos os eventos com as letras iniciais do
alfabeto, na forma maiúscula.
Exemplo 9.3. Considere o experimento de jogar um dado e observar o resultado. Alguns possíveis eventos
desse experimento são: A = {ocorrer a face 5} = {5}, ou B = {ocorrer face par} = {2, 4, 6} etc.
Existem dois eventos especiais: espaço todo () e o conjunto vazio (). Esses eventos não têm aplicações
práticas, mas serão úteis para provarmos propriedades das probabilidades.
Eventos disjuntos
Dois eventos, A e B, são mutuamente exclusivos ou disjuntos, se eles não podem ocorrer simultaneamente (A
B = ).
A B
Exemplo 9.5. Considere os seguintes eventos: A = {o resultado do dado foi 4} e B = {o resultado do dado foi
5}. O evento A B = , pois é impossível existir o evento A B = {ocorrer 4 e 5, simultaneamente, em um
único lançamento do dado}.
Após essas quatro definições, acreditamos que o leitor esteja preparado para aprender a calcular probabilidades.
A área de probabilidade começou a ser desenvolvida no século XVII, antes ainda da formalização da área da
Estatística, em questões propostas em jogos de azar. Em 1654, Pierre de Fermat (1601-1665) e Blaise Pascal
(1623-1662), na França, estabelecem os Princípios do Cálculo das Probabilidades. Em 1656, Huygens (1629-
1695) publica o primeiro Tratado de Probabilidade.
No entanto, é fácil perceber que o termo probabilidade já está enraizado no senso comum, pois as pessoas
vivem o cotidiano calculando implicitamente algumas probabilidades, tais como situações de sua vida pessoal;
46
organizando-se em relação a horários a cumprir, levando em conta as circunstâncias do tráfego; agasalhando-se,
ao sair de casa, se a previsão do tempo indicar uma frente fria. Em resumo, prevenindo-se em situações de risco.
Probabilidade é uma medida que quantifica a sua incerteza frente a um possível acontecimento futuro.
O primeiro é devido a Laplace e é o mais conhecido, pois relaciona eventos favoráveis com eventos possíveis.
O segundo consiste em repetir um experimento várias vezes. O terceiro é baseado na opinião pessoal, e o último
é devido a Kolmogorov e baseia-se no princípio de que qualquer experimento pode ser modelado.
Método clássico
Consideremos o caso em que se joga um dado repetidas vezes. O dado tem seis faces: 1, 2, 3, 4, 5, 6. Se o dado
é homogêneo, equilibrado, jogando-o uma vez não há razão para dizermos que determinada face tenha
preferência sobre as outras. Todos os seis resultados são igualmente possíveis. Então, a probabilidade de
aparecer a face 3, por exemplo, é de 1/6. O evento que nos interessa consiste em um elemento, e o espaço
amostral tem seis elementos.
Definição 9.1. Se A é o evento de interesse, a probabilidade de A, representada por P(A), é dada por
𝑁ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟 á𝑣𝑒𝑖𝑠 𝑎𝑜 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴
𝑃 𝐴 = (9.1)
𝑁ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠 í𝑣𝑒𝑖𝑠
Exemplo 9.6. No lançamento de uma moeda equilibrada, qual a probabilidade de aparecer uma Cara? O espaço
amostral associado é = {Cara, Coroa}. Pela definição clássica, a probabilidade de ocorrência do evento A =
{Cara} é P(A) = 1/2. Note que o número de elementos em é 2, e o número de elementos em A é 1.
Método frequentista
A definição clássica de probabilidade só se aplica a espaços amostrais em que os eventos simples são
igualmente possíveis. Esse é o caso da maioria das aplicações de probabilidades aos jogos de azar, área que,
precisamente, suscitou os primeiros problemas práticos resolvidos pela teoria das probabilidades. Esses mesmos
jogos, entretanto, repetidos inúmeras vezes, levaram a considerar a probabilidade de um evento como a
47
frequência relativa, ou seja, como a proporção de vezes em que um evento ocorre em uma série suficientemente
grande de realizações de um experimento, em condições idênticas. Surgiu, então, uma nova definição de
probabilidade, a definição frequentista.
Passo 1 – Arrume um parceiro e tomem uma moeda – chamem o valor numérico da moeda de COROA (K ) e a
outra face de CARA (C). Suponham que haja interesse em saber se a sua moeda é “honesta” (isto significa saber
se a probabilidade de CARA de sua moeda é 1/2 ou, em termos percentuais, se a chance de sair Cara é 50%).
Passo 2 – Um membro do grupo vai lançar a moeda e o outro vai marcar os resultados na planilha anexa,
seguindo as seguintes instruções:
a) Jogar a moeda uma vez e anotar C ou K no espaço adequado (linha 2) da planilha.
b) Repetir este procedimento 30 vezes, preenchendo um a um todos os espaços da linha 2.
Passo 3 – Continuando com a planilha, trocar de lugar com o parceiro, voltar para os itens a) e b) das instruções
e continuar mais 30 jogadas – até perfazer 60.
d) Agora, a linha 4 da planilha deve ser preenchida – em cada posição, deve ser colocado o número acumulado
de CARAS, até aquela jogada (verifique que a jogada está explicitada na linha 1- que é a linha n). Discutir com
outro membro do grupo para ver se está claro – se não, pergunte! A linha de baixo é continuação do acumulado
da linha de cima.
e) Finalmente, chegamos à última linha – linha 5: colocar a frequência relativa (m/n) de CARAS em cada
48
momento – o que é isso? Discuta com o outro membro do grupo (desprezar as entradas assinaladas com X).
1) Jogada(n) 1 2 3 4 5 6 7 8 9 10 12 14 17 20 25 30
2) C ou K
3) 1 ou 0
4)
1) Caras Acumuladas (m)
Jogada(n) 1 2 3 4 5 6 7 8 9 10 12 14 17 20 25 30
5)
2) Frequência
C ou K Relativa (m/n) X X X X X X X X X X X X X X X X X X
3) 1 ou 0
4) Caras Acumuladas (m)
5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X
1) Jogada(n) 31 32 33 40 47 50 55 60
2) C ou K
3) 1 ou 0
4)
1) Caras Acumuladas (m)
Jogada(n) 31 32 33 40 47 50 55 60
5)
2) Frequência
C ou K Relativa (m/n) X X X X X X X X X X X X X X X X X X X X X X X X X X X
3) 1 ou 0
4) Caras Acumuladas (m)
5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X X X X X X X X X X
Passo 5 – Depois de completar a 1a parte da planilha, construir a seguinte tabela, usando as linhas 4 e 5 da
planilha:
N 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60
m/n
Passo 6 – Completar o gráfico, usando os valores da tabela recém-construída, do seguinte modo: Eixo Y –
valores m/n Eixo X – valores da linha 1: (n)
Passo 7 – Comparar os resultados com os colegas e interpretar o resultado, comentando sobre a “honestidade”
da sua moeda.
Gráfico da Atividade Prática
m/n
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
1 2 3 4 5 6 7 8 9 10 …… 20 30 40 50 60
n
49
Método subjetivo
Definição 9.3. Cada indivíduo, baseado em informações anteriores e em sua opinião a respeito de um evento
em questão, pode ter uma resposta para a probabilidade desse evento.
Exemplo 9.8. Um médico experiente consegue calcular uma probabilidade de o indivíduo ter uma determinada
doença, a partir dos sintomas que o indivíduo apresenta. Note que outro médico pode calcular uma
probabilidade diferente para o mesmo indivíduo. Daí, o caráter subjetivo.
Método moderno
A definição clássica, frequentista e subjetiva de probabilidade, embora sejam bastante intuitivas e devendo, por
isso, ser sempre lembradas, não são definições matematicamente aceitáveis de probabilidade. Por exemplo, no
caso da definição frequentista, como saber se, à medida que o número de repetições de um experimento cresce,
a frequência relativa converge para um número? Além das dificuldades com o limite, existem muitas situações
em que é necessário o uso de probabilidades, e, no entanto, não é nem possível nem intuitivo pensar em
repetições.
Definição 9.4. Probabilidade é uma função P() , que associa a cada evento do espaço amostral , um número
real, pertencente ao intervalo [0, 1], satisfazendo os seguintes axiomas:
Axioma 1. 0 ≤ 𝑃(𝐴) ≤ 1.
Axioma 2. 𝑃() = 1.
Axioma 3. Se 𝐴 e 𝐵 são eventos mutuamente exclusivos, isto é, 𝐴 𝐵 = , então
𝑃 𝐴 ∪ 𝐵 = 𝑃(𝐴) + 𝑃(𝐵).
50
A partir desses axiomas, podemos demonstrar as seguintes propriedades:
P1: 𝑃() = 0, em que é o conjunto vazio.
Prova. Note que = ∪ e, e são mutuamente exclusivos. Então, pelo Axioma 3,
𝑃 = 𝑃 ∪ = 𝑃 + 𝑃()
o que resulta em 𝑃 = 0.
51
P6: Seja 𝐴1 , 𝐴2 , … , 𝐴𝑛 eventos quaisquer, então,
𝑛 𝑛
𝑟+1
𝑃 𝐴𝑖 = 𝑃 𝐴𝑖 − 𝑃 𝐴𝑖1 𝐴𝑖2 + ⋯ + −1 𝑃 𝐴𝑖1 𝐴𝑖2 ⋯ 𝐴𝑖𝑟 + ⋯
𝑖=1 𝑖=1 𝑖 1 <𝑖 2 𝑖 1 <𝑖 2 <⋯<𝑖 𝑟
𝑛
𝑛+1
+ −1 𝑃 𝐴𝑖
𝑖=1
Exemplo 9.9. Seguem alguns exemplos de funções já descobertas na literatura para calcular probabilidades, que
serão discutidas em detalhes nas próximas seções.
Distribuição Função de probabilidades
Bernoulli 𝑃 𝑋 = 𝑥 = 𝑝 𝑥 1 − 𝑝 1−𝑥 , 𝑥 = 0,1
𝑛 𝑥
Binomial 𝑃 𝑋=𝑥 = 𝑝 1 − 𝑝 𝑛−𝑥 , 𝑥 = 0,1, … , 𝑛
𝑥
𝑟 𝑁−𝑟
𝑥 𝑛−𝑥
𝑃 𝑋=𝑥 = ,
Hipergeométrica 𝑁
𝑛
𝑚á𝑥 0, 𝑛 − 𝑁 + 𝑟 ≤ 𝑥 ≤ 𝑚í𝑛(𝑛, 𝑟)
𝑒 −𝜆 𝜆
Poisson 𝑃 𝑋=𝑥 = , 𝑥 = 0,1,2, …
𝑥!
1
Uniforme 𝑓 𝑥 = ,𝛼 < 𝑥 < 𝛽
𝛽−𝛼
1 −
1 𝑥−𝜇 2
Normal 𝑓 𝑥 = 𝑒 2 𝜎 , −∞ < 𝑥 < +∞
2𝜋𝜎 2
52
2° Lista de Exercícios Complementares
53
10. Suponha que 16 seleções, entre as quais Brasil e jogo com 8 números.
Argentina, vão participar de um torneio. Serão
formados quatro grupos A, B, C e D de quatro 12. Brasil e Argentina participam de um
seleções cada, através de um sorteio. Qual é a campeonato internacional de futebol no qual
probabilidade de que Brasil e Argentina fiquem no competem oito seleções. Na primeira rodada serão
mesmo grupo? realizadas quatro partidas, nas quais os adversários
são escolhidos por sorteio. Qual é a probabilidade
11. Um cartão da Mega-Sena contém 60 números. de Brasil e Argentina se enfrentarem na primeira
Um apostador pode marcar de 6 a 15 números em rodada?
um cartão. Ganha a Mega-Sena aquele que acertar
os 6 números sorteados. Ainda recebem prêmios os 13. Uma caixa contém cinco bolas numeradas de 1 a
que acertam a quina ou quadra. Na figura a seguir 5. Dela são retiradas ao acaso duas bolas. Qual a
vemos os valores das apostas e as probabilidades de probabilidade de que o maior número assim
se ganhar algum prêmio na Mega-Sena. escolhido seja o 4?
54
números dos cartões escolhidos ser par?
18. Uma prova é constituída de 10 questões do tipo
17. Um supermercado consultou 300 pessoas a Verdadeiro ou Falso. Suponhamos que as 10
respeito da marca preferida de refrigerante da cada respostas foram marcadas aleatoriamente. Neste
um. O resultado da pesquisa está ilustrado na tabela caso:
abaixo:
(a) Qual é a probabilidade de se acertar exatamente
Nenhuma metade das questões da prova?
Marca X Marca Y
destes (b) Qual é a probabilidade de se acertar pelo menos
Homens 80 60 10 metade das questões da prova?
Mulheres 50 75 25
55
CAPÍTULO 10
FUNDAMENTOS DE PROBABILIDADE
10.1 Probabilidade condicional
10.2 Independência de eventos
10.3 Regra da probabilidade total
10.4 Teorema de Bayes
A probabilidade condicional surge, por exemplo, quando se deseja calcular a probabilidade de um evento A
ocorrer, sabendo que um evento B já ocorreu.
Sejam A e B dois eventos associados a um mesmo espaço amostral . Denota-se por P(A|B) a probabilidade
condicionada do evento A, quando o evento B tiver ocorrido.
Sempre que calculamos P(A|B), estamos essencialmente calculando P(A) em relação ao espaço amostral
reduzido, devido a B ter ocorrido, em lugar de fazê-lo em relação ao espaço amostral original . Assim, uma
definição mais formal de probabilidade condicional é dada pela definição 10.1.
Definição 10.1. Dados dois eventos A e B em um mesmo espaço 𝛺, a probabilidade condicional de A, dado que
ocorreu B, é representada por P(A | B) e definida por
𝑃(𝐴∩𝐵)
𝑃 𝐴𝐵 = ,𝑃 𝐵 > 0 (10.1)
𝑃(𝐵)
Exemplo 10.1. Um grupo de pessoas foi classificado quanto a peso e pressão arterial, de acordo com as
proporções do quadro, a seguir:
Peso
Pressão Excesso Normal Deficiente Total
Alta 0,10 0,08 0,02 0,20
Normal 0,15 0,45 0,20 0,80
Total 0,25 0,53 0,22 1,00
56
(a) Qual a probabilidade de uma pessoa escolhida, ao acaso, nesse grupo, ter pressão alta?
(b) Dado que a pessoa escolhida tem excesso de peso, qual a probabilidade de ela ter também pressão alta?
Solução.
(a) Como a pessoa é escolhida, ao acaso, em um grupo em que 20% têm pressão alta, chamando 𝐴, o evento
“ter pressão alta”, 𝑃(𝐴) = 0,20 é a probabilidade pedida.
(b) Chamemos 𝐵, o evento “ter excesso de peso”. Nosso interesse passa a ser
𝑃(𝐴 ∩ 𝐵) 0,10
𝑃 𝐴𝐵 = = = 0,40
𝑃(𝐵) 0,25
O que fizemos foi precisamente estabelecer a probabilidade condicional de 𝐴 dado 𝐵, 𝑃(𝐴|𝐵), a partir de
𝑃 𝐴 ∩ 𝐵 = 0,10 e 𝑃 𝐵 = 0,25.
Dois eventos A e B são independentes, se a ocorrência de um não altera a probabilidade de ocorrência do outro,
isto é, 𝑃(𝐴|𝐵) = 𝑃(𝐴) ou 𝑃(𝐵|𝐴) = 𝑃(𝐵), ou, ainda, a seguinte forma equivalente:
𝑃(𝐴𝐵) = 𝑃(𝐴) 𝑃(𝐵) (10.3)
Exemplo 10.2. Joaninha tem probabilidade de 0,8 de passar no vestibular, enquanto que Joãozinho tem
probabilidade 0,6. Qual a probabilidade de ambos passarem no vestibular? Qual a suposição a ser feita, nesse
caso, para calcular a probabilidade?
Solução. Sejam os eventos A: Joaninha passa no vestibular e B: Joãozinho passa no vestibular. Supondo
independência entre os eventos A e B, temos que a probabilidade de ambos passarem no vestibular é
𝑃(𝐴𝐵) = 0,8 𝑥 0,6 = 0,48.
Considere a sequência {𝐴1 , 𝐴2 , . . . , 𝐴𝑛 } como sendo uma partição do espaço amostral , isto é, 𝐴𝑖 𝐴𝑗 = ,
sempre que 𝑖 𝑗 e 𝐴1 𝐴2 . . . 𝐴𝑛 = . O diagrama da Figura 10.1 exibe uma partição de .
57
FIGURA 10.1 - Partição do e um evento qualquer 𝐷.
Vamos supor que o evento 𝐷 possa ocorrer juntamente com um e só um dos 𝑛 eventos mutuamente exclusivos,
𝐴1 , 𝐴2 , . . . , 𝐴𝑛 . Em outras palavras, vamos assumir que
𝐷 = (𝐷 𝐴1 ) (𝐷 𝐴2 ) . . . (𝐷 𝐴𝑛 ), (10.4)
em que os eventos 𝐷 𝐴𝑖 e 𝐷 𝐴𝑗 (com subscritos distintos 𝑖 e 𝑗) são mutuamente exclusivos.
𝑃 𝐷 = 𝑃 𝐴1 𝑃 𝐷 𝐴1 + 𝑃 𝐴2 𝑃 𝐷 𝐴2 + ⋯ + 𝑃 𝐴𝑛 𝑃 𝐷 𝐴𝑛 = 𝑃 𝐴𝑖 𝑃(𝐷|𝐴𝑖 )
𝑖=1
Exemplo 10.3. Uma mineradora explora três minas, denominadas A1, A2 e A3. A partir de pesquisas anteriores,
sabe-se que a probabilidade de encontrar ouro, na mina A1, é 0,1; na mina A2, é 0,05 e, na mina A3, é 0,2. Além
disso, essa mineradora tem explorado as minas A1, A2 e A3 nas proporções 0,3, 0,2 e 0,5, respectivamente. Qual
a probabilidade de a mineradora encontrar ouro?
Solução. Seja D = {encontrar ouro} e Aj = {explorando a j-ésima mina j}. Pela regra da probabilidade total,
temos
𝑃 𝐷 = 𝑃 𝐴1 𝑃 𝐷 𝐴1 + 𝑃 𝐴2 𝑃 𝐷 𝐴2 + 𝑃 𝐴3 𝑃 𝐷 𝐴3
= 0,3 × 0,1 + 0,2 × 0,05 + 0,5 × 0,2 = 0,14
58
10.4. Teorema de Bayes
Finalmente, uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo teorema de
Bayes. Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser revistas quando conhecemos algo
mais sobre os dados. A forma geral do teorema de Bayes pode ser introduzida através do Teorema 10.1.
Teorema 10.1. A probabilidade de ocorrência do evento Ai, supondo a ocorrência do evento D, é dada por
𝑃(𝐴𝑖 ∩ 𝐷) 𝑃 𝐴𝑖 𝑃 𝐷 𝐴𝑖
𝑃 𝐴𝑖 𝐷) = = 𝑛
𝑃(𝐷) 𝑗 =1 𝑃 𝐴𝑗 𝑃 𝐷 𝐴𝑗
O teorema de Bayes é uma generalização da probabilidade condicional, no caso de mais de dois eventos.
Exemplo 10.4. Considere, novamente, o Exemplo 10.3. Sabendo-se que a mineradora encontrou ouro, qual a
probabilidade de que tenha sido na mina A3?
59
3° Lista de Exercícios Complementares
As máquinas 2 e 4 são mais novas e, assim, a maior 5. Descreva o espaço amostral de cada um dos
parte da produção foi atribuída a elas. Suponha que seguintes experimentos.
o estoque atual reflita as porcentagens de produção (a) Sabe-se que um lote de 120 tampas de baterias
indicadas. para marca-passos contém um certo número de
(a) Se um parafuso é selecionado aleatoriamente do tampas defeituosas por causa de um problema com
estoque, qual é a probabilidade de que seja o material de isolamento aplicado. Três tampas são
60
aleatoriamente selecionadas (sem reposição) e são pessoal administrou um teste e deve comparar os
cuidadosamente inspecionadas. escores para cada possibilidade. Quantas
(b) Sabe-se que uma forma com 10 peças contém comparações deverão ser feitas pelo gerente?
uma unidade defeituosa e nove unidades boas.
Quatro peças são aleatoriamente selecionadas (sem 10. Máquinas de lavar podem ter cinco tipos de
reposição) e inspecionadas. defeitos graves e cinco tipos de defeitos menores.
(a) De quantas maneiras podem ocorrer um defeito
6. Um estado tem cinco milhões de veículos grave e um defeito menor?
registrados e está considerando a possibilidade de (b) De quantas maneiras podem ocorrer dois
usar placas de licenciamento com 6 símbolos, sendo defeitos graves e dois defeitos menores?
os três primeiros letras e os três últimos números.
Esse esquema é viável? 11. Considere o diagrama a seguir, que exibe um
sistema eletrônico com as probabilidades de
7. O gerente de uma pequena fábrica deseja saber o funcionamento apropriado dos componentes do
número de maneiras com que ele pode alocar os sistema. O sistema inteiro opera se a montagem III e
trabalhadores no primeiro turno. Ele tem 15 pelo menos um dos componentes de cada
trabalhadores que podem trabalhar como operadores montagem I e II funcionar.
de produção, 8 que podem trabalhar na manutenção
e 4 que podem ser supervisores. Se o turno requer 6
operadores, 2 pessoas na manutenção e um 1
supervisor, de quantas maneiras o turno pode ser
composto?
63
CAPÍTULO 11
11.1 Introdução
11.2 Esperança matemática e variância
11.3 Distribuições de probabilidades para variáveis aleatórias discretas
11.1. Introdução
Exemplo 11.1. Observa-se o sexo das crianças em famílias com três filhos. O espaço amostral é
= {(MMM), (MMF), (MFM), (FMM), (MFF), (FMF), (FFM), (FFF)}
Uma v.a. de interesse é X = {nº. de crianças do sexo masculino}. A cada evento simples ou ponto de ,
associamos um número, que é o valor assumido pela v.a. X:
Poderíamos, também, ter considerado o número de crianças do sexo feminino. Os valores de X, na mesma
ordem, seriam, então, 0, 1, 1, 1, 2, 2, 2, 3.
O passo fundamental para entendermos uma v.a. é associar a cada valor a sua probabilidade, obtendo, assim, a
sua distribuição de probabilidade.
X x1 x2 ... xn
P(X=x) P(X=x1) P(X=x2) ... P(X=xn)
64
A função de probabilidade (P()) deve satisfazer: 0 ≤ P(X=xi) ≤ 1 p/ xi e
n
i 1
P( X x i ) 1 .
Exemplo 11.2. Um certo departamento da UFSJ é formado por 35 professores, sendo 21 homens e 14 mulheres.
Uma comissão de 3 professores será constituída, sorteando-se, ao acaso, três membros do departamento. Qual a
probabilidade de a comissão ser formada, pelo menos, com duas mulheres?
Espaço
X Probabilidade
Amostral
21 20 19 Distribuição de Probabilidade
HHH 0 x x 0,203
35 34 33
21 20 14 X 0 1 2 3
HHM 1 x x 0,150
35 34 33 P(X) 0,203 0,450 0,291 0,056
HMH 1 0,150
21 14 13
HMM 2 x x 0,097 = 0,291+ 0,056
35 34 33
MMH 2 0,097
14 13 12
MMM 3 x x 0,056
35 34 33
Assim como definimos a média de uma distribuição de frequências, como a soma dos produtos dos diversos
valores observados pelas respectivas frequências relativas, é natural definirmos agora a média de uma v.a., ou
de sua distribuição de probabilidade, como a soma dos produtos dos diversos valores de xi da v.a. pelas
respectivas probabilidades P(X = xi).
A média de uma v.a. X é também chamada valor esperado ou esperança matemática, ou, simplesmente,
65
esperança de X. É representada por E(X) e se define como
n
E ( X ) x 1 P ( X x 1 ) x 2 P( X x 2 ) x n P( X x n ) x i P( X x i )
i 1
É uma média ponderada dos xi, em que os pesos são as probabilidades associadas.
Exemplo 11.3. Um lojista mantém extensos registros das vendas diárias de certo aparelho. O quadro, a seguir,
dá o número xi de aparelhos vendidos em uma semana e a respectiva probabilidade:
Número xi 0 1 2 3 4 5
Probabilidade P(X = xi) 0,1 0,1 0,2 0,3 0,2 0,1
Se for de R$ 20,00 o lucro por unidade vendida, qual o lucro esperado nas vendas de uma semana?
Solução. Calculemos, inicialmente, E(X), que é o número esperado de aparelhos vendidos em uma semana:
E(X) = (0)(0,1) + (1)(0,1) + (2)(0,2) + (3)(0,3) + (4)(0,2) + (5)(0,1) = 2,70.
Para x unidades vendidas, o lucro é 20x. Logo, o lucro esperado é de R$ 54,00.
Variância
Assim como a média é uma medida de posição de uma v.a., é natural que procuremos uma medida de dispersão
dessa variável em relação à média. Essa medida é a variância, a ser representada por 2 e definida por
n
2 Var (X) E[X E(X)]2 ( x i E(X)) 2 P(X x i )
i 1
Desenvolvendo o termo quadrático do somatório, obtemos uma expressão mais fácil de calcular a variância,
dada por
2 Var (X) E(X 2 ) [E(X)]2 ,
n
em que E(X 2 ) x i2 P(X x i ) .
i 1
Desvio Padrão
O desvio padrão () é a raiz quadrada positiva da variância. Tem sobre esse último a vantagem de exprimir a
dispersão, na mesma unidade de medida da v.a.
2
Para utilizar a teoria das probabilidades, no estudo de um fenômeno concreto, devemos encontrar um modelo
66
probabilístico adequado a tal fenômeno. Por modelo probabilístico para uma v.a. X, entendemos uma forma
específica de função de distribuição de probabilidade que reflita o comportamento de X.
Nesse processo de escolha, lançamos mão, em muitas situações, de algum modelo clássico. Nesta seção,
estudaremos os modelos discretos comumente utilizados: Uniforme Discreta, Bernoulli, Binomial,
Hipergeométrica e Poisson.
A mais simples de todas as distribuições discretas é aquela em que a variável aleatória assume cada um de seus
valores com igual probabilidade. Tal probabilidade é chamada de distribuição uniforme discreta.
Se a variável 𝑋 assume os valores 𝑥1 , 𝑥2 , … , 𝑥𝑘 com igual probabilidade, então a distribuição uniforme discreta
é dada por:
1
𝑃 𝑋 = 𝑥𝑖 = , 𝑖 = 1,2, … , 𝑘.
𝑘
Por ser um modelo probabilístico, a soma de todas as probabilidades, por definição, é o valor 1. Assim,
𝑘 𝑘
1 1
𝑃(𝑋 = 𝑥𝑖 ) = = 𝑘 × = 1.
𝑘 𝑘
𝑖=1 𝑖=1
Exemplo 11.4. Quando selecionamos uma lâmpada, aleatoriamente, de uma caixa que contém uma lâmpada de
40 watts, uma de 60 watts, uma de 75 watts e uma de 100 watts, cada elemento do espaço amostral Ω =
1
{40, 60, 75, 100} ocorre com probabilidade 4. Portanto temos uma distribuição uniforme com
1
𝑃 𝑋 = 𝑥𝑖 = , 𝑥 = 40, 60, 75, 100.
4
Esperança e Variância
A média e a variância da distribuição uniforme discreta são
𝑘
1
𝐸𝑋 = 𝑥𝑖 .
𝑘
𝑖=1
𝑘 𝑘 2 𝑘 𝑘 2
1 1 1 1
𝑉𝑎𝑟 𝑥 = 𝑥𝑖2 − 2 𝑥𝑖 = 𝑥𝑖2 − 𝑥𝑖 .
𝑘 𝑘 𝑘 𝑘
𝑖=1 𝑖=1 𝑖=1 𝑖=1
67
FIGURA 11.1 - Distribuição de probabilidade do modelo uniforme discreta para o evento lançamento de dado.
Na prática, existem muitos experimentos que admitem apenas dois resultados. Por exemplo, uma peça é
classificada como boa ou defeituosa; um entrevistado concorda ou não com a afirmação feita; o resultado de um
exame médico para detecção de uma doença é positivo ou negativo; no lançamento de um dado, ocorre ou não a
face 5.
Situações com alternativas dicotômicas podem ser representadas genericamente por respostas do tipo sucesso-
fracasso. Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma v.a. com distribuição
Bernoulli.
Denotamos por X ~ Bernoulli (p) uma v.a. com distribuição de Bernoulli com parâmetro 𝑝, se
1, se ocorrer " sucesso"
X com função de probabilidade,
0, se ocorrer " fracasso"
𝑃 𝑋 = 𝑥 = 𝑝𝑥 1 − 𝑝 1−𝑥
, 𝑥 = 0,1
Daí, segue que
𝐸(𝑋) = 𝑝 e 𝑉𝑎𝑟(𝑋) = 𝑝( 1 − 𝑝)
Repetições independentes de um ensaio de Bernoulli dão origem ao modelo binomial.
68
11.3.3. Modelo binomial
A v.a. X, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial com
parâmetros n e p, com função de probabilidade dada por
n
P(X x ) p x (1 p) n x , x 0,1,, n ,
x
n n!
em que , n! n(n 1)(n 2)(2)(1) e 0! 1 .
x x! ( n x )!
Usamos a seguinte notação: 𝑋 ~ 𝐵(𝑛; 𝑝). A média e a variância são dadas, respectivamente, por
𝐸(𝑋) = 𝑛𝑝 e 𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝)
Exemplo 11.5. Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10 pessoas dessa
população forem escolhidas, ao acaso e com reposição, determine:
(a) O nº esperado de inadimplentes;
(b) A probabilidade de selecionar, exatamente, 3 pessoas inadimplentes;
(c) A probabilidade de selecionar, no máximo, 3 inadimplentes.
Solução.
(a) X={número de pessoas inadimplentes}. Temos que E[X] = 10 x 0,2 = 2.
10
(b) P(X 3) 0,2 3 (1 0,2)103 0,2
3
3
10 10 10
(c) P(X 3) P(X i) 0,810 0,210,89 0,2 2 0,88 0,2 3 0,8 7 0,88
i 0 1 2 3
Considere um conjunto de N objetos dos quais (r) são do tipo I, e (N – r) são do tipo II. Um sorteio de n objetos
(n < N) é feito, ao acaso e sem reposição. A variável aleatória discreta X, que é igual ao número de objetos do
tipo I selecionados nesse sorteio, tem distribuição hipergeométrica.
Os valores possíveis de X vão de 𝑚á𝑥 0, 𝑛 − 𝑁 + 𝑟 a 𝑚í𝑛(𝑛, 𝑟), uma vez que não podemos ter mais do que o
número de objetos existentes do tipo I, nem mais que o total de sorteados.
Usamos a seguinte notação: 𝑋 ~ 𝐻𝑖𝑝𝑒𝑟𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎 (𝑁, 𝑛, 𝑟). A esperança e variância são dadas por
𝐸(𝑋) = 𝑛𝑝 e 𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝)(𝑁 − 𝑛)/(𝑁 − 1),
𝑟
em que 𝑝 = 𝑁 .
Exemplo 11.6. Uma fábrica produz peças que são embaladas em caixas com 40 unidades. Para aceitar o lote de
caixas enviado por essa fábrica, o controle de qualidade de uma empresa sorteia uma caixa do lote e sorteia 10
peças, sem reposição, dessa mesma caixa. Se houver alguma peça defeituosa, o lote inteiro é devolvido. Se a
caixa sorteada tiver 4 peças defeituosas, qual é a probabilidade de o lote não ser devolvido?
Solução. N = 40, n = 10 e 𝑟 = 4. 𝑋: número de peças defeituosas.
4 40 − 4
𝑃 𝑋=0 = 0 10 − 0 ≅ 0,3.
40
10
A distribuição de Poisson é empregada em experimentos nos quais não se está interessado no número de
sucessos obtido em n tentativas, como ocorre no caso da distribuição binomial, mas, sim, no número de
sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalo de tempo, espaço etc. Alguns
exemplos de variáveis que podem ter a distribuição de Poisson são:
70
número de defeitos por centímetro quadrado;
n° de acidentes por dia;
n° de clientes por hora;
n° de chamadas telefônicas recebidas por minuto.
Note-se que a unidade de medida (tempo, área) é contínua, mas a variável aleatória de interesse (número de
ocorrência) é discreta. Além disso, as falhas não são contáveis. Não é possível contar os acidentes que não
ocorreram, nem o número de defeitos por centímetros quadrados que não ocorreram.
O limite inferior do número de ocorrências, em todas as situações dos exemplos, é zero, enquanto que o limite
superior é – ao menos teoricamente – infinito, muito embora, na maioria dos exemplos acima, seja difícil
imaginar um número infinito de ocorrências.
As probabilidades, calculadas, agora, para todos os números inteiros não negativos 𝒙 = 𝟎, 𝟏, 𝟐, ⋯, são dadas da
seguinte forma:
e x
P( X x ) , 𝒙 = 𝟎, 𝟏, 𝟐, ⋯,
x!
em que “X = números de sucessos em um intervalo” é a variável de interesse, > 0 é o número médio de
sucessos da variável X e “e” é a constante 2,7183 (base dos logaritmos naturais).
Exemplo 11.7. Um departamento de conserto de máquinas recebe uma média de cinco chamadas por hora.
Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que, em uma hora
selecionada aleatoriamente, sejam recebidas exatamente três chamadas.
Solução. Seja X: número de chamadas para conserto de máquinas em uma hora. O parâmetro λ = 5/hora.
Aplicando na função da Poisson, temos
e 5 5 3
P(X 3) 0,14 .
3!
71
4° Lista de Exercícios Complementares
1. A distribuição de X: nº de crianças por domicílio bala com probabilidade 0,9. Os pedidos são
numa determinada região é dada pela tabela abaixo. atendidos pelo pai com probabilidade 0,5
X 0 1 2 3 4 5 independentemente. Se a pipoca custa R$2,00 e a
P(X) 0,10 0,15 0,25 0,30 0,15 0,05 bala R$3,00 estude a variável aleatória “despesa
efetuada com a ida ao cinema” construindo sua
Calcule: distribuição de probabilidade.
(a) O número médio de crianças por domicílio, X.
(b) O desvio padrão de X, X. 5. Suponha que a probabilidade de que um item
(c) A probabilidade P{X - X X X + X}. produzido por uma máquina seja defeituoso é de
0,2. Se 4 itens produzidos por esta máquina são
2. Sabe-se que 7% dos ratos machos de uma certa selecionados ao acaso, qual a probabilidade de que
linhagem são portadores de um defeito genético que não mais do que um item defeituoso seja
não ocorre em fêmeas. Responda: encontrado?
(a) Qual a probabilidade de encontrarmos, pelo
menos 1 animal com esse defeito genético, numa 6. Na manufatura de certo artigo, é sabido que a
ninhada com 5 machos? proporção de artigos defeituosos é de 0,1. Qual a
(b) Qual a probabilidade de encontrarmos, no probabilidade de que uma amostra casual de
máximo 3 animais com esse defeito genético, numa tamanho 5 contenha:
ninhada com 4 machos?
(a) nenhum defeituoso.
(b) exatamente um defeituoso.
(c) não mais que 2 defeituosos.
3. Numa central telefônica, o número de chamadas
chega, segundo uma distribuição Poisson, com a
média de oito chamadas por minuto. Determine qual 7. Um lote de 25 tubos de televisão é submetido a
(b) menos que duas chamadas; cinco tubos, sem reposição, e testá-los. Se dois ou
(c) entre sete (inclusive) e nove (exclusive) menos tubos falharem, os restantes são aceitos.
4. Um pai leva o filho ao cinema e gasta R$15,00 (a) Qual é a probabilidade de aceitação do lote?
nas duas entradas. O filho vai pedir para comer (b) Qual modelo probabilístico deve ser utilizado
pipoca com probabilidade 0,7 e pedir para comer para resolver o item (a)?
72
15000 apólices de seguro com cobertura contra tal
8. Um comerciante recebe pequenos lotes (𝑁 = 25) acidente.
de um aparelho de alta precisão. Suponha que ela (a) Qual o número esperado de ocorrência de
decida que a presença de um defeituoso na amostra sinistro contra essas apólices no próximo ano?
seja suficiente para causar rejeição. Se o lote (b) Qual é a probabilidade de que três ou menos
contém 7 defeituosos, calcule reclamações sejam preenchidas contra essas
(a) a probabilidade de rejeitar o lote se ele analisa apólices no próximo ano? E cinco reclamações ou
apenas 5 aparelhos na amostra. mais?
(b) o tamanho da amostra para que ele rejeite o lote
com pelo menos 95% de certeza. 12. A probabilidade de um veículo ter um acidente
em determinado cruzamento é de 0,0001. Suponha
9. Estima-se em 25 o número de carros que passam, que 10000 veículos por dia passem por esse
por hora, em um determinado cruzamento. Ache a cruzamento. Qual é a probabilidade de não ocorrer
probabilidade de que menos de 10 veículos passem acidente algum? Qual a probabilidade de dois ou
por esse cruzamento durante qualquer intervalo de mais acidentes?
uma hora. Suponha que o número de veículos siga
uma distribuição de Poisson. 13. Se a probabilidade de se envolver em um
acidente de carro é de 0,01 durante um ano, qual é a
10. Chamadas chegam a uma mesa telefônica de tal probabilidade de se ter dois ou mais acidentes
modo que o número delas por 10 minutos segue durante qualquer período de 10 anos?
uma distribuição de Poisson, com uma média de 3.
O equipamento existente pode lidar com até 6 14. Considere X: números de carros vendidos por
chamadas a cada 10 minutos sem se tornar dia em uma concessionária, como tendo uma
sobrecarregado. Qual é a probabilidade de distribuição de Poisson com média de 2 por dia.
ocorrência de uma sobrecarga? Calcule a probabilidade de que nos próximos 5 dias,
a concessionária venda pelo menos 5 carros? Dica:
11. Uma grande companhia de seguros descobriu Fazer o ajuste da taxa média considerando o
que 0,1% da população de um estado se machucam, processo homogêneo ao longo do tempo.
em um período de um ano, como consequência de
determinado tipo de acidente. Essa companhia tem
73
CAPÍTULO 12
12.1 Introdução
12.2 Esperança matemática e variância
12.3 Distribuições de probabilidades para variáveis aleatórias contínuas
12.1. Introdução
Até aqui estudamos variáveis aleatórias discretas que são caracterizadas por ter uma distribuição de
probabilidade dada por uma tabela que associa a cada um de seus valores uma probabilidade. Esta probabilidade
é um número entre 0 e 1 cuja soma é igual a 1. Vamos, agora, definir uma variável aleatória contínua.
Seja X uma variável aleatória. Suponha que os possíveis valores de X sejam um intervalo que possui infinitos
valores; então, dizemos que X é uma variável aleatória contínua.
No Exemplo 12.1, o número observado em cada um dos experimentos aleatórios é um número real e resulta, em
geral, de uma medição: altura das mulheres; nível de colesterol e tempo de duração da lâmpada.
Uma variável aleatória contínua assume seus possíveis valores em um determinado intervalo. A pergunta que
surge é “Como são atribuídas probabilidades nesse caso?”.
Exemplo 12.2. Suponha que observamos o peso, em kg, de 1500 pessoas adultas, selecionadas aleatoriamente
numa população. O histograma por densidade desses valores é apresentado na Figura 7.
74
0,05
0,04
0,03
Densidade
0,02
0,01
0,00
30 40 50 60 70 80 90 100 110
Peso
A análise do histograma indica que a distribuição dos valores da variável peso é aproximadamente simétrica,
em torno de 70 kg; a maioria dos valores encontra-se no intervalo (50; 90); existe uma pequena proporção de
valores abaixo de 50 kg e acima de 90 kg.
Seja X = {peso em kg} de uma pessoa adulta, escolhida ao acaso da população. Como se distribuem os valores
da v.a. X, ou seja, qual a distribuição de probabilidades de X?
0,05
0,04
0,03
Densidade
0,02
0,01
0,00
30 40 50 60 70 80 90 100 110
Peso
A Figura 12.2 ilustra o histograma da variável peso, apresentado na Figura 7, com o ajuste de uma função
densidade, conhecida como distribuição normal.
Para as variáveis contínuas, as probabilidades são atribuídas por meio de uma função cuja área entre a função e
o eixo das abscissas (X) é igual a um.
75
FIGURA 12.3 - Representação de uma função densidade de probabilidade contínua.
A área hachurada na Figura 12.3 ilustra a probabilidade de a v.a. contínua X estar no intervalo [a, b], ou seja,
P(a X b) = área hachurada.
Essa função f(x) é denominada função densidade de probabilidade (fdp) da variável aleatória contínua X.
Exemplo 12.3. Um fabricante de televisão a cores oferece uma garantia de 1 ano para substituição gratuita, se o
tubo de imagem falhar. Ele estima o tempo de falha (em unidades de anos), x, como uma variável aleatória
contínua com a seguinte fdp
1 x
e 4, x 0
f (x) 4 .
0 x0
Qual a probabilidade de você comprar a televisão e necessitar de uma substituição gratuita?
Solução.
1 x
1
P( x 1) e 4 dx 0,2
0
4
Definição 12.1. Dizemos que 𝑓 𝑥 é uma função densidade de probabilidade para uma variável aleatória
contínua 𝑋, se satisfaz duas condições:
a. 𝑓 𝑥 ≥ 0, para todo 𝑥 ∈ (−∞, ∞);
b. A área definida por 𝑓 𝑥 é igual a 1.
Segundo MAGALHÃES e PEDROSO DE LIMA (2011), com o auxílio do Cálculo Diferencial e Integral
podemos caracterizar a condição b. através de
76
∞
𝑓 𝑥 𝑑𝑥 = 1.
−∞
1 x 1
Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) denotado por E(X) é
definido como
E[X] xf (x)dx
Exemplo 12.5. Para uma variável que tem densidade f(x) = 2x, 0 < x < 1, então,
1 1 1
2 2
E[X] x 2x dx 2x 2 dx x 3 .
0 0
3 0 3
77
A variância de uma variável aleatória contínua é definida por:
1
Var(X) = E(X2) – [E(X)]2, onde E[X 2 ] x 2 f ( x ) dx .
0
Exemplo 12.6. Para uma variável que tem densidade f(x) = 2x, 0 < x < 1, calcule a variância de X, sabendo que
2
E[X] do Exemplo 5.5.
3
1 1 1
2 2
Solução. E[X 2 ] x 2 2x dx 2x 3 dx x 4 . Logo, Var[X] = 2/4 – (2/3)2 =1/18. Consequentemente, o
0 0
4 0 4
As distribuições discretas de probabilidades tratam de situações em que o espaço amostral contém um número
finito, ou infinito enumerável, de pontos. Se o espaço amostral contém um número infinito não enumerável de
pontos, temos que trabalhar com as distribuições contínuas de probabilidades. Abordaremos aqui, em caráter
mais intuitivo, a distribuição uniforme e a distribuição normal.
Uma v.a. X tem distribuição uniforme U(a, b), se sua função densidade de probabilidade é da forma
1
, axb
f (x) b a .
0, caso contrário
ab (b a ) 2
E[X] e Var [X]
2 12
Note que a média é exatamente o ponto médio do intervalo [a, b].
78
Exemplo 12.7. Devido à presença de quantidades variáveis de impureza, o ponto de fusão de certa substância
pode ser considerado uma v.a. contínua distribuída uniformemente no intervalo [100, 125]. Qual a probabilidade
de a substância fundir-se entre 110 e 115?
Solução. Nesse caso, a = 100, b = 125 e b – a = 25. A função densidade fica
1
, 100 x 125
f ( x ) 25
0, caso contrário
A probabilidade procurada é
115 110 5
115 115
1 1
P(110 X 115) dx x 0,2
110
25 25 110 25 25
e
1
𝑉𝑎𝑟 𝑋 = 𝐸 𝑋 2 − 𝐸 𝑋 =
𝜆2
O desvio padrão é 1/𝜆 e, assim, a média e o desvio padrão são iguais. O cálculo completo da variância da
exponencial é deixado como exercício para o leitor.
79
Exemplo 12.8 Sabe-se que um componente eletrônico tem vida útil representada por uma densidade
exponencial, com taxa de falha de 10−5 falhas por hora (isto é, 𝜆 = 10−5 ). O tempo médio de falha, 𝐸[𝑋], é,
portanto, 105 horas. Qual é a fração de tais componentes que falhariam antes da vida média ou vida esperada da
variável.
Solução. Seja 𝑇: tempo de vida do componente eletrônico. Do enunciado, podemos supor que 𝑇~𝐸𝑥𝑝(𝜆 =
10−5 ). Para encontrarmos a fração desses componentes que falhariam antes da vida média, devemos calcular a
seguinte probabilidade:
10 5
1 −5 𝑥 −5 𝑥 10 5
𝑃 𝑇≤ = 𝑃 𝑇 ≤ 105 = 10−5 𝑒 −10 𝑑𝑥 = −𝑒 −10 = 1 − 𝑒 −1 = 0,63212
𝜆 0
0
Nota. Esse resultado se verifica para qualquer valor de 𝜆 maior do que zero.
A distribuição Normal é a mais importante das distribuições contínuas de probabilidade. Foi introduzida em
1730, por D´Moivre, sendo muito utilizada em Astronomia, pelo alemão físico e matemático, Gauss, trazendo
muita confusão para várias pessoas que, por esse motivo, acham que foi Gauss quem a descobriu. Muitos dos
fenômenos aleatórios de interesse comportam-se próximos a essa distribuição com valores muito frequentes em
torno da média e diminuindo a frequência, à medida que nos afastamos da média.
A média da distribuição é ;
O desvio padrão é ;
A moda e a mediana são iguais a ;
A curva normal é simétrica em torno da média ;
Os pontos de inflexão são - e + ;
A área sob a curva e acima do eixo horizontal é
igual a 1.
A v.a. Normal, com média μ e variância σ2, é denotada por N(μ, σ2).
O cálculo direto de probabilidades envolvendo a distribuição normal exige recursos de cálculo infinitesimal e,
mesmo assim, dada a forma da função de densidade, não é um processo elementar. Por isso, as probabilidades,
81
foram tabeladas, permitindo-nos obter diretamente o valor da probabilidade desejada.
Notemos, entretanto, que a função de densidade normal depende de dois parâmetros, μ e σ, de modo que, se as
probabilidades fossem tabeladas diretamente, a partir dessa função, seriam necessárias tabelas de dupla entrada,
complicando-se consideravelmente. Recorre-se, por isso, a uma mudança de variável, transformando a v.a. X na
v.a. Z, assim definida:
X
Z .
Essa nova variável chama-se variável normal padronizada. Recebe esse nome, porque sua média é 0 e seu
desvio padrão é 1. Mediante tal transformação, basta construirmos uma única tabela, a da normal reduzida (ver
tabela no apêndice) e, através dela, obteremos as probabilidades associadas a todas as distribuições N(μ, σ2).
Note que essa transformação não altera a forma da distribuição, apenas refere-se a uma nova escala.
X
Assim, se quisermos calcular P(a X b) , sendo X ~ N(;2), podemos definir Z e calcular a
seguinte probabilidade:
a X b a b
P(a X b) Pa X b P P Z
Uma representação do cálculo dessa probabilidade é apresentada na Figura 12.5.
FIGURA 12.5 - Representação do cálculo da P(a X b), via variável normal padronizada Z.
82
De forma análoga, dada uma variável padronizada Z ~ N(0,1), podemos obter a v.a. X ~ N(, ), através da
2
i. P(-1 Z 2)
83
Exemplo 12.10. Seja X = {gasto com lanche semanal}. Após estudar esta variável, vimos que
X ~ N (20, 64), então, obtenha
(a) P(16<X<22)
(b) P(X<18 ou X>24)
Solução.
(a)
16 20 X 20 22 20
P(16 X 22) P P(0,5 Z 0,25)
8 8 8
(A(0,25) A(0)) (A(0,5) A(0)) (0,5987 0,5) (0,6915 0,5) 0,2902
(b)
X 20 18 20 X 20 24 20
P(X 18 ou X 24) P(X 18 ) P(X 24) P P
8 8 8 8
P( Z 0,25) P( Z 0,5) (1 A(0,25)) (1 A(0,5))
(1 0,5987) (1 0,6915) 0,7098
Solução. Como P(Z z) = 0,975, então z é tal que A(z) = 0,975. Pela tabela, z = 1,96.
84
c. P(Z z) = 0,975 d. P(Z z) = 0,10
e. P(-z Z z) = 0,80
Exemplo 12.12. Considere que 𝑋 ~ 𝑁(𝜇, 𝜎 2 ). Calcule 𝑘 tal que 𝑃(𝑋 𝑘) = 0,05.
Solução. Neste caso, temos que
X k k k
P(X k ) P P Z 0,05 A 0,95
k
1,64 k 1,64
Logo, o valor de k é k = μ+1,64 σ.
85
5° Lista de Exercícios Complementares
1. Encontre o valor z da distribuição N(0,1) tal que 4. O tempo de sobrevivência de uma bateria (em
(a) P(0 < Z z) = 0,4975 anos) pode ser modelado pela função
(b) P(Z z) = 0,975 e x , x0
f (x)
(c) P(-z Z z) = 0,80 0, caso contrário
(d) P(Z z) = 0,3 (a) Qual a probabilidade de a bateria sobreviver
probabilidade, através do item b. da definição 12.1. (a) Sorteando-se um aluno, ao acaso, qual é a
(d) Qual a probabilidade de o diâmetro estar entre permitir que 95% dos vestibulandos a terminem no
(e) Qual a probabilidade de o diâmetro ser maior (c) Qual o intervalo central de tempo tal que 80%
87
CAPÍTULO 13
TEORIA DE ESTIMAÇÃO
13.1 Introdução
13.2 Estimação de uma proporção
13.3 Estimação da média populacional
13.1. Introdução
A tomada de decisões sobre a população com base em estudos feitos sobre os dados da amostra constitui o
problema central da Inferência Estatística. A tais decisões está sempre associado um grau de incerteza e,
consequentemente, uma probabilidade de erro. A generalização da amostra para a população é feita com o
auxílio de um modelo estatístico para a situação em estudo.
Conceitos importantes
Parâmetro: qualquer função da população.
Exemplos: 𝑃 (proporção populacional), 𝜇 (média pop.) e 𝜎 2 (variância pop.).
Estimador: qualquer função da amostra.
Exemplos: 𝑃 (proporção), 𝑋 (média) e 𝑆 2 (variância).
Estimativa: valor que a estatística assume em uma amostra.
Exemplos: 𝑝 (proporção amostral), 𝑥 (média amostral) e 𝑠 2 (variância amostral).
𝑃: proporção de eleitores de São João del-Rei que votariam em um determinado candidato para prefeito;
𝑃: proporção de crianças de 2 a 6 anos do Estado de Minas Gerais, que não estão matriculadas em escola
de educação infantil.
Estimador pontual
O estimador pontual (proporção amostral) para 𝑃 (proporção populacional) é definido por:
𝑋
𝑃=
𝑛
sendo que 𝑋 denota o número de elementos na amostra que apresentam a característica;
𝑛 denota o tamanho da amostra coletada.
Obs. O valor assumido por 𝑝 na amostra é denominado estimativa pontual para 𝑃.
88
Exemplo 13.2. Sejam, 𝑃: proporção de alunos da UFSJ que foram ao cinema pelo menos uma vez no último
mês, e 𝑋: número de estudantes que responderam “sim” em uma pesquisa com 𝑛 entrevistados. Suponha que
foram entrevistados 𝑛 = 500 estudantes e que, desses, 𝑋 = 100 teriam afirmado que foram ao cinema pelo
𝑋 100
menos uma vez no último mês. A estimativa pontual (proporção amostral) é dada por: 𝑝 = 𝑛 = 500 = 0,2, ou
seja, 20% dos estudantes entrevistados afirmaram que foram ao cinema pelo menos uma vez no último mês.
Obs. Outra amostra de mesmo tamanho pode levar a outra estimativa pontual para 𝑃.
Intervalo de confiança
Ideia: Se selecionarmos várias amostras de uma população contendo 𝑛 dados, observaremos que cada amostra
terá sua respectiva proporção amostral (espera-se que todas sejam próximas). A fim de se obter uma estimativa
da proporção da população em estudo com certo grau de confiabilidade, recorremos a um intervalo de
confiança, que delimita essa proporção.
Na prática o intervalo de confiança para proporção populacional com um coeficiente de confiança 𝜸 é dado
por:
𝑝 1−𝑝 𝑝 1−𝑝
𝐼𝐶 𝑃; 𝛾 × 100 % = 𝑝 − 𝑧 ;𝑝 + 𝑧 ,
𝑛 𝑛
em que 𝑝 é a proporção amostral, 𝑛 é o tamanho amostral e 𝑧 é obtido da tabela da distribuição Normal Padrão
(ver tabela no apêndice), como ilustrado na figura a seguir.
Para encontrar corretamente o valor de z, devemos primeiro identificar o valor da área acumulada desde menos
infinito até o ponto z de interesse. Na figura acima, para um nível de confiança 𝜸 (área central entre os pontos –
1− 𝜸 𝟏+𝜸
z e z), a área acumulada até o ponto z é dado pela soma de duas áreas: 𝟐 + 𝜸 = 𝟐 . Para um valor de
1+𝛾 (1+0,95)
𝛾 = 0,95, encontramos z tal que a área até ele seja: 2
= 2
= 0,975, o que corresponde ao ponto z =
1,96.
89
A margem de erro 𝜀 quando trabalhamos com estimação intervalar para a proporção é:
𝑝 1−𝑝
𝜀=𝑧 .
𝑛
A demonstração deste fato se encontra no apêndice.
Exemplo 13.3. Retornando ao Exemplo 13.2 (𝑛 = 500 e 𝑝 = 0,20), suponha que o interesse agora seja
construir um intervalo de confiança para 𝑃 com coeficiente de confiança 𝛾 = 0,95.
Solução: Como 𝛾 = 0,95, temos que 𝑧 = 1,96. Com isso, o intervalo é dado por:
𝑝 1−𝑝 𝑝 1−𝑝 0,2 1−0,2
𝐼𝐶 𝑃; 95% = 𝑝 − 𝑧 ;𝑝 + 𝑧 = 0,2 ± 1,96 = 0,165; 0,235 .
𝑛 𝑛 500
Nesse intervalo 𝛾 = 0,95 , a estimativa pontual para 𝑃 é 0,2, com um erro amostral 𝜀 igual a 0,035 3,5% .
Interpretação do IC: Se sortearmos 100 amostras de tamanho 𝑛 = 500 e construirmos os respectivos 100
intervalos de confiança, com coeficiente de confiança de 𝛾 = 0,95, espera-se que, aproximadamente, 95 destes
intervalos contenham o verdadeiro valor de 𝑃.
Exemplo 13.4. Ainda do Exemplo 13.2, se for assumido uma margem de erro de 𝜀 = 0,03, qual seria a
confiança deste intervalo?
Com esses dados podemos calcular o valor de 𝑧 e, assim, obter 𝛾, o nível de confiança do intervalo.
Cálculo de 𝒛:
𝜀 𝑛 0,03 500
𝑧= = = 1,68
𝑝(1 − 𝑝) 0,2(1 − 0,2)
Logo, obtemos:
𝛾 ≅ 𝐴 1,68 − 1 − 𝐴 1,68 = 2 × 𝐴 1,68 − 1 = 2 × 0,9535 − 1 = 0,907 90,7% .
13.2.1. Exercícios
1. A gerente de uma empresa quer estimar a proporção 𝑃 de clientes que gostaram da última exposição de arte
apresentada pela empresa. Numa amostra de 300 clientes, 270 afirmaram que gostaram da exposição. Qual
seria a estimativa pontual de 𝑃?
2. Numa eleição de segundo turno, um instituto de pesquisa de opinião obteve num levantamento de boca de
urna que 40% 𝑝 = 0,4 dos entrevistados votaram no candidato A.
a. Construa intervalos de confiança para a verdadeira proporção 𝑃 de eleitores que votaram no candidato
A com coeficientes de confiança de 90%, 95% e 99%. Compare os intervalos e comente a diferença entre
eles. Admita que o tamanho da amostra seja 𝑛 = 150.
90
b. Construa intervalos de confiança para 𝑃 admitindo que a estimativa 𝑝 = 0,4 foi obtida de amostras de
tamanho 𝑛 = 100, 𝑛 = 150 e 𝑛 = 200. Compare os intervalos e comente a diferença entre eles.
Considere um coeficiente de confiança fixo de 𝛾 = 0,9.
3. Examinando 100 peças produzidas por uma máquina, foram encontradas 3 defeituosas. Obtenha a estimativa
intervalar, no nível de 95%, para a verdadeira proporção 𝑃 de peças defeituosas dessa máquina.
4. Uma amostra de 50 estudantes de uma universidade mostrou que 8 destes apresentam problemas visuais.
Obtenha a estimativa intervalar, no nível de 𝛾 = 0,9, para a verdadeira proporção de estudantes com problemas
visuais.
Objetivo: Estimar a média 𝝁 de uma variável aleatória 𝑋, que representa uma característica de interesse de uma
população, a partir de uma amostra.
Estimativa pontual
Observa-se 𝑛 elementos extraídos ao acaso de uma população. Para cada elemento selecionado, observa-se o
valor da variável 𝑋 de interesse, obtendo então, uma amostra aleatória de tamanho 𝑛 de 𝑋, sendo esta
representada por 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
Se selecionarmos várias amostras de uma população contendo 𝑛 dados, observaremos que cada amostra terá sua
respectiva média. A fim de obtermos uma estimativa da média da população em estudo com certo grau de
confiabilidade, recorremos a um intervalo de confiança, que delimita essa média.
𝑋 − 𝜀; 𝑋 + 𝜀
sendo 𝜺 o erro amostral (margem de erro).
91
Teorema Central do Limite
Se 𝑋1 , 𝑋2 , … , 𝑋𝑛 representa uma amostra aleatória de uma variável 𝑋 de média 𝜇 e desvio padrão 𝜎, então para
𝑛 grande
𝜎2
𝑋 ~𝑁 𝜇,
𝑛
𝜎2
Portanto, para 𝑛 grande a média amostral tem distribuição Normal de média 𝜇 e variância .
𝑛
Na prática, temos que o intervalo de confiança para 𝝁 com um nível de confiança 𝜸 é dado por:
𝜎2 𝜎2
𝐼𝐶 𝜇; 𝛾 × 100 % = 𝑋 − 𝑧 ; 𝑋+𝑧
𝑛 𝑛
em que 𝑋 é a média amostral, 𝑧 é obtido da tabela da distribuição Normal Padrão (Tabela I), 𝜎 2 é a variância
populacional e 𝑛 é o tamanho amostral.
A margem de erro 𝜀 quando trabalhamos com estimação intervalar para a média populacional com variância
populacional conhecida é:
𝜎2
𝜀=𝑧 .
𝑛
Exemplo 13.6. Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se, no
entanto, que o desvio padrão do consumo de combustível de automóveis dessa marca é 10 km/l. Na análise de
97 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l. Construa um intervalo de
confiança para o consumo médio de combustível dessa marca de carro. Adote um nível de confiança igual a
95%.
Solução.
𝑋: Consumo de combustível da marca T;
𝜎 = 10 ⇒ 𝜎 2 = 100; 𝑛 = 97; 𝑥 = 8 km/l 𝛾 = 0,95 ⇒ 𝑧 = 1,96
𝜎2 𝜎2 100
𝐼𝐶 𝜇; 95% = 𝑋 − 𝑧 ; 𝑋+𝑧 = 8 ± 1,96 = 6,01; 9,99
𝑛 𝑛 97
Portanto, a estimativa intervalar para a média do consumo com 95% de confiança é 6,01; 9,99 .
Exemplo 13.7. Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município.
Sabe-se que o tempo de estudo tem distribuição Normal com desvio padrão 𝜎 = 2,6 anos. Foram entrevistados
𝑛 = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual há 10,5 anos. Obter um
intervalo de 90% de confiança para o tempo médio de estudo populacional deste município.
Solução.
𝑋: tempo de estudo (em anos) 𝑋~𝑁 𝜇, 2,6 2 = 𝑁 𝜇, 6,76
𝑛 = 25 e 𝑥 = 10,5 anos 𝛾 = 0,9 ⇒ 𝑧 = 1,64
A estimativa intervalar com 𝛾 = 90% de confiança é dada por:
𝜎2 𝜎2 6,76
𝐼𝐶 𝜇; 90% = 𝑋 − 𝑧 ; 𝑋+𝑧 = 10,5 ± 1,64 = 9,65; 11,35
𝑛 𝑛 25
Portanto, a estimativa intervalar para a média do tempo de estudo neste município com 90% de confiança é
9,65; 11,35 .
92
13.3.2. Exercícios
1. Estabeleça um intervalo de confiança para a média populacional, sendo que o desvio padrão populacional é 4,
o tamanho amostral é 36 e a média amostral igual a 30. Utilize um nível de confiança de 95% para a média.
2. Uma amostra de 64 elementos de uma variável normalmente distribuída forneceu média 25,4, sendo que o
desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a média populacional.
Nessa situação, para calcularmos o intervalo de confiança substituímos a variável 𝒁 por 𝑻, onde 𝑻 possui
distribuição 𝒕 de Student com 𝑛 − 1 graus de liberdade. Assim, uma estimativa intervalar para a média
populacional 𝝁, quando 𝝈𝟐 é desconhecido, é
𝑆2 𝑆2
𝐼𝐶 𝜇; 𝛾 × 100 % = 𝑋 − 𝑡 ; 𝑋+𝑡
𝑛 𝑛
em que 𝑋 é a média amostral, 𝑡 é obtido da tabela da distribuição 𝑡 de Student (Tabela II), cruzando os graus de
liberdade 𝑔𝑙 = 𝑛 − 1 com o 𝑝 (cauda da extremidade superior), 𝑆 2 é a variância amostral e 𝑛 é o tamanho
amostral.
A margem de erro 𝜀 quando trabalhamos com estimação intervalar para a média populacional com variância
populacional desconhecida é:
𝑆2
𝜀=𝑡 .
𝑛
Na prática, quando a variância populacional 𝝈𝟐 é desconhecida, a mesma é substituída por sua estimativa
pontual:
𝑛
2
1 2
𝑆 = 𝑋𝑖 − 𝑋
𝑛−1
𝑖=1
Obs: Lembre que a estimativa amostral do desvio padrão 𝜎 é 𝑆 = 𝑆 2 .
A variável 𝑇 é bem próxima da normal padrão 𝑍 quando a amostra é maior ou igual a 25, porém para amostras
menores que esse valor essa variável vai se afastando de 𝑍 e, quanto menor for o valor de 𝑛, maior é o
afastamento existente entre as variáveis 𝑇 e 𝑍.
93
A tabela da 𝑡 de Student (ver tabela no apêndice) contém na 1ª linha, a área locada na cauda (extremidade)
superior da curva. Na 1ª coluna, estão os graus de liberdade 𝑔𝑙 = 𝑛 − 1 . Na interseção dos valores
considerados, temos os valores de 𝑡 correspondente.
Exemplo 13.9. Qual é o intervalo de confiança para a média, com um nível de 95%, sendo que uma amostra de
tamanho 20 forneceu média 38 e desvio padrão 5?
Solução.
𝑥 = 38, 𝑛 = 20, 𝑆 = 5. Para um nível de 𝛾 = 95% de confiança, obtemos da tabela da 𝑡 de Student:
𝑡 19;2,5% = 2,093. Assim:
𝑆2 𝑆2 52
𝐼𝐶 𝜇, 95% = 𝑥 − 𝑡 ;𝑥 + 𝑡 = 38 ± 2,093 = 35,66; 40,34 .
𝑛 𝑛 20
Exemplo 13.10. Estabeleça limites de confiança para a média, no nível de 90%, sendo que uma amostra de
tamanho 16 forneceu média 70 e desvio padrão 6,8?
Solução.
Temos que x 70 , n = 16, s = 6,8. . No nível de 90% de confiança, obtemos da tabela da t de Student:
𝑡 15; 5% = 1,753. Assim:
𝑆2 𝑆2 6,82
𝐼𝐶 𝜇; 90% = 𝑋 − 𝑡 ; 𝑋+𝑡 = 70 ± 1,753 = 67,02; 72,98 .
𝑛 𝑛 16
13.3.4. Exercícios
1. Determine o intervalo de confiança de 99% para a média, sendo que uma amostra de tamanho 9 forneceu
média 75 e desvio padrão 7.
2. Determine o intervalo de confiança de 95% para a média do ponto de fusão de uma substância química,
sendo que uma amostra de 9 pontos de fusão desta mesma substância forneceu uma média 65 e um desvio
padrão amostral igual a 10.
94
CAPÍTULO 14
14.1 Introdução
14.2 Formulação de hipóteses
14.3 Tipos de erros possíveis nos testes de hipóteses
14.4 Nível de significância de um teste de hipótese
14.5 Teste para a proporção
14.6 Testes sobre a média com variância populacional conhecida
14.7 Testes sobre a média com variância populacional desconhecida
14.8 Fórmulas para intervalos de confianças e testes de hipóteses
14.1. Introdução
Quando retiramos uma amostra de uma determinada população, nosso objetivo é tirar conclusões sobre os
parâmetros dessa população. Assim, a partir das informações amostrais estimamos os parâmetros da população.
Entretanto, se existe algum referencial sobre valores que os parâmetros de uma população devem assumir,
podemos testar hipóteses, formuladas sobre esses parâmetros, de conformidade com as informações obtidas da
amostra. Igualmente, pode-se testar a hipótese de que uma amostra pertence a uma população de parâmetros
dados ou ainda, se duas populações têm parâmetros iguais.
Para testarmos parâmetros de uma população, formulamos hipóteses a respeito desses parâmetros. Essas
hipóteses são denominadas:
𝐻0 : Hipótese nula 𝐻𝑎 : Hipótese alternativa
Testar hipóteses formuladas consiste em decidir se aceita ou se rejeita a hipótese nula (𝐻0 ). Quando se rejeita a
hipótese nula, automaticamente está sendo aceita a hipótese alternativa (𝐻𝑎 ).
95
Exemplo 14.1. Deseja-se testar se a proporção de peças defeituosas produzidas por uma máquina é 𝑝 = 0,05.
As hipóteses possíveis são:
a) 𝐻0 : 𝑝 = 0,05 b) 𝐻0 : 𝑝 = 0,05 c) 𝐻0 : 𝑝 = 0,05
𝐻𝑎 : 𝑝 ≠ 0,05 𝐻𝑎 : 𝑝 > 0,05 𝐻𝑎 : 𝑝 < 0,05
Teste bilateral Teste unilateral à direita Teste unilateral à esquerda
Nota: Alguns livros-textos usam os símbolos ≤ ou ≥ na hipótese nula 𝐻0 nos casos b) e c) respectivamente.
Contudo, a maioria dos periódicos profissionais usa apenas o símbolo de igualdade, sendo este procedimento
também adotado nesse material.
Os valores de 𝜶 e 𝜷 são as probabilidades de cada um dos erros tipo I e tipo II ocorrerem, respectivamente, ou
seja,
𝛼 = P(erro tipo I) = P(rejeitar 𝐻0 dado que 𝐻0 é verdadeira)
𝛽 = P(erro tipo II) = P(aceitar 𝐻0 dado que 𝐻0 é falsa)
TABELA 14.1
Erros Tipo I e Tipo II
Estado verdadeiro da natureza
𝐻0 é verdadeira 𝐻0 é falsa
Erro Tipo I (𝜶)
Rejeita-se
(rejeitar uma hipótese Decisão correta
𝐻0
nula verdadeira)
Decisão
Erro Tipo I (𝜷)
Não se rejeita 𝐻0 Decisão correta (deixar de rejeitar uma
hipótese nula falsa)
Quando se deseja testar hipóteses, o primeiro passo é fixar o nível de significância, antes mesmo de se obter
uma amostra.
Geralmente, quanto menor for à probabilidade de se cometer o erro tipo I, maior será a probabilidade de se
cometer o erro do tipo II. A única forma de se reduzir às probabilidades relativas aos dois tipos de erros é
aumentando o tamanho da amostra 𝒏 , pois quanto maior for à amostra, maior será a precisão das estimativas
dos parâmetros.
96
14.5. Teste para a proporção
Exemplo 14.2. Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas.
Utilizando um nível de significância de 5%, teste se a proporção populacional de peças defeituosas desta
máquina é maior que 0,03.
Solução.
O primeiro passo é a construção das hipóteses:
𝐻0 : 𝑝 = 0,03
𝐻𝑎 : 𝑝 > 0,03 (curva unilateral à direita)
Note que poderíamos ter escrito, também, 𝐻0 : 𝑝 ≤ 0,03.
A partir do nível de significância adotado (5%), podemos construir as regiões de aceitação e rejeição da
hipótese nula. A figura a seguir ilustra essas duas regiões.
Região de
Aceitação
Região Crítica
O teste de uma proporção utiliza a distribuição Normal. Assim, o valor de 𝑧 da tabela da distribuição Normal
Padrão cuja área acumulada até ele é 95% (ou acima dele é 5%) é 𝒛 = 𝟏, 𝟔𝟒.
A partir dos dados amostrais podemos encontrar o valor da Estatística do Teste. No caso do teste para uma
proporção, usamos a seguinte fórmula:
Conclusão do teste: Como 𝑧𝑜𝑏𝑠 0,5862 < 𝑧 1,64 , o mesmo pertence à região de aceitação. Logo, se aceita
a hipótese nula 𝐻0 , isto é, se aceita a hipótese de que a proporção populacional de peças defeituosas é igual a
0,03, ao nível de significância de 5%. Podemos ainda dizer que, não há indícios suficientes para afirmarmos
estatisticamente que a proporção populacional de peças defeituosas é maior que 3%.
Exemplo 14.3. Numa amostra de 100 peças produzidas por uma máquina foram encontradas 3 defeituosas.
Utilizando um nível de significância de 5%, teste se a proporção populacional de peças defeituosas desta
máquina é menor que 0,08.
Solução.
Hipóteses: 𝐻0 : 𝑝 = 0,08 𝐻𝑎 : 𝑝 < 0,08 (curva unilateral à esquerda)
97
Regra de decisão para nível de significância 𝛼 = 0,05:
Região de
Região de 0,05 Aceitação
rejeição
Conclusão do teste: Como 𝑧𝑜𝑏𝑠 −1,84 < 𝑧 −1,64 , rejeita-se 𝐻0 , ou seja, há indícios de que a proporção de
peças defeituosas é menor que 0,08.
Exemplo 14.4. Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas.
Utilizando um nível de significância de 5%, teste se a proporção populacional de peças defeituosas desta
máquina é diferente de 0,05.
Solução.
Hipóteses: 𝐻0 : 𝑝 = 0,05
𝐻𝑎 : 𝑝 ≠ 0,05 (teste bilateral)
0,025
0,025 Região de Aceitação
Regiões Críticas
Considerando o nível de significância de 5%, temos que os 𝑧’s que são – 𝒛 = −𝟏, 𝟗𝟔 e 𝒛 = 𝟏, 𝟗𝟔. O valor de 𝑧
observado na amostra é:
𝑝−𝑝 0,04 − 0,05
𝑧𝑜𝑏𝑠 = = ≅ −0,46
𝑝 1−𝑝 0,05 1 − 0,05
𝑛 100
Conclusão do teste: Como – 𝑧 = −1,96 < 𝑧𝑜𝑏𝑠 −0,46 < 𝑧 1,96 , não rejeitamos 𝐻0 , isto é, aceitamos a
hipótese de que a proporção de peças defeituosas é igual a 0,05.
98
14.5.1. Exercícios
1. Uma nova série de televisão precisa provar que tem mais do que 25% de audiência de telespectadores depois
das 13 primeiras semanas de exibição para ser julgada bem-sucedida. Considere que uma amostra de 400
famílias forneceu a informação que 112 destas estavam vendo a nova série. Com um nível de significância de
10%, a série pode ser julgada bem-sucedida com base na informação da amostra? Qual a sua conclusão do teste
de hipótese?
2. Uma moeda é lançada 100 vezes sendo obtida 42 caras. Teste com um nível de significância de 10% a
hipótese de que essa moeda é viciada.
3. Uma amostra de 50 alunos de uma escola de 1° grau apresentou 3 canhotos. Testar, ao nível de significância
10%, a hipótese de que a proporção de alunos canhotos dessa escola é diferente de 0,05.
Exemplo 14.5. Um comerciante atacadista de cereal admite uma média de impureza de 0,5 kg nas sacas de 60
kg desse cereal. Ao se tomar uma amostra de certo número de sacas de um novo fornecedor, obtém-se um valor
para a média e o desvio padrão, que permitirão, com certa probabilidade de êxito, decidir se a média de
impurezas por saca do novo fornecedor é igual a 0,5 kg, ou se é maior ou menor que 0,5 kg.
Exemplo 14.6. Uma amostra de 36 elementos de uma variável 𝑋 normalmente distribuída forneceu média
𝑥 = 42,3. Sabendo que a desvio padrão populacional 𝜎 = 5,2, teste ao nível de significância de 5%, a hipótese
de que a média é maior que 40.
Solução.
Hipóteses: 𝐻0 : = 40
𝐻𝑎 : > 40 (curva unilateral à direita)
Nível de significância 𝛼 = 5% ⇒ 𝑧 = 1,64.
Valor de 𝑧 observado na amostra:
𝑥−𝜇 42,3 − 40
𝑧𝑜𝑏𝑠 = = ≅ 2,65
𝜎2 5,22
𝑛 36
99
Região de
Aceitação
Região Crítica
Conclusão do teste: Como 𝑧𝑜𝑏𝑠 2,65 > 𝑧 1,64 , rejeita-se 𝐻0 , isto é, aceito a hipótese de que a média da
população é maior que 40.
Exemplo 14.7. Uma amostra de 36 elementos de uma variável 𝑋 normalmente distribuída forneceu média
𝑥 = 42. Sabendo que o desvio padrão populacional é 𝜎 = 12. Testar ao nível de significância de 5%, a hipótese
de que a média é menor que 44.
Solução.
Hipóteses: 𝐻0 : = 44
𝐻𝑎 : < 44 (curva unilateral à esquerda)
Nível de significância 𝛼 = 5% ⇒ 𝑧 = 1,64
Valor de 𝑧 observado na amostra:
𝑥−𝜇 42 − 44
𝑧𝑜𝑏𝑠 = = = −1
𝜎2 122
𝑛 36
Região de
Região de 0,05 Aceitação
rejeição
Conclusão do teste: Como 𝑧𝑜𝑏𝑠 −1 > 𝑧 −1,64 , aceita-se 𝐻0 , isto é, aceito a hipótese de que a média da
população é igual a 44.
Exemplo 14.8. Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média
𝑥 = 40. Sabendo que o desvio padrão populacional é 𝜎 = 12. Testar ao nível de significância de 5%, a hipótese
de que a média é diferente de 40.
Hipóteses: 𝐻0 : = 40
𝐻𝑎 : ≠ 40 (teste bilateral)
Nível de significância 𝛼 = 5% ⇒ −𝑧 = −1,96 e 𝑧 = 1,96.
Valor de 𝑧 observado na amostra:
𝑥−𝜇 40 − 40
𝑧𝑜𝑏𝑠 = = =0
𝜎2 122
𝑛 36
100
0,025
0,025 Região de Aceitação
Regiões Críticas
Conclusão do teste: Como – 𝑧 = −1,96 < 𝑧𝑜𝑏𝑠 0 < 𝑧 1,96 , então aceito 𝐻0 , isto é, aceito a hipótese de
que a média da população é igual a 40.
14.6.1. Exercícios
1. Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição Normal, com média
𝜇 e variância (conhecida) 400 g2. A máquina foi regulada para 𝜇 = 500g. Desejamos, de meia em meia hora,
obter uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se 𝜇 = 500g ou não. Se uma
dessas amostras apresentasse uma média 𝑋 = 492g, você pararia ou não a produção? Considere um nível de
significância de 1%.
2. Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição Normal, com desvio
padrão 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de
produção se a média de consumo per capita fosse menor que 8 kg. Caso contrário continuaria a fabricá-lo. Foi
realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo
mensal médio de 7,2. Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e
com base nos resultados da amostra, determine a decisão a ser tomada pela diretoria.
Exemplo 14.9. Foi testada uma amostra de 9 cigarros de certa marca, com relação ao nível de nicotina,
fornecendo média x = 42 mg e desvio padrão s = 6 mg. Testar ao nível de significância de 5%, a hipótese de
que a média é maior que 40 mg.
Solução.
Hipóteses: 𝐻0 : = 40
𝐻𝑎 : > 40 (curva unilateral à direita)
Considerando um nível de significância de 5%, obtemos na tabela de t de Student: 𝑡 8; 5% = 1,860.
101
Conclusão do teste: Como tobs (1) < t (1,860), aceita-se 𝐻0 , isto é, aceito a hipótese de que a média da
população é igual a 40.
Exemplo 14.10. Uma nova amostra de 16 cigarros da mesma marca forneceu média x = 40 mg e desvio padrão
s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é menor que 44 mg.
Solução.
Hipóteses: 𝐻0 : = 44
𝐻𝑎 : < 44 (curva unilateral à esquerda)
Conclusão do teste: Como tobs (-4) < t (-1,753), rejeita-se 𝐻0 , isto é, aceito a hipótese de que a média da
população é menor que 44.
Exemplo 14.11. Outra amostra de 16 cigarros forneceu média x = 42 mg e desvio padrão s = 4 mg. Testar ao
nível de significância de 5%, a hipótese de que a média é diferente de 40.
Hipóteses: 𝐻0 : = 40
𝐻0 : ≠ 40 (teste bilateral)
Como o teste é bilateral e o = 5%, obtemos na tabela de t de Student: 𝑡 15;0,025 = 2,131.
102
Conclusão do teste: Como - t = -2,131 < tobs (2) < t = 2,131, aceita-se 𝐻0 , isto é, aceito a hipótese de que a
média da população é igual a 40.
14.7.1. Exercícios
1. A experiência de muitos anos de uso de um dispositivo eletrônico, da marca A, tem mostrado que sua vida
média é de = 286 horas. Uma amostra de n = 16 dispositivos de uma nova marca B deu uma vida média de x
= 290 horas com desvio padrão de s = 8 horas. Testar, ao nível de significância de 10%, se os dispositivos das
duas marcas têm a mesma vida média ou se a vida média do B é maior que a do A.
2. A experiência de uso de uma lâmpada, da marca A, tem mostrado que sua vida média é de 300 horas. Uma
amostra de 9 lâmpadas de uma nova marca B deu uma vida média de 290 horas com desvio padrão de 6 horas.
Testar, ao nível de significância de 10%, se as lâmpadas da marca B têm vida média menor do que as da marca
A.
3. Uma amostra de 16 empregados de uma empresa forneceu os seguintes resultados com relação às alturas:
média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% a hipótese de que a média da população é
diferente de 175cm.
103
14.8. Fórmulas para intervalos de confianças e testes de hipóteses
Tabela: Estimadores para IC e testes para uma única população.
Técnica Situação Estimadores
Proporção 𝑝(1 − 𝑝)
𝐼𝐶 𝑃; 𝛾 = 𝑝 ± 𝑧
Populacional 𝑛
Intervalo 𝜎2
Média pop. com 𝜎 2
de 𝐼𝐶 𝜇; 𝛾 = 𝑥 ± 𝑧
Confiança
conhecida 𝑛
p̂
X
z obs
p̂ p ~ N(0,1)
Teste para proporção n p(1 p)
populacional
n
Teste para média (x )
Teste z obs ~ N (0,1)
pop. com variância 2
de populacional
Hipóteses n
conhecida
(x )
Teste para média t obs ~ t ( n1)
S2
pop. com variância
pop. desconhecida n
104
6° Lista de Exercícios Complementares
1. Em um teste de sensitividade levado a efeito em 18 válvulas de certa marca, obtiveram-se média de 3,2
microvolts e variância de 0,2. Determinar um intervalo de 95% de confiança para a sensitividade média da
população de válvulas.
2. Se o desvio padrão populacional das durações das válvulas de televisão é de 100 horas, que tamanho de
amostra deveria ser tomado para que se estivesse confiante 90% de que o erro da estimativa da duração média
seja de 20 horas?
3. O fabricante de uma droga medicinal afirmou que a mesma era, no mínimo, 90% eficaz em curar uma alergia,
em um período de 8 horas. Em uma amostra de 200 pessoas que tinham alergia, a droga curou 160 pessoas.
Teste se a pretensão do fabricante é legítima com um nível de significância de 5%.
4. Calcule o intervalo de confiança para a média populacional em cada um dos casos abaixo:
Média Tamanho da Desvio Padrão Coeficiente de
Amostral Amostra Populacional Confiança
165 cm 184 30 cm 85,02%
180 cm 225 30 cm 69,70%
5. Qual deve ser o tamanho da amostra para que a diferença da média amostral para a média da população
(erro), em valor absoluto, seja igual a 1, com coeficiente de confiança igual a 99%, sabendo que uma amostra
piloto de tamanho 16 dessa população forneceu um desvio padrão igual a 10.
6. Verificou-se, por meio de experiências, que a tensão média de ruptura do fio de uma certa marca é de 9,72 kg,
com desvio padrão de 1,40 kg. Recentemente, uma amostra de 36 peças do fio apresentou a tensão média de
ruptura de 8,93 kg. Pode-se concluir, no nível de significância de 0,01 que o fio se tornou de qualidade inferior?
7. Antes de uma eleição, um determinado partido está interessado em estimar a proporção P de eleitores
favoráveis ao seu candidato. Uma amostra piloto de 100 pessoas revelou que 60% dos eleitores eram favoráveis
ao candidato em questão. Determine o tamanho amostral necessário para que o erro cometido na estimação seja
de, no máximo, 0.01 com probabilidade de 80%.
8. Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina, mas a secretaria de saúde
contradiz essa afirmação, afirmando que contém mais que 30 mg. Uma amostra de 25 cigarros fornece média
de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, os dados refutam a afirmação da secretaria de saúde?
9. Antes de uma eleição em que existiam 2 candidatos, João e Salomão, foi feita uma pesquisa com 500
eleitores escolhidos ao acaso, e verificou-se que 258 deles pretendiam votar no candidato Salomão. Construa
um intervalo de confiança, com coeficiente de confiança de 95% para a proporção de eleitores favoráveis ao
candidato Salomão na época das eleições.
105
Apêndice A. Tabela da distribuição normal padrão
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
106
Apêndice B. Tabela da distribuição 𝒕 de Student
107
Apêndice C.
108
Apêndice D.
𝑃 𝑝−𝑝 <𝜀 =𝛾
⟺ 𝑃 −𝜀 < 𝑝 − 𝑝 < 𝜀 = 𝛾
𝑋
⟺ 𝑃 −𝜀 < −𝑝<𝜀 =𝛾
𝑛
⟺ 𝑃 −𝜀𝑛 < 𝑋 − 𝑛𝑝 < 𝜀𝑛 = 𝛾
−𝜀𝑛 𝑥 − 𝑛𝑝 𝜀𝑛
⟺𝑃 < < =𝛾
𝑛𝑝(1 − 𝑝) 𝑛𝑝(1 − 𝑝) 𝑛𝑝(1 − 𝑝)
Agora, considerando que 𝑋~𝐵(𝑛, 𝑝), temos que 𝐸 𝑋 = 𝑛𝑝 e 𝑉𝑎𝑟 𝑋 = 𝑛𝑝(1 − 𝑝). Pelo teorema central do
𝑋−𝑛𝑝
limite, temos que 𝑍 = ~𝑁 0,1 . Logo,
𝑛𝑝 (1−𝑝)
−𝜀𝑛 𝜀𝑛
⟺𝑃 <𝑍< =𝛾
𝑛𝑝(1 − 𝑝) 𝑛𝑝(1 − 𝑝)
𝜀𝑛
⟺ 𝑧𝛾 =
𝑛𝑝(1 − 𝑝)
𝑝(1 − 𝑝)
⟺ 𝜀 = 𝑧𝛾
𝑛
Como o valor real de p é desconhecido, usamos na prática sua estimativa obtida da amostra,
𝑝(1 − 𝑝)
𝜀 = 𝑧𝛾
𝑛
109
Apêndice E. Gabaritos
2) (a) Qualitativa Ordinal; (b) Qualitativa Nominal; (c) Quantitativa Discreta; (d) Quantitativa Contínua.
3) Aleatória Simples: 61, 09, 26, 29, 11, 77, 79, 04, 57, 59.
Sistemática:N/n = 80/10 = 8; x = 6; Amostra: 6, 14, 22, 30, 38, 46, 54, 62, 70, 78.
Estratificada: Mulheres (4): 09, 26, 29, 11. Homens (6): 09, 26, 29, 11, 04, 02.
4) Zonas: 045, 020, 099, 033, 197, 166, 040, 005, 038, 115, 041, 173, 030, 025, 123.
5) (a)
Tabela: Conceitos obtidos de 60 alunos na disciplina de Estatística na Escola E
Conceitos Frequência Absoluta Proporção Porcentagem
Ótimo 03 0,05 05,0
Bom 22 0,367 36,7
Médio 25 0,417 41,7
Ruim 10 0,166 16,6
Total 60 1 100
Interpretação: Podemos observar na Tabela acima que a maior proporção dos alunos da Escola E obtiveram
conceito Médio na disciplina Estatística (42%) e apenas 5% conquistaram o conceito Ótimo. Além disso, 37%
concluíram com conceito Bom e 16% com conceito Ruim.
(b)
25
25
22
20
Frequência Absoluta
15
10
10
5
3
0
Ótimo Bom Médio Ruim
Conceito
FIGURA – Gráfico de Barras para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.
110
R
16,7%
B
O 36,7%
5,0%
M
41,7%
60 100
50
Porcentagem Acumulada
80
Freqüência Absoluta
40
60
30
40
20
20
10
0 0
Conceitos Médio Bom Ruim Ótimo
Count 25 22 10 3
Percent 41,7 36,7 16,7 5,0
Cum % 41,7 78,3 95,0 100,0
FIGURA – Gráfico de Pareto para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.
111
6. a. mínimo = 10; máximo = 22; média = 16,913; moda = 14.1, 16, 16.9, 19.5, 22; mediana = 16,9; Q1 = 15,0;
Q3 = 19,5.
b. amplitude = 12; variância = 8,296; desvio-padrão = 2,88; intervalo-interquartil = 4,5.
c.
Tabela: Comprimento de 31 canos PVC vendidos em uma loja de material de construção
Comprimento Frequência Proporção Porcentagem Densidade
Absoluta
[10, 12) 1 0,0322581 3,2 0,0161290
[12, 14) 3 0,0967742 9,7 0,0483871
[14, 16) 6 0,1935480 19,4 0,0967742
[16, 18) 10 0,3225810 32,2 0,1612900
[18, 20) 6 0, 1935480 19,4 0,0967742
[20, 22] 5 0,1612907 16,1 0,0806452
Total 31 1 100 ------
Interpretação: A maior parte dos canos tem comprimento entre 16 e 18m (32,2%), ....(descrever a coluna da
porcentagem)
d.
0,18
0,16129
0,16
0,14
0,12
Densidade
0,0806452
0,08
0,06
0,0483871
0,04
0,02 0,016129
0,00
10 12 14 16 18 20 22
Comprimento
FIGURA – Histograma do comprimento de 31 canos PVC vendidos em uma loja de material de construção.
112
e.
10 11 12 13 14 15 16 17 18 19 20 21 22
Comprimento
FIGURA – Diagrama de dispersão unidimensional do comprimento de 31 canos PVC vendidos em uma loja de
material de construção.
22
20
18
Comprimento
16
14
12
10
FIGURA – Box-plot do comprimento de 31 canos PVC vendidos em uma loja de material de construção.
1 10 0
1 11
3 12 35
4 13 8
7 14 117
10 15 035
(7) 16 0013799
14 17 049
11 18 28
9 19 3557
5 20 035
2 21
2 22 00
FIGURA – Ramo-e-folhas do comprimento de 31 canos PVC vendidos em uma loja de material de construção.
7. a. Média = 69,87 e Mediana = 68. A média e a mediana foram relativamente diferentes. Embora 50% dos
índios tenham pulsação abaixo de 68, os índios com maior pulsação, fez com que o valor médio da pulsação
fosse maior, isto é, aproximadamente 70. Quando os valores são distintos da média e mediana, há um indício de
que os dados sejam assimétricos (conforme mostra o gráfico da alternativa (d) desse exercício).
b. Mínimo = 60, Q1 = 60, Q3 = 76 e Máximo = 88.A menor e a maior pulsação foram 60 e 88, respectivamente.
25% dos índios tiveram pulsação inferior a 60 e 25% superior a 76. 50% obtiveram entre 60 e 76.
c. Variância = 91,12 e Desvio Padrão = 9,55. A variabilidade das pulsações foi de 9,55 em torno do valor médio
da pulsação.
113
d.
4
Freqüência Absoluta
2
0
60 64 68 72 76 80 88
Puls ação
FIGURA – Gráfico de barras das medidas da pulsação de 15 índios nativos dos Alpes Peruanos.
9.
Embora as medidas de dispersão, em geral, mostram que o medicamento C tem maior variabilidade dos dados,
as medidas de posição mostraram que o medicamento C é o que fornece menor tempo de cicatrização do
completo fechamento dos cortes provenientes de cirurgia.
114
10. a.
80
70
60
Mortes
50
40
30
65 70 75 80 85
Barcos
FIGURA – Gráfico de Dispersão do número de peixes-boi mortos versus o número de barcos de turismo (em
milhares) que circulam em seu habitat na Flórida-EUA.
Podemos observar visualmente que há uma relação linear positiva entre o número de peixes-boi mortos com o
número de barcos de turismo (em milhares), isto é, quanto mais barcos passar no habitat dos peixes-boi, maior
será o número de mortes.
(b. r 0,922. Podemos notar através de r, que a correlação positiva entre X e Y é significativa.
(c. Mortes = 2,27*Barcos – 113
d. r2 = 84,9%. 84,9% da variação do número de peixes mortos é explicado pelo número de barcos (em milhares)
que passam no seu habitat. 15,1% é devido a outros fatores que não foram estudados, tais como, substâncias
químicas eliminadas no habitat dos peixe-boi, pescadores, etc.
115
11. a.
120
110
100
Massa
90
80
70
60
40 50 60 70 80
Idade
FIGURA – Gráfico de Dispersão da idade versus a massa muscular de 18 mulheres com idade entre 40 e 79
anos.
b. r = – 0,837. O valor do coeficiente de correlação indica que as variáveis idade e massa muscular estão
relacionadas linearmente de forma negativa, ou seja, quanto maior a idade menor é a massa muscular.
c. Y = 148,197 – 1,027 X. O coeficiente a = 148,197 (intercepto) não pode ser interpretado, porque a variação
de X não contém o valor 0. O coeficiente b = - 1,027 (inclinação) indica que a cada aumento de um ano na
idade, espera um decréscimo de aproximadamente 1 da massa muscular.
116
Gabarito da 2° Lista de Exercícios Complementares
1. a) Ω = {(1,1) ,(1,2) , (1,3), ..., (1,6), (2,1), ..., (2,6), ..., (6,1),..., (6,6)}.
b) Ω = {2, 3,..., 12}.
c) Ω = {AAA, AAB, ABA, BAA, ABB, BAB, BBA, BBB}.
d) Ω = {C, KC, KKC, ...} , com C:cara; K: coroa.
e) Ω = {0, 1, 2,..., 20}.
f) Ω = {T: tempo | t ≥ 0 }.
2. a) Ø
b) Ω
c) Ω
d) Ø
e) {6;9}
f) {1;2;3;4;9;10}
g) {1;3;4;5;6;7;8;9;10}
h) {10}
3. a) 1/6
b) 1/2
2 1
4. Eventos possíveis = {1,2,3,4,5,6} . Eventos favoráveis = {5,6} . Probabilidade = = .
6 3
5. Solução 1. Podem ser obtidas as seguintes configurações:
3 caras.
2 caras e 1 coroa.
1 cara e 2 coroas.
3 coroas.
Como existem 4 configurações possíveis, e somente uma é a que nos interessa, concluímos que a
probabilidade desejada é igual a 1/4.
Solução 2. A solução anterior está correta? É claro que não, porque na abordagem acima foi utilizado o
fato que os quatro eventos listados são equiprováveis, o que não é verdade, embora alguns alunos ainda
possam acredita que a solução anterior esteja correta. Explorar esta possível dúvida dos alunos e
apresentar a resposta correta. Se C representa cara e se K representa coroa, então
Eventos possíveis ={CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}.
Eventos favoráveis ={CCC}.
Probabilidade = 1/8.
6. 1/9.
7. 5/18.
8. 3 filhos de um sexo e um de outro.
9. 7/18.
117
10. 1/5.
11. a) Para um jogo simples de 6 números ser vencedor, exatamente estes 6 números devem ser sorteados
entre os 60 possíveis. Entretanto, se foi realizado um jogo de 7 números, então qualquer sorteio de 6
destes 7 números implica em uma aposta vencedora. Como existem 𝐶76 maneiras de escolher 6 entre 7
números, vemos que um jogo de 7 números corresponde a 𝐶76 = 7 jogos simples. Portanto o preço de
um jogo com 7 números deveria custar 7 vezes o preço de um jogo simples. E isto realmente ocorre: um
jogo simples custa 3,50 reais, e um jogo com 7 números custa 7 × 3,5 = 24,50 reais.
b) Aqui o raciocínio é igual ao do item anterior. Realizado um jogo com 8 números, se for sorteado 6
destes 8 números então o jogo realizado é vencedor. Mas existem 𝐶86 = 28 maneiras de escolher 6
números entre 8 possíveis. Assim um jogo com 8 números deveria custar 28 vezes o preço de um jogo
simples. E isto também ocorre: um jogo simples custa 3,50 reais, e um jogo com 8 números custa
28 × 3,5 = 98 reais.
Repetindo este raciocínio, levando em consideração o preço de R$ 3,50 da aposta simples, verifica-se
que os preços de todas as apostas apresentadas na figura são coerentes. Vejam mais dois exemplos:
Um jogo de 9 números corresponde a 𝐶96 = 84 jogos simples. Assim o preço de um jogo com 9
números deve custar 84 × 3,5 = 294,00 reais.
6
Um jogo de 10 números corresponde a 𝐶10 = 210 jogos simples. Assim o preço de um jogo com 10
números deve custar 210 × 3,5 = 735,00 reais.
6
c) Existem 𝐶60 = 50.063.860 maneiras diferentes de se realizar um jogo simples. Destas possibilidades
somente uma é vencedora. Assim, a probabilidade de ganhar realizando um jogo simples é igual a
1
. Isto é, existe 1 chance de ganhar em 50.063.860 possibilidades.
50.063.860
Agora vamos calcular a probabilidade de acertar a quina realizando um jogo simples de 6 números.
Então vamos imaginar que foi realizado um jogo simples. Vamos calcular quantas são as possibilidades
de resultados onde acertamos a quina com o jogo realizado. Observe que devem ser sorteados 5 dos 6
números jogados, num total de 𝐶65 = 6 possibilidades, e que um dos números sorteados deve ser
diferente dos 6 números jogados, num total de 60-6=54 possibilidades. Então o número de sorteios
possíveis onde se ganha a quina é igual a 𝐶65 × 54 = 324. Portanto a probabilidade de ganhar a quina é
324
igual a 50.063.860 . Com a ajuda da calculadora, dividindo 50.063.860 por 324 obtém-se um resultado
1
próximo de 154.518. Assim, a probabilidade de ganhar a quina é aproximadamente igual a 154.518 .
Vamos calcular agora a probabilidade de ganhar a quadra em um jogo simples. Então, realizado um jogo
simples, vamos calcular quantas são as possibilidades de resultados onde acertamos a quadra com o jogo
realizado. Como no caso anterior, devem ser sorteados 4 dos 6 números jogados, num total de 𝐶64 = 15
possibilidades, e que dois dos números sorteados devem ser diferentes dos 6 números jogados, num total
2 2
de 𝐶54 = 1431 possibilidades. Assim, o número total de sorteios onde se ganha a quadra é 𝐶64 × 𝐶54 =
21.465
21.465. Portanto a probabilidade de ganhar a quadra é igual a 50.063.860 . Com a ajuda da calculadora,
dividindo 50.063.860 por 21.465 obtém-se um resultado próximo de 2.332. Assim, a probabilidade de
1
ganhar a quadra é aproximadamente igual a 2.332 .
d) Realizado um jogo com 8 números, para ganhar a sena podem ser sorteados quaisquer 6 dos 8
118
números jogados. Assim, o total de sorteios onde se ganha a sena, em um jogo com 8 números, é igual a
28
𝐶86 = 28. Portanto a probabilidade de se ganhar a sena neste tipo de jogo é dada por 50.063.860 =
1
.
1.787.995
Vamos calcular a probabilidade de ganhar a quina em um jogo de 8 números. Então, realizado um jogo
com 8 números, vamos calcular quantos são os sorteios onde se ganha a quina. Devem ser sorteados 5
dos 8 números jogados, num total de 𝐶85 = 56 possibilidades, e deve ser sorteado um número diferente
dos 8 números jogados, num total de 60 − 8 = 52 possibilidades. Assim, o número total de sorteios
onde se ganha a quina em um jogo com 8 números é igual a 𝐶85 × 52 = 2.912 possibilidades. Portanto a
2.912
probabilidade de ganhar a quina em um jogo de 8 números é igual a 50.063.860 . Com a ajuda da
calculadora, dividindo 50.063.860 por 2.912 obtém-se um resultado próximo de 17.192. Assim, a
probabilidade de ganhar a quina neste caso é aproximadamente 1/17.192.
Vamos calcular agora a probabilidade de ganhar a quadra em um jogo com 8 números. Então, realizado
um jogo com 8 números, vamos calcular quantas são as possibilidades de resultados onde acertamos a
quadra. Como nos casos anteriores, devem ser sorteados 4 dos 8 números jogados, num total de𝐶84 = 70
possibilidades, e que dois dos números sorteados devem ser diferentes dos 8 números jogados, num total
2 2
de 𝐶52 = 1.326 possibilidades. Assim, o número total de sorteios onde se ganha a quadra é 𝐶84 × 𝐶52 =
92.820
92.820. Portanto a probabilidade de ganhar a quadra é igual 50.063.860 . Com a ajuda da calculadora,
dividindo 50.063.860 por 92.820 obtém-se um resultado próximo de 539. Assim, a probabilidade de
ganhar a quadra, em um jogo com 8 números, é aproximadamente igual a 1/539.
12. Como há 7 possíveis adversários para o Brasil, todos com a mesma chance de serem escolhidos, a
probabilidade do adversário do Brasil na primeira rodada ser a Argentina é 1/7.
13. O número de maneiras de retirarmos duas bolas da caixa é 10, o que podemos ver listando as
possibilidades:
{1,2}, {1,3}, {1,4}, {1,5}, {2,3}, {2,4}, {2,5}, {3,4}, {3,5} e {4,5}.
O 4 é o maior número escolhido em {1,4}, {2,4} e {3,4}, ou seja, em 3 casos. Logo a probabilidade
pedida é 3/10.
14. As amigas podem escolher suas blusas, sem restrição, de 3 × 3 × 3 = 27 maneiras diferentes. Por outro
lado, se elas devem escolher blusas sem repetição de cores e uma delas já escolheu a sua entre as 3
possibilidades, uma outra terá apenas 2 possibilidades e a última apenas 1, num total de 3 × 2 × 1 = 6
possibilidades sem repetição de cores. Logo a probabilidade em questão é igual a 6/27 = 2/9.
15. Pedro pode terminar o jogo de cinco maneiras diferentes, listadas abaixo:
1. cara, cara, cara - probabilidade 1/8.
2. cara, cara, coroa - probabilidade 1/8.
3. cara, coroa - probabilidade 1/4.
4. coroa, cara - probabilidade 1/4.
5. coroa, coroa - probabilidade 1/4.
Ele termina com coroa nas alternativas 2, 3 e 5. Como as alternativas acima são mutuamente exclusivas,
a probabilidade de sua última jogada ser coroa é
1 1 1 5
+ 4 + 4 = 8.
8
119
16. A tabela mostra a paridade dos possíveis resultados da soma dos números dos cartões; a primeira linha
indica os números dos cartões brancos e a primeira coluna os números dos cartões pretos.
1 2 3
1 Par Ímpar Par
2 Ímpar Par Ímpar
3 Par Ímpar Par
Temos então 5 possibilidades de soma par entre 9 possíveis, ou seja, a probabilidade de a soma ser par é
5/9.
17. a) No total foram entrevistadas 300 pessoas, sendo 150 homens e 150 mulheres. Assim, escolhendo uma
destas pessoas ao acaso, a probabilidade de ser mulher é de 50%.
b) Da tabela vemos 80+50=130 pessoas preferem o refrigerante X, sendo que destas apenas 50 são
mulheres. Assim, a probabilidade em questão é igual a 50/130=5/13.
c) Em um universo de 150 mulheres, apenas 50 preferem o refrigerante X. Assim, a probabilidade deseja
é igual a 50/150=1/3.
18. a) Como cada questão pode ser respondida de dois modos diferentes e como existem 10 questões, o
número total de maneiras de responder a prova é igual a 210 = 1024. Agora, para calcular os eventos
5 10!
possíveis, é suficiente escolher 5 das 10 questões para acertar. Isto pode ser feito de 𝐶10 = 5!5! = 252
maneiras diferentes. Uma vez escolhidas estas questões, a prova pode ser respondida de uma única
maneira: marcar a resposta certa nestas questões e marcar a resposta errada em todas as outras questões.
Assim a probabilidade desejada é igual a 252/1024.
b) Para acertar pelo menos metade das questões da prova, pode-se acertar 5, 6, 7, 8, 9 ou 10 das
questões. Como no item anterior, em cada um destes casos é suficiente escolher as questões para acertar.
O total de possibilidades que isto pode ser feito é igual a
C105 C106 C107 C10
8
C109 C10
10
= 252 210 120 45 10 1 = 638 .
Assim, a probabilidade desejada é igual a 638/1024.
19. Cada questão pode ser respondida de 4 maneiras diferentes. Como a prova tem 4 questões, o número
total de maneiras de responder a prova é igual a 4 × 4 × 4 × 4. Agora vamos contar de quantas maneiras
a prova pode ser respondida de modo que exatamente uma questão esteja correta. Primeiro, existem
𝐶41 = 4 maneiras de escolher a questão que estará certa. Para esta questão o gabarito só pode ser
respondido de uma única maneira: a alternativa correta. Para cada uma das outras 3 questões, pode-se
escolher uma das 3 alternativas incorretas. Assim, a quantidade de maneiras de responder a prova,
acertando-se exatamente uma questão, é igual a 𝐶41 × 3 × 3 × 3. Portanto a probabilidade desejada é
𝐶41 ×3×3×3 27
igual a = 64 .
4×4×4×4
120
Gabarito da 3° Lista de Exercícios Complementares
1. 0,72.
2. a) 0,032; b) 0,28125.
3. 0,032 = 3,2%.
4. Ω = {NNNNN, NNNND, NNNDN, NNDNN, NDNNN, DNNNN, NNNDD, NNDND, NDNND,
DNNND, NNDD, NDND, DNND, NDD, DND, DD}, com N = não defeituoso e D = defeituoso.
5. N = não defeituoso e D = defeituoso,
a) Ω = {NNN, NND, NDN, DNN, NDD, DND, DDN, DDD}
b) Ω = {NNNN, NNND, NNDN, NDNN, DNNN}
6. 17576000; O esquema é viável.
7. 560560.
8. 0,9755.
9. 28.
10. a) 25; b) 100.
11. 0,968.
12. 0,88.
13. 0,714.
1 1 𝑚 −1 1
14. 𝑚 × 𝑚 −1 + ×𝑚 .
𝑚
N 10 20 25 30 40 50 60
P(B) 0,117 0,411 0,569 0,706 0,891 0,970 0,994
18. 40320.
19. a) (A B) b) (A Bc) (Ac B) c) (A B)c d) (A Bc)
20. a) P(AB) 0,0358 b) P((A B)c) 0,9641 c) P((A Bc)) 0,023
21. P(M|A) = 0,292
121
Gabarito da 4° Lista de Exercícios Complementares
1. a) 2,4;
b) 1,32;
c) 0,55.
2. a) 0,3043;
b) 0,9999.
3. a) 0,9969808;
b) 0,0030192;
c) 0,279174.
4.
X 15 17 18 20 E[X] =
P(X) 0,3575 0,1925 0,2925 0,1575 17,05
5. 0,8192
6. a) 0,59049
b) 0,32805
c) 0,99144
7. a) 0,98. Modelo hipergeométrico.
8. a) 0,8387
b) 𝑛 = 8.
9. 0,0002215
10. 0,033509
11. a) 15
b) 0,0002114
c) 0,9991434
12. a) 0,367879
b) 0,264241
13. 0,004679
14. 0,9707
122
Gabarito da 5° Lista de Exercícios Complementares
1. a) 2,81
b) -1,96
c) 1,28
d) 0,52
e) - 1,28
2. a) Como 𝑓 𝑥 = 6𝑥 1 − 𝑥 = −6𝑥 2 + 6𝑥 é uma parábola, com concavidade voltada para baixo,
verifica-se que 𝑓 𝑥 ≥ 0 no espaço [0,1], obsevando o gráfico da função. Além disso, é necessário
verificar que a área definida por 𝑓(𝑥) é igual a 1. Assim, temos
1
1
6𝑥 1 − 𝑥 𝑑𝑥 = 3𝑥 2 − 2𝑥 3 = 1.
0 0
Portanto, é uma fdp.
0, 𝑥<0
2 3
b) 𝐹 𝑥 = 3𝑥 − 2𝑥 , 0 ≤ 𝑥 < 1
1, 𝑥≥1
c) 0
d) 0,076
e) 0,5
f) 1
3. 0,04
4. a) 0,135
b) 1 ano
5. a) 0,0918
b) 144,6 min
c) [100,8, 139,2]
6. 0,5. 0,23529.
7. 𝛼 = − 3 e 𝛽 = 3.
8. 0,2525. 0,2525. 0,4962.
9. 1,96. 2,57. 1,64. 2,99.
10. a) 0,9772
b) 0,5
c) 0,6687
d) 0,6915
e) 0,95.
11. 0,0912. 0,252493.
12. 0,3085.
13. a) 0,0062
b) 11,9744
c) 0,9876.
123
Gabarito da 6° Lista de Exercícios Complementares
1) Em um teste de sensitividade levado a efeito em 18 válvulas de certa marca, obtiveram-se média de 3,2
microvolts e variância de 0,2 microvolt. Determinar um intervalo de 95% de confiança para a sensitividade
média da população de válvulas.
Solução.
g.l. = n-1 = 17 e p = (100 - ) = 5% t = 2,11 (t de Student)
s 0,4472
IC[;95%] x t 3,2 2,11 2,9776 ; 3,4224
n 18
2) Se o desvio padrão das durações das válvulas de televisão é de 100 horas, que tamanho de amostra deveria
ser tomado para que se estivesse confiante 90% de que o erro da estimativa da duração média não exceda 20
horas?
Solução.
2 2
z 1,64
= 90% n 2 100 68
2
e 20
3) O fabricante de uma droga medicinal reivindicou que ela era 90% eficaz em curar uma alergia, em um
período de 8 horas. Em uma amostra de 200 pessoas que tinham alergia, a droga curou 160 pessoas. Teste se a
pretensão do fabricante é legítima com um nível de significância de 5%.
5) Qual deve ser o tamanho de uma amostra para que a diferença da média amostral para a média da população,
em valor absoluto, seja igual a 1, com coeficiente de confiança igual a 99%, sabendo que uma amostra piloto de
tamanho 16 dessa população forneceu um desvio padrão igual a 10.
124
2 2
t 2.947
= 99% g.l. = 15, p = 1%, t = 2.947 n s2 10 869
2
e 1
6) Verificou-se, por meio de experiências, que a tensão média de ruptura do fio de uma certa marca é de 9,72 kg,
com desvio padrão de 1,40 kg. Recentemente, uma amostra de 36 peças do fio apresentou a tensão média de
ruptura de 8,93 kg. Pode-se concluir, nos níveis de significância 0,01 que o fio se tornou de qualidade inferior?
Conclusão: Rejeita 𝐻0 com um nível de significância de 1%, ou seja, o fio se tornou de qualidade inferior.
7) Antes de uma eleição, um determinado partido está interessado em estimar a proporção P de eleitores
favoráveis ao seu candidato. Uma amostra piloto de 100 pessoas revelou que 60% dos eleitores eram favoráveis
ao candidato em questão. Determine o tamanho amostral necessário para que o erro cometido na estimação seja
de, no máximo, 0.01 com probabilidade de 80%.
2 2
pˆ (1 pˆ ) z 1,28
z n p̂(1 p̂) 0,6 x 0,4 3933
n e 0.01
8) Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina, mas a secretaria de saúde
afirma que contém mais que 30 mg. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de
3 mg. No nível de 5%, os dados refutam a afirmação da secretaria de saúde?
Conclusão: Rejeita 𝐻0 com um nível de significância de 5%, ou seja, a secretaria de saúde tem razão.
9) Antes de uma eleição em que existiam 2 candidatos, João e Salomão, foi feita uma pesquisa com 500
eleitores escolhidos ao acaso, e verificou-se que 258 deles pretendiam votar no candidato Salomão. Construa
um intervalo de confiança, com coeficiente de confiança de 95% para a proporção de eleitores favoráveis ao
candidato Salomão na época das eleições.
125
Solução: Intervalo de Confiança para Proporção
126
REFERÊNCIAS
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro Alberto. Estatística básica. 7. ed. São Paulo: Saraiva, 2012.
FARIAS, Alfredo Alves; SOARES, José Francisco; CÉSAR, Cibele César. Introdução à estatística. 2. ed. Rio
de Janeiro: LTC, 2009.
JAMES, Barry R. Probabilidade: um curso em nível intermediário. 2. ed. Rio de Janeiro: SBM, 1996.
MONTGOMERY, Douglas C.; RUNGER, Georg C. Estatística aplicada e probabilidade para engenheiros.
5.ed. Rio de Janeiro: LTC, 2013.
MORGADO, A., CARVALHO, P. C., FERNANDEZ, P. Análise Combinatória e Probabilidade. SBM, 2004.
OLIVEIRA, Marcos Santos de; OLIVEIRA, Daniela Carine Ramires de. Probabilidade e estatística. 1. ed.
NEAD/UFSJ. São João del-Rei, 2011.
ROSS, Sheldon. Probabilidade: um curso moderno com aplicações. 8.ed. Porto Alegre: Bookman, 2010.
TRIOLA, Mario F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC Editora, 2011.
127