Compreendendo Probabilidade e Estatística - Braga

Este exemplar está registrado para uso exclusivo de EZEQUIEL JUNIO DE LIMA - 24343805
Luis Paulo Vieira Braga
Compreendendo
Probabilidade e
Estatística
Rio de Janeiro, 2010
© Luis Paulo Vieira Braga/E-papers Serviços Editoriais Ltda., 2010.
Todos os direitos reservados a Luis Paulo Vieira Braga/E-papers Serviços Edi-
toriais Ltda. É proibida a reprodução ou transmissão desta obra, ou parte dela,
por qualquer meio, sem a prévia autorização dos editores.
Impresso no Brasil.
ISBN 978-85-7650-282-1
Projeto gráfico, diagramação e capa

Livia Krykhtine
Revisão
Helô Castro
Imagem de capa
DamirK
Esta publicação encontra-se à venda no site da

E-papers Serviços Editoriais.
http://www.e-papers.com.br
E-papers Serviços Editoriais Ltda.
Rua Mariz e Barros, 72, sala 202
Praça da Bandeira – Rio de Janeiro
CEP: 20.270-006
Rio de Janeiro – Brasil
CIP-Brasil. Catalogação na Fonte

Sindicato Nacional dos Editores de Livro, RJ
B794c
Braga, Luis Paulo Vieira
Compreendendo probabilidade e estatística/Luis Paulo Vieira
Braga. - Rio de Janeiro: E-papers, 2010.
230p. : il.
Inclui bibliografia
ISBN 978-85-7650-282-1
1. Probabilidades. 2. Estatística matemática. I. Título.
10-5758. CDD: 519.5

CDU: 519.21
Sumário
5 Introdução
7 Capítulo 1. Incerteza
31 Capítulo 2. População, censo e amostras
55 Capítulo 3. Estatísticas de tendência central
77 Capítulo 4. Estatísticas de ordem e números índice
97 Capítulo 5. Estatísticas de dispersão e de associação
119 Capítulo 6. O conceito de probabilidade
141 Capítulo 7. Variáveis aleatórias
167 Capítulo 8. Estimadores
185 Capítulo 9. Teorema central do limite
205 Capítulo 10. Testes de hipóteses
229 Referências
Introdução
Este livro é resultado da minha experiência no ensino presen-

cial e à distância em cursos introdutórios de probabilidade e
estatística para graduandos e, também, para alunos de exten-
são no Departamento de Métodos Estatísticos da Universidade
Federal do Rio de Janeiro. Pode ser utilizado em um curso de 60
horas para graduandos ou em um de 30 horas para graduados
que não tenham formação em estatística.
É dividido em três blocos: análise exploratória (capítulos 1 a
5), probabilidade (capítulos 6 a 7) e inferência estatística (capí-
tulos 8 a 10). Contém 79 exemplos e 108 exercícios resolvidos.
O conteúdo é apresentado em uma linguagem concisa, sempre
levando em conta as aplicações da estatística nas mais variadas
áreas.
Introdução 5
Capítulo 1. Incerteza
1.1 Finalidade
Motivar o aluno para vencer o desafio que as incertezas, no dia
a dia, trazem para o indivíduo, os administradores, os profissio-
nais e a sociedade de um modo geral. Caracterizar e diferenciar
dados, informação e modelos, destacando a utilidade de cada
uma destas instâncias de conhecimento. Apresentar o conceito
de frequência e suas diversas formas de representação em grá-
ficos e tabelas.
1.2 Propósito
Ao final deste capítulo o aluno deve ser capaz de reconhecer os
diferentes tipos de variáveis, calcular frequências, interpretar
gráficos, construir tabelas de contingência e interpretá-las, assim
como distinguir informação de modelo.
1.3 Introdução
O economista canadense John Kenneth Galbraith (1908-2006)
cunhou o termo era da incerteza para caracterizar a dinâmica
das profundas transformações que a sociedade humana pas-
sou a sofrer com o advento da revolução industrial burguesa.
A consciência do conhecimento incompleto não se restringiu
à economia, mas à ciência como um todo. O princípio da in-
certeza, do físico alemão Heinsenberg (1901-1976), abriu uma
brecha definitiva nas concepções determinísticas do Universo.
A evolução da vida urbana, por outro lado, trouxe desafios para
a previsão da demanda por bens e serviços que, em muitas oca-
siões, gera inflação ou depressão. A necessidade de regularida-
de para a evolução e sobrevivência da humanidade encontra-
Capítulo 1. Incerteza 7
se, permanentemente, ameaçada pela imprevisibilidade dos
acontecimentos, seja no nível puramente político, ou no nível
ambiental. A incerteza, no entanto, não tem uma existência
objetiva, é produto da percepção humana diante das suas in-
terações com o mundo exterior. Na Grécia antiga, a percepção
de um mundo determinista era suficiente para resolver os prin-
cipais problemas daquela era, atribuindo-se aos humores dos
deuses a responsabilidade pelos desvios. Na era das incertezas
do século XX, e do novo século que começou, entretanto, não se
pode prescindir do paradigma da incerteza.
Definição 1.1. De um ponto de vista estritamente técni-

co, pode-se definir incerteza como a falta de informação
suficiente para descrever, controlar e prever determinis-
ticamente a evolução de um sistema.
Até a descoberta de Heisenberg, acreditava-se que ideal-

mente esta informação poderia ser suprida. Infelizmente, não
se pode mais ter esta esperança, necessariamente temos de
conviver com a incerteza. Paradoxalmente na era das incerte-
zas se dispõe, como nunca antes na história, de uma quanti-
dade enorme de dados econômicos, sociais, ambientais, etc...
A ciência estatística é confundida, por muitos, como sendo a
ciência da tabulação dos dados. De fato, uma parte das ativida-
des da Estatística está relacionada à obtenção de dados e sua
estruturação, no entanto, isto é apenas uma pequena parte de
uma ciência que cresceu enormemente de importância nas úl-
timas décadas. A obtenção de dados está sempre associada a
um objeto de interesse – um paciente em uma clínica, o con-
sumidor de determinado serviço, a turbina em um avião, uma
obra literária, e assim por diante. Um objeto real é incomen-
surável em seus múltiplos aspectos, mas a ciência estabeleceu
métodos de abordagem para as diferentes finalidades preten-
didas – curar um doente, atender a demanda, monitorar o fun-
cionamento ou identificar um estilo. Em função disto alguns
atributos podem ser relevantes em determinado estudo, e se-
cundários em outro. Para um paciente os diversos itens de uma
bateria de exames laboratoriais é altamente relevante, já em um
estudo de marketing, estas observações não seriam tão úteis.
Definição 1.2. Dados, portanto, referem-se aos valores
assumidos pelos atributos relevantes de um objeto para
determinado estudo.
Matematicamente, vamos usar o conceito de variável para

representar o comportamento observado de um determinado
atributo.
1.4 Tipos de variáveis

Uma variável pode assumir valores qualitativos ou quantitati-
vos. Enquanto que a variação de atributos físicos, econômicos,
entre outros, é representada usualmente por variáveis quan-
titativas, a variação de atributos de natureza psicológica, por
exemplo, é representada por variáveis qualitativas. O peso e a
potência de uma turbina são obviamente representados por va-
riáveis quantitativas. A preferência por uma cor, por outro lado,
é representada por uma variável qualitativa. As variáveis quan-
titativas podem se subdividir em duas categorias: a) discretas
e b) contínuas. Número de filhos por família é obviamente re-
presentado por uma variável discreta, enquanto que a renda
familiar é representada por uma variável contínua. Por outro
lado, as variáveis qualitativas também podem se subdividir em
duas outras categorias: a) nominais e b) ordinais. As nominais
referem-se a categorias distintas sem nenhuma relação entre si,
nomes em um conjunto de pessoas, por exemplo. As ordinais,
no entanto, apontam para uma hierarquia. Assim aos usuários
de um determinado serviço pode-se perguntar o grau de satis-
fação com o atendimento, de excelente a péssimo, passando
por bom, regular e ruim.
1.5 Tipos de escalas

Os valores observados de um ou mais atributos devem ser, ne-
cessariamente, representados em uma escala.
Definição 1.3. Escala é a relação entre um atributo de um

objeto e sua representação simbólica.
Assim, a escala métrica é uma relação entre o comprimento
de um eixo produzido em uma fábrica e o sistema métrico de-
cimal. As escalas se subdividem em: a) nominais, b) ordinais, c)
intervalares e d) proporcionais. Obviamente o tipo de variável
induz a utilização da escala mais apropriada. O tipo de escala li-
mita também o nível de informação que se pode obter. A escala
nominal permite somente a identificação ou diferenciação entre
os valores observados. A ordinal permite adicionalmente a orde-
nação dos valores. Um exemplo de escala ordinal, muito utiliza-
da nas pesquisas de opinião, é a escala de Lickert (1903-1981),
psicólogo e educador norte-americano, que vai de 1 a 5, ou de
1 a 7, representando graus crescentes de satisfação. A escala in-
tervalar permite todas as operações anteriores, preservando a
comparação de intervalos. Ela é utilizada para atributos que não
admitem uma origem comum para todas as escalas que podem
representá-los. A temperatura é um exemplo de variável que só
admite a escala intervalar, pois em graus Celsius o valor zero não
corresponde a zero grau Fahrenheit. O quarto tipo de escala é
a proporcional, utilizada também para variáveis quantitativas
que, independentemente da convenção adotada, têm origem
comum. Atributos relativos à renda pertencem a esta categoria,
assim um indivíduo desempregado tem zero unidades monetá-
rias de salário, não importa a moeda utilizada.
As escalas influenciam as interpretações sobre o compor-
tamento de variáveis, principalmente quando se comparam
atributos entre si. Mais adiante veremos alguns cuidados que
devem ser tomados para evitar o efeito de escala.
1.6 Codificações numéricas e simbólicas

Variáveis qualitativas podem ser convertidas em variáveis
quantitativas e vice-versa. Denominamos estas operações, res-
pectivamente, de codificação numérica e simbólica. A codifica-
ção numérica deve, entretanto, ser feita com cuidado para não
introduzir escalas artificiais. Por exemplo, a preferência por
uma cor, dentre uma lista de opções, não pode ser meramente
convertida em uma sequência de números inteiros consecuti-
vos. Neste caso prefere-se introduzir tantas variáveis binárias
quanto o número de opções. A opção por uma cor seria então
representada por uma cadeia de zeros, e um valor unitário na
posição correspondente à cor escolhida. Por outro lado a co-
dificação simbólica tem por objetivo condensar a informação
quantitativa em categorias. O risco desta operação é escolher
categorias de menos, perdendo-se muita informação.
Exemplo 1.1 Codificação Numérica

Cores
Amarelo (1,0,0)
Verde (0,1,0)
Vermelho (0,0,1)
Satisfação
Muito insatisfeito 1
Insatisfeito 2
Regular 3
Satisfeito 4
Muito satisfeito 5
Exemplo 1.2 Codificação Simbólica

Valores observados de número de acidentes por fim de semana
em uma estrada
2 5 10 9 20 11 1 0
14 7 19 12 13
Intervalo Categoria
[0 5)1 Normal
[5 10) Elevada
[10 15) Grave
[15 21) Muito grave
1. No intervalo, 0 está incluído, mas não 5. O objetivo é poder concatenar os

intervalos sem redundâncias.
Após a codificação o conjunto de observações passaria a ser
Categorias observadas de número de acidentes por fim de sema-
na em uma estrada
Normal, Elevada, Grave, Elevada, Muito grave, Grave, Normal,
Normal, Grave, Elevada, Muito grave, Grave, Grave
1.7 Exercícios
1. Dê outro exemplo de uma variável que admite a escala in-
tervalar.
2. Qual a relação de conversão entre graus Celsius e graus
Fahrenheit?
3. A qual temperatura, em graus Fahrenheit, o papel queima?
4. Datas de aniversários correspondem a dados quantitativos
ou qualitativos? Caso tenha respondido qualitativo, propo-
nha uma codificação numérica.
5. Proponha uma codificação simbólica para uma lista de dife-
rentes idades.
6. Outra forma de codificação simbólica a partir de um con-
junto de valores contínuos é a transformação da indicatriz,
descrita a seguir. Arbitre um limiar e atribua o valor zero a
todos os valores abaixo do limiar, e o valor um a todos os
valores iguais ou acima. Aplique esta regra para um limiar
igual a 5, com os dados do exemplo 1.2.
1.8 Respostas
1, Tempo. Os calendários cristão, judaico e chinês têm datas
diferentes para a origem do tempo.
2. F = 9/5 oC + 32
3. 451oF. A propósito, este é o título de um filme de ficção do
diretor francês François Truffault (1932-1984) que descreve
a vida em um regime totalitário onde todos os livros encon-
trados são queimados.
4. Embora tenham elementos numéricos, datas de aniversário
poderiam ser considerados dados qualitativos por causa do
mês. Uma maneira de codificá-las como dados puramente
quantitativos seria estabelecer a idade em anos completos.
Por exemplo, um aniversário datado como 30 de março de
1951 seria codificado com o valor 57 após março de 2008.
Pode-se também estabelecer uma data arbitrária em relação
a qual todas as datas seriam referenciadas. Por exemplo, 1o
de janeiro de 1900.
5. Uma possibilidade seria: criança, jovem, adulto, e idoso.
6. Todo valor acima ou igual a 5 torna-se 1, e 0 é atribuído a
todo valor abaixo de 5: 0 1 1 1 1 1 0 0 1 1 1 1 1.
1.9 Dados e Informação

Geralmente mais de um atributo é considerado. Um exemplo
de um arquivo de dados é a sequência de valores a seguir:
Exemplo 1.3
“1” 26.864316047037 193.964817061663 264
“2” 27.0080483949412 249.383563075189 262
“3” 27.1876938474273 304.802479138469 261
“4” 27.4032390846205 360.221602940328 263
“5” 27.6546681243856 415.640972109622 263
“6” 27.9419623232716 471.060624204367 262
“7” 28.2651003776029 526.480596700889 261
... ... ... ...
A primeira coluna dá o número de ordem do registro, e as

três colunas seguintes os valores observados para três diferen-
tes atributos. Usualmente o arquivo de dados inclui um cabe-
çalho que contem itens adicionais sobre o arquivo, suprimidas
no caso acima.
Definição 1.4. Informação é toda medida ou gráfico,
obtida a partir dos dados. Do ponto de vista estatístico, a
informação é de natureza descritiva ou exploratória, não
configurando um modelo.
Reduzir a estatística ao tratamento da informação é um

equívoco cometido por muitos que ainda não conhecem essa
ciência.
1.10 Frequências absolutas

É a partir dos dados que se geram informações sobre o objeto
de estudo. Uma das primeiras informações que um estudo de
natureza estatística procura levantar é a frequência que deter-
minado valor ou categoria apresenta. A forma mais básica de
frequência é a frequência absoluta que consiste simplesmente
em contar a ocorrência de cada valor ou categoria. Se os da-
dos são valores inteiros ou categorias o processo de contagem
é imediato. Entretanto, se os dados são valores contínuos, ver
exemplo 3, ou mesmo inteiros muito diversificados, é necessá-
rio proceder a uma codificação simbólica, para depois fazer a
contagem. No exemplo 2, as frequências absolutas para as ca-
tegorias geradas são:
Tabela 1 – Tabulação de frequências
Categoria Frequência
Normal 3
Elevada 3
Grave 5
Muito grave 2
A tabela pode ser visualizada em um gráfico de colunas ou

linhas, Figura 1, ou ainda em setores circulares, conhecido vul-
garmente como pizza, Figura 2.
Figura 1 – Gráfico de colunas
Figura 2 – Gráfico de pizza
Exemplo 1.4 Gráfico de Pareto

Uma aplicação interessante do gráfico de colunas é o gráfico de
Pareto. Vilfredo Pareto foi um economista italiano (1848-1923)
que observou a distribuição de renda na Europa no século XIX
concluindo que 20% da população detinha 80% da renda. Isto
foi o ponto de partida para a formulação de uma distribuição
que recebeu o seu nome – distribuição de Pareto. Sua utilidade
transcendeu o domínio da economia e passou a ser aplicado
no controle de qualidade e no marketing. Pode ser sintetizado
em uma frase – Poucas causas levam à maioria das perdas. Su-
ponha que em uma fábrica de lentes, a análise dos produtos
defeituosos levou à identificação das seguintes ocorrências: a)
revestimento inadequado, b) trinca, c) arranhão, d) espessura
errada, e) inacabada e f) outros. Ordenando das maiores fre-
quências absolutas observadas para as menores, obtivemos o
seguinte gráfico de colunas:
Figura 3 – Histograma
O gráfico destaca qual problema deve ser resolvido em primei-

ro lugar. Muitas vezes ao fazê-lo, percebe-se que indiretamente
são reduzidas as ocorrências de outras não conformidades.
1.11 Histograma
Não há uma regra bem definida para se fazer a codificação sim-
bólica de um conjunto de valores contínuos, mas há algumas
indicações que podem ser úteis para iniciar o processo. Con-
siderando-se n observações de um atributo de natureza con-
tínua, sugere-se a seguinte tabela para o número de categorias
nas quais os valores devem ser distribuídos:
Tabela 2 – Número de categorias
Número de observações Número de categorias
< 50 5a7
50 a 100 6 a 10
100 a 250 7 a 12
> 250 10 a 20
No caso de variáveis contínuas o procedimento acima é a
base para a construção do histograma. Este jargão é uma adap-
tação do original histogram, formado a partir do prefixo grego
histo e da unidade de medida gram. A principal diferença para
o gráfico de colunas é que os retângulos são justapostos, indi-
cando que se trata de uma variável contínua. Os histogramas
podem ser analisados quanto à simetria, achatamento e moda-
lidade. Abordaremos este tema no Capítulo 2.
Figura 4
Cabe aqui a observação que o tratamento estatístico de da-

dos supõe o uso de programas de computador porque usual-
mente a quantidade de dados é muito grande para cálculos
manuais, ou mesmo com máquina de calcular comum. A mes-
ma observação vale para os diversos gráficos e tabelas que são
utilizados. Para um primeiro estudo, como é o caso deste curso,
o uso das opções de estatística da planilha Calc do programa
livre Open Office© será suficiente para resolver os problemas
apresentados. Este programa pode ser baixado gratuitamente
do site http://download.openoffice.org/. O iniciante na estatís-
tica deve se acostumar com a ideia de que várias alternativas
devem ser tentadas antes de se definir por uma codificação.
1.12 Outros tipos de frequências
A frequência relativa é outra forma de se representar a ocorrên-
cia de uma categoria, pode-se usar a notação decimal ou por-
centual para exprimi-la. As frequências relativas das categorias
geradas para o exemplo 1.2 podem então ser representadas al-
ternadamente como:
Tabela 3 – Frequência relativa
Categoria Freq.rel.(decimal) Freq.rel.(porcentual)
Normal 0,23 23%
Elevada 0,23 23%
Grave 0,38 38%
Muito grave 0,15 15%
Note que a soma não dá 100%, isto é devido ao erro de ar-

redondamento para a apresentação da tabela. Internamente,
o erro cometido pelo programa é muitíssimo menor devido à
precisão da máquina. Se quiser corrigir o erro na tabela, deve-
se ir acrescentando casas decimais até que a soma feche para a
precisão desejada.
O logaritmo da frequência absoluta é outra forma de se con-
tar as ocorrências. A justificativa para utilizá-la seria para ate-
nuar ocorrências muito frequentes de determinadas categorias
em relação às demais. O inverso da frequência também é uma
medida alternativa de ocorrência, sua finalidade é destacar as
categorias mais raras. A frequência binária dá como resultado
apenas dois valores – 0 se a categoria nunca ocorreu e 1 se ela
ocorreu pelo menos uma vez.
1.13 Tabelas e hipertabelas de contingência

Usualmente mais de um atributo é medido por objeto. As ta-
belas de contingência dão as contagens por pares de atributos.
Pode-se, entretanto, conceber hipertabelas que permitem o
cruzamento de tantas variáveis quanto forem possíveis. Em mi-
neração de dados, data mining, uma metodologia interdiscipli-
nar envolvendo matemática, estatística e computação, projetos
para previsão e classificação de variáveis multidimensionais se
servem de hipertabelas em sua fase exploratória.
Exemplo 1.5 Tabela de contingência
Frequência absoluta de acidentes por gravidade e tipo de veí-
culo:
Tabela 4 – Tabela de contingência
auto moto ônibus caminhão
Muito grave 0 0 10 10
grave 5 5 10 10
elevada 5 20 5 0
normal 10 5 5 0
Figura 5 – Visão 3D de uma tabela de contingência
A partir da tabela de contingência podem-se obter as tabe-

las de frequência para cada variável, para obtê-las, basta somar
cada linha, obtendo-se uma coluna adicional com os totais, e
somar cada coluna, obtendo-se uma linha adicional. As dis-
tribuições de frequências assim obtidas são denominadas fre-
quências marginais. No exemplo 1.5, a frequência marginal
relativa ao tipo de acidente é dada por:
Auto Ônibus Moto Caminhão
20 30 30 20
E aquela relativa ao tipo de acidente é dada por:

Muito grave Grave Elevada Normal
20 30 30 20
Um tipo de análise que pode ser desenvolvida a partir de
uma tabela de contingência é a análise de associação entre as
variáveis. Associação não significa causalidade, mas apenas va-
riação no mesmo sentido ou no sentido inverso. A ausência de
associação, tampouco, implica em não causalidade, mas ape-
nas na independência da variação dos valores.
Exemplo 1.6
Uma delegacia de polícia tabulou os seguintes dados relativos
aos crimes cometidos em seu distrito.
Freq. Relativa de infrações
Infrações Inocentes Total
por grupo
Afrodescendentes 26 38 64 41%
Caucasianos 11 53 64 17%
Total 37 91 128
Os resultados apontam para uma maior incidência de infra-

ções cometidas pelo grupo de afro-descendentes. Entretanto,
se, a partir das fichas dos envolvidos, tabularmos emprego ver-
sus infrações obtemos:
Desempregados Infrações Inocentes Total
por grupo
Afrodescendentes 24 24 48 50%
Caucasianos 4 4 8 50%
Total 28 28 56

Empregados Infrações Inocentes Total
por grupo
Afrodescendentes 2 14 16 12,5%
Caucasianos 7 49 56 12,5%
Total 9 63 72
As duas novas tabelas mostram que a frequência predomi-

nante é a de desempregados e infratores.
1.12 Exercícios
7. Considere os registros a seguir, que correspondem às carac-
terísticas de 10 pessoas entrevistadas:
Classe de Renda Instrução Posição sobre beber e dirigir
Alta Básica A favor
Alta Superior Contra
Média Básica A favor
Média 2o Grau A favor
Média Superior Contra
Baixa Básica A favor
Baixa Básica A favor
Baixa 2o Grau A favor
Baixa 2o Grau Contra
Baixa Superior Contra
a) Construa as tabelas de contingência para as variáveis Renda

x Beber e Dirigir e Instrução x Beber e Dirigir.
b) Qual das duas variáveis – renda ou instrução – influencia
mais a posição sobre beber e dirigir?
8. Considere os seguintes dados:

3,67 1,82 3,73 4,1 4,3 1,28 8,14 2,43 4,17 5,36 3,96
6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65
a) Tomando como base a Tabela 2, escolha um número de ca-

tegorias para a repartição dos dados.
b) Analogamente ao exemplo 2, defina os intervalos para cada
categoria.
c) Construa um histograma (Figura 4).
9. A partir da tabela dada, faça o gráfico do histograma das fai-

xas salariais.
Faixas Salariais Frequências relativas
De R$ 120,00 a R$ 200,00 0,30
De R$ 200,00 a R$ 600,00 0,40
De R$ 600,00 a R$ 1.500,00 0,20
De R$ 1.500,00 a R$12.000,00 0,10
10. Os dados abaixo se referem às observações conjuntas das variá-

veis X e Y, relativas a automóveis produzidos por uma monta-
dora.
X\Y Defeito no motor Motor Total
funcionando
Pintura defeituosa 10 30 40
Pintura aprovada 40 20 60
Total 50 50 100
a) Qual a proporção de carros que apresentam defeito sobre o

total de carros fabricados?
b) Dentre os carros que apresentam defeito no motor, qual a
proporção de carros que apresentam defeito na pintura?
c) Qual a frequência absoluta esperada de carros com defeito
no motor e pintura aprovada?
1.13 Respostas
7.
a)
X\Y A favor Contra Todos X\Y A favor Contra Todos
Alta 1 1 2 Básica 4 0 4
Média 2 1 3 2o Grau 2 1 3
Baixa 3 2 5 Superior 0 3 3
Todos 6 4 10 Todos 6 4 10
b) Instrução. Pois no caso da renda, as proporções de favorá-

veis e contrários não se alteram muito de acordo com a ren-
da. O que não ocorre no caso da instrução.
8.
a) Como se tratam de 22 valores, segundo a Tabela 2, podemos
optar por cinco, seis ou sete intervalos. Vamos optar por
cinco. Como, em geral, este trabalho é feito por computa-
dor, não há nenhum inconveniente em testar mais de uma
opção.
b) A amplitude é dada pela diferença do maior valor, no caso
8,45, com o menor valor, no caso 1,28. O que dá 7,17. Os in-
tervalos serão então:
1 [1,28 2,71)
2 [2,71 4,14)
3 [4,14 5,57)
4 [5,57 7,00)
5 [7,00 8,45)
c) Usando a planilha Calc do OpenOffice
9.
10.
a) O número de peças defeituosas é dado por 40 + 50 – 10 = 80
80/100 = 0,80 ou 80% dos carros fabricados apresentam de-
feito.
b) 10/50 = 0,20 ou 20% dos carros que apresentam defeito no
motor têm pintura defeituosa.
c) A frequência esperada é aquela calculada sobre os totais,
isto é, considerando que o funcionamento ou não do motor
não está associado a problemas na pintura. Neste caso seria
60%, obtido da última coluna 60/100, do total de motores
defeituosos que é 50, obtendo-se o valor 30. Para todas as
células a tabela com as frequências esperadas ficaria:
X\Y Defeito no motor Motor funcionando Total
Pintura defeituosa 20 20 40
Pintura aprovada 30 30 60
Total 50 50 100
Obtendo-se a tabela ideal para o caso de total independên-

cia entre as duas categorias de defeitos.
1.15 Modelos
O coroamento de um estudo estatístico é a obtenção de um mo-
delo.
Definição 1.5. Modelo é uma representação da realidade,

isto é, de um particular objeto, característica ou processo.
O objetivo de um modelo é descrever as relações de entrada

e saída de um sistema. Entradas podem ser entendidas como
condições correntes e saídas como predições ou consultas. De
uma forma geral um modelo descritivo provê informações so-
bre o estado atual do sistema, enquanto que um modelo predi-
tivo prevê estados futuros. O termo futuro deve ser entendido
em senso amplo, isto é, não necessariamente numa escala tem-
poral. Por exemplo, uma predição pode representar a receita de
uma empresa no próximo ano, mas também a pontuação de
crédito a ser concedida ao cliente de um banco.
A incerteza de um modelo expressa o desvio em relação à
realidade natural. Risco é o potencial de ocorrência de conse-
quências indesejáveis de uma decisão ou ação baseada em um
modelo. Análise de risco é o processo de quantificação do po-
tencial de ocorrências indesejáveis e de suas esperadas conse-
quências.
1.16 Exercícios
1. Dê exemplos de modelos estatísticos em diferentes áreas de
atividade.
1.17 Respostas
1. Previsão do tempo, pesquisa eleitoral, cálculos previdenciários.
1.18 Conclusão
Neste capítulo o estudante deu os primeiros passos na abor-
dagem estatística da incerteza. Identificando atributos e me-
dindo suas ocorrências através de frequências que podem ser
representadas graficamente, podendo-se analisar, distinguir e
identificar os comportamentos das variáveis tratadas. Incluiu-
se também o estudo simultâneo de dois atributos através das
tabelas de contingência.
1.19 Resumo
Incerteza: De um ponto de vista estritamente técnico, pode-
se definir incerteza como a falta de informação suficiente
para descrever, controlar e prever deterministicamente a
evolução de um sistema.
Dados: Dados, portanto, referem-se aos valores assumidos
pelos atributos relevantes de um objeto para determinado
estudo.
Informação: Informação é toda medida e gráfico obtidos a
partir dos dados, do ponto de vista estatístico, a informação é
de natureza descritiva ou exploratória, não configurando um
modelo.
Escala: Escala é a relação entre um atributo de um objeto e
sua representação simbólica.
Tipos de variáveis: Uma variável pode assumir valores qua-
litativos ou quantitativos.
Escala: Escala é a relação entre um atributo de um objeto e
sua representação simbólica.
Codificação numérica e simbólica: Variáveis qualitativas
podem ser convertidas em variáveis quantitativas e vice-
versa. Denominamos estas operações, respectivamente, de
codificação numérica e simbólica.
Frequência absoluta: É a partir dos dados que se geram
informações sobre o objeto de estudo. Uma das primeiras
informações que um estudo de natureza estatística procura
levantar é a frequência que determinado valor ou categoria
apresenta. A forma mais básica de frequência é a frequência
absoluta que consiste simplesmente em contar a ocorrência
de cada valor ou categoria.
Frequência relativa: É outra forma de se representar a ocor-
rência de uma categoria, pode-se usar a notação decimal ou
porcentual para exprimi-la.
Gráfico de colunas: É um gráfico que permite visualizar a
distribuição de frequências das categorias de uma variável
qualitativa.
Histograma: É um gráfico que permite visualizar a distribui-
ção de frequências dos intervalos de ocorrência de uma va-
riável quantitativa.
Tabelas de contingência: São tabelas de dupla, ou múltipla
entrada, contendo as frequências de ocorrência conjunta de
duas ou mais variáveis qualitativas.
Frequência marginal: basta somar cada linha da tabela de
contingência, obtendo-se uma coluna adicional com os to-
tais, e somar cada coluna, obtendo-se uma linha adicional.
As distribuições de frequências assim obtidas são denomi-
nadas frequências marginais.
Modelo é uma representação da realidade, isto é, de um par-
ticular objeto, característica ou processo.
1.20 Exercícios adicionais

1. A partir da tabela seguinte, construa o gráfico de colunas
para a variável nível de colesterol.
Tipo de ataque de coração/nível de colesterol baixo medio alto
Não fatal 29 17 18
Fatal 19 20 9
Resolução: Acrescentando uma linha com os totais para cada

nível de colesterol (frequência marginal do colesterol), obte-
mos:
Tipo de ataque de coração/nível de colesterol baixo(B) médio(M) alto(A)
Não fatal 29 17 18
Fatal 19 20 9
Totais 48 37 27
O gráfico de colunas fica, então:
2. Em uma determinada região, para cada ano 2% da popu-

lação existente no ano anterior morre, enquanto há 3% de
nascimentos. As mortes, obviamente, ocorrem em propor-
ções diferentes para cada faixa etária:
Faixa etária Porcentual de mortes
0 |– 6 36%
6 |– 16 24%
16 |– 26 15%
26 |– 36 9%
36 |– 46 6%
46 |– 100 10%
Resolução: Sabendo-se que, ao final de 1990, havia 5.000 crian-

ças na faixa 0 |– 6 e 8.000 na faixa 6 |– 16 para uma população
de 80.000 pessoas, calcule a quantidade de crianças nas faixas:
a) 0 |– 6 e b) 6 |– 16 ao final de 1991. Suponha ainda que, dentro
de cada faixa, a população se distribui igualmente por anos de
vida completados. Assim, a primeira faixa corresponde a crian-
ças de 0 a 5 anos e a seguinte de 6 a 15 anos.
Em 1991, a faixa 0|– 6 recebeu 3% de 80.000 correspondentes
aos nascimentos: + 2.400;
Por outro lado perdeu 36 % de 2% de 80.000 corresponden-
tes às mortes: – 576;
E também 17% de 5.000 correspondentes aos que cresce-
ram: – 833;
Portanto, a faixa 0|– 6 em 1991 tem 5.000 + 2.400 – 576 – 833
= 5.991 crianças.
Em 1991, a faixa 6|-16 recebeu 833 crianças da faixa anterior:
+ 833;
Por outro lado perdeu 24% de 2% de 80.000 correspondentes
às mortes: – 384;
E também 10% de 8.000 correspondentes aos que cresce-
ram: – 800;
Portanto, a faixa 6|-16 em 1991 tem 8.000 + 833 – 384 – 800 =
7.649 crianças.
3. As tabelas de contingência também podem ser representa-

das por gráficos de colunas. Basta escolher uma variável e,
para cada categoria dela, obter o gráfico de colunas referen-
te à variação da outra variável. Obtenha os gráficos de colu-
na para a tabela de contingência: índice de massa corporal x
padrão de perda de cabelo.
Índice de Padrão de perda de cabelo
Totais
massa corporal Nenhum Frontal Vertex
< 25 137 22 40 199
25 – 28 218 34 67 319
>28 153 30 68 251
Totais 508 86 175 769
Resolução: Para cada nível da variável índice de massa corporal

(IMC) construa o gráfico de colunas correspondente à variável
padrão de perda de cabelo.
Este gráfico é denominado histograma categorizado, ou ain-
da histograma de frequência condicional. Uma maneira de re-
presentá-lo é usando a frequência relativa em uma barra única,
hachureada em áreas proporcionais a esta frequência.
Temos, então, para cada nível de IMC as seguintes propor-
ções de padrão de perda de cabelo:
Índice de Padrão de perda de cabelo Totais
massa corporal Nenhum Frontal Vertex
< 25 137/199=68,8% 22/199=11,1% 40/199=20,1% 199
25 – 28 218/319=68,3% 34/319=10,7% 67/319=21,0% 319
>28 153/251=61,0% 30/251=12,0% 68/251=27,1% 251
Totais 508 86 175 769
O que nos leva ao gráfico abaixo:
Quando uma das variáveis categóricas é ordinal, este gráfico

permite visualizar a associação entre elas. No caso, quanto maior
o IMC, mais perda de cabelo. Entretanto, não se pode estabele-
cer relação de causalidade, porque um maior IMC pode indicar a
idade do entrevistado, com alterações de metabolismo.
Capítulo 2. População, censo e amostras
2.1 Propósito
Apresentar as metodologias mais comuns para a obtenção de
dados com fins estatísticos. Diferenciar os problemas experi-
mentais dos observacionais. Desenvolver os elementos básicos
de uma pesquisa de opinião.
2.2 Finalidade
Ao final deste capítulo, o aluno estará a apto identificar a popu-
lação em uma pesquisa, assim como identificar o seu tipo. Será
capaz de optar por uma abordagem experimental ou observa-
cional, conforme for o caso. Deve ser capaz de diferenciar os
procedimentos de censo dos de amostragem, diferenciando os
tipos de amostragem e seus objetivos. Poderá formular projetos
simples de pesquisa de opinião, evitando os erros mais usuais
desta prática.
2.3 Introdução
A primeira pesquisa de intenção de voto, de que se tem notí-
cia, data de 1824 e foi feita nos Estados Unidos da América do
Norte. Entretanto, naquela época as eleições não eram diretas,
somente em 1932 a prática de pesquisas abrangentes junto ao
eleitorado foi adotada de forma mais sistemática. A revista The
Literary Digest, em 1932, enviou formulários para seus assinan-
tes a fim de conhecer as intenções de votos. Como acertou a pre-
visão, repetiu o procedimento em 1936, enviando mais de dois
milhões de formulários. Entretanto, desta vez, errou a previsão.
Por outro lado, um estatístico norte-americano, chamado Geor-
ge Gallup (1901-1984), acertou a previsão com uma amostra de
Capítulo 2. População, censo e amostras 31
entrevistados muito menor. O exemplo realçou a necessidade
de uma abordagem científica para o problema da amostragem,
quando se trata de estender os resultados para a população. O
pesquisador fundou então um dos mais tradicionais órgãos de
pesquisa da América. Outro precursor do uso de coleta abran-
gente de dados para estudos sociais é Émile Durkheim (1858-
1917), sociólogo francês, cujo estudo sobre o suicídio na França
é um marco da sociologia moderna.
Definição 2.1. População é o conjunto de interesse para

o problema que se quer estudar. Os objetos que a consti-
tuem têm pelo menos um atributo em comum.
Populações podem ser discretas ou contínuas, finitas ou in-

finitas. Não necessariamente referem-se a pessoas, mas a qual-
quer objeto cujos atributos estejam sendo avaliados. Motores
em uma linha de produção, uma jazida mineral, uma camada
atmosférica, etc...
Definição 2.2. Amostra é um subconjunto finito repre-

sentativo de uma população.
Dois desafios precisam ser vencidos para obtenção de uma

boa amostra – a seleção dos objetos e o tamanho da amostra.
Definição 2.3. Amostragem é o processo de seleção de

uma amostra.
Quando toda a população é examinada, o que só é possível

quando ela é finita, tem-se um censo.
Definição 2.4. Censo é o exame de toda a população.
O procedimento de censo mais conhecido é o da população

brasileira feito pelo Instituto Brasileiro de Geografia e Estatísti-
ca (IBGE). É um procedimento caro, lento, feito a cada quatro
anos, em geral. Outros censos são feitos no setor industrial, co-
mercial e educacional. Apesar de o censo populacional ser tra-
dicional em diversos países, há uma tendência em substituí-lo
pela amostragem. Em Israel e na França estes procedimentos já
vêm sendo adotados.
A amostragem não se aplica somente a pesquisas de mer-
cado ou de opinião. Como veremos no Capítulo 8, ela é base
para o processo de estimação. No Capítulo 1, definimos o trata-
mento da incerteza como meta da estatística. Há duas grandes
classes de problemas envolvendo incerteza que são objeto dos
métodos estatísticos. Os problemas experimentais (causalida-
de) e os observacionais.
Definição 2.5. Nos problemas experimentais as condi-

ções são controladas e procura-se determinar a relação
entre um ou mais atributos com os resultados obtidos.
É, por exemplo, o caso do controle estatístico de qualida-

de, no qual os níveis adequados dos atributos de controle são
determinados a fim de se obter um produto ou serviço dentro
de determinados padrões. A prototipagem de um remédio, por
exemplo, inclui uma exaustiva bateria de testes, onde vários fa-
tores serão monitorados com respeito aos resultados desejados
e também aos indesejados (efeitos colaterais).
Os atributos alterados pelo pesquisador são denominados
fatores e os atributos que sofreram algum efeito são denomina-
dos variáveis de resposta.
Quando não há clareza sobre quais atributos são responsá-
veis pelas mudanças é necessário fazer vários testes, onde os
níveis assumidos pelos atributos são aleatorizados e as varia-
ções nos resultados são observadas.
Exemplo 2.1
Suponha que em uma indústria que fabrica peças de metal, os
fatores escolhidos sejam temperatura do forno (graus Celsius) e
tempo de operação (segundos), enquanto que a variável de res-
posta é a espessura da peça (mm). A Tabela 2.1 dá as variações
impostas aos fatores e os valores correspondentes da variável
de resposta.
Tabela 2.1
Corrida Temp. Tempo Espessura
1 160 C 4 seg. 116,1 116,9 112,6 118,7 114,9
2 160 C 12 seg. 116,5 115,5 119,2 114,7 118,3
3 320 C 4 seg. 106,7 107,5 105,9 107,1 106,5
4 320 C 12 seg. 123,2 125,1 124,5 124,0 124,7
Para cada par de fatores repetiu-se cinco vezes o procedi-

mento, para avaliar-se o efeito estatístico. Utiliza-se uma no-
tação que associa ao menor nível o sinal (–), e ao maior nível o
sinal (+). Acompanha-se também o efeito de interação entre as
variáveis, já que, em geral, a dependência não é linear. A tabela
do planejamento de experimentos com dois fatores e dois ní-
veis para o esquema fatorial completo é:
Tabela 2.2
Corrida Temperatura (A) Tempo (B) Temperatura X Tempo(AB)
1 –1 –1 +1
2 –1 +1 –1
3 +1 –1 –1
4 +1 +1 +1
Após alguns cálculos pode-se representar em um gráfico

(gráfico de efeito marginal) um resumo do experimento. Dele
depreende-se que o aumento da temperatura está provocando
uma diminuição da espessura, enquanto que o oposto corre
com o aumento do tempo de operação.
Figura 2.1
Definição 2.6. Nos problemas observacionais a maior
parte das condições escapa ao controle, limitando-se o
pesquisador a colher dados sobre alguns atributos e, a
partir daí, formular suas proposições.
A meteorologia é um exemplo desta categoria, mas boa

parte das ciências da natureza também está enquadrada nes-
ta situação. Embora se possa fazer inferência estatística com
dados observacionais, sempre se está sujeito à interferência
de um atributo que não está sendo percebido no processo, e
cuja variação seja relevante para os resultados observados. Na
discussão sobre o aquecimento global esta questão vem sendo
levantada por diversos especialistas, ou seja, a emissão de CO2
não é o único fator que estaria causando o aumento da tempe-
ratura do planeta.
A inferência estatística está voltada preferencialmente para
os problemas experimentais, cabendo aos métodos do plane-
jamento de experimentos estabelecerem o controle adequa-
do sobre as condições em que o procedimento se desenvolve.
A indústria é um ramo da atividade humana que depende do
planejamento de experimentos desde a fase de prototipagem à
produção. Por outro lado os problemas observacionais também
fazem uso dos métodos estatísticos com algumas adaptações,
como é o caso da mineração de dados, já citada no Capítulo 1.
2.4 Exercícios
1. Para os problemas a seguir, indique qual é a população:
a) Prever o resultado da eleição para presidente da República
no Brasil.
b) Determinar a tendência de opinião em relação ao uso de ar-
mas por civis após campanha pelo desarmamento.
c) Prever a quantidade de minério em um projeto de mineração.
d) Testar a aceitação de um novo tipo de absorvente feminino.
e) Testar um novo remédio para stress.
f) Definir o tempo de garantia para uma linha de computadores.
2. Para cada um dos problemas do exercício 1, indicar quais
são experimentais (causalidade) ou observacionais.
2.5 Respostas
1.
a) Eleitores aptos a exercer o direito de voto.
b) População do país a partir da juventude.
c) Jazida mineral.
d) Mulheres na idade fértil.
e) Homens e mulheres ativos.
f) Computadores da linha.
2.
a) Observacional.
b) Experimental.
c) Observacional.
d) Experimental.
e) Experimental.
f) Experimental.
2.6 Tipos de amostragem
Definição 2.7. Os tipos de amostragem se dividem em

duas grandes classes: a) probabilística e b) não probabi-
lística.
Definição 2.8. Dentre os tipos de amostragem probabi-

lística, destacamos a amostragem aleatória simples, a
amostragem aleatória estratificada, a amostragem por
conglomerados e amostragem sistemática.
Se a população é homogênea, isto é, quando qualquer ele-
mento que a constitui tem igual chance de produzir cada um
dos resultados possíveis, a melhor forma de selecionar as obser-
vações é o sorteio, ou amostragem aleatória simples. Suponha
uma população finita com N elementos, da qual vai se sortear
um número finito de k elementos para constituir uma amostra.
Quantas amostras diferentes podem ser construídas em cada
caso: com ou sem reposição; a ordem importando ou não? Em
cada caso a resposta é dada respectivamente pelas fórmulas de
arranjos com repetição de N elementos k a k, combinações com
repetição de N elementos k a k, arranjos de N elementos k a k e
combinações de N elementos k a k.
⎧ ⎧ ordem importa : N k ⎫⎫
⎪ ⎪ ⎪⎪
⎪ com
reposiçao ⎨ ⎛ N + k − 1⎞ ⎬⎪
⎪ ordem
nao importa : ⎜⎝ ⎟⎠ ⎪⎪
⎪ k
⎪ ⎩ ⎭⎪
amostragem ⎨ ⎧ N! ⎫⎬
⎪ ⎪⎪ ordem importa : ⎪
⎪ sem reposiçao ( N − k )! ⎪⎪ ⎪
⎨ ⎬⎪
⎪ N !
⎪ ⎪ordem nao
importa : ⎪⎪
⎩ ⎪⎩ ( N − k )!k !⎭⎪ ⎭
Em uma pesquisa eleitoral, a hipótese de homogeneidade

não é aconselhável, porque os eleitores em função de diversas
características – sexo, idade, renda, naturalidade, etc. exprimi-
rão preferencialmente um ou outro candidato.
Exemplo 2.1
Uma pequena fábrica tem 10 empregados. Quantas amostras
diferentes com 5 pessoas são possíveis, para cada modalidade
de amostragem descrita acima?
Pela tabela acima N = 10 e k = 5, no primeiro caso a ordem
importa, portanto:
Nk = 105
No segundo caso, a ordem não importa, portanto:
⎛ N + k − 1⎞ ⎛10 + 5 − 1⎞ ⎛14 ⎞ 14!
⎜ ⎟=⎜ ⎟=⎜ ⎟= = 2.002
⎝ k ⎠ ⎝ 5 ⎠ ⎝ ⎠
5 5! 9!
No terceiro caso, não há reposição e a ordem importa:
N! 10!
= = 30.240
( N − k )! 5!
No último caso, não há reposição, nem a ordem importa:
N! 10!
= = 252
( N − k )!k ! 5!5!
Exemplo 2.2
No jogo de pôquer, somente algumas mãos com cinco cartas
têm valor; vejamos quantas mãos são possíveis para cada caso:
a) Totalidade de amostras com cinco cartas: como o baralho
tem 52 cartas, temos um caso de amostragem sem reposi-
ção, onde a ordem não importa, portanto, corresponde a
combinações de 52 elementos cinco a cinco que é igual a
2.598.960!
b) Totalidade de mãos com exatamente um par: um par são
duas cartas com o mesmo valor de face. O baralho tem 13
valores de face e quatro naipes. Uma mão com exatamente
um par pode ser sorteado de 13 maneiras diferentes, como
existem quatro naipes, as sequências podem ser compostas
por combinações de quatro naipes dois a dois. Os três va-
lores distintos podem ser sorteados por combinações de 12
valores três a três. Os naipes para estes valores distintos po-
dem ser sorteados de 43 maneiras distintas, obtendo-se:
⎛ 4 ⎞ ⎛12 ⎞
13 × ⎜ ⎟ × ⎜ ⎟ × 43 = 1.098.240
⎝ 2⎠ ⎝ 3 ⎠
c) Totalidade de mãos com exatamente dois pares: para asse-
gurar que sejam dois pares (necessariamente com valores
de face distintos) e uma quinta carta também distinta dos
valores dos pares (senão seria um trio) restringiremos as
amostras possíveis a combinações de 13 valores três a três.
Em seguida, temos para os dois pares um total de combina-
ções de quatro naipes dois a dois, multiplicado duas vezes.
Finalmente, restam 11 valores de face para a última posição
multiplicada pelo número de naipes, que totalizam quatro.
2
⎛13 ⎞ ⎛ 4 ⎞
⎜ ⎟ × ⎜ ⎟ ×11× 4 = 123.552
⎝ 3 ⎠ ⎝ 2⎠
Definição 2.9. Um experimento é aleatório quando não

se sabe qual resultado vai sair, apesar de todos os resulta-
dos possíveis serem conhecidos e as condições do expe-
rimento serem as mesmas.
Obviamente o conceito de aleatoriedade é uma abstração

matemática, o conceito que foi desenvolvido para modelar a
incerteza. Os problemas tratáveis pela estatística dependem
de tantas condições, que seria impossível abordá-los conjunta-
mente e determinar previamente o resultado. Assim a aleatorie-
dade é uma hipótese de trabalho e não, necessariamente, uma
convicção de que a natureza seja intrinsecamente aleatória.
Quando a população não é homogênea, mas pode ser re-
partida em estratos de iguais ou diferentes tamanhos, o sor-
teio é feito em cada estrato, proporcionalmente, tantas vezes
quanto for o tamanho do estrato em relação à população (par-
tilha proporcional) ou, ainda, mantendo o mesmo número de
observações por estrato. A amostragem estratificada é superior
à simples em populações estratificadas, porque o erro (padrão)2
cometido nas estimativas é menor.
Exemplo 2.3
Suponha que um levantamento amostral estratificado deva ser
feito em uma população com N = 1.000 objetos, foram identi-
ficados dois estratos, um com 300 objetos e o outro com 700
objetos. Decidiu-se obter uma amostra aleatória estratificada de
2. O conceito de erro padrão será visto no Capítulo 9.
tamanho 100. O número de objetos que devem ser selecionados
em cada estrato é dado pela seguinte memória de cálculo:
Cálculo da proporcionalidade do Estrato 1:
300 / 1000 = 0,30 ou 30%
Cálculo da proporcionalidade do Estrato 2:
700 / 1000 = 0,70 ou 70%
Tamanho do Estrato 1 em uma amostra com 100 objetos:
0,30 x 100 = 30
Tamanho do Estrato 2 em uma amostra com 100 objetos:
0,70 x 100 = 70
Outra modalidade de amostragem é a amostragem por
conglomerados, de motivação operacional, que destina-se a
facilitar o processo de coleta de dados. É aplicável quando a
população pode ser dividida em grupos, e cada grupo é uma
microrrepresentação da população, não sendo, neste caso, ho-
mogêneo.
Exemplo 2.4
Para compor uma amostra com 500 estudantes do ensino bá-
sico em um município, ao invés de sortear de uma lista de to-
dos os alunos do município, sorteio a partir das escolas básicas
daquele município. O procedimento pode ser feito em vários
estágios: a) 50 escolas são sorteadas; b) em cada escola, duas
classes são sorteadas e c) em cada classe, cinco crianças são
sorteadas.
As limitações operacionais levaram a adoção de procedi-
mentos que não são tipicamente probabilísticos, mas que mui-
tas vezes é a única maneira de se obter dados.
A amostragem sistemática é uma amostragem quase alea-
tória, já que apenas o primeiro elemento da lista é sorteado ao
acaso, sendo os demais resultantes da expressão:
[ INC + ( i – 1) INT ] que dá o valor do índice selecionado, onde
INC é o valor inicial casual sorteado entre 1 e INT; i é o contador
de 1 a n. E INT é o resultado da divisão do tamanho da popu-
lação (N) pelo tamanho da amostra (n). Esta divisão, em geral,
não dá um número inteiro, mas para amostras maiores que 50
pode-se arredondar para o maior inteiro abaixo do quociente
(função piso).
Exemplo 2.5
Suponha uma população com 20 observações e que se deseja
obter uma amostra sistemática com cinco elementos. INT será
4; suponha que INC seja sorteado e igual a 3. Então, a amostra
será compreendida pelos objetos de ordem:
3 + (1 –1) x 4 = 3
3 + (2 –1) x 4 = 7
3 + (3 –1) x 4 = 11
3 + (4 –1) x 4 = 15
3 + (5 –1) x 4 = 19
Definição 2.10. Dentre os tipos de amostragem não pro-

babilística destacamos a amostragem por conveniência
ou julgamento e cotas.
Na amostragem por conveniência a seleção das observações

não atende a um critério probabilístico, mas ao binômio po-
tencial de informação + limitações operacionais. Em ciências
da natureza, os levantamentos de campo são em sua maioria
inseridos nesta categoria. O técnico vai privilegiar os sítios com
alto potencial de informação para a pesquisa em andamento.
Exemplo 2.6
A localização de poços exploratórios ou de sondagem em um
levantamento geológico não é determinada aleatoriamente,
mas atende às preferências do geólogo de campo em função de
razões técnicas e operacionais.
Exemplo 2.7
Uma conhecida editora no país envia para professores, coorde-
nadores de cursos e diretores de instituições de ensino superior
formulários para que opinem sobre a qualidade dos cursos ofe-
recidos.
A amostragem por cotas é uma das mais utilizadas pelos ins-
titutos de pesquisa. É feita em duas etapas: na primeira, esta-
belece segmentos para a população e, na segunda, escolhe, por
conveniência, elementos dentre cada segmento.
Exemplo 2.8
O objetivo é gerar uma amostra para traçar o perfil do jornalista
carioca, definimos o tamanho da amostra em 400 e optamos
pela amostragem em cotas, os números dentro das células re-
presentam a quantidade de entrevistados (das) em cada grupo.
O levantamento foi feito em 1996. Os valores em cada célula
indicam o número de pessoas a entrevistar.
Tabela 2.3
Jornal
Empresa Globo JB Dia Jornal do Tribuna O Povo
Categoria Comércio Imprensa
Jovem 16 9 7 4 4 3
Senior 12 7 5 2 2 2
TV
Empresa Globo TVE Manchete SBT Bandeirantes CNT
Categoria
Jovem 19 8 8 2 2 2
Senior 14 5 5 1 1 1
Rádio
Empresa Globo JB Tupi Dia Nacio- Bandei Catedral Transa-
Categoria nal rantes merica
Jovem 13 2 1 1 1 1 1 1
Senior 5 1 1 1 1 1 1 1
Assessoria de imprensa pública

Empresa Petro- CBTU Sec. Sec. Ass. Inca Telerj Em- IRB
bras Munic. Estad. Legisl. bratel
4 4 10 10 10 2 2 2 2
Assessoria de imprensa privado
Empresa Golden Shell Souza Coca- Pepsi Amil
Cross Cruz Cola
4 4 4 4 4 4
Entidades patronais
Empresa CNI/Firjan Ass. Com. RJ Conf. Nac. Fenaseg
Comércio
8 2 2 2
Sindicatos de trabalhadores
Entidade Sind. Sind. Sind. Cremerj Sind. Sind.
Bancários Urbanit. Petroleiros Profess. Metal.
4 4 4 2 2 2
Publicações dirigidas
Empresa Vale CNI CNC
4 4 4
Revista
Empresa Bloch Abril
Categoria
Jovem 14 10
Sênior 6 4
Freelancer
Empresa ABI Bloch Abril Autônomo1 Autônomo2
5 5 5 1 1
Empresas de comunicação
Empresa Video Clipping Lima Amorim Baroncelli I II III IV
2 2 2 2 2 2 2
Professores
Univer- UFRJ Facha Uerj Cidade Estácio Gama Veiga de PUC
sidade Filho Almeida
5 4 5 2 2 2 2 2
Frequentemente, em uma pesquisa de dados, não é possível
fazer a medição direta do atributo de interesse. É necessário en-
tão recorrer a uma instância superior que permita a medição.
Definição 2.11. Unidade amostral é a menor parte distin-

ta da população, identificável para fins de enumeração e
sorteio.
Exemplo 2.9
No caso do censo demográfico, a unidade amostral é o domi-
cílio, e não o cidadão. O entrevistador ao visitar o domicílio re-
colhe as informações sobre todos os seus moradores. Ao final
do processo todos os cidadãos domiciliados terão sido com-
putados. A objeção de que o procedimento deixaria de fora os
cidadãos não domiciliados, conhecidos como sem-teto, é váli-
da, mas seria muito difícil trabalhar com a unidade amostral
sendo o indivíduo. Censos para a população de rua têm sido
feitos paralelamente com outra abordagem para contornar esta
limitação. Um exemplo recente é o censo da população de rua
da cidade de São Paulo. A unidade amostral adotada se baseou
em repartição geográfica de áreas utilizadas por sem-teto para
passar a noite: albergues, obras abandonadas, cemitérios, etc...
Descobriu-se que boa parte da população de rua tinha domicí-
lio fora da cidade de São Paulo, vivia de pequenos serviços, sem
condições financeiras para ir e voltar de casa todos os dias da
semana, fazendo-o somente nos fins de semana.
2.7 Pesquisas de opinião e de mercado

No caso das pesquisas de opinião e de mercado a formulação
do questionário exige muito cuidado na sua formulação. Mes-
mo itens banais como sexo, estado civil e renda podem ser inú-
teis para a investigação que se está fazendo. Sexo ou orientação
sexual? Estado civil formal ou real? Por outro lado, determina-
das perguntas provocam reações defensivas, como é o caso da
renda. Os questionários também devem levar em conta se o
problema ou pesquisa é de natureza experimental ou observa-
cional.
Com a expansão da internet a coleta automática de dados
ocorre, muitas vezes, sem que o indivíduo tenha conhecimen-
to da mesma, o que vem causando preocupações aos grupos
de defesa dos direitos do consumidor e do cidadão. A indústria
farmacêutica, por exemplo, compra os relatórios produzidos
por empresas de pesquisa, que levantam junto às farmácias as
receitas encaminhadas. Assim são capazes de determinar os
medicamentos que vêm sendo indicado pelos médicos, o que
orienta seus planos de marketing junto à categoria.
A primeira decisão a ser tomada na formulação de um ques-
tionário é sobre a escala a ser adotada. Obviamente, no caso de
questionário, está se falando de atributos qualitativos. Confor-
me visto no Capítulo 1, necessariamente para este caso, há as
escalas nominais e ordinais. Na maioria dos casos utiliza-se a
escala ordinal, há diversas implementações desta escala: escala
verbal com ordenação (Lickert);3 diferencial semântico (reco-
mendada para análise de perfis); soma constante (para compa-
rar marcas) e escala de classificação ordinal.
A escala com diferencial semântico pode ser muito útil para
comparar os perfis entre diferentes versões de um mesmo pro-
duto, por exemplo: cerveja. Neste tipo de escala, para cada atri-
buto apresentam-se as categorias opostas, devendo o entrevis-
tado assinalar na escala a posição que julga mais adequada.
Governo corrupto _x_ _ _ _ _ Governo honesto

Governo autoritário _ _ _ _ _x_ Governo democrático
Governo empreendedor _x_ _ _ _ _ Governo sem iniciativa
Governo comunicativo _x_ _ _ _ _ Governo distante
Na tabela seguinte temos para cada atributo descritivo do

produto cerveja, a pontuação para duas marcas de cerveja.
3. Apresentada no Capítulo 1.
Tabela 2.4 Análise de perfil de cerveja
especial X X comum
relaxante não
X relaxante
forte X X fraca
refrescante X X não
refrescante
leve X X pesada
paladar X X paladar
especial comum
não X X amarga
amarga
cerveja 1 cerveja 2
Um questionário que poderia coletar os dados para a cons-

trução de perfis de alunos em um curso, com respeito a ativida-
des na internet é dado a seguir.
Exemplo 2.10
Pesquisa de opinião: não colocar o nome ou qualquer identifi-
cação. Assinalar apenas um item para cada pergunta.
1. Quantas vezes você acessa a internet por semana?
( ) Nenhuma vez
( ) Uma a duas vezes
( ) Três a cinco vezes
( ) Seis a sete vezes
( ) Mais do que sete vezes
2. Dentre os sites do dia apresentados em sala, quantos você

visitou?
( ) Nenhum
( ) Um a três sites
( ) Quatro a seis sites
( ) Mais do que seis sites
3. A quantas aulas você assistiu até agora?
( ) Menos de quatro aulas
( ) De quatro a seis aulas
( ) De sete a nove aulas
( ) Dez aulas ou mais
4. Dentre os temas do dia apresentados, quantos lhe interessa-

ram?
( ) Nenhum
( ) De um a três temas
( ) De quatro a seis temas
( ) Sete ou mais temas
Na escala com soma constante o entrevistado deve partilhar

os pontos de um total fixado em 100. Assim, por exemplo, a
marca A recebe 20, a marca B recebe 50 e a marca C recebe 30.
Na escala de classificação ordinal o entrevistado deve orde-
nar as categorias de um determinado atributo com respeito a
algum critério. Para as montadoras de veículos instaladas no
país estabelecer uma ordenação com respeito à inovação.
2.8 Exercícios
1. Uma pesquisa sobre TV a cabo deve ser conduzida telefo-
nando-se para os moradores de um bairro durante o fim de
semana. Como você selecionaria estes moradores? Justifi-
que.
2. Uma agência bancária, desejando melhorar seus serviços,
colocou uma caixa de sugestões com formulários e caneta à
disposição de seus clientes. Analise esta metodologia e apre-
sente uma alternativa que considere melhor.
2.9 Respostas
1. Por amostragem aleatória estratificada, onde os estratos
poderiam ser: casas, prédios isolados e condomínios. Em
seguida, sorteariam os moradores dentro de cada estrato
proporcionalmente e pelo endereço e seria feito o contato
telefônico, com o auxílio das listas de assinantes de telefo-
nes fixos.
2. Não é uma amostragem probabilística, é uma das piores
amostragens não probabilísticas (veja a discussão no início
do capítulo). Uma alternativa seria colocar entrevistadores
que escolheriam os clientes de acordo com um planejamen-
to amostral por cotas.
2.10 Conclusão
Neste capítulo o aluno tomou consciência de que dados não
brotam do chão. É preciso ir buscá-los, e ao fazê-lo, deve-se
observar uma metodologia. Idealmente quanto mais probabi-
lístico for o procedimento melhor, mas, por motivos operacio-
nais, nem sempre isso é possível. Dependendo das caracterís-
ticas da população, o tipo de amostragem mais adequado deve
ser selecionado. A coleta de informações envolve muitos pro-
blemas operacionais que podem vir a interferir na qualidade
da análise. Em particular, as pesquisas de opinião e de mercado
têm metodologia própria adequada à natureza do estudo de in-
teresse.
2.11 Resumo
População: É o conjunto de interesse para o problema que
se quer estudar. Os objetos que a constituem tem pelo me-
nos um atributo em comum.
Amostra: É um subconjunto finito representativo de uma
população.
Amostragem: É o processo de seleção de uma amostra.
Censo: É o exame de toda a população.
Problemas experimentais (causalidade): São problemas
onde as condições são controladas e procura-se determinar
a causalidade entre um ou mais atributos.
Problemas observacionais: São problemas onde a maior
parte das condições escapa ao controle, limitando-se o pes-
quisador a identificar associações entre os atributos.
Tipos de amostragem: As amostragens se dividem em duas
grandes classes: a) probabilística e b) não-probabilística.
Tipos de amostragem probabilística: Destacamos a amos-
tragem aleatória simples, a amostragem aleatória estrati-
ficada, a amostragem por conglomerados e a amostragem
sistemática.
Experimento é aleatório: É um experimento no qual não se
sabe qual resultado vai sair, apesar de todos os resultados
possíveis serem conhecidos e as condições do experimento
serem as mesmas.
Tipos de amostragem não probabilística: Destacamos a
amostragem por conveniência ou julgamento e por cotas.
Unidade amostral: é a menor parte distinta da população,
identificável para fins de enumeração e sorteio.

1. Uma população discreta e finita é constituída por 200 obje-
tos, distribuídos em três estratos diferentes S1, S2 e S3, da se-
guinte forma: 50 em S1 e S3 e 100 em S2. Quantas amostras
estratificadas diferentes pode-se extrair com reposição, de
tamanho igual a 20 objetos? (Não é necessário fazer o cálcu-
lo até o final, apenas indique o resultado usando a notação
de números combinatórios).
Resolução: Inicialmente vão ser determinados quantos objetos
serão tomados em cada estrato. Respeitando-se o tamanho dos
estratos, tem-se x + 2x + x = 20 => x = 5, ou seja os estratos 1 e 3
contribuem com 5 objetos cada, e o estrato 2, com 10.
Pela fórmula de combinação com repetições e o princípio
do produto da análise combinatória temos:
⎛ 50 + 5 − 1⎞ ⎛100 + 10 − 1⎞ ⎛ 50 + 5 − 1⎞
⎜ ⎟⎜ ⎟⎜ ⎟=
⎝ 5 ⎠⎝ 10 ⎠⎝ 5 ⎠
⎛ 54 ⎞ ⎛109 ⎞ ⎛ 54 ⎞
⎜ ⎟⎜ ⎟⎜ ⎟
⎝ ⎠⎝
5 10 ⎠⎝ 5 ⎠
2. Considerando o jogo de pôquer, determine quantas mãos

são possíveis em cada caso abaixo:
a) full house (um par e um trio);
b) four of a kind (exatamente quatro cartas de igual valor);
c) straight (cinco cartas em sequência, podendo o ás ser utili-
zado tanto como maior quanto como menor carta; inclui-se
o straight flush neste caso);
d) flush (todas as cartas do mesmo naipe; inclui-se o straight
flush);
e) straight flush (cinco cartas em sequência e do mesmo naipe);
f ) royal flush (straight flush com a sequência de 10, valete, rai-
nha, rei e ás);
g) nenhuma das sequências acima.
Resolução:
a) Há 13 pares possíveis, combináveis com quatro naipes dois
a dois:
⎛ 4⎞
13 × ⎜ ⎟
⎝ 2⎠
Uma vez fixado o par, restam 12 trios possíveis, combináveis
com quatro naipes três a três:
⎛ 4⎞
12 × ⎜ ⎟
⎝ 3⎠
Pelo princípio do produto,4 o total de mãos full house é:
4. O princípio do produto enuncia que o número de objetos distintos é igual ao

produto dos números distintos de seus componentes.
⎛ 4⎞ ⎛ 4⎞
13 × ⎜ ⎟ X 12 × ⎜ ⎟ = 3.744
⎝ 2⎠ ⎝ 3⎠
b) Há 13 valores possíveis, combináveis com quatro naipes
quatro a quatro:
⎛ 4⎞
13 × ⎜ ⎟
⎝ 4⎠
Uma vez fixado o four, restam 12 valores, combinável com
quatro naipes um a um:
⎛ 4⎞
12 × ⎜ ⎟
⎝1⎠
Pelo princípio do produto, o total de mãos de four é:
⎛ 4⎞ ⎛ 4⎞
13 × ⎜ ⎟ X 12 × ⎜ ⎟ = 624.
⎝ 4⎠ ⎝1⎠
c) Há 10 sequências possíveis e, para cada posição, quatro nai-
pes possíveis. Assim, pelo princípio do produto:
10 x 45 = 10.240.
d) Há quatro naipes possíveis e, uma vez fixado o naipe, as cin-
co posições são combináveis com 13 valores cinco a cinco:
⎛13 ⎞
4×⎜ ⎟ = 1.287.
⎝5⎠
e) Há 10 sequências possíveis e, para cada sequência, quatro
naipes:
10 x 4 =40.
f) Há quatro naipes possíveis para uma sequência: 4.
g) Devem ser considerados cinco valores distintos, excluindo-
se o straight:
⎛13 ⎞
⎜ ⎟ − 10
⎝5⎠
Em seguida, para cada posição, dispõe-se de quatro naipes,
excluindo-se o flush:
(45 – 4).
Sempre pelo princípio do produto:
⎛13 ⎞
(⎜ ⎟ − 10 ) x (45 – 4) = 1.302.540.
⎝ ⎠
5
3. Para comparar os resultados no Enade entre alunos de sexo

masculino com os de sexo feminino, o que é mais adequado:
fazer, um estudo observacional ou experimental? Justifique.
Resolução: Observacional. O Enade não é feito para comparar
o desempenho por sexo. Para isso, outros fatores deveriam ser
levados em conta e aleatorizados em um experimento. Como
não foi o caso, é um estudo observacional que poderá levar a
conclusões errôneas neste caso.
4. Dê um exemplo de amostragem tendenciosa e comente se

o aumento do número de elementos da amostra necessaria-
mente corrige o erro?
Resolução: Toda amostragem voluntária, que, aliás, é de uso
muito comum na mídia. O aumento do tamanho da amostra
não corrige o erro neste caso, ao contrário do que ocorre na
amostragem aleatória.
5. Em uma população com 10.000 correntistas de uma agên-

cia bancária, há dois estratos, adimplentes e inadimplen-
tes, com 9.900 adimplentes e 100 inadimplentes. O Depar-
tamento de Crédito quer fazer um estudo de data mining
sobre a associação entre os diversos atributos cadastrados
sobre os clientes – estado civil, renda, profissão, etc. e o ní-
vel de adimplência e inadimplência. Para isso, precisa obter
uma amostra aleatória estratificada com 100 correntistas
para proceder ao estudo.
a) É um estudo observacional ou experimental?
b) Qual o tamanho mais adequado para os estratos na amostra?
Resolução:
a) O estudo é observacional, pois o banco não tem controle sobre
a variabilidade dos atributos em relação à situação de crédito
de cada cliente. Ou seja, as variações são observadas e não in-
duzidas.
b) Dois estratos de igual tamanho – 50. Como um dos estratos é
muito reduzido na população, o critério da proporcionalida-
de levaria a se coletar apenas um cliente inadimplente para a
análise.
6. Em uma pesquisa de opinião sobre uma revista, no item lei-

tura, a pergunta ao entrevistado foi formulada da seguinte
maneira:
Quando recebe a revista costuma (responder apenas um
item):
a) Não ler
b) Ler só os títulos
c) Dar uma olhada
d) Ler alguns artigos
e) Ler com atenção
Qual escala está sendo utilizada?
Resolução: Escala de diferencial semântico.
Capítulo 3. Estatísticas de tendência central
3.1 Propósito
Apresentar os conceitos de média, mediana e moda, assim
como sua importância para a interpretação de histogramas.
3.2 Finalidade
Ao final deste capítulo, o aluno deve ser capaz de calcular e di-
ferenciar as estatísticas de tendência central, assim como iden-
tificar as informações que cada uma delas fornece. Representar
no histograma os valores da média, mediana e moda. Identifi-
car os tipos de histograma com respeito ao achatamento, sime-
tria e modalidade.
3.3 Introdução
O termo “estatística” tanto serve para designar a ciência, assim
como também as medidas obtidas a partir das amostras de uma
particular população. A palavra estatística foi utilizada pela pri-
meira vez pelo economista alemão Gottfried Achenwall (1719-
1772). Entretanto, procedimentos que poderiam ser considera-
dos típicos da metodologia estatística são encontrados desde a
antiguidade. Para a civilização judaico-cristã o livro “Números”,
do Antigo Testamento, é um exemplo de levantamento popu-
lacional e geográfico detalhado do povo judeu daquela época.
Estas técnicas foram aprendidas dos babilônios. A ciência esta-
tística, entretanto, não deve ser reduzida meramente à coleta e
descrição de dados.
Definição 3.1. Estatística é uma ciência dedicada à

obtenção, descrição, análise e modelagem de dados ex-
Capítulo 3. Estatísticas de tendência central 55
perimentais oriundos de processos, fenômenos ou even-
tos incertos.
Na etapa exploratória, diversas medidas informativas po-

dem ser calculadas. As principais famílias de medidas são: a) as
de tendência central; b) as de ordem; c) as de dispersão; e d) as
de associação.
As medidas de “tendência central” mais comuns são: a) mé-
dia (amostral); b) mediana (amostral); e c) moda (amostral).
Definição 3.2. A média amostral é obtida a partir da soma

de todos os valores observados de um atributo, dividida
pela totalidade das observações.
∑fx i i
x= i =1
m
(3.1)
∑f
i =1
i
Na fórmula (3.1), fi denota a frequência absoluta da obser-

vação xi. O conceito de média é um dos mais antigos, remon-
tando à Grécia clássica. Provém da Mecânica a partir do cálculo
do momento de inércia resultante da aplicação de diferentes
forças em um ponto P. O momento escalar é igual à força vezes
a distância ao ponto. Se considerarmos no lugar das forças as
frequências, e no das distâncias, os valores observados, temos
a equivalência entre o momento de inércia resultante e a mé-
dia amostral. Na Figura 3.1, a seta cinza indica a força resul-
tante equivalente às quatro outras forças aplicadas no ponto P,
segundo o princípio dos momentos. Este princípio estabelece
que o módulo da força resultante seja a soma das forças com si-
nal positivo, caso a tendência seja de girar o eixo no sentido an-
ti-horário (f3 ), e negativo (f1, f2, e f4) caso a tendência seja girar
no sentido horário. A distância resultante é dada pela fórmula
(3.1), esta distância não precisa corresponder a nenhuma par-
ticular força do sistema inicial, assim como a média amostral
não precisa corresponder a nenhum valor observado.
Figura 3.1
Exemplo 3.1
Suponha que se queira instalar um hospital ao longo de uma
estrada, de modo que sirva diversas cidades pequenas à sua
margem. Se x1, x2,... xn denotam os marcos de quilometragem
destas cidades, em qual ponto da estrada deve ser localizado
o hospital de modo que fique o mais próximo possível destas
cidades?
Se houvessem apenas duas cidades a resposta seria óbvia –
a localização corresponderia à média aritmética dos marcos x1
e x2. Mas esta é também a solução para o problema geral, ou
seja o hospital deve ser construído no marco que corresponde
à média amostral, conforme a fórmula (3.1), sendo cada fi = 1,
neste caso.
3.4 Exercícios
1. Uma amostra com 10 elementos tem média = 104. Se uma
nova observação valendo 102 for incluída, qual o novo valor
da média amostral?
2. Considere o histograma representado abaixo obtido a partir
de uma amostra:
Determine aproximadamente a média amostral.
3. Embora a média amostral seja a forma mais usual para cal-
cular médias, deve-se tomar cuidado quando os atributos
observados são razões (km por hora, calorias por grama,
etc...). Neste caso deve-se utilizar a média harmônica que
é obtida tomando-se o recíproco da média dos recíprocos
das razões observadas. Por exemplo, se uma pessoa vai da
cidade A para B e volta depois para A, de bicicleta, qual é sua
velocidade média? Se de A para B desenvolveu a velocidade
de 10 km por hora, e de B para A, a velocidade de 30 km por
hora. Sabe-se ainda que a distância de A até B é de 30 km.
4. Outro exemplo que deve merecer a atenção do estudioso é
o caso de taxas de mudança. Suponha que em um ano um
comerciante aumentou suas vendas em 110% e no ano se-
guinte de 150%. Qual é o aumento médio das vendas por
ano? Neste caso a média geométrica é a medida indicada
que é obtida fazendo-se o produto das taxas observadas e
calculando-se a raiz de ordem correspondente.
3.5. Respostas
1. Se a média é 104, então a soma dos elementos é 1040. So-
mando-se 102 e dividindo-se por 11, obtém-se 103,82.
2. Use o ponto médio como representante do intervalo e mul-
tiplique cada valor pela frequência relativa respectiva ao
intervalo. A soma destes produtos dá um valor aproximado
para a média amostral: 15 x 0,28 + 25 x 0,31 + 35 x 0,34 + 45 x
0,05 + 55 x 0,02 = 27,2.
3. Calcular a média das velocidades daria 20 km por hora, nes-
te caso o tempo gasto seria 60 ÷ 20 = 3 horas. O que não é
consistente com os dados pois, para ir de A até B, a pessoa
gastou 3 horas, e para voltar, 1 hora; logo, gastou no total 4
horas, e não 3! Assim a velocidade média correta é de 60 ÷ 4
= 15 km por hora. O resultado pode ser obtido diretamente
pela média harmônica, que é igual ao recíproco da média
dos recíprocos das observações diferentes de zero. No caso:
1
1 1
+
10 30 = 15
2
4. Novamente, se fizermos meramente a média dos porcen-
tuais estaremos errando. Por exemplo, suponha que inicial-
mente tenhamos 100 vendas, no primeiro ano passaríamos
a 110% de 100 =110 vendas e depois a 150% de 110 =165 ven-
das. No entanto, a média de 110% com 150% dá 130%. Apli-
cando sucessivamente este porcentual a 100, obtemos res-
pectivamente 130 e 169, o que não corresponde ao resultado
correto. O resultado correto pode ser obtido diretamente a
partir do cálculo da média geométrica que é igual a n-ésima
raiz do produto das n observações. No caso:
(110 × 150)1/2 = 128, 4
Definição 3.3. Mediana amostral, denotada por x50%, é o

valor que divide ao meio o conjunto de valores observa-
dos em uma amostra, ordenados crescentemente.
⎧ x50% = x( n +1)/2 ; se n impar ⎫

⎪ ⎪
⎨ xn /2 + x( n /2 + 1) ⎬ (3.2)
x
⎪ 50% = ; se n par ⎪
⎩ 2 ⎭
O conceito de mediana foi introduzido pelo cientista britâ-
nico Francis Galton (1822-1911) e é particularmente significa-
tivo para descrição de amostras com histogramas assimétricos.
Nestes casos, muito comuns, a média tende a subestimar ou so-
breavaliar a tendência da amostra.
Exemplo 3.2
Considere as duas amostras seguintes de salários, já previa-
mente ordenadas
A1: {400, 500, 1.500, 2.500, 2.600, 3.000, 3.500}
A2: {300, 450, 500, 510, 600, 610, 3.000}
A média amostral em A1 é 2.000 e a mediana, 2.500. Ora, vê-

se claramente que a média está subavaliando a tendência dos
salários, que é mais bem representada pela mediana. Já em A2
a média é dada aproximadamente por 825,86, um valor muito
acima da maioria dos valores praticados, enquanto que a me-
diana é igual a 510.
Os conceitos de média, mediana e moda podem ser utiliza-
dos para classificar histogramas. Se um histograma for simé-
trico então média=mediana=moda. Assim, se essas estatísticas
forem diferentes, o histograma não é simétrico.
Se a média for maior que a mediana temos uma assimetria
positiva ou assimetria à direita, neste caso a cauda direita do
histograma se prolonga mais do que a esquerda. No caso con-
trário temos uma assimetria negativa ou à esquerda.
3.6. Exercícios
1. Considere o quadro de frequências relativas por intervalo
conforme a tabela abaixo:
intervalo Frequência relativa em notação decimal
(2 – 4] 0,10
(4 – 6] 0,30
(6 – 8] 0,20
(8 – 10] 0,35
(10 – 12] 0,05
Determine a mediana.
2. Calcule aproximadamente a mediana da amostra represen-
tada pelo histograma do exercício 2 da seção 3.4.
3.7. Respostas
1. Até o valor 4 temos 10% das observações, até o valor 6 temos
10% + 30% = 40% das observações. Se incluirmos o intervalo
(6 8] iremos considerar 60% das observações. Como o quan-
til pedido é de 50%, vamos tomar a metade do último inter-
valo, i.e.,até 7, portanto x50%= 7.
2. A área correspondente à segunda coluna que completa 50%,

ao ser somado aos 28% relativos à primeira coluna é 22%. O
valor que acumula esse porcentual é 7,1 = (22 x 10) / 31. Logo
a mediana é 20 + 7,1 = 27,1.
Definição 3.4. Moda (amostral) é o valor mais frequente

em uma amostra. O conceito foi introduzido pelo mate-
mático britânico Karl Pearson (1857-1936).
O conceito é mais facilmente compreendido para atributos

qualitativos, já que no caso de atributos quantitativos a diver-
sidade de valores poderia tornar irrelevante a determinação da
moda. Neste caso é preferível falar em intervalo modal, a partir
da comparação entre as frequências dos intervalos em que se
dividiu a amostra. No exercício 1 da seção 3.5 o intervalo mo-
dal é (8 – 10]. Quando abordarmos, no Capítulo 7, o conceito
de função densidade de probabilidade, veremos que a moda
corresponde a um ponto de máximo local desta função. De-
pendendo da função pode haver vários pontos de máximo lo-
cal, neste caso diremos que a distribuição é multimodal. Para
amostras isto também pode ser observado, caso haja mais de
um intervalo em torno do qual as frequências são menores. A
ocorrência de multimodalidade é um indício de mistura de po-
pulações. Por exemplo, em um estudo sobre a altura de pessoas
se não estabelecermos a faixa etária, étnica, de gênero etc., po-
deremos ter vários modos no histograma obtido.
Se um histograma é assimétrico à direita ou positivo, então
moda < mediana < média, caso contrário média < mediana <
moda. Mas a recíproca não é necessariamente verdadeira. Gra-
ficamente, o histograma assimétrico à direita tem sua cauda
direita (do observador) mais alongada, enquanto que o histo-
grama assimétrico à esquerda tem sua cauda esquerda mais
alongada.
Definição 3.5. A assimetria do histograma é quantifica-

da pelo coeficiente de assimetria, que no caso amostral
é dado por:
∑ (x − x ) i
3
ks = n
i =1
(3.3)
{∑ [( x − xi ) 2 ]}3/2
i =1
Obviamente, se o histograma for simétrico, então ks= 0; se

for assimétrico à direita, então ks > 0; caso contrário, ks < 0.
Coeficientes são razões entre estatísticas, ao longo do curso
examinaremos diversos coeficientes que permitirão analisar um
determinado aspecto da distribuição de valores observados. Um
dos motivos para se usar coeficientes é o fato de que eles não são
influenciados pela escala de medição, ou seja, são adimensio-
nais. Outro coeficiente que quantifica a forma do histograma é o
coeficiente de curtose ou coeficiente de achatamento. Este coe-
ficiente dá a concentração de valores em torno da média, quanto
mais achatado (platicúrtico) é o histograma, menor é esta con-
centração. No caso oposto, quanto mais elevado (leptocúrtico),
maior é a concentração. O padrão adotado (mesocúrtico) é a
concentração da distribuição normal que é da ordem de 2,80. A
distribuição normal será vista no Capítulo 7.
Definição 3.6. A concentração de valores em torno da

média é quantificada pelo coeficiente de achatamento
ou curtose, que no caso amostral é dado por:
∑ (x − x ) i
4
kc = n
i =1
(3.4)
{∑ [( x − xi ) 2 ]}2
i =1
Histograma platicúrtico => kc > 2,80

Histograma mesocúrtico => kc = 2,80
Histograma leptocúrtico => kc < 2,80
3.8. Exercícios
1. Considere um conjunto de n observações xi em uma amostra.
Quanto vale a expressão abaixo?
n
∑ (x − x )
i =1
i
2. Classifique os histogramas seguintes:
a) b)
3. Quando um médico afirma que a recuperação de uma gripe
se dá em três dias, qual das três estatísticas está sendo usa-
da: média, mediana ou moda?
4. Em uma empresa a folha salarial mensal tem a seguinte con-

figuração:
Quantidade por categoria Salário básico Totais
1 Gerente geral $R 23.000,00 $R 23.000,00
2 Subgerentes $R 10.000,00 $R 20.000,00
3 Vendedores $R 4.000,00 $R 12.000,00
2 Supervisores $R 3.500,00 $R 7.000,00
4 Funcionários administrativos $R 3.000,00 $R 12.000,00
10 Técnicos $R 2.500,00 $R 25.000,00
1 Estagiário $R 1.000,00 $R 1.000,00
23 Empregados $R 100.000,00
Determine o salário médio, mediano e modal.
5. No exercício 4 da série 3.4 vimos a utilização da média geo-

métrica para calcular a média de percentuais. Séries de valo-
res que crescem ou decrescem a uma razão constante (pro-
gressões geométricas) surgem habitualmente em problemas
de biologia e finanças. Para esses casos a média geométrica
representa melhor a tendência central do que as outras me-
didas. A razão para isto pode ser encontrada aplicando-se
o logaritmo sobre os termos da série, obtendo-se uma pro-
gressão aritmética, o que justificaria tomar a média dos lo-
garitmos, e depois calcular o antilogaritmo desta média para
retornar à escala original. Calcule a média geométrica das
observações a seguir: {32, 16, 8, 4, 2}.
6. Um comediante fez três filmes. O primeiro durava 30 minu-

tos e provocou 24 risadas na audiência. O segundo durava
90 minutos e provocou 53 risadas. E o terceiro causou 25 ri-
sadas em 50 minutos de duração. Qual é a média de risadas
por minuto considerando-se os três filmes juntos?
3.9. Respostas
1. ∑ (xi – x) = ∑ xi – ∑ x = nx – nx = 0
2. a) assimétrico negativo
b) bimodal
3. Moda, porque o médico se refere ao que é mais comum ou

mais frequente.
4. Para calcular o salário médio é necessário considerar cada

nível salarial tantas vezes quanto ele aparece: (1 x 23.000 +
2 x 10.000 + 3 x 4.000 + 2 x 3.500 + 4 x 3.000 + 10 x 2.500 + 1 x
1.000)/23 = 4.347,83.
Para calcular o salário mediano ordenam-se crescentemen-
te os salários de todos os empregados. Pela fórmula (3.2) a me-
diana corresponde ao salário na posição 12o na lista ordenada,
que é o salário de R$ 3.000,00.
Para calcular o salário modal basta verificar o salário prati-
cado com mais frequência, neste caso $ 2.500,00.
5. Tomando o logaritmo na base 10, temos, respectivamente,

{1,5051; 1,2041; 0,9031; 0,6021 e 0,3010}. A media dos loga-
ritmos é: 0,9031. O antilogaritmo deste valor é 8. O mesmo
resultado pode ser obtido pela fórmula da raiz enésima do
produto dos n valores:
(25 × 24 × 23 × 2)1/ 5 = (215 )1/ 5 = 23 = 8
6. Devem ser somados os números de risadas por filme:

24+53+25 = 102. Em seguida, somam-se as durações dos fil-
mes 30+90+50 = 170. Dividindo-se um pelo outro obtemos
0,6. Observe que o valor obtido, obviamente não correspon-
de a um valor observado, nem precisaria ser. Estatísticas são
informações de referência sobre a amostra, não precisam
corresponder a um valor real. Outra consideração é que um
erro comum neste exercício, seria fazer a média das taxas, o
que daria o valor 0,63. Esse exercício não poderia ser resol-
vido com a média harmônica porque ambas as grandezas
variam, ao contrário do exemplo da bicicleta, no qual a dis-
tância permanece a mesma.
3.10. Conclusão
Neste capítulo iniciou-se o estudo das estatísticas – valores que
sumarizam o comportamento de uma particular variável em
uma amostra – pela família das estatísticas de tendência cen-
tral: média, mediana e moda. Ao seu final, o aluno é capaz de
calcular essas estatísticas, assim como interpretar os resulta-
dos. O aluno também apreendeu a classificar histogramas com
respeito à simetria, achatamento e modalidade.
3.11. Resumo
Estatística é uma ciência dedicada à obtenção, descrição,
análise e modelagem de dados experimentais oriundos de
processos, fenômenos ou eventos incertos. O termo estatís-
tica tanto serve para designar a ciência, assim como também
as medidas obtidas a partir das amostras de uma particular
população.
As principais famílias de medidas são: a) as de tendência
central; b) as de ordem; c) as de dispersão e d) as de asso-
ciação.
As medidas de tendência central mais comuns são: a) média
(amostral); b) mediana (amostral) e c) moda (amostral).
A média amostral é obtida a partir da soma de todos os valo-
res observados de um atributo, dividida pela totalidade das
observações.
m
∑fx i i
x= i =1
m
(3.1)
∑f
i =1
i
Mediana amostral, denotada por x50%, é o valor que divide

ao meio o conjunto de valores observados em uma amostra,
ordenados crescentemente.
⎧ x50% = x( n +1)/2 ; se n impar ⎫

⎪ ⎪
⎨ xn /2 + x( n /2 + 1) ⎬ (3.2)
x
⎪ 50% = ; se n par ⎪
⎩ 2 ⎭
Moda (amostral) é o valor mais frequente em uma amostra.
A assimetria do histograma é quantificada pelo coeficiente
de assimetria.
n
∑ (x − x ) i
3
ks = n
i =1
(3.3)
{∑ [( x − xi ) 2 ]}3/2
i =1
Se um histograma é assimétrico à direita ou positivo, então

moda < mediana < média, caso contrário média < mediana
< moda. Mas a recíproca não é necessariamente verdadei-
ra. Graficamente, o histograma assimétrico à direita tem sua
cauda direita (do observador) mais alongada, enquanto que
o histograma assimétrico à esquerda tem sua cauda esquer-
da mais alongada.
A concentração de valores em torno da média é quantificada
pelo coeficiente de achatamento ou curtose.
n
∑ (x − x ) i
4
kc = n
i =1
(3.4)
{∑ [( x − xi ) 2 ]}2
i =1
Quanto mais achatado (platicúrtico) é o histograma, menor
é esta concentração. No caso oposto, quanto mais elevado
(leptocúrtico), maior é a concentração. O padrão adotado
(mesocúrtico) é a concentração da distribuição normal5 que
é da ordem de 2,80.
Histograma platicúrtico => kc > 2,80
Histograma mesocúrtico => kc = 2,80
Histograma leptocúrtico => kc < 2,80
Coeficientes são razões entre estatísticas.
3.12. Exercícios adicionais

1. Suponha que os salários em uma pequena empresa se-
jam R$ 3.000,00; R$ 7.000,00; R$ 15.000,00; R$ 22.000,00;
R$ 23.000,00 e R$ 38.000,00.
a) Qual é o salário médio?
b) Qual a nova média se todos os empregados recebem um au-
mento de R$ 3.000,00? Faça o exercício sem ter que recalcu-
lar a média com a fórmula 3.1.
c) Qual a nova média se todos os empregados recebem um au-
mento de 10%? Faça o exercício sem ter que recalcular a mé-
dia com a fórmula 3.1.
d) Qual a nova média se todos os empregados passam a receber
o dobro do salário? Faça o exercício sem ter que recalcular a
média com a fórmula 3.1.
Resolução:
a) Calculando-se a média dos valores, obtém-se R$ 18.000,00.
b) A nova média é obtida somando-se R$ 3.000,00 à média
atual, o que dá R$ 21.000,00.
c) A nova média é simplesmente somando-se à média atual
10% dela o que dá: R$ 18.000,00 + R$ 1.800 = R$ 19.800,00.
d) A nova média é obtida multiplicando-se a média atual por 2,
obtendo-se R$ 36.000,00.
5. Assunto que será visto no Capítulo 7.
2. Considere os dados seguintes: 664, 658, 610, 670, 640, 643,
675, 650, 676, 575, 660, 661, 520, 667, 668, 635, 671, 673, 645 e
650. Construa o histograma correspondente e classifique-o.
Resolução: A amostra é composta por 20 observações, de acor-
do com a Tabela 2 do Capítulo 1 podemos arbitrar de cinco a
sete intervalos. Optou-se inicialmente por seis intervalos com
comprimento 26, resultado da divisão da amplitude pelo nú-
mero de intervalos. A amplitude é igual a 156, resultado da sub-
tração do maior valor, que é 676, pelo menor valor, que é 520.
É um histograma assimétrico à esquerda.
3. O gráfico de ramo e folha é um diagrama que indica o nú-

mero de observações em cada intervalo e também quais
são esses valores. No exemplo a seguir, a divisão foi feita
na primeira posição após a vírgula. Mas também pode ser
definido um intervalo arbitrário. No exemplo, os valores re-
presentados correspondem a 28,2; 28,3 duas vezes, e assim
por diante. Entretanto, para um conjunto muito grande de
valores o gráfico torna-se de difícil leitura, nem é apropriado
para dados qualitativos.
28 2 3 3
27 0 1 1 2 2 3 4 4 4
26 0 0 1 2 4 4 5 5 6 7 7
25 1 5 7 8 9
24 6 9
Construa o gráfico de ramo e folha para os dados seguintes:

56, 89, 165, 73, 83, 145, 90, 189, 127, 77, 110, 112, 132, 120, 94,
130, 84, 65, 99, 154, 86, 120, 122, 103, 130 (a resposta não é
única).
Resolução: Tomando a dezena como elemento separador, obte-
mos o diagrama seguinte:
56
65
73 77
83 84 86 89
90 94 99
103
110 112
120 120 122 127
130 130 132
145
154
165
189
4. A cotação de uma ação na Bolsa de Valores caiu 4% no 1º dia

do mês, 2% no 2º dia e 1% no 3º dia. Qual foi a queda média
percentual da ação nos 3 dias?
Resolução: É uma aplicação da média geométrica:
3
0, 04 × 0, 02 × 0, 01 = 0, 02
Ou seja aplicando-se sucessivamente uma queda de 2% na
cotação da ação, obtém-se o mesmo resultado que a aplicação
sucessiva das quedas de 4%, 2% e 1% respectivamente. Por ou-
tro lado, a média destes porcentuais daria um resultado incon-
gruente com as desvalorizações.
5. Calcule a média, a mediana e o intervalo modal para os da-

dos do exercício 2. Os resultados são coerentes com o histo-
grama obtido?
Resolução:
A média é igual 645,55 de acordo com a fórmula (3.1).
A mediana é igual a 659 de acordo com a fórmula (3.2).
O intervalo modal é [650 676) com 13 observações, sendo o
ponto médio do intervalo igual a 663.
Conforme vimos no capítulo, quando um histograma é assi-
métrico à esquerda a moda é maior que a mediana, que, por sua
vez, é maior que a média:
Moda > Mediana > Média
O que de fato constatamos neste exercício:
Moda = 663 > Mediana = 659 > Média = 645,55
6. Calcule os coeficientes de assimetria e curtose para os dados

do exercício 2. São coerentes com o histograma obtido?
Resolução:
Calculando-se o coeficiente de assimetria pela fórmula (3.3)
obtém-se: –2,32.
Calculando-se o coeficiente de curtose pela fórmula (3.4)
obtém-se: 5,80.
Os resultados também estão coerentes com o histograma
obtido porque o coeficiente de assimetria é negativo e o coefi-
ciente de curtose (achatamento) é 5,80 > 0,23, indicando que se
trata de um histograma platicúrtico.
7. O gráfico abaixo mostra as proporções acumuladas de valores

de terrenos. Ou seja nenhum terreno vale R$ 10.000 reais, 10%
valem R$ 20.000 reais ou menos, e assim por diante. Determi-
ne, aproximadamente, a mediana desta amostra.
Resolução: Embora a curva não seja linear, a título de aproxi-
mação pode-se adotar o valor de R$ 66.666,67 como uma apro-
ximação para a mediana. Este valor foi obtido calculando-se a
aproximação linear dada por:
y − 10 70 − 10
=
x − 20.000 90.000 − 20.000
Para determinar o valor de x quando y = 50, precisa-se resol-
ver uma equação linear.
50 − 10 70 − 10
=
x − 20.000 90.000 − 20.000
40 60
=
x − 20.000 70.000
2.800.000
x − 20.000 = = 46.666, 67
60
x = 66.666, 67
8. No Capítulo 1, foi visto que a codificação numérica é neces-

sária para que dados categóricos possam ser interpretados
por implementações computacionais de métodos estatísti-
cos, tais como análise multivariada. É muito comum atribuir
às categorias os valores 1,2,3 etc. em sequência, no entanto,
esta não é a maneira mais adequada de codificação numé-
rica para atributos nominais. Neste caso recomenda-se que
para cada variável nominal, sejam criadas variáveis dummy
indicatrizes, tantas para quantas forem as categorias. As-
sim uma variável nominal com 5 categorias dá origem a 5
variáveis indicatrizes. Estas variáveis assumem o valor “1”,
quando o objeto tiver as características que lhes forem asso-
ciadas, e “0” nos demais casos. O exemplo a seguir ilustra a
técnica. Em uma escola foi feito um censo dos alunos com
vista ao estabelecimento de um perfil dos mesmos. Em re-
lação à autoidentificação étnica os alunos podiam respon-
der as seguintes alternativas: a) pardo, b) branco, c) negro,
d) amarelo e e) indígena. No processo de codificação numé-
rica as respostas foram codificadas como:
Pardo – (1,0,0,0,0)
Branco – (0,1,0,0,0)
Negro – (0,0,1,0,0)
Amarelo – (0,0,0,1,0)
Indígena – (0,0,0,0,1)
a) O que representa a média de cada variável dummy neste
caso?
b) Para 20 respostas colhidas em uma pesquisa, repita o proce-
dimento descrito anteriormente e calcule as médias de cada
variável dummy, interpretando o resultado.
1. não lê jornal
2. não lê jornal
3. lê jornal todos os dias
4. lê jornal casualmente
5. lê jornal só no domingo
8. não lê jornal
18. não lê jornal
Resolução:
a) A média de cada variável dummy representa a proporção da
categoria correspondente na população ou amostra consi-
derada.
b) Para o exemplo temos a seguinte codificação:
não lê – D1 = 1, todas as demais = 0
lê casualmente – D2 = 1, todas as demais = 0
lê aos domingos – D3 = 1, todas as demais = 0
lê sempre – D4 = 1, todas as demais = 0
resposta D1 D2 D3 D4
1 não lê jornal 1 0 0 0
3 lê jornal todos os dias 0 0 0 1
4 lê jornal casualmente 0 1 0 0
5 lê jornal só no domingo 0 0 1 0
S 4 9 3 4
médias 0,2 0,45 0,15 0,2
A média de cada variável dummy corresponde à proporção
daquela categoria.
9. Considere o histograma de frequências absolutas de proces-

sos contra corrupção por intervalos de anos.
Pode-se dizer que os processos contra corrupção estão di-

minuindo?
Resolução: Apesar da aparência do gráfico, os intervalos de cada
coluna estão, erradamente, representando períodos diferentes.
Pelo contrário, tudo indica que os processos estão aumentan-
do: média de 60 por ano no primeiro intervalo, 76,67 por ano
no segundo e 100 por ano no último. Pela própria definição de
histograma os intervalos devem ser iguais.
10. Suponha que em uma faculdade o salário médio anual é de

R$ 38.700,00 e o salário mediano anual de R$ 32.500,00. O
que se pode dizer da distribuição de salários?
Resolução: Como a média é maior que a mediana, tudo indica
que o histograma dos salários é assimétrico à direita, com uma
quantidade menor de altos salários e mais de 50% dos assala-
riados recebendo abaixo de R$ 38.700,00.
Capítulo 4. Estatísticas de ordem e
números índice
4.1. Propósito
Apresentar as estatísticas de ordem: quartis, quantis, decis, per-
centis. Introduzir os gráficos distribuição empírica e box-plot.
Apresentar o conceito de índices e suas aplicações mais usuais.
4.2. Finalidade
Ao final deste capítulo o aluno será capaz de calcular estatísti-
cas de ordem, fazer os gráficos box-plot e distribuição empírica,
assim como interpretá-los. Será também capaz de construir ín-
dices simples, como os de custo de vida e de concentração de
renda.
4.3. Introdução
No capítulo anterior, vimos o conceito de mediana que é uma
estatística de tendência central, mas também é uma estatística
de ordem. Estatísticas de ordem referem-se à posição dos valores
em uma amostra. A mediana divide a amostra em duas metades,
ou seja, 50% dos valores observados estão abaixo da mediana e os
outros 50% estão acima. Para cada elemento da amostra, pode-
se calcular o percentual correspondente, obtendo-se o quantil
xp%. A recíproca não é verdadeira, pois não necessariamente exis-
te o quantil correspondente na amostra. Tipicamente, dada uma
amostra, calculam-se os quartis, que correspondem aos quantis
x25%, x50% e x75%. O primeiro e o terceiro quartis podem ser calcu-
lados aplicando-se a mesma regra utilizada para a determinação
da mediana (ver a fórmula 3.2).
Capítulo 4. Estatísticas de ordem e números índice 77
Definição 4.1. De uma maneira geral um quantil de p%
pode ser aproximadamente calculado da seguinte forma:
⎧ xnp + xnp +1 ⎫
⎪ ; se np é inteiro ⎪
xp% =⎨ 2 ⎬ (4.1)
⎪ x⎡np ⎤ ; se np não é inteiro ⎪
⎩ ⎢ ⎥ ⎭
Na definição, p corresponde à notação decimal e p% à per-
centual; assim, p = 0,1, mas p% = 10%. ⎡ ⎤ denota o inteiro ime-
diatamente acima do valor entre as chaves, assim ⎡1,5 ⎤ = 2. xn
denota o n-ésimo elemento da amostra que deve estar ordena-
da não decrescentemente.
Exemplo 4.1
Seja a amostra { 10, 17, 14, 18, 13, 11, 14, 13, 18 }. Para determinar
os seus quartis é necessário ordenar os valores, obtendo-se {10,
11, 13, 13, 14, 14, 17, 18, 18}. O primeiro quartil corresponde ao
valor na posição np = 9*0,25 => ⎡2,25⎤ = 3, que é 13. O segundo
quartil, ou mediana, corresponde ao valor na posição np = 9*0,5
=> ⎡4,5⎤ = 5, que é 14, e, finalmente, o terceiro quartil corresponde
ao valor na posição np = 9*0,75 => ⎡6,75⎤ = 7, que é 17.
Definição 4.2. O problema inverso é mais fácil, ou seja,

dado um valor, determinar qual proporção de observa-
ções está abaixo do mesmo.
⎧{# elementos abaixo ou igual a x} ⎫

⎪ × 100% ⎪
p% = ⎨ n ⎬ (4.2)
⎪⎩ ⎪⎭
Exemplo 4.2
Para os mesmos dados do exemplo precedente tem-se que, para
x3 = 13, o numerador em (4.2) é 4 e n = 9, obtendo-se o quociente
0,44 que, multiplicado por 100%, dá 44%. Analogamente, para
x5 = 14, o numerador é 6 e n=9, obtendo-se o quocinete 0,67 que,
multiplicado por 100%, dá 67%. Para x7 = 17, o numerador é 7,
obtendo-se o quociente igual a 0,78 que multiplicado por 100,
dá 78%. Os valores não coincidem com os resultados do exem-
plo 4.1 devido ao pequeno tamanho da amostra; para amos-
tras maiores, a coincidência é progressivamente melhor. Por
exemplo, suponha que tenhamos 201 observações. A mediana
é obtida pela regra (4.1) np = 201 x 0,5 = 100,5 logo o elemento
de ordem 101 é a mediana. Se, por outro lado, quiséssemos de-
terminar o quantil associado ao elemento de ordem 101 pela
regra (4.2) teríamos 101¸201 = 0,5024. Então, as duas fórmulas
são cada vez mais coerentes com o tamanho da amostra.
4.4. Distribuição empírica

A partir de xp% versus p% obtemos um gráfico denominado dis-
tribuição (acumulada) empírica. Este gráfico dá para cada va-
lor x a frequência acumulada F(x) de observações menores ou
iguais a x. F(x) é uma função não decrescente, contínua à direita,
mas descontínua à esquerda. Assim, F(10-) =0%, F(10)=11,1%,
F(11-)=11,1%, F(11)=22,2% etc.
Exemplo 4.3
Para os mesmos dados dos exemplos precedentes temos:
Xp% p%
-∞ 101 0
10 |- 11 11,1
11 |- 13 22,2
13 |- 14 44,4
14 |- 17 66,7
17 |- 18 77,8
18 |- +∞ 100
Nota: 1. O símbolo |- é equivalente a [. Ou seja, os intervalos são fechados à esquerda e

abertos à direita, exceto o primeiro intervalo, que é aberto.
Graficamente:
Figura 4.1
4.5. Gráfico dos cinco pontos ou box-plot

Este gráfico reúne as informações sobre o mínimo, o máximo e
quartis. É usual colocar também a média amostral. Para obtê-
lo, trace um eixo ordenado, indicando sua origem. Em seguida,
marque sobre este eixo os valores citados acima. Desenhe traços
verticais nas posições correspondentes aos pontos marcados.
Una as extremidades superiores dos traços correspondentes ao
primeiro e terceiro quartil, faça o mesmo com as extremidades
inferiores, obtendo um retângulo (caixa).
Figura 4.2
4.6. Exercícios
1. Considere os seguintes dados:
3,67 1,82 3,73 4,1 4,3 1,28 8,14 2,43 4,17 5,36 3,96
6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65
a) Determine x75%
b) A qual quantil corresponde o valor 7?
Resolução:
a) Ordenando crescentemente os valores observados:
Ordem 1 2 3 4 5 6 7 8 9 10 11
Valor 1,28 1,82 2,43 2,82 2,93 3,63 3,67 3,73 3,96 4,1 4,17
Ordem 12 13 14 15 16 17 18 19 20 21 22
Valor 4,3 4,65 5,28 5,36 5,41 5,84 6,54 7,35 7,77 8,14 8,45
E aplicando a fórmula (4.1) temos 22 x 0,75 = 16,5, que não é

inteiro. Então, o número de ordem do quantil x75% é 17. Consul-
tando a tabela acima, vemos que 5,84 corresponde ao número
de ordem 17. Logo, x75% = 5,84
b) Como não há nenhuma observação com este valor, consta-
tamos que 6,54 é o maior valor observado menor que 7, cor-
respondendo ao número de ordem 18. Dividindo-se 18 por
22, obtém-se, aproximadamente, p = 82%.
2. Construa o box-plot para os dados do exercício 1.

Resolução: Para construir o box-plot é preciso determinar cinco
estatísticas de ordem: mínimo, x25%, x50%, x75% e máximo.
xmin = 1,28
x25%: n x p = 22 x 0,25 = 5,5 => x25% = x6 = 3,63
x50%: n x p = 22 x 0,50 = 11 = > x50% = (x11 + x12) / 2 = 4,24
x75%: n x p = 22 x 0,75 = 16,5 = > x75% = x17 = 5,84
xmax: 8,45
3. Determine, aproximadamente, os quartis para a amostra do

exercício 2 do Capítulo 3, representada pelo seu histogra-
ma.
Resolução: Para realizar este exercício, será suposto que as
observações se distribuem uniformemente ao longo dos in-
tervalos do histograma, permitindo, assim, que se utilize uma
aproximação linear para determinar os quartis.
x25%: o primeiro intervalo representa 28% das observações,
como o seu comprimento é 10, então para compreender ape-
nas 25% basta tomar Δx = 25 x (10/28) = 8,93. Então, x25% = 10 +
8,93 =18,93.
x50%: a mediana vai estar necessariamente situada no segundo
intervalo. Para determinar sua posição devemos adicionar 22%
das observações do segundo intervalo, tomando-se Δx = 22 x
(10/31) = 7,10. Então, x50% = 20 + 7,1 = 27,1.
x75%: o terceiro quartil vai estar necessariamente situado no ter-
ceiro intervalo. Para determinar sua posição devemos adicionar
16% das observações do terceiro intervalo, tomando-se Δx = 16
x (10/34) = 4,71. Então, x75% = 30 + 4,71 = 4,71.
4.7. Números índice

Uma característica marcante dos tempos atuais é a profusão
de diversos índices que avaliam, ou mesmo regem, as socie-
dades modernas: índice de inflação, índice de Gini, índice de
risco país etc. No entanto, os cidadãos, em geral, pouco sabem
como esses índices são calculados e quais são suas limitações.
De uma maneira geral, um índice representa a variação de uma
variável, ou grupo de variáveis quando são medidas em uma
série no tempo, no espaço, em um conjunto de objetos ou in-
divíduos. Assim, quando se fala em inflação, necessariamente
está se referindo a um período temporal. No caso do índice de
Gini (que será visto em seguida), que expressa a concentração
de renda, a variação se dá sobre a população.
Definição 4.3. Índice é a medida da variação de uma va-

riável relativa ao valor de referência arbitrado para o es-
tudo corrente.
Exemplo 4.4
Índice relativo de preço (para um só bem)
pt
ip0,t = × 100 (4.3)
p0
pt é o preço do bem no tempo t e p0 é o preço do bem no tempo
0. A multiplicação por 100 destina-se a permitir o uso da nota-
ção percentual. O valor dá a porcentagem do preço base a que
corresponde o preço corrente. Se p0 = 50 e pt = 60, ip0,t = 120%,
ou seja, o preço corrente é 120% do preço base. O aumento do
preço é obviamente de 20%.
Exemplo 4.5
Índice relativo de produção (para um só bem)
qt
iq0,t = × 100 (4.4)
q0
q t é a quantidade produzida do bem no tempo t e q0 é a quan-
tidade produzida do bem no tempo 0. A multiplicação por 100
destina-se a permitir o uso da notação percentual.
É muito comum no noticiário econômico dos jornais diários usar

duas bases diferentes, uma relativa ao mesmo mês do ano passado,
e a outra relativa ao mês anterior. Isto é feito para relativizar o
efeito da sazonalidade. Assim um aumento das vendas do comércio
no mês de dezembro em relação ao mês de novembro poderia
estar meramente refletindo a proximidade em relação às festas de
fim de ano. Entretanto, se há um aumento em relação ao mês de
dezembro dos anos anteriores então pode-se suspeitar de que de
fato houve um crescimento nas vendas.
4.8. Índice de custo de vida

Exemplo 4.6
O índice de custo de vida é calculado a partir da variação de
preços de vários itens. Este procedimento é feito por amostra-
gem, já que seria inviável levantar todos os preços de todos os
itens vendidos para o mercado consumidor. Não há apenas um
índice, mas dezenas de índices diferentes que levam em conta o
objetivo da análise – inflação para a classe média, a terceira ida-
de, as classes C e D etc. No caso da cesta básica, por exemplo,
13 produtos são levados em conta, assim como sua quantidade.
Para o estado do Rio de Janeiro, os produtos e as quantidades
são dados na Tabela 4.1. Os preços médios praticados tanto para
o ano ou mês de referência, assim como para o mês corrente são
levantados. O índice do custo de vida baseado exclusivamente
na cesta básica seria então calculado pela fórmula (4.5).
Tabela 4.1
Produto Quantidade (mensal) por pessoa
Carne 6kg
Leite 7,5l
Feijão 4,5kg
Arroz 3,0kg
Farinha 1,5kg
Batata 6,0kg
Legumes 9,0kg
Pão francês 6,0kg
Café em pó 600gr
Frutas 90unidades
Açúcar 3,0kg
Óleo 750gr
Manteiga 750gr
Definição 4.4. Fórmula de Laspeyres
∑p q
i ,t i ,0
icb = i =1
n
(4.5)
∑p
i =1
q
i ,0 i ,0
A fórmula (4.5) generaliza a fórmula (4.3), no entanto, é ne-

cessário ponderar os itens pela quantidade consumida, senão
os itens mais caros necessariamente teriam maior peso, inde-
pendentemente da quantidade consumida. Neste caso o pon-
derador é representado por:
qi ,0
n
(4.6)
∑p
i =1
q
i ,0 i ,0
Onde pi,0 é o preço do item i no mês 0 (de referência), e qi,0
é a quantidade consumida do item i no mês 0. Evidentemente
o ponderador não pode ser aplicado para extensões de tempo
muito grandes, ou afetadas pela sazonalidade. Para ilustrar a
metodologia considere apenas três itens em dois anos distintos,
conforme a Tabela (4.2). Aplicando a fórmula (4.5), obtém-se:
Tabela 4.2
Ano I Ano I Ano II Ano II
preço quantidade preço quantidade
A 20 4 28 4
B 40 3 56 3
C 15 8 30 8
(28 × 4) + (56 × 3) + (30 × 8)

= 1, 625
(20 × 4) + (40 × 3) + (15 × 8)
Em notação porcentual, 162,5%, portanto com um aumento
de 62,5%.
Alguns índices mais comuns são: o índice de preços ao consumidor

(IPC); o índice da cesta básica (ICB); o índice geral de preços (IGP).
O índice de preços ao consumidor reflete os gastos de famílias com
renda entre um e oito salários mínimos, sendo o chefe da família
assalariado em sua ocupação principal. A coleta de preços é feita
pelo IBGE, em 10 regiões metropolitanas. O período pesquisado
é do dia 16 de um mês ao dia 15 do mês seguinte. O ICB tem
metodologia semelhante mas é voltado para famílias com renda de
até dois salários mínimos. O IGP, calculado pela Fundação Getúlio
Vargas, é a média ponderada dos seguintes índices: índice de preços
por atacado (60%), índice do custo de vida (30%) e índice de custo
da construção civil (10%) na cidade do Rio de Janeiro. O período de
coleta de preços é de 1o a 30 do mês de referência. Há variações do
IGP, como o IGP-M e o IGP-10.
Outras instituições também calculam índices de custo de vida, a
Fundação Instituto de Pesquisas Econômicas da USP pesquisa o
custo de vida no município de São Paulo, para famílias com renda
de um a 20 salários mínimos. E o Departamento Intersindical de
Estatística e Estudos Socioeconômicos (Dieese) que calcula o custo
de vida para famílias de baixa renda e renda intermediária.
4.9 Índice de Gini
Conrado Gini (1884-1965) foi um estatístico italiano que se de-
dicou à interpretação de fenômenos sociais usando técnicas es-
tatísticas. É de sua criação um índice de diversidade que depois
levou o seu nome, e hoje é adotado para medir a distribuição de
renda. A ideia para a construção do índice é bem simples, se re-
presentarmos em um sistema com dois eixos coordenados, sen-
do um deles a renda e o outro a população, a proporção da popu-
lação que corresponde a uma dada proporção de renda obtemos
uma curva convexa abaixo da reta y = x, que corresponderia à
distribuição perfeita. Quanto mais pronunciada for a curva pior
é a distribuição de renda. Denominado a área entre a curva e
a reta por A, e área abaixo da curva por B, a razão: A/(A+B) é o
coeficiente de Gini, ver figura 4.3. Na situação ideal é zero, na
pior situação é um. O índice de Gini é obtido, multiplicando-se o
coeficiente por cem. Em 2006 o índice de Gini do Brasil foi igual a
52,8%. O índice de Gini amostral pode ser calculado pela fórmula
de Brown que é uma aproximação. Denotando-se xk como a pro-
porção acumulada da população e yk a proporção
n −1
G = |1 − ∑ ( xk +1 − xk )( yk +1 + yk ) | (4.7)
k =1
acumulada correspondente à renda, o índice G de Gini é calcu-

lado aproximadamente pela fórmula (4.7).
Figura 4.3
A explicação para a fórmula é simples. A+B é igual a 0,5, logo
G = 1 – 2 x B. Por outro lado B vai ser escrito como a soma dos
trapézios definidos por xk,xk+1, yk, yk+1. Ver a figura 4.3.
Exemplo 4.7
Considere a tabela de proporções relativa a população e renda
respectivamente:
x(população) y(renda)
x1=10% y1=5%
x2=40% y2=15%
x3=100% y3=100%
G= 1 – (0,4 – 0,1) x (0,15 + 0,5) – (1 – 0,4) x (1 + 0,15) = 0,115

ou 11,5%
4.10 Exercícios
1. Utilizando a Tabela 4.1, a fórmula 4.5 e a planilha de preços
abaixo para dois meses consecutivos, determine o índice de
cesta básica para o período mensal correspondente.
Produto Preço unitário em Preço unitário em
novembro 2006 dezembro 2007
Carne 3,00/kg 3,89/kg
Leite 1,00/l 1,28/l
Feijão 2,30/kg 2,39/kg
Arroz 7,80/kg 7,99/kg
Farinha 1,95/kg 1,95/kg
Batata 0,85/kg 0,89/kg
Legumes 1,00/kg 1,00/kg
Pão francês 4,90/kg 4,99/kg
Café em pó 9,89/kg 10,00/kg
Frutas 0,50/unidade 0,52/unidade
Açúcar 0,94/kg 0,95/kg
Óleo 4,99/l 4,99/l
Manteiga 5,00/kg 5,10/kg
Pela fórmula (4.5)
6 × 3,89 + 7,5 ×1, 28 + 4,5 × 2,39 + 3 × 7,99 + 1,5 ×1,95 + 6 × 0,89 + 9 ×1, 00
6 × 3, 00 + 7,5 ×1, 00 + 4,5 × 2,30 + 3 × 7,80 + 1,5 ×1,95 + 6 × 0,85 + 9 ×1, 00
6 × 4,99 + 0, 6 ×10, 00 + 90 × 0,52 + 3 × 0,95 + 0, 75 × 4,99 + 0, 75 × 5,10

=
6 × 4,90 + 0, 6 × 9,89 + 90 × 0,5 + 3 × 0,94 + 0, 75 × 4,99 + 0, 75 × 5, 00
178, 09
= 1, 07
166,92
Ou seja, houve um acréscimo de 7%.
2. A partir dos dados de renda mensal dos moradores de um

condomínio, determine o índice de Gini correspondente. O
número entre parênteses indica a quantidade de pessoas.
Família Silva (3) 10.000,00
Família Cardoso (4) 10.000,00
Família Pereira (6) 1.000,00
Estudante José (1) 250,00
Casal Bornay (2) 2.000,00
Casal Marina (2) 1.500,00
Viúva Porcina (1) 280,00
Jovem Severino (1) 150,00
Aposentado Matias (1) 300,00
O total de moradores do condomínio é igual a 3 + 4 + 6 + 1 +

2 + 2 + 1 + 1 + 1 = 21.
A renda total do condomínio é igual a 10.000 + 10.000 + 1.000
+ 250 + 2.000 + 1.500 + 280 + 150 + 300 = 25.480.
A partir destes totais vamos construir uma tabela de percen-
tis correspondentes para população e renda (o gráfico corres-
ponde à barriga na figura 4.3 e é conhecido como p-p plot).
A tabela é construída progressivamente e das rendas mais
baixas para as mais altas. A renda mais baixa é a do Severino que
corresponde a 1/21 = 0,048 da população e 150/25.480 = 0,0059
da renda. Em seguida, vem o estudante que tem igualmente
0,48 da população, acumulando com Severino 0,096 da popu-
lação, e 400/25480 = 0,016, acumulando com Severino 0,016 da
renda. E assim por diante, obtendo-se a tabela seguinte:
Porcentual acumulado da população Porcentual acumulado da renda
0,048 0,0059
0,096 0,016
0,14 0,027
0,19 0,039
0,48 0,078
0,58 0,14
0,68 0,22
0,87 0,61
1 1
Com base na tabela obtida calcula-se o índice de Gini de

acordo com a fórmula (4.7):
G = 1 – (0,096 – 0,048) x (0,016 + 0,0059) – (0,14 – 0,096) x (0,027
+ 0,016) – (0,19 – 0,14) x (0,039 + 0,027) – (0,48 – 0,19) x (0,078 +
0,039) – (0,58 – 0,48) x (0,078 + 0,14) – (0,68 – 0,58) x (0,22 + 0,14) –
(0,87 – 0,68) x (0,61 + 0,22) – (1 – 0,87) x (1 + 0,61) = 1 – 0,46 = 0,54
3. Em 2003, o Instituto de Pesquisa Econômica Aplicada (Ipea)

divulgou um estudo sobre a linha de pobreza e a de riqueza
no Brasil. Segundo o Ipea, é pobre quem recebe até R$ 84,00
por mês, ou pertence a uma família com renda inferior a R$
336,00 mensais. Pelos cálculos do Instituto, 34% da popu-
lação se enquadra neste critério. Por outro lado, rico seria
quem ganha mensalmente acima de R$ 2.192,51, ou perten-
ça a uma família com renda mensal de R$ 8.518,04, o que
corresponderia a 1% da população. Nos Estados Unidos da
América (EUA), rico é quem ganha acima de US$ 110.000,00
por ano, o que compreende 15,2% da população. Com base
nestas informações responda às seguintes perguntas:
a) Se x representa o salário mensal (individual) no Brasil, quan-
to vale x34%?
b) Se x representa o salário mensal (individual) no Brasil, quan-
to vale x99%?
c) Se x representa o salário mensal (individual) nos EUA, quan-
to vale x84,8%?
a) Diretamente informado no texto “é pobre quem recebe até
R$ 84,00 por mês” e mais adiante “34% da população se en-
quadra neste critério”, logo x34% = 84.
b) Do texto temos “rico seria quem ganha mensalmente acima
de R$ 2.192,51” e mais adiante “o que corresponderia a 1%
da população”, ora 99% = 100% – 1%, portanto x99% = 2.192.
c) Do texto temos “rico é quem ganha acima de US$110.000,00
por ano, o que compreende 15,2% da população”, como se
deseja o salário mensal basta dividir por 12 o salário anual, o
que dá US$9.166,67, e 100% – 15,2% = 84,8%, portanto x84,8%=
9.166,67.
Outra área que vem se beneficiando do uso de índices é a
educacional. O Instituto Nacional de Estudos e Pesquisas Edu-
cacionais Anísio Teixeira (Inep) do Ministério da Educação tem
larga experiência na formulação de indicadores educacionais.
A título de ilustração vejamos a definição do indicador “pu-
blicações e produções” adotado pelo instituto na avaliação de
universidades em 2006:
( P × n + PL × nl + PT × nt + PR × nr + PPI × n pi + PPT × n pt + PDP × ndp
N= A a
( PA + PL + PT + PR + PPI + PPI + PPT + PDP ) × D
N é o parâmetro intermediário para o cálculo dos conceitos do

indicador “Publicações e produções”;
PA é o peso atribuído aos artigos publicados em periódicos cien-
tíficos indexados (30);
na é o número de artigos publicados em periódicos científicos
indexados, pelo corpo docente da instituição, nos últimos três
anos;
PL é o peso atribuído aos livros ou capítulos de livros publicados
(20);
nl é o número de livros ou capítulos de livros publicados em
periódicos científicos indexados, pelo corpo docente da insti-
tuição, nos últimos três anos;
PT é o peso atribuído aos trabalhos publicados em anais (10);
nt é o número de trabalhos completos publicados em anais,
pelo corpo docente da instituição, nos últimos três anos;
PR é o peso atribuído aos resumos publicados em anais (05);
nr é o número de resumos publicados em anais, pelo corpo do-
cente da instituição, nos últimos três anos;
PPI é o peso atribuído às propriedades intelectuais depositadas
ou registradas, do corpo docente da instituição, nos últimos
três anos (15);
nPI é o número de propriedades intelectuais depositadas ou
registradas pelo corpo docente da instituição, nos últimos três
anos;
PPT é o peso atribuído aos projetos/produções artísticas, técni-
cas, culturais e científicas, do corpo docente da instituição, nos
últimos três anos (10);
nPT é o número de projetos/produções artísticas, técnicas, cul-
turais e científicas, do corpo docente da instituição, nos últimos
três anos da instituição;
PDP é o peso atribuído às produções didático-pedagógicas relevan-
tes, do corpo docente da instituição, nos últimos três anos (10);
nDP é o número de produções didático-pedagógicas relevantes,
do corpo docente da instituição, nos últimos três anos;
D é o número total de docentes da instituição.
O conceito final numa escala de 1 a 5 será calculado a partir
da seguinte tabela:
Conceito Faixa de valores
1 0≤N<0,007145
2 0,007145≤N<0,012861
3 0,012861≤N<0,1429
4 0,1429≤N<0,2858
5 0,2858≤N
Os limites da coluna à esquerda foram determinados pela

escolha(arbitrada) dos patamares mínimos de cada tipo de pro-
dução para cada tipo de conceito.
Índices, apesar das fórmulas, não são neutros. Refletem a
visão e o ponto de vista do avaliador. Assim no indicador des-
crito anteriormente está refletida uma visão “bacharelística” de
universidade em detrimento de um enfoque mais tecnológico
e aplicado.
4.11. Conclusão
Com este capítulo o estudante já pode perceber o poder da es-
tatística na abordagem dos problemas do dia a dia. O histogra-
ma, o box-plot e o gráfico de distribuição empírica constituem
ferramentas indissociáveis em qualquer estudo exploratório.
Por outro lado, o estudo de números índice constitui um do-
mínio à parte na estatística, podendo se ramificar em diversas
especialidades: índices econômicos, educacionais, sociais, etc.
4.12. Resumo
Quantil: De uma maneira geral um quantil de p% pode ser
aproximadamente calculado da seguinte forma:
⎧ xnp + xnp +1 ⎫
⎪ ; se np é inteiro ⎪
xp% =⎨ 2 ⎬ (4.1)
⎪ x⎡np ⎤ ; se np não é inteiro ⎪
⎩ ⎢ ⎥ ⎭
Proporção acumulada: o problema inverso é mais fácil, ou
seja, dado um valor, determinar qual proporção de observa-
ções está abaixo do mesmo.
⎧{# elementos abaixo ou igual a x} ⎫
⎪ × 100% ⎪
p% = ⎨ n ⎬ (4.2)
⎪⎩ ⎪⎭
Distribuição empírica: a partir de xp% versus p% obtemos

um gráfico denominado distribuição (acumulada) empíri-
ca. Este gráfico dá para cada valor x a frequência acumulada
F(x) de observações menores ou iguais a x.
Gráfico dos cinco pontos ou box-plot: este gráfico reúne as
informações sobre o mínimo, máximo, e quartis. É usual co-
locar também a média amostral.
O índice de custo de vida é calculado a partir da variação de
preços de vários itens.
Índice: é a medida da variação de uma variável relativa ao
valor de referência arbitrado para o estudo corrente.
Índice relativo de preço (para um só bem)
pt
ip0,t = × 100 (4.3)
p0
Índice relativo de produção (para um só bem)
qt
iq0,t = × 100 (4.4)
q0
Índice de custo de vida é calculado a partir da variação de
preços de vários itens.
n
∑p q
i ,t i ,0
icb = i =1
n
(4.5)
∑p
i =1
q
i ,0 i ,0
Índice de Gini
n −1
G = |1 − ∑ ( xk +1 − xk )( yk +1 + yk ) | (4.7)
k =1
1. Considere os cinco box-plots (gráficos de cinco pontos):
A qual deles, corresponde o histograma seguinte?
Resolução: A resposta certa é a letra a) porque corresponde ao

box-plot mais acentuado à direita com os quartis correspon-
dendo às posições no histograma.
2. Para os dados do exercício 1 da seção 4.6 determine:

a) x25%
b) a que quantil corresponde o valor 6?
Ordem 1 2 3 4 5 6 7 8 9 10 11
Valor 1,28 1,82 2,43 2,82 2,93 3,63 3,67 3,73 3,96 4,1 4,17
Ordem 12 13 14 15 16 17 18 19 20 21 22
Valor 4,3 4,65 5,28 5,36 5,41 5,84 6,54 7,35 7,77 8,14 8,45
Resolução:
a) np = 22 x 0,25 = 5,5 => x25% = x6 = 3,63
b) 17 valores abaixo de 6, dividindo-se 17 por 22 obtém-se 0,77
ou 77%
3. Considere o diagrama ramo-e-folha abaixo.

a) Determine o gráfico box-plot correspondente (Obs: a mar-
gem separa a vírgula decimal).
b) Construa a distribuição empírica (acumulada).
1 4
1 2 1
1 0 1 0
1 2 3 4
Resolução:
a) Para determinar o box-plot é necessário determinar cinco
pontos:
Mínimo: xmin= 1,1
x25%: np = 9 x 0,25 = 2,25 => x25% = x3 = 1,1
x50%: np = 9 x 0,5 = 4,5 => x50% = x5 = 2,2
x75%: np = 9 x 0,75 = 6,75 => x75% = x7 = 3,1
Máximo: xmax = 4,0
b)
n n
4. Prove que: ∑ ( x − x )( y − y ) = ∑ x y − nx y
i =1
i i
i =1
i i
Resolução: Desenvolvendo o primeiro membro da igualdade,

chegamos ao segundo membro
n n n n n
∑ ( x − x )( y − y ) = ∑ x y − ∑ x y − ∑ y x + ∑ x y
i =1
i i
i =1
i i
i =1
i
i =1
i
i =1
n n
∑ x y − nx y − nx y + nx y = ∑ x y − nx y
i =1
i i
i =1
i i
n n
5. Prove que: ∑ ( y − y) = ∑ y
i =1
i
2
i =1
2
i − ny 2
Resolução: Desenvolvendo o primeiro membro da igualdade,

chegamos ao segundo membro
n n n n n
∑ ( y − y) = ∑ ( y
i =1
i
2
i =1
2
i − 2 yi y + y ) = ∑ y − ∑ 2 yi y + ∑ y 2 =
2
i =1
2
i
i =1 i =1
n n
∑y
i =1
2
i − 2ny + ny = ∑ yi2 − ny 2
2 2
i =1
Capítulo 5. Estatísticas de dispersão
e de associação
5.1 Propósito
Apresentar as estatísticas mais importantes dos grupos disper-
são e associação, completando assim o conjunto de estatísticas
que permitem “sumarizar” uma amostra.
5.2 Finalidade
Ao final deste capítulo o aluno será capaz de identificar, cal-
cular e interpretar as principais estatísticas de dispersão e de
associação. As estatísticas de dispersão e amplitude que serão
apresentadas são: intervalo interquartil, variância amostral,
desvio padrão amostral e coeficiente de variação. As estatísticas
de associação que serão apresentadas são: covariância amos-
tral e coeficente de correlação amostral e também um gráfico
denominado dispersograma.
5.3 Introdução
As estatísticas de dispersão complementam as estatísticas de
tendência central, pois estas últimas nada informam sobre a
dispersão dos valores observados. O conceito mais natural de
dispersão é dado pela amplitude que é a diferença entre os va-
lores máximo e mínimo observados.
Definição 5.1. Amplitude de uma amostra é a diferença

entre os seus valores máximo e mínimo.
Capítulo 5. Estatísticas de dispersão e de associação 97
Porém, há uma desvantagem na amplitude que é o fato do
seu valor nunca diminuir à medida que se aumenta o tamanho
da amostra. Este fato prejudica a interpretação da variabilidade
do atributo que está sendo estudado. Para efeito de compara-
ção, a média amostral oscila tanto para cima como para baixo
à medida que se aumenta o tamanho da amostra. Pode-se de-
monstrar que as oscilações são em torno do valor verdadeiro
da média da população, e cada vez mais próximos com o au-
mento do tamanho da amostra. Uma alternativa à amplitude
é o intervalo interquartil cujo tamanho corresponde à diferen-
ça entre o terceiro e o primeiro quartil. O intervalo interquartil
não tem o comportamento tendencioso da amplitude, já que
novos valores na amostra não necessariamente implicarão em
alteração dos dois quartis utilizados. A limitação do intervalo
interquartil reside no fato de que está relacionado à mediana
e não à média. A estatística clássica baseou seus resultados no
binômio média – variância. Métodos mais modernos como os
da estatística robusta e da estatística não paramétrica seguem
outras abordagens.
Definição 5.2. Intervalo interquartil é o intervalo com-

preendido entre o terceiro quartil e o primeiro quartil.
Uma aplicação do intervalo interquartil é a detecção de ou-

tliers ou valores extremos em uma amostra ou na população.
Definição 5.3. Outliers ou valores atípicos são valores

muito acima da média, ou muito abaixo.
Outliers podem ser produtos de erros diversos, ou ainda de

um comportamento atípico da variável. Obviamente quando
são erros, ou uma mera variação estatística devem ser elimina-
dos, no entanto em situações específicas podem ser altamente
relevantes. No caso, por exemplo, de detecção de fraudes onde
o comportamento excepcional se distingue da grande maioria.
Existem procedimentos em inferência estatística, denomina-
dos métodos robustos que permitem análises precisas mesmo
na presença de outliers. Não vamos falar destes métodos aqui,
apenas vamos apresentar uma regra bem simples para a elimi-
nação de outliers quando isto se fizer necessário. A regra manda
excluir da amostra todo valor que ficar além de 1,5 x compri-
mento do intervalo interquartil para cima do terceiro quartil, e
para baixo do primeiro quartil.
Exemplo 5.1
No exercício 1 da seção 4.6 obtivemos um box-plot a partir da
amostra dada. Verifiquemos se algum valor pode ser classifica-
do como atípico, segundo o critério que foi enunciado. O in-
tervalo interquartil é [3,63 5,84] e o seu comprimento é 2,21.
Multiplicando este valor por 1,5 obtemos 3,32. Subtraindo este
valor de x25% = 3,63 obtemos 0,31, e somando a x75% = 5,84 obte-
mos 9,16. Como não há nenhuma observação abaixo de 0,31,
nem acima de 9,16, concluímos, por esse critério, que não há
valores atípicos nesta amostra.
Ordem 1 2 3 4 5 6 7 8 9 10 11
Valor 1,28 1,82 2,43 2,82 2,93 3,63 3,67 3,73 3,96 4,1 4,17
Ordem 12 13 14 15 16 17 18 19 20 21 22
Valor 4,3 4,65 5,28 5,36 5,41 5,84 6,54 7,35 7,77 8,14 8,45
5.4 Desvio padrão

A medida de dispersão mais utilizada na inferência estatística
é o desvio padrão, proposta por Karl Pearson em 1894, que é a
raiz quadrada da média dos quadrados dos desvios das obser-
vações em relação a sua média amostral. A fórmula é enge-
nhosa e para cada operação há a justificativa. O quadrado dos
desvios é tomado porque podem ser positivos ou negativos. A
média dos quadrados dos desvios é calculada sobre n–1 e não
sobre n devido a uma propriedade desejável dos estimadores,
denominada, não tendenciosidade, que será vista no Capítulo
8 sobre estimadores. E finalmente a raiz quadrada é calculada
para restabelecer a escala original das observações.
Definição 5.4. O desvio padrão de uma amostra é dado
pela seguinte equação:
∑ (x − x ) i
2
s= i =1
(5.1)
n −1
Ou, equivalentemente pela fórmula mais prática, tendo em
vista a necessidade de acréscimo ou eliminação de observações.
n
n (∑ xi ) 2
∑x 2
i − i =1
n
s= i =1
(5.2)
n −1
Os valores necessários à fórmula 5.2 podem ser organizados
em uma tabela:
Tabela 5.1
i x x2
1 x1 x12
2 x2 x22
3 x3 x32
... ... ...
n xn xn2
å ∑xi ∑xi2
Exemplo 5.2
Considere as amostras S = {–100, –50, 0, 50, 100} e S’= {–10-1,
–10-2, 0, 10-2, 10-1}. Ambas têm 0 como média, porém é óbvio que
S tem maior dispersão que S’. Calculando o desvio padrão pela
fórmula 5.2 obtemos, respectivamente:
0
2 × 104 + 2 × 25 × 102 + 0 −
s= 5 ≅ 79, 06
5 −1
0
2 × 10−2 + 2 × 10−4 + 0 −
s' = 5 ≅ 0, 071
5 −1
A variância amostral é o quadrado do desvio padrão. Os va-
lores tanto do desvio padrão, como da variância são dependen-
tes da escala, o que dificulta a comparação de amostras dife-
rentes. Uma medida que elimina este efeito é o coeficiente de
variação.
Definição 5.5. O coeficiente de variação (cv) é o quocien-

te do desvio padrão pela média.
Obviamente, o cv só poderá ser calculado se a média for di-

ferente de zero.
Exemplo 5.3
Uma indústria de mineração e outra farmacêutica apresentam
os seguintes valores para a média e o desvio padrão de uma
amostra de sua produção que é de vagões de minério num caso
e comprimidos no outro.
Ind.Mineradora: média = 100.000kg desvio padrão = 100kg
Ind.Farmacêutica: média = 1g desvio padrão = 0,1g
Aparentemente, os valores induzem para considerar a in-
dústria farmacêutica com maior controle da dispersão nos itens
produzidos. Entretanto, não é isto o que ocorre:
cv indmineradora = 100/100.000 = 10-3
cv indfarmacêutica = 0,1/1=10-1
Ou seja, a indústria farmacêutica apresenta uma dispersão
cem vezes maior que a da indústria mineradora.
Outra forma de eliminar o efeito de escala é através da pa-
dronização, transformação que é erradamente confundida com
normalização dos dados, ou transformação dos dados em uma
distribuição normal!
Definição 5.6. Padronização de uma observação é a
transformação do seu valor em um z-score, obtido após a
subtração da média e a divisão pelo desvio padrão.
x−x
z= (5.3)
s
Exemplo 5.4
Tomando as amostras do exemplo 4.1, e aplicando a padroniza-
ção obtemos respectivamente Z = {–2,53; –1,26; 0; 1,26; 2,53} e
Z’ = {–1,4; –0,14; 0; 0,14; 1,4}.
O z-score de um valor nos diz quantos desvios padrão este

valor está acima ou abaixo da média. No exemplo acima, 1,26
está 0,14 desvios padrão acima da média que é zero. Por outro
lado –1,26 está 0,14 desvios padrão abaixo da média.
5.5 Exercícios
1. O que acontece com a média, a mediana e o desvio padrão
de uma amostra quando:
a) Cada observação é multiplicada por 10.
b) Soma-se 1 a cada observação.
c) Subtrai-se a média amostral de cada observação.
d) De cada observação subtrai-se a média amostral e divide-se
pelo desvio padrão amostral.
2. Uma amostra com 10 elementos tem média = 104 e s2 = 4.

Se incluirmos nessa amostra o número 102, quais os novos
valores da média amostral e da variância amostral?
3. Uma bateria de quatro provas: A, B, C e D foi aplicada em

um conjunto de pessoas. As médias das notas nestas provas
foram respectivamente: 60, 80, 65 e 50. E os desvios padrão
foram respectivamente: 10, 20, 5 e 20. Dois candidatos obti-
veram as notas conforme a tabela abaixo, se você tivesse que
escolher apenas um deles, qual você escolheria? Justifique.
Avaliação Candidato 1 Candidato 2
Prova A 60 40
Prova B 40 60
Prova C 70 30
Prova D 30 70
Soma 200 200
4. Considere uma amostra para a qual a média amostral seja

diferente de zero. Qual valor deve ser adicionado a cada ele-
mento da amostra de modo a reduzir seu coeficiente de va-
riação a um décimo do valor original?
5. Considere o histograma representado abaixo:

a) Determine o intervalo interquartil.
b) Determine um intervalo centrado na média com um desvio
padrão para cima e um desvio padrão para baixo.
c) Se os valores representam as idades das pessoas, qual dos
dois intervalos é mais representativo da faixa etária interme-
diária desta amostra?
5.6 Respostas dos exercícios
1.
a) A média, a mediana e o desvio padrão ficam multiplicados
por 10.
n n
∑ ( x ×10) i 10∑ xi
i =1
= i =1
= 10 x
n n
{10 xmin ,10 x1% ,...,10 x50% ,...,10 x99% ,10 xmax } ⇒ nova mediana = 10 x50%
n n n
n
(∑10 xi ) 2 n
(∑ xi ) 2 n
(∑ xi ) 2
∑100 xi2 − i =1
n
100(∑ xi2 − i =1
n
) ∑x 2
i − i =1
n
i =1
= i =1
= 10 i =1
= 10 s
n −1 n −1 n −1
b) A média e a mediana ficam adicionadas de 1. O desvio pa-

drão não se altera.
n n n n
∑ ( x + 1) ∑ x + ∑1 ∑ x + n
i i i
i =1
= i =1 i =1
= i =1
= x +1
n n n
{1 + xmin ,1 + x1% ,...,1 + x50% ,...,1 + x99% ,1 + xmax } ⇒ nova mediana = 1 + x50%
∑ ( x + 1 − 1)i
2
i =1
=s
n −1
c) Aplicando-se b) temos que: a média amostral torna-se zero;
a mediana fica subtraída da média amostral e o desvio pa-
drão não se altera.
d) A média amostral torna-se 0 como consequência dos itens
anteriores. A mediana torna-se o z-score da mediana origi-
nal devido à definição de z-score. O desvio padrão torna-se 1
por causa do desenvolvimento seguinte:
n
xi − x n
xi − x 2 1 n n
∑( s
− 0) 2 ∑( s
)
s2
∑ ( xi − x )2 ∑ (x − x )
i
2
i =1
= i =1
= i =1
= i =1
=
n −1 n −1 n −1 s 2 (n − 1)
n n
∑ (x − x ) i
2
1 ∑ (x − x ) i
2
s
= i =1
= i =1
= =1
s (n − 1)
2
s (n − 1) s
2. Para a média amostral temos:

10 11
∑x
i =1
i = 1040 ⇒ ∑ xi = 1142 ⇒ x = 103,82
i =1
Para a variância amostral temos:

10
(1040) 2
∑ x − 2
i
10 10 11
i =1
= 4 ⇒ ∑ xi = 108.196 ⇒ ∑ xi2 = 118.600
2
9 i =1 i =1
1.1422
118.600 −
s =
2 11 = 118.600 − 118.560,36 = 3,96
10 10
3. Para comparar os dois candidatos vamos calcular os z-scores

de cada um em cada prova e somar para avaliar a pontuação
total.
Avaliação Candidato 1 Candidato 2
60 − 60 40 − 60
Prova A =0 = −2
10 10
40 − 80 60 − 80
Prova B = −2 = −1
20 20
70 − 65 30 − 65
Prova C =1 = −7
5 5
30 − 50 70 − 50
Prova D = −1 =1
20 20
Soma –2 –9
Portanto, o melhor candidato é o candidato 1 que teve me-

lhores posições em relação às médias de cada prova no cômpu-
to geral.
4.
s 1 1 s
novo cv = = cv =
x + cte 10 10 x
10 x = x + cte ⇒ cte = 9 x
5.
a) x25% = 10 + 25 x (10/28) = 10 + 8,93 = 18,93
x75% = 30 + 16 x (10/34) = 30 + 4,71 = 34,71
Obtendo-se o intervalo
[18,93 34,71]
b) Como não dispomos da amostra original, vamos considerar
o ponto médio de cada intervalo do histograma, como o re-
presentante daquele intervalo, e calcular a média amostral e
o desvio padrão amostral:
x = 15 × 0, 28 + 25 × 0,31 + 35 × 0,34 + 45 × 0, 05 + 55 × 0, 02 = 23,3
s = (15 − 23,3) 2 × 0, 28 + (25 − 23,3) 2 × 0,31 + (35 − 23,3) 2 × 0,34 + (45 − 23,3) 2 × 0, 05 + (55 − 23,3)2 × 0, 02 = 10,51
Obtendo-se o intervalo
[12,79 33,81]
c) O primeiro, porque as estatísticas de ordem são menos afe-
tadas por histogramas assimétricos.
5.7 Medidas de associação

Comentamos anteriormente que mais de um atributo pode ser
observado ao mesmo tempo, surgindo assim a investigação con-
junta do comportamento destes atributos. Não se trata aqui de
investigar causalidade, objeto do planejamento de experimen-
tos, mas somente avaliar o comportamento de variáveis duas a
duas. Também é possível avaliar o comportamento simultâneo
de várias variáveis, mas isto é objeto da análise multivariada.
Definição 5.7. No caso das variáveis quantitativas o tipo

de associação entre duas variáveis pode ser visualizado
em um gráfico denominado dispersograma. Este gráfico
pode ser obtido marcando-se em um sistema de dois ei-
xos coordenados os pontos correspondentes às coorde-
nadas com os valores observados.
Exemplo 5.5
Dispersograma relativo ao peso e à idade de seis pessoas
Tabela 5.2
Nome Peso (kg) Idade (anos)
Paulo 40 16
Marcos 45 15
Rose 42 16
Maria 60 17
Eduardo 55 14
Vilma 51 15
Figura 5.1
Do gráfico depreende-se que para a faixa etária considerada,
o peso pode variar sem uma associação direta ou inversa. O dis-
persograma permite uma avaliação qualitativa do tipo de asso-
ciação: a) direta – quando ambas as variáveis tendem a crescer;
b) inversa – quando as variáveis têm comportamento oposto
e c) sem associação – quando não há uma tendência clara de
comportamento associado. Pode-se quantificar o nível de asso-
ciação através da covariância amostral, porém, o valor é muito
dependente das escalas. O traçado das retas x = média em x e
y = média em y ajuda a interpretação do gráfico, pois pode-se
ver para cada observação sua posição em relação à média res-
pectiva.
Definição 5.8. Covariância amostral é uma medida de as-

sociação dada pela expressão seguinte:
1 n
cov = ∑ ( xi − x )( yi − y )
n − 1 i =1
(5.4)
A motivação para a fórmula vem do fato de que se as variá-

veis estiverem com uma variação semelhante, isto é, no mesmo
sentido, então o valor da expressão será positivo e tanto maior
quanto forem os produtos dos desvios em relação às médias.
Por outro lado, quando as variações forem opostas, os produtos
dos desvios tenderão a ser negativos, e o seu somatório tam-
bém. Quando o comportamento conjunto for sem associação,
os produtos dos desvios, ora serão positivos, ora negativos, e o
somatório tenderá a um valor próximo de zero.
A eliminação do efeito de escala é feita dividindo-se (5.4) pe-
los desvios padrão relativos a cada variável, obtendo-se assim o
coeficiente de correlação amostral. O seu valor máximo é 1, e o
mínimo é –1.
Definição 5.9. Coeficiente de correlação amostral é uma

medida de associação entre duas variáveis independente
das escalas utilizadas, é obtida a partir de (5.4):
1 n ( xi − x )( yi − y )
co rr. = ∑
n − 1 i =1 sx s y
(5.5)
A fórmula (5.5) também tem uma versão prática, que é a for-
mulação de Karl Pearson em 1896:
n n
n ∑x ∑y i i
∑x y − i i
i =1
n
i =1
r= i =1
(5.6)
n n
n (∑ xi ) 2 n (∑ yi ) 2
∑x
i =1
2
i − i =1
n
∑yi =1
2
i − i =1
n
Exemplo 5.6
Retomando os dados do exemplo 5.4 e calculando os somató-
rios necessários ao cálculo de r de acordo com a fórmula (5.6)
temos:
Tabela 5.3
Nome Peso (kg) Idade (anos) x2 y2 xy
Paulo 40 16 1.600 256 640
Marcos 45 15 2.025 225 675
Rose 42 16 1.764 256 672
Maria 60 17 3.600 289 1.020
Eduardo 55 14 3.025 196 770
Vilma 51 15 2.601 225 765
Totais 243 93 14.615 1.447 4.542
Substituindo os valores em (5.6) obtemos um valor baixo, o

que confirma a tendência observada no gráfico de baixa asso-
ciação entre as variáveis. Lembramos mais uma vez que associa-
ção é diferente de causalidade, que não pode ser diagnosticada
meramente através do coeficiente de correlação amostral.
22.599
4.542 −
r= 7 ≅ 0,35
2432 932
(14.615 − ) (1.447 − )
7 7
5.8 Exercícios
1. Considere uma amostra das variáveis X e Y conforme tabela
(para poupar espaço a tabela foi desmembrada em três):
X Y X Y X Y
5 - 10 15.000 - 20.000
43 50.000 9 8.000 - 12.000
15 - 6 100.000 20 2.000
9 8.000 - 12.000 15 -
a) Faça o dispersograma relativo a X e Y.

b) Calcule o coeficiente de correlação amostral.
2. Para os dados abaixo, construa o dispersograma e classifique

os pares de pontos em relação às médias de cada variável,
isto é, se estão abaixo ou acima de cada média correspon-
dente.
X: - –3 4 5 6 9 12
Y: 1 3 –7 9 11 - 6
3. Sabendo-se que, para uma amostra com nove pares de va-

lores, encontrou-se um coeficiente de correlação r = 0,6,
determine o novo valor para r quando se acrescenta o par
(8,15). Sabe-se que a amostra original apresentou os seguin-
tes valores para a média e o desvio padrão:
x = 10 y = 20 sx = 5 sy = 6
4. Sabendo-se que, para uma amostra, foram determinadas as

seguintes estatísticas:
xmin= 5 x25%= 7 x50%= 8 x75%= 9 xmax= 13 x = 8,5 s=2
Obtenha os seus novos valores para uma amostra padronizada.
5. Construa um histograma a partir dos dados padronizados

zmin= –2, z20%= –1, z60%= 0, z 70% = 1, zmax= 2
1.
a) Observe que um mesmo par se repete e que há pares incom-
pletos que foram descartados.
b) Para o cálculo, os pares completos foram considerados tan-

tas vezes quantas foram observados, r = 0,047.
2. Tomando somente os pares completos, temos:

ordem 1 2 3 4 5
X –3 4 5 6 12
Y 3 –7 9 11 6
A média em x é: 4,8 A média em y é: 4,4
3. A partir dos valores das médias e dos desvios padrão deter-
mine os somatórios correspondentes para a amostra cor-
rente. Em seguida usando o valor corrente de r, determine o
somatório dos produtos cruzados de x com y.
x = 10 ⇒ ∑ xi = 90
y = 20 ⇒ ∑ yi = 180
(∑ xi )
2
8.100
∑x 2
i −
9
∑x 2
i −
9 = 25
sx = 5 ⇒ sx2 = 25 ⇒ = 25 ⇒
8 8
∑x 2
i = 200 + 900 = 1.100
(∑ y )
2
32.400
∑y − ∑y −
2 i 2
i i
s y = 6 ⇒ s y2 = 36 ⇒ 9 = 36 ⇒ 9 = 36
8 8
∑y 2
i = 288 + 3.600 = 3.888
9
90 ×180
∑ xi yi − 9 9
i =1
= 0, 6 ⇒ ∑ xi yi = 1.944
2 2
90 180 i =1
1.100 − 3.888 −
9 9
Para calcular o coeficiente de correlação da nova amostra,
basta atualizar os somatórios:
∑ x = 90 + 8 = 98
i
∑ y = 180 + 15 = 195
i
∑ x = 1.100 + 64 = 1.164
2
i
∑ y = 3.888 + 225 = 4.113

2
i
∑ x y = 1.944 + 120 = 2.064

i i
E recalcular a fórmula:
98 ×195
2.064 −
r= 10 = 0, 61
2 2
98 195
1.164 − 4.113 −
10 10
Portanto, a introdução do novo par (8,15) provocou apenas
uma pequena variação no coeficiente de correlação amostral.
4.
5 − 8,5 7 − 8,5 8 − 8,5 9 − 8,5 13 − 8,5
; ; ; ;
2 2 2 2 2
−1, 75; − 0, 75; − 0, 25; 0, 25; 2, 25
5.
5.10 Conclusão
Este capítulo encerra o tema análise exploratória no curso em
andamento. Foi nossa intenção dar um destaque maior a este
tema do que usualmente é feito nos textos de estatística, cuja
ênfase é em teoria das probabilidades e inferência estatística.
Acreditamos que uma maior prática com os dados é necessária
para que o estudante desenvolva maior capacidade crítica em
relação aos modelos obtidos pela inferência estatística. Embora
haja muita teoria desenvolvida para o ajuste de modelos, que
é uma das metas da inferência estatística, pouco existe sobre
a especificação de modelos, ou seja, a escolha do modelo que
se quer ajustar. Acreditamos que uma exaustiva análise explo-
ratória desempenha um papel importante neste sentido, como
constatamos na prática que temos em data mining.
5.11 Resumo
Amplitude de uma amostra é a diferença entre os seus valo-
res máximo e mínimo.
Intervalo interquartil é o intervalo compreendido entre o
terceiro quartil e o primeiro quartil.
Outliers ou valores atípicos são valores muito acima da mé-
dia, ou muito abaixo.
Desvio padrão de uma amostra é dado pela seguinte fórmula:
n
∑ (x − x )
i
2
s= i =1
(5.1)
n −1
Ou alternativamente pela fórmula:
n
n (∑ xi ) 2
∑x 2
i − i =1
n
s= i =1
(5.2)
n −1
O coeficiente de variação (cv) é o quociente do desvio pa-
drão pela média.
Padronização de uma observação é a transformação do seu
valor em um z-score, obtido após a subtração da média e a
divisão pelo desvio padrão.
x−x
z= (5.3)
s
Dispersograma é um gráfico que pode ser obtido marcando-
se em um sistema de dois eixos coordenados os pontos cor-
respondentes às coordenadas com os valores observados.
Covariância amostral é uma medida de associação dada
pela expressão seguinte:
1 n
cov = ∑
n − 1 i =1
( xi − x )( yi − y ) (5.4)
Coeficiente de correlação amostral é uma medida de asso-

ciação entre duas variáveis independente das escalas utili-
zadas, obtida a partir de (5.4):
1 n ( xi − x )( yi − y )
co rr. = ∑
n − 1 i =1 sx s y
(5.5)
Há também uma versão prática desta fórmula:

n n
n ∑x ∑y i i
∑x y − i i
i =1
n
i =1
r= i =1
(5.6)
n n
n (∑ xi ) 2 n (∑ yi ) 2
∑x
i =1
2
i − i =1
n
∑yi =1
2
i − i =1
n

1. Suponha que a nota média em um teste tenha sido 500, com
um desvio padrão de 100. Se cada nota for aumentada em
50%, quais são a nova média e o novo desvio padrão?
Resolução: xi xi + 0,5xi = 1,5xi Portanto, a transformação é
equivalente a multiplicar cada observação por 1,5. Conforme
os resultados vistos no exercício 1 da seção 5.5, a nova média
e o novo desvio padrão são obtidos multiplicando-se por 1,5 a
média e o desvio padrão correntes, obtendo-se então 750 e 150
respectivamente.
2. Um professor aplicou exame em duas turmas, a turma A,
com 20 alunos, ficou em média com 92 pontos. E a turma B,
com 25 alunos, ficou em média com 83 pontos.
a) Qual é a média do conjunto total de alunos?
b) Sabendo-se agora que o desvio padrão na turma A foi igual
a 2, e na turma B igual a 1, determine o desvio padrão do
conjunto de alunos.
Resolução:
a)
20 25
∑x +∑x
i =1
i
j =1
j
20 xgr1 + 25 xgr 2 20 × 92 + 25 × 83
x= = = = 87
20 + 25 45 45
b) Para poder calcular o novo desvio padrão é necessário de-
terminar a soma dos quadrados das observações em cada
turma, para depois reuni-los em um só cálculo.
Para a turma A
20
20
(∑ xi ) 2
∑x 2
i −
20
i =1
20
1.8402
i =1
= 2 ⇒ ∑ x = 19 × 4 +
2
= 169.356
20 − 1
i
i =1 20
Para a turma B
25
25
(∑ x j ) 2
∑x 2
j −
25
j =1
25
2.0752
j =1
= 1 ⇒ ∑ x = 24 ×1 +
2
= 172.249
25 − 1
j
j =1 25
Juntando as duas turmas
45
45
(∑ xk ) 2
3.9152
∑ xk2 − 45
j =1
341.605 −
45 = 341.605 − 340.605 = 4, 76
k =1
=
45 − 1 44 44
Observe como o desvio padrão aumentou. Isto deve-se ao
fato de a média ter se alterado, ficando abaixo da média da tur-
ma A e acima da média da turma B.
Capítulo 6. O conceito de probabilidade
6.1 Propósito
Apresentar o conceito de probabilidade de um evento nas suas
perspectivas clássica, frequencista e axiomática. Formalizar o
conceito de independência entre eventos. Introduzir a formula-
ção de Bayes e suas aplicações para o cálculo de probabilidades.
6.2 Meta
Ao final deste capítulo, o aluno estará capacitado a verificar se
uma função dada é uma probabilidade e a calcular a probabili-
dade de eventos diversos, incluindo-se a determinação da de-
pendência ou não entre eventos. Estará também capacitado a
utilizar o método de Bayes para calcular probabilidades basea-
do no conceito de probabilidade condicional.
6.3 Introdução
Vimos anteriormente que a incerteza sobre muitos aspectos da
realidade motivou o desenvolvimento da estatística como um
método para orientar decisões e resolver problemas. A estatís-
tica se baseia no conceito de acaso, ou aleatoriedade, que é um
conceito abstrato, uma opção metodológica. Um modelo esta-
tístico não está, necessariamente, imputando a aleatoriedade
como uma propriedade do fenômeno em estudo. A objetivi-
dade ou não do acaso é uma discussão de natureza filosófico-
científica.
Capítulo 6. O conceito de probabilidade 119
Aristóteles, 385-322 a.C., o célebre autor do Organom, classificava os eventos
em três tipos:
1) Eventos certos que acontecem necessariamente
2) Eventos prováveis que acontecem na maioria dos casos
3) Eventos imprevisíveis, que acontecem por acaso
Em Tomás de Aquino, 1225-1274, a onisciência de Deus não se resume
ao conhecimento dos fatos reais (passados, presentes e futuros), mas de
todos os fatos possíveis. Ou seja, conhece tudo o que teria se passado se
determinada condição fosse diferente.
Para Hume, 1711-1776, o acaso não existe de fato, mas a ignorância sobre a
causa de qualquer evento teria efeito semelhante sobre a compreensão do
mundo real, gerando uma espécie de crença ou opinião sobre os eventos.
Para a tradição clássica elaborada por Fermat, 1601-1665, Pascal, 1623-1662,
Huygens, 1629-1695, e James Bernoulli, 1654-1705, o conceito de evento
aleatório está associado à imprevisibilidade de ocorrência do evento, mesmo
que as condições nas quais ele ocorre pareçam as mesmas. Para estes
eventos, supõe-se a existência de um experimento que ao ser executado
sob condições experimentalmente indistinguíveis, produz resultados
imprevisivelmente diferentes. Evento aleatório é um conjunto definido no
contexto de um experimento aleatório, cuja ocorrência pode ser verdadeira
ou não. Von Mises, 1883-1953, estabeleceu a hipótese de que o experimento
poderia ser executado infinitamente, base para o enfoque frequencista.
Eventos singulares não estão incluídos nesta categoria.
Na primeira metade do século XX, Albert Einstein (1879-1955) discordou
do caráter aleatório da Teoria Quântica proposta por Werner Heisenberg,
Paul Dirac, e Erwin Schrödinger. É de Einstein a famosa frase “Deus não joga
dados!”, retomando-se assim a controvérsia sobre o caráter objetivo ou não
dos eventos aleatórios. Para ele, embora a teoria quântica representasse
a melhor formulação dos fenômenos atômicos, não acreditava que se
pudesse evoluir muito a partir dela, almejando restaurar o determinismo
e a causalidade na física. Crendo, assim, que existe uma teoria que
represente realisticamente os eventos e não apenas a probabilidade de seu
aparecimento.
Ernest Mach, 1838-1916, físico e integrante do Círculo de Viena – núcleo
de filósofos, matemáticos e lógicos – que foi relevante para a renovação
do pensamento científico do século XX – realçou o caráter relativo do
conhecimento científico, abandonando a busca da essência ou causas
finais dos fenômenos. Para ele, o objetivo da ciência é descobrir as relações
entre os fenômenos. Um de seus discípulos, Bruno de Finetti, 1906-1985,
apoiando-se nas ideias de Thomas Bayes, 1701-1761, as quais se tornaram
conhecidas graças a Richard Price, 1723-1791, elaborou uma teoria
probabilística e um método de inferência – a inferência bayesiana. Para de
Finetti, um evento é um caso único que ocorreu ou vai ocorrer, ou ainda não
ocorreu, nem vai ocorrer. Para ele, é somente isto que pode ser observado,
não havendo espaço para nenhuma outra noção. A um nível de informação
(para um indivíduo, ou coletividade) um evento pode ser certo, possível ou
impossível.
George Matheron, 1930-2000, engenheiro, da Escola de Minas de Paris,
que desenvolveu importantes aplicações da teoria das funções aleatórias
a problemas no espaço n-dimensional, ao se referir à aleatoriedade dos
fenômenos, prefere dizer que tudo se passa como se o fenômeno fosse
devido ao acaso. Mas se recusa a admitir que o acaso tenha uma ação
decisiva sobre o curso dos eventos. Rejeitando, assim, que a evolução
genética, por exemplo, pudesse ser explicada pela força do acaso. Identificar
a incerteza sobre determinado evento com a aleatoriedade é um equívoco
comum, mesmo em exemplos típicos de livros introdutórios sobre
probabilidade, como os jogos de dados ou roleta. Pois se dispuséssemos
de todas as condições iniciais, assim como os modelos dinâmicos,
poderíamos prever o resultado do jogo. Os jogos de azar que motivaram,
no século XVI, as primeiras fórmulas do cálculo de probabilidades, são
abstrações da realidade. Matheron prefere falar de modelo probabilístico
e de sua correspondência objetiva. Por outro lado, ainda que a repetição
de um experimento, rigorosamente, não consiga gerar exatamente os
mesmos eventos, a diferença entre estes eventos é mínima, de medida
nula se utilizarmos a linguagem da teoria da medida. Portanto, a ideia de
repetibilidade pode se aplicar, contrariando assim a exclusividade de cada
evento observado, que municia a argumentação do enfoque bayesiano.
Karl Popper, 1902-1994, tem uma importante contribuição para a definição
de objetividade de um enunciado científico. Desdobrando-os em singulares
e universais. Os enunciados singulares referem-se a eventos particulares
cuja ocorrência pode ser comprovada ou não. Os enunciados universais,
por outro lado, referem-se a eventos cuja comprovação exigiria infinitas
experiências ou observações – leis da física, por exemplo, mas, ao contrário
de um evento metafísico, pode, a qualquer momento, ser desmentido por
uma experiência, ou corroborado por ela. A linha de demarcação entre
os enunciados metafísicos e os objetivos ou empíricos é o critério de
falseabilidade, segundo o qual os enunciados científicos são aqueles que
podem ser submetidos à verificação. Neste sentido a objetividade é um
conceito operatório regular, reproduzível e mensurável segundo uma escala.
No Leste Europeu e na União Soviética, o materialismo dialético inspirou
o pensamento científico até a dissolução do regime. Andrei Nikolaevich
Kolmogorov, 1903-1987, de origem humilde, chegou à Universidade de
Moscou em 1920, onde passou boa parte de sua carreira, sendo considerado
um dos maiores matemáticos e probabilistas do século XX. Concebeu uma
formulação matemática para a noção de evento e de probabilidade baseada
na teoria da medida. Esta formulação é consensual tanto para estatísticos
objetivistas como subjetivistas. A formulação matemática para a teoria
das probabilidades é considerada também como a única teoria adequada
para tratar a incerteza, em oposição a outros métodos matemáticos e
computacionais, como é o caso da matemática nebulosa (fuzzy). Os
princípios sobre os quais a teoria das probabilidades foi edificada remontam
a Galileu (1564-1642), que, embora, não se dedicando a esta teoria, formulou
sua essência. São eles: a fórmula clássica para a probabilidade, os princípios
da soma e do produto e a ideia de convergência.
6.4 Espaço de probabilidade
Kolmogorov concebeu o conceito de espaço de probabilida-
de que é constituído do espaço amostral (não confundir com
amostra), de uma sigma álgebra de eventos e da função proba-
bilidade.
Definição 6.1. Evento é um membro de uma coleção

de subconjuntos de um conjunto denominado espaço
amostral Ω, que tem a estrutura de uma σ-álgebra F.
Definição 6.2. Espaço amostral é a coleção dos resulta-

dos possíveis, numéricos ou não, da realização de um ex-
perimento ou observação.
Definição 6.3. σ-álgebra é uma coleção de subconjuntos

de Ω que satisfazem às propriedades seguintes:
i) A, B ∈ X ⇒ A ∩ B ∈ X
ii ) A ∈ X ⇒ Ac ∈ X
∞
iii ) Ai ∈ X , i = 1, ∞ ⇒ ∪ Ai ∈ X
i =1
Esta conceituação permitiu tratar espaços amostrais finitos

ou infinitos, enumeráveis ou não. Por exemplo, se o experimen-
to consiste em registrar o instante em que determinado compo-
nente falha, o espaço amostral consiste no intervalo real [0, a)
onde a representa um valor razoável para a vida útil máxima do
componente. A construção da σ-álgebra é feita em duas etapas,
na primeira supõe-se uma lista de resultados possíveis associa-
dos à execução do experimento (espaço amostral). Em seguida,
através de operações de complementaridade, de interseção e
de união destes conjuntos são obtidos os demais eventos, cuja
ocorrência pode ser verificada em função da ocorrência ou não
dos eventos da lista inicial, a qual é denominada espaço amos-
tral. A generalidade da definição abarca tanto o conceito baye-
siano, como o clássico e o frequencista de evento, passando a
ser condição necessária para a construção de uma teoria das
probabilidades coerente. Um caso particular de sigma-álgebra
de extrema importância para a teoria das probabilidades é a
sigma-álgebra de Borel, que é a menor sigma-álgebra que con-
tém todos os abertos e fechados na reta real. Falta definir ma-
tematicamente a função probabilidade, o que vai depender do
experimento que está sendo analisado. No entanto, Kolmogo-
rov precisou qual o conjunto de propriedades que uma função
deve satisfazer para ser considerada uma probabilidade.
O marco histórico da abordagem clássica é um pequeno en-
saio escrito por Galileu Galilei em 1620 sobre quais somas são
mais comuns em um jogo com três dados. Os jogadores profis-
sionais acreditavam que eram 10 e 11, mas não tinham provas
disto. Embora o problema que Galileu resolveu em quatro pági-
nas fosse trivial, deste ensaio depreendem-se os princípios fun-
damentais que sempre nortearam o desenvolvimento da teoria
das probabilidades:
Na abordagem clássica, ou Laplaceana, a probabilidade (nu-
mérica) de um evento é o quociente entre os casos favoráveis e
os casos possíveis. Utilizando a notação para eventos introdu-
zida no capítulo anterior, neste caso o espaço amostral Ω, ver
definição 7.2, é finito e discreto, e os resultados do experimento
têm a mesma propensão a ocorrer, sendo a σ-álgebra de even-
tos, definição 7.3, o conjunto das partes de Ω. Então a proba-
bilidade de um evento é definida por uma função que a cada
evento associa um número:
Definição 6.4. Definição clássica de probabilidade
#A
P( A) = ; A⊂Ω
#Ω
Onde # é a cardinalidade do conjunto.
A motivação para esta definição é óbvia e pode ser facilmen-
te verificada nos experimentos relacionados a jogos de azar tais
como dados, roleta, baralho, etc. A coerência da definição é ain-
da assegurada pelo fato de que a imagem inversa de quaisquer
subconjuntos de números inteiros corresponde a um subcon-
junto do espaço amostral.
Exemplo 6.1 Combinatória e contagem
A definição clássica de probabilidade supõe que os resultados
do experimento tenham igual chance e que o número de re-
sultados possíveis seja finito. Daí é óbvia a conclusão de que a
probabilidade de sortear uma determinada face no lançamento
de um dado seja igual a 1/6, porém para calcular a probablida-
de de um evento “A” mais complexo, a contagem dos elementos
de “A” requer, em muitos casos, a ajuda da combinatória. Vimos
no Capítulo 2 a importância da amostragem para levantar in-
formações sobre uma dada população.
São óbvias as limitações da definição, algumas tentativas fo-
ram feitas para aumentar sua abrangência através do conceito
de definição geométrica de probabilidade, na qual se identifi-
cam os eventos e o espaço amostral a figuras geométricas, de
dimensão qualquer, e, ao invés de contar elementos, o que seria
impossível de toda forma, calcula-se a área ou o volume, defi-
nindo-se a probabilidade de um evento como a razão entre sua
área (volume) e a área (volume) do espaço amostral. A primeira
dificuldade da abordagem é a identificação entre o experimen-
to e sua formulação geométrica, o que pode ser não trivial para
experimentos mais complexos, podendo levar a diferentes va-
lores de probabilidades para o mesmo evento.
O paradoxo de Bertrand
Uma corda é escolhida ao acaso em um círculo. Qual a probabilidade de
que o seu comprimento exceda o lado do triângulo equilátero inscrito no
círculo?
Solução 1 – Devido à simetria podemos escolher qualquer direção para
a corda. Determinando um diâmetro perpendicular a esta corda, é óbvio
que somente as cordas que interceptarem este diâmetro entre um quarto e
três quartos do seu comprimento excedem o lado do triângulo equilátero.
Portanto, a probabilidade seria igual a 1/2.
Solução 2 – Novamente recorrendo à simetria podemos fixar uma das
extremidades da corda. A tangente ao círculo neste ponto, juntamente
com os lados do triângulo equilátero inscrito no círculo, tendo por um dos
vértices, justamente, o ponto de tangência, formam três ângulos de 60o cada.
Ora, somente as cordas que estão contidas no ângulo do meio excederão em
comprimento ao lado do triângulo. Donde, a probabilidade igual a 1/3!
Solução 3 – A corda está especificada, desde que o seu ponto médio esteja.
Considerando um novo círculo concêntrico com o primeiro, com a metade
do raio, sabe-se que toda corda, cujo ponto médio pertença a este círculo,
terá comprimento maior que o lado do triângulo equilátero. Levando a um
novo resultado: 1/2!
A dificuldade em compreender os diferentes resultados reside na percepção
de que se trata de experimentos diferentes. Nas primeiras e segundas
soluções identificou-se a casualidade da posição da corda com a casualidade
de seu comprimento, embora sejam aspectos totalmente diferentes. Já
na terceira solução trata-se de um problema completamente diferente –
determinar a probabilidade de um ponto, escolhido arbitrariamente em um
círculo, pertencer a um círculo menor.
Algumas propriedades se destacam desta definição:

P( A) ≥ 0
P (Ω) = 1
A ∩ B = ∅ ⇒ P( A ∪ B) = P( A) + P( B)
O conjunto de propriedades acima foi concebido como um
conjunto axiomático de propriedades que uma função deveria
satisfazer para poder ser uma probabilidade. A ferramenta prin-
cipal para a construção de probabilidades nos casos em que o
paradigma clássico não se aplica é a variável aleatória, que será
vista mais adiante.
O problema da agulha de Buffon

Um plano é particionado por retas paralelas, a intervalos regulares iguais
a 2a. Uma agulha de comprimento 2l (l<a) é jogada casualmente sobre o
plano. Qual é a probabilidade de que a agulha intercepte uma das retas?
Solução – Seja x a distância do centro da agulha à reta mais próxima e } o
ângulo formado pela agulha com a reta. Estas duas medidas determinam
a posição da agulha. Os intervalos de variação são respectivamente [0,a] e
[0,ϖ]. A condição necessária e suficiente para a agulha interceptar a reta é
que x £ l sen}.
A probabilidade (geométrica) é então dada pela razão entre as áreas do
evento sobre a área do espaço amostral
π
∫ l sin ϕ dϕ 2l
P= 0
=
aπ aπ
Apesar do enunciado ingênuo, o problema envolve a determinação do
comprimento de bombas em problemas de bombardeio.
Definição 6.5. Axiomas da função probabilidade
a1) P( A) ≥ 0
a 2) P(Ω) = 1
∞ ∞
a3) Ai ∩ Aj = ∅ ⇒ P(∪ Ai ) = ∑ P( Ai )
i =1 i =1
Como consequência desses axiomas, deduzimos as seguin-

tes propriedades adicionais da função probabilidade:
i) P(Ac)=1 – P(A)
A sua verificação resulta da aplicação do segundo e do ter-
ceiro axioma para A e Ac. Como A∪Ac = Ω e P(Ω) = 1, temos o
resultado.
ii) P(A∪B)=P(A) + P(B) – P(A∩B)
Se A∩B=∅, ii) resulta do axioma 3, senão é necessário sub-
trair P(A∩B) para que a interseção não seja contada duas ve-
zes.
iii) A⊆B ⇒ P(A) ≤ P(B)
6.5 Exercícios
1. Um experimento consiste em lançar duas vezes um dado,
obtendo-se um par de valores.
a) Determine o espaço amostral deste experimento.
b) Determine o evento: soma dos elementos do par <= 8.
c) Determine o evento: complemento do evento obtido em b).
2. Considere uma urna com bolas numeradas de 1 a 100 (nú-

meros inteiros). Determine a probabilidade de sortear um
número que seja ou ímpar ou começado por 5 ou terminado
por 3. O número 5 satisfaz e o número 3 também.
3. Sejam A, B e C três eventos relativos a um espaço amostral.

Exprima os eventos abaixo, usando operações de união, in-
terseção e complementação.
a) A e C ocorrem e B não ocorre.
b) Nenhum dos eventos citados acima ocorre.
c) Nenhum evento ocorre.
d) A ou C ocorrem e B ocorre.
4. Em uma comunidade as probabilidades de um indivíduo ter

determinado tipo sanguíneo são:
P(A) = 0,2 P(Bc) = 0,9 P(ABc) = 0,95
a) Qual a probabilidade de um indivíduo ter sangue do tipo O?
b) Qual a probabilidade de um indivíduo não ter o tipo B e o
tipo AB?
5. Em um baralho com 52 cartas, três cartas são sorteadas ao

acaso. Ache a probabilidade de que exatamente um ás seja
sorteado.
6. Para o mesmo experimento do exercício 5, calcule a proba-

bilidade de que pelo menos um ás seja sorteado.
7. Em um jogo de pôquer, determine a probabilidade para

cada uma das situações seguintes, onde cinco cartas estão
com um jogador:
a) exatamente um par (duas cartas de igual valor + três cartas
de valores distintos);
b) exatamente um trio (três cartas de igual valor + duas cartas
de valores distintos);
c) full house (um par e um trio);
d) flush (todas as cartas do mesmo naipe, inclui-se o straight
flush);
e) royal flush (straight flush com a sequência de 10, valete, rai-
nha, rei e ás).
6.6 Respostas
1.
a) W = { (x,y) | 1 ≤ x ≤ 6; 1 ≤ y ≤ 6, x ε Z, y ε Z}
b) A = { (x,y) | 2 ≤ x + y ≤ 8; 1 ≤ x ≤ 6; 1 ≤ y ≤ 6, x ε Z, y ε Z}
c) Ac = { (x,y) | 8 < x + y ≤ 12; 1 ≤ x ≤ 6; 1 ≤ y ≤ 6, x ε Z, y ε Z}
2. Vamos representar o evento formulado como uma união de

eventos:
Números ímpares: A1 = {2k + 1 | k = 0,49} ⇒ # A1 = 50
Números iniciados por 5: A2 = {5}∪{50 + k | k = 0,…,9} ⇒ # A2 = 11
Números terminados por 3: A3= {3 + 10k | k = 0,…,9} ⇒ # A3 = 10
#Ω = 100
P (A1 ∪ A2 ∪ A3) = P(A1) + P(A2) + P(A3) – P(A1 ∩ A2) – P(A1 ∩ A3) –
P(A2 ∩ A3) + P(A1 ∩ A2 ∩ A3) =
Calculando pela definição clássica de probabilidade:
= 0,5 + 0,11 + 0,1 – 0,06 – 0,1 – 0,01 + 0,01 = 0,55
3.
a) (A ∩ C) ∩ Bc
b) Ac ∩ Bc ∩ Cc
c) ∅
d) (A ∪ C) ∩ B
4.
a) Como um indivíduo só pode ter um tipo sanguíneo
P(O) = P(Ω) – P(A) – P(B) – P(AB) = 1 – 0,2 – 0,1 – 0,05 = 0,65
b) P(Bc ∩ ABc) = P(A) + P(O) = 0,2 + 0,65 = 0,85
5. O espaço amostral é constituído por todas as combinações

de 52 cartas, três a três.
O evento desejado – de que somente um às seja sorteado é
dado pelo produto das combinações de quatro ases, um a um,
pelas combinações das 48 cartas restantes dois a dois. Aplican-
do-se então a definição clássica de probabilidade tem-se o re-
sultado.
⎛ 4⎞ ⎛ 48⎞
⎜⎝ 1⎟⎠ ⎜⎝ 2 ⎟⎠
= 0, 2042
⎛ 52⎞
⎜⎝ 3 ⎟⎠
6. À probabilidade calculada anteriormente vamos somar (re-

gra da soma) as probabilidades de sortear pelo menos dois
ases e três ases, obtendo-se 0,2174.
⎛ 4⎞ ⎛ 48⎞ ⎛ 4⎞ ⎛ 48⎞
⎜⎝ 2⎟⎠ ⎜⎝ 1 ⎟⎠ ⎜⎝ 3⎟⎠ ⎜⎝ 0 ⎟⎠
= 0, 0130 = 0, 0002
⎛ 52⎞ ⎛ 52⎞
⎜⎝ 3 ⎟⎠ ⎜⎝ 3 ⎟⎠
7. Considerando que um baralho tem 52 cartas existem

2.598.960 combinações diferentes de 52 cartas cinco a cinco.
Há ainda 13 valores de face de 2 a 10 mais valete, rainha, rei
e ás. Os naipes são quatro: espadas, copas, ouro e paus.
a) O valor de um par pode ser sorteado de 13 maneiras diferen-
tes. Como existem quatro naipes, as sequências podem ser
compostas por combinações de quatro naipes dois a dois.
Os três valores distintos podem ser sorteados por combi-
nações de 12 valores três a três. Os naipes para estes valo-
res distintos podem ser sorteados de 43 maneiras distintas.
Aplicando-se o princípio do produto e a fórmula clássica da
probabilidade, obtém-se o valor desejado
⎛ 4⎞ ⎛12⎞
13 × ⎜ ⎟ × ⎜ ⎟ × 43
⎝ 2⎠ ⎝ 3 ⎠
≅ 0, 42
⎛ 52⎞
⎜⎝ 5 ⎟⎠
b) Temos 13 valores para trios vezes combinações por quatro

naipes diferentes. Restam combinações dos 12 valores res-
tantes, dois a dois, vezes as combinações de quatro naipes
ao quadrado.
2
⎛ 4⎞ ⎛12⎞ ⎛ 4⎞
13 × ⎜ ⎟ × ⎜ ⎟ × ⎜ ⎟
⎝ 1⎠ ⎝ 2 ⎠ ⎝ 1⎠
≅ 0, 021
⎛ 52⎞
⎜⎝ 5 ⎟⎠
c) Temos 13 valores para pares vezes combinações de quatro

naipes, dois a dois. Restam 12 valores para trios vezes com-
binações de quatro naipes, três a três.
⎛ 4⎞ ⎛ 4⎞
13 × ⎜ ⎟ × 12 × ⎜ ⎟
⎝ 2⎠ ⎝ 3⎠
≅ 0, 0014
⎛ 52⎞
⎜⎝ 5 ⎟⎠
d) Temos quatro escolhas de naipe vezes combinações de 13

valores cinco a cinco.
⎛13⎞
4×⎜ ⎟
⎝ 5⎠
≅ 0, 0020
⎛ 52⎞
⎜⎝ 5 ⎟⎠
e) Temos quatro escolhas de naipe.

4
≅ 0, 000002
⎛ 52⎞
⎜⎝ 5 ⎟⎠
6.7 Probabilidade condicional e independência
O conceito de probabilidade condicional é tão importante
quanto o de probabilidade e, de certa forma, mais próximo do
que o senso comum identifica como sendo probabilidade. Por
exemplo, quando estamos em dúvida se devemos levar o guar-
da-chuva antes de sair de casa, procuramos ao olhar pela janela
se as nuvens estão carregadas, se o vento está mais intenso, se
a umidade aumentou etc. Ou seja, a partir da confirmação de
alguns eventos que julgamos associados à ocorrência de chuva,
avaliamos a chance de ela ocorrer. Na maioria dos casos vamos
proceder desta maneira, exceto em experimentos sintéticos
como os de jogos de azar, por exemplo. A probabilidade condi-
cional pode ser definida a partir do conceito de probabilidade,
constituindo ela própria uma probabilidade, isto é, satisfaz os
três axiomas que definem uma função probabilidade.
Definição 6.6. Probabilidade condicional de um evento

H dado que o evento D ocorreu
P( H ∩ D)
P( H | D) = ; se P( D) ≠ 0
P( D)
P( H | D) = P( H ); se P ( D) = 0
Observe que foi colocada uma alternativa de definição para
o caso de P(D) = 0. Contrariamente ao caso clássico, no qual
P(D) = 0 é equivalente a D = ∅, para espaços amostrais infinitos
podemos ter P(D) = 0 e D diferente de ∅.
Duas fórmulas úteis para o cálculo de probabilidades se de-
duzem da definição 7.6, a fórmula do produto:
P( A ∩ D) = P( A | D) P( D) (6.1)
E a fórmula da soma, que para ser aplicada supõe uma parti-
ção do espaço amostral, isto é, uma coleção finita de conjuntos
Ai, disjuntos dois a dois, e cuja união é o espaço amostral. Para
esta partição e um evento A qualquer se tem que:
n n
P( A) = ∑ P( A ∩ Ai ) = ∑ P( A | Ai ) P( Ai ) (6.2)
i =1 i =1
Exemplo 6.2
Um restaurante popular apresenta apenas dois tipos de refei-
ções: salada completa ou um prato à base de carne; 20% dos
fregueses do sexo masculino preferem salada; 30% das mulhe-
res escolhem carne; 75% dos fregueses são homens. Considere
os seguintes eventos:
H: freguês é homem A: freguês prefere salada
M: freguês é mulher B: freguês prefere carne
Calcular:
a) P(H), P(A | H), P(B | M);
b) P(A ∩ H), P(A)
O item a) visa verificar a compreensão dos dados do enuncia-
do. É muito comum o iniciante confundir a probabilidade condi-
cional com a probabilidade da interseção. Obviamente P(H)=0,75,
já P(A|H)= 0,2 e P(B|M)=0,3 porque os porcentuais ou proporções
em ambos os casos não se aplicam sobre a totalidade dos clientes,
mas sobre os homens e as mulheres, respectivamente.
O item b) visa verificar a compreensão das fórmulas 7.1 e
7.2. Pela 7.1, P(A ∩ H) = P(A | H) P(H) = 0,2 x 0,75 = 0,150. Analo-
gamente, para P(A Ç M)=0,175. Dado que os eventos H e M são
uma partição do espaço amostral constituído pelos clientes do
restaurante, podemos aplicar a fórmula 7.2 para calcular P(A) =
P(A ∩ H) + P(A ∩ M) = 0,150 + 0,175= 0,325.
Definição 6.7. Independência entre eventos
Dois eventos A e B são independentes se e somente se

(s.s.s)
P(A | B) = P(A)
Equivalentemente, podemos dizer que dois eventos A e B
são independentes s.s.s
P(A ∩ B) = P(A) P(B)
É comum o estudante identificar eventos disjuntos como
sendo independentes. Entretanto, é exatamente o contrário!
Pois se A e B forem disjuntos, P(A ∩ B) = 0 e, no entanto P(A)
P(B) ≠ 0 em geral.
Exemplo 6.3
Na tabela, os números que aparecem são probabilidades rela-
cionadas com a ocorrência de A, A ∩ B e assim por diante. Por
exemplo, P(A) =0,10, enquanto que P(A ∩ B) =0,04. Verifique se
A e B são independentes.
B Bc
A 0,04 0,06 0,1
A’ 0,08 0,82 0,9
0,12 0,88 1,0
Basta verificar se P(A ∩ B) = P(A)P(B), como P(A ∩ B) = 0,04

≠ P(A)P(B) = 0,1 x 0,12 = 0,012, então concluímos que não são
independentes.
6.8 Fórmula de Bayes

A contribuição central de Bayes foi a concepção de um proces-
so de aprendizado com a experiência. Assim a probabilidade
P(H) de um evento (ou hipótese) não é absoluta em si, mas à
medida que novos eventos (ou dados) são conhecidos, ela pode
ser atualizada.
Fórmula de Bayes (forma com uma hipótese):
P( D | H ) × P( H )
P( H | D) = (6.3)
P( D)
A dedução é imediata.
Os termos desta fórmula recebem denominações particula-
res que explicam a sua utilidade:
P(H) é a probabilidade a priori de H, representando o valor
inicial desta probabilidade antes de se obterem dados ou outras
evidências.
P(D | H) é a verossimilhança, ou o impacto dos dados sobre
H. Um baixo valor desta probabilidade reflete o fato de que as
chances de H são baixas, e vice-versa.
P(H | D) é a probabilidade a posteriori de H, ou a probabili-
dade atualizada de H após a utilização de nova informação na
verossimilhança.
Fórmula de Bayes (forma com n hipóteses)
P( D | H j ) × P( H j ) n
P( H j | D) = n
; aonde H i ∩ H j = ∅; ∪ H i = Ω (6.4)
∑ P( D | H ) × P( H )
i =1
i i
i =1
Neste caso, há várias hipóteses concorrentes sendo conside-

radas. A dedução é muito fácil, bastando observar que o deno-
minador é igual a P(D) e o numerador a P(D ∩ Hj).
Exemplo 6.4
Retomando o enunciado do Exemplo 6.2, determine P(M | A).
Pela fórmula 7.4, P(M | A) = P(A | M) x P(M) / (P(A | M) x P(M)
+ P(A | H) x P(H)) = 0,70 x 0,25 / (0,70 x 0,25 + 0,20 x 0,75) = 0,54.
Observe que P(A | M) = 1 – P(B | M) = 1 – 0,20 = 0,80 e P(M) =
1 – P(H) = 0,25.
6.9 Razão de chances

Uma forma usual de expressar uma probabilidade é através da
razão de chances, muito utilizada em apostas de torneios. Por
exemplo, o time A tem o dobro das chances do time B. Esta for-
ma não implica na determinação das probabilidades respecti-
vas de A ou B ganharem, mas apenas da chance relativa entre
elas. A razão de chances também pode ser enunciada para a
ocorrência de um evento A e o seu complemento Ac:
o(A)=P(A)/P(Ac) (6.4)
A razão de chances pode servir para se definir uma proba-
bilidade:
o(A) =P(A)/(1-P(A)) ⇒ P(A)=o(A) / [1 + o(A)] (6.5)
6.10 Exercícios
1. Um estudo estatístico sobre o comportamento eleitoral em
um estado produziu os seguintes resultados, expressos em
probabilidades, sobre os votos exclusivos em partidos, assim
como votos em branco e nulos: Partido da Aliança, Partido
do Brasil, Partido Democrata, Partido Nacional, brancos e
nulos.
P(Aliança) = 0,05; P(Brasil)= 0,30; P(Democrata)=0,40;
P(Nacional)=0,04; P(Brancos)= 0,20 P(Nulos)= 0,01
Tomando por base esses resultados, calcule as seguintes
probabilidades:
a) P(Dc ∩ Ac ∩ Nac) =
b) P(Dc ∪ Brasc) =
c) P(D | Brasc) =
d) P(A ∪ Na ∪ Nu) =
e) P(A-Nu | Branc)6 =
f) P(Nuc | Branc) =
2. Dois sinais de duração T < 1/2 cada, são transmitidos por um

canal de rádio durante um intervalo de tempo (0,1); cada um
deles começa a ser transmitido com a mesma probabilidade
em qualquer instante do intervalo (0, 1-T). Se os sinais não
se interceptarem eles são transmitidos com sucesso, senão
eles se interferem totalmente. Calcule a probabilidade de
que eles sejam transmitidos com sucesso.
3. Uma indústria tem três máquinas, A1, A2 e A3 que produ-

zem, respectivamente, 50%, 30% e 20% do número total de
eixos que fabrica. A porcentagem de produtos defeituosos
oriundos destas máquinas é 3%, 4% e 5%, respectivamente.
Tomando por base essas informações, calcule as seguintes
probabilidades:
a) Se um eixo é escolhido ao acaso, qual é a probabilidade do
mesmo não ser defeituoso?
b) Seja um eixo escolhido ao acaso e que é defeituoso. Qual a
probabilidade de ter sido produzido pela máquina A1 ou
A3?
c) Se o eixo for defeituoso, qual a probabilidade de ter sido pro-
duzido pela máquina A1?
6. A – Nu é a notação para A∩Nuc.
4. Se 30% dos empregados de uma fábrica são fumantes, qual
a probabilidade de que haja exatamente dois fumantes para
uma amostra aleatória simples com reposição com cinco
observações? (Considere todas as amostras possíveis.)
5. A tabela abaixo dá para um conjunto de 2.000 estudantes

a distribuição de frequências em relação ao QI e com qual
mão escreve.
QI /mão Direita Esquerda
Alto 190 10
Normal 1710 90
a) Qual a probabilidade de um estudante ter QI alto?

b) Qual a probabilidade de um estudante ter QI alto, dado que
é canhoto?
6.11 Respostas
1.
a) P(Dc ∩ Ac∩ Nac) = P(Nu ∪ Bran ∪ Bras) = [P(Nu)+P(Bran)+P(Bras)]
= 0,51
b) P(Dc ∪ Brasc) = 1 – P(D ∩ Bras) = 1
c) P(D | Brasc) = P(D ∩ Brasc) / P(Brasc) = P(D) / P(Brasc) = 0,40 /
0,70 = 0,57
d) P(A ∪ Na ∪ Nu) = P(A) + P(Na) + P(Nu) = 0,05 + 0,04 + 0,01 =
0,10
e) P(A-Nu | Branc) = P[(A ∩ Nuc) ∩ Branc] / P(Branc) = P(A ∩
Branc) / P(Branc) = P(A) / P(Branc) = 0,05 / 0,80 = 0,063
f) P(Nuc | Branc) = P(Nuc ∩ Branc)| P(Branc) = [1 – P(Nu ∪ Bran)]/
(1 – P(Bran)) = 0,79 / 0,80 = 0,99
2. Representando o espaço amostral dos instantes iniciais de

duas chamadas em um sistema de eixos coordenados pelo
quadrado de lado 1 – T, onde T é o instante inicial da chama-
da, e cada eixo representa um usuário. O interesse é nas cha-
madas que não se interferem, ou seja, aquelas que, quando
uma começa a outra já terminou, o que pode ser derivado da
condição:
|x – y| ≥ T que dá origem aos dois triângulos hachureados
x – y = T e –x + y = T
As áreas destes dois triângulos correspondem a 2 x [(base x

altura)/2] = base x altura = (1 – 2T)2.
A área do quadrado que corresponde ao tamanho do espaço
amostral é (1 – T)2.
Então, a probabilidade de duas chamadas serem transmiti-
das com sucesso é (1 – 2T)2/(1 – T)2.
3. Denotando:
A1: peça produzida pela máquina 1
D: peça defeituosa
a) P(D) = P(A1 ∩ D) + P(A2 ∩ D) + P(A3 ∩ D) = P(A1) x P(D | A1) +
P(A2) x P(D | A2) + P(A3) x P(D | A3) =
0,5x0,03 + 0,3x0,04 + 0,2x0,05 = 0,037.
Logo, P(Dc) = 0,963 ou 96,3%.
b)
P( A1 ∩ D) P( A3 ∩ D)
P( A1 ∪ A3 | D) = P( A1| D) + P( A3 | D) = + =
P( D) P( D)
P( D | A1) × P( A1) P( D | A3) × P( A3)
= + =
P( D) P( D)
0, 03 × 0,5 0, 05 × 0, 2
= + = 0, 68
0, 037 0, 037
c)
P( D | A1) × P ( A1) 0, 03 × 0,50
P( A1| D) = = = 0, 41
P( D) 0, 037
4. O número de combinações possíveis é dado por:
⎛ 5 ⎞ 5!
⎜ ⎟= = 10
⎝ ⎠ 2!3!
2
Para cada uma delas, a probabilidade é:
(0,3) 2 × (0, 7)3
O que dá 0,31.
5. Completando os totais marginais

QI /Mão Direita Esquerda QI
Alto 190 10 200
Normal 1710 90 1800
Mão 1900 100 2000
a) P(QI alto) = 200 / 2000 = 0,1.

b) P(QI alto | canhoto) = (10/2000) / (100/2000) = 0,1.
6.12 Conclusão
O conceito axiomático de probabilidade só foi consolidado em
meados do século XX, o que, em termos de história da ciência,
é bastante recente. Por outro lado, sua interpretação ainda di-
vide a comunidade entre objetivistas e subjetivistas, levando a
metodologias distintas de inferência. Neste texto, estamos nos
atendo à abordagem axiomática, embora tenhamos dado ênfa-
se à seção dedicada ao teorema de Bayes, que inspirou a escola
subjetivista, também conhecida como bayesiana.
6.13 Resumo
Evento é um membro de uma coleção de subconjuntos de
um conjunto denominado espaço amostral Ω, que tem a es-
trutura de uma σ-álgebra F.
Espaço amostral é a coleção dos resultados possíveis, numé-
ricos ou não, da realização de um experimento ou observa-
ção.
σ-álgebra é uma coleção de subconjuntos de Ω que satisfa-
zem às propriedades seguintes:
i) A, B ∈ X ⇒ A ∩ B ∈ X
ii ) A ∈ X ⇒ Ac ∈ X
∞
iii ) Ai ∈ X , i = 1, ∞ ⇒ ∪ Ai ∈ X
i =1
Definição clássica de probabilidade:

#A
P( A) = ; A⊂Ω
#Ω
Onde # é a cardinalidade do conjunto.
Axiomas da função probabilidade:
a1) P( A) ≥ 0
a 2) P(Ω) = 1
∞ ∞
a3) Ai ∩ Aj = ∅ ⇒ P(∪ Ai ) = ∑ P( Ai )
i =1 i =1
Probabilidade condicional de um evento H dado que o
evento D ocorreu:
P( H ∩ D)
P( H | D) = ; se P( D) ≠ 0
P( D)
P ( H | D) = P( H ); se P ( D) = 0
Independência entre eventos: dois eventos A e B são inde-
pendentes se e somente se (s.s.s)
P(A | B) = P(A)
Fórmula de Bayes (forma com uma hipótese):
P( D | H ) × P( H )
P( H | D) =
P( D)
Fórmula de Bayes (forma com n hipóteses):
P( D | H j ) × P( H j ) n
P( H j | D) = n
; aonde H i ∩ H j = ∅; ∪ H i = Ω
∑ P( D | H ) × P( H )
i =1
i i
i =1
Capítulo 7. Variáveis aleatórias
7.1 Propósito
Apresentar o conceito de variável aleatória, suas propriedades
mais importantes e as famílias de distribuições mais conheci-
das. A generalização para vetor aleatório também é apresenta-
da, com ênfase no caso bidimensional.
7.2 Finalidade
Ao final deste capítulo, o aluno estará capacitado a conceituar
variável aleatória, identificar se uma função é uma variável ale-
atória ou não. Distinguir entre variáveis aleatórias discretas ou
contínuas. Operar com variáveis aleatórias, conceituar e calcu-
lar os valores de seus parâmetros. Desenvolver modelos para
populações, baseados em variáveis aleatórias. Conceituar vetor
aleatório, operar com vetores aleatórios de dimensão 2. Deter-
minar densidades e distribuições.
7.3 Introdução
O conceito de variável aleatória é um dos conceitos fundamen-
tais da teoria das probabilidades e entre outras aplicações per-
mite a construção de probabilidades para eventos associados
a um experimento. Uma variável aleatória é uma função que
associa cada evento de um espaço amostral a um número.
Quando esta associação é possível com os números racionais
dizemos que a variável aleatória é discreta, quando ela só for
possível com os números reais então ela é uma variável aleató-
ria contínua. Como os racionais são enumeráveis, usualmen-
te se define uma variável aleatória discreta como assumindo
valores inteiros. Exige-se também, para uma função ser uma
Capítulo 7. Variáveis aleatórias 141
variável aleatória, que sua imagem inversa sempre correspon-
da a um evento.
7.4 Variáveis aleatórias discretas
Definição 7.1. Variável aleatória discreta
X : Ω → {x1 , x2 ,...} ⊆ Z
A X ( A) = xi
Embora seja uma função, não é uma função real o que dificulta
a sua manipulação. Esta limitação é contornada com as defi-
nições de função de distribuição de probabilidades (também
chamada de densidade discreta) f(x) e função de distribuição
(acumulada) F(x).
Exemplo 7.1
a) Em um jogo de dados com um só dado, associar a cada face
o número de marcas.
X : Ω → {1, 2,3, 4,5, 6}
b) Em um jogo de lançamento de uma moeda, associar a cada
face os números 1 ou 0.
X : Ω → {0,1}
c) Em um sistema de controle de frequência, associar a cada
aula o número de alunos presentes.
X : Ω → {0,1, 2,..., 60}
d) Em um call center, associar a cada período de tempo prefixa-
do (por hora, por dia, etc...) o número de chamadas.
X : Ω → {0,1, 2,3,...}
Observe que neste último caso, teoricamente, podemos ter
tantas chamadas quanto números inteiros, ou seja, trata-se de
um experimento com espaço amostral infinito e consequente-
mente a variável aleatória (neste caso) tem a imagem infinita,
porém discreta.
Um mesmo experimento pode servir para a definição de
mais de uma variável aleatória. Por exemplo, para o jogo com
uma moeda, poderíamos definir uma variável aleatória que as-
sociasse ao evento sair cara o número de lançamentos necessá-
rios até que isto ocorresse.
Definição 7.2. Função distribuição de probabilidades
A dificuldade operacional da definição de variável aleatória

é contornada com a definição da função de massa, ou ainda,
função distribuição de probabilidades. Esta função associa ao
valor que pode ser assumido pela variável a uma probabilidade.
Uma função é uma distribuição de probabilidades se for não
negativa e a soma de todos os valores assumidos for igual a 1.
f ( x) = P( X = x) (7.1)
Exemplo 7.2
a) Distribuição uniforme: utilizada para modelar experimen-
tos aleatórios puros.
X : Ω → {1, 2,..., n}
1
f (k ) = P( X = k ) = ; k = 1,..., n
n
b) Distribuição de Bernoulli: utilizada para modelar experi-
mentos aleatórios dicotômicos.
X : Ω → {0,1}
f (1) = P ( X = 1) = p
f (0) = P( X = 0) = q = 1 − p
c) Distribuição binomial: utilizada para modelar experimentos
compostos de Bernoulli.
X : Ω → {1, 2,..., n}
⎛ n⎞
f (k ) = P( X = k ) = ⎜ ⎟ p k q n − k ; k = 1,..., n
⎝ k⎠
d) Distribuição geométrica: utilizada para modelar experimen-
tos com condição de parada simples (primeira ocorrência,
primeira falha etc.).
X : Ω → {1, 2,3,...}
f (k ) = pq k −1
e) Distribuição de Poisson: utilizada para modelar experimen-
tos durante um intervalo de tempo contínuo, porém com
um número discreto de resultados (acidentes por mês, ter-
remotos por ano etc.).
X : Ω → {0,1, 2,...}
μk −μ
f (k ) = e
k!
f) Distribuição hipergeométrica: utilizada para modelar ex-
perimentos com espaços amostrais finitos e discretos para
os quais a chance de ocorrência de evento varia à medida
que os sorteios são feitos (amostragem sem reposição, por
exemplo).
X : Ω → {0,1,..., n}
⎛ r ⎞ ⎛ N − r⎞
⎜⎝ k ⎟⎠ ⎜⎝ n − k ⎟⎠
f (k ) =
⎛ N⎞
⎜⎝ n ⎟⎠
N: tamanho do espaço amostral;

n: tamanho da amostral;
r: número de elementos no espaço amostral com determinada
característica;
k: número de elementos na amostra com determinada característica.
Exemplo 7.3 (associado aos itens do exemplo 7.2)
a) Considere uma urna com bolas numeradas de 1 a 100. Deter-
mine a probabilidade de sortear um número que seja ímpar
ou iniciado por 5 ou terminado por 3. O número 5 satisfaz e
o número 3, também.
O experimento pode ser modelado pela distribuição unifor-
me discreta: U (1, 2,..., 100). Os números ímpares são no total
de 50 para o intervalo considerado e incluem o 3, o 5 e os nú-
meros terminados por 3. Da condição restante – números que
começam por 5, temos cinco valores que não estão incluídos
nos ímpares: 50, 52, 54, 56, 58. Portanto, o total de números que
satisfaz a condição é de 55. Pela densidade discreta a probabili-
dade de sortear cada um destes números é igual a 1/100, como
são 55, a probabilidade pedida é igual a 0,55.
b) Faça o gráfico da função densidade para uma distribuição

de Bernoulli com parâmetro p = 0,1.
Usualmente associa-se o termo sucesso quando a variável
assume o valor 1, mas isto é apenas uma convenção, não neces-
sariamente o evento que é associado ao valor 1 representa um
fato positivo ou benéfico, mas apenas o evento de interesse.
c) Considere um estudante que vai prestar um exame, como

ele estudou pouco, tem 30% de chance de acertar cada ques-
tão. A prova tem 12 questões. Qual a probabilidade de acer-
tar entre zero e quatro questões?
Esta pergunta pode ser respondida modelando-se o experi-
mento por uma distribuição binomial com parâmetros p = 0,3 e
n = 12. Pela fórmula (dada no item c) do exemplo 7.6, podemos
calcular (aproximadamente) as probabilidades sucessivamente
para k = 0, 1, 2, 3, e 4: 0,014; 0,071; 0,17; 0,24 e 0,23. Somando
esses valores, obtemos 0,73.
d) Um estudante saiu para comemorar sua aprovação no curso

de Estatística. Como bebeu muito, ao voltar para casa, ten-
ta aleatoriamente encontrar a chave que abre a porta do seu
apartamento. Se a chave não serve, tenta novamente, poden-
do, devido ao seu estado de embriaguez, escolher de novo as
chaves tentadas anteriormente (sorteio com reposição). Qual
a chance de abrir a porta na terceira tentativa, se o seu chavei-
ro tem 10 chaves e somente uma abre a porta?
Este experimento pode ser modelado pela distribuição ge-
ométrica com parâmetro p = 0,1 e k = 3. Pela função densida-
de discreta, o valor da probabilidade procurada é: 0,1(0,9)2 =
0,081.
e) Número de acidentes em uma rodovia, cuja média é de três

acidentes por dia.
Este experimento pode ser modelado por uma distribuição de
Poisson com média 3. Por exemplo, se quiséssemos determinar a
probabilidade de haverem acidentes nesta rodovia, o cálculo seria
feito da seguinte forma: P(X>0) = 1 – P(X=0) = 1 – 30/0! e-3 = 0,95.
f) Pequenos motores são guardados em caixas com 50 unida-

des. Um inspetor de qualidade examina cada caixa, antes da
posterior remessa, testando cinco motores. Se nenhum mo-
tor for defeituoso, a caixa é aceita. Se, pelo menos um for de-
feituoso, todos os motores são testados. O fornecedor sabe
que há 6 motores defeituosos em cada caixa. Qual a proba-
bilidade de que seja necessário examinar todos os motores
da caixa?
Este experimento pode ser modelado pela distribuição hi-
pergeométrica com os seguintes parâmetros N = 50; r = 6; n = 5.
Vamos calcular a probabilidade de não se encontrar nenhum
motor defeituoso e, então, a probabilidade desejada é o seu
complemento.
⎛ 44⎞ ⎛ 6⎞
⎜⎝ 5 ⎟⎠ ⎜⎝ 0⎟⎠
1− = 1 − 0,53 = 0, 47
⎛ 50⎞
⎜⎝ 5 ⎟⎠
7.5 Média e variância de variáveis aleatórias discretas

Vimos nos Capítulos 3 e 5 os conceitos de média e variância
amostrais, vamos agora reintroduzir estes conceitos para va-
riáveis aleatórias. Na estatística clássica paramétrica, a média
e a variância (populacionais) são parâmetros. Diferentemente
das estatísticas, não variam, são os mesmos valores para toda a
população. A forma de calculá-los vai mudar em consequência
disso, pois ao invés de frequências, temos probabilidades. As
definições são dadas a seguir:
n
μ = E ( X ) = ∑ xi P ( X = xi ) (7.2)
i =1
n
σ = VAR ( X ) = ∑ ( xi − μ ) 2 P ( X = xi )
2
(7.3)
i =1
ou
n n
σ 2 = E ( X 2 ) − ( E ( X )) 2 = ∑ xi2 P ( X = xi ) − (∑ xi P ( X = xi )) 2 (7.4)
i =1 i =1
A fórmula (7.4) é o equivalente da fórmula prática para a vari-

ância experimental e é particularmente útil em deduções e apli-
cações como veremos mais adiante. Para cada uma das variáveis
aleatórias apresentadas no exemplo 7.2 damos respectivamente
os valores de suas média e variância. Há ferramentas mais avan-
çadas para o cálculo destes parâmetros, como a função geradora
de momentos, por exemplo, mas não serão vistos aqui.
Exemplo 7.4 Média e variância (associado aos itens do exemplo 7.2)
n +1
a ) uniforme : μ =
2
b) Bernoulli : μ = p σ 2 = pq
c) binomial : μ = np σ 2 = npq
1 (1 − p )
d ) geométrica : μ = σ2 =
p p2
e) Poisson : μ = μ σ2 = μ
r
f ) hipergeométrica : μ = n ×
N −r
Exemplo 7.5 O jogo de roleta

Considere o jogo de roleta tradicional. Neste jogo há várias mo-
dalidades de aposta, a mais simples consiste em apostar em
um número de 1 a 36, sendo que há mais duas casas na roleta
que não entram nas apostas e são da casa. Esta modalidade de
aposta é a que dá o maior prêmio, porém é a que tem menor
chance para o jogador: 1/38. Supondo-se que a casa paga 35
unidades monetárias para cada unidade apostada em um nú-
mero premiado, calcule a esperança de ganho de um jogador
nesta modalidade.
É necessário construir a distribuição de probabilidades nes-
te caso, já que não corresponde a nenhum dos modelos tra-
dicionais apresentados, embora tenha a mesma estrutura da
distribuição de Bernoulli. A distribuição discreta associada à
variável aleatória ganha é dada pela tabela:
xi 35 –1
f(xi) 1/38 37/38
De acordo com a fórmula (7.2), a média ou esperança de ga-

nho do jogador é:
1 37 2
E ( X ) = μ = 35. + (−1). = − ≅ −0, 05
38 38 38
Ou seja, como era de se esperar, o jogo favorece a banca.
Exemplo 7.6 Entropia
Entropia é um conceito usualmente associado à física: maior
entropia significa maior desordem em um sistema, menor en-
tropia, o contrário. Podemos definir entropia para uma variável
aleatória tomando como referência a teoria da informação de
Shannon(1916-2001), que define o nível de informação a partir
do logaritmo do recíproco da probabilidade, e a entropia como
sendo a média desses valores.
X v.a. discreta {xk | k = 0, ±1,..., ± K }

K
P( X = xk ) = pk ; 0 ≤ pk ≤ 1; ∑
k =− K
pk = 1
O nível de informação de xk é dado por

1 ⎛ 1 ⎞
I ( xk ) = log ( ) = −log pk ; pk = 0 ⇒ log ⎜ ⎟ → ∞
pk ⎝ pk ⎠
Definindo-se assim uma nova v.a discreta cuja média é de-
nominada de entropia
K K
H ( X ) = E[ I ( X )] = ∑
k =− K
pk I ( xk ) = − ∑ pk log ( pk ); pk = 0 ⇒ pk log ( pk ) → 0
k =− K
K
1 ⎛ 1 ⎞
0 ≤ H ( x) ≤= − ∑ log ⎜ ⎟ = log (2 K + 1)
k =− K 2 K + 1 ⎝ 2 K + 1 ⎠
H ( X ) = 0 ⇔ pk = 1; i ≠ k pi = 0 nenhuma incerteza
1
H ( X ) = log (2 K + 1) ⇔ pk = ∀k incerteza máxima
2K + 1
Nos dois casos apresentados, verificamos que a menor en-
tropia (incerteza) corresponde a uma variável quase determi-
nística, e a incerteza máxima à distribuição uniforme. Neste
exemplo, implicitamente usamos o conceito de função de va-
riável aleatória, que é aplicado quando deduzimos I(X) a partir
de X. Um resultado da teoria das probabilidades assegura que a
média da função de uma variável aleatória é calculada de acor-
do com a fórmula, como será visto mais adiante.
K
E[ I ( X )] = ∑
k =− K
pk I ( xk ) (7.5)
7.6 Variáveis aleatórias contínuas

Experimentos com espaços amostrais não enumeráveis repre-
sentaram uma dificuldade para a construção de modelos de
probabilidade, no anexo, os paradoxos de Buffon e Bertrand
são exemplos disto. A extensão da definição de variável aleató-
ria para o caso contínuo vai permitir a construção de modelos
de variáveis aleatórias que permitirão o cálculo operacional de
probabilidades.
Definição 7.3. Variáveis aleatórias contínuas
X :Ω → R
A X ( A) ∈ℜ
Assim como no caso discreto, ao invés de utilizar X, vamos
usar a sua função de densidade.
Definição 7.4. Função densidade contínua
No caso contínuo, a probabilidade de um evento que leva

a um número particular é 0. Portanto, a função densidade no
caso contínuo precisa ser definida para intervalos conforme a
expressão abaixo. Uma função é uma densidade se for não ne-
gativa e sua integral de -∞ a +∞ for igual a 1.
b
P(a ≤ X ≤ b) = ∫ f (t )dt (7.6)

a
Exemplo 7.7 Exemplos de distribuições contínuas e suas funções
densidades
a) Uniforme (a, b)
X : Ω → ( a, b)
⎧ 0 se − ∞ < x ≤ a ⎫
⎪⎪ 1 ⎪⎪
f ( x) = ⎨ se a < x < b ⎬
⎪ b − a ⎪
⎪⎩ 0 se b ≤ x < ∞ ⎪⎭
b) Exponencial (λ)
X : Ω → (0, ∞)
⎧ 0 se x < 0 ⎫
f ( x) = ⎨ − λ x ⎬
⎩λ e se x ≥ 0 ⎭
c) Normal (μ, σ2)
X :Ω → R
1
e − ( x − μ ) /2σ
2 2
f ( x) =
σ 2π
A distribuição normal tem um papel central na estatística
clássica, embora tivesse sido identificada desde o século XVI a
partir dos trabalhos de Abraham de Moivre (1667-1754), é com
Carl Friedrich Gauss (1777-1855) que sua formalização mate-
mática é consolidada a partir da teoria sobre a distribuição de
erros.
Definição 7.5. Função de distribuição (acumulada)
A definição geral é válida tanto para variáveis discretas como

contínuas.
F(x) = P(X ≤ x)
No caso contínuo o cálculo da função de distribuição acu-
mulada pode ser feito através da integração da função densi-
dade. Em casos mais simples esta integral tem forma fechada,
podendo-se explicitar a função que dá a probabilidade acumu-
lada até o limiar. Mas, na maioria dos casos a integral tem que
ser calculada aproximadamente, como na distribuição normal.
Uma função é uma função de distribuição acumulada se for
não negativa, assumindo valores entre 0 e 1, não decrescente e
contínua à direita.
Exemplo 7.8 Funções de distribuição acumulada

a)Uniforme (a,b)
⎧ 0 se − ∞ < x ≤ a ⎫
⎪⎪ x − a ⎪⎪
F ( x) = ⎨ se a < x < b ⎬
⎪ b − a ⎪
⎪⎩ 1 se b ≤ x < ∞ ⎪⎭
b)Exponencial (λ)
⎧ 0 se x < 0 ⎫
F ( x) = ⎨ −λx ⎬
⎩1 − e se x ≥ 0 ⎭
No caso normal não é possível obter a forma fechada para
F(x). Entretanto uma propriedade que relaciona normais com
média e variância distintas vai facilitar o cálculo aproximado de
probabilidades para qualquer normal a partir do cálculo feito
para a Normal padrão, que é a normal com média 0 e variância
1. Antes de apresentarmos esta propriedade, vejamos as defini-
ções de média (ou esperança) e variância para variáveis aleató-
rias contínuas.
7.7 Média e variância de variáveis aleatórias contínuas

A extensão do conceito de média e variância ao caso contínuo é
feito via integração da função densidade. As fórmulas 7.7, 7.8 e
7.9 são análogas, respectivamente, às fórmulas 7.2, 7.3 e 7.4.
∞
μ= ∫ tf (t )dt
−∞
(7.7)
σ = ∫ (t − μ )
2 2
f (t )dt (7.8)
−∞
∞ ∞
σ = ∫t f (t )dt − ( ∫ tf (t )dt ) 2
2 2
(7.9)
−∞ −∞
Exemplo 7.9
a) Uniforme (a, b)
a+b (b − a ) 2
μ= σ =
2
2 12
b) Exponencial (λ)
1 1
μ= σ2 =
λ λ2
Exemplo 7.10 Uniforme
a) Se X é uma uniforme contínua definida no intervalo [–2, 2],
faça o gráfico da distribuição acumulada de X.
b) A dureza de rochas em uma jazida segue uma distribuição

uniforme contínua no intervalo [50, 70]. Calcule a probabili-
dade de que uma rocha tenha dureza entre 55 e 60.
P(55<X<60) = F(60) – F(55) para o caso contínuo. Do exemplo
7.12 (a), tem-se que:
F(60) = 0,5 e F(55) = 0,25.
Logo, a probabilidade desejada é 0,25.
Exemplo 7.11 Exponencial

A distribuição exponencial modela experimentos relativos à vida
útil de equipamentos. O parâmetro média dá o valor do tempo
esperado de funcionamento. A distribuição exponencial é a úni-
ca distribuição contínua que tem a propriedade de ausência de
memória, motivo pela qual ela é adequada para descrever o fun-
cionamento de equipamentos. Formalmente tem-se:
P ( X ≥ a + b | X ≥ b) = P ( X ≥ a )
Ou seja, o comportamento é dado pelo intervalo decorrido
e não pela origem no tempo. É razoável esta propriedade para
descrever o funcionamento durante o tempo útil porque se es-
pera que um equipamento funcione de modo regular toda vez
que for acionado, já a duração da utilização é outra situação.
Sabendo-se que o uso contínuo por um período mais prolon-
gado do que outro período no dia anterior, por exemplo, pode
ser mais suscetível a falhas. No caso discreto a distribuição geo-
métrica é a única distribuição que também tem a mesma pro-
priedade.
Exemplo 7.12 Normal padrão e as funções Z, φ e Φ
Uma normal que tenha média 0 e desvio padrão 1 é denomina-
da de normal padrão e denotada pela letra Z. A função densida-
de de Z é a função φ, e sua função de distribuição acumulada é
a função Φ que só pode ser calculada aproximadamente, ver o
gráfico abaixo e a tabela no Anexo II.
1 − x2 /2
φ ( x) = e
2π
A distribuição normal tem a seguinte propriedade:
x−μ
P( X ≤ x) = P( Z ≤ ) (7.10)
σ
É devido à (7.10) que podemos calcular probabilidades para
qualquer normal a partir de F. Basta achar o limiar equivalente
para Z, calculando-se o z-score de x. Uma tabela com os valores
da normal padrão está disponível ao final desta apresentação.
7.8 Exercícios
1. Tomando como referência a tabela da distribuição acumu-
lada da normal padrão, escolha cinco dentre as dez questões
a seguir:
a) Para a normal N(10,1), determine P(X ≥ 11).
b) Para a normal N(10,4), determine P(X < 2).
c) Para a normal N(10,4), determine L de forma que P(X > L) =
0,1.
d) Para a normal padrão, determine um intervalo simétrico em
torno da média tal que P(-L < X < L) = 0,80.
2. As vendas de um determinado produto têm distribuição
aproximadamente normal, com média 500 e desvio padrão
50. Se a empresa decide fabricar 600 unidades no mês em es-
tudo, qual é a probabilidade de que não possa atender todos
os pedidos desse mês, por estar com a produção esgotada?
3. As rendas dos membros de uma grande comunidade podem

ser representadas por uma distribuição Normal com média
igual a 4.000 e desvio padrão igual a 3.000 unidades monetá-
rias.
a) Qual porcentagem da população tem renda superior a 7.600
unidades monetárias?
b) Determine um intervalo em torno da média que contenha
90% das rendas.
7.9 Respostas
1.
a) P(X ≥ 11) = P[Z ≥(11 – 10)/1] = P(Z ≥1) = 1 – P(Z ≤ 1) = 1 –
Φ(1)=1 – 0,84 = 0,16
Observe que para variáveis aleatórias contínuas a igualdade
não importa, pois a probabilidade de um valor ocorrer é sem-
pre 0. O valor de Φ(1) foi obtido na tabela ao final deste texto.
b) P(X < 2) = P(X ≤ 2) = P[Z ≤ (2 – 10)/2] = P(Z ≤ –4) = 3,17 x 10-5
c) P(X > L) = 1 – P(X ≤ L) = 0,1 ⇒ P(X ≤ L) = 0,9 ⇒ P[Z ≤ (L – 10)/2]
= 0,9 ⇒ Φ[(L – 10)/2] = 0,9 ⇒ (L – 10)/2 = Φ-1(0,9) ⇒ (L – 10)/2
= 1,3 ⇒ (L – 10) = 2,6 ⇒ L = 12,6.
d) Definindo λ = 0,80 e α = 0,20, temos que α/2 = 0,10 e 1 – α/2 =
0,90. Portanto, o problema pode ser recolocado como deter-
minar α tal que zα/2 = 0,10 ou z(1-α)/2 = 0,90. L = z(1-α)/2.
Da mesma tabela, obtém-se Φ-1(0,10) = –1,25, Φ-1(0,90) =
1,25, logo L=1,25.
2. X: vendas X~N(500,2500) estoque=600
P(X > 600) ⇔ 1 – P[Z ≤ (600 – 500)/50] = 1 – P(Z ≤ 2) = 1 – 0,98 =
0,02 ou 2%
3. X: renda X~N(4.000,3.0002)
a) P(X > 7.600) = 1 – P(X ≤ 7.600) = 1 – P[Z ≤ (7.600 – 4.000)/3.000]
= 1 – P(Z ≤ 1,2) = 1 – 0,88 = 0,12
b) Tomando λ = 0,9 e α = 0,1 então α/2 = 0,05 e 1 – α/2 = 0,95;
z0,05= –1,65 e z0,95 = 1,65. Os valores na população original que
correspondem a estes z-scores são: –1,65 x 3.000 + 4.000 =
–950 e 1,65 x 3.000 + 4.000 = 8.950.
7.10 Vetores aleatórios

Vetores aleatórios ou variáveis aleatórias multidimensionais
são funções do espaço produto amostral em Rn. Neste curso va-
mos nos limitar ao caso n = 2. Os vetores aleatórios podem ser
discretos, contínuos ou mistos. Modelam experimentos onde
se observam mais de um atributo.
Definição 7.6. Vetor aleatório (bidimensional)
( X ,Y ) :
Ω × Ω → R2
( A, B) ( X ( A), Y ( B))
Analogamente ao caso unidimensional, definem-se as fun-
ções densidade conjunta e distribuição acumulada conjunta:
Definição 7.7. Densidade conjunta
discreta continua
d b
f ( xi , y j ) = P( X = xi , Y = y j ) ∫ ∫ f ( x, y)dxdy = P(a < X < b, c < Y < d )

c a
(7.11)
Definição 7.8. Distribuição acumulada conjunta
discreta continua
n m
F (m, n) = ∑ P( X = xi , Y = y j ) F (m, n) = ∫∫ f ( x, y )dxdy (7.12)

i, j −∞ −∞
tal que
xi ≤ m
y j ≤n
Exemplo 7.13
Exemplo de uma densidade de vetor aleatório discreto. Nas
margens temos os valores das variáveis, nas células internas as
probabilidades conjuntas (densidades conjuntas) para os pares
de valores correspondentes. A analogia com a tabela de contin-
gência vista no Capítulo 1 é evidente.
Y 1 2 3 4 5
X
1 1/15 0 2/15 0 0
2 0 4/15 0 1/15 1/15
3 1/15 2/15 1/15 1/15 1/15
Uma função é uma densidade conjunta se for não negativa

e a soma das probabilidades for 1, o que se verifica na tabela
acima.
Definição 7.9. Densidades marginais
n
f x ( a ) = P ( X = a ) = ∑ P ( X = a, Y = y j )
j =1
m
f y (b) = P(Y = b) = ∑ P( X = xi , Y = b) (7.13)
i =1
Exemplo 7.14
Retomando o exemplo 7.13 e aplicando a definição 7.9, obtemos
nas margens da tabela as densidades marginais em relação a X e Y.
Y 1 2 3 4 5 fx
X
1 1/15 0 2/15 0 0 3/15
2 0 4/15 0 1/15 1/15 6/15
3 1/15 2/15 1/15 1/15 1/15 6/15
fy 2/15 6/15 3/15 2/15 2/15 1
Definição 7.10. Densidades condicionais
f ( x, b )
f X |Y =b ( x | b) = (7.14)
fY (b)
f ( a, y )
fY | X = a ( y | a ) =
f X (a)
Exemplo 7.15
Usando os resultados dos exemplos 7.13 e 7.14 podemos obter
as duas densidades condicionais:
fY|X=2 0 4/6 0 1/6 1/6
Y 1 2 3 4 5
fX|Y=2 0 4/6 2/6

X 1 2 3
A esperança condicional de Y|X=x é a esperança da distribui-

ção condicional. Por exemplo,
E(Y | X = 2) = 1 x 0 + 2 x 4/6+3 x 0 + 4 x 1/6 + 5 x 1/6 = 17/6.
7.11 Independência e covariância
O conceito de independência entre eventos pode ser enuncia-
do para variáveis aleatórias. Não há graus de independência,
duas variáveis são ou não são independentes. Mas quando são
dependentes, o grau de dependência (linear) pode ser medido
pela covariância ou pelo coeficiente de correlação.
Definição 7.11. Independência e dependência entre va-

riáveis aleatórias
independentes s.s.s. f ( x, y ) = f X ( x) fY ( y ) (7.15)

X e Y sao
Definição 7.12. Covariância e correlação
COV ( X , Y ) = E{[ X − μ X ][Y − μY ]} = E{ XY } − EX EY (7.16)

COV ( X , Y )
ρ( X , Y ) =
σ X σY
Exemplo 7.16
As variáveis X e Y do exemplo 7.18 não são independentes por-
que f(1,1)= 1/15, mas fX(1)fY(1)=3/15 x 2/15 = 6/225. Basta que
a igualdade não se verifique apenas uma vez, para que a inde-
pendência deixe de valer.
Exemplo 7.17
A covariância entre X e Y do exemplo 7.18 pode ser calculada
usando a versão prática E(XY) – E(X)E(Y)
E(X)= 1x 3/15 + 2x 6/15 +3x 6/15 ≅ 2,2
E(Y)= 1 x 2/15 + 2x 6/15 + 3 x 3/15 + 4 x 2/15 + 5 x 2/15 ≅ 2,73
E(XY) = 1 x 1 x 1/15 + 1 x 3 x 2/15 + 2 x 2 x 4/15 + 2 x 4 x 1/15 + 2 x 5
x 1/15 + 3 x 1 x 1/15 + 3 x 2 x 2/15 + 3 x 3 x 1/15 + 3 x 4 x 1/15 + 3 x 5
x 1/15 ≅ 6,13
COV(X,Y) ≅ 6,13 – 2,2 x 2,73 = 0,12
A covariância é dependente da escala em que X e Y estão re-
presentados. O coeficiente de correlação elimina este efeito.
Exemplo 7.18 Densidade normal bivariada
⎧ ⎡⎛ x − μ ⎞ 2 ⎛ x − μ x ⎞ ⎛ y − μ y ⎞ ⎛ y − μ y ⎞ ⎤ ⎫⎪
2
1 ⎪ 1
⎢
f ( x, y ) = exp ⎨− − 2ρ ⎜ ⎟ +⎜ ⎟ ⎥⎬
x
⎜
⎪⎩ 2(1 − ρ ⎢⎜⎝ σ x ⎟⎠ ⎝ σ x ⎟⎠ ⎝ σ y ⎠ ⎝ σ y ⎠ ⎥ ⎪
2
2πσ xσ y 1 − ρ2 ⎣ ⎦⎭
A expressão da densidade bivariada envolve cinco parâmetros:

as médias de X e Y; os desvios padrão de X e Y, e o coeficiente
de correlação r entre X e Y. Observe que, se este coeficiente for
zero, então f(x,y)= fX(x) fY(Y), o que caracteriza a independência
entre X e Y.
X e Y independentes ⇒ COV ( X , Y ) = 0 e ρ( X , Y ) = 0
COV ( X , Y ) ≠ 0 ou ρ( X , Y ) ≠ 0 ⇒ X e Y são independentes
Portanto, trata-se de uma condição necessária para a inde-
pendência, mas não suficiente.
7.12 Operações entre variáveis aleatórias

Produto por constante
cX ⇒ E (cX ) = cE ( X ) e VAR (cX ) = c 2VAR ( X )
Soma de uma constante
X + c ⇒ E ( X + c) = E ( X ) + c e VAR( X + c) = VAR( X )
Soma de duas variaveis aleatorias
X + Y ⇒ E ( X + Y ) = E ( X ) + E (Y )
X e Y independentes ⇒ VAR( X + Y ) = VAR( X ) + VAR(Y )
X e Y dependentes ⇒ VAR ( X + Y ) = VAR ( X ) + VAR (Y ) + 2COV ( X , Y )
7.13 Funções de variáveis aleatórias
Definição 7.13. Função de variável aleatória discreta
Se X é uma variável aleatória discreta e h uma função bije-

tora definida nos números inteiros, assumindo valores inteiros,
então Y = h (X) é uma variável aleatória discreta.
Exemplo 7.19
X ~ Uniforme {1,2,3}
h(x) = 2x + 1
Y ~ Uniforme {3,5,7}
Definição 7.14. Função de variável aleatória contínua
Se X é uma variável aleatória contínua e h uma função real

inversível, então Y = h(X) é uma variável aleatória contínua.
Exemplo 7.20
X ~ Normal(μ, σ2)
h(x) = (x – μ) / σ
Y ~ Normal(0,1)
Definição 7.15. Esperança de função de variável aleatória

discreta
Sejam X, Y e h como na Definição 7.13, então:

E (Y ) = ∑ h( xi )P( X = xi ) (7.15)
i
Definição 7.16. Esperança de função de variável aleatória

contínua
Sejam X, Y e h como na Definição 7.14, então:

∞
E (Y ) = ∫ h(t ) f (t )dt
−∞
(7.16)
7.14 Exercícios
1. Lançam-se dois dados, X indica o número obtido no primei-
ro dado e Y o maior ou número comum nos dois dados. Res-
ponda aos itens seguintes:
a) Represente a densidade conjunta f(x,y)
b) Determine as densidades marginais
c) As duas variáveis são independentes?
d) Calcule E(XY)
2. Para a tabela abaixo que dá a distribuição conjunta de X e Y,

determine:
a) COV(X,Y)
b) E(X | Y=5)
X 10 15 20
Y
3 0 0,1 0,1
5 0,1 0,1 0,1
7 0,15 0,25 0,1
7.15 Respostas
1. a) e b)
X 1 2 3 4 5 6 fx
Y
1 1/36 0 0 0 0 0 1/36
2 1/36 2/36 0 0 0 0 3/36
3 1/36 1/36 3/36 0 0 0 5/36
4 1/36 1/36 1/36 4/36 0 0 7/36
5 1/36 1/36 1/36 1/36 5/36 0 9/36
6 1/36 1/36 1/36 1/36 1/36 6/36 11/36
fy 6/36 6/36 6/36 6/36 6/36 6/36 1
c) Não. Basta verificar que

f(1,1) = 1/36 ≠ fx(1) x fy(1) = 1/36 x 6/36 = 6/1296
d)
E(XY) = 1 x 1 x 1/36 +
2 x 1 x 1/36 + 2 x 2 x 2/36 +
3 x 1 x 1/36 + 3 x 2 x 1/36 + 3 x 3 x 3/36 +
4 x 1 x 1/36 + 4 x 2 x 1/36 + 4 x 3 x 1/36 + 4 x 4 x 4/36 +
5 x 1 x 1/36 + 5 x 2 x 1/36 + 5 x 3 x 1/36 + 5 x 4 x 1/36 + 5 x 5 x 5/36
6 x 1 x 1/36 + 6 x 2 x 1/36 + 6 x 3 x 1/36 + 6 x 4 x 1/36 + 6 x 5
x 1/36 + 6 x 6 x 6/36 =
=17,11
2.
X 10 15 20 fy
Y
3 0 0,1 0,1 0,2
5 0,1 0,1 0,1 0,3
7 0,15 0,25 0,1 0,5
fx 0,25 0,45 0,3 1
a)
COV(X,Y) = E(XY) – E(X)E(Y)
E(XY) = 0 x 3 x 10 + 0,1 x 3 x 15 + 0,1 x 3 x 20 + 0,1 x 5 x 10 + 0,1 x 5
x 15 + 0,1 x 5 x 20 + 0,15 x 7 x 10 + 0,25 x 7 x 15 + 0,1 x 7 x 20 = 4,5
+ 6 + 7,5 + 10 + 10,5 + 26,25 + 14 = 78,75
E(X) = 10x0,25 + 15x0,45 + 20x0,3 = 2,5 + 6,75 + 6 = 15,25
E(Y) = 3x0,2 + 5x0,3 + 7x0,5 = 0,6 + 1,5 + 3,5 = 5,6
COV(X,Y) = 78,75 – 15,25x5,6 = 78,75 – 85,40 = –6.65
b) Vamos determinar a distribuição condicional X|Y=5 que é
obtida dividindo-se a densidade conjunta pela marginal de
Y em 5.
X|Y=5 10 15 20
P(X|Y=5) 0,1/0,3=1/3 0,1/0,3=1/3 0,1/0,3=1/3
A esperança condicional é, então: 10x1/3 + 15x1/3 + 20x1/3 = 15
7.16 Conclusão
O modelo mais simples que se pode imaginar para um atributo
de uma população é o de uma variável aleatória. Se for um con-
junto de atributos, a alternativa é um vetor aleatório. Variáveis
aleatórias são funções, porém diferentes das funções reais, por
esse motivo definem-se funções auxiliares como a função den-
sidade e a de distribuição (acumulada) que são funções reais,
gozando, portanto das propriedades destas funções.
7.17 Resumo
Variável aleatória discreta
X : Ω → {x1 , x2 ,...} ⊆ Z
A X ( A) = xi
Função distribuição de probabilidades
f ( x) = P( X = x)
Variáveis aleatórias contínuas
X :Ω → R
A X ( A) ∈ℜ
Função densidade contínua
b
P(a ≤ X ≤ b) = ∫ f (t )dt (7.5)

a
Função de distribuição (acumulada)

F(x) = P(X ≤ x)
Vetor aleatório (bi-dimensional)
( X ,Y ) :
Ω × Ω → R2 (7.9)
( A, B) ( X ( A), Y ( B))
Densidade conjunta
discreta
f ( xi , y j ) = P( X = xi , Y = y j )
continua
d b
∫ ∫ f ( x, y)dxdy = P(a < X < b, c < Y < d )

c a
(7.9)
Independência e dependência entre variáveis aleatórias

X e Y são independentes s.s.s. f ( x, y ) = f X ( x) fY ( y ) (7.13)
Covariância e correlação
COV ( X , Y ) = E{[ X − μ X ][Y − μY ]} = E{ XY } − EX EY (7.14)
COV ( X , Y )
ρ( X , Y ) =
σ X σY
Distribuição acumulada da Normal padrão (função phi)

z F(z) z F(z)
-5,0000 2,87E-07 0,0000 0,5
-4,9000 4,8E-07 0,1000 0,539828
-4,8000 7,94E-07 0,2000 0,57926
-4,7000 1,3E-06 0,3000 0,617911
-4,6000 2,11E-06 0,4000 0,655422
-4,5000 3,4E-06 0,5000 0,691462
-4,4000 5,42E-06 0,6000 0,725747
-4,3000 8,55E-06 0,7000 0,758036
-4,2000 1,34E-05 0,8000 0,788145
-4,1000 2,07E-05 0,9000 0,81594
-4,0000 3,17E-05 1,0000 0,841345
-3,9000 4,81E-05 1,1000 0,864334
-3,8000 7,24E-05 1,2000 0,88493
-3,7000 0,000108 1,3000 0,903199
-3,6000 0,000159 1,4000 0,919243
-3,5000 0,000233 1,5000 0,933193
-3,4000 0,000337 1,6000 0,945201
-3,3000 0,000483 1,7000 0,955435
-3,2000 0,000687 1,8000 0,96407
-3,1000 0,000968 1,9000 0,971284
-3,0000 0,00135 2,0000 0,97725
-2,9000 0,001866 2,1000 0,982136
-2,8000 0,002555 2,2000 0,986097
-2,7000 0,003467 2,3000 0,989276
-2,6000 0,004661 2,4000 0,991802
-2,5000 0,00621 2,5000 0,99379
-2,4000 0,008198 2,6000 0,995339
-2,3000 0,010724 2,7000 0,996533
-2,2000 0,013903 2,8000 0,997445
-2,1000 0,017864 2,9000 0,998134
-2,0000 0,02275 3,0000 0,99865
-1,9000 0,028716 3,1000 0,999032
-1,8000 0,03593 3,2000 0,999313
-1,7000 0,044565 3,3000 0,999517
-1,6000 0,054799 3,4000 0,999663
-1,5000 0,066807 3,5000 0,999767
-1,4000 0,080757 3,6000 0,999841
-1,3000 0,096801 3,7000 0,999892
-1,2000 0,11507 3,8000 0,999928
-1,1000 0,135666 3,9000 0,999952
-1,0000 0,158655 4,0000 0,999968
-0,9000 0,18406 4,1000 0,999979
-0,8000 0,211855 4,2000 0,999987
-0,7000 0,241964 4,3000 0,999991
-0,6000 0,274253 4,4000 0,999995
-0,5000 0,308538 4,5000 0,999997
-0,4000 0,344578 4,6000 0,999998
-0,3000 0,382089 4,7000 0,999999
-0,2000 0,42074 4,8000 0,999999
-0,1000 0,460172 4,9000 1
0,0000 0,5 5,0000 1
Capítulo 8. Estimadores
8.1 Propósito
Estabelecer os conceitos básicos da estimação clássica. Rela-
cionar as estatísticas amostrais com o processo de estimação.
8.2 Finalidade
Ao final deste capítulo, o aluno será capaz de caracterizar as
propriedades desejáveis de um estimador, assim como calculá-
lo em casos mais correntes, como a média, a variância e os co-
eficientes da reta de regressão. Estará, também, apto a utilizar
o método dos mínimos quadrados para resolver problemas de
estimação.
8.3 Introdução
Vimos anteriormente o conceito de população e amostra. Po-
pulações são, em geral, de difícil acesso exaustivo, levando
à necessidade de se obter “boas amostras” para ser possível
construir um modelo para o atributo de interesse. No enfoque
paramétrico, o problema se resume a determinar o(s) valor(es)
dos parâmetros que identificam uma particular distribuição de
uma família de variáveis aleatórias. As propriedades desejáveis
dessas funções e as técnicas para a sua construção são o ob-
jetivo deste capítulo. O conceito de estimador é central para a
inferência estatística. De um ponto de vista meramente opera-
cional, um estimador é uma função que associa a um subcon-
junto qualquer de valores de uma amostra (evento) um número
denominado estimativa. Do ponto de vista teórico, um estima-
dor é uma variável aleatória.
Capítulo 8. Estimadores 167
Definição 8.1. Estimador é uma variável aleatória cujos
valores aproximam o valor de um parâmetro.
Exemplo 8.1 O estimador média amostral7

X 1 + X 2 + ... X n
X= (8.1)
n
onde X i ~ X
A fórmula (8.1) representa o estimador como uma variável alea-
tória. Cada amostra é construída a partir de n realizações in-
dependentes da variável X, gerando, por sua vez, uma realiza-
ção diferente para a média amostral. O procedimento pode ser
ilustrado supondo-se uma população discreta finita: [1,3,5,5,7].
Observe que o 5 está repetido duas vezes. Há 16 amostras di-
ferentes com dois elementos que podem ser sorteadas (consi-
derando a ordem de retirada e a reposição). Para cada amos-
tra sorteada o valor da média amostral varia. No entanto, as
chances de ocorrências destas amostras não é igual conforme
se vê na Tabela 8.1. Os valores das probabilidades foram obti-
dos a partir das regras básicas vistas no capítulo anterior. Por
exemplo, para a média amostral ser 1, o número 1 teria de ser
sorteado duas vezes. Pela regra clássica como só há um número
1 em cinco números, esta probabilidade é igual a 1/5. Como
se tratam de dois sorteios na mesma população (amostragem
aleatória independente e identicamente distribuída) a proba-
bilidade de sair 1 duas vezes é meramente o produto 1/5 x 1/5
= 1/25. Para os demais valores, exceto o 7, há que se conside-
rar que mais de uma amostra pode dar a mesma média, nestes
casos, a probabilidade final é uma soma de probabilidades de
cada caso. Para a média amostral ser 2, temos as amostras [1,3]
e [3,1], cada uma com probabilidade 1/25 de ser sorteada, daí
o resultado final 2/25. Para as amostras envolvendo o valor 5 é
preciso considerar que este valor aparece duas vezes, portanto,
a chance da amostra [5,5] é 4/25.
7. Observe que a notação para o estimador da média amostral está em letra

maiúscula para diferenciar de uma simples estatística.
[1,1] → 1,[1,3] → 2,[1,5] → 3,[1, 7] → 4
[3,1] → 2,[3,3] → 3,[3,5] → 4,[3, 7] → 5
[5,1] → 3,[5,3] → 4,[5,5] → 5,[5, 7] → 6
[7,1] → 4,[7,3] → 5,[7,5] → 6,[7, 7] → 7
Tabela 8.1
Média amostral 1 2 3 4 5 6 7
Probabilidade 1/25 2/25 5/25 6/25 6/25 4/25 1/25
Exemplo 8.2 O estimador variância amostral

n
∑ (X i − X )2
S2 = i =1
(8.2)
n −1
Da mesma forma que em (8.1), S é uma variável aleatória.
8.4 Estimadores não tendenciosos

Uma propriedade básica e desejável para um estimador é a não
tendenciosidade, ou seja, que as estimativas não estejam sem-
pre subavaliando ou sobreavaliando o valor do parâmetro que
está sendo estimado. Em termos formais, isso significa que a
média ou esperança do estimador seja igual ao valor do parâ-
metro. Embora possa parecer absurdo, em muitos casos não
é necessário conhecer a média da população para provar que
o estimador construído para estimá-la é não tendencioso! Em
(8.3), P circunflexo representa um estimador genérico e p o pa-
râmetro a estimar.
E ( Pˆ ) = p (8.3)
Para o caso da média amostral, é fácil provar que 8.3 vale
X + X 2 ... X n 1 1
E( X ) = E( 1 ) = ( EX 1 + EX 2 + ...EX n ) = × nEX = EX = μ
n n n
A propriedade pode ser facilmente verificada para o exem-
plo 8.1.
1 1 2 1 21
EX = 1 × + 3 × + 5 × + 7 × =
5 5 5 5 5
1 2 5 6 6 4 1 105 21
EX = 1 × + 2 × + 3 × + 4 × + 5 × + 6 × + 7 × = =
25 25 25 25 25 25 25 25 5
A fórmula 8.2 da variância amostral, até então com um mis-
terioso n–1, pode agora ser justificada pelo critério da não ten-
denciosidade:
1 n 1 n
S = 2
∑
n − 1 i =1
(Xi − X ) =
2
∑
n − 1 i =1
( X i − μ + μ − X )2 =
1 ⎡ n n n
2⎤
= ∑ i
n − 1 ⎢⎣ i =1
( X − μ ) 2
− 2 ∑ ( X i − μ )( X − μ ) + ∑ ( X − μ ) ⎥=
i =1 i =1 ⎦
1 ⎡ n 2⎤
= ∑ i
n − 1 ⎢⎣ i =1
( X − μ ) 2
− 2 n ( X − μ )( X − μ ) + n ( X − μ ) ⎥=
⎦
1 ⎡ n 2⎤
= ∑ i
n − 1 ⎢⎣ i =1
( X − μ ) 2
− n ( X − μ ) ⎥
⎦
Tomando a média (ou esperança) de S2 obtemos:
1 ⎡ n 2⎤
E (S ) = 2
∑ i
n − 1 ⎢⎣ i =1
E ( X − μ ) 2
− nE ( X − μ ) ⎥=
⎦
1 ⎡ n ⎤
= ∑
n − 1 ⎢⎣ i =1
VAR ( X i ) − nVAR ( X ) ⎥=
⎦
1 ⎡ 2 X 1 + X 2 + ... X n ⎤
= nσ − nVAR ( )⎥ =
n − 1 ⎢⎣ n ⎦
1 ⎡ 2 n
1 ⎤
=
n − 1 ⎢⎣
nσ − n ∑ 2
VAR ( X i ⎥ =
)
i =1 n ⎦
1 ⎡ 2 nσ 2 ⎤
= nσ − n 2 ⎥ =
n − 1 ⎢⎣ n ⎦
1
= ⎡⎣ nσ 2 − σ 2 ⎤⎦ = σ 2
n −1
O que demonstra a não tendenciosidade do estimador.
8.5 Erro quadrático médio
O erro médio quadrático, ou variância do erro, é outro critério
utilizado para avaliar um estimador. Obviamente, quanto me-
nor, melhor.
Definição 8.2. Erro quadrático médio
EQM ( Pˆ ) = E[( Pˆ − p ) 2 ] (8.4)

Quando o estimador é não tendencioso, o EQM é igual à va-
riância do estimador.
EQM ( Pˆ ) = VAR( Pˆ ) (8.5)
Exemplo 8.3
No caso da média amostral, o erro quadrático médio iguala-se à
variância da média amostral.
1 n 1 n
1 σ2
VAR( X ) = VAR( ∑ X i ) = 2 ∑ VAR( X i ) = 2 nσ =
2
(8.6)
n i =1 n i =1 n n
Exemplo 8.4
O estimador proporção amostral é definido para populações
binomiais. Uma população binomial Bin(n,p) é gerada por n
realizações de uma população de Bernoulli com parâmetro p.
Tomando Xi como uma distribuição de Bernoulli com parâme-
tro p, definimos o estimador como:
S X + X 2 + ... X n
Pˆ = n = 1 (8.7)
n n
É um estimador não tendencioso, pois :
n
1 1 n 1
E ( P) = E (∑ X i ) = ∑ E ( X i ) = np = p
ˆ
n i =1 n i =1 n
O erro quadrático médio iguala-se à variância do estimador:
1 n 1 n
1 pq
VAR( P) = VAR( ∑ X i ) = 2
ˆ ∑ VAR( X ) = n
i 2
npq =
n i =1 n i =1 n
8.6 Construção de estimadores
Há diversas técnicas para a construção de estimadores: mé-
todo dos momentos, método da máxima verossimilhança e
método de mínimos quadrados, além das técnicas bayesianas.
Veremos agora o método de mínimos quadrados, embora não
seja o melhor método em todos os problemas de estimação de
parâmetros. Atribui-se a Gauss e a Legendre a descoberta do
método. Vamos ilustrá-lo com a construção de um estimador
para a média μ de uma população a partir de uma amostra. A
ideia é escolher o valor que minimiza a soma dos quadrados
dos resíduos, isto é:
n
F (μˆ ) = min∑ ( X i − μˆ ) 2 (8.8)
i =1
A condição necessária de otimalidade é:

n
[∑ ( X i − μˆ ) 2 ]´= 0
i =1
Calculando a derivada em relação a μ̂ :

n
n n n ∑X i
−2∑ ( X i − μˆ ) = 0 ⇒ ∑ X i = ∑ μˆ ⇒ μˆ = i =1
i =1 i =1 i =1 n
que é o estimador média amostral.
A aplicação mais conhecida do método de mínimos quadra-
dos refere-se ao ajuste da reta de regressão, um modelo para es-
tudar a dependência linear entre duas variáveis. O conceito de
regressão linear pode ser formalizado como um modelo para a
esperança condicional, conceito visto no Capítulo 7, no exem-
plo 7.19.
E (Y | X = x) = α + Bx (8.9)
Os parâmetros do modelo, neste caso, são α e β. Para estimá-
los segundo o critério de mínimos quadrados vamos aplicar o
critério de minimização dos resíduos, assim como foi feito em
(8.8).
n
min {F (αˆ , βˆ ) = ∑ ( yi − αˆ − βˆ xi ) 2 }
i =1
yi e xi representam os valores amostrais das variáveis Y e X.

Nessa modelagem, a variável X é a variável preditora e Y, a variá-
vel dependente, cujo valor supostamente varia em função de X.
No entanto, é importante enfatizar que o modelo de regressão
fornece o valor médio de Y quando se varia X, e não o valor de Y.
Por esse motivo, os resultados da regressão são, necessariamen-
te, mais suaves que a variação de Y.
A condição necessária de otimalidade é obtida, neste caso,

igualando-se o gradiente dos resíduos a zero, ou seja:
Igualando a zero as derivadas parciais em relação a α̂ e β̂ :
n
∑ 2( y − (αˆ + βˆ x ))(−1) = 0
i =1
i i
∑ 2( y − (αˆ + βˆ x ))(− x ) = 0
i =1
i i i
Obtemos o sistema:
n n
nαˆ + βˆ ∑ xi = ∑ yi
i =1 i =1
n n n
αˆ ∑ xi + βˆ ∑ xi2 = ∑ xi yi
i =1 i =1 i =1
Cuja solução é:
αˆ = y − βˆ x
n
∑ x y − nx y
i i (8.10)
βˆ = i =1
n
∑x
i =1
2
i − nx 2
yˆ = αˆ + βˆ x (8.11)
geometricamente falando, α̂ é o coeficiente linear e β̂ , o coe-
ficiente angular.
Há diversas transformações que permitem tratar como
lineares relações entre variáveis que aparentemente são não li-
neares, permitindo assim que se faça o ajuste através de uma
reta de regressão.
y = 10ax +b ⇒ log y = ax + b
y = (ax + b) 2 ⇒ y = ax + b
1 1
y= ⇒ = ax + b
ax + b y
8.7 Estimadores de máxima verossimilhança

O princípio da máxima verossimilhança escolhe para estima-
dor a função(variável aleatória) que dá o valor para o parâme-
tro, que torna mais provável a amostra observada.
A função de máxima verossimilhança é definida como:
L( p; X 1 , X 2 ,..., X n ) = f ( x1 ; p ) f ( x2 ; p )... f ( xn ; p ) (8.12)

( X 1 , X 2 ,..., X n ) amostra iid
f : densidade de X
x1 , x2 ,..., xn valores observados
Exemplo 8.5
Suponha que p seja o parâmetro proporção em uma população
de Bernoulli e que em uma amostra de tamanho 3, tenham sido
observados dois sucessos e um fracasso. Qual seria a estimativa
de verossimilhança para p?
Como é uma população discreta, a densidade de f é uma
distribuição de probabilidades. Assim temos L(p) = p2(1 – p), a
função de máxima verossimilhança em função de p. Para deter-
minar o valor de p que maximiza esta função, vamos derivar em
função de p e igualar a zero.
L´(p) = 2p(1 – p) + p2(–1) = 0
p(2 – 3p) = 0
p = 2/3
Exemplo 8.6
No caso de uma população binomial, a função de verossimi-
lhança é:
L(p) = px(1 – p)n – x
Neste caso, achar o ponto de máximo vai ser mais trabalho-
so, para facilitar, vamos utilizar a log-verossimilhança.
log e L( p, X 1 , X 2 ,..., X n )
Que, neste caso, fica:
log ( L( p )) = xlog ( p ) + (n − x)log (1 − p )
Derivando e igualando a zero, obtemos:
x n−x
− =0
p 1− p
Cuja solução é:
X
Pˆ =
n
X: número de sucessos.
Coincidindo com o que foi visto no Exemplo 8.4.
8.8 Exercícios
1. Considere os dados relativos às variáveis X (livre) e Y (depen-
dente):
X: 1,2 1,5 1,7 2,0 2,6
Y: 3,9 4,7 5,6 5,8 7,0
a) Determine o modelo linear de regressão associado.
b) Qual o valor esperado para Y, se X = 3 ?
2.
a) O que ocorre com os coeficientes da reta de regressão quan-
do multiplicamos todos os pares de valores pela mesma
constante k ≠ 0?
b) Supondo-se que^ para uma dada amostra a reta de regressão
ajustada seja y = – 15.000 + x, determine a reta de regres-
são se todos os pares da amostra forem multiplicados por
–3000.
3. Pretendendo-se estudar a relação entre as variáveis “ consu-

mo de energia elétrica” (X) e “volume de produção” (Y), fez-
se uma amostragem que inclui 20 empresas, computando-
se os seguintes valores (em milhões de reais):
Σ xi = 11,34 Σyi = 20,72 Σxi2 = 12,16 Σyi2 = 84,96 e
Σxiyi = 22,13
a) Determine uma estimativa para o modelo de regressão.
b) Se houver uma diminuição em 12% do consumo de ener-
gia elétrica qual será o impacto sobre a produção em termos
percentuais?
c) Interprete o significado do valor β̂ .
8.9 Respostas
1.
8
5
y4
0
0 0,5 1 1,5 2 2,5 3
x
a) Os coeficientes da reta de regressão. Calculados pela fórmu-

la (8.10), são αˆ = 3, 62 βˆ = 1,14 .

b) Como y = 1,14 x + 3, 62 , temos que y = 7, 04 .
2.

a) αˆ ′ = ky − βˆ kx = kα
n
∑k 2
xi yi − nk 2 x y

βˆ ′ = i =1
n
=β
∑x
i =1
2
i − nx 2
Ou seja, o coeficiente linear (interseção com o eixo vertical) fica

multiplicado por k e o coeficiente angular não se altera.
b) yˆ = −15.000 + x
De acordo com o resultado visto em a) fica:

yˆ = 45.000.000 + x
3.
a) 11,34 20, 72
x= = 0,58 y= = 1, 04
20 20
n
∑ x y − nx y
i i
22,13 − 20 × 0,58 ×1, 04 22,13 − 12, 06 10, 07
βˆ = i =1
= = = = 1,88
n
12,16 − 20 × 0,34 12,16 − 6,8 5,36
∑x
i =1
2
i − nx 2
αˆ = y − βˆ x = 1, 04 − 1,88 × 0,58 = −0, 050

yˆ = 1,88 x − 0, 05
b) Δy
= 1,88
Δx
Δy = 1,88 × −12% = −6,38%
c) É a taxa de crescimento em função da produção.
8.10 Conclusão
Estimação de parâmetros é um importante capítulo da inferên-
cia estatística, pois estabelece uma metodologia para estender
de forma qualificada os resultados das estimativas amostrais
para a população.
8.11 Resumo
Estimador é uma variável aleatória cujos valores aproxi-
mam o valor de um parâmetro.
Estimador média amostral
X 1 + X 2 + ... X n
X= (8.1)
n
onde X i ~ X
Estimador variância amostral
n
∑ (X i − X )2
S2 = i =1
(8.2)
n −1
Estimador proporção amostral
S X + X 2 + ... X n
Pˆ = n = 1 (8.7)
n n
Estimadores não tendenciosos
E ( Pˆ ) = p (8.3)
Erro quadrático médio
EQM ( Pˆ ) = E[( Pˆ − p ) 2 ] (8.4)

Método dos mínimos quadrados
n
min {F (αˆ , βˆ ) = ∑ ( yi − αˆ − βˆ xi ) 2 }
i =1
Reta de regressão
αˆ = y − βˆ x
n
∑ x y − nx y
i i
βˆ = i =1
n
∑x
i =1
2
i − nx 2
Estimadores de máxima verossimilhança: o princípio da

máxima verossimilhança escolhe para estimador a função
(variável aleatória) que dá o valor para o parâmetro, que tor-
na mais provável a amostra observada.
Função de máxima verossimilhança
L( p; X 1 , X 2 ,..., X n ) = f ( x1 ; p ) f ( x2 ; p )... f ( xn ; p ) (8.12)
( X 1 , X 2 ,..., X n ) amostra iid
f : densidade de X
x1 , x2 ,..., xn valores observados

1. A tabela seguinte dá a população de um país em milhões de
habitantes, a cada cinco anos no século XX.
1900 76,1 1905 83,8 1910 92,4 1915 100,5
1920 106,5 1925 115,8 1930 123,1 1935 127,3
1940 132,5 1945 133,4 1950 151,9 1955 165,1
1960 180,0 1965 193,5 1970 204,0 1975 215,5
1980 227,2 1985 237,9 1990 249,4
a) Faça o dispersograma dos dados, calcule o coeficiente de

correlação amostral e ajuste uma reta de regressão popula-
ção x ano.
b) Reformule o modelo para log(y) = t, calcule o coeficiente de
correlação e ajuste uma reta de regressão log(população) x
ano. A qual modelo não linear corresponde esta transforma-
ção?
c) Qual modelo parece mais adequado?
d) Usando ambos os modelos, preveja a população em 2100.
e) Usando ambos os modelos, determine em qual ano a popu-
lação atingirá 300 milhões de habitantes.
Resolução:
1. a)
População = –3.593 + 1,926 ANO

r = 0,988997
b)
Log (POPULAÇÃO) = 1,905 + 0,005639 (ANO – 1900)

r = 0,996111
Corresponde ao modelo POPULAÇÃO = 10α 10 β (ANO–1900), quan-
do se calcula o logaritmo obtém-se
Log (POPULAÇÃO)= α + β(ANO – 1900)
c) Pelo valor do coeficiente de correlação, o modelo não linear
parece superior. Entretanto, somente um gráfico dos resí-
duos versus valor do ANO poderia dirimir as dúvidas (veja o
exercício 2 desta seção).
d) O modelo linear dá:
–3.593 + 1,926 x 2.100 = 451,6 milhões de habitantes.
O modelo não linear dá:
Log (POPULAÇÃO) = 1,905 + 0,005639 x (2100 – 1900) = 3,0328
y = 1.078,45 milhões de habitantes
Em ambos os casos está se fazendo extrapolação o que é um
procedimento sujeito a muita imprecisão.
e) Pelo modelo linear a população atingirá 300 milhões quan-
do: –3.593 +1,926 ANO = 300 ⇒ ANO = 2021
Pelo modelo não linear a população atingirá 300 milhões quan-
do:
Log (300) =1,905 + 0,005639 x (ANO – 1900) ⇒ ANO = 2001
2. Resíduos de um modelo são as diferenças entre o valores

observados e os valores do modelo. Um estudo sobre econo-
mia de combustível foi feito usando dois modelos de regres-
são, um linear e outro não linear. Os gráficos dos resíduos
em cada caso foram:
Resíduo do Modelo Linear
3
0
0 2 4 6 8 10 12
-1
-2
-3
-4
-5
Resíduo do Modelo Quadrático
0,25
0,2
0,15
0,1
0,05
0
0 2 4 6 8 10 12
-0,05
-0,1
-0,15
-0,2
-0,25
Qual dos dois modelos é mais confiável?

Resolução: O modelo quadrático apresenta resíduos menores.
Além disso, o padrão do gráfico dos resíduos no caso linear in-
dica que o modelo está explicando muito pouco o comporta-
mento conjunto das variáveis.
3. O coeficiente de determinação (r2) é o quadrado do coefi-

ciente de correlação (r). Prova-se que é igual à razão entre a
variância das estimativas e a variância dos valores observa-
dos, portanto quanto maior for, melhor o modelo linear está
explicando as variações de y em função de x. Como r está
compreendido entre 0 e 1, r2 também estará, neste caso usa-
se a notação porcentual para expressar o valor de r2. O ajuste
perfeito tem o r2 = 100%. Em estudos observacionais deve-se
ser mais exigente com o valor de r2, do que em estudos expe-
rimentais.
Resolução: O coeficiente de determinação no caso linear é
0,978115.
O coeficiente de determinação no caso não linear é 0,992237.
Portanto, o modelo linear está explicando 98% da variação de y,
e o modelo não linear está explicando 99% da variação de y.
Capítulo 9. Teorema central do limite
9.1 Propósito
Apresentar o teorema central do limite e sua importância para a
qualificação de estimativas, em particular para a construção de
intervalos de confiança.
9.2 Finalidade
Ao final deste capítulo, o aluno será capaz de construir interva-
los de confiança para estimativas da média, da proporção e do
coeficiente angular da reta de regressão, conhecendo-se ou não
o desvio padrão da população. Será capaz também de determi-
nar o tamanho da amostra a partir de um nível de confiança e
de uma tolerância dadas.
9.3 Introdução
O teorema central do limite foi enunciado pela primeira vez por
Abraham de Moivre (1667-1754) mostrando a aproximação en-
tre uma distribuição binomial com p = 0,5 e uma distribuição
normal. Posteriormente, Pierre Simon Laplace (1749-1827) de-
monstrou o resultado para p qualquer. Com o advento, muito
tempo depois, da axiomática de Kolmogorov, vista no Capítulo
6, o teorema foi generalizado para outras distribuições e inseri-
do em um contexto mais amplo – o da convergência de sequên-
cias de variáveis aleatórias. Neste capítulo, veremos a versão
particular e geral do teorema (na verdade uma delas, porque
há várias versões deste teorema), assim como suas aplicações à
estimação intervalar.
Capítulo 9. Teorema central do limite 185
9.4 Teorema Central do Limite
Uma sequência de variáveis aleatórias é uma lista infinita de
variáveis aleatórias indexadas nos números inteiros. Há quatro
tipos básicos de convergência: quase certa, em probabilidade,
em média r e em distribuição. Neste curso, falaremos apenas
desta última.
Exemplo 9.1
A sequência está definida pelas densidades discretas para
n = 1,2,3,...
X 1 : P( X 1 = 1) = 1 e P( X 1 = 0) = 0
1 1 1
X 2 : P( X 2 = 1) = e P( X 2 = 0) = 1 − =
2 2 2
1 1 2
X 3 : P( X 3 = 1) = e P( X 3 = 0) = 1 − =
3 3 3
...
1 1
X n : P( X n = 1) = e P( X n = 0) = 1 −
n n
...
Exemplo 9.2
A sequência de variáveis aleatórias poderia também ser defini-
da através das suas funções de distribuição acumulada Fi :
X 1 : F1 ( x) = 0, se x ≤ 1 e F1 ( x) = 1, se x > 1
1 1
X 2 : F2 ( x) = 0, se x ≤ e F2 ( x) = 1, se x >
2 2
...
1 1
X n : Fn ( x) = 0, se x ≤ e Fn ( x) = 1, se x >
n n
...
Sob determinadas condições, as sequências de variáveis
aleatórias podem ou não convergir, de acordo com diferen-
tes critérios de convergência. O teorema central do limite será
enunciado para a convergência em distribuição.
Teorema central do limite para uma sequência de somas de

Bernoullis
Seja Sn uma sequência de somas de n Bernoullis (Binomial) com
o mesmo parâmetro p e com n variando nos inteiros, então Sn
converge em distribuição para uma normal com parâmetros
μ = np e σ2 = npq.
Teorema central do limite para uma sequência qualquer de

somas de variáveis aleatórias
Seja Sn uma sequência de somas de n variáveis aleatórias
identicamente distribuídas com média μ e variância σ2, então
Sn converge em distribuição para uma normal com parâmetros
nμ e nσ2 ou Sn→ N(nμ,nσ2).
Alternativamente, o enunciado acima pode ainda ser repre-
sentado por Sn/n→ N(μ,σ2/n) ou ainda Sn/n – μ → N(0,1).
Uma consequência imediata do TCL é que:
x − nμ
P( Sn ≤ x) → Φ ( ) (9.1)
σ n
Lembramos que Φ refere-se à função de distribuição acu-
mulada da normal padrão, cuja tabela com valores aproxima-
dos encontra-se no anexo do Capítulo 7.
Outras formas equivalentes são:
⎛ ⎞
Sn σ ⎛S
2
⎞ ⎜ x−μ ⎟
~ X ( μ , ) ⇒ P ⎜ n ≤ x ⎟ = FSn ( x) ≈ Φ ⎜ ⎟ (9.2)
n n ⎝ n ⎠ ⎜ σ ⎟
n
⎜ ⎟
⎝ n ⎠
⎛ ⎞
Sn σ ⎛ Sn ⎞
2 ⎜ x ⎟
− μ ~ X (0, ) ⇒ P ⎜ ≤ x ⎟ = FSn ( x) ≈ Φ ⎜ ⎟ (9.3)
n n ⎝ n ⎠ − μ
⎜ σ ⎟
n
⎜ ⎟
⎝ n⎠
Exemplo 9.3
Sabendo-se que a vida útil de uma lâmpada pode ser repre-
sentada por uma distribuição exponencial com parâmetro
λ = 1/10, determine a probabilidade de que 50 lâmpadas sejam
suficientes para um ano de utilização.
S50 = X 1 + X 2 + ... X 50
X1 é uma exponencial com μ = 10 e σ = 10.
De (9.1) temos que:
⎛ 365 − 500 ⎞
P( S50 ≤ 365) = Φ ⎜ = Φ (−1,91) ≅ 0, 028
⎝ 10 50 ⎟⎠
Exemplo 9.4
Considerando agora que a população segue uma distribuição
com média = 0,97 e desvio padrão = 1, determine a probabilida-
de de que S100 fique entre 95 e 105.
P(95 ≤ S100 ≤ 105) = P ( S100 ≤ 105) − P ( S100 < 95) = *
Como se trata de uma v.a. cont. P(S100 < 95) = P(S100 ≤ 95)
⎛ 105 − 100 × 0,97 ⎞ ⎛ 95 − 100 × 0,97 ⎞

* = Φ⎜ ⎟⎠ − Φ ⎜⎝ ⎟⎠ =
⎝ 1 × 10 1 × 10
= Φ (0,8) − Φ (−0, 2) ≅ 0,37
9.5 Intervalos de confiança

Quando abordamos o tema estimadores no Capítulo 8, vimos
que a partir das observações de uma amostra podíamos obter
uma estimativa, via função estimador, para o parâmetro con-
siderado. O conceito de intervalo de confiança, ao invés de
apresentar um valor, apresenta um intervalo de valores ao qual
o valor verdadeiro do parâmetro pertenceria com uma dada
probabilidade, denominado nível de confiança. O intervalo é
centrado na estimativa: quanto maior for, maior será o nível de
confiança; por outro lado, sua utilidade vai perdendo o sentido.
No outro extremo, quanto mais reduzido, menor o nível de con-
fiança, o que também compromete sua utilidade. Em termos
práticos, níveis de confiança a partir de 95% são os preferidos.
Os elementos de um intervalo de confiança são:
n: tamanho da amostra
ε: erro
λ: confiança
α: significância
P( pˆ − ε ≤ p ≤ pˆ + ε ) = λ (9.4)
O nível de significância é a probabilidade do intervalo não
conter o valor verdadeiro do parâmetro.
O TCL pode ser utilizado para construir intervalos de con-
fiança para a média e a proporção. De acordo com este teore-
ma:
σ2
X → N (μ, )
n
pq
Pˆ → N ( p, )
n
Os três elementos básicos, n, ε e λ, podem ser escolhidos
dois a dois, pois o terceiro elemento fica necessariamente de-
terminado.
Exemplo 9.5
Suponha que, para uma amostra com 100 observações, retira-
das de uma população com desvio padrão igual a 0,5 , a média
amostral tenha sido 0,1. Obtenha o i.c. ao nível de 95% para a
média μ desta população.
Temos de determinar os quantis que correspondem a 95%
das ocorrências:
z α σ zα σ
σ 2 1−
X ≈ N (μ, )⇒ 2
e 2
satisfazem a condição para o
n n n
caso geral.
Em particular:
α α
λ = 0,95 ⇒ α = 0, 05 ⇒ = 0, 025 e 1 − = 0,975
2 2
Da tabela da normal padrão:
z0,975 = Φ (0,975) = 1,96 e z0,025 = Φ (0, 025) = −1,96
Portanto, o intervalo de confiança é:
0,5 0,5
[0,1 + (−1,96) × ;0,1 + 1,96 × ] = [0, 02 ;0,198]
10 10
Exemplo 9.6
Caso a amostragem ainda não tenha sido feita, pode-se utili-
zar a técnica para determinar o tamanho da amostra, dado um
nível de confiança e um erro aceitável. Por exemplo, para uma
população com desvio padrão igual a 0,3 , um erro igual a 0,1 e
um nível de confiança de 95% , temos:
σ 0,3
z0,975 × = 1,96 × = ε = 0,1
n n
0,588
n= = 34,57
0,1
como n deve ser inteiro:
n = 35
Exemplo 9.7
Os exemplos anteriores supunham o conhecimento do desvio
padrão da população, o que nem sempre é disponível. No caso
de uma população modelada como binomial, os parâmetros
média e desvio padrão estão relacionados. Neste caso, usa-se
uma cota superior para o desvio padrão de uma binomial que é
0,5, como se depreende do que se segue:
X ~ Bin(n, p ) ⇒ σ = pq = p (1 − p );0 ≤ p ≤ 1
O máximo e′ 0,5
O intervalo obtido desta forma é denominado de conserva-
dor, porque supõe o maior desvio padrão possível para a bino-
mial. Suponha que desejemos determinar o tamanho de uma
amostra de modo a obter um i.c. conservador para o parâmetro
p com 95% de confiança e um erro de 0,05.
σ σ 0,5
ε= ×z α ⇒ n = ×z α = × 1,96 = 11,96
n 1−
2
ε 1−
2
0, 05
n = 144
Outra maneira de contornar o desconhecimento do desvio
padrão é usar uma estimativa a partir da mesma amostra, mas,
neste caso, as distribuições amostrais, tanto da média quanto
da proporção, seguem uma distribuição normal somente para
amostras maiores (maior do que 30). Trataremos essa questão
mais adiante.
9.6 Exercícios
1. Sabendo-se que n = 900, p = 0,5 determine:
⎛ S ⎞
P ⎜ | n − p | ≥ 0, 25⎟ = ?
⎝ n ⎠
2. Para os mesmos dados do Exercício 1, determine c de forma

que:
⎛ S ⎞
P ⎜ | n − p | ≥ c⎟ = 0, 01
⎝ n ⎠
3. Ainda para os mesmos dados, determine n de forma que:
⎛ S ⎞
P ⎜ | n − p | ≥ 0, 025⎟ = 0, 01
⎝ n ⎠
4. Construa um intervalo de confiança ao nível de 95% para a

média de uma população normal com variância = 4, a partir
da amostra [5; 8,5; 12; 15; 7; 9; 7,5; 6,5; 10,5]
5. Uma população tem desvio padrão igual a 4. Considere um

intervalo de confiança para a média.
a) Que tamanho deve ter uma amostra para um nível de con-
fiança igual a 0,91 e erro (tolerância) igual a 10-1?
b) Construa o intervalo, sabendo-se que a média amostral
observada foi igual a 50.
6. Numa pesquisa de mercado, 400 pessoas foram entrevista-

das sobre determinado produto, e 60% destas pessoas pre-
feriram a marca A. Construa um intervalo conservativo ao
nível de 95% para a proporção da população.
7. Sabendo-se que a redução média de batimentos cardíacos

por minuto, após a aplicação de um medicamento, para um
conjunto de 50 pacientes é de 5,32 , determine um intervalo
de confiança ao nível de 95% (ou significância de 5%) para
esta redução, sabendo-se que o desvio padrão da redução,
estabelecido para a população é 2,49. Z95% = 1,96.

1. Inicialmente vamos colocar o problema em função de distri-
buições, para em seguida padronizar os seus argumentos e
utilizar a distribuição normal padrão.
⎛ S ⎞ ⎛ S ⎞ ⎛ S ⎞
P ⎜ | n − μ |≥ c⎟ = 1 − P ⎜ | n − μ |≤ c⎟ = 1 − P ⎜ −c ≤ n ≤ c⎟ =
⎝ n ⎠ ⎝ n ⎠ ⎝ n−μ ⎠
⎡ ⎛ ⎞ ⎛ ⎞⎤
⎡ ⎤ ⎢ ⎜ c ⎟ ⎜ −c ⎟ ⎥
1 − ⎢ FSn (c) − FSn (−c) ⎥ ≈ 1 − ⎢Φ ⎜ ⎟−Φ⎜ ⎟⎥ =
⎣ n −μ −μ
⎦ ⎢ ⎜ σ ⎟ ⎜ σ ⎟⎥
n
⎜ ⎟
⎢⎣ ⎝ n ⎠ ⎜ ⎟
⎝ n ⎠ ⎥⎦
⎡ ⎛c n ⎞ ⎛ −c n ⎞ ⎤ ⎡ ⎛c n ⎞ ⎛ ⎛ c n ⎞ ⎞⎤
1 − ⎢Φ ⎜⎜ ⎟⎟ − Φ ⎜⎜ ⎟⎟ ⎥ = 1 − Φ
⎢ ⎜⎜ −
⎟⎟ ⎜⎜ 1 − Φ ⎜⎜ ⎟⎟ ⎟⎟ ⎥ =
⎢⎣ ⎝ σ ⎠ ⎝ σ ⎠ ⎥⎦ ⎢⎣ ⎝ σ ⎠ ⎝ ⎝ σ ⎠ ⎠ ⎥⎦
⎡ ⎛ c n ⎞⎤ ⎡ ⎛ 0, 25 × 900 ⎞ ⎤
1 − 2 ⎢1 − Φ ⎜⎜ ⎟⎟ ⎥ = 1 − 2 ⎢ 1 − Φ ⎜⎜ ⎟⎟ ⎥ = 1 − 2(1 − Φ (1,5)) =
⎢⎣ ⎝ σ ⎠ ⎥⎦ ⎢⎣ ⎝ 0,5 ⎠ ⎥⎦
1 − 2(1 − 0,93) = 0,866
2. Utilizando o resultado do exercício anterior temos:
⎛ S ⎞
P ⎜ | n − p |≥ c ⎟ = 0, 01
⎝ n ⎠
⎡ ⎛ c 900 ⎞ ⎤
2 ⎢1 − Φ ⎜⎜ ⎟⎟ ⎥ = 0, 01
⎢⎣ ⎝ 0,5 ⎠ ⎥⎦
⎛ 30c ⎞
Φ⎜ ⎟ = 0,995
⎝ 0,5 ⎠
30c
= Φ −1 (0,995) = 2,58
0,5
0,5 x 2,58
c= = 0, 043
30
3. Utilizando o resultado do exercício anterior e isolando n ob-
temos o tamanho da amostra.
⎡ ⎛ 0, 025 n ⎞ ⎤
2 ⎢1 − Φ ⎜⎜ ⎟⎟ ⎥ = 0, 01
⎢⎣ ⎝ 0,5 ⎠ ⎥⎦
⎛ 0, 025 n ⎞
Φ ⎜⎜ ⎟⎟ = 0,995
⎝ 0,5 ⎠
0, 025 n
= 2,58
0,5
2,582 × 0, 25
n= = 2.663
0, 0252
4. A média amostral é 9. A distribuição das médias amostrais

é uma normal com média igual à da população e desvio pa-
drão igual a 2/3. No exemplo 9.5 vimos que este intervalo
corresponde a:
2 2
[9 + (−1,96) × ;9 + 1,96 × ] =
3 3
[7, 69 10,31]
5.
a) P (| X − μ |≤ ε )= λ
ε : erro
λ : confianca

⎛ ⎞
⎜ −ε X −μ ε ⎟
P (| X − μ |≤ ε ) = P (−ε ≤ X − μ ≤ ε ) = P ⎜ ≤ ≤ ⎟=
⎜ σ σ σ ⎟
⎜ ⎟
⎝ n n n⎠
⎛ ε n ε n⎞
= P ⎜⎜ − ≤Z≤ ⎟⎟ = λ
⎝ σ σ ⎠
Então, para um dado nível de confiança, tolerância e desvio pa-
drão o tamanho da amostra é dado por:
σ 2 z 2 (1−λ )
1−
n= 2
ε 2
No caso o desvio padrão é igual a 4, o erro é 0,1 e z0,995= 1,7.

16 ×1, 7 2
Então, n = = 4.624 .
0,12
b) Aplicando a definição de intervalo de confiança com os ele-
mentos calculados em a) e a média amostral informada:
⎡ 1, 7 × 4 1, 7 × 4 ⎤
⎢ 50 − ;50 + ⎥ = [50 − 0,1; 50 + 0,1] = [49,9 ; 50,1]
⎣ 4.624 4.624 ⎦
6. Do exemplo 9.7 sabemos que 0,5 é uma cota superior para

ˆ = 0, 6 nível
o desvio padrão. Os outros dados são n = 400, p
de confiança igual a 95%. Logo o intervalo conservativo para
a proporção é dado por:
⎡ 1,96 × 0,5 1,96 × 0,5 ⎤
⎢0, 6 − ;0, 6 + ⎥ = [0, 6 − 0, 049 ; 0, 6 + 0, 049] = [0,55 ; 0, 65]
⎣ 400 400 ⎦
7. O desvio padrão da média amostral é:

σ 2, 49
= = 0,35
n 50
Aplicando a definição de intervalo de confiança ao nível de
95%, obtemos:
5,32 ± 1,96 × 0,35
O que dá o intervalo: [4,63 6,01 ].
9.8 Populações com desvio padrão desconhecido
Quando o desvio padrão é desconhecido usamos o desvio padrão
amostral s como estimativa de σ, mas neste caso a distribuição
amostral X − μ não segue mais uma distribuição normal,
s
n
mas uma distribuição t, que foi proposta por Gosset (1876-
1937) em 1908. Damos a seguir alguns valores de tabela desta
distribuição, que representam o quantil correspondente para
o nível de significância de um intervalo unicaudal à direita. A
distribuição t é mais baixa do que a normal na região central, e
mais alta nas caudas.
Densidade t
⎛n⎞
Γ⎜ ⎟
f ( x) = ⎝2⎠ 1
π (n − 1) ⎛
n
x ⎞2
2
⎜ 1 + ⎟
⎝ n − 1 ⎠
gl = n − 1
Na fórmula acima, Γ é uma função matemática cuja defini-
ção pode ser vista em Ross (2000), p. 174, citado nas referências.
A abreviatura gl representa graus de liberdade e é igual ao nú-
mero de observações menos 1 (n – 1).
gl=n–1 0,25 0,15 0,05 0,02 0,005 0,001
1 1 1,96 6,31 15,89 63,66 318,3
5 0,73 1,16 2,02 2,76 4,03 5,89
10 0,70 1,09 1,81 2,36 3,17 4,14
40 0,68 1,05 1,68 2,12 2,70 3,31
Normal 0,67 1,04 1,65 2,05 2,58 3,09
Exemplo 9.8
Uma amostra apresentou os seguintes valores para um dado
atributo: 0,43; 0,52; 0,46; 0,49; 0,60 e 0,56. Construa um interva-
lo de confiança ao nível de 90% para a média da população.
Como o desvio padrão da população não foi informado e a amos-
tra tem apenas seis elementos, é o caso de utilizar a distribuição t.
x = 0,51
s = 0, 063
s 0, 063
σx = = = 0, 026
n 6
Consultando a tabela da distribuição t, temos que a um nível
de confiança de 90%, corresponde um nível de significância de
10%, com 5% em cada cauda, o que dá o quantil 2,02 na tabela
com 6 – 1 = 5 graus de liberdade e 5% de significância.
[0,51 − 2, 02 × 0, 026 ; 0,51 + 2, 02 × 0, 026] = [0, 46 ; 0,56]
No caso de proporções amostrais de uma população com
desvio padrão desconhecido, o desvio padrão da proporção
amostral é calculado como:
pˆ (1 − pˆ )
σ pˆ ≈
n
E o uso da aproximação normal está sujeita às seguintes
condições:
npˆ ≥ 10
n(1 − pˆ ) ≥ 10

tamanho da amostra ≤ 10% da populaçao
amostragem aleatória simples
Exemplo 9.9
Em uma amostra aleatória simples de 100 peças de um lote
10.000, 15% mostraram-se defeituosas. Determine um interva-
lo de confiança para a proporção de peças defeituosas.
100 × 0,15 = 15 ≥ 10
100 × 0,85 = 85 ≥ 10
100 ≤ 0,1×10.000 = 1.000
Logo, as condições para utilização da estimativa do desvio
padrão foram preenchidas.
0,15 × 0,85
s= = 0, 038
100
[0,15 − 1,96 × 0, 038 ; 0,15 + 1,96 × 0, 038] = [0, 076 ; 0, 22]
O desvio padrão amostral das médias amostrais ou das pro-
porções amostrais estimado com s, também é chamado de erro
padrão.
ˆˆ
pq
erro padrão( pˆ ) = (9.5)
n
s
erro padrão( x ) = (9.6)
n
9.9 Intervalo de confiança para a inclinação da reta de

regressão
Intervalos de confiança não estão restritos à média e propor-
ção, podem ser construídos para qualquer estimativa de um
parâmetro.
Vamos considerar a reta de regressão no formato:
yˆ = y + βˆ ( x − x )
O desvio padrão de β̂ segue uma distribuição t com n–2
graus de liberdade.
∑ ( y − yˆ )
i i
2
sβˆ = n−2 (9.7)

∑ ( xi − x )2
(9.7) pode também ser escrito como:
s
sβˆ = (9.8)
sx × (n − 1)
Onde s e sx são:
s=
∑ ( y − yˆ )
i i
2
n−2
sx =
∑ (x − x ) 2
n −1
(9.8) é também denominado erro padrão da inclinação e s
de desvio padrão dos resíduos.
As condições para a utilização desta aproximação são:
Amostra aleatória simples
Dispersograma com feição linear
Gráfico dos resíduos sem feição particular
Distribuição dos resíduos aproximadamente normal
Exemplo 9.10
Para uma amostra com 10 pares de observações, foi ajustada
uma reta de regressão:
yˆ = 3,89 − 0, 072 x
O erro padrão da inclinação calculado foi 0,0072
O valor do quantil t97,5% é 2,31 para 10 – 2 = 8 gl.
O intervalo de inclinação com 95% de confiança é dado
por:
[-0,072-2,31x0,0072; -0,072+2,31x0,0072] = [–0,089 ; –0,055]
9.10 Conclusão
Neste capítulo, o aluno pode apreciar como a aparente arbitra-
riedade de uma estatística está inserida em regras mais gerais
que permitem qualificar as estimativas em termos de intervalos
de confiança.
9.11 Resumo
Teorema central do limite para uma sequência de somas de
Bernoullis: Seja Sn uma sequência de somas de n Bernoullis
(binomial) com o mesmo parâmetro p e com n variando nos
inteiros, então Sn converge em distribuição para uma nor-
mal com parâmetros μ = np e σ2 = npq.
Teorema central do limite para uma sequência qualquer
de somas de variáveis aleatórias: Seja Sn uma sequência de
somas de n variáveis aleatórias identicamente distribuídas
com média μ e variância σ2, então Sn converge em distri-
buição para uma normal com parâmetros nμ e nσ2 ou Sn→
N(nμ,nσ2).
x − nμ
P( Sn ≤ x) → Φ ( ) (9.1)
σ n
⎛ ⎞
Sn σ ⎛ Sn
2
⎞ ⎜ x−μ ⎟
~ X ( μ , ) ⇒ P ⎜ ≤ x ⎟ = FSn ( x) ≈ Φ ⎜ ⎟ (9.2)
n n ⎝ n ⎠ ⎜ σ ⎟
n
⎜ ⎟
⎝ n ⎠
⎛ ⎞
Sn σ ⎛S ⎞
2 ⎜ x ⎟
− μ ~ X (0, ) ⇒ P ⎜ n ≤ x ⎟ = FSn ( x) ≈ Φ ⎜ ⎟ (9.3)
n n ⎝ n ⎠ − μ
⎜ σ ⎟
n
⎜ ⎟
⎝ n⎠
Intervalo de confiança é um intervalo de valores ao qual o
valor verdadeiro do parâmetro pertenceria com uma dada
probabilidade, denominada nível de confiança.
Os elementos de um intervalo de confiança são:
n: tamanho da amostra
ε: erro
λ: confiança
α: significância
P( pˆ − ε ≤ p ≤ pˆ + ε ) = λ (9.4)
Distribuição t:
⎛n⎞
Γ⎜ ⎟
f ( x) = ⎝2⎠ 1
π (n − 1) ⎛
n
x ⎞2
2
⎜1 + ⎟
⎝ n −1 ⎠
gl = n − 1
Erro padrão da proporção e da média, respectivamente:
ˆˆ
pq
erro padrão( pˆ ) = (9.5)
n
s
erro padrão( x ) = (9.6)
n
Erro padrão da inclinação:
∑ ( y − yˆ )
i i
2
sβˆ = n−2 (9.7)

∑ ( xi − x )2

1. Em uma amostra com 30 observações, a média amostral foi
83,5 e o desvio padrão amostral foi 5,9. O histograma dos
dados é unimodal, simétrico e sem valores extremos.
a) Obtenha um intervalo de confiança para a média da
população(t95% = 1,70 com 29gl).
b) Qual o tamanho de uma amostra caso se deseje um erro de
uma unidade para o mesmo nível de confiança?
Resolução:
5,9 5,9
a) [83,5 − 1, 7 × ; 83,5 + 1, 7 × ] = [81, 67 ; 85,33]
30 30
b) Neste caso vamos usar o valor da normal z95%= 1,65
5,9
1, 65 × ≤ 1 ⇒ n ≥ 9, 74 ⇒ n ≥ 95
n
2. Em resultados de pesquisas eleitorais é comum os resulta-

dos serem enunciados nas seguintes formas:
a) 40% dos eleitores apóiam o candidato A
b) 40% dos eleitores, com um erro de 5% para mais ou para me-
nos apóia o candidato A
c) 40% dos eleitores, com um erro de 5% para mais ou para me-
nos apóia o candidato A, com um nível de confiança de 95%
apóia o candidato A
Quais dentre elas são incompletas e por quê?
Resolução:
a) Não se tem ideia do tamanho da amostra.
b) Não se tem ideia do nível de confiança associado ao erro.
c) É a forma correta de expressar uma estimativa intervalar.
3. Um processo de fabricação produz peças com um desvio

padrão de 0,025cm. Qual o tamanho da amostra para se ob-
ter uma estimativa intervalar com 99% de confiança e um
erro de 0,01cm?
Resolução: O desvio padrão da média amostral é:
σ 0, 025
σx = =
n n
O nível de significância e o correspondente quantil para a nor-
ma padrão são:
α = 1 − 0,99 = 0, 01
z α = z99,5% = 2,58
1−
2
O tamanho da amostra é obtido isolando-se n no componente

erro do intervalo de confiança:
0, 025 2,58 × 0, 025
2,58 × ≤ 0, 01 ⇒ n ≥ = 6, 44 ⇒ n ≥ 42
n 0, 01
4. De uma maneira geral dobrar o tamanho da amostra tem

qual implicação sobre o comprimento do intervalo de con-
fiança?
Resolução: Divide o intervalo de confiança por um fator de
2 = 1, 41 .
Capítulo 10. Testes de hipóteses
10.1 Propósito
Apresentar a metodologia de testes de hipóteses para alguns
parâmetros. Testes unilaterais e bilaterais, para atributos quan-
titativos ou qualitativos.
10.2 Finalidade
Ao final deste capítulo, o aluno estará apto a montar testes de
hipóteses unicaudais e bicaudais, sobre a média ou a propor-
ção, com ou sem o conhecimento do desvio padrão da popu-
lação, para atributos quantitativos ou categóricos. No caso de
atributos categóricos – os testes de independência, homoge-
neidade e aderência.
10.3 Introdução
A metodologia do teste de hipóteses foi introduzida por Egon
Sharpe Pearson (1895-1980) e Jerzy Neyman (1894-1981), e
tem por objetivo formular hipóteses sobre os parâmetros de
um modelo de população, quando se suspeita que haja algu-
ma alteração em seu valor. Por exemplo, o consumo médio de
eletricidade pelas famílias em uma cidade. Sob determinadas
condições, se a estatística calculada a partir de uma amostra
pertencer a um intervalo denominado região crítica, então a
hipótese corrente é rejeitada (de que o consumo médio perma-
nece o mesmo) e se aceita a hipótese alternativa (de que o con-
sumo se alterou).
O teste de hipóteses parte do princípio que, diante de uma
proposição, quatro possíveis situações podem advir: aceitar
uma proposição correta, rejeitar uma proposição falsa, rejei-
Capítulo 10. Testes de hipóteses 205
tar uma proposição verdadeira, aceitar uma proposição falsa.
As duas primeiras correspondem ao procedimento correto, a
terceira é o erro denominado de tipo I, e a última o erro deno-
minado de tipo II. O teste é formulado de modo que o erro de
tipo I seja mais grave. Por exemplo, não detectar uma enfermi-
dade em um paciente (falso negativo). A probabilidade de co-
meter um erro do tipo I é o nível de significância do teste, sendo
denotada por α. Por outro lado, a probabilidade de se cometer
um erro do tipo II é denotada por β. A probabilidade de não
se cometer um erro do tipo II é chamada de poder do teste. Só
iremos abordar o cálculo de α.
10.4 Elementos básicos de um teste de hipóteses

Um teste sobre um parâmetro envolve a hipótese nula (H0) e a
alternativa (H1); uma estatística; um valor para o nível de signi-
ficância e a região crítica. Se a estatística cair dentro da região
crítica (RC), H0 será rejeitada, em caso contrário, será mantida.
A região crítica, ou região de rejeição do teste (RC), é determi-
nada a partir do cálculo da probabilidade condicional de que
ocorra o valor observado na estatística dado que H0 é verda-
deira. Se esta probabilidade for menor que α, então a hipótese
nula é rejeitada (o que ocorreu é muito raro para as condições
hipotéticas). Caso contrário, a hipótese é mantida.
H0: hipótese nula
H1: hipótese alternativa
p̂ : estimativa
RC: região crítica
p̂ ∈ RC ⇒ rejeita H0
p̂ ∉ RC ⇒ aceita H0
Exemplo 10.1
H0: Os pacotes produzidos por uma máquina pesam em média
500g.
H1: A máquina está desregulada
α = 1%
média amostral = 492
tamanho da amostra = 16
variância da população = 400
A região crítica é determinada a partir da aplicação do TCL:

400
X ≈ N (500, ) = N (500, 25)
16
α = 1% corresponde a 0,5% de cada cauda da normal, corres-
pondendo aos quantis 0,5% e 99,5%.
Para a normal padrão, estes valores são: z0,5% = –2,58 e
z99,5% = 2,58.
Calculando para X , temos: x0,5% = −2,58 × 25 + 500 = 487,1
e x99,5% = 2,58 × 25 + 500 = 512,9 .
Como a x observada 492 não está nem abaixo de 487,1 nem
acima de 512,9, então não há motivo para rejeitar H0.
Figura 10.1
0,45
0,4
0,35
0,3
0,25
0,2
0,15 0,5% 0,5%
0,1
0,05
0
-2,58 2,58
Região crítica
10.5 Testes sobre a média e a proporção

O teste visto em 10.3 é um exemplo de teste bilateral sobre a
média. Se a hipótese alternativa fosse que o valor médio dimi-
nuiu ou aumentou, o teste seria unilateral, correspondendo a
uma região crítica que compreenderia somente parte de uma
das caudas da normal.
⎧ H 0 : μ = μ0 ⎫
⎪ ⎪
⎨ ⎧μ < μ0 ⎫⎬
⎪ H1 : ⎨ μ > μ ⎬ ⎪
⎩ ⎩ 0 ⎭⎭
Figura 10.2(a) Figura 10.2(b)

0,45 0,45
0,4 0,4
0,35 0,35
0,3 0,3
0,25 0,25
0,2 0,2
0,15 1% 1%
0,15
0,1 0,1
0,05 0,05
0 0
-2,3 2,3
Região crítica Região crítica
Analogamente, podemos formular os testes para propor-

ção:
⎧ H 0 : p = p0 ⎫
⎪ ⎪
⎨ ⎧ p < p0 ⎫⎬
⎪ H1 : ⎨ p > p ⎬ ⎪
⎩ ⎩ 0 ⎭⎭
Exemplo 10.2
Uma estação de TV usualmente tem 60% da audiência. Em uma
pesquisa de opinião com 200 telespectadores, apurou-se que
45% deles assistem à emissora. Pode-se concluir que a audiên-
cia da emissora diminuiu? Use um nível de significância igual
a 5%.
H0: a audiência é de 60%
H1: a audiência diminui
α = 5%
p̂ = 45%
n = 200
σ2 = 0,6 x 0,4 = 0,24
0, 24
Pˆ ≈ N (0, 6; ) = N (0, 6;0, 0012)
200
z5% = –1,645
pˆ 5% = −1, 645 × 0, 0012 + 0, 6 = 0,54
Como a proporção observada 0,45 está abaixo de 0,54, per-
tence à região crítica, rejeitando-se a hipótese nula de que a au-
diência continua a mesma.
10.6 Testes de aderência, homogeneidade e independência

Os três testes têm a mesma estrutura embora as interpretações
sejam diferentes.
⎧ H 0 : p1 = p10 , p2 = p20 ,..., ps = ps 0 ⎫
⎨ ⎬
H
⎩ 1 : alguma proporção se altera ⎭
Na abordagem clássica paramétrica é sempre importante
identificar a população em estudo com um modelo de distri-
buição. Uma das formas de fazer isso é através do teste de ade-
rência, que vamos ilustrar somente para o caso de uma variável
aleatória discreta. Para isso será necessário introduzir um novo
modelo de distribuição – a distribuição do Qui-quadrado (χ2).
A origem desta distribuição é o cálculo de soma de quadrados
de diferenças. Como, por exemplo, aquelas feitas em tabelas de
contingência entre frequências observadas e esperadas.
Distribuição do Qui-quadrado (ν)
X : Ω → R+
ν
−1 x
2
x −
f ( x) = ν
e 2
⎛ν⎞
2 Γ⎜ ⎟
2
⎝ 2⎠
O parâmetro ν é conhecido como graus de liberdade; ilustrare-
mos a seguir o seu uso. Γ é a função gama do cálculo diferencial
e integral. A tabela seguinte apresenta os valores para alguns
quantis e graus de liberdade.
gl ,005 ,010 ,050 ,100 ,500 ,900 ,950 ,990 ,995
1 0 0 0 ,004 ,46 2,71 3,84 6,63 7,88
2 ,01 ,02 ,10 ,58 1,35 4,61 5,99 9,21 10,6
3 ,072 ,12 ,35 ,58 2,37 6,25 7,81 11,3 12,8
4 ,21 ,3 ,71 1,06 3,36 7,78 9,49 13,3 14,9
5 ,41 ,55 1,15 1,61 4,35 9,24 11,1 15,1 16,1
Exemplo 10.3
Suponha que, em uma população, as proporções de bolas ver-
melhas, pretas e brancas sejam, respectivamente, 9/16; 3/16 e
4/16. Para uma amostra supostamente retirada desta popula-
ção, encontraram-se 74 bolas vermelhas, 32 pretas e 38 brancas.
Avalie a hipótese de que a amostra tenha sido retirada desta po-
pulação. Use um nível de significância igual a 5%.
H0: A amostra pertence à população

H1: A amostra não pertence à população
α = 5%
(Oi − Ei ) 2
Oi Ei (Oi − Ei )
Ei
9
74 81 = ×144 −7 0, 6
16
3
32 27 = ×144 5 0,93
16
4
38 36 = ×144 2 0,11
16
144 144 0 1, 64
v=3–1=2
χ (12 −α )% (2) = 5,99
Idealmente, o menor valor para a estatística seria 0. Portanto,
o teste é necessariamente unilateral e, como a estatística obser-
vada 1,64 está abaixo do valor crítico 5,99, então é aceito H0.
O teste de homogeneidade tem por objetivo verificar se as pro-
porções por categorias cruzadas às quais pertence um conjunto
de objetos podem ser consideradas invariantes ou não. A estrutura
do teste, como veremos, é similar à do exemplo anterior.
Exemplo 10.4
A tabela abaixo dá a distribuição de alunos por curso e por ca-
tegoria econômica. Avalie a hipótese de que as proporções de
alunos matriculados em cursos de enfermagem e medicina não
variem com a categoria econômica. Use um nível de significân-
cia igual a 5%.
H0 :Proporções não variam

H1:Proporções variam
A B C D E Total
Enfermagem 18 39 129 48 66 300
Medicina 18 26 41 6 9 100
Total 36 65 170 54 75 400
Oij: frequência absoluta observada

O11 = 18 O12 = 39 O13 = 129 O14 = 48 O15 = 66
O21 = 18 O22 = 26 O23 = 41 O24 = 6 O25 = 9
Eij: frequência absoluta esperada
ni × n j
Eij =
n
300 × 36
E11 = = 42,5 E12 = 48, 75 E13 = 127,5 E14 = 40,5 E15 = 56, 25
400
100 × 36
E21 = =9 E22 = 16, 25 E23 = 42,5 E24 = 13,5 E25 = 18, 75
400
2 5
(Oij − Eij ) 2
χˆ = ∑∑
2
= 32,19
i =1 j =1 Eij
graus de liberdade = (2 x 1) x (5 – 1) = 4
χ 95%
2
= 9, 49
A estatística 32,19 é acima do valor crítico 9,49; portanto, H0
deve ser rejeitada.
O teste de independência entre variáveis segue estrutura
semelhante e serve para avaliar a independência ou não dos
atributos.
Exemplo 10.5
Um levantamento feito na época da crise financeira mundial
com 1.000 pessoas levou em conta os atributos: posição em re-
lação ao governo x confiança no sistema bancário. O primeiro
atributo admite três categorias – governista, oposição e indi-
ferente. O segundo atributo também admite três categorias –
confia, não confia e indiferente.
Confia Não confia Indiferente Total
Governista 175 220 55 450
Oposicionista 150 165 35 350
Indiferente 75 105 20 200
Total 400 490 110 1.000
H0 : Atributos são independentes

H1 : Atributos são dependentes
Repetindo o procedimento visto anteriormente, determi-
namos os valores esperados e calculamos a estatística do Qui-
quadrado, obtendo o valor 3,024. Os graus de liberdade corres-
pondem a (3 – 1) x (3 – 1) = 4 e, para uma significância de 5%,
o valor crítico é 9,49. Como a estatística observada não é maior
que este valor, então não há razão para rejeitar a hipótese nula
de que os atributos são independentes.
Um aperfeiçoamento nos testes clássicos foi a introdução
do conceito do valor p (p-value). Este valor é a probabilidade de
se obter uma estatística igual ou maior que o resultado obser-
vado, supondo-se que H0 é verdadeira. Obviamente, se o valor p
for menor que α, a hipótese é rejeitada; se for maior, é aceita. A
vantagem do método é conseguir margens ainda menores para
o erro do tipo I do que a fixada inicialmente.
Exemplo 10.6
Suponha que para um teste bilateral sobre a média ao nível de
5%, tenhamos encontrado a média amostral igual a 1,5, sendo
os valores críticos respectivamente –1,96 e 1,96. Portanto, a hi-
pótese nula não será rejeitada. Pelo método do valor p, vamos
calcular a probabilidade de a média amostral ficar acima de 1,5
e abaixo de –1,5, supondo-se a hipótese nula verdadeira. Esta
probabilidade é igual a 0,067, maior do que 0,05, portanto não
rejeitaremos a hipótese nula.
10.8 Testes com desvio padrão da população desconhecido

Todos os testes apresentados tinham a informação do desvio
padrão, no entanto, nem sempre esta informação é disponível,
sendo necessário estimar o desvio padrão amostral.
No caso de testes com proporções o desvio padrão amostral
é estimado (já visto no Capítulo 9) por:
pˆ (1 − pˆ )
σ pˆ ≈
n
Sendo sua aplicação sujeita às condições seguintes (já visto
no Capítulo 9):
npˆ ≥ 10
n(1 − pˆ ) ≥ 10
tamanho da amostra ≤ 10% da população
amostragem aleatória simples
Exemplo 10.7
Acredita-se que, em uma área turística, apenas 15% dos vera-
nistas fica mais do que dois dias. Em uma pesquisa de opinião
com 100 turistas, o porcentual encontrado foi de 18%. Qual a
probabilidade de se cometer um erro do tipo I, isto é, rejeitar
erradamente a hipótese nula (caso ela seja verdadeira), se o
porcentual de 18% for adotado como valor crítico?
Ho : p = 0,15
H1 : p > 0,15
pˆ (1 − pˆ )
σ pˆ = = 0, 036
n
O z-score do valor crítico é:
0,18 − 0,15
= 0,84
0, 036
Que é o quantil de 80%, ou seja, z80%= 0,84. Logo, a chance de
rejeitar H0 é de 20%.
No caso de testes com médias vimos que a distribuição
amostral segue uma lei t de Student, vista no Capítulo 9.
X −μ
s
n
Exemplo 10.8
O consumo mensal de vinho por família supõe-se ser de cinco
litros. Um levantamento feito com 15 famílias apresentou uma
média amostral de 5,63 litros, com um desvio padrão amostral
de 1,61 litros. Pode-se afirmar que o consumo aumentou, assu-
mindo-se um nível de significância de 10%?
H0: μ = 5
H1: μ > 5
s 1, 61
σx = = = 0, 42
n 15
Com gl = 15 –1 = 14 e α = 0,10 t90% = 1,35.
Para a distribuição amostral, este valor é 5 + 1,35 x 0,42 =
5,56.
Como 5,63 > 5,56 a hipótese nula de que o consumo perma-
nece o mesmo será rejeitada.
Vejamos outro exemplo, agora com um teste bicaudal.
Exemplo 10.9
Em um estudo prospectivo, acredita-se que os rendimentos
anuais tenham como valor médio R$ 90.000,00. Um levanta-
mento com oito moradores apresentou os seguintes valores:
R$ 75.000,00; R$ 102.000,00; R$ 82.000,00; R$ 87.000,00; R$
77.000,00; R$ 93.000,00; R$ 98.000,00 e R$ 68.000,00. Pode-se
manter a hipótese corrente ou há evidências para sua rejeição?
H0 : μ = 90.000
H1 : μ ≠ 90.000
x = 85.250
s = 11.877
11.887
σx = = 4.199
8
85.250 − 90.000
O z-score é: = −1,13
4199
Vamos considerar o intervalo [–2,37 2,37] para a distribuição
t correspondendo a uma significância de 5%. –1,13 pertence ao
intervalo, logo não há razão para rejeitar o teste.
Se quiséssemos usar o método do valor p, verificaríamos na
tabela da distribuição t que a chance de um valor ser igual a
–1,13 ou menor é maior que 10%, um valor elevado, o que tam-
bém corrobora a não rejeição do teste.
gl 0,25 0,20 0,15 0,10 0,05 0,025
7=8–1 –0,71 –0,89 –1,12 –1,42 –1,90 –2,37
10.9 Teste para a inclinação (coeficiente angular da reta de
regressão)
Dando continuidade ao estudo da reta de regressão que foi feito
nos Capítulos 8 e 9, vamos apresentar o teste de hipóteses para
a inclinação da reta. Antes de aplicá-lo, o pesquisador deve ve-
rificar, usando a estatística exploratória, se: a) o dispersograma
é aproximadamente linear; b) o gráfico dos resíduos não apre-
senta padrão; c) histograma dos resíduos é aproximadamente
normal; d) a distribuição dos resíduos é normal.
Conforme visto nos Capítulos 8 e 9, a estimativa do parâ-
metro β da reta de regressão e de seu erro padrão é dado pelas
fórmulas seguintes:
αˆ = y − βˆ x
n
∑ x y − nx y
i i
βˆ = i =1
n
∑x
i =1
2
i − nx 2
∑ ( y − yˆ ) i i
2
sβˆ = n−2
∑ ( xi − x )2
O desvio padrão da estimativa de β (ou erro padrão) segue
uma distribuição t com n–2 graus de liberdade. O teste é formu-
lado como:
H0 : β = 0
H1 : β ≠ 0
Exemplo 10.10
Foram observados 25 estudantes em uma bateria de provas, re-
lacionando-se a melhoria das notas em testes de aferição com
o número de aulas de reforço.
A reta ajustada é: melhoria = −7, 72 + 9, 29(# aulas )
E o t-score referente ao erro padrão é 13,68 com 25 – 2 = 23 gl.
No detalhe da tabela da distribuição t, vemos que 3,77 cor-
respondem ao quantil 99,5%, portanto as chances de ocorrer
valores iguais ou maiores do que 13,68 são praticamente nulas.
Rejeita-se, portanto, a hipótese nula.
0,25 0,10 0,01 0,001 0,005
23 gl 0,69 1,32 2,5 3,49 3,77
10.10 Exercícios
1. Um fabricante de determinado carro deseja saber se a pro-
porção de clientes diminuiu no corrente ano. Esta propor-
ção é de 30% do mercado de consumidores. Assumindo um
nível de significância de 0,10 e uma amostra com 10 elemen-
tos, a hipótese de que a proporção é igual a 30% seria aceita,
caso 25% desta amostra preferisse o carro?
2. Perguntamos a 50 fumantes e a 50 não fumantes se eles

acreditam que o fumo pode conduzir ao câncer do pulmão
e a outras doenças sérias. As respostas estão tabuladas da
seguinte maneira:
Acreditam Não acreditam
Fumantes 11 39
Não fumantes 28 22
Você diria que a opinião dos fumantes é a mesma dos não

fumantes? Qualifique sua resposta utilizando a metodolo-
gia de testes de hipóteses.
3. Em uma população, a proporção de intenção de voto em um

candidato é igual a 0,6. Foi conduzida uma pesquisa eleito-
ral com 100 eleitores, tendo sido observado uma proporção
amostral igual a 0,5. Determine, para um nível de significân-
cia igual a 0,01, se a proporção diminuiu.
4. Em um estudo com 500 mulheres, 151 responderam que fa-
zem regularmente a mamografia. Determine, usando a me-
todologia do teste de hipóteses, ao nível de significância de
5%, se a hipótese nula de que 28% das mulheres fazem o
exame seria rejeitada. z2,5%= –2,26, z97,5%= 2,26.
5. Em um estudo com homens de mais de 70 anos de idade,

obteve-se a seguinte tabela de contingência ataque cardíaco
x nível de colesterol.
Ataque cardíaco Nível de colesterol baixo médio alto
Não fatal 29 17 18
Fatal 19 20 9
a) Determine as frequências esperadas para cada célula da ta-

bela.
b) Sabendo-se que a estatística do χ2 = 10,53 e que o valor crí-
tico para um nível de significância de 5% é 5,99, a hipótese
nula de independência entre ataque cardíaco e nível de co-
lesterol será aceita ou rejeitada?
10.11 Respostas
1.
H 0 : p = 0,30
H1 : p < 0,30
A proporção amostral e o erro padrão são:
0, 25 × 0, 75
n = 10 pˆ = 0, 25 σ pˆ = = 0,14
10
O z-score é
0, 25 − 0,30
z − score = = −0,38
0,14
Para uma significância de 10% a região crítica é (ver tabela
da Normal padrão no Capítulo 7):
α = 0,1 ⇒ z10% = −1,3 ⇒ RC = (−∞, −1,3]
O que implica na manutenção de H0.
Pelo método do valor p, a chance de tirar um valor igual ou
menor a – 0,38 é da ordem de 34% (ver na mesma tabela), que é
um valor alto; portanto, não há motivo para rejeitar H0. Porém,
há um senão: os dados não preenchem as condições de aplica-
ção da aproximação normal: np = 10 x 0,25 = 2,5 < 10, e não foi
fornecido o tamanho da população. Portanto, o resultado deve
ser aceito com cautela.
2.
H0: A opinião é a mesma
H1: A opinião é diferente
Montando a tabela de contingência temos os valores obser-
vados:
Observado Acreditam Não acreditam Total
Fumantes 11 39 50
Não fumantes 28 22 50
Total 39 61 100
Calculando os valores esperados obtemos:

Esperado Acreditam Não Acreditam Total
Fumantes 19,5 30,5 50
Não fumantes 19,5 30,5 50
Total 39 61 100
Construindo a estatística do qui-quadrado obtemos:

(11 − 19,5) 2 (39 − 30,5) 2 (28 − 19,5) 2 (22 − 30,5) 2
χˆ =2
+ + + = 12,15
19,5 30,5 19,5 30,5
com (2 – 1) x (2 – 1) = 1 gl.
Pelo método do valor p, consultando a tabela do Qui-qua-
drado vista neste capítulo, constatamos que a ocorrência de um
valor igual a 12,15 ou maior é muito baixa, inferior a 0,5%, por-
tanto a estatística observada seria muito difícil de ocorrer se H0
fosse verdadeira. Neste caso, rejeitamos H0.
3.
H0: p = 0,6
H1: p < 0,6
0, 25
n = 100 pˆ = 0,5 σ pˆ = = 0, 05
100
O z-score da estatística 0,5 é:
0,5 − 0, 6
= −2 ,
0, 05
que corresponde ao quantil de 2,28% na tabela da normal pa-
drão.
Pela formulação tradicional do teste, a região crítica para
uma significância de 1% corresponde ao intervalo (–∞, –2,35),
portanto –2 não pertence à região crítica e a hipótese não será
rejeitada.
4.
pq
pˆ ≈ N ( p , )
n
N = 500; p = 0,28; q = 1 – p
O teste de hipóteses fica formulado da seguinte maneira:
Ho: p = 0,28
H1: p ≠ 0,28
α = 0,05
O desvio padrão amostral é:
(0, 28)(0, 72)
= 0, 020
500
O valor observado é:
151
pˆ = = 0,30
500
Padronizando:
0,30 − 0, 28
= 1, 09
0, 02
Ora, a região crítica (RC) é dada por (–∞ –2,26] ∪ [2,26 ∞);
como 1,09 não pertence à RC, então Ho não é rejeitada.
5.
a) Completando os totais na tabela, obtemos:
Nível de colesterol baixo médio alto
Ataque cardíaco
Não fatal 29 17 18 64
Fatal 19 20 9 48
48 37 27 112
E11= (64 X 48) / 112 = 27,42 E12 = (37 X 64) / 112 = 21,14
E13 = 15,42
E21 = 20,57 E22 = 15,85 E23 = 11,97
b) Como a estatística não pertence à Região Crítica, então a hi-

pótese não será rejeitada.
10.12 Conclusão
Testes de hipóteses são importantes ferramentas da inferência
estatística para a qualificação das estimativas encontradas com
respeito a um parâmetro cujo valor se conhecia previamente e
que pode ter sofrido alguma alteração.
10.13 Resumo
Elementos básicos de um teste de hipóteses
H0: hipótese nula
H1: hipótese alternativa
p̂ : estimativa
RC: região crítica
p̂ ∈ RC ⇒ rejeita H0
p̂ ∉ RC ⇒ aceita H0
Testes sobre a média
⎧ H 0 : μ = μ0 ⎫
⎪ ⎪
⎪ ⎧ μ < μ0 ⎫⎪
⎨ ⎪ ⎪⎬
⎪ H 1 : ⎨ μ > μ 0 ⎬⎪
⎪μ ≠ μ ⎪⎪
⎩⎪ ⎩ 0 ⎭⎭
Testes de aderência, homogeneidade e independência
⎧ H 0 : p1 = p10 , p2 = p20 ,..., ps = ps 0 ⎫

⎨ ⎬
H
⎩ 1 : alguma proporção se altera ⎭
Distribuição do Qui-quadrado (ν)
X : Ω → R+
ν
−1 x
2
x −
f ( x) = ν
e 2
⎛ν⎞
2 Γ⎜ ⎟
2
⎝ 2⎠
10.14 Coletânea de questões objetivas sobre toda a matéria

Indique a opção correta
1. A precipitação média de chuva em uma cidade é de 55. Qual
é o desvio padrão se, em 15% dos anos, a precipitação foi
maior do que 60? Suponha que a precipitação de chuva pode
ser aproximada por uma distribuição normal.
(a) 4,83
(b) 5,18
(c) 6,04
(d) 8,93
(e) não há informações suficientes para o cálculo.
2. Para determinar o custo médio de uma campanha eleito-
ral, foi feita uma amostragem com 50 parlamentares eleitos
e examinados seus relatórios de campanha. A média dos
custos foi de R$ 125.000,00, com um desvio padrão de R$
32.000,00. Qual das afirmativas seguintes é a melhor inter-
pretação do intervalo de confiança, ao nível de 90%, para a
média dos custos?
(a) 90% dos políticos que concorrem a um cargo gastam entre
R$ 117.500,00 e R$ 132.500,00.
(b) 90% dos políticos que concorrem a um cargo gastam em
média um valor entre R$ 117.500,00 e R$ 132.500,00.
(c) Temos 90% de confiança, que políticos que concorrem a um
cargo, gastam entre R$ 117.500,00 e 132.500,00.
(d) Temos 90% de confiança, que políticos que concorrem a um
cargo, gastam em média um valor entre R$ 117.500,00 e R$
132.500,00.
(e) Temos 90% de confiança, que na amostra dada, o custo mé-
dio com a campanha é um valor entre R$ 117.500,00 e R$
132.000,00.
3. Em um estudo sobre o efeito da ingestão de carne no nível

de peso, duas amostras foram obtidas: a) uma amostra alea-
tória simples com 500 indivíduos que admitem comer carne
pelo menos uma vez por dia, cujos pesos foram anotados;
b) uma amostra aleatória simples independente da anterior,
com 500 indivíduos que se declaram vegetarianos. Um se-
gundo estudo foi feito também com duas amostras com 500
indivíduos cada. Porém, neste caso, durante seis meses, ao
primeiro grupo foi servido uma refeição diária com carne,
enquanto o segundo grupo foi submetido a uma dieta vege-
tariana, tendo os pesos de ambos os grupos sido anotados
neste período.
(a) O primeiro estudo é um experimento controlado, enquanto
que o segundo é um estudo observacional.
(b) O primeiro estudo é observacional, enquanto que o segundo
é um experimento controlado.
(c) Ambos os estudos são experimentos controlados.
(d) Ambos os estudos são observacionais.
(e) Cada estudo é em parte experimental, em parte observacio-
nal.
4. Uma empresa prestadora de serviços compra 60% dos seus

computadores de um fornecedor, cuja confiabilidade dos
equipamentos é de 99,5 %, e os demais computadores de
outra firma, cuja confiabilidade dos equipamentos é de 99%.
Qual a probabilidade de um equipamento da empresa apre-
sentar defeito? Se um computador apresenta defeito, qual a
probabilidade de ele ser oriundo da primeira companhia?
(a) 0,0070; 0,429
(b) 0,0070; 0,600
(c) 0,0075; 0,500
(d) 0,0075; 0,600
(e) 0,0150; 0,571
5. Em um centro de diálise, os equipamentos são periodica-

mente checados por amostragem, e em caso de não confor-
midades, todos os equipamentos são recalibrados. Em uma
fábrica de toalhas é feito por amostragem uma checagem no
tamanho das mesmas, caso haja alguma não conformidade,
a produção é interrompida para regulagem das máquinas.
Em ambos os casos, aplicando-se a metodologia de testes
de hipóteses, temos como hipótese nula – os equipamentos
funcionam satisfatoriamente. Para cada um dos casos, qual
é a maior preocupação: erro do tipo I ou do tipo II ?
(a) Centro de diálise: tipo I. Fábrica de toalhas: tipo I.
(b) Centro de diálise: tipo I. Fábrica de toalhas: tipo II.
(c) Centro de diálise: tipo II. Fábrica de toalhas: tipo I.
(d) Centro de diálise: tipo II. Fábrica de toalhas: tipo II.
(e) Impossível de avaliar sem relativizar o valor da vida humana
e o custo das toalhas.
6. Na tabela seguinte, qual valor de n resulta em uma tabela de
contingência de dois atributos independentes?
40 60
50 n
(a) 30
(b) 50
(c) 70
(d) 75
(e) 100
7. Nos últimos anos, em uma determinada região, calculou-se

uma média anual de 8,7 ciclones, das quais uma média de
5,1 tornou-se furacões independentes entre si. Se em um
dado ano ocorrerem cinco ciclones, qual é a probabilidade
de que pelo menos três se tornem furacões?
(a) 0,313
(b) 0,345
(c) 0,586
(d) 0,658
(e) 0,686
8. Qual o tamanho de uma amostra para determinar a propor-

ção de determinado atributo em uma população, ao nível de
95%, com erro de ± 3%?
(a) 6
(b) 33
(c) 534
(d) 752
(e) 1068
10.15 Respostas das questões objetivas sobre toda a
matéria
1. (a)
z85%= 1,036. Então, 60 – 55 = 1,036 σ ⇒ σ = 4,83
2. (d)
Temos 90% de confiança de que políticos que concorrem a
um cargo gastam em média um valor entre R$ 117.500,00 e R$
132.500,00.
3. (b)
O primeiro estudo é observacional porque não há controle so-
bre os indivíduos.
4. (a)
Def: defeituoso
F1: fornecedor 1
F2: fornecedor 2
P(Def) = P(F1∩Def) + P(F2∩Def)
=(0,60)x(0,005) + (0,40)x(0,010)
=0,0030 + 0,0040 = 0,0070
P(F1|Def)=0,003/0,007=0,429
5. (c)
Para o Centro de diálise o erro mais grave seria do tipo II, pois os
pacientes estariam sendo tratados com máquinas defeituosas,
colocando em risco suas vidas.
Já para a indústria, seria o do tipo I, pois a produção seria in-
terrompida (observe que, mesmo com erro no tamanho, ainda
assim os produtos poderiam ser vendidos em uma categoria de
menor qualidade).
6. (d)
As frequências relativas precisam ser iguais.
n 60
= ⇒ n = 75
50 40
7. (d)
A transformação em furacões pode ser modelada por uma bi-
nomial com parâmetro
5,1
p= = 0,586
8, 7
A probabilidade de três dentre cinco ciclones tornarem-se fu-
racões é dada por:
⎛5⎞ ⎛5⎞
⎜ ⎟ (0,586) 3
(0, 414) 2
+ ⎜ ⎟ (0,586) (0, 414) = 0, 658
4
⎝ 3⎠ ⎝ 4⎠
8. (e)
Assumindo uma estimativa conservadora, vamos assumir 0,5
como cota superior para o desvio padrão da população.
0,5
1,96 ≤ 0, 03 ⇒ n ≥ 32, 67 ⇒ n ≥ 1.067,1 ⇒ n = 1.068
n
Referências
GAUCH, Hugh G. Scientific Method in Practice. University Press,

2003.
ROSS, Sheldon M. Introduction to Probability and Statistics for
Engineers and Scientists. 2. ed. Academic Press, 2000.
STERNSTEIN, Martin. Barron’s AP Statistics. Barron’s, 2007.
Leituras Recomendadas
BUSSAB, Wilton; MORETTIN, Pedro. Estatística básica. 5 ed. Sa-
raiva, 2002.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. Pearson
Prentice Hall, 2007.
LEVINE, David et al. Estatística: teoria e aplicações. LTC, 2000.
PINHEIRO, ISMAEL et al. Estatística básica. Elsevier, 2009.
Referências 229

Compreendendo Probabilidade e Estatística - Braga

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Compreendendo Probabilidade e Estatística - Braga

Enviado por

Direitos autorais:

Formatos disponíveis

Este exemplar está registrado para uso exclusivo de EZEQUIEL JUNIO DE LIMA - 24343805

Luis Paulo Vieira Braga

Rio de Janeiro, 2010

Projeto gráﬁco, diagramação e capa

Esta publicação encontra-se à venda no site da

CIP-Brasil. Catalogação na Fonte

10-5758. CDD: 519.5

31 Capítulo 2. População, censo e amostras

55 Capítulo 3. Estatísticas de tendência central

77 Capítulo 4. Estatísticas de ordem e números índice

97 Capítulo 5. Estatísticas de dispersão e de associação

119 Capítulo 6. O conceito de probabilidade

141 Capítulo 7. Variáveis aleatórias

167 Capítulo 8. Estimadores

185 Capítulo 9. Teorema central do limite

205 Capítulo 10. Testes de hipóteses

Este livro é resultado da minha experiência no ensino presen-

Deﬁnição 1.1. De um ponto de vista estritamente técni-

Até a descoberta de Heisenberg, acreditava-se que ideal-

Matematicamente, vamos usar o conceito de variável para

1.4 Tipos de variáveis

1.5 Tipos de escalas

Deﬁnição 1.3. Escala é a relação entre um atributo de um

1.6 Codificações numéricas e simbólicas

Exemplo 1.1 Codificação Numérica

Exemplo 1.2 Codificação Simbólica

1. No intervalo, 0 está incluído, mas não 5. O objetivo é poder concatenar os

1.9 Dados e Informação

A primeira coluna dá o número de ordem do registro, e as

Reduzir a estatística ao tratamento da informação é um

1.10 Frequências absolutas

A tabela pode ser visualizada em um gráﬁco de colunas ou

Figura 2 – Gráﬁco de pizza

Exemplo 1.4 Gráfico de Pareto

O gráﬁco destaca qual problema deve ser resolvido em primei-

Cabe aqui a observação que o tratamento estatístico de da-

Note que a soma não dá 100%, isto é devido ao erro de ar-

1.13 Tabelas e hipertabelas de contingência

Figura 5 – Visão 3D de uma tabela de contingência

A partir da tabela de contingência podem-se obter as tabe-

E aquela relativa ao tipo de acidente é dada por:

Os resultados apontam para uma maior incidência de infra-

Freq. Relativa de infrações

As duas novas tabelas mostram que a frequência predomi-

a) Construa as tabelas de contingência para as variáveis Renda

8. Considere os seguintes dados:

a) Tomando como base a Tabela 2, escolha um número de ca-

9. A partir da tabela dada, faça o gráﬁco do histograma das fai-

10. Os dados abaixo se referem às observações conjuntas das variá-

a) Qual a proporção de carros que apresentam defeito sobre o

b) Instrução. Pois no caso da renda, as proporções de favorá-

c) Usando a planilha Calc do OpenOfﬁce

Obtendo-se a tabela ideal para o caso de total independên-

Deﬁnição 1.5. Modelo é uma representação da realidade,

O objetivo de um modelo é descrever as relações de entrada

1.20 Exercícios adicionais

Resolução: Acrescentando uma linha com os totais para cada

O gráﬁco de colunas ﬁca, então:

2. Em uma determinada região, para cada ano 2% da popu-

Resolução: Sabendo-se que, ao ﬁnal de 1990, havia 5.000 crian-

3. As tabelas de contingência também podem ser representa-

Resolução: Para cada nível da variável índice de massa corporal

O que nos leva ao gráﬁco abaixo:

Quando uma das variáveis categóricas é ordinal, este gráﬁco