Apostila de Estatistica

PROBABILIDADE E ESTATÍSTICA
(PROFMAT)
Prof. Nei Rocha

Instituto de Matemática - UFRJ
Rio de Janeiro
2018-2
Sumário
1 A Natureza e os Conceitos Fundamentais da Estatística 1

1.1 A Natureza da Estatística . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Conceitos Fundamentais da Estatística . . . . . . . . . . . . . . . . . 7
2 Análise Exploratória de Dados 16

2.1 Representações Grá…cas de Dados . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Tabelas e Distribuição de Frequências . . . . . . . . . . . . . . 16
2.1.2 Representação Grá…ca de Dados . . . . . . . . . . . . . . . . . 20
2.2 Medidas-Resumo de Dados . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Medidas de Variabilidade . . . . . . . . . . . . . . . . . . . . . 45
2.2.3 Medidas de Assimetria, Curtose e Correlação . . . . . . . . . . 56
3 Probabilidade 72
3.1 De…nições e Resultados Básicos da Teoria das Probabilidades . . . . . 72
3.1.1 De…nição e Propriedades das Probabilidades . . . . . . . . . . 75
3.1.2 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . 84
3.1.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.2 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3 Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.4 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.5 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . 95
3.6 Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . . . . . . . 96
3.7 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . 99
4 Esperança Matemática 105

4.1 De…nição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2 Esperanças de Funções de Variáveis Aleatórias . . . . . . . . . . . . . 108
4.3 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.4 Função Geratriz de Momentos . . . . . . . . . . . . . . . . . . . . . . 111
5 Vetores Aleatórios Bidimensionais 120

5.1 Distribuições Conjuntas e Marginais . . . . . . . . . . . . . . . . . . . 120
5.2 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . 121
5.3 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . 123
1
5.4 Distribuições Condicionais e Esperança Condicional . . . . . . . . . . 124
5.5 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.6 Coe…ciente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . 128
6 Modelos de Variáveis Aleatórias Discretas 134

6.1 O Ensaio de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2 A Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3 A Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 138
6.4 A Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . 140
6.5 A Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 142
6.6 A Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 144
7 Modelos de Variáveis Aleatórias Contínuas 154

7.1 A Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.2 A Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . 154
7.3 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 156
7.3.1 A Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . 156
2
7.3.2 A Distribuição Normal com média e variância . . . . . . 158
8 Teorema Central do Limite 170

9 Estimação 181
9.1 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . 183
9.2 Estimadores de Momentos . . . . . . . . . . . . . . . . . . . . . . . . 185
9.3 Estimadores de Máxima Verossimilhança . . . . . . . . . . . . . . . . 186
9.4 Estimação Intervalar de Parâmetros . . . . . . . . . . . . . . . . . . . 187
9.4.1 Intervalo de Con…ança para a média populacional ( ) quando
a variância populacional ( 2 ) é conhecida . . . . . . . . . . . . 187
9.4.2 Intervalo de Con…ança para a média populacional ( ) quando
a variância populacional ( 2 ) é desconhecida . . . . . . . . . . 189
9.4.3 Intervalo de Con…ança para a proporção populacional (p) . . . 191
9.4.4 Intervalo de con…ança para variância populacional ( 2 ) . . . . 193
10 Testes de Hipóteses 199

10.1 Teste de Independência para Tabelas de Contingência . . . . . . . . . 206
10.2 Testes de Signi…cância do Coe…ciente de Correlação r de Pearson . . 210
10.3 Teste de Hipóteses para Diferença de Médias para Dados Pareados . . 214
10.4 Teste de Hipóteses para a Diferença entre duas Médias (amostras
grandes e independentes) . . . . . . . . . . . . . . . . . . . . . . . . . 217
10.5 Teste de Hipóteses para a Diferença entre duas Médias (amostras
pequenas e independentes) . . . . . . . . . . . . . . . . . . . . . . . . 219
10.5.1 Testando se as duas variâncias dos dois grupos são iguais . . . 219
10.5.2 Testando a Diferença entre duas Médias (com as duas variân-
cias dos dois grupos iguais) . . . . . . . . . . . . . . . . . . . 221
2
10.5.3 Testando a Diferença entre duas Médias (com as duas variân-
cias dos dois grupos diferentes) . . . . . . . . . . . . . . . . . 224
10.6 Teste de Hipóteses para a Diferença entre duas Proporções . . . . . . 226
i
Capítulo 1
A Natureza e os Conceitos
Fundamentais da Estatística
1.1 A Natureza da Estatística
Vivemos num mundo imerso em incertezas. A todo tempo somos bombardeados
por informações sobre pesquisas cientí…cas comprovando (estatisticamente) que tal
substância induz uma certa patologia, ou sobre pesquisas eleitorais, índices de rou-
bos, e outros conteúdos de forte caracterização probabilística. Num mundo assim,
é de fundamental importância possuir um espírito crítico para informações sujeitas
à incerteza a …m de poder dar inteligibilidade a elas e até mesmo poder distinguir
informações falsas de verdadeiras. Nessa medida, a Estatística é uma disciplina
crucial para todos os estudantes, e talvez aquela que mais atua na formação crítica
do cidadão, pois ela abarca diferentes áreas do conhecimento, tais como: Medic-
ina, Economia, Política, Psicologia, Tecnologia, Indústria (Controle de Qualidade),
Demogra…a (Censo), entre outras.
A raiz etimológica da palavra Estatística vem da palavra latina “status” que
signi…ca “estado” e signi…cava a contagem e gestão de dados do estado. Ao longo
da história da Estatística, essa vinculação ao estado foi se enfraquecendo e hoje
a estatística tem um caráter abrangente o bastante para lidar com sistemas do
conhecimento bem dissociados da noção de Estado.
1
No entanto, cabe ressaltar que hoje temos dois signi…cados para Estatística, a
saber: "Estatística"como Ciência e "estatística"como uma operação de dados co-
letados em pesquisas. Por exemplo, uma média aritmética (que iremos mais tarde
estudar) é uma estatística também. O contexto nos auxiliará a distinguir o signi…-
cado veiculado pelo termo estatística.
Mas como ciência, o que é a Estatística, a…nal?
Estatística é a arte e a ciência de coletar, analisar, apresentar,

e interpretar dados, para que se tomem decisões sob incerteza.
Você deve estar surpreso com o uso da palavra "arte"na de…nição acima, não?
Mas a verdade é que sem julgamento, experiência e até mesmo uma forte intuição
é impossível analisar estatisticamente o comportamento de fenômenos incertos ou
aleatórios.
E o que entendemos por "fenômenos incertos"?
Fenômenos aleatórios (ou incertos) são aqueles cujos resultados

de interesse não podem ser aferidos com 100% de certeza.
Assim, onde há incerteza (e por conseguinte, variabilidade de resultados, mesmo
sob mesmas condições iniciais) aí deverá estar a Estatística para nos auxiliar a dar
ordem simbólica ao fenômeno.
Em geral o professor de Matemática conhece bem a natureza do raciocínio
matemático, mas quase sempre não foi instruído na sua formação acadêmica do
raciocínio estatístico. Qual a especi…cidade desses dois raciocínios e o que os difer-
encia?
O pensamento matemático baseia-se num raciocínio lógico em que as proposi-
ções são verdadeiras ou falsas. Além disso, preocupa-se com a descrição unívoca de
fenômenos da natureza a partir de modelos determinísticos.
2
A Estatística, por sua vez, lida com proposições que não podemos dizer se são
verdadeiras e tampouco falsas, situando-se numa situação de incerteza, que pode ser
quanti…cada através da probabilidade. É a ciência da variabilidade por excelência
e procura, através de dados experimentais aleatórios, extrair organização do caos e
tomar decisões sob incerteza.
Os pensamentos matemático e estatístico são construídos, respectivamente, por
sentenças matemáticas e sentenças estatísticas. Sentenças matemáticas são aque-
las que nos permitem garantir com 100% de certeza se a mesma é verdadeira ou falsa.
Exemplos de sentenças matemáticas: “Todos os números primos são ímpares”(sen-
tença falsa, pois 2 é primo e par); “Todos os números primos maiores que 2 são
ímpares” (sentença verdadeira). Sentenças estatísticas são aquelas cuja veraci-
dade (ou falsidade) não possa ser garantida com 100% de certeza, mas apenas nos
permitem matematizar a probabilidade de erro da a…rmação. Por exemplo, a sen-
tença “uma moeda que, ao ser lançada 10 vezes, produz 8 caras não é honesta”
é uma sentença estatística, pois podemos apenas medir em que nível de con…abil-
idade tal a…rmativa pode ser considerada como verdadeira. Obviamente teremos
maior con…abilidade na a…rmação de uma sentença do tipo “uma moeda que, ao ser
lançada 50 vezes, produz 48 caras não é honesta”, pois há mais evidências contra a
honestidade da moeda no segundo caso do que no primeiro.
Como você deve ter percebido, em toda a…rmação estatística há um nível de
con…abilidade e uma probabilidade de erro ao a…rmarmos algo. Vejamos com um
exemplo esquemático como funciona uma tomada de decisão sob incerteza na Es-
tatística:
Suponha que dois medicamentos (A e B) serão testados quanto ao tempo de
cura para dor de cabeça. Para isso, selecionam-se n pessoas para o medicamento
3
A e n pessoas para o medicamento B. Suponha que a média do tempo de cura do
medicamento A tenha sido 2 minutos e do B de 4 minutos. Podemos dizer que as duas
médias são diferentes e que, portanto, o medicamento A é mais e…ciente do que o B?
Se estivermos imbuídos do raciocínio matemático, a duas respostas seriam “sim”,
pois 2 < 4. Entretanto, imbuídos do raciocínio estatístico, a resposta dependerá da
estrutura aleatória dos dados coletados. Vejamos dois cenários possíveis:
Cenário I: Os dados coletados nos dois grupos quando colocados em seus lugares
geométricos se comportam como a …gura 1 abaixo:
Figura 1
Neste cenário os dados coletados dos dois grupos são tão esparsos que se so-
brepõem um ao outro, e um teste estatístico adequado não validaria com alta prob-
abilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento
B, por ter gerado uma menor média.
Cenário II: Os dados coletados nos dois grupos quando colocados em seus
lugares geométricos se comportam como a …gura 2 abaixo:
4
Figura 2
Neste novo cenário os dados coletados dos dois grupos são tão coesos que se
distinguem um ao outro, e um teste estatístico adequado validaria com alta proba-
bilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento B,
por ter gerado uma menor média.
Vemos com esses dois exemplos que uma tomada de decisão estatística deve
basear-se não apenas em valores pontuais de medida, mas também em estudos de
variabilidade dos dados para uma plena matematização das incertezas associadas às
a…rmações tecidas.
Vamos agora entender como se dão as fases de um trabalho estatístico. Para
isso, vejamos um caso concreto na pesquisa cientí…ca:
Um pesquisador deseja estudar o efeito de histórias infantis na prontidão para
a alfabetização de crianças, através de um teste de prontidão de leitura chamado
ABC. Para isso, ele seleciona sete crianças aleatoriamente para responderem ao
teste ABC sem o treinamento (pré-teste). Em seguida elas são estimuladas usando-
se a leitura e o comentário de histórias. Após o treinamento, as crianças respondem
novamente ao teste ABC (pós-teste). Ele deseja saber se o treinamento de fato induz
a prontidão na alfabetização.
Observe que esse estudo demanda a ferramenta Estatística, já que cada amostra
5
de sete alunos retirada trará resultados variáveis e desejamos concluir algo sob in-
certeza. Com esse objetivo, como conduzir as fases da Estatística?
Fase 1 (Coleta dos Dados): o pesquisador selecionará as sete crianças, que
participarão do estudo e mensurará os testes antes e depois do treinamento.
Fase 2 (Exploração dos Dados): o pesquisador fará uma análise exploratória
dos dados coletados para comparar os valores obtidos antes e depois do teste, a …m
de poder concluir, com um certo nível de con…abilidade, se houve uma melhora na
alfabetização. Para isso, selecionará os métodos estatísticos adequados para testar
a hipótese de que o treinamento de fato induziu ou não à prontidão na leitura. Ele
deverá portanto analisar dados, conforme tabela e grá…cos abaixo, criados após a
coleta dos dados.
Escores no Teste ABC do Grupo Experimental

Indivíduos Pré-Teste Pós-Teste
1 6 20
2 9 11
3 13 12
4 10 14
5 8 10
6 4 7
7 6 6
Bar/Column Plot (testeABC.STA 10v*7c)

24
20
16
12
PRE_TEST
0
Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 POS_TEST
Pré-Teste x Pós-Teste
6
Fase 3 (Inferência dos Dados): a partir da análise exploratória, o pesquisador
matematizará as incertezas e a natureza dos dados, e tecerá hipóteses relevantes que
serão testadas à luz de algum teste estatístico apropriado para o caso em estudo.
Fase 4 (Interpretar os Dados e Apresentar os Dados): o pesquisador fará
interpretações claras e compreensíveis até para não-estatísticos, quanti…cando o nível
de incerteza de suas a…rmações e propondo medidas gerenciais, quando necessárias,
à luz de suas conclusões, de maneira a apresentar seus resultados adequadamente
em conferências, mídias ou periódicos cientí…cos.
Claro que o exemplo acima é posto apenas para que possamos entender emblem-
aticamente como se constrói um raciocínio estatístico para o tratamento de dados.
1.2 Conceitos Fundamentais da Estatística
Em todas as áreas da ciência, conceitos são fundamentais para a contrução de uma
teoria. É o que se costuma chamar na …loso…a da linguagem uma taxonomia. Na
Estatística, isso não é diferente. Como a Estatística é um ramo da Matemática, ela
traz as marcas da concisão matemática e estabelece de forma unívoca os seus objetos
e seus conceitos. Nesta seção, discutiremos os conceitos-chave do nosso curso, para
que possamos caminhar de forma concisa na construção teórica da Estatística.
Antes, porém, gostaríamos de retomar a ideia mais emblemática da funcionali-
dade da Estatística nas ciências em geral:
A concepção mais emblemática da Estatística é aquela em que temos uma pop-
ulação de interesse em estudo e, por algum motivo, não podemos acessá-la integral-
mente para medir uma certa propriedade da mesma. O que fazer então? A ideia
central da Estatística é obter de maneira conscienciosa uma amostra que traga po-
tencialmente a informação da população e, através dela, inferir os resultados para
7
a população. Como a amostra é apenas uma parte da população, haverá portanto
variabilidade nos resultados amostrais (cada amostra retirada gerará resultados di-
versos), e, portanto, tais resultados serão aleatórios e devem ser modelados proba-
bilisticamente. Na presença, portanto, de variabilidade de resultados, temos então
legitimado aí o uso da Estatística, pois devemos tomar nossas decisões e a…rmar
determinadas coisas sob incerteza. Observe que se pudéssemos acessar toda a pop-
ulação, a mensuração da propriedade em estudo deixaria de ser variável e incerta,
pois acederíamos ao valor exato, e assim não haveria necessidade, no sentido estrito,
do uso da Estatística... É claro que este exemplo supõe uma população …nita. Se
a população fosse in…nita, então por mais razão a Estatística seria a ferramenta
teórica por excelência para o tratamento do problema! Mas estamos nos adiantando
e precisamos de…nir ainda o que se entende por população, amostra, parâmetro e
estatística (ou estimador) dentro das chamadas Estatística Descritiva e Estatística
Inferencial.
População é a coleção de todos os elementos (pessoas, objetos, ou dados)

de interesse num particular estudo.
Amostra é um suconjunto da população da qual a informação é coletada.
Parâmetro é a descrição numérica de uma característica da população.
Estatística (ou Estimador) é a descrição numérica de uma característica

da amostra.
Estatística Descritiva é parte da Estatística que se ocupa em

resumir (sintetizar) e organizar a informação de um conjunto de dados.
Estatística Inferencial é parte da Estatística que se ocupa em estimar

e tirar conclusões sobre características de uma população à luz da amostra.
Assim, suponha que estejamos interessados em estudar a renda bruta média
mensal de todos os brasileiros assalariados no ano de 2011.
8
Qual é a nossa população nesse estudo? Todos os brasileiros com carteira
assinada em 2011.
Qual seria uma possível amostra? Por exemplo, os brasileiros assalariados de
2011 do estado do Rio de Janeiro.
Qual é o nosso parâmetro de interesse? A média de todos os salários brutos
mensais de todos os brasileiros assalariados de 2011.
Qual é a nossa estatística? A média de todos os salários brutos mensais de todos
os brasileiros assalariados do estado do Rio de Janeiro de 2011.
A essa altura você já deve ter intuído que uma das ideias da Estatística é usar a
estatística (ou estimador) para a…rmar com um certo nível de con…abilidade qual o
valor do parâmetro em estudo.
Como dissemos anteriormente, para que a informação fornecida pela amostra
seja valiosa para a estimação de parâmetros, é necessário que amostra tenha sido
coletada de maneira conscienciosa da população. Embora haja toda uma teoria para
uma tecnologia de obtenção da amostra, gostaríamos apenas de caracterizar alguns
tipos aqui, pois o tratamento dessa teoria está fora dos objetivos desse curso:
Amostra aleatória: Cada membro da população tem a mesma chance de ser
selecionado.
Amostra aleatória simples: Todas as amostras de mesmo tamanho são
igualmente prováveis.
Amostra aleatória estrati…cada: A população é dividida em grupos (es-
tratos) e uma amostra aleatória é selecionada de cada grupo. Os estratos
podem ser faixas etárias, gêneros ou graus de escolaridade, por exemplo.
9
Amostra aleatória por conglomerados: A população é dividida em grupos
distintos (como se fossem subpopulações), chamados conglomerados. Usamos
a amostra aleatória simples para escolher uma amostra de conglomerados e
em seguida todos os indivíduos dos conglomerados escolhidos são analisados.
Amostra sistemática: A partir de uma população caracterizada numa listagem,
selecionamos aleatoriamente um elemento inicial, e em seguida, escolhemos
os membros da amostra a intervalos regulares. Por exemplo, se desejamos
selecionar um membro da população a cada 20 elementos da lista, então se-
lecionamos aleatoriamente um número de 1 a 20, digamos 7, e tomamos os
membros 27, 47, 67, e assim sucessivamente da lista.
Mas nossa taxonomia ainda não chegou ao …m... Temos ainda alguns conceitos
a discutir.
Um elemento é cada uma das unidades observadas no estudo.
Uma variável é uma característica de um elemento que se possa medir.
Uma observação é um conjunto de valores de variáveis de um dado elemento.
Por exemplo, se desejamos testar a in‡uência de um determinado medicamento
na pressão arterial de idosos acima de 65 anos, a partir da mensuração da pressão
arterial antes e depois da medicação, então, temos que cada idoso no estudo é
um elemento (ou unidade experimental); a pressão arterial é a nossa variável de
mensuração; e as medidas da pressão arterial antes e depois da medicação de cada
idoso compõem uma observação do estudo.
Finalmente, para fechar agora os nossos conceitos fundamentais da Estatística,
precisamos classi…car os tipos de variáveis presentes num determinado estudo. Por
10
que isso é tão importante? Porque é pela natureza dos dados, ou, como dizemos
em Estatística, pelo nível de mensuração dos dados, que saberemos quais métodos
estatísticos serão apropriados em cada caso. Assim, a natureza de nossos dados já
nos direciona para o tipo de tratamento estatístico de que faremos uso.
Uma variável qualitativa é uma variável que não assume valor numérico,
mas é classi…cada em categorias (qualidades).
Uma variável quantitativa é uma variável que assume valores numéricos.
Variáveis qualitativas são também chamadas de variáveis categóricas, pois podem
ser agrupadas em categorias. Alguns exemplos são: sexo, etnia, estado civil, etc.
Já exemplos de variáveis quantitativas temos: altura, peso, idade, número de …lhos,
etc.
As variáveis qualitativas podem ser classi…cadas como nominais ou ordinais.
Uma variável é dita nominal se assume categorias não-ordenadas, sem

característico numérico intrínseco. Por exemplo: sexo e etnia.
Uma variável é dita ordinal se assume categorias ordenadas, sem característico

numérico intrínseco. Por exemplo: classe social e grau de instrução.
Além disso, as variáveis quantitativas podem ser classi…cadas como discretas
ou contínuas.
Uma variável discreta pode assumir um número …nito ou contável de valores.

Cada valor pode ser grafado como um ponto na reta, com espaço entre os pontos.
Uma variável contínua assume um número in…nito de valores, formando

um intervalo da reta real, sem espaço entre os pontos.
11
Exemplos de variáveis quantitativas discretas são: número de habitantes por
domicílio, número de anos cursados com aprovação em séries escolares, etc. Já para
as quantitativas contínuas podemos citar: altura, peso, tempo de vida útil de um
componente eletrônico.
Assim temos o seguinte esquema resumido:

8
>
> Nominal
>
> Qualitativa
< Ordinal
Variável
>
>
>
> Discreta
: Quantitativa
Contínua
Associados aos tipos de variáveis, temos também os níveis de mensuração.
Níveis de Mensuração: Um conjunto de dados pode ser classi…cado de acordo

com o nível de medida mais alto que ele aplica. As quatro escalas de medida, da
mais baixa para a mais alta, são:
1. Escala Nominal: formada por categorias que descrevem atributos ou qual-
idades dos dados (variáveis qualitativas). Não há nenhuma ordem natural nessas
categorias e tampouco característicos numéricos intrínsecos. Exemplos: sexo, estado
civil, cor dos olhos, etnia, etc.
2. Escala Ordinal: formada por categorias que descrevem atributos ou quali-
dades dos dados (variáveis qualitativas), mas que podem ser ordenadas, embora não
tenham característicos numéricos intrínsecos. Exemplos: grau de hipertensão (leve,
moderada e grave), escolaridade (sem instrução, ensino fundamental, ensino médio,
ensino superior, pós-graduação), etc.
3. Escala Intervalar: é similar à escala ordinal, exceto pelo fato de as men-
surações serem numéricas e distâncias entre dois dados podem ser medidas. Entre-
tanto, o zero (0) não é natural, isto é, não indica a ausência do atributo mensurado.
12
Exemplo: temperatura em graus Celsius (0 C não indica a ausência de temper-
atura).
4. Escala Racional (ou das Razões): é a escala mais rica de mensuração, com
característicos numéricos intrínsecos e zero natural (indicando a ausência do atributo
medido). Exemplo: todas as mensurações físicas (peso, altura, massa corporal).
De posse desses conceitos fundamentais, podemos na próxima aula começar …nal-
mente a operar matematicamente nossos dados. Antes, porém, gostaríamos de pro-
por as seguintes atividades de sedimentação do conteúdo tratado em nossa primeira
aula.
Exercício 1 Qual o objetivo da Estatística?
Exercício 2 Como se estrutura a Estatística?
Exercício 3 Dê um exemplo de fenômeno aleatório e um exemplo de fenômeno
não-aleatório (determinístico).
Exercício 4 Suponha que você tivesse que validar a informação de que a geladeira
da fábrica A consome menos energia ao mês que a geladeira da fábrica B. Como
você intuitivamente estruturaria as fases do método estatístico para validar (ou não)
essa a…rmação?
Exercício 5 Retire de mídias (jornal, revista, internet, etc) uma matéria que você
utilizaria em sala de aula para ilustrar a presença da Estatística no dia a dia aos
seus alunos.
Exercício 6 Estabeleça se as seguintes situações ilustram o uso da Estatística De-
scritiva ou Estatística Inferencial, justi…cando as respostas.
13
(a) Em São Paulo, a média de gasto semanal de consumo de gasolina numa
amostra de 700 proprietários de carros foi de R$ 150; 00. O governo infere a média
semanal de gasto em gasolina no estado de São Paulo é R$ 150; 00.
(b) Uma amostra de 150 residentes de Copacabana mostra que 27 destes são
funcionários públicos. Assim 18% desses 150 residentes trabalham para o governo.
(c) A média de idade de uma amostra de 250 habitantes de Santa Cruz foi de 34
anos.
(d) Numa pesquisa feita com 1000 habitantes de Campos (Rio de Janeiro), 456
disseram que já fazem suas compras com sacola ecológica pessoal. A prefeitura con-
clui que 45; 6% dos habitantes de Campo já aderiram à bolsa ecológica.
Exercício 7 Deseja-se conhecer o comportamento de idosos do bairro do Flamengo,
com idade acima de 65 anos. Para isso, você como pesquisador decide selecionar
200 idosos moradores do Flamengo e, através de mensurações, obter as seguintes
informações por idoso:
(1) Ativo (A) ou Sedentário (S).
(2) Idade (em anos).
(3) Peso (em kg).
(4) Altura (em cm).
(5) Índice de Massa Corporal (IMC), que é a razão entre peso e altura em metros
elevada ao quadrado.
(6) Classe segundo o IMC (Normal (N) ou Sobrepeso (P))
(7) Circunferência da cintura (em cm).
(8) Circunferência do quadril (em cm).
(9) Relação Cintura/Quadril (RCQ) (adimensional).
(10) Classe segundo a RCQ, sendo PR (pequeno risco), MR (médio risco) e GR
14
(grande risco).
Com base no estudo acima, pede-se:
(a) Identi…car a população em estudo.
(b) Identi…car a amostra em estudo.
(c) Identi…car os possíveis parâmetros de interesse no estudo.
(d) Identi…car as estatísticas associadas aos parâmetros de interesse no estudo.
(e) Identi…car os elementos do estudo.
(f) Identi…car as variáveis do estudo.
(g) Identi…car as observações do estudo.
(h) Classi…car as variáveis do estudo como qualitativas ou quantitativas.
(i) Classi…car as variáveis qualitativas do estudo como nominais ou ordinais.
(j) Classi…car as variáveis quantitativas do estudo como discretas ou contínuas.
(k) Avaliar o nível de mensuração de cada variável do estudo.
15
Capítulo 2
Análise Exploratória de Dados
2.1 Representações Grá…cas de Dados
A Análise Exploratória de Dados, como o próprio termo indica, é uma fase artesanal
de extração de informação de um conjunto quase sempre desordenado e caótico de
dados coletados de um certo estudo. Assim, é preciso muitas vezes intuição sobre
como trabalhar convenientemente esses dados a …m de que informações valiosas
possam vir à tona.
A primeira tentativa de resumir os dados é feita através de grá…cos convenien-
temente escolhidos para dar voz à informação. (Aqui cabe ressaltar que, da mesma
forma que todo discurso tem uma intenção do falante por trás do que emite, tam-
bém o grá…co terá uma intencionalidade que deve ser observada a priori.) A fase
seguinte consiste em se obter medidas-resumo que possam nos auxiliar a caracterizar
a distribuição dos dados e nos preparar para um possível modelo de probabilidade
que se ajuste a esses dados.
2.1.1 Tabelas e Distribuição de Frequências
Como dissemos na aula anterior, dependendo da natureza da variável (qualitativa,
quantitativa, nominal, ordinal, discreta ou contínua) teremos um direcionamento do
que podemos fazer como síntese de informação.
16
Tabela de Frequência para Variáveis Qualitativas
Como a variável em estudo é qualitativa, só podemos contar quantas observações
no estudo têm o atributo em questão. É o que comumente chamamos de infor-
mação no domínio da frequência, pois não há um característico numérico intrínseco
à mensuração.
Exemplo 1 (Publicado no O Globo, 29/04/2011) Pesquisadores do Instituto
de Segurança Pública (ISP) …zeram em 2009 e 2010 uma pesquisa sobre vítimas de
estupro, tendo obtido os seguintes resultados. Em 2009, de 4120 vítimas registradas,
3002 eram do sexo feminino e 1118 eram do sexo masculino ou não identi…cado (o
gênero não consta no registro); já em 2010, de 4589 vítimas registradas, 3751 eram
do sexo feminino e 838 eram do sexo masculino ou não identi…cado.
Um resumo da informação via tabela de frequência poderia ser da forma:
Categoria 2009 2010

Mulheres 3:002 3:751
Homens ou sem identi…cação 1:118 838
Vemos que não há muito mais a oferecer como síntese. Poderíamos apenas
acrescentar mais informação, ou então usar a frequência relativa (%), como nos
exemplos abaixo:
Categoria 2009 2010

Mulheres 3:002 3:751
Homens ou sem identi…cação 1:118 838
Total 4:120 4:589
Categoria 2009 2010

Mulheres 72; 9% 81; 2%
Homens ou sem identi…cação 27; 1% 18; 2%
Total 100% 100%
A vantagem da última tabela é que podemos já ter uma ideia de aumento ou
redução no índice de estupros de 2009 a 2010.
17
Tabela de Frequência para Variáveis Quantitativas Discretas
Quando a variável é quantitativa discreta, devemos resumir a informação através
de uma tabela que represente a frequência com que cada valor observado aparece no
estudo. Assim, seja o seguinte exemplo:
Exemplo 2 Numa pesquisa realizada em 20 domicílios de classe A do Rio de Janeiro,
com o objetivo de contabilizar o número de …lhos por família, um pesquisador obteve
os seguintes dados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4 ,2, 1, 3, 1, 2, 1, 1, 1.
A variável do estudo é quantitativa discreta (número de …lhos por família). As-
sim, poderíamos sintetizar a informação dos dados através da seguinte tabela, con-
tendo tanto a frequência absoluta, quanto a frequência relativa (em percentual). É
importante ter a frequência relativa pois ela é uma espécie de probabilidade empírica
e isso nos ajudará a conceber mais tarde um modelo de probabilidade para a variável
em estudo.
No. de Filhos Frequência Frequência Relativa (%)
5
0 5 20
= 0; 25 = 25%
10
1 10 20
= 0; 50 = 50%
3
2 3 20
= 0; 15 = 15%
1
3 1 20
= 0; 05 = 5%
1
4 1 20
= 0; 05 = 5%
20
Total 20 20
= 1; 00 = 100%
Tabela de Frequência para Variáveis Quantitativas Contínuas
Quando a variável é quantitativa contínua (seus resultados se situam num inter-
valo da reta real), então devemos resumir a informação através de uma tabela que
represente a frequência com que cada valor observado aparece dentro de um dado
intervalo, chamado de classe. Vejamos como construir uma tabela de frequência a
partir de um exemplo:
18
Exemplo 3 Um pesquisador, contratado pela empresa de Telefonia Celular A, de-
seja estudar o tempo (em minutos gastos) por mês pelos seus assinantes. Para isso,
ele seleciona uma amostra aleatória de 30 clientes e obtém os seguintes dados: 102,
124, 108, 86, 103, 82, 71, 104, 112, 118, 87, 95, 103, 116, 85, 122, 87, 100, 105,
97, 107, 67, 78, 125, 109, 99, 105, 99, 101, 92.
Como a variável tempo é quantitativa contínua (mesmo mensurando-a em unidades
de minutos), a ideia é construir uma tabela de frequências em classes. A primeira
pergunta que surge é: quantas classes utilizar? Não há resposta absoluta para essa
questão e em geral é por tentativas que escolhemos a melhor. Claro que um número
pequeno de classes não vai revelar uma boa distribuição dos dados e tampouco um
número excessivo de classes, pois …caríamos potencialmente com uma frequência ou
nenhuma frequência por cada classe...
Em geral testamos inicialmente um número de classes k, dado por
p
k= n ou então k = 1 + 3; 3 log n
onde n é o número de observações coletadas e log é o logaritmo decimal. No nosso

p
caso, teríamos k = 5, pois n = 30 e n = 5; 477225:::
Vamos construir agora nossa tabela de frequências com os seguintes passos:
Passo 1) Obtenha os valores máximo e mínimo da amostra: Valor mínimo =
67 e Valor máximo = 125.
Passo 2) Escolha o número de classes para a tabela de frequência: k = 5 (pela
nossa discussão anterior).
Passo 3) Calcule a amplitude total dos dados (A) (a diferença entre o valor
máximo e o valor mínimo). No nosso exemplo, temos
A = 125 67 = 58.
19
A
Passo 4) Calcule a amplitude das classes (h) onde h := . Assim temos
k
58
h= = 11; 6, que arredondaremos para h = 12.
5
Passo 5) Calcule os limites das classes. O limite inferior da classe é o valor
mais baixo que pertence a ela e o limite superior é o mais alto. Use o valor mínimo
(67) como limite inferior da primeira classe.
Passo 6) De…na as 5 classes (intervalos), a saber: [67; 79), [79; 91), [91; 103),
[103; 115) e [115; 127].
Passo 7) Conte quantas observações se situam em cada classe, respeitando os
intervalos fechados à esquerda e abertos à direita, e coloque as observações numa
tabela do tipo abaixo.
Classes Frequência Frequência Relativa (%)

3
67 ` 79 3 10% = 30 100%
5
79 ` 91 5 16; 67% = 30 100%
8
91 ` 103 8 26; 66% = 30 100%
9
103 ` 115 9 30% = 30 100%
5
115 ` 127 5 16; 67% = 30 100%
30
Total 30 100% = 30 100%
Veremos depois que a tabela de frequências para dados quantitativos contínuos
enseja a construção de um grá…co extremamente importante na Estatística chamado
Histograma. Voltaremos a esse exemplo mais tarde.
2.1.2 Representação Grá…ca de Dados
A representação grá…ca é uma forma importante de veicular informações sintetizadas
de estudos, sobretudo na mídia. Por isso, é importante os professores explorarem
20
esse rico material em sala de aula, pois os alunos não poderão adquirir um letramento
estatístico adequado sem aprender a interpretá-los. Nossa sugestão é que você, pro-
fessor, peça aos alunos para trazerem recortes de jornais ou revistas com grá…cos
para a sala de aula, e proponha discussões não somente sobre os seus aspectos estru-
turais (geometria, função, etc.) mas também a intencionalidade do discurso grá…co.
Assim os alunos poderão adquirir cidadania e espírito crítico através da educação
estatística, pois é possível encontrar na mídia muitos grá…cos intencionalmente mal
construídos em suas escalas para gerar uma interpretação errônea dos dados co-
letados. Além disso, deve-se enfatizar em sala de aula o papel da representação
grá…ca no processo de análise estatística de dados e muita atenção deve ser dada à
especi…cidade de cada grá…co para os estudos estatísticos.
Grá…co em Setores para Variáveis Qualitativas
Esse tipo de grá…co, também conhecido como grá…co de pizza, é usado quando
desejamos enfatizar numa mensuração categórica qual a partipação de cada categoria
no todo observado. O ângulo de cada setor corresponde ao produto da frequência
relativa de cada categoria com os 360 (ou 2 radianos) da circunferência. Assim
voltando ao exemplo 1, temos a seguinte veiculação na mídia:
21
Embora vários programas de computador, como Excell, fazem os grá…cos
automaticamente, vejamos como os ângulos são calculados para a construção a mão
via compasso e esquadro a ser proposta em sala de aula aos alunos, dialogando assim
com o conteúdo de geometria aprendido classes anteriores.
Para o grá…co em setor de 2009, o percentual de participação do sexo feminino
foi de 72,9%. Assim, o ângulo referente ao setor feminino é dado por
0 00
0; 729 360 = 262 26 24
ou
0; 729 2 = 4; 58
Já para o grá…co em setor de 2010, o percentual de participação do sexo feminino
foi de 81,2%. Assim, o ângulo referente ao setor feminino é dado por
0 00
0; 812 360 = 292 19 12
ou
0; 812 2 = 5; 10
22
Grá…co em Barras para Variáveis Qualitativas ou Quantitativas Discretas
Esse tipo de grá…co tem uma certa similaridade de intenção com o grá…co em setores,
exceto pelo fato de que não estamos mais interessados em enfatizar a participação
de cada categoria no todo considerando todas as categorias conjuntamente. A ideia
é expressar informações individualizadas, e representadas por barras cuja altura
representa a frequência nas categorias. Vejamos o exemplo a seguir, representando
em barras o número de cópias de jornais (em milhares de exemplares) em alguns
países.
Número de cópias de jornal que circulam diariamente
80.000
72.047
Mil 70.000
har
es 60.000 58.247
de
exe 50.000
mp
lar
es 40.000
30.000
30.000 25.467 23.848
18.343
20.000
8.941
10.000 6.551 6.281 5.697
0 Jap Ale Ingl Fra Pol

EU Rú Índi Bra Itáli
ão A ssi ma a ate nça sil a ôni
a nh rra a
a
País
Vemos que aqui a intenção não é comparar qual a fatia de participação dos
jornais publicados no Japão na soma de todas as publicações de países em estudo. A
comparação é no sentido de informações isoladas. Vemos também que não existe um
lugar geométrico de…nido para a variável qualitativa país. Portanto, qualquer ordem
é possivel de ser escolhida (a ordem escolhida aí foi a decrescente para enfatizar os
maiores editores de jornais).
23
Quando a variável é quantitativa discreta, então o lugar geométrico está bem
de…nido e as barras são construídas nesses pontos, com altura igual (ou proporcional)
à frequência observada.
Cabe observar que alguns autores distinguem grá…co em barras (barra horizontal)
e grá…co em colunas (barras verticais). Não faremos no entanto essa distinção.
Abaixo se encontra um exemplo de barras horizontais veiculado no jornal O Globo
de 30 de abril de 2011.
Grá…co em Linha para Variáveis Quantitativas
Esse tipo de grá…co é usado sobretudo quando temos observações temporais de uma
variável em estudo e desejamos representá-la no tempo (abscissa) a …m de reconhecer
possíveis tendências e/ou sazonalidade (comportamento periódicos repetidos). O
exemplo a seguir ilustra bem a utilidade do grá…co em linha para a evolução do
preço do dólar comercial ao longo de um certo período de tempo.
24
Evolução do preço do dólar comercial
2.5
2.0
Valor do dólar
1.5
1.0
0.5
0.0
12/98 02/99 04/99 06/99 08/99
Data
Outro exemplo extraído do jornal O Globo de 30 de abril de 2011, referente ao
crescimento da população brasileira desde o século 19, encontra-se a seguir.
Histograma para Variáveis Quantitativas Contínuas
A ideia agora é representar uma …gura geométrica compacta para que possamos
futuramente pensar num modelo probabilístico contínuo para a variável em estudo.
Voltemos ao exemplo 3 do tempo (em minutos gastos) por mês pelos assinantes da
Telefonia Celular A. O grá…co das frequências por intervalo dado por
25
Classes Frequência
67 ` 79 3
79 ` 91 5
91 ` 103 8
103 ` 115 9
115 ` 127 5
Total 30
num histograma teria a seguinte caracterização:
Diagrama de Ramo-Folha para Variáveis Quantitativas Contínuas
Esse grá…co tem a mesma proposta do histograma, isto é, mostrar onde se situam as
maiores incidências da variável, mas o grá…co é construído com os próprios valores
numéricos. Tomemos novamente o exemplo 3 do tempo (em minutos gastos) por
mês pelos assinantes da Telefonia Celular A. Os valores vão de 67 a 125. A ideia é
tomar as dezenas como os ramos e as unidades com as folhas. Assim os ramos vão
de 6 a 12 e dispomos as folhas da seguinte forma:
26
Observe que, girando o grá…co acima para a esquerda, temos uma ideia de his-
tograma e de como seria uma função que cobrisse a última folha de cada ramo,
conforme a imagem abaixo.
Diagrama de Dispersão para a relação de duas variáveis quantitativas
Esse grá…co de pares ordenados no plano cartesiano é usado quando desejamos
avaliar a relação recíproca entre duas variáveis quantitativas de interesse. Por ex-
emplo, suponha que desejemos saber se há uma relação entre número de faltas em
sala de aula e média …nal das provas numa dada disciplina. Para isso, suponha que
tomemos uma amostra de 7 alunos obtendo o seguinte conjunto de pares de dados
dos alunos.
27
Aluno Faltas Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81
Assim, cada aluno representa um par ordenado de informação (x; y), onde x
representa o número de faltas e y a média …nal. O diagrama de dispersão, também
conhecido na literatura como scatter plot, é a representação grá…ca desses pares
ordenados. Com os dados acima, teríamos o seguinte grá…co.
O que podemos depreender, ao menos intuitivamente, a partir do grá…co acima?
Que parece haver uma relação quase linear entre faltas e média …nal na disciplina, e
que quanto maior o número de faltas mais baixa tende a ser a média …nal e vice-versa.
Esse grá…co é de extrema importância para que possamos medir a correlação linear
entre duas variáveis quantitativas em estudo, o chamado coe…ciente de correlação.
Agora que já sabemos como representar gra…camente de diversas formas os nossos
dados coletados podemos começar a resumir a informação de um ponto de vista
numérico. Esse será o objetivo a ser alcançado pela próxima aula.
28
Com os recursos de que dispõe, construa tabelas e/ou grá…cos que achar conve-
nientes para resumir pictogra…camente os seguintes dados:
Exercício 8 Área dos continentes em milhões de km2 : América, 42.960; Europa:
10.498; Ásia: 43.608; África: 30.335; Oceania: 8.923; Antártida: 16.500. (Fonte:
Atlas Geográ…co Mundial da Folha de São Paulo.)
Exercício 9 Lucro líquido em US$ bilhões, das companhias em Bolsa: 1990: 1; 0;
1991: 1; 4; 1992: 1; 5; 1993: 3; 8; 1994: 11; 5; 1995: 6; 4; 1996: 11; 4. (Fonte:
Economática.)
Exercício 10 Mercado Brasileiro de chocolate:
Divisão por empresas: Lacta: 35,4%; Nestlé: 31,6%; Garoto: 22,0%; Neug-
bauer: 3,6%; Ferrero Rocher: 0,9%; outros: 6,5%. (Fonte: Eletropaulo.)
Produção e Consumo em mil toneladas:
Ano 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Produção 196 220 251 294 296 305 329 313 327 327
Consumo 169 199 237 292 305 302 332 295 322 298
(Fonte: Folha de São Paulo, 24 de julho de 2002)
Exercício 11 Para um dado teste de QI, selecionou-se uma amostra de 15 pessoas
e registrou-se o tempo em minutos para fazê-lo, obtendo-se os seguintes valores: 30,
20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10. Faça um histograma e um
diagrama de ramos e folhas para os dados coletados.
2.2 Medidas-Resumo de Dados

2.2.1 Medidas de Posição
Medidas de Posição (ou de Tendência Central), como o próprio termo indica, visam
a sintetizar o conjunto de dados em geral numa única medida em algum lugar ge-
29
ométrico central. Isso só é possível se nossas observações são de natureza quantita-
tiva, pois, como dissemos anteriormente, as variáveis qualitativas estão no domínio
da frequência apenas, ou seja, só podemos contar quantas observações recaem em
cada categoria, mas não podemos operar matematicamente com as categorias em si.
As principais medidas de posição usadas na Estatística são a média aritmética, a
mediana, a moda e os quartis da distribuição. Outras medidas de posição existem,
mas não são tão usuais e não as trataremos nesse curso.
Seja uma amostra representada por fx1 ; x2 ; x3 ; :::; xn g de n observações numé-
ricas, retiradas de uma população hipotética de N elementos cujas medidas são
fX1 ; X2 ; X3 ; :::; XN g. Observe que em geral não temos acesso a todos os resultados
da população e assim n < N , o que justi…ca o uso da Estatística. Além disso
não se deve confundir xi (i = 1; 2; :::; n) e Xj (j = 1; 2; :::; N ). xi é o i-ésimo valor
observado na amostra, enquanto Xj é o j-ésimo valor não necessariamente observado
da população. Claro que para todo xi na amostra, existe um j tal que xi = Xj .
Média Aritmética
A média aritmética pode ser vista como o centro de gravidade de um conjunto de
dados. Por isso ela é conhecida na Estatística como o momento de primeira ordem
dos dados, ou seja o ponto de equilíbrio das observações.
A média aritmética da população ( ) é de…nida como

PN
X1 + X2 + ::: + XN Xi
= = i=1 .
N N
A média aritmética da amostra
Pn (Xn ) é de…nida como
x1 + x2 + ::: + xn xi
Xn = = i=1 .
n n
Observe que é um parâmetro (não acessado e …xo) e Xn é uma estatística
(acessada através da amostra e variável).
30
Exemplo 4 Suponha uma amostra de 5 elementos de uma população cujos resul-
tados são f1; 1; 4; 9; 10g. Então temos
1 + 1 + 4 + 9 + 10
X5 = = 5.
5
Propriedades da Média Aritmética (1) Seja uma amostra n observações numéri-
cas representado por fx1 ; x2 ; x3 ; :::; xn g com média Xn . Seja k um número real.
Então o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g terá média k Xn .
De fato podemos ver que
kx1 + kx2 + kx3 + ::: + kxn x1 + x2 + ::: + xn

=k = k Xn
n n
O que o resultado acima nos diz é que, ao multiplicarmos nossas observações
por um fator k, a nova média aritmética será dada pela média aritmética anterior
multiplicada pelo mesmo fator.
(2) Seja uma amostra de n observações numéricas representada por fx1 ; x2 ; x3 ; :::; xn g
com média Xn . Seja k um número real.
Então o conjunto fk + x1 ; k + x2 ; k + x3 ; :::; k + xn g terá média k + Xn .
De fato podemos ver que
(k + x1 ) + (k + x2 ) + (k + x3 ) + ::: + (k + xn ) nk + (x1 + x2 + ::: + xn )

=
n n
x1 + x2 + ::: + xn
= k+
n
= k + Xn
O que o resultado acima nos diz é que ao somarmos nossas observações por um
valor k, então a nova média aritmética será dada pela média aritmética anterior
somada pelo mesmo valor k.
31
(3) Seja uma amostra n observações numéricas representado por fx1 ; x2 ; x3 ; :::; xn g
com média Xn . Seja di = xi Xn a distância (orientada) entre a i-ésima observação
e a média aritmética. Então d1 + d2 + ::: + dn = 0, ou seja, as somas das distâncias
orientadas é sempre nula, e consequentemente a média das distâncias orientadas
é sempre nula. Isso comprova que a média é o ponto de equilíbrio de forças das
observações. De fato
d1 + d2 + ::: + dn = x1 Xn + x2 Xn + ::: + xn Xn
= (x1 + x2 + ::: + xn ) Xn + Xn + ::: + Xn
= (x1 + x2 + ::: + xn ) nXn

x1 + x2 + ::: + xn
= (x1 + x2 + ::: + xn ) n
n
= (x1 + x2 + ::: + xn ) (x1 + x2 + ::: + xn )
= 0
e assim
d1 + d2 + ::: + dn 0
= = 0.
n n
(4) A média é mal condicionada para valores atípicos no conjunto de dados.
No exemplo do conjunto de dados f1; 1; 4; 9; 10g a média é X5 =

1 + 1 + 4 + 9 + 10
= 5 e representa bem a coleção. No entanto se tivéssemos
5
1 + 1 + 4 + 9 + 100
f1; 1; 4; 9; 100g a média seria X5 = = 23, valor esse que não
5
representa a maioria dos dados 1, 1, 4, 9, abaixo do valor 10.
Com isso devemos ter cautela em sintetizar os dados com a média aritmética,
se os mesmos são muito assimétricos e possuem valores discrepantes. Por exemplo,
não seria adequado resumir a informação a respeito dos salários de trabalhadores
de uma indústria com a média aritmética, se há cargos no executivo com salários
astronômicos, pois estes elevariam a média salarial acima da realidade do trabal-
32
hador mediano. Nesses casos devemos tomar outra medida de posição, que seja
mais estável para dados atípicos, como a mediana, que veremos a seguir.
Cabe ressaltar aqui que se os dados são apresentados em tabelas de frequência,
indicando que o valor xi ocorre fi vezes no conjunto de dados, com f1 +f2 +:::+fn =
n, então a fórmula da média aritmética amostral será naturalmente dada por:

Pn
x1 :f1 + x2 :f2 + ::: + xn :fn i=1 xi :fi
Xn = = .
f1 + f2 + ::: + fn n
A fórmula acima pode ser interpretada como uma média aritmética ponderada
cujos pesos são as frequências fi , i = 1; 2; :::; n. Observe também que se denotarmos

fi fi
por pi = f1 +f2 +:::+fn
= n
a média dos dados pode ser expressa como
X
n
Xn = xi :pi ,
i=1
com pi tendo a interpretação de uma frequência relativa empírica da ocorrência de
xi . Veremos mais tarde que essa expressão se assemelha à fórmula da Esperança
Matemática de uma variável aleatória discreta.
Finalmente, se os dados são apresentados em classes com as respectivas frequên-
cias da classe, a fórmula acima também também expressa a média dos dados, com xi
agora representando o ponto médio do intervalo da i-ésima classe e fi a frequência
da i-ésima classe. Vejamos um exemplo desse tipo.
Exemplo 5 Suponha a distribuição de frequências em classe, vista na Aula 2, dada
por
Classes Frequência xi (Ponto Médio)

67 ` 79 3 73
79 ` 91 5 85
91 ` 103 8 97
103 ` 115 9 109
115 ` 127 5 121
Total 30
33
A média aritmética baseada nos dados agrupados em classe da tabela acima será
dada por
73 3 + 85 5 + 97 8 + 109 9 + 121 5 3:006

X30 = = = 100; 2.
30 30
Obviamente, esse valor não é necessariamente igual à média dos dados toma-
dos pontualmente (não agrupados em classe). No entanto, espera-se que ambos os
valores sejam próximos e, em situações em que não temos acesso aos dados não agru-
pados, não nos resta outra maneira de resgatar a média dos mesmos, senão através
do procedimento acima descrito.
Mediana
É a medida que ocupa a posição central num conjunto de dados ordenados (se
o número de elementos é ímpar) ou a média aritmética simples dos dois valores
centrais (se o número de elementos é par). Isto é, se de…nirmos x(k) como a k-ésima
observação ordenada em ordem crescente, isto é, x(1) x(2) x(3) ::: x(n) ,
então
x( n2 ) + x( n+2 )
2
M e = x( n+1 ) (se n é ímpar) ou M e = (se n é par).
2 2
Vejamos o seguinte exemplo para ilustrar o cálculo da mediana num conjunto de
dados não agrupados.
tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem
crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos
x( 10 ) + x( 10+2 ) x(5) + x(6)
2 2
Me = =
2 2
Mas x(5) = 20 e x(6) = 27. Assim
20 + 27
Me = = 23; 5.
2
34
Propriedades da Mediana (1) A mediana divide a distribuição ao meio, indi-
cando que 50% dos valores observados estão abaixo e 50% estão acima deste valor
mediano.
(2) A mediana é uma medida robusta, isto é, se abala pouco para valores ex-
tremos na distribuição. Vejamos isso à luz de um exemplo simples:
Para o conjunto de dados f1; 1; 4; 9; 10g, temos que a média é X5 =

1 + 1 + 4 + 9 + 10
= 5 e a mediana é M e = x(3) = 4, ambas as medidas represen-
5
tando bem o conjunto como um todo. No entanto, se tivéssemos agora f1; 1; 4; 9; 10; 100g
1 + 1 + 4 + 9 + 10 + 100
a média seria X6 = = 20; 833::: (valor esse que não rep-
6
4+9
resenta a maioria dos dados) e a mediana seria M e = = 6; 5 (valor ainda
2
representativo da maioria dos dados). Assim, vemos que, na presença do valor ex-
tremo 100, a média passa de 5 a 20; 83, enquanto que a mediana passa de 4 a 6; 5.
Isso mostra o caráter de robustez da mediana.
Quando os dados estão distribuídos em classe, a médiana é calculada mediante
a fórmula:
n
2
fac
M e = li + h
fmed
onde li é o limite inferior da classe da mediana (isto é, a classe em que se situa a
informação de posição n2 ); n é o número de observações, fac é a frequência acumulada
anterior à classe da mediana; fmed é a frequência da classe da mediana; e h é a
amplitude da classe da mediana. Retomemos o Exemplo 5 anterior. Assim, temos
Classes Frequência Frequência Acumulada

67 ` 79 3 3
79 ` 91 5 8
91 ` 103 8 16
103 ` 115 9 25
115 ` 127 5 30
Total 30
30
Como há n = 30 observações a posição do valor mediano é 2
= 15 e, portanto,
35
a classe da mediana é 91 ` 103, pois esta classe contém os elementos ordenados da
9a a 16a posições. Assim, temos li = 91, fac = 8, fmed = 8 e h = 103 91 = 12.
Assim, a mediana será dada por
30
2
8
M e = 91 + 12 = 101; 5.
8
Moda
A moda (Mo) é a observação mais freqüente de um conjunto de dados. Caso não
haja observação mais freqüente, ou seja, todos os valores aparecem apenas uma
única vez no conjunto de dados, a distribuição é dita amodal. Podemos ter um
conjunto unimodal se houver apenas uma moda; bimodal se houver duas modas;
ou multimodal (ou plurimodal) se houver três ou mais modas no conjunto de
dados coletados.
Vejamos exemplos das quatro situações descritas acima: Sejam as notas da prova
de Matemática dos alunos de quatro turmas diferentes dadas pela tabela a seguir.
Turma Notas Moda Distribuição

T1 2; 4; 6; 8; 8,5; 9, 10 Não existe Amodal
T2 2; 4; 5; 5; 8; 9; 10 5 Unimodal
T3 2; 4; 5; 5; 8; 9; 9; 10 5e9 Bimodal
T4 2; 2; 4; 5; 5; 8; 9; 9; 10 2, 5 e 9 Plurimodal
A pergunta que surge naturalmente agora é: Quando a moda será preferível à
média ou à mediana?
Se a distribuição é bem equilibrada, isto é, o histograma da distribuição tem
uma certa simetria, e há um único valor modal, então as três medidas-resumo são
qualitativamente equivalentes. Mas nesse caso, em geral, preferiremos a média, pois
veremos futuramente que a média possui propriedades probabilísticas importantes
para a análise inferencial da população.
36
Se, no entanto, a distribuição é altamente assimétrica com valores atípicos e
unimodal, então preferiremos, em geral, tomar a mediana como medida síntese,
embora a moda também possa ser usada em certas situações nesse caso.
Se, por outro lado, o histograma da distribuição é do tipo bimodal (ou mesmo
plurimodal) como na representação esquemática abaixo, então nem a média, nem
a mediana são boas medidas de representação dos dados, pois estas se situariam
no "vale"da distribuição em que há pouca incidência de valores. Assim, neste caso,
preferiremos quase sempre a moda como medida síntese.
Distribuição Bimodal
Para dados agrupados em classe, existe também uma fórmula para o cálculo do
valor modal, dada por

1
M o = li + h
1 + 2
onde li é o limite inferior da classe modal (isto é, a classe de maior frequência); 1
é a diferença entre a frequência da classe modal e a frequência da classe anterior à
modal; 2 é a diferença entre a frequência da classe modal e a frequência da classe
posterior à modal; e h é a amplitude da classe modal.
Retomando o Exemplo 5 anterior, temos que a classe modal é dada por 103 ` 115,
pois é a de maior frequência (9 observações); li = 103; 1 = 9 8 = 1; 2 = 9 5 = 4;
37
e h = 115 103 = 12. Assim a moda será dada por
1
M o = 103 + 12 = 105; 4.
1+4
Relação Empírica entre Média, Mediana e Moda A seguinte relação em-
pírica em geral subsiste aproximadamente para os conjuntos de dados observados:
X Mo = 3 X Me .
Essa expressão pode ser apresentada de diversas formas e indica geometricamente
que a mediana se situa entre a média e a moda, sendo sua distância à moda o dobro
de sua distância à média (veri…que isso pela relação acima). Sua veri…cação na
prática tende a ser mais perfeita para conjunto maiores de dados, e sendo a moda
calculada com base em dados agrupados em classes de freqüências.
Quartis da Distribuição
Os quartis da distribuição são os três valores que dividem a distribuição em quatro
partes iguais. O primeiro quartil (Q1 ) é o valor da distribuição em que abaixo dele
há 25% da informação e acima dele há 75% da informação. O segundo quartil (Q2 ) é
precisamente a mediana da distribuição (o valor que divide a distribuição ao meio).
Finalmente o terceiro quartil (Q3 ) é o valor da distribuição em que abaixo dele há
75% da informação e acima dele há 25% da informação.
Sejam x(1) x(2) x(3) ::: x(n) , os dados ordenados em ordem crescente.
O primeiro quartil (Q1 ) é de…nido como Q1 = x 1 .

( (n+1))
4
O segundo quartil (Q2 ) é de…nido como Q2 = x 1 .
( (n+1))
2
O terceiro quartil (Q3 ) é de…nido como Q3 = x 3 .
( (n+1))
4
38
Lembrando que se as posições dos quartis acima não são valores inteiros, então
devemos fazer uma interpolação dos valores intermediários à posição. Vejamos com
o exemplo anterior.
tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem
crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos
Q1 = x( 11 ) = x(2;75)
4
Com isso, o primeiro quartil se situa entre x(2) e x(3) com uma interpolação de 0; 75
entre eles. Assim, temos
Q1 = x(2) + 0; 75 x(3) x(2)
= 5 + 0; 75 (9 5)
Q1 = 8
O segundo quartil é dado por
Q2 = x( 11 ) = x(5;5)
2
Com isso, o segundo quartil se situa entre x(5) e x(6) com uma interpolação de 0; 5
Q2 = M e = x(5) + 0; 5 x(6) x(5)
= 20 + 0; 5 (27 20)
Q2 = 23; 5,
que é o resultado encontrado para a mediana.
Finalmente, o terceiro quartil é dado por
Q3 = x( 33 ) = x(8;25)
4
39
Com isso, o terceiro quartil se situa entre x(8) e x(9) com uma interpolação de 0; 25
Q3 = x(8) + 0; 25 x(9) x(8)
= 44 + 0; 25 (54 44)
Q3 = 46; 5.
Para valores agrupados em classe, temos a seguinte fórmula para o k-ésimo quartil
(k = 1; 2; 3):
n
k 4
fac
Qk = li + h
fQk
onde li é o limite inferior da classe do k-ésimo quartil (isto é, a classe em que se

n
situa a informação de posição k 4
); n é o número de observações, fac é a frequência
acumulada anterior à classe do k-ésimo quartil; fQk é a frequência da classe do k-
ésimo quartil; e h é a amplitude da classe do k-ésimo quartil. Retomando o Exemplo
5 anterior, temos que a classe do primeiro quartil é aquela que contém a observação
30
na posição 4
= 7; 5, ou seja, a classe 79 ` 91, pois esta contém as informações
ordenadas da posição 4 à posição 8. Assim, temos

30
1 4
3
Q1 = 79 + 12 = 89; 8.
5
O segundo quartil é a mediana já calculada anteriormente, isto é, Q2 = M e =
101; 5.
Finalmente, a classe do terceiro quartil é aquela que contém a observação na

30
posição 3 4
= 22; 5, ou seja, a classe 103 ` 115, pois esta contém as informações
ordenadas da posição 17 à posição 25. Assim, temos

30
3 4
16
Q3 = 103 + 12 = 111; 67.
9
Poderíamos então perguntar: Para que servem os quartis da distribuição?
40
Temos uma dupla resposta a esta pergunta: serve para reconhecer os dados
atípicos da distribuição, os chamados outliers e para construir um importante grá…co
estrutural da distribuição chamado Box-Plot. Vejamos os dois casos agora.
Reconhecimento dos Outliers (ou Dados Discrepantes) Para reconheci-
mento dos outliers da distribuição, precisamos obter o primeiro e o terceiro quartis
da distribuição (Q1 e Q3 ).
De…ne-se a amplitude interquartílica da distribuição (IQ) como IQ = Q3 Q1 .
3
Outliers da distribuição são os valores fora do intervalo Q1 2
IQ; Q3 + 32 IQ .
Vejamos um exemplo concreto:
Exemplo 8 As vendas de uma determinada loja em 27 dias observados são dadas
a seguir: 28, 43, 48, 51, 43, 30, 72, 44, 48, 33, 45, 37, 37, 42, 27, 47, 42, 23, 46,
39, 20, 45, 38, 19, 17, 35, 45.
Colocando os dados (n = 27) em ordem temos: 17, 19, 20, 23, 27, 28, 30, 33,
35, 37, 37, 38, 39, 42, 42, 43, 43, 44, 45, 45, 45, 46, 47, 48, 48, 51, 72.
Temos
Q1 = x( 28 ) = x(7) = 30,
4
Q2 = M e = x( 28 ) = x(14) = 42 e
2
Q3 = x( 84 ) = x(21) = 45.
4
Assim
IQ = Q3 Q1 = 45 30 = 15.
41
O intervalo dos valores típicos é dado por
3 3 3 3
Q1 IQ; Q3 + IQ = 30 15; 45 + 15
2 2 2 2
= [7; 5; 67; 5]
Assim vemos que o conjunto de dados possui um único outlier, o de valor 72,
valor esse considerado atípico e passível de uma análise mais minuciosa. Poderíamos
perguntar: Que dia foi esse? Há explicações plausíveis para esse valor à luz de algum
fator?
Há toda uma teoria so…sticada na Estatística para o tratamento dos outliers, mas
está fora de nosso escopo ir a fundo nessas questões, visto que nosso curso é voltado
para uma primeira inserção no universo da estatística.
Construção do Box-Plot Uma alternativa pictográ…ca do histograma da dis-
tribuição é o Box-Plot. Enquanto o histograma tem uma representação da dis-
tribuição numa perspectiva frontal, o box-plot se assemelha a uma visão panorâmica
de cima da distribuição.
O Box-Plot é um grá…co que contém os quartis da distribuição, os valores mín-
imos e máximos da distribuição que não são outliers e …nalmente os outliers. O
grá…co abaixo, referente aos dados sobre vendas tratados no exemplo 8, representa
os quartis (30, 42 e 45) que de…nem a caixa (box) que contém 50% da informação
central dos dados coletados; os valores mínimos e máximos não-atípicos (17 e 51) e
o valor do outlier (72) em asterisco.
42
Box-Plot
Observe que de 30 (Q1 ) a 42 (M e) há 25% da informação e de 42 (M e) a 45 (Q3 )
também há 25% da informação, e que o segundo intervalo tem menor amplitude
que o primeiro. Portanto, o histograma deve ser mais alto no segundo intervalo que
no primeiro, indicando que há uma assimetria da distribuição. (Embora tratemos o
estudo da assimetria das distribuições em aulas posteriores, você consegue visualizar
isso?)
Exercício 12 Dados A = f24; 26; 28; 30; 32; 34; 36g e B = f15; 20; 25; 30; 35; 40; 45g,
determine suas médias aritméticas, suas medianas e suas modas e diga se, com base
nelas, é possível diferenciar os dois conjuntos de dados.
Exercício 13 Dado o conjunto A = f85; 82; 97; 88; 89; 97; 89; 93; 88; 97; 96; 97; 98; 93; 97g
determine sua média aritmética, sua mediana e sua moda.
Exercício 14 Um geógrafo está interessado em estudar a idade de trabalhadores no
campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10
trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.
Pede-se:
(a) A média das idades.
(b) A moda das idades.
43
(c) A mediana das idades.
(d) Os possíveis outliers.
Exercício 15 Dê uma situação prática onde você acha que a mediana é uma medida
mais apropriada do que a média.
Exercício 16 Esboce um histograma onde a média e a mediana coincidem. Existe
alguma classe de histogramas onde isto sempre acontece?
Exercício 17 Num caso em que você esteja sintetizando o conjunto de dados em
uma única medida de posição ou tendência central, qual dentre elas (média, mediana
ou moda) você adotaria nos casos abaixo, justi…cando (em alguns casos mais de uma
escolha é possível):
(a) A distribuição é praticamente simétrica e unimodal.
(b) A distribuição é praticamente simétrica e bimodal.
(c) A distribuição é fortemente assimétrica.
Exercício 18 Quer-se estudar o número de erros de impressão de um livro. Para
isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de
erros por página:

Erros Frequência
0 25
1 20
2 3
3 1
4 1
(a) Qual o número médio de erros por página?
(b) E o número mediano?
(c) Qual é a moda?
(d) Se o livro tem 500 páginas, como você estimaria o total de erros esperado no
livro?
44
(e) Quais os quartis das distribuição? Há evidência de dados atípicos (outliers)?
(f) Faça num papel milimetrado o Box-Plot para os dados coletados.
Exercício 19 Uma amostra de idades de 100 indivíduos foi retirada de uma certa
população e sua distribuição de frequências em classes é dada por
Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15
Obtenha a média, a mediana, a moda e os quartis da distribuição.
2.2.2 Medidas de Variabilidade
Enquanto as medidas de posição procuram sintetizar o conjunto de dados em alguns
valores situados entre dados coletados, as medidas de dispersão buscam avaliar quão
dispersos (ou esparsos) são os dados coletados. Isso é de fundamental importância,
pois podemos ter dois conjuntos de dados com as mesmas medidas de posição, mas
com dispersões diferentes, fazendo com que os valores qualitativos dessas medidas
de posição sejam também diferentes.
Há uma piada irônica que diz que o estatístico é o pro…ssional que dirá que
uma pessoa, ao se sentar numa cadeira com duas placas de metal, uma aquecida a
100 C e outra resfriada a 40 C, estará em média confortável, pois a temperatura

40 + 100
média é de = 30 C! Na verdade, o verdadeiro estatístico jamais diria
2
isso, pois ele não toma decisões apenas pela média, mas na dispersão dos dados em
torno da média. Uma cadeira com duas placas de metal, uma aquecida a 35 C e
outra a 25 C, também tem temperatura média de 30 C, mas há menos dispersão da
temperatura nessa cadeira que na outra. Assim, embora quantitativamente iguais,
45
os dois valores de 30 C não são qualitativamente equivalentes. Há portanto que se
avaliar a variabilidade dos dados coletados, a …m de tecer conclusões adequadas.
Diversas são as medidas de variabilidade, mas estudaremos apenas as mais im-
portantes e frequentes no trabalho do estatístico.
Amplitude Total
A Amplitude Total (A) é de…nida como a diferença entre o maior e o menor valor
observado, x(n) e x(1) , respectivamente. Assim
A = x(n) x(1) .
Como se trata de uma medida bruta (pois só leva em consideração os dois valores
extremais do conjunto de dados), ela é usada mais frequentemente apenas para
auxiliar na construção do histograma, como visto anteriormente. Mais relevante
para a análise estatística é a variância, que de…niremos a seguir.
Variância
A variância representa a média das distâncias quadráticas entre cada valor observado
e a média do conjunto dos dados. Vimos anteriormente que a média das distâncias
orientadas entre cada valor observado e a média do conjunto dos dados é sempre
nula. Portanto a média das distâncias orientadas nada nos informa sobre a dispersão
dos dados. A ideia portanto é elevar ao quadrado as distâncias, pois nesse caso as
somas quadráticas não se anulam, a menos que todo valor observado seja igual à
média, isto é, os dados são todos iguais em valor.
Seja uma amostra representada por fx1 ; x2 ; x3 ; :::; xn g de n observações numé-
ricas, retirada de uma população hipotética de N elementos cujos resultados (não-
observados) são fX1 ; X2 ; X3 ; :::; XN g.
46
PN
2 2 i=1 (Xi )2
A variância da população ( ) é de…nida como = ,
N
com a média da população.
Pn 2
2 2 i=1 xi Xn
A variância da amostra (S ) é de…nida como S = ,
n 1
com Xn a média da amostra.
Aqui também vale ressaltar que a variância da população ( 2 ) não é observada
na maioria das vezes e, portanto, é um parâmetro a ser estimado. A variância
da amostra (S 2 ), ao contrário, é obtida através dos dados coletados e usada para
se estimar a variância da população. Portanto a variância da amostra é um valor
aleatório, pois depende da amostra que foi retirada.
A essa altura você deve estar se perguntando por que na fórmula da variância da
amostra dividimos por n 1 ao invés de n, como expresso na fórmula da variância
da população. Os estatísticos fazem isso, pois como S 2 é um valor aleatório (cada
amostra pode gerar uma variância amostral diferente), gostaríamos de "acertar"em
média o valor da variância da população. Se dividíssemos por n, iremos mostrar
ao …nal desse curso que a variância da amostra não acertaria em média a variância
da população. A correção adequada matematicamente é dividir por n 1, daí a
fórmula um pouco diferente. Claro que se a amostra é grande (por exemplo, maior
do que 30 observações), dividir por n ou por n 1 não fará muita diferença, mas se
a amostra é pequena esse fator de correção faz toda a diferença!
As fórmulas acima podem ser reescritas abrindo o quadrado dos binômios como
PN
2 i=1 Xi2 2
= e
N
Pn
2 i=1 x2i nXn2
S = .
n 1
(Veri…que isso você mesmo(a).)
47
Propriedades da Variância (1) Multiplicando-se todos os valores de uma var-
iável por uma constante, a variância do conjunto …ca multiplicada pelo quadrado
dessa constante.
Para ver isso, suponha que fx1 ; x2 ; x3 ; :::; xn g tenha média Xn .e variância S 2 .
Lembre agora que o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g terá média k Xn . Assim a
variância desse novo conjunto é dada por

Pn 2 Pn 2
i=1 kxi k Xn k 2 xi Xn
i=1
=
n 1 " Pnn 1 #
2
i=1 x i Xn
= k2
n 1
= k2S 2
Ou seja a nova variância é k 2 S 2 .
(2) Somando-se ou subtraindo-se uma constante a todos os valores de uma var-
iável, a variância não se altera.
Para ver isso, suponha que fx1 ; x2 ; x3 ; :::; xn g tenha média Xn .e variância S 2 .
Lembre agora que o conjunto fk + x1 ; k + x2 ; k + x3 ; :::; k + xn g terá média k + Xn .
Assim a variância desse novo conjunto é dada por

Pn 2 Pn 2
i=1 (k + xi ) k + Xn i=1 xi Xn
=
n 1 n 1
= S2
Assim, vemos que somar ou diminuir os dados por uma constante …xada não
alterará a dispersão dos dados.
(3) Pelas fórmulas das variâncias tanto populacional quanto amostral, vemos
que a variância é sempre um número real não-negativo. Ela será nula, se e somente
se xi = Xn , para todo i; portanto, se e somente se os dados são todos iguais. Caso
contrário, a variância será sempre estritamente positiva.
48
Novamente cabe ressaltar aqui que se os dados são apresentados em tabelas de
frequência, indicando que o valor xi ocorre fi vezes no conjunto de dados, com
f1 + f2 + ::: + fn = n, então a fórmula da variância amostral será naturalmente dada
por:
Pn 2
2 i=1 xi Xn :fi
S = .
n 1
Se os dados são apresentados em classes com as respectivas frequências da classe,
a fórmula acima também também expressa a variância amostral, com xi represen-
tando agora o ponto médio da i-ésima classe e fi a frequência da i-ésima classe.
Desvio-Padrão
Vimos que a variância é calculada elevando-se ao quadrado as observações. Portanto
se os dados são mensurados em metro, por exemplo, a variância será mensurada em
metro quadrado. Para retornar à medida original é preciso extrair a raiz quadrada
da variância. Esse valor é denominado desvio-padrão dos dados. Assim:
rP
N
p
2 i=1 (Xi )2
O desvio-padrão da população ( ) é de…nida como = = .
N
s
Pn 2
p i=1 xi Xn
O desvio-padrão da amostra (S) é de…nida como S = S2 = .
n 1
Relação Empírica entre Desvio-Padrão e Amplitude Na quase totalidade
dos casos práticos temos:

A A
<S< .
6 3
Propriedades do Desvio-Padrão (1) Somando-se ou subtraindo-se uma con-
stante a cada valor de um conjunto de dados, o desvio padrão não se altera. Isso
49
decorre do fato de que somando-se ou subtraindo-se uma constante a todos os val-
ores de uma variável, a variância não se altera. Portanto o desvio-padrão também
não se alterará.
(2) Multiplicando-se ou dividindo-se por uma constante cada valor de um con-
junto, o desvio padrão também …ca multiplicado ou dividido, respectivamente, pelo
módulo da constante.
Vimos que o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g tem variância k 2 S 2 . Assim o novo
p
desvio-padrão será dado por k 2 S 2 = jkj S.
Coe…ciente de Variação
Nem sempre uma variância pequena (e consequentemente desvio-padrão pequeno)
signi…ca pouca dispersão. Tampouco uma variância grande é sempre indicador de
alta dispersão. Esses valores podem ser altos ou baixos devido à magnitude dos dados
observados. Se medimos observações em microscópio, por exemplo, teremos fatal-
mente um valor numericamente baixo de variância, podendo no entanto haver alta
dispersão dos dados no nível microscópico. Da mesma maneira, ao medir produto
interno bruto em dólares do Brasil teremos valores observados de alta magnitude,
gerando variância grande, mas não necessariamente indicando alta dispersão.
Como então avaliar a dispersão adequadamente? A ideia é tomar o desvio-padrão
dos dados comparativamente à escala média dos dados. Tal medida é denominada
de Coe…ciente de Variação (CV ) e é de…nida como o quociente entre o desvio-
padrão e a média dos dados observados. É frequentemente expresso em porcentagem.
Assim temos:
S S
CV = ou CV = 100%.
X X
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu
50
valor médio. Assim, uma pequena dispersão absoluta pode ser, na verdade, con-
siderável quando comparada com a ordem de grandeza dos valores da variável e
vice-versa. Quando consideramos o coe…ciente de variação, enganos de interpre-
tação desse tipo são evitados. Quando o CV tem uma medida em percentual abaixo
de 50%, dizemos que os dados são relativamente homogêneos; acima de 50% os da-
dos são considerados heterogêneos, mas caso o coe…ciente de variação seja superior
a 100% dizemos que eles têm uma superdispersão.
Consideremos o seguinte problema para o cálculo de medidas de posição e vari-
abilidade.
Exemplo 9 Suponha duas amostras de preços de fechamento atingido por dois pa-
cotes de ações registrados em dez sextas-feiras consecutivas.
Ações A 56 56 57 58 61 63 63 67 67 67
Ações B 33 42 48 52 57 67 67 77 82 90
Pede-se:
(a) Obtenha as médias, as medianas e as modas dos dois conjuntos de dados.
(b) Obtenha as amplitudes totais dos dois conjuntos de dados.
(c) Obtenha as variâncias dos dois conjuntos de dados.
(d) Obtenha os desvios-padrão dos dois conjuntos de dados.
(e) Obtenha os coe…cientes de variação dos dois conjuntos de dados.
Sejam XA e XB as médias, M eA e M eB as medianas e M oA e M oB as modas.
Então temos:
56 + 56 + ::: + 67 + 67 615
XA = = = 61; 5
10 10
33 + 42 + ::: + 82 + 90 615
XB = = = 61; 5
10 10
61 + 63
M eA = = 62
2
57 + 67
M eB = = 62
2
51
M oA = 67
M oB = 67
Portanto os dois conjuntos têm as mesmas medidas de posição pedidas.
Vejamos agora as amplitudes totais nos dois conjuntos:
AA = 67 56 = 11
AB = 90 33 = 57
Assim, vemos que as Ações B têm maior amplitude que as Ações A.
A …m de preparar os cálculos das medidas de dispersão montaremos duas tabelas
com as seguintes colunas:

2
Ações A xi XA xi XA
56 56 61; 5 = 5; 5 30; 25
56 56 61; 5 = 5; 5 30; 25
57 57 61; 5 = 4; 5 20; 25
58 58 61; 5 = 3; 5 12; 25
61 61 61; 5 = 0; 5 0; 25
63 63 61; 5 = 1; 5 2; 25
63 63 61; 5 = 1; 5 2; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
P10 P10 P10 2
i=1 xi = 615 i=1 xi XA = 0 i=1 xi XA = 188; 50
2
Ações B xi XB xi XB
33 33 61; 5 = 28; 5 812; 25
42 42 61; 5 = 19; 5 380; 25
48 48 61; 5 = 13; 5 182; 25
52 52 61; 5 = 9; 5 90; 25
57 57 61; 5 = 4; 5 20; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
77 77 61; 5 = 15; 5 240; 25
82 82 61; 5 = 20; 5 420; 25
90 90 61; 5 = 28; 5 812; 25
P10 P10 P10 2
i=1 xi = 615 i=1 xi XB = 0 i=1 xi XB = 3:018; 50
Assim, temos as seguintes variâncias amostrais nos dois conjuntos:
52
P10 2
i=1 xi XA 188; 50
SA2 = = = 20; 944:::
10 1 9
P10 2
i=1 xi XB 3:018; 50
SB2 = = = 335; 3888:::
10 1 9
Os respectivos desvios-padrão são:
p
SA = 20; 944::: = 4; 5765
p
SB = 335; 3888::: = 18; 3136
Finalmente os coe…cientes de variação nos dois grupos são dados por:
SA 4; 5765
CVA = = = 0; 0744
XA 61; 5
ou
CVA = 7; 44%
SB 18; 3136
CVB = = = 0; 2978
XB 61; 5
ou
CVB = 29; 78%
Finalmente, concluímos que embora os dois conjuntos tenham medidas de posição
equivalentes, há maior variabilidade, e consequentemente mais incerteza, nas Ações
B do que nas Ações A.
53
Exercício 20 Esboce os histogramas de três variáveis (X, Y e Z) com a mesma
média aritmética, mas com variâncias ordenadas em ordem crescente. Em qual
histograma, a média tem maior valor qualitativo para sintetizar o conjunto de dados?
Exercício 21 Um geógrafo está interessado em estudar a idade de trabalhadores no
campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10
trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.
Pede-se:
(a) A amplitude total dos dados.
(b) A variância do conjunto de dados.
(c) O desvio-padrão do conjunto de dados.
(d) O coe…ciente de variação do conjunto de dados. O conjunto parece ser ho-
mogêneo ou heterogêneo?
Exercício 22 Quer-se estudar o número de erros de impressão de um livro. Para
isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de
erros por página:
Erros Frequência
0 25
1 20
2 3
3 1
4 1
(a) Calcule a variância da amostra.
(b) Calcule o desvio-padrão da amostra.
(c) Calcule o coe…ciente de variação da amostra. O conjunto parece ser homogê-
neo ou heterogêneo?
Exercício 23 Um órgão do governo do estado está interessado em determinar padrões
sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um
54
levantamento em 10 cidades, foram obtidos os valores (codi…cados) da tabela abaixo:
Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18
Pede-se:
(a) A média dos investimentos.
(b) A moda.
(c) A mediana.
(d) O desvio-padrão.
(e) O coe…ciente de variação.
(f) Diagnosticar se há dados discrepantes (outliers).
Exercício 24 Durante um ano, foram coletados os índices pluviométricos mensais
de uma certa região, cujos dados encontram-se na tabela abaixo.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Índice 69 53 41 46 50 40 41 40 42 38 42 46
Pede-se:
(a) O índice pluviométrico médio no ano.
(b) A variância e o desvio-padrão do índice pluviométrico.
(c) O coe…ciente de variação.
Exercício 25 Suponha que você esteja interessado em avaliar qual de dois exper-
imentadores (A e B) faz mensurações mais precisas ao microscópio. Para isso,
cada experimentador faz 10 mensurações, resultando nas seguintes médias e variân-
cias: XA = 0; 1, SA2 = 0; 009404, XB = 0; 4, SA2 = 0; 02. Utilizando uma medida
estatística apropriada, qual dos experimentadores você diria ser mais preciso?
Exercício 26 Uma amostra de idades de 100 indivíduos foi retirada de uma certa
população e sua distribuição de frequências em classes é dada por
55
Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15
Obtenha a variância, o desvio-padrão e o coe…ciente de variação das idades dos
indivíduos da amostra.
2.2.3 Medidas de Assimetria, Curtose e Correlação

Medidas de Assimetria
Diagnosticar se uma dada distribuição é ou não simétrica é fundamental em Estatís-
tica, pois como discutimos antes, uma distribuição altamente assimétrica enfraquece
o valor da média como medida síntese dos dados, pois a média é abalada por valores
extremos. Além disso, muitos todos testes estatísticos para tomada de decisão sob
incerteza dependem de hipóteses sobre distribuições simétricas, como a distribuição
Normal, que estudaremos mais adiante nesse curso. Daí a importância desse tópico
em Estatística.
Toda distribuição pode ser classi…cada como simétrica, assimétrica à direita (ou
positiva) e assimétrica à esquerda (ou negativa). Os grá…cos abaixo ilustram os três
casos:
Simétrica (Xn = M ed = M o)
56
Assimétrica à Direita (M o < M ed < Xn )
Assimétrica à Esquerda (Xn < M ed < M o)
Há várias medidas de assimetria, mas nesse curso nos ateremos apenas ao Coe-
…ciente de Assimetria de Pearson (As ). Ele é dado pela fórmula:
Xn Mo
As =
S
onde Xn , M o e S são, respectivamente, a média, a moda e o desvio-padrão da
amostra.
Decisão:
(a) Se As = 0, então a distribuição é simétrica.
(b) Se As > 0, então a distribuição é assimétrica positiva ou à direita.
(c) Se As < 0, então a distribuição é assimétrica negativa ou à esquerda.
Além disso:
(i) se jAs j 0; 15, a distribuição é considerada simétrica;
57
(i) se 0; 15 < jAs j 1, a assimetria é considerada moderada;
(ii) se jAs j > 1, a assimetria é considerada forte.
Medidas de Curtose
As medidas de curtose avaliam o grau de achatamento da distribuição. Com refer-
ência ao grau de achatamento, podemos classi…car a distribuição como Leptocúr-
tica (pouco achatada), Mesocúrtica (médio achatada) e Platicúrtica (muito
achatada), conforme os grá…cos abaixo:
Há várias medidas de curtose, mas nos ateremos apenas ao Coe…ciente de
Curtose de Pearson (K) dado pela fórmula:
4
K= 2
2
onde
Pn 4
i=1 xi Xn
4 =
n
e
Pn 2
i=1 xi Xn
2 =
n
Decisão:
58
(a) Se K < 3, então a distribuição é platicúrtica.
(b) Se K = 3, então a distribuição é mesocúrtica.
(c) Se K > 3, então a distribuição é leptocúrtica.
Observe que, se a distribuição é platicúrtica, isso indica que há uma grande vari-
abilidade da variável observada, o que enfraquece o valor de medidas de posição como
a média, por exemplo. Já numa distribuição leptocúrtica, temos alta concentração
dos dados, o que torna as medidas-resumo potencialmente mais representativas. É
pela conjunção da assimetria com a curtose que podemos avaliar apropriadamente
as medidas de posição calculadas.
Exemplo 10 Suponha uma amostra de 10 elementos de uma população com os
seguintes resultados: 5, 15, 15, 15, 25, 25, 25, 25, 35, 35.
Assim, temos:
5+3 15 + 4 25 + 2 35 220
Xn = =
10 10
Xn = 22.
M o = 25
2 (5 22)2 + 3 22)2 + 4 (25

(15 22)2 + 2 (35 22)2
S =
9
289 + 147 + 36 + 338 810
= =
9 9
p
S 2 = 90 e S = 90 = 9; 4868
Assim
Xn Mo 22 25
As = = = 0; 3162
S 9; 4868
Como As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além
disso, como 0; 15 < jAs j = 0; 3162 1, a assimetria é considerada moderada.
59
Analisemos agora os dados, quanto ao grau de achatamento (curtose).
P10 4
i=1 xi X10
4 =
10
(5 22)4 + 3 (1522)4 + 4 (25 22)4 + 2 (35 22)4
=
10
83:521 + 7:203 + 324 + 57:122
=
10
148:170
=
10
4 = 14:817
P10 2
i=1 xi X10
2 =
10
(5 22)2 + 3 (1522)2 + 4 (25 22)2 + 2 (35 22)2
=
10
289 + 147 + 36 + 338 810
= = =
10 10
2 = 81
Assim
4 14:817 14:817
K= 2
= 2 =
2 (81) 6:561
K = 2; 2583
Portanto, como K = 2; 2583 < 3, então a distribuição é platicúrtica.
Exercício 27 Foi comparado o desempenho na Escala de Desenvolvimento de Pen-
samento Lógico (EPL), de Longeot, entre sujeitos dos cursos de graduação em Psi-
cologia, Biologia e Física da USP, freqüentando o primeiro e o último ano. Essa
escala, baseada na Teoria do Desenvolvimento do Pensamento Lógico de Piaget, per-
mite classi…car o sujeito em um dentre cinco níveis de desenvolvimento: Concreto
A (0 a 4 pontos) ou B (5 a 10 pontos); Pré-formal (11 a 17 pontos); Formal A (18
a 23 pontos) ou B (24 a 28 pontos). Os resultados obtidos foram os seguintes:
60
Média: 22; 30 Mediana: 22; 00
Moda: 22; 00 1o Quartil: 20; 00
Sexo Masculino:
3o Quartil: 25; 00 Variância: 7; 51
Mínimo: 17; 00 Máximo: 26; 00
Média: 20; 88 Mediana: 21; 00

Moda: 22; 00 1o Quartil: 19; 00
Sexo Feminino:
3o Quartil: 23; 00 Variância: 11; 93
Mínimo: 10; 00 Máximo: 28; 00
(a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais
heterogêneo? Justi…que com base a uma medida estatística apropriada.
(b) Há evidência de dados discrepantes (outliers) no grupo masculino? Jus-
ti…que.
(c) Há evidência de dados discrepantes (outliers) no grupo feminino? Jus-
ti…que.
(d) Analise a assimetria da distribuição dos escores do grupo masculino.
(e) Analise a assimetria da distribuição dos escores do grupo feminino.
Exercício 28 Houve uma denúncia por parte dos operários de uma indústria de
que, toda vez que ocorreria um acidente em uma seção da indústria, ocorreriam
outros em outras seções mais ou menos no mesmo horário. Em outras palavras, os
acidentes não estavam ocorrendo ao acaso. Para veri…car esta hipótese, foi feita
uma contagem do número de acidentes por hora durante um certo número de dias
(24 horas por dia). Os resultados da pesquisa estão abaixo:
Número de Acidentes por Hora 0 1 2 3 4 5 6 7 8

Número de Horas 200 152 60 30 13 9 7 5 4
(a) Qual o número médio de acidentes por hora?
(b) E o número mediano?
(c) Qual é a moda?
(d) Qual é o desvio-padrão?
61
(e) Avalie os dados quanto à assimetria.
(f) Avalie os dados quanto à curtose.
Coe…ciente de Correlação
Vimos anteriormente que o diagrama de dispersão (scatterplot) é usado quando
desejamos avaliar a relação entre duas variáveis. A visualização é um primeiro passo
para um entendimento dessa possível in‡uência de uma variável sobre outra, mas
há que se medir a correlação entre elas. O coe…ciente de correlação (r) é a
medida comumente utilizada para se avaliar a correlação linear entre duas variáveis
quantitativas.
Suponha que tenhamos uma amostra de n pares de dados (xi ; yi ), i = 1; 2; :::; n,
onde x é a variável explicativa (também denominada independente ou covariável),
que procura explicar o comportamento da variável resposta y (também denominada
dependente). Assim, por exemplo, se desejamos saber se o número de cigarros
fumados por dia tem relação com a capacidade pulmonar, então x é o número de
cigarros fumados por uma unidade experimental e y a medição de sua capacidade
pulmonar. Assim temos um conjunto de dados do tipo
Covariável (x) x1 x2 ::: xn

Variável Resposta (y) y1 y2 ::: yn
O coe…ciente de correlação é expresso pela seguinte fórmula:
Pn
i=1 xi Xn : yi Yn
r = qP qP
n 2 n 2
i=1 xi Xn i=1 yi Yn
ou então de forma mais simpli…cada para o cálculo:
Pn P P
n i=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
r=q P P q P P
2 2
n ni=1 x2i ( ni=1 xi ) n ni=1 yi2 ( ni=1 yi )
62
onde Xn e Yn são as médias da covariável e da variável resposta, respectivamente.
A correlação pode ser positiva, negativa ou nula. Vejamos com exemplos grá…cos
os três casos:
Vemos que na correlação linear positiva, a melhor reta que passa por entre os
pontos tem coe…ciente angular positivo, indicando que, quando a variável explicativa
cresce, a variável resposta tende a crescer também. No exemplo puramente ilustra-
tivo acima, a nota do vestibular tem correlação positiva com a média das notas da
graduação de 18 alunos que participaram da amostra.
63
Vemos que na correlação linear negativa, a melhor reta que passa por entre os
pontos tem coe…ciente angular negativo, indicando que, quando a variável explica-
tiva cresce, a variável resposta tende a decrescer. No exemplo acima, as horas de
treinamento, à luz da amostra de 20 funcionários de uma dada indústria, guardam
uma correlação negativa com o número de acidentes.
Vemos que na correlação linear nula, os pontos se distribuem no plano cartesiano
como uma nebulosa, não havendo qualquer indicação de uma melhor reta que passe
próximo aos pontos. Nesse exemplo, não há qualquer correlação entre altura do
indivíduo e o seu quociente de inteligência (QI), avaliado através de uma amostra
de 25 indivíduos.
Propriedades do Coe…ciente de Correlação (r) (1) O coe…ciente de corre-
lação é sempre um número entre 1 e 1, isto é, r 2 [ 1; 1], e mede o grau de ajuste
da reta aos pontos no plano cartesiano.
(2) Se r está próximo a 1, há uma forte correlação negativa, ou seja, há uma
reta de coe…ciente angular negativo passando muito próximo aos pontos amostrais.
(Se r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os
pontos são colineares.) Se r está próximo de 0, não há correlação linear, os pontos
64
se comportam como uma nebulosa ou têm comportamento fortemente não linear.
E se r está próximo de 1, há uma forte correlação positiva, ou seja, há uma reta
de coe…ciente angular positivo passando muito próximo aos pontos amostrais. (Se
r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os pontos
são colineares.)
(3) O coe…ciente de correlação é também expresso na forma percentual. Assim
se r = 0; 87, então pode-se escrever r = 87%, signi…cando que a correlação entre
as duas variáveis em estudo é negativa e relativamente alta. Além disso, o valor
r2 = ( 0; 87)2 = 0; 7569 = 75; 69% nos informa que 75; 69% da variabilidade da
variável resposta é explicada pela covariável em estudo, e que, portanto, 24; 31%
(100% 75; 69%) da variabilidade da variável resposta não é explicada pela variável
explicativa. O coe…ciente r2 é chamado de coe…ciente de determinação.
É preciso, no entanto, ressaltar que mesmo uma alta correlação entre duas var-
iáveis não signi…ca necessariamente uma relação de causa-efeito entre elas! Relações
de causalidade são atribuídas pela conhecimento cientí…co sobre as variáveis en-
volvidas, pois poderíamos ter por exemplo uma alta correlação numérica entre grau
de calvície e grau de miopia, sem no entanto ter qualquer relação causal médica
plausível para isso. Portanto, é preciso cautela ao se tirar conclusões em estudos de
correlação entre variáveis.
A Reta de Regressão
Mais do que medir o grau de correlação linear entre duas variáveis quantitativas,
interessa-nos também obter a equação da melhor reta que passa pelos pontos ob-
servados, pois através dessa reta podemos estimar a variável resposta para valores
não observados da variável explicativa. A melhor reta é obtida através do Cálculo
Diferencial, pelo uso da derivação parcial e sua demostração está além do escopo
65
desse curso introdutório.
Depois de constatar que existe uma correlação linear signi…cante, podemos então
escrever uma equação linear que descreva a relação entre as variáveis x e y. Essa
equação chama-se reta de regressão ou reta do ajuste ótimo.
Denominemos yî , o valor estimado da variável resposta pela reta de regressão à
luz do valor da variável explicativa xi . Então podemos descrever (dada a existência
de uma relação linear entre as variáveis):
yî = axi + b
O Método de Mínimos Quadrados, desenvolvido por Gauss, consiste em obter a
e b, a …m de minimizar a soma dos quadrados dos erros ei = yi yî entre o valor
observado da variável resposta e seu valor estimado pela reta de regressão, isto é,
minimizar
X
n X
n
2
X
n
e2i = (yi yî ) = (yi axi b)2 ,
i=1 i=1 i=1
conforme a ilustração abaixo:
Pode-se mostrar através do Cálculo Diferencial que os valores de a e b que min-

Pn
imizam i=1 (yi axi b)2 são dados por
P P P
n ni=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
a= P P 2
n ni=1 x2i ( ni=1 xi )
66
e
b = Yn a:Xn .
Vamos então ilustrar com um exemplo o uso do coe…ciente de correlação e da
reta de regressão.
Exemplo 11 Suponha que desejemos avaliar a correlação entre o número de faltas
dos alunos em sala de aula e a média …nal de suas provas em Matemática num
dado ano letivo. Para isso, selecionamos aleatoriamente 7 alunos para a amostra,
obtendo-se os dados abaixo.

Aluno Falta Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81
A primeira coisa a se fazer, como dissemos antes, é construir um diagrama
de dispersão para avaliar gra…camente uma possível relação entre as variáveis em
estudo. No nosso caso, a variável explicativa, ou covariável, x, é o número de faltas
e a variável resposta, y, é a média …nal do ano letivo. O diagrama de dispersão é
dado por:
67
Pelo diagrama de dispersão, vemos que há indicíos de uma boa correlação linear
negativa entre número de faltas e média …nal, indicando que quanto mais faltas tem
um aluno, mais a sua média …nal tende a decrescer. Precisamos agora medir a
correlação entre as variáveis em estudo. Para isso, prepararemos uma tabela com
as somas necessárias para o cálculo do coe…ciente de correlação r.

Aluno xi yi xi :yi x2i yi2
1 8 78 624 64 6:084
2 2 92 184 4 8:464
3 5 90 450 25 8:100
4 12 58 696 144 3:364
5 15 43 645 225 1:849
6 9 74 666 81 5:476
7 6 81 486 36 6:561
Somas 57 516 3:751 579 39:898
Assim temos
X
7 X
7 X
7 X
7 X
7
xi :yi = 3:751, xi = 57, yi = 516, x2i = 579 e yi2 = 39:898.
i=1 i=1 i=1 i=1 i=1
Utilizando a fórmula simpli…cada para r, temos

P P7 P7
7 7i=1 xi :yi i=1 xi : i=1 yi
r = q P P7
q
P P7
2 2
7 7i=1 x2i i=1 xi 7 7i=1 yi2 i=1 yi
7 3:751 57 516
= p p
7 579 572 7 39:898 5162
3:155
= p p
804 13:030
68
r= 0; 975 ou r = 97; 5%
Vemos então uma alta correlação negativa entre as duas variáveis em estudo,
con…rmando nossa análise do diagrama de dispersão. O coe…ciente de determinação
é dado por r2 = ( 0; 975)2 = 0; 9506 = 95; 06%. Assim apenas 4; 94% das notas
…nais não são explicadas pelo número de faltas dos alunos.
Vamos agora então obter a equação da reta de regressão
yî = axi + b
onde
P7 P7 P7
7
i=1 x i :y i i=1 x i : i=1 yi
a = P7 P 7 2
7 i=1 x2i i=1 xi
7 3:751 57 516
=
7 579 572
3:155
=
804
a= 3; 924
b = Y7 a:X7
516 57
= ( 3; 924) :
7 7
b = 105; 667
A reta de regressão tem a equação dada por
yî = 3; 924xi + 105; 667.
Observe que de fato o coe…ciente angular da reta é negativo, indicando a correlação
negativa entre as variáveis no estudo.
De posse desta reta, podemos estimar valores de média …nal para números de
faltas não observadas na amostra. Por exemplo, qual seria a média …nal esperada
69
para um aluno que tivesse 4 faltas no ano letivo? Teríamos então
y^ = 3; 924 4 + 105; 667
= 89; 97
Ou seja, esperaríamos que um aluno com 4 faltas obtivesse média …nal de 89; 97.
Exercício 29 Muitas vezes, a determinação da capacidade de produção instalada
para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como
alternativa, pode-se estimar a capacidade de produção através da escolha de uma
outra variável de medida mais fácil e que esteja linearmente relacionada com ela.
Suponha que foram observados os valores para as variáveis: capacidade de pro-
dução instalada, potência instalada e área construída, conforme tabela abaixo:
Cap. Prod. Inst. (ton.) 4 5 4 5 8 9 10 11 12 12

Potência Inst. (1000 kW) 1 1 2 3 3 5 5 6 6 6
Área Construída (100 m) 6 7 10 10 11 9 12 10 11 14
(a) Com base num critério estatístico, qual das variáveis (potência instalada ou
área construída) você escolheria para estimar a capacidade de produção instalada?
Justi…que solidamente.
(b) Tendo escolhido a variável que melhor estima a capacidade de produção in-
stalada, obtenha a reta de regressão das variáveis envolvidas.
Exercício 30 Com o objetivo de veri…car até que ponto o "status"da relação amorosa
- casamento ou namoro - in‡ui na percepção do amor por parte dos jovens, foi apli-
cada uma escala de atitudes em 16 pares, sendo oito compostos de namorados e oito
de casados. Uma das suposições das autoras era que entre casados haveria maior
concordância de atitude do que entre namorados, ou seja, que os dois membros do
mesmo par teriam o mesmo enfoque no amor - romântico ou não. Os resultados
apenas dos 8 pares casados estão apresentados abaixo.
70
Comparação entre Homens e Mulheres Casados quanto ao Grau de Romantismo:
Casais Mulher (X) Homem (Y)

1 72 75
2 73 72
3 74 76
4 74 75
5 73 69
6 73 73
7 72 67
8 70 72
Pede-se:
(a) Construir um Diagrama de Dispersão para os dados coletados.
(b) Determinar o Coe…ciente de Correlação Linear, e tirar conclusões.
(c) Determinar a reta de regressão de Y como variável resposta e X como covar-
iável.
(d) Determinar a reta de regressão de X como variável resposta e Y como covar-
iável.
(e) Estimar o grau de romantismo da mulher, quando o homem apresenta resul-
tado 74.
(f) Estimar o grau de romantismo do homem, quando a mulher apresenta resul-
tado 71.
71
Capítulo 3
Probabilidade
3.1 De…nições e Resultados Básicos da Teoria das

Probabilidades
Suponha que vamos realizar um experimento cujo resultado não pode ser predito
de antemão. Entretanto, suponha que saibamos todos os possíveis resultados de
tal experimento. Este conjunto de todos os resultados possíveis, que denotaremos
por , é chamado de espaço amostral do experimento. Assim, temos a seguinte
de…nição:
De…nição 1 O conjunto de todos os resultados possíveis de um determinado ex-
perimento é chamado de espaço amostral.
Exemplo 12 Se o experimento consiste em lançar uma moeda, então = fCa; Cog,
onde Ca é ”cara” e Co é ”coroa”.
Exemplo 13 Se o experimento consiste em lançar um dado e observar a face su-
perior, então = f1; 2; 3; 4; 5; 6g.
Exemplo 14 Se o experimento consiste em lançar duas moedas, então
= f(Ca; Ca); (Ca; Co); (Co; Ca); (Co; Co)g, onde o resultado (a; b) ocorre se a
face da primeira moeda é a e a face da segunda moeda é b.
72
Exemplo 15 Se o experimento consiste em lançar dois dados e observar as faces
superiores, então
8 9
>
> (1; 1) (1; 2) (1; 3) (1; 4) (1; 5) (1; 6) >
>
>
> >
>
>
> (2; 1) (2; 2) (2; 3) (2; 4) (2; 5) (2; 6) >
>
< =
(3; 1) (3; 2) (3; 3) (3; 4) (3; 5) (3; 6)
=
>
> (4; 1) (4; 2) (4; 3) (4; 4) (4; 5) (4; 6) >
>
>
> >
>
>
> (5; 1) (5; 2) (5; 3) (5; 4) (5; 5) (5; 6) >
>
: ;
(6; 1) (6; 2) (6; 3) (6; 4) (6; 5) (6; 6)
onde o resultado (i; j) ocorre se a face i aparece no primeiro dado e a face j no
segundo dado.
Exemplo 16 Se o experimento consiste em medir a vida útil de um carro, então
um possível espaço amostral consiste de todos os números reais não-negativos, isto
é, = [0; 1).
De…nição 2 Qualquer subconjunto A do espaço amostral , isto é A , ao qual
atribuímos uma probabilidade, é dito um evento aleatório.
Obviamente, como ; e os conjuntos ; e são eventos aleatórios. O
conjunto vazio ; é denominado evento impossível e o conjunto é denominado
evento certo. Se ! 2 o evento f!g é dito elementar (ou simples).
De…nição 3 Dois eventos A e B são ditos mutuamente exclusivos ou incom-
patíveis se A \ B = ;.
Observação 1 É importante saber traduzir a notação de conjuntos para a lin-
guagem de eventos: A [ B é o evento ”A ou B”; A \ B é o evento ”A e B” e
Ac é o evento ”não A”.
Observação 2 (Concepção Errônea) Um dos equívocos comumente observado é
o estabelecimento de uma relação um a um do experimento com o espaço amostral
associado. É preciso ter em mente que para todo experimento é possível estabelecer
73
uma in…nidade de espaços amostrais, todos legítimos, pois o espaço amostral deve
ser o conjunto que contém todos os resultados possíveis, mas não há necessidade
de que este seja minimal. Assim, se o experimento consiste em lançar um dado
e se observar a sua face superior, podemos ter 1 = f1; 2; 3; 4; 5; 6g, 2 = N e
3 = (0; 1) como espaços amostrais legítimos para esse experimento. Em todos

1
eles basta atribuir a probabilidade de 6
para os pontos 1; 2; 3; 4; 5 e 6 e probabilidade
nula para os demais pontos se houver. Claro que não há necessidade de se pecar por
excesso, se podemos reconhecer o espaço amostral mínimo, mas isso nem sempre é
possível, como o exemplo 16, que se presta a vários possíveis espaços amostrais e
nesse caso pecaremos por excesso e deixaremos a medida de probabilidade fazer o
trabalho de de…nir pontos (ou regiões) de maior e menor probabilidade.
É preciso lembrar também que toda escolha do espaço amostral induz uma medida
de probabilidade diferente. Por exemplo, se temos uma urna com três bolas brancas
e 2 bolas vermelhas e o experimento consiste em se retirar uma bola e registrar a sua
cor, então poderíamos ter os seguintes espaços amostrais, dentre outros possíveis:
1 = fb; vg e 2 = fb1 ; b2 ; b3 ; v1 ; v2 g. No primeiro espaço amostral, estaríamos con-
siderando as bolas pretas e vermelhas indistinguíveis entre si e assim o ponto b teria

3 2
5
de chance e o ponto v teria 5
de chance, ou seja, um espaço amostral de elemen-
tos não equiprováveis. No segundo espaço amostral, estaríamos considerando todas
as bolas como distinguíveis e, nesse caso, cada ponto tem a mesma probabilidade
1
5
, construindo assim um espaço amostral de elementos equiprováveis. Portanto, se
o evento for "retirar uma bola branca", então esse evento será dado por fbg pelo
espaço amostral 1, e fb1 ; b2 ; b3 g pelo espaço amostral 2. No entanto, ambos terão
a mesma chance de 35 .
74
3.1.1 De…nição e Propriedades das Probabilidades
Há várias interpretações da probabilidade. Discutiremos as três mais correntes:
(Clássica) Baseia-se no conceito de equiprobabilidade, ou seja, de resultados equiprováveis.
Seja A um evento e o espaço amostral …nito, então
#A
P (A) =
#
onde #A é a cardinalidade de A e # a cardinalidade de .
Vemos, portanto, que esta de…nição de probabilidade presupõe que todos os
elementos de são igualmente prováveis, ou seja, têm o mesmo peso. Este é o caso
por exemplo de um dado equilibrado.
Esta forma de de…nir a probabilidade é também conhecida pelo nome de probabil-
idade de Laplace, em homenagem ao astrônomo e matemático francês Pierre-Simon
Laplace, que estabeleceu, de uma maneira sistemática e rigorosa, os princípios e
propriedades desta forma de calcular probabilidades.
Exemplo 17 Sete pessoas entram juntas num elevador no andar térreo de um ed-
ifício de 10 andares. Suponha que os passageiros saiam independentemente e de
maneira aleatória com cada andar (1; 2; :::; 10) tendo a mesma probabilidade de ser
selecionado. Qual a probabilidade de que todos saiam em andares diferentes?
(Freqüentista) Baseia-se na freqüência relativa de um ”número grande” de realizações inde-
pendentes do experimento. Seja A um evento, então
nA
P (A) = lim
n!1 n
onde nA é o número de ocorrências do evento A em n realizações.
75
Observação 3 O limite acima não pode ser entendido como um limite matemático,
pois dado " > 0 não há garantia de que existe n0 2 N tal que para todo n n0 se
tenha
nA
P (A) < ".
n
nA
É improvável que P (A) " para n N (grande), mas pode acontecer.
n
Outra di…culdade do conceito freqüentista é que o experimento nunca é realizado
in…nitas vezes, logo não há como avaliar a probabilidade de forma estrita.
Exemplo 18 (Discussão em sala de aula) Suponha a seguinte situação: Você
está participando de um programa televisivo chamado "Porta da Felicidade", da
seguinte forma: O apresentador do programa lhe mostra três portas, uma das quais
esconde um carro como prêmio e as outras duas não oferecem nada e o colocam
fora do jogo. O que acontece? Você escolhe uma porta e o apresentador abre uma
outra porta vazia não escolhida por você. Assim, ainda há a chance de você ganhar
o carro. Mas agora lhe é oferecida a oportunidade de mudar de porta! O que você
deve fazer para maximizar a chance de acerto? Ficar com a mesma porta escolhida;
mudar para a outra porta; ou qualquer das duas estratégias, por ser indiferente?
Analise a estratégia ótima à luz do conceito frequentista de probabilidade.
(Subjetiva) Baseia-se em crenças e/ou informações do observador a respeito do fenômeno
em estudo. Neste caso a probabilidade de um evento depende do observador,
isto é, do que o observador conhece sobre o fenômeno em estudo. Pode pare-
cer um tanto informal para uma de…nição de probabilidade de um evento. No
entanto, em muitas situações é necessário recorrer a um especialista para ter
pelo menos uma ideia vaga de como se comporta o fenômeno de nosso inter-
esse e saber se a probabilidade de um evento é alta o baixa. Por exemplo,
76
qual é a probabilidade de que o Vasco ganhe o próximo campeonato? Cer-
tas circunstâncias internas do time, as condições do time rival ou qualquer
outra condição externa, são elementos que só algumas pessoas conhecem e que
poder¬am nos dar uma ideia mais exata desta probabilidade. Esta forma sub-
jetiva de atribuir probabilidades aos diferentes eventos deve, entretanto, ser
consistente com uma série de regras naturais que estudaremos adiante.
Exemplo 19 Por exemplo, seja o evento C ”chove em Moscou”.
Então, para alguém no Rio de Janeiro, sem qualquer conhecimento prévio, podemos
ter a seguinte avaliação: P (C) = 0; 5.
Já para alguém de Leningrado, podemos ter: P (C) = 0; 8, se chove em Leningrado
e P (C) = 0; 2, se não chove em Leningrado.
Finalmente, para alguém de Moscou, tem-se: P (C) = 1, se está chovendo em
Moscou e P (C) = 0, se não está chovendo em Moscou.
(Axiomática) Na de…nição axiomática da probabilidade não se estabelece a forma explícita
de calcular as probabilidades, mas unicamente as regras que o cálculo das
probabilidades deve satisfazer. Três postulados ou axiomas para a Teoria das
Probabilidades foram estabelecidos em 1933 pelo matemático russo Andrey
Nikolaevich Kolmogorov.
Não nos preocuparemos com o problema de como de…nir probabilidade para cada
experimento. Assentaremos a base axiomática da teoria das probabilidades tal como
foi erigida por Kolmogorov, responsável pela base matemática sólida da teoria.
Seja um espaço amostral e A um subconjunto de . Uma medida de proba-
bilidade P é uma aplicação de argumento A tendo os seguintes axiomas:
A1) P (A) 0.
77
A2) P ( ) = 1.
A3) (Aditividade …nita) Se A1 ; A2 ; :::; An são disjuntos dois a dois, isto é,

n X n
Ai \ Aj = ; para todo i 6= j, então P [ Ai = P (Ai ).
i=1
i=1
Uma função P satisfazendo os Axiomas 1, 2 e 3 é chamada probabilidade …ni-
tamente aditiva. Entretanto, no curso formal de Probabilidade você verá que,
para dar conta dos problemas reais de Probabilidade, será mais conveniente
supor -aditividade:
1 X
1
A3’) Se A1 ; A2 ; ::: são disjuntos dois a dois, então P [ Ai = P (Ai ).
i=1
i=1
Com base nos axiomas de probabilidade, pode-se demonstrar os seguintes teore-
mas:
Teorema 1 P (;) = 0.
Prova. (Em aula.)
Observação 4 (Concepção Errônea) Sabemos agora que se A = ; então P (A) =
0. No entanto, a recíproca não é verdadeira, isto é, P (A) = 0 não implica neces-
sariamente que A = ;! Um evento pode ter probabilidade nula e não ser impossível.
Da mesma forma, sabemos pelo Axioma 2 que se A = então P (A) = 1. No
entanto um evento pode ter probabilidade 1 e não ser o evento certo . É o que
chamamos em probabilidade de um evento quase-certo.
Vejamos o exemplo a seguir para ilustrar esses fatos.
Exemplo 20 Um experimento consiste em se selecionar um ponto aleatoriamente
do círculo de raio unitário centrado na origem. Então
= ! = (x; y) : x2 + y 2 1
78
Como todo ponto é aleatoriamente escolhido, a probabilidade de um ponto cair numa
região do círculo deveria ser a razão entre a área dessa região e a área do círculo
unitário. Assim, se A , temos
SA
P (A) = ,
com SA a área da região de…nida pelos pontos de A. Mas então, todo evento ele-
mentar desse espaço amostral tem probabilidade nula, pois se A = f(a; b)g, então
SA = 0, e consequentemente
0
P (A) = = 0.
No entanto A 6= ?. Além disso, observe que todo experimento terá como um resul-
tado um ponto do círculo unitário, que tinha probabilidade nula antes de ele ocorrer.
Portanto eventos de probabilidade 0 não são necessariamente eventos impossíveis!
Seja agora o evento B como sendo o conjunto de pontos do círculo unitário tais
que a abscissa é diferente da ordenada, isto é, B = f! = (x; y) : x2 + y 2 1 e x 6= yg.
Naturalmente B é subconjunto próprio de . Mas
SB
P (B) = = = 1,
pois SB (a área da região de…nida pelos pontos de B) equivale à área de . Assim
B é um evento quase-certo, pois embora possamos obter um ponto do tipo (a; a) que
não satisfaz ao evento B, a chance de isso ocorrer é nula.
Teorema 2 Para todo A , temos P (Ac ) = 1 P (A).
Prova. (Em aula.)
Teorema 3 Para todo A , temos 0 P (A) 1.
Prova. (Em aula.)
79
Teorema 4 Sejam A e B . Se A B, então
(a) P (B A) = P (B) P (A);
(b) P (A) P (B).
Prova. (Em aula.)
Teorema 5 Sejam A e B . Então P (A [ B) = P (A) + P (B) P (A \ B).
Prova. (Em aula.)
Teorema 6 Sejam A, B e C eventos aleatórios. Então P (A [ B [ C) = P (A) +
P (B) + P (C) P (A \ B) P (A \ C) P (B \ C) + P (A \ B \ C).
Prova. (Em aula.)
O que o teorema acima nos informa é que a probabilidade da união de três even-
tos é dado pela soma das probabilidades da ocorrência individual deles, retirada da
soma das probabilidades de ocorrerem dois a dois e somada com a chance de eles
ocorrerem concomitantemente. O resultado acima, conhecido como o Princípio da
Inclusão e Exclusão da Probabilidade, pode ser generalizado para n eventos. As-
sim, a probabilidade da união de n eventos será dada pela soma das probabilidades
individuais, menos a soma das probabilidades dois a dois, mais a soma das probabili-
dades dos eventos tomados três a três, menos a soma das probabilidades dos eventos
tomados quatro a quatro, e assim por diante. Assim, quando temos um número par
de eventos a fórmula termina com uma diferença; se o número de eventos é ímpar,
a fórmula termina com uma soma. Em outras palavras, sejam A1 ; A2 ; :::; An .
Então
n X
n X X
P [ Ai = P (Ai ) P (Ai \ Aj ) + P (Ai \ Aj \ Ak )
i=1
i=1 i<j i<j<k
X
P (Ai \ Aj \ Ak \ Al ) + ::: + ( 1)n+1 P (A1 \ A2 \ ::: \ An )
i<j<k<l
80
Observação 5 (Paradoxo de Bertrand) O Paradoxo de Bertrand nos mostra
que não existe um único modelo de Probabilidade para um dado experimento, se
a gênese do fenômeno não é conhecida. Vejamos o paradoxo:
Seja um triângulo equilátero inscrito num círculo unitário. Uma corda do círculo
é selecionada aleatoriamente. Qual a probabilidade de que a corda seja maior que o
lado do triângulo?
Modelo 1: A corda é obtida através da seleção aleatória de dois pontos da
circunferência. Então p = 31 .
Modelo 2: Um ponto é escolhido aleatoriamente sobre um diâmetro do círculo.
A corda é obtida pela perpendicular ao diâmetro que passa pelo ponto. Então p = 21 .
Modelo 3: Um ponto é escolhido aleatoriamente do círculo. A corda é con-
struída tendo o ponto selecionado como seu ponto médio. Então p = 41 .
81
Vejamos os seguintes exemplos para aplicação dos resultados obtidos.
Exemplo 21 Suponha que dois dados sejam lançados. Qual a probabilidade de que
a soma dos números seja par?
Exercício 31 5 bolas brancas e 3 bolas vermelhas são retiradas aleatoriamente de
uma urna. Qual a probabilidade de que a primeira e a última bolas sejam brancas?
Qual a probabilidade de que a primeira e a última bolas tenham cores diferentes?
Exemplo 22 Um ponto é selecionado do círculo unitário. Qual a probabilidade de
se selecionar um ponto no setor angular de 0 a radianos?

4
Exemplo 23 Sete pessoas entram juntas num elevador no andar térreo de um ed-
ifício de 10 andares. Suponha que os passageiros saiam independentemente e de
maneira aleatória com cada andar (1; 2; :::; 10) tendo a mesma probabilidade de ser
selecionado. Qual a probabilidade de que todos saiam em andares diferentes?
Exemplo 24 Numa sala há n alunos (n 365). Qual a probabilidade de haver dois
ou mais alunos com a mesma data de aniversário (dia e mês idênticos)?
Exemplo 25 Em uma sala, 10 pessoas estão usando emblemas numerados de 1 a
10. Três pessoas são escolhidas ao acaso e convidadas a se retirarem simultanea-
mente. Os números dos emblemas são registrados. Pergunta-se:
(a) Qual a probabilidade de que o menor número seja 5?
(b) Qual a probabilidade de que o maior número seja 5?
Exemplo 26 Da população canadense 30% são da província de Quebec, 28% falam
francês e 24% são de Quebec e falam francês. Escolhido ao acaso um canadense,
qual a probabilidade de:
82
(a) ser de Quebec ou falar francês?
(b) não ser de Quebec nem falar francês?
(c) falar francês mas não ser de Quebec?
Exemplo 27 Se quatro dados são lançados, qual a probabilidade de que os quatro
números sejam diferentes?
Exemplo 28 Qual a probabilidade de se ganhar a sena com um único cartão e
jogando apenas 6 números? E a quina? E a quadra?
Exemplo 29 Uma caixa contém 2n sorvetes, n do sabor A e n do sabor B. De um
grupo de 2n pessoas, a < n preferem o sabor A, b < n o sabor B e 2n (a + b) não
têm preferência. Se os sorvetes são distribuídos ao acaso, qual a probabilidade de
que a preferência de todas as pessoas seja respeitada?
Exemplo 30 Se P (E) = 0; 9 e P (F ) = 0; 8, mostre que P (E \ F ) 0; 7. Em geral
mostre que
P (E \ F ) P (E) + P (F ) 1.
Este resultado é conhecido como a desigualdade de Bonferroni.
Exemplo 31 Suponha que n homens presentes numa festa joguem seus chapéus no
centro da sala. Em seguida cada homem de olhos vendados seleciona um chapéu.
Mostre que a probabilidade de que nenhum dos n homens selecione o seu próprio
chapéu é
1 1 1 ( 1)n
+ ::: + .
2! 3! 4! n!
O que acontece quando n ! 1?
Exemplo 32 Um baralho tem 52 cartas. Estas cartas consistem de 4 naipes chama-
dos paus, ouros, copas e espadas. Cada naipe tem 13 cartas com os símbolos 2, 3, 4,
83
..., 10, J, Q, K, A. Uma mão de pôquer consiste de 5 cartas extraídas do baralho, sem
reposição e sem consideração de ordem. Considera-se que constituem seqüências as
mãos do seguinte tipo: A, 2, 3, 4, 5; 2, 3, 4, 5, 6;...; 10, J, Q, K, A. Determine a
probabilidade de se extrair:
(a) um Royal Flush ((10, J, Q, K, A) do mesmo naipe).
(b) um Straight Flush (cinco cartas do mesmo naipe em seqüência).
(c) um Four (valores da forma (x, x, x, x, y) onde x e y são distintos).
(d) um Full House (valores da forma (x, x, x, y, y) onde x e y são distintos).
(e) um Flush (cinco cartas do mesmo naipe).
(f) um Straight (cinco cartas em seqüência, sem consideração de naipes).
(g) uma Trinca (valores da forma (x, x, x, y, z) onde x, y e z são distintos).
(h) Dois pares (valores da forma (x, x, y, y, z) onde x, y e z são distintos).
(i) um par (valores da forma (x, x, y, z, w) onde x, y, z e w são distintos).
3.1.2 Probabilidade Condicional
De…nição 4 Seja um espaço amostral. Se B e P (B) > 0, a probabilidade
condicional de A dado B é de…nida por
P (A \ B)
P (A j B) = , A . (3.1)
P (B)
Note que P (A j B), A , é realmente uma probabilidade (veri…que os ax-
iomas!). Conseqüentemente as propriedades de probabilidade são mantidas, por
exemplo,
P (Ac j B) = 1 P (A j B).
Exemplo 33 Certo experimento consiste em lançar um dado equilibrado duas vezes,
independentemente. Dado que os dois números sejam diferentes, qual é a probabili-
dade condicional de
84
(a) pelo menos um dos números ser 6;
(b) a soma dos números ser 8?
Teorema 7 Sejam A; B com P (A) > 0 e P (B) > 0. Então
P (A \ B) = P (B):P (A j B)
= P (A):P (B j A)
Prova. (Em aula.)
Teorema 8 (a) P (A \ B \ C) = P (A):P (B j A):P (C j A \ B).
(b) P (A1 \ A2 \ ::: \ An ) = P (A1 ):P (A2 j A1 ):P (A3 j A1 \ A2 ):::P (An j A1 \
A2 \ :::An 1 ), para todo A1 ; A2 ; :::; An e para todo n = 2; 3; :::.
Prova. (Em aula.)
Exemplo 34 Selecionar três cartas sem reposição ao acaso. Qual a probabilidade
de se retirar 3 reis. (Use o teorema acima para resolver o problema e compare com
o uso da análise combinatória.)
De…nição 5 Seja um conjunto não-vazio. Uma partição de é uma família de
conjuntos A1 , A2 , ..., An tais que

n
(i) [ Ai =
i=1
(ii) Ai \ Aj = ;, para todo i 6= j.
Ou seja, os conjuntos A1 , A2 , ..., An são disjuntos dois a dois e a sua união é
o conjunto . Dizemos também que foi particionado pelos conjuntos A1 , A2 , ...,
An .
Para todo evento B temos
n
B = [ (Ai \ B) .
i=1
85
Como os Ai são disjuntos, então os Ci = Ai \B são disjuntos. Com isto podemos
demonstrar os seguintes teoremas:
Teorema 9 (Teorema da Probabilidade Total) Se a seqüência (…nita ou enu-
merável) de eventos aleatórios A1 , A2 , ...formar uma partição de , então
X
P (B) = P (Ai ):P (B j Ai ) (3.2)
i
para todo B .
Prova. (Em aula.)
Teorema 10 (Fórmula de Bayes) Se a seqüência (…nita ou enumerável) de even-
tos aleatórios A1 , A2 , ... formar uma partição de , então
P (Ai )P (B j Ai )
P (Ai j B) = X . (3.3)
P (Aj ):P (B j Aj )
j
Prova. (Em aula.)
Exemplo 35 Seja uma caixa contendo 3 moedas: duas honestas e uma de duas
caras. Retirar uma moeda ao acaso e jogá-la. Qual a probabilidade condicional da
moeda ter sido a de duas caras, dado que o resultado …nal foi cara?
Exemplo 36 Durante o mês de novembro a probabilidade de chuva é de 0,3. O
Fluminense ganha um jogo em um dia com chuva com probabilidade de 0,4; e em
um dia sem chuva com a probabilidade de 0,6. Se ganhou um jogo em novembro,
qual a probabilidade de que choveu nesse dia?
Exemplo 37 Pedro quer enviar uma carta à Marina. A probabilidade de que Pedro
escreva a carta é de 0,80. A probabilidade de que o correio não a perca é de 0,9. A
probabilidade de que o carteiro a entregue é de 0,9. Dado que Marina não recebeu a
carta, qual é a probabilidade de que Pedro não a tenha escrito?
86
Exemplo 38 Uma moeda é lançada. Se ocorre cara, um dado é lançado e o seu
resultado é registrado. Se ocorre coroa, dois dados são lançados e a soma dos pontos
é registrada. Qual a probabilidade de ser registrado o número 2?
Exemplo 39 Suponha que temos 4 cofres, cada um com dois compartimentos. Os
cofres 1 e 2 têm um anel de brilhante num compartimento e um anel de esmeralda
no outro. O cofre 3 têm dois anéis de brilhante em seus compartimentos, e o cofre
4 têm dois anéis de esmeralda. Escolhe-se um cofre ao acaso, abre-se um dos com-
partimentos ao acaso e encontra-se um anel de brilhantes. Calcule a probabilidade
de que o outro compartimento contenha:
(a) um anel de esmeralda;
(b) um anel de brilhantes.
Exemplo 40 Um estudante se submete a um exame de múltipla escolha no qual
cada questão tem cinco respostas possíveis, das quais exatamente uma é correta. O
estudante seleciona a resposta correta se ele sabe a resposta. Caso contrário, ele
seleciona ao acaso uma resposta dentre as 5 possíveis. Suponha que o estudante
saiba 70% das questões. Pergunta-se:
(a) Qual a probabilidade de que o estudante escolha a resposta correta para uma
dada questão?
(b) Se o estudante escolhe a resposta correta para uma dada questão, qual a
probabilidade de que ele sabia a resposta?
3.1.3 Independência
De…nição 6 Seja um espaço amostral. Os eventos aleatórioa A e B são (esto-
casticamente) independentes se
P (A \ B) = P (A):P (B).
87
Observação 6 Eventos de probabilidade 0 ou 1 são independentes de qualquer outro.
Observação 7 (Concepção Errônea) Um erro muito comum entre os alunos é
associar independência com disjunção de eventos, interpretando erroneamente que
se A e B são independentes, então A \ B = ?. É justamente o contrário que se dá,
ou seja, se A \ B = ?, então A e B não são independentes (a menos que um deles
ao menos tenha probabilidade zero). Isso …ca claro se pensarmos que P (A) = p > 0
e P (B) = q > 0 com A \ B = ?. Assim, neste caso, teremos
P (A \ B) P (?) 0
P (A j B) = = = = 0 6= p = P (A) .
P (B) P (B) q
Assim P (A j B) 6= P (A), o que prova que A e B não são independentes!
Outra maneira de justi…car esse fato é pensar que se A e B não têm nada em
comum, então se um deles ocorre a probabilidade de o outro ocorrer é inevitavelmente
nula, o que reduz uma chance inicial desse outro evento ocorrer a zero. Ou seja,
para que dois conjuntos sejam independentes eles necessitam potencialmente ter algo
em comum, do contrário serão dependentes.
Outro problema de má interpretação do conceito de independência de eventos
com a disjunção decorre de uma má caracterização do espaço amostral como no
exemplo a seguir.
Exemplo 41 Um dado e uma moeda honestos são lançados sucessivamente e seus
resultados são registrados. Qual a probabilidade de se obter um número primo e uma
face cara?
Teorema 11 A é independente de si mesmo se e somente se P (A) = 0 ou 1.
Prova. (Em aula.)
Teorema 12 Se A e B são independentes, então A e B c também são independentes
(e também Ac e B, e ainda Ac e B c ).
88
Prova. (Em aula.)
De…nição 7 Os eventos aleatórios Ai , i 2 I (I um conjunto de índices), são inde-
pendentes dois a dois (ou a pares) se
P (Ai \ Aj ) = P (Ai ):P (Aj )
para todo i; j 2 I, i 6= j.
De…nição 8 (a) Os eventos aleatórios A1 ; :::; An (n 2) são chamados (coletiva
ou estocasticamente) independentes se
P (Ai1 \ Ai2 \ ::: \ Aim ) = P (Ai1 ):P (Ai2 ):::P (Aim )
para todo 1 i1 < i2 < ::: < im n, para todo m = 2; 3; :::; n (isto é, se todas as
combinações satisfazem a regra produto).
(b) Os eventos aleatórios A1 ; A2 ; ::: independentes se para todo n 2, A1 ; :::; An
são independentes.
Observação 8 Independência a pares não implica independência coletiva. Con-
forme o exercício a seguir.
Exemplo 42 Seja = fw1 ; w2 ; w3 ; w4 g e suponha P (fwg) = 1=4 para todo w 2 .
Sejam os eventos A = fw1 ; w4 g, B = fw2 ; w4 g e C = fw3 ; w4 g. Veri…que que A, B
e C são independentes dois a dois, mas
P (A \ B \ C) 6= P (A):P (B):P (C).
Exercício 32 Suponha que dois jogadores A e B se alternam num jorgo de dardo.
Se os jogadores A e B têm, respectivamente, 60% e 80% de chance de acertar o alvo
e se as jogadas são independentes umas das outras, qual a probabilidade de A ganhar
o jogo se ele começa o jogo? E qual a probabilidade de B ganhar nestas condições?
89
3.2 Lista de Exercícios
Exercício 33 Suponha que A, B e C sejam eventos tais que A e B sejam indepen-
dentes e que P (A \ B \ C) = 0; 04, P (C j A \ B) = 0; 25, P (B) = 4P (A). Calcule
P (A [ B). Resp.: 84%.
Exercício 34 Um médico a partir da observação de sintomas supõe com 55% de
probabilidade que seu paciente esteja com o vírus HIV. Para con…rmar, pede-lhe
que faça um exame que dá positivo em 70% das vezes que o paciente de fato tem a
doença e dá negativo em 65% das vezes que o paciente não tem de fato a doença.
Pergunta-se: Dado que o teste foi positivo, qual a probabilidade de que o paciente
tenha o vírus HIV? Resp.: 70; 97%
Exercício 35 Suponha que uma caixa contenha 5 moedas e que cada moeda tenha
uma probabilidade diferente de dar cara. Seja pi a probabilidade de sair cara, quando
a i-ésima moeda é lançada, e que p1 = 0, p2 = 1=4, p3 = 1=2, p4 = 3=4, p5 = 1.
Suponha, …nalmente, que uma moeda é selecionada aleatoriamente da caixa e que,
ao ser lançada, dá cara. Com base nesta informação, calcule:
(a) A probabilidade de que se tenha selecionado a moeda 5. Resp.: 2=5.
(b) A probabilidade de se obter outra cara ao lançar a mesma moeda novamente.
Resp.: 3=4.
Exercício 36 Dois dados são lançados. Seja A1 = fface ímpar no primeiro dadog,
A2 = fface ímpar no segundo dadog e A3 = fa soma da faces é ímparg. Esses even-
tos são independentes dois a dois? Eles são conjuntamente independentes? Resp.:
Sim; Não.
Exercício 37 Uma moeda honesta é lançada até que uma cara ocorra ou então até
90
que três lançamentos sejam feitos. Qual a probabilidade de que a moeda deva ser
jogada 3 vezes se se sabe que o primeiro lançamento foi coroa? Resp.: 1=2.
Exercício 38 Prove que se A e B são eventos tais que P (A) > 0, P (B) > 0 e
P (AjB) > P (A), então P (BjA) > P (B).
Exercício 39 Se A e B são eventos independentes tais que P (A) = 1=3 e P (B) =
1=2, calcule P (A [ B), P (Ac [ B c ) e P (Ac \ B). Resp.: 2=3, 5=6 e 1=3.
Exercício 40 A probabilidade de um homem ser canhoto é 1=10. Qual é a prob-
abilidade de, em um grupo de 10 homens, haver pelo menos um canhoto? Resp.:
aproximadamente 0; 65.
Exercício 41 Sacam-se, sucessivamente e sem reposição, duas cartas de um baralho
comum (52 cartas). Calcule a probabilidade de a primeira carta ser uma dama e a
segunda ser de copas. Resp.: 1=52.
Exercício 42 Quantas pessoas você deve intrevistar para ter probabilidade igual ou
superior a 0; 5 de encontrar pelo menos uma que aniversarie hoje? Resp.: 253
Exercício 43 Quantas vezes, no mínimo, se deve lançar um dado não tendencioso
para que a probabilidade de obter algum 6 seja superior a 0; 9? Resp.: 13.
Exercício 44 Um dia você captura 10 peixes em um lago, marca-os e coloca-os de
novo no lago. Dois dias após, você captura 20 peixes no mesmo lago e constata que
dois desses peixes haviam sido marcados por você. Se o lago possui k peixes, qual
era a probabilidade de, capturando 20 peixes, encontrar dois peixes marcados? Resp.:
1
10 k 10 k
.
2 18 20
91
Exercício 45 Qual a probabilidade de, em um grupo de 4 pessoas:
(a) haver alguma coincidência de signos zodiacais? Resp.: 41=96.
(b) as quatro terem o mesmo signo? Resp.: 1=1728.
(c) duas terem um mesmo signo, e as outras duas outro signo? Resp.: 11=576.
(d) três terem um mesmo signo, e a outra outro signo? Resp.: 11=432.
(e) todas terem signos diferentes? Resp.: 55=96.Variáveis Aleatórias
3.3 Conceito
Informalmente, uma variável aleatória é um característico numérico do resultado de
um experimento. Por exemplo:
Exemplo 43 Seja o lançamento de duas moedas e a observação do número de caras
obtido. Então = f(Ca; Ca); (Ca; Co); (Co; Ca); (Co; Co)g. Se de…nirmos X =
número de caras observadas, e ! 1 = (Ca; Ca), ! 2 = (Ca; Co), ! 3 = (Co; Ca),
! 4 = (Co; Co), temos
X(! 1 ) = 2;
X(! 2 ) = X(! 3 ) = 1;
X(! 4 ) = 0.
Exemplo 44 Escolher ao acaso um ponto em [0; 1]. Seja X o quadrado do ponto
obtido. Então = [0; 1] e
X(!) = ! 2 .
Exemplo 45 Escolher ao acaso um ponto no círculo unitário. Seja X a distância
entre o ponto escolhido e a origem. Então = f(x; y) : x2 + y 2 1g e, com
! = (x; y), temos

p
X(!) = x2 + y 2 .
92
Exemplo 46 Joga-se um dado e observa-se a face superior. Então = f1; 2; 3; 4; 5; 6g
X(!) = !.
Entretanto, nem toda função de em R traduz uma variável aleatória.
De…nição 9 Uma variável aleatória X em um espaço de probabilidade ( ; A; P ) é
uma função real de…nida no espaço tal que o conjunto [! 2 : X(!) x] (daqui
para frente escrito de forma simpli…cada [X x]) é evento aleatório para todo x 2 R;
isto é,
X: !R
é uma variável aleatória se [X x] 2 A para todo x 2 R.
Exemplo 47 Sejam = f1; 2; 3; 4g e A = f;; f1; 2g; f3; 4g; g e considere os con-
juntos A = f1; 2g e B = f1; 3g. Então 1A é variável aleatória em ( ; A), mas 1B
não é.
3.4 Função de Distribuição
De…nição 10 A função de distribuição (acumulada) da variável aleatória X,
representada por FX , ou simplesmente por F quando não houver confusão, é de…nida
por
FX (x) = P (X x), x 2 R. (3.4)
Exemplo 48 Duas moedas honestas são lançadas. Seja a variável X que conta o
número de caras observadas. Construa a função de distribuição da variável aleatória
X e represente-a gra…camente.
93
Exemplo 49 Seja um experimento que consiste em selecionar um ponto no círculo
unitário. Seja X a distância entre o ponto escolhido e a origem. Construa a função
de distribuição da variável aleatória X e represente-a gra…camente.
Proposição 1 Propriedades da Função de Distribuição. Se X é uma variável
aleatória, sua função de distribuição F tem as seguintes propriedades:
F1) Se x1 x2 então F (x1 ) F (x2 ); isto é, F é não-decrescente.
F2) Se xn # y, então F (xn ) # F (y); isto é, F é contínua à direita.
F3) limx! 1 F (x) = 0 e limx!+1 F (x) = 1.
Prova. (Em aula)
Tendo em mente que FX (x) = P (X x), podemos observar que
1. P (X > a) = 1 P (X a) = 1 FX (a)
2. P (a < X b) = P (X b) P (X a) = P (X b) P (X a) =
FX (b) FX (a)
3. P (X = a) = P (X a) P (X < a) = FX (a) FX (a ). Ou seja, P (X = a)
é o tamanho do salto da função de distribuição em x = a. Se a função for
contínua no ponto x = a então P (X = a) = 0.
4. P (a < X < b) = P (a < X b) P (X = b)
= P (X b) P (X a) P (X = b) = FX (b) FX (a) [FX (b) FX (b )]
= FX (b ) FX (a).
5. P (a X < b) = P (a < X < b) + P (X = a)
= FX (b ) FX (a) + [FX (a) FX (a )] = FX (b ) FX (a ).
94
6. P (a X b) = P (a < X b) + P (X = a)
= FX (b) FX (a) + [FX (a) FX (a )] = FX (b) FX (a ).
Exemplo 50 Um dado tendencioso é tal que a probabilidade de um ponto é propor-
cional ao próprio ponto. Seja X a variável aleatória que representa a parte inteira
da raiz quadrada do dobro da face obtida. Pede-se:
(a) O espaço de probabilidade ( ; A; P ) e o espaço de probabilidade induzido pela
variável aleatória X.
(b) A função de distribuição da variável aleatória X, esboçando o seu grá…co.
Exemplo 51 Um ponto é selecionado aleatoriamente do intervalo (0; 1). Seja X a
variável aleatória de…nida como X(!) = ln !, com ! o ponto obtido no experi-
mento. Pede-se:
(a) O espaço de probabilidade ( ; A; P ) e o espaço de probabilidade induzido pela
variável aleatória X.
(b) A função de distribuição da variável aleatória X, esboçando o seu grá…co.
3.5 Variáveis Aleatórias Discretas
De…nição 11 A variável aleatória X é discreta se toma um número …nito ou enu-
merável de valores, isto é, se existe um conjunto …nito ou enumerável fx1 ; x2 ; :::g
R tal que X(!) 2 fx1 ; x2 ; :::g para todo ! 2 . A função p(xi ) de…nida por
p(xi ) = P (X = xi ), i = 1; 2; 3; ::: (3.5)
é chamada função de probabilidade de X.
[
Observação 9 Note que [X x] = [X = xi ] e assim
i:xi x
X X
F (x) = P (X = xi ) = p(xi ).
i:xi x i:xi x
95
Além disso, observe que
p(xi ) 0, i = 1; 2; 3; ::: (3.6)
e
X
1
p(xi ) = 1. (3.7)
i=1
Exemplo 52 A probabilidade de um indivíduo acertar um alvo é 2/3. Ele deve
atirar até atingir o alvo pela primeira vez. Seja X a variável aleatória que representa
o número de tentativas até que ele acerte o alvo. Pede-se:
(a) A função de probabilidade de X, mostrando que ela atende as propriedades
(3.6) e (3.7).
(b) A probabilidade de serem necessários cinco tiros para que ele acerte o alvo.
Exemplo 53 Seja X o número de caras obtidas em 4 lançamentos de uma moeda
honesta. Construa a função de probabilidade e a função de distribuição de X es-
boçando os seus grá…cos.
3.6 Variáveis Aleatórias Contínuas
De…nição 12 A variável aleatória X é (absolutamente) contínua se sua função de
distribuição FX (x) é contínua. Isto é, se existe uma função fX (x), dita função de
densidade de probabilidade, com as seguintes propriedades
fX (x) 0 para todo x 2 R e

Z1
fX (x)dx = 1
1
de modo que
Zx
FX (x) = fX (t)dt.
1
96
Observação 10 Pelo Teorema Fundamental do Cálculo, observe que
dFX (x)
fX (x) = .
dx
Observação 11 Como FX (x) é contínua, observe que
1. P (X = x) = FX (x) FX (x ) = 0 para todo x 2 R.
2. P (a X b) = P (a < X b) = P (a X < b) = P (a < X < b) =

Zb
fX (x)dx.
a
3. dFX (x) = fX (x)dx.
Exemplo 54 Veri…que que

8
>
> 0, z < 0
< 2
z , 0 z < 12
FZ (z) = 1
>
> 1 3(1 z)2 , 2
z<1
:
1, z 1
é uma função de distribuição e obtenha a função de densidade de Z. Calcule também
P (Z > 41 jZ 3
4
).
Exemplo 55 Veri…que que

8
< 0, y < 0
p
FY (y) = y, 0 y 1
:
1, y > 1
é uma função de distribuição e calcule a função de densidade de Y. Use-a para
calcular P ( 14 < Y < 34 ).
De…nição 13 Uma variável aleatória é dita singular, se sua função de distribuição
é contínua, mas sua derivada é zero em quase todos os pontos, isto é, exceto em um
conjunto de medida de Lebesgue nula. (Essa linguagem mencionando "quase todos
os pontos"é muito utilizada em probabilidade avançada e signi…ca que a propriedade
só não é válida num conjunto de pontos que tem probabilidade zero, às vezes também
97
referido como de medida nula.) Em outras palavras, X é singular se, e somente se,
existe um conjunto B de comprimento zero tal que P (X 2 B) = 1 e FX é contínua
(isto é, P (X = x) = 0 para todo x 2 R).
De…nição 14 Uma variável aleatória X é dita mista se tem partes nas diferentes
classi…cações (parte discreta, parte contínua e parte singular). (O mais comum é a
mistura de parte contínua com parte discreta, pois, como dissemos, a parte singular
raramente ocorre.)
Exemplo 56 (Exemplo de Variável Aleatória Mista: Discreta e Contínua ao mesmo
tempo) A função de distribuição de uma variável aleatória X é dada por:

8
>
> 0, x < 0
>
>
< x2 , 0 x < 1
2
FX (x) = 3
, 1 x<2
>
> 11
>
> , 2 x<3
: 12
1, x 3
Obtenha:
(a) o grá…co de FX (x);
(b) P (X < 3);
(c) P (X = 1);
(d) P (X > 1=2);
(e) P (2 < X < 4).
Observação 12 Assim toda função de distribuição F de uma variável aleatória X
admite a decomposição
F = 1 Fd + 2 Fac + 3 Fs
onde Fd é a função de distribuição da parte discreta de X, Fac é a função de dis-
tribuição da parte absolutamente contínua de X, Fs é função de distribuição da parte
singular de X, e 1 + 2 + 3 = 1 com 1 0, 2 0e 3 0.
98
Exemplo 57 Seja X uma variável com função de distribuição
8
< 0, x < 2
1
FX (x) = + x+2 , 2 x<0
: 34 1 8 x
4
+ 4 (1 e ), x 0
(a) Classi…que a variável aleatória X e esboce um grá…co de FX .
(b) Calcule P (X > 1) e P (X 4jX > 0).
(c) Decomponha F nas partes discreta, absolutamente contínua e singular.
3.7 Funções de Variáveis Aleatórias
Seja X uma variável aleatória em ( ; A; P ), e considere o problema de determinar
a distribuição de Y = g(X), com g uma função mensurável. Então, temos
FY (y) = P fY yg = P fg(X) yg
De…nindo By = fx : g(x) yg, temos
FY (y) = P fX 2 By g
= PX fBy g
ou seja, conhecendo a distribuição de X, podemos obter a distribuição de qualquer
função mensurável de X.
Observação 13 (a) Quando X é discreta, Y é também discreta e o problema torna-
se simples, pois
X
pY (y) = pX (xi )
i:g(xi )=y
(b) Quando X é contínua, o problema é mais complexo pois Y pode ser discreta,
contínua ou mista. A ideia aqui é essencialmente obter a função de distribuição da
variável aleatória Y e decompô-la nas suas partes discreta e contínua.
99
Exemplo 58 Seja uma variável aleatória discreta, com função de probabilidade
jp k
x
dada por P (X = x) = 12 para x = 1; 2; 3; ::: Seja Y = X , a parte inteira
p
de X. Qual a função de probabilidade da variável aleatória Y?
Exemplo 59 Seja X uma variável aleatória contínua com função de densidade dada
por
( 1
, 2 x 5
fX (x) = 7
0, caso contrário
Encontre a densidade de Y = X 2 .
Exemplo 60 Seja X uma variável contínua com densidade

8
>
> 1
< 4 x, 0 x < 2
>
fX (x) = 1
>
> , 2 x 6
> 8
: 0, caso contrário
(a) Determine a função de distribuição de Y = min(3; X).
(b) Faça a decomposição de FY nas suas partes discreta, contínua e singular.
Exercício 46 Mostre que se X é uma v.a. do tipo contínuo com função de densi-
dade par, ou seja, simétrica em torno de x = 0, isto é, fX (x) = fX ( x), então:
(a) FX (x) = 1 FX ( x);
(b) FX (0) = 12 ;
(c) P ( x < X < x) = 2FX (x) 1, x > 0;

Zx
1
(d) P (X > x) = 2 fX (t)dt, x > 0.
0
Exercício 47 Seja F (x) a função

8
< 0, se x < 0
F (x) = x + 21 , se 0 x 1
2
:
1, se x > 12
100
Mostre que F é de fato uma função de distribuição e calcule:
(a) P (X > 81 )
(b) P ( 18 < X < 25 )

2
(c) P (X < 5
j X > 18 )
Exercício 48 Suponha que X seja uma variável aleatória com f.d.p. dada por
1
fX (x) = , 1<x<1
2(1 + jxj)2
(a) Obtenha a função de distribuição de X.
(b) Ache P ( 1 < X < 2).
(c) Ache P (jXj > 1).
Exercício 49 Z é uma variável aleatória contínua com função de densidade de
probabilidade
10e 10z , z > 0
fZ (z) =
0, z 0
Obtenha a função de distribuição de Z e esboce o seu grá…co.
Exercício 50 Seja X uma variável contínua com densidade fX (x) = 21 e jxj

, 1<
x < 1. Mostre que a densidade de Y = X 2 é dada por
1 p
y
fY (y) = p e 1(0;1) (y).
2 y
Exercício 51 Seja X uma variável aleatória com função de distribuição

8
>
> 0, se x < 0
>
>
>
>
>
> 1 1
>
>
< 4 + 8 x(x + 2), se 0 x < 1
>
FX (x) =
>
> 3
>
> , se 1 x < 34
>
>
>
> 4
>
>
>
: 1, se x 4
3
Pede-se:
101
(a) Classi…car a v.a. X, segundo o critério discreto, contínuo ou misto, justi…-
cando.
(b) Obter a função de probabilidade e/ou a função de densidade da v.a. X.
Exercício 52 Seja FX a função de distribuição de uma variável aleatória X, de…nida
por
x
FX (x) = C1 + C2 para 1<x<1
(jxj + 1)
Pede-se:
(a) O valor das constantes C1 e C2 .
(b) A função de densidade de probabilidade de X.
(c) P (X 1j X > 1).
Exercício 53 Seja X uma variável aleatória positiva com f.d.p. dada por
3x
fX (x) = 3e ; x>0
1
Obtenha o modelo de probabilidade da variável aleatória Y = .
X +1
Exercício 54 Suponha que a variável aleatória absolutamente contínua X tenha a
f.d.p.
x2
f (x) = Cxe , x 0
(a) Calcule o valor de C.
(b) Ache a função de distribuição da variável aleatória X.
(c) Calcule P (X 2jX 1).
Exercício 55 Um ponto K é selecionado aleatoriamente no intervalo (0; 5). Qual
a probabilidade de que as raízes da equação 4x2 + 4Kx + K + 2 = 0 sejam reais?
102
c
Exercício 56 Suponha que a variável X tenha densidade f (x) = para x > 1 e
x4
f (x) = 0, caso contrário, onde c é uma constante. Pede-se:
(a) o valor de c;
(b) a função de distribuição de X e o seu esboço grá…co;
(c) calcule P (X 5jX > 2);
(d) um modelo de probabilidade para a variável aleatória Y = bXc, a parte inteira
da variável aleatória X;
(e) um modelo de probabilidade para a variável aleatória Z = 2X + 8.
Exercício 57 Seja X uma v.a. com função de distribuição dada por

8
< 0, se x < 1
FX (x) = c(1 e (x 1) ), se 1 x < 2
:
c(1 e 1 + e 2 e 2(x 1) ), se x 2
Pede-se:
(a) Obter o valor de c.
(b) Classi…que a v.a. X conforme seja discreta, contínua ou mista e obtenha
a função de probabilidade e/ou função de densidade de probabilidade conforme a
natureza de X.
3
(c) Calcular P (X 2
jX < 4).
(d) Seja Y = X 3 . Ache a lei de Y .
Exercício 58 Seja X variável aleatória com função de distribuição dada por

8
>
> 0, se x < 0
>
>
>
> 1=4, se 0 x < 1
<
2=5, se 1 x < 2
FX (x) =
>
> 1=2, se 2 x < 3
>
>
>
> (2x 5)=2, se 3 x < 3; 5
:
1, se x 3; 5
Pede-se:
(a) Veri…que que F é de fato uma função de distribuição.
103
(b) Classi…que a v.a. X conforme seja discreta, contínua ou mista e obtenha
a função de probabilidade e/ou função de densidade de probabilidade conforme a
natureza de X e decomponha a F nas suas partes discreta, absolutamente contínua
e singular.
(c) Calcular P (29X 6X 2 30).
Exercício 59 Um vendedor de equipamento pesado pode visitar, num dia, um ou

1 2
dois clientes, com probabilidade dee , respectivamente. De cada contrato, pode
3 3
1
resultar a venda de um equipamento por R$ 50:000; 00 (com probabilidade ) ou
10
9
nenhuma venda (com probabilidade ). Indicando a variável aleatória Y como o
10
valor total de vendas diárias desse vendedor, pede-se:
(a) A função de probabilidade de Y .
(b) A função de distribuição de Y .
Exercício 60 Considere a variável aleatória X com função de densidade de prob-
abilidade dada por

c jx 2j , 0 x 4
f (x) =
0, caso contrário
(a) Obtenha o valor de c.
(b) Obtenha a função de distribuição de probabilidade da variável aleatória X.
(c) Obtenha o modelo de probabilidade a variável aleatória Y, de…nida como
2X, se 0 X 2
Y =
2X + 8, se 2 < X 4
104
Capítulo 4
Esperança Matemática
4.1 De…nição
De…nição 15 Seja X uma variável aleatória com função de distribuição FX . A
esperança de X, denotada E(X), é de…nida como

Z1
E(X) = xdFX (x) (4.1)
1
quando a integral está bem de…nida.
Observação 14 (a) '(x) = x é contínua. A integral (4.1) é de Riemann-Stieltjes.

Z1
(b) A esperança está bem de…nida se pelo menos uma das integrais xdFX (x)
0
Z0
ou xdFX (x) for …nita.
1
Z1 Z0
(c) Se ambas as integrais xdFX (x) e xdFX (x) forem …nitas, dizemos que X
0 1
é integrável, ou seja, X é integrável se
Z1
E(jXj) = jxj dFX (x) < 1.
1
(d) Se X é uma variável aleatória discreta tomando valores no conjunto fx1 ; x2 ; x3 ; :::g
e com função de probabilidade p(xi ) = P (X = xi ), então
X
1
E(X) = xi p(xi ).
i=1
105
(e) Se X é uma variável aleatória contínua com função de densidade de probabilidade
fX (x), então
Z1
E(X) = xfX (x)dx
1
(f) Se X é tal que sua função de distribuição se decompõe F = Fd + Fac + Fs ,
então
X
1 Z1 Z1
E(X) = xi p(xi ) + xfX (x)dx + xdFs (x).
i=1 1 1
Exemplo 61 Um dado é lançado sucessivamente, até que a face 6 ocorra pela
primeira vez. Seja X a variável que conta o número de lançamentos até a ocor-
rência do primeiro 6. Calcule a esperança de X.
Exemplo 62 Suponha que X seja uma variável aleatória com f.d.p. dada por
C(9 x2 ), 3 x 3
f (x) =
0, caso contrário
(a) Obtenha o valor de C.
(b) Obtenha a esperança de X.
(c) Ache P (jXj 1).
Proposição 2 (Propriedades da Esperança) A esperança matemática atende
às seguintes propriedades:
(i) E(C) = C, onde C é uma constante real.
(ii) Se a X b, então a E(X) b.
(iii) E(aX + b) = aE(X) + b, para quaisquer a e b reais.
(iv) E[X E(X)] = 0.
(v) Se X Y , então E(X) E(Y ).
(vi) Se X é uma variável aleatória tal que 0 jXj Y , onde Y é variável
aleatória integrável, então X é integrável.
106
Prova. (Em aula.)
Proposição 3 Seja X uma variável aleatória com função de distribuição FX . Então

Z1 Z0
E(X) = (1 FX (x))dx FX (x)dx.
0 1
Prova. (Em aula)
Corolário 1 Seja X uma variável aleatória não-negativa com função de distribuição
FX . Então
Z1 Z1
E(X) = (1 FX (x))dx = P (X > x)dx.
0 0
Observe pelo exercício seguinte, que sem a hipótese de integrabilidade, o resul-
tado não se veri…ca, pois:
Exemplo 63 Uma variável aleatória X é dita ter distribuição de Cauchy com
parâmetros M e b, se sua densidade é dada por
b
f (x) =
[b2 + (x M )2 ]
para todo x 2 R, b > 0 e M 2 R. Mostre que M é ponto de simetria de X, mas
E(X) não existe.
Proposição 4 (Desigualdade de Jensen) Seja ' uma função convexa de…nida na
reta. Se a variável aleatória X é integrável, então
E['(X)] '[E(X)].
Prova. (Em aula)
Observação 15 Se ' é uma função côncava, então E['(X)] '[E(X)]. (Mostre
isso.)
107
Exemplo 64 Pela desigualdade de Jensen, temos, por exemplo, que
(a) E [jXj] jE(X)j.
(b) E(X 2 ) E 2 (X).
(c) E jXjp (E jXj)p jEXjp . onde p 1.

1 1
(d) E se X > 0.
X EX
4.2 Esperanças de Funções de Variáveis Aleatórias
De…nição 16 Seja X uma variável aleatória e (x) uma função real mensurável.
Então a esperança da variável aleatória Y = (X) é dada por
Z1 Z1 Z0
E(Y ) = ydF (X) (y) = (1 F (X) (y))dy F (X) (y)dy.
1 0 1
A fórmula acima nem sempre é muito fácil de ser usada, pois devemos obter
a distribuição de Y a partir da distribuição da variável X e só então obter E(Y ).
No entanto é possível mostrar pela Teoria da Medida que a esperança da variável
aleatória Y = (X) é dada por

Z1 Z1
E (X) = ydF (X) (y) = (x)dFX (x)
1 1
onde a existência de uma das integrais implica a existência da outra bem como a
igualdade das duas. Ou seja,
X
1
E[ (X)] = (xi )p(xi ) (se X é discreta)
i=1
Z1
E[ (X)] = (x)fX (x)dx (se X é contínua)
1
108
4.3 Momentos
De…nição 17 Seja X uma variável aleatória. De…ne-se o k-ésimo momento or-
dinário da variável aleatória X, mk , como

Z1
k
mk = E(X ) = xk dFX (x).
1
Assim,
X
1
mk = xki P (X = xi ) se X é v.a.d.
i=1
Z1
mk = xk fX (x)dx se X é v.a.c.
1
De…nição 18 Seja X uma variável aleatória. De…ne-se o k-ésimo momento de
X em torno de b, Mk , como
Z1
k
E[(X b) ] = (x b)k dFX (x).
1
De…nição 19 Seja X uma variável aleatória. De…ne-se o k-ésimo momento cen-
tral da variável aleatória X, Mk , como
Mk = E[(X E(X))k ].
Assim,
X
1
Mk = [xi E(X)]k P (X = xi ) se X é v.a.d.
i=1
Z1
Mk = [x E(X)]k fX (x)dx se X é v.a.c.
1
De…nição 20 Seja X uma variável aleatória. De…ne-se a variância da variável

2
aleatória X, denotada por V ar(X) ou X, como
V ar(X) = E[(X E(X))2 ].
109
Proposição 5 A variância de uma variável aleatória X atende às seguintes pro-
priedades:
(i) V ar(X) = E(X 2 ) E 2 (X).
(ii) V ar(C) = 0, onde C é uma constante.
(iii) V ar(aX + b) = a2 V ar(X), para quaisquer a e b reais.
Prova. (Em aula.)
Observação 16 Pelos resultados anteriores, vemos que
m1 = E(X)
M1 = 0
M2 = V ar(X) = m2 m21 .
De…nição 21 De…ne-se o desvio-padrão da variável aleatória X, denotado por
DP (X) ou X, como
p
DP (X) = V ar(X).
Proposição 6 (Desigualdade básica de Markov) Seja X uma variável aleatória não-
negativa e seja > 0 uma constante. Então
E(X)
P (X ) .
Prova. (Em aula.)
Proposição 7 (Desigualdade de Markov) Seja X uma variável aleatória qualquer
e seja > 0 uma constante. Então para todo t > 0,
E jXjt
P (jXj ) t .
Prova. (Em aula.)
110
Proposição 8 (Desigualdade Clássica de Tchebychev) Seja X uma variável aleatória
integrável e seja > 0 uma constante. Então
V ar(X)
P (jX E(X)j ) 2 .
Prova. (Em aula.)
Exemplo 65 Suponha que X seja uma variável aleatória tal que P (X 0) = 1 e
P (X 10) = 15 . Mostre que E(X) 2.
Exemplo 66 Suponha que X seja uma variável aleatória tal que E(X) = 10, P (X
9
7) = 0; 2 e P (X 13) = 0; 3. Prove que V ar(X) 2
.
Proposição 9 Se Z 0 e EZ = 0, então P fZ = 0g = 1, ou seja, Z = 0 quase
certamente.
Prova. (Em aula.)
Observação 17 A proposição acima implica que, quando V arX = 0, então X é
constante quase certamente, pois P fX = EXg = 1.
Proposição 10 Seja X integrável, = EX. Então minimiza E (X c)2 , c 2 R,
isto é,
V arX = E (X )2 = min E (X c)2 .

c2R
Prova. (Em aula.)
4.4 Função Geratriz de Momentos
De…nição 22 Seja X uma variável aleatória. De…ne-se a função geratriz de
momentos de X, mX (t), como
mX (t) = E[etX ], com t 2 R.
111
Assim,
X
1
mX (t) = etxi P (X = xi ) se X é v.a.d.
i=1
Z1
mX (t) = etx fX (x)dx se X é v.a.c.
1
X
1 Z1
mX (t) = etxi P (X = xi ) + etx fX (x)dx se X é v.a. mista.
i=1 1
Proposição 11 (Propriedades da Função Geratriz de Momentos) As seguintes
propriedades a respeito da função geratriz de momentos mX (t) se veri…cam:
(i) mX (0) = 1.
(ii) Se X tem função geratriz de momentos mX (t) e se Y = aX + b, então
mY (t) = ebt mX (at).
(iii) Se X tem função geratriz de momentos mX (t), então
dk
mX (t) = E[X k ].
dtk t=0
ou seja
dk
mX (0) = mk (o k-ésimo momento ordinário de X).
dtk
Prova. (Em aula.)
Exemplo 67 Seja X a variável aleatória que conta o número de lançamentos de
uma moeda honesta até que ocorra a primeira cara. Ache a função geratriz de
momentos de X e use-a para calcular E(X) e V ar(X).
Exemplo 68 Seja X uma variável aleatória contínua com função de densidade de
probabilidade dada por

( 1 x
e 5 , se x 0
fX (x) = 5
0, caso contrário
Ache a função geratriz de momentos de X e use-a para calcular E(X) e V ar(X).
112
Exemplo 69 Suponha que X seja uma variável aleatória com função geratriz de
momentos dada por

2 +3t
mX (t) = et , 1 < t < 1.
Ache a esperança e a variância de X.
Exercício 61 Considere três lançamentos de uma moeda honesta. De…na K como
cara e K como coroa. Se ocorre o evento KKK, dizemos que temos uma sequência,
ao passo que se ocorre K KK temos três sequências. De…na a variável aleatória X
como o número de caras obtidas e Y como o número de seqüências resultantes dos
três lançamentos. Assim, por exemplo, X K K K = 1 e Y K K K = 2. Pede-se:
(a) As funções de probabilidade de X e Y .

X 0 1 2 3 Y 1 2 3
Resp.: e .
P (X = x) 1=8 3=8 3=8 1=8 P (Y = y) 1=4 1=2 1=4
(b) As esperanças de X e Y .
Resp.: E(X) = 1; 5 e E(Y ) = 2.
(c) As variâncias de X e Y .
Resp.: V ar(X) = 0; 75 e E(Y ) = 0; 5.
Exercício 62 Seja X uma variável aleatória discreta com distribuição dada por
X 0 1 2
.
P (X = x) 1=2 1=4 1=4
(a) Calcule E(X). Resp.: E(X) = 3=4.
(b) Considere a variável aleatória Y = (X a)2 . Calcule E(Y ) = E (X a)2
para a = 0, 1=4, 1=2, 3=4, 1. Obtenha o grá…co de g(a) = E (X a)2 e deduza o
valor de a que minimiza a função g(a).

a 0 1=4 1=2 3=4 1
Resp.: 2 . E (X a)2
g(a) = E (X a) 1; 25 0; 9375 0; 75 0; 6875 0; 75
é minimizada por a = E(X) = 3=4.
113
Exercício 63 Um vendedor de equipamento pesado pode visitar, num dia, um ou
dois clientes, com probabilidades de 1=3 e 2=3, respectivamente. De cada contato,
pode resultar a venda de um equipamento por R$ 50:000; 00 (com probabilidade de
1=10) ou nenhuma venda com probabilidade 9=10). Indicando por Y o valor total de
vendas diárias desse vendedor, pede-se:
(a) A função de probabilidade da v.a. Y .

Y 0 50:000 100:000
Resp.: .
P (Y = y) 126=150 23=150 1=150
(b) O valor esperado de vendas diárias. Resp.: E(Y ) = 8:333; 33.
Exercício 64 O tempo T , em minutos, necessário para um operário processar certa
peça é uma v.a. com a seguinte distribuição de probabilidade:

t 2 3 4 5 6 7
.
P (T = t) 0; 1 0; 1 0; 3 0; 2 0; 2 0; 1
(a) Qual a média do tempo de processamento? Resp.: E(T ) = 4; 6.
(b) Para cada peça processada, o operário ganha um …xo de R$ 2; 00, mas se ele
processa a peça em menos de 6 minutos, ganha R$ 0; 50 em cada minuto poupado.
Por exemplo, se ele processa a peça em 4 minutos, recebe a quantia adicional de R$
1; 00.
(b.1) Encontre a distribuição da v.a. G de…nida como a quantia ganha por peça.
g 2; 0 2; 5 3; 0 3; 5 4; 0
Resp.: .
P (G = g) 0; 3 0; 2 0; 3 0; 1 0; 1
(b.2) Encontre a média da v.a. G. Resp.: E(G) = 2; 75.
(b.3) Encontre a variância da v.a. G. Resp.: V ar(G) = 0; 4125.
Exercício 65 Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua função
de distribuição F (x) é tal que FX (1) FX (1 ) = 1=3, FX (2) FX (2 ) = 1=6 e
FX (3) FX (3 ) = 1=2.
(a) Obtenha a função de probabilidade de X.

X 1 2 3
Resp.:
P (X = x) 1=3 1=6 1=2
114
(b) Obtenha a função
8 de distribuição de X e esboce o seu grá…co.
>
> 0, x < 1
<
1=3, 1 x < 2
Resp.: FX (x) =
>
> 1=2, 2 x < 3
:
1, x 3
Exercício 66 Considere uma urna contendo três bolas vermelhas e cinco pretas.
Retire três bolas e de…na a v.a. X como o número de bolas pretas na amostra.
(a) Qual a distribuição de X se as extrações são feitas sem reposição?

X 0 1 2 3
Resp.: .
P (X = x) 1=56 15=56 30=56 10=56
(b) Qual a distribuição de X se as extrações são feitas com reposição?
X 0 1 2 3
Resp.: .
P (X = x) 27=512 135=512 225=512 125=512
Exercício 67 Um ‡orista faz estoque de uma ‡or de curta duração que lhe custa R$
0; 50 e que ele vende por R$ 1; 50 no primeiro dia que a ‡or está na loja. Toda ‡or
que não é vendida nesse primeiro dia não serve mais e é jogada fora. Seja X a v.a.
que denota o número de ‡ores que os fregueses compram em um dia casualmente
escolhido. O ‡orista descobriu que a função de probabilidade de X é dada por

X 0 1 2 3
P (X = x) 0; 1 0; 4 0; 3 0; 2
Quantas ‡ores deveria o ‡orista ter em estoque para maximizar o valor esperado
do seu lucro? Resp.: Se ele compra 1 ‡or o lucro médio é R$ 0; 85; se ele compra
2 ‡ores o lucro médio é R$1; 10; e se ele compra 3 ‡ores o lucro médio é R$ 0; 90.
Assim ele deveria comprar 2 ‡ores sempre para maximizar seu lucro médio.
Exercício 68 Dada a função
2e 2x , x 0
f (x) =
0, caso contrário
Z1
(a) Mostre que esta é uma f.d.p. Resp.: f (x) 0 para todo x 2 R e fX (x)dx =
1
1.
20
(b) Calcule P (X > 10). Resp.: P (X > 10) = e .
115
Exercício 69 Uma v.a. X tem distribuição triangular no intervalo [0; 1] se sua
f.d.p. for dada por 8

< Cx, 0 x 1=2
f (x) = C (1 x) , 1=2 x 1
:
0, caso contrário
(a) Obtenha o valor da constante C. Resp.: C = 4.
(b) Esboce o grá…co da f (x).
(c) Calcule:
(c.1) P (X 1=2); Resp.: P (X 1=2) = 1=2.
(c.2) P (X > 1=2); Resp.: P (X > 1=2) = 1=2.
(c.3) P (1=4 X 3=4). Resp.: P (1=4 X 3=4) = 3=4.
Exercício 70 Obtenha o valor da constante C para que a função

C=x2 , x 10
f (x) =
0, caso contrário
seja uma densidade de alguma variável aleatória X e calcule P (X > 15) :
Resp.: C = 10 e P (X > 15) = 2=3.
Exercício 71 Determine a esperança e a variância da v.a. cuja f.d.p. é dada por

senx, 0 x =2
f (x) =
0, caso contrário
Resp.: E(X) = 1 e V ar(X) = 1.
Exercício 72 A v.a. contínua X tem f.d.p. dada por

3x2 , 1 x 0
f (x) =
0, caso contrário
(a) Se b for um número tal que 1 < b < 0, calcule P (X > bjX < b=2). Resp.:
7b3
P (X > bjX < b=2) = .
b3 + 8
(b) Obtenha E(X) e V ar(X). Resp.: E(X) = 3=4 e V ar(X) = 3=80.
Exercício 73 Certa liga é formada pela mistura fundida de dois metais. A liga
resultante contém certa percentagem de chumbo, X, que pode ser considerada uma
v.a. com f.d.p.
116
3
5
10 5 x (100 x) , 0 x 100
f (x) =
0, caso contrário
Suponha que L, o lucro líquido obtido na venda dessa liga (por unidade de peso),
seja dado por L = C1 + C2 X. Calcule E(L), o lucro esperado por unidade. Resp.:
E(L) = C1 + 50C2 .
Exercício 74 A demanda diária de arroz num supermercado, em centenas de qui-
los, é uma v.a. com f.d.p. dada por

8 2
< 3 x, 0 x < 1
1
f (x) = x + 1, 1 x 3
: 3
0, caso contrário
(a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao
acaso? Resp.: 37; 5%.
(b) Em 30 dias, quanto o gerente do supermercado espera vender? Resp.: 4:000
kg.
(c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes
diariamente para que não falte arroz em 95% dos dias? Resp.: 245 kg.
Exercício 75 Seja X a v.a. con f.d.p. dada por

c (1 x2 ) , 1 x 1
f (x) =
0, caso contrário
Calcule a média e a variância da variável aleatória X. Resp.: E(X) = 0 e
V ar(X) = 1=5.
Exercício 76 Seja X variável aleatória com função de densidade de probabilidade

1
dada por f (x) = se 3 x 5 e f (x) = 0, caso contrário. De…na
8
2X
Y = X:1fjXj<1g + X:1f1 jXj 2g + :1fjXj>2g .
jXj
Pede-se:
(a) A função8 de distribuição da variável aleatória Y , esboçando o seu grá…co.

< 0, se y < 2
>
y+3
Resp. FY (y) = , se 2 y<2
>
: 8
1, se y 2
117
(b) A decomposição da função de distribuição
8 nas partes discreta, absolutamente
< 0, se y < 2
>
1
contínua e singular. Resp.: Fd (y) = , se 2 y < 2 , Parte Absolutamente
>
: 4
1, se y 2
8
>
< 0, se y < 2
y+2
Contínua Fac (y) = , se 2 y < 2 , não há parte singular. FY (y) =
>
: 4
1, se y 2
1 1
Fd (y) + Fac (y) + 0:Fs (y)
2 2
(c) Calcular E (Y ) e V ar (Y ) de duas formas (pela distribuição de X e pela
1 29
distribuição de Y). Resp.: E (Y ) = 2
e V ar (Y ) = 12
3 1
(d) Calcular P ( 2
Y <2j 1<Y 2). Resp.: 2
Exercício 77 Seja X uma variável aleatória com função de densidade dada por
e x
f (x) = , 1 < x < 1.
(1 + e x )2
A variável aleatória X assim de…nida é dita ter distribuição logística.
(a) Obtenha a função de distribuição da variável aleatória X e esboce o seu

1
grá…co. Resp.: FX (x) = 1+e x , 1 < x < 1.
(b) Mostre que a distribuição de X é simétrica em torno de zero. Resp.: f (x) =
f ( x)
(c) Determine a esperança de X, caso exista. Resp.: E (X) = 0
(d) Calcule P (X 2 6 jXj). Resp.: P ( 2 X 2) = 76; 16%
2
Exercício 78 Seja X uma variável aleatória com E (X) = e V ar (X) = e seja
mX (t) a função geratriz de momentos de X para 1 < t < 1. Seja c > 0 uma
constante real e seja Y uma variável aleatória com função geratriz de momentos
dada por
mY (t) = ec[mX (t) 1]

, para 1 < t < 1.
2
Obtenha E (Y ) e V ar (Y ) em termos de e . Resp.: E (Y ) = c e V ar (Y ) =
2 2
c( + ).
118
Exercício 79 Suponha que X seja uma variável aleatória com E (X) = e V ar (X) =
2 2 2
e que o quarto momento ordinário de X existe. Mostre que E (X 4 ) ( 2
+ ).
119
Capítulo 5
Vetores Aleatórios Bidimensionais
Neste capítulo estudaremos as distribuições conjuntas de vetores aleatórios, em par-
ticular dos vetores bivariados discretos. Os resultados podem ser estendidos aos
vetores aleatórios contínuos e serão vistos de forma extensa e rigorosa no curso de
Probabilidade.
De…nição 23 Um vetor (X; Y ) com X e Y variáveis aleatórias de…nidas no mesmo
espaço de probabilidade ( ; P ) é chamado vetor aleatório bidimensional se para
todo x; y 2 R, fX x; Y yg := fX xg \ fY yg é um evento aleatório.
5.1 Distribuições Conjuntas e Marginais
De…nição 24 (Função de Probabilidade Conjunta) Se as variáveis X e Y do
vetor aleatório são discretas, temos um vetor aleatório discreto e de…nimos sua
função de probabilidade conjunta da seguinte forma:
p(xi ; yj ) = P (X = xi ; Y = yj ).
É imediato veri…car que
p(xi ; yj ) 0, para todo (i; j) 2 N2 e
X
1 X
1
p(xi ; yj ) = 1.
i=1 j=1
120
De…nição 25 (Função de Densidade Conjunta) Se as variáveis X e Y do ve-
tor aleatório admitem uma função de densidade de probabilidade conjunta fX;Y (x; y)
tal que
fX;Y (x; y) 0, para todo (x; y) 2 R2
e
Z +1 Z +1
fX;Y (x; y)dxdy = 1,
1 1
dizemos que o vetor aleatório é absolutamente contínuo.
De…nição 26 (Função de Probabilidade Marginal) Se p(xi ; yj ) é a função de
probabilidade conjunta de X e Y , então a função de probabilidade marginal de X é
X
1
P (X = xi ) = p(xi ; yj ).
j=1
Equivalentemente, a função de probabilidade marginal de Y é
X
1
P (Y = yj ) = p(xi ; yj ).
i=1
De…nição 27 (Função de Densidade Marginal) Se fX;Y (x; y) é a função de
densidade de probabilidade conjunta de X e Y , então a função de probabilidade
marginal de X é
Z +1
fX (x) = fX;Y (x; y)dy.
1
Equivalentemente, a função de probabilidade marginal de Y é

Z +1
fY (y) = fX;Y (x; y)dx.
1
5.2 Independência de Variáveis Aleatórias
De…nição 28 (Independência de Variáveis Aleatórias) (i) Seja (X; Y ) um ve-
tor aleatório discreto. As variáveis aleatórias X e Y são ditas independentes se, para
121
todo (x; y) 2 R2 ,
P (X = x; Y = y) = P (X = x)P (Y = y).
(ii) Seja (X; Y ) um vetor aleatório absolutamente contínuo. As variáveis aleatórias
X e Y são ditas independentes se, para todo (x; y) 2 R2 ,
fX;Y (x; y) = fX (x)fY (y).
Exemplo 70 Duas moedas equilibradas são lançadas de forma independente e de…n-
imos as variáveis aleatórias X e Y da seguinte forma: X = número de caras nos dois
lançamentos e Y = função indicadora de faces iguais nos dois lançamentos, isto é,
Y = 1, se as duas faces são iguais e Y = 0, se as duas faces são diferentes. Pede-se:
(a) Obtenha a função de probabilidade conjunta de X e Y .
(b) Obtenha as funções de probabilidade marginais de X e de Y .
(c) Veri…que se X e Y são independentes.

3
(c) Calcule P X 2
;Y =0 .
Exemplo 71 Seja (X; Y ) um vetor aleatório absolutamente contínuo con densidade
conjunta dada por
4xy, se 0 < x < 1 e 0 < y < 1

fX;Y (x; y) =
0, caso contrário
1
(a) Calcule P 2
< X < 43 ; 14 < Y < 1
2
.
(b) Obtenha as densidades marginais de X e Y.
122
5.3 Esperança Matemática
De…nição 29 (Esperança) (i) Seja H(X; Y ) uma função de R2 em R. Então
de…nimos E [H(X; Y )] como

8 1 1
> XX
< H(xi ; yj )p(xi ; yj ), se (X; Y ) é vetor discreto
E [H(X; Y )] =
> i=1 j=1
: R +1 R +1
1 1
H(x; y)fX;Y (x; y)dxdy, se (X; Y ) é vetor contínuo
Exemplo 72 Cosiderando o exemplo 70, pede-se:
(a) Calcule E [X + Y ] e mostre que E [X + Y ] = E [X] + E [Y ].
(b) Calcule E [XY ].
Exemplo 73 Cosiderando o exemplo 71, pede-se
(a) Calcule E [X + Y ] e mostre que E [X + Y ] = E [X] + E [Y ].
(b) Calcule E [XY ].
Proposição 12 Dadas duas variáveis aleatórias X e Y quaisquer com distribuição
conjunta, temos
E [X + Y ] = E [X] + E [Y ] .
Prova. (Em aula.)
Corolário 2 Decorre do fato de a esperança ser um operador linear que
E [ X + Y ] = E [X] + E [Y ] .
Prova. (Em aula.)
Observação 18 Se X1 ; X2 ; :::; Xn são variáveis aleatórias, então

" # " #
X
n X
n X
n X
n
E Xi = E [Xi ] e E i Xi = iE [Xi ] .
i=1 i=1 i=1 i=1
123
5.4 Distribuições Condicionais e Esperança Condi-
cional
De…nição 30 (Distribuição Condicional) (i) Se P (X = x; Y = y) é a função
de probabilidade conjunta de X e Y , então a função de probabilidade condicional de
X dado Y = y é de…nida como
P (X = x; Y = y)
P (X = xjY = y) = .
P (Y = y)
Equivalentemente, a função de probabilidade condicional de Y dado X = x é de…nida
como
P (X = x; Y = y)
P (Y = yjX = x) = .
P (X = x)
(ii) Se fX;Y (x; y) é a função de densidade de probabilidade conjunta de X e Y , então
a função de densidade de probabilidade condicional de X dado Y = y é de…nida como
fX;Y (x; y)
fXjY (xjy) = .
fY (y)
Equivalentemente, a função de probabilidade condicional de Y dado X = x é de…nida
como
fX;Y (x; y)
fY jX (yjx) = .
fX (x)
De…nição 31 (Esperança Condicional) (i) A esperança condicional de X, dado
que Y = y, é de…nida como

8 1
> X
< xi P (X = xi jY = y), se (X; Y ) é vetor discreto
E (XjY = y) =
>
: R +1
i=1
1
xfXjY (xjy)dx, se (X; Y ) é vetor contínuo
Equivalentemente, a esperança condicional de Y, dado que X = x, é de…nida como

8 1
> X
< yi P (Y = yi jX = x), se (X; Y ) é vetor discreto
E (Y jX = x) =
>
: R +1
i=1
1
yfY jX (yjx)dy, se (X; Y ) é vetor contínuo
124
Exemplo 74 Cosiderando ainda o exemplo 70, pede-se:
(a) Obtenha a distribuição condicional de X dado que Y = 1.
(b) Obtenha a esperança condicional de X dado que Y = 1.
Exemplo 75 Cosiderando ainda o exemplo 71, pede-se:
(a) Obtenha a distribuição condicional de X dado que Y = 34 .
(b) Obtenha a esperança condicional de X dado que Y = 34 .
5.5 Covariância
De…nição 32 A covariância entre duas variáveis aleatórias X e Y é de…nida como
Cov(X; Y ) = E [(X EX) (Y EY )]
= E [XY ] E [X] E [Y ]
Duas variáveis aleatórias X e Y são ditas não-correlacionadas se Cov(X; Y ) = 0.
Observação 19 Dada uma variável aleatória X, observe que Cov(X; X) = V ar (X).
Proposição 13 Se X e Y são variáveis aleatórias independentes, então
E [XY ] = E[X]E[Y ].
Prova. (Em aula)
Corolário 3 Se X e Y são variáveis aleatórias independentes, então X e Y são
não-correlacionadas.
Prova. (Em aula)
Observação 20 O corolário anterior nos informa que variáveis aleatórias indepen-
dentes são não-correlacionadas, mas a recíproca não é necessariamente verdadeira.
125
O exemplo a seguir nos mostra que a recíproca do corolário não é sempre verdadeira,
isto é, Cov(X; Y ) = 0 (ou equivalentemente EXY = EX:EY ) não implica X e Y
independentes.
Exemplo 76 Sejam X e Y variáveis aleatórias tomando valores 1; 0; 1 com dis-
tribuição conjunta dada por p( 1; 1) = p( 1; 1) = p(1; 1) = p(1; 1) = p(0; 0) =

1
5
. Então EXY = EX:EY , mas X e Y não são independentes, pois P (X = 0; Y =
0) 6= P (X = 0):P (Y = 0).
Proposição 14 A variância da variável aleatória X + Y é dada por
V ar [X + Y ] = V ar [X] + V ar [Y ] + 2Cov(X; Y ).
Prova. (Em aula)
Corolário 4 Se X e Y são variáveis aleatórias não-correlacionadas, então
V ar [X + Y ] = V ar [X] + V ar [Y ] .
Prova. (Em aula)
Observação 21 Se X1 ; X2 ; :::; Xn são variáveis aleatórias não-correlacionadas, en-
tão
" #
X
n X
n
V ar Xi = V ar [Xi ] .
i=1 i=1
Observação 22 Se X1 ; X2 ; :::; Xn são variáveis aleatórias não-correlacionadas, en-
tão
" #
X
n X
n
2
V ar i Xi = iV ar [Xi ] .
i=1 i=1
Exemplo 77 Um paleontólogo acredita que o número de minerais presentes em
certo tipo de rocha pode in‡uir na chance de se encontrar fósseis perto de uma in-
dústria calcária. Através de amostras de rocha obtidas em levantamentos de campo,
126
ele obteve a distribuição conjunta para as variáveis Z : número de minerais presentes
e W: variável que assume 1, se for observada a presença de fóssil e 0 caso contrário.

WnZ 1 2 3
0 1=8 1=8 1=4
1 1=8 1=4 1=8
(a) Calcule P (W = 0; Z > 1).
(b) Encontre as distribuições marginais para Z e W.
(c) Veri…que se W e Z são independentes.
(d) Calcule Cov(W; Z).
(e) Calcule V ar(2W 3Z).
Exemplo 78 Sabe-se que X e Y são independentes e assumem, respectivamente, os
valores 1, 2 e 3; e 0, 1 e 2. Admita conhecidas as probabilidades P (Y = 0) = 1=3,
P (X = 3) = 1=3, P (X = 1; Y = 0) = 1=9 e P (X = 3; Y = 2) = 1=9.
(a) Construa a tabela de dupla entrada para X e Y.
(b) Calcule E (XY ) e V ar (X + Y ).
Exemplo 79 Seja X1 ; X2 ; :::; Xn uma sequência de variáveis aleatórias indepen-

2
dentes e identicamente distribuídas com média e variância . De…na as variáveis
aleatórias
Sn = X1 + X2 + ::: + Xn
X1 + X2 + ::: + Xn
Xn =
n
Mostre que
2
E (Sn ) = n , V ar (Sn ) = n e
2
E X n = , V ar X n = .
n
127
5.6 Coe…ciente de Correlação
X EX
De…nição 33 Dada uma variável aleatória X, a variável aleatória Z =
X
é uma padronização de X (também chamada de redução ou normalização de X).
Observe que E (Z) = 0 e V ar (Z) = 1.
De…nição 34 Chama-se coe…ciente de correlação entre X e Y , denotado por
X;Y ou (X; Y ), a correlação entre as sua variáveis padronizadas, isto é,
Cov(X; Y ) X EX Y EY
X;Y = =E .
X: Y X Y
Proposição 15 Seja X;Y coe…ciente de correlação entre X e Y . Então os seguintes
resultados se veri…cam:
(i) 1 X;Y 1.
(ii) X;Y = 1 se e somente se P fY = aX + bg = 1 para algum a > 0 e b 2 R.
(iii) X;Y = 1 se e somente se P fY = aX + bg = 1 para algum a < 0 e b 2 R.
Prova. (Em aula.)
2
Observação 23 Em modelos lineares, o coe…ciente X;Y representa o quanto da
variabilidade de X in‡uencia a variabilidade de Y e vice-versa.
Exemplo 80 Sejam X e Y duas variáveis aleatórias discretas com distribuição con-
junta dada por

XnY 0 1 2
1 1=8 1=8 1=4
1 1=8 1=4 1=8
2
Obtenha o coe…ciente de correlação entre X e Y e interprete o valor de X;Y .
Exercício 80 A tabela abaixo dá a distribuição conjunta de X e Y.
128
YnX 1 2 3
0 0; 1 0; 1 0; 1
1 0; 2 0 0; 3
2 0 0; 1 0; 1
(a) Determine as distribuições marginais de X e Y.
x 1 2 3 y 0 1 2
Resp.: e
P (X = x) 0; 3 0; 2 0; 5 P (Y = y) 0; 3 0; 5 0; 2
(b) Determine as esperanças e as variâncias de X e Y.
Resp.: E(X) = 2; 2, V ar(X) = 0; 76, E(Y ) = 0; 9 e V ar(Y ) = 0; 49
Resp.: Não, pois P (X = 1; Y = 0) = 0; 1 6= P (X = 1)P (Y = 0) = 0; 09
(d) Calcule P (X = 1jY = 0) e P (Y = 2jX = 3).

1 1
Resp.: P (X = 1jY = 0) = 3
e P (Y = 2jX = 3) = 5
(e) Calcule P (X 2) e P (X = 2; Y 1).

1
Resp.: P (X 2) = 0; 5 e P (X = 2; Y 1) = 8
(f) Obtenha o coe…ciente de correlação entre X e Y.
Resp.: X;Y = 0; 1966
Exercício 81 Considere a distribuição conjunta de X e Y, variáveis aleatórias in-
dependentes, dada pela tabela abaixo, parcialmente conhecida.

Yn X 1 0 1 P (Y = y)
1 1=12
0 1=3
1 1=4 1=4
P (X = x)
(a) Calcule as médias e as variâncias de X e Y.
1 5
Resp.: E(X) = 0, V ar(X) = 1, E(Y ) = 3
e V ar(Y ) = 9
(b) Calcule E ( 3X + 2Y ) e V ar ( 3X + 2Y ).
Resp.: E ( 3X + 2Y ) = 32 , V ar ( 3X + 2Y ) = 101
9
(c) Obtenha as distribuições condicionais de X, dado que Y = 0; e de Y, dado
que X = 1.
129
x 1 0 1 y 1 0 1
Resp.: e
P (X = xjY = 0) 1=2 0 1=2 P (Y = yjX = 1) 1=6 1=3 1=2
(d) Calcule E(XjY = 0) e E(Y jX = 1).
1
Resp.: E(XjY = 0) = 0 e E(Y jX = 1) = 3
Exercício 82 Suponha que X e Y tenham a seguinte distribuição conjunta:

YnX 1 2 3
1 0; 1 0; 1 0
2 0; 1 0; 2 0; 3
3 0; 1 0; 1 0
(a) Seja Z = X + Y . Encontre a função de probabilidade de Z, calcule a partir
dela E(X + Y ) e compare o resultado com E(X) + E(Y ), calculado por meio das
marginais de X e Y.
z 2 3 4 5 6
Resp.: e E(X + Y ) = E(X) + E(Y ) = 4
P (Z = z) 0; 1 0; 2 0; 3 0; 4 0
(b) Seja W = XY . Encontre a função de probabilidade de W , calcule a par-
tir dela E(XY ) e e compare o resultado com E(X)E(Y ), calculado por meio das
marginais de X e Y.
w 1 2 3 4 6 9
Resp.: e E(XY ) = E(X)E(Y ) =
P (W = w) 0; 1 0; 2 0; 1 0; 2 0; 4 0
4
(c) Mostre que, embora E(XY ) = E(X)E(Y ), X e Y não são independentes.
Resp.: Como Cov(X; Y ) = E(XY ) E(X)E(Y ) = 0, temos que as variáveis X
e Y são não-correlacionadas, mas não são independentes, pois P (X = 3; Y = 3) =
0 6= 0; 3 0; 2 = P (X = 3) P (Y = 3).
Exercício 83 Lançam-se dois dados perfeitos, em sequência. X indica o número
obtido no primeiro dado e Y o maior ou o número comum aos dois dados.
(a) Encontre a distribuição conjunta de X e Y e as marginais de X e de Y.
130
YnX 1 2 3 4 5 6 P (Y = y)
1 1=36 0 0 0 0 0 1=36
2 1=36 1=18 0 0 0 0 1=12
3 1=36 1=36 1=12 0 0 0 5=36
Resp.:
4 1=36 1=36 1=36 1=9 0 0 7=36
5 1=36 1=36 1=36 1=36 5=36 0 1=4
6 1=36 1=36 1=36 1=36 1=36 1=6 11=36
P (X = x) 1=6 1=6 1=6 1=6 1=6 1=6 1
(b) As duas variáveis são independentes? Justi…que matematicamente.
Resp.: Não, pois P (X = 1; Y = 1) 6= P (X = 1)P (Y = 1)
(c) Calcule as esperanças e as variâncias de X e Y.
Resp.: E(X) = 27 , V ar(X) = 35

12
, E(Y ) = 161
36
e V ar(Y ) = 2555
1296
(d) Calcule a covariância entre X e Y.

35
Resp.: Cov(X; Y ) = 24
(e) Calcule E(X + Y ).

287
Resp.: E(X + Y ) = 36
(f) Calcule V ar(X + Y ).

10115
Resp.: V ar(X + Y ) = 1296
Exercício 84 Prove as seguintes propriedades da covariância:
(a) Cov (X; Y ) = Cov (Y; X).

!
Pm P
n P
m P
n
(b) Cov ai Xi ; b j Yj = ai bj Cov (Xi ; Yj ).
i=1 j=1 i=1 j=1
Exercício 85 Suponha que (X; Y ) tenha função de densidade conjunta dada por
e x y , se x > 0 e y > 0
fX;Y (x; y) =
0, caso contrário
(a) Calcule as funções de densidade marginais e veri…que se as variáveis são
independentes. Resp.: fX (x) = e x , x > 0; fY (y) = e y , y > 0. X e Y são
independentes.
(b) Calcule P (0 < X < 1; 1 < Y < 2). Resp.: (1 e 1 ) (e 1

e 2)
(c) Calcule (X; Y ). Resp.: (X; Y ) = 0, pois X e Y são independentes.
131
x + y, se 0 < x < 1 e 0 < y < 1

fX;Y (x; y) =
0, caso contrário
(a) Calcule as funções de densidade marginais e veri…que se as variáveis são
independentes. Resp.: fX (x) = x + 21 , 0 < x < 1; fY (y) = y + 21 , 0 < y < 1. X e Y
não são independentes.

1
(b) Calcule (X; Y ). Resp.: (X; Y ) = 11
.
C (x + y) , se 0 < x < 4 e 0 < y < 4

fX;Y (x; y) =
0, caso contrário
(a) Obtenha o valor de C. Resp.: 1=64
(b) Calcule as funções de densidade marginais e veri…que se as variáveis são

1 1
independentes. Resp.: fX (x) = 16
(x + 2), 0 < x < 4; fY (y) = 16
(y + 2), 0 < y <
4. X e Y não são independentes.

x+y
(c) Obtenha a densidade condicional de X dada Y. Resp.: fXjY (xjy) = 4(y+2)
,
0 < x < 4.
x+y
(d) Obtenha a densidade condicional de Y dada X. Resp.: fY jX (yjx) = 4(x+2)
,
0 < y < 4.
6x+16
(e) Calcule E (Y jX = x). Resp. E (Y jX = x) = x+2
.
Exercício 88 Mostre que a covariância de duas v.a’s é invariante para soma de
constantes, isto é, se a e b são constantes e Y1 = X1 + a e Y2 = X2 + b, então
Cov(Y1 ; Y2 ) = Cov(X1 ; X2 ).
Exercício 89 Sejam X e Y variáveis aleatórias de média zero, variância igual a 1
e correlação . Seja Z = X Y.
(a) Mostre que Z e Y não são correlacionadas.

2
(b) Ache a média e a variância de Z. Resp.: E(Z) = 0 e V ar(Z) = 1
132
Exercício 90 Se X e Y são v.a.’s independentes com variâncias …nitas, demonstre
que
V ar (XY ) = V ar (X) V ar (Y ) + (EX)2 V ar(Y ) + (EY )2 V ar(X).
133
Capítulo 6
Modelos de Variáveis Aleatórias

Discretas
6.1 O Ensaio de Bernoulli
Suponha um experimento realizado uma única vez tendo probabilidade p de sucesso
e q = 1 p de fracasso. Denote a variável aleatória X = 0 se fracasso ocorre e
X = 1 se sucesso ocorre. Então a variável aleatória X é dita ter distribuição
de Bernoulli com parâmetro p, representado por X Ber(p), e sua função de
probabilidade é dada por
p, se x = 1
P (X = x) =
q = 1 p, se x = 0
Podemos também representar a função de probabilidade acima de uma forma uni…-
cada dada por:
P (X = x) = px (1 p)1 x , x = 0; 1.
A adoção de X = 1 para sucesso e X = 0 para fracasso na realização tem o
objetivo de tornar a variável X como um contador de sucessos se outros ensaios
de Bernoulli são realizados. Assim, se n ensaios de Bernoulli são realizados, então
tomando Xi = 1, se i-ésimo ensaio é um sucesso e Xi = 0, se i-ésimo ensaio é um
fracasso, para i = 1; 2; :::; n, então a soma X1 + X2 + ::: + Xn representa o número
134
de sucessos obtidos nas n realizações. Veremos a seguir que essa variável aleatória
Sn desempenha um papel fundamental na Estatística. Antes, porém, vejamos o
seguinte resultado.
Proposição 16 Se X Ber(p), então
E(X) = p,
V ar(X) = pq.
Prova. (Em aula.)
6.2 A Distribuição Binomial
Seja a realização de n ensaios independentes de Bernoulli, cada um tendo a mesma
probabilidade p de sucesso e q = 1 p de fracasso. Seja X a variável aleatória
que conta o número de sucessos nas n realizações. A variável aleatória X é dita ter
distribuição Binomial com parâmetros n e p, denotado por X B(n; p), e sua
função de probabilidade é dada por
n
P (X = k) = pk q n k , k = 0; 1; 2; 3; :::; n.
k
onde
n n!
= e n! = 1:2:3:::n.
k k! (n k)!
Observação 24 O nome Binomial vem do fato de que essa distribuição tem relação
com o Binômio de Newton. O Binômio de Newton estabelece que
n
X
n
n
(a + x) = ak x n k .
k
k=0
Tomando a = p e x = q na fórmula do Binômio de Newton, temos que
n
X
n
n
(p + q) = pk q n k .
k
k=0
135
Mas p + q = p + (1 p) = 1, e assim
X
n
n X
n
n k n k
1 = p q = P (X = k)
k
k=0 k=0
ou seja
X
n
P (X = k) = 1,
k=0
provando que, de fato, a fórmula da Distribuição Binomial satisfaz as duas condições
de uma função de probabilidade: (i) P (X = k) 0, para k = 0; 1; 2; :::; n; e (ii)

Pn
k=0 P (X = k) = 1.
Vejamos por meio de um exemplo a justi…cativa da fórmula acima.
Exemplo 81 Seja uma prova com 5 questões. Suponha que cada questão tenha 4
alternativas de respostas, das quais somente uma é a correta. Determine a probabi-
lidade de um aluno acertar exatamente três questões de forma puramente aleatória,
isto é, "chutando".
É preciso reconhecer que a ideia de um histograma para uma variável discreta é
um tanto abusiva, já que histogramas representam essencialmente o comportamento
de variáveis contínuas. Mas a ideia aqui é preparar o terreno para uma aproximação
do modelo Binomial por uma variável contínua cuja densidade passe próximo ao
"histograma"da Binomial. Veremos isso mais tarde.
Proposição 17 Se X B(n; p), então
mX (t) = (pet + q)n ,
E(X) = np,
V ar(X) = npq.
136
Prova. (Em aula.)
De fato, observe que se Xi Ber(p), para i = 1; 2; :::; n, independentes então
X = X1 + X2 + ::: + Xn B(n; p), e
E(X) = E(X1 ) + E(X2 ) + ::: + E(Xn )
= p + p + ::: + p
= np
V ar(X) = V ar(X1 ) + V ar(X2 ) + ::: + V ar(Xn )
= pq + pq + ::: + pq
= npq.
Observe que o resultado da esperança da Binomial é bastante intuitivo, pois se

1
temos, por exemplo, uma probabilidade p = 25% = 4
de sucesso em cada realização,
1
então se realizarmos n = 20 experimentos esperaríamos uma média de np = 4
20 =
5 sucessos.
Exemplo 82 Das variáveis abaixo, assinale quais são binomiais, e para essas dê
os respectivos espaços de estado e função de probabilidade. Quando julgar que a
variável não é binomial, aponte as razões de sua conclusão.
(a) De uma urna com 10 bolas brancas e 20 pretas, vamos extrair, com reposição,
5 bolas. X é o número de bolas brancas nas 5 extrações.
(b) Refaça o problema anterior, mas dessa vez as 5 extrações são sem reposição.
(c) Temos 5 urnas com bolas pretas e brancas e vamos extrair uma bola de cada
urna. Seja X o número de bolas brancas obtidas no …nal.
(d) Vamos realizar uma pesquisa em 10 cidades brasileiras, escolhendo ao acaso
137
um habitante de cada uma delas e classi…cando-o em pró ou contra um certo projeto
federal. Seja X o número de indivíduos contra a projeto …nal da pesquisa.
(e) Em uma indústria existem 100 máquinas que fabricam determinada peça.
Cada peça é classi…cada como boa ou defeituosa. Escolhemos ao acaso um instante
de tempo e veri…camos uma peça de cada uma das máquinas. Suponha que X seja
o número de defeituosas.
Exemplo 83 Um certo sistema eletrônico contém 10 componentes. Suponha que a
probabilidade de falha de qualquer componente individual seja de 0; 2 e que eles fal-
hem independentemente uns dos outros. Dado que pelo menos um dos componentes
falhou, qual a probabilidade de que pelo menos dois falharam?
Exemplo 84 Se X B(n; p), sabendo-se que E(X) = 12 e V (X) = 3, determinar:
(a) P (X < 12);
(b) P (X 14);
p
(c) E(Z) e V (Z), onde Z = (X 12)= 3;
(d) P (Y 12=16), onde Y = X=n.
6.3 A Distribuição Geométrica
Sejam ensaios sucessivos e independentes de Bernoulli, cada um tendo a mesma
que conta o número de realizações até que o primeiro sucesso ocorra. A variável
aleatória X é dita ter distribuição Geométrica com parâmetro p, denotado por
X Geo(p), e sua função de probabilidade é dada por
P (X = x) = q x 1 p, x = 1; 2; 3; 4; :::
138
Proposição 18 Se X Geo(p), então
pet
mX (t) = , para t < ln q
1 qet
1
E(X) = ,
p
q
V ar(X) = 2 .
p
Prova. (Em aula.)
Observação 25 Se X Geo(p), então para todos os inteiros não negativos m e n
temos
P (X = m + n j X m) = P (X = n) .
Esse resultado é conhecido na Teoria das Probabilidades como “propriedade sem
memória” da variável aleatória.
Exemplo 85 Uma urna contém b bolas brancas e v bolas vermelhas. Bolas são
retiradas ao acaso, com reposição, até que uma bola branca seja encontrada. Seja
X a variável aleatória que representa o número de tentativas até a extração da
primeira bola branca. Encontre a lei de X, a esperança e a variância de X e calcule
a probabilidade de que sejam necessárias pelo menos n retiradas para a extração da
primeira bola branca.
Exemplo 86 As cinco primeiras repetições de um experimento custam R$ 10; 00
cada. Todas as repetições subseqüentes custam R$ 5; 00 cada. Suponha que o experi-
mento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso
de uma repetição é igual a 0; 9, e se as repetições são independentes, qual é custo
esperado da operação?
139
6.4 A Distribuição Binomial Negativa
Sejam ensaios sucessivos e independentes de Bernoulli, cada um tendo a mesma
que conta o número de realizações até que o r-ésimo sucesso ocorra. A variável
aleatória X é dita ter Distribuição Binomial Negativa (também conhecida como
Distribuição de Pascal) com parâmetro r e p, denotado por X BN (r; p), e sua
função de probabilidade é dada por
k 1
P (X = k) = pr q k r , k = r; r + 1; r + 2; r + 3; :::;
r 1
Observação 26 A distribuição é de…nida para valores maiores ou igual a r, já que
são necessários pelo menos r realizações para se obter r sucessos.
Observação 27 De…nindo Y = X r, então Y representa o número de fracassos
até a ocorrência do r-ésimo sucesso. Assim, Y 2 f0; 1; 2; 3; :::g e
P (Y = y) = P (X r = y) = P (X = y + r)
y+r 1
= pr q y
r 1
y+r 1
P (Y = y) = pr q y , y = 0; 1; 2; 3; :::
y
Mas vimos que
r ( r) ( r 1) ( r 2) ::: ( r y + 1)
=
y y!
y+r 1
= ( 1)y
y
Assim
y+r 1 r
= ( 1)y
y y
140
e, portanto,
r
P (Y = y) = ( 1)y pr q y
y
r
P (Y = y) = pr ( q)y , y = 0; 1; 2; 3; :::
y
o que justi…ca o seu nome “binomial negativa”.
r 1
Observação 28 Vimos também que a expansão por Taylor de (1 + x) =
(1 + x)r
é dada por
r
X
1
r
(1 + x) = xk para 1 < x < 1.
k
k=0
Portanto
X
1 X
1
r
P (Y = y) = pr ( q)y
y
y=0 y=0
X
1
r
= p r
( q)y
y
y=0
r r
= p (1 q)
= pr p r
= 1
Proposição 19 Se X BN (r; p), então
r
pet
mX (t) = , para t < ln q
1 qet
r
E(X) = ,
p
rq
V ar(X) = 2 .
p
Prova. (Em aula.)
Observação 29 Os resultados acima são intuitivos, uma vez que a v.a. X bino-
mial negativa pode ser vista como r replicações de variáveis aleatórias Geométricas.
141
Assim, se Xi Geo(p), para i = 1; 2; :::; n, independentes então X = X1 + X2 +
::: + Xr BN (r; p),
E(X) = E(X1 ) + E(X2 ) + ::: + E(Xr )

1 1 1
= + + ::: +
p p p
r
=
p
V ar(X) = V ar(X1 ) + V ar(X2 ) + ::: + V ar(Xr )

q q q
= 2
+ 2 + ::: + 2
p p p
rq
= 2,
p
resultados que con…rmam a proposição anterior. (Posteriormente justi…caremos os
cálculos acima, pois eles dependem de estruturas de vetores aleatórios e distribuições
conjuntas.)
Observação 30 Claramente, se X BN (1; p) então X Geo(p).
Exemplo 87 Uma peça produzida em série numa fábrica tem 10% de probabilidade
de ser defeituosa e as ocorrências de defeitos são independentes. Suponha que você
vá retirando aleatoriamente peças da produção até encontrar a 5a peça defeituosa.
Seja X a v.a. que representa o número de inspeções até que isso ocorra. Obtenha a
lei de X, a média e a variância de X.
6.5 A Distribuição de Poisson
O matemático francês Siméon-Denis Poisson constrói um belo processo que dá in-
teligibilidade matemática a fenômenos raros estudados ao longo do tempo contínuo.
142
Seu objetivo foi construir um modelo de contagem de ocorrências de um dado fenô-
meno num intervalo de tempo, a partir de um parâmetro que representa a taxa
média de ocorrências no intervalo estudado.
Siméon-Denis Poisson (1781 - 1840)
Veremos formalmente no curso de Probabilidade como construir tal modelo a
partir de algumas hipóteses a respeito do processo de ocorrência. Nesse curso intro-
dutório vamos apenas exibi-lo.
De…nição 35 Seja X uma variável aleatória de…nida em f0; 1; 2; 3; :::g tendo função
de probabilidade dada por
x
e
P (X = x) = , para x = 0; 1; 2; 3; ::: e > 0.
x!
Então X é dita ter distribuição de Poisson de parâmetro , X P( ).
Proposição 20 Se X P( ), então
(et 1)
mX (t) = e ,
E(X) = ,
V ar(X) = .
Prova. (Em aula.)
143
Exemplo 88 Suponha que uma fonte radioativa emita partículas a uma taxa de 20
por hora. Pergunta-se:
(a) Qual a probabilidade de que exatamente 5 partículas sejam emitidas durante
o período de 15 minutos?
(b) Supondo que comecemos a registrar as partículas às 9:00h, qual a probabili-
dade de que a primeira partícula registrada ocorra entre 9:04h e 9:10h?
Exemplo 89 Acidentes ocorrem numa plataforma de petróleo a uma taxa média de
1; 5 por mês. Pergunta-se:
(a) Qual a probabilidade de nenhum acidente em janeiro?
(b) Qual a probabilidade de ocorrer 4 acidentes no período de março a abril?
(c) Qual a probabilidade de haver pelo menos um acidente em cada mês do ano
de 1998?
Exemplo 90 O número de petroleiros que chegam a uma re…naria em cada dia
ocorre a uma taxa média de 2. As atuais instalações podem atender, no máximo, a
três petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a
outro porto.
(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto?
(b) De quanto deverão ser aumentadas as instalações para permitir atender a
todos os navios que chegarem pelo menos em 95% dos dias?
6.6 A Distribuição Hipergeométrica
Seja uma população …nita de N elementos, contendo a pessoas com o atributo A
e b = N a pessoas sem o atributo A. Uma amostra de tamanho n é retirada
sem reposição da população. Seja X a variável aleatória que representa o número de
pessoas com o atributo A na amostra. A variável aleatória X é dita ter distribuição
144
Hipergeométrica de paramânetros N , a e n, denotado por X Hip(N; a; n) e
sua função de probabilidade é dada por
a N a
x n x
P (X = x) = , para maxf0; n bg x minfn; ag.
N
n
a b
Observação 31 Se X Hip(N; a; n), então, denotando p = N
eq= N
temos
E(X) = np,
N n
V ar(X) = npq .
N 1
Exemplo 91 Uma classe contém 40 homens e 20 mulheres. Um comitê deverá ser
formado por 6 alunos selecionados aleatoriamente da classe sem reposição. Qual a
probabilidade de que o comitê seja formado por uma maioria de homens?
Exemplo 92 Pequenos motores elétricos são expedidos em lotes de 50 unidades.
Antes que uma remessa seja aprovada, um inspetor escolhe 5 desses motores e os
inspeciona. Se nenhum dos motores inspecionados for defeituoso, o lote é aprovado.
Se um ou mais forem veri…cados defeituosos, todos os motores da remessa são in-
specionados. Suponha que existam, de fato, três motores defeituosos no lote. Qual
é a probabilidade de que a inspeção total seja necessária?
Exemplo 93 De um lote que contém 25 peças, das quais 5 são defeituosas, são
escolhidas 4 ao acaso. Seja X a variável aleatória que conta o número de defeituosas
na amostra. Determine a função de probabilidade de X, quando:
(a) as peças forem escolhidas com reposição;
(b) as peças forem escolhidas sem reposição.
145
Exercício 91 Um fabricante de peças de automóveis garante que uma caixa de suas
peças conterá, no máximo, duas defeituosas. Se a caixa contém 18 peças, e a exper-
iência tem mostrado que esse processo de fabricação produz 5% de peças defeituosas,
qual a probabilidade de que uma caixa satisfaça a garantia?
Resp: Seja X a v.a. que conta o número de peças defeituosas na caixa com
18
18 peças. Então P (X = x) = (0; 05)x (0; 95)18 x , x = 0; 1; 2; 3; :::; 18.
x
Desejamos P (X 2) = P (X = 0) + P (X = 1) + P (X = 2).
Exercício 92 Um homem dispara 12 tiros independentes num alvo. Se a probabili-
dade de acerto do atirador é de 90%, qual a probabilidade de que o alvo seja atingido
pelo menos duas vezes, sabendo-se que o mesmo foi atingido pelo menos uma vez?
Resp: Seja X a v.a. que conta o número de acertos do homem. Então P (X =

12
x) = (0; 9)x (0; 1)12 x , x = 0; 1; 2; 3; :::; 12. Desejamos P (X 2jX 1) =
x
P (X 2) 1 P (X < 2) 1 P (X = 0) P (X = 1)
= = .
P (X 1) 1 P (X < 1) 1 P (X = 0)
Exercício 93 Suponha que a probabilidade de que um certo experimento seja sucesso
é de 0; 4, e denote X o número de sucessos que são obtidos em 15 realizações inde-
pendentes do experimento. Qual a lei da variável aleatória X?
Resp: Seja X a v.a. que conta o número de sucessos nas 15 tentativas. Então
15
P (X = x) = (0; 4)x (0; 6)15 x , x = 0; 1; 2; 3; :::; 15.
x
Exercício 94 Uma moeda viciada onde a probabilidade de cara é 0,6 é lançada nove
vezes. Calcule a probabilidade de ocorrer um número par de caras.
Resp: Seja X a v.a. que conta o número de caras nas 9 tentativas. Então P (X =
9 P
4
x) = (0; 6)x (0; 4)9 x , x = 0; 1; 2; 3; :::; 9. Desejamos P (X = 2k) =
x k=0
P
4
9
(0; 6)2k (0; 4)9 2k
.
k=0 2k
146
Exercício 95 Um contador de partículas tem probabilidade de 0,7 de contar cada
partícula que entra em sua abertura, independentemente de uma partícula para outra.
Qual a distribuição do número de partículas que ele não registra, antes da primeira
partícula a ser contada. Qual a esperança e a variância desta distribuição?
Resp: Seja X a v.a. que conta o número de partículas que ele não registra,
antes da primeira partícula a ser contada. Então P (X = x) = (0; 3)x (0; 7), x=
0; 1; 2; 3; ::: ou seja X = Y 1 onde Y Geo(0; 7). Assim E (X) = E (Y ) 1=

1 3 0:3 30
0;7
1= 7
e V ar (X) = V ar (Y ) = (0;7)2
= 49
.
Exercício 96 Seja X uma variável aleatória com distribuição de Poisson, repre-
sentando o aparecimento de defeitos por hora numa linha de montagem de um com-
ponente eletrônico. Sabendo-se que a probabilidade de não ocorrer defeito em uma
hora qualquer é de 0,2, pede-se:
(a) A probabilidade de que numa certa hora ocorram não mais que dois defeitos.
Resp: Seja X a v.a. que conta o número de defeitos por hora, então X
1
P( ). Como P (X = 0) = e = 5
, temos = ln 5. Assim P (X = k) =
(ln 5)k
; k = 0; 1; 2; ::: Logo P (X 2) = P (X = 0) + P (X = 1) + P (X = 2) =
5k!
1 (ln 5)2
5
1 + ln 5 + 2
.
(b) Supondo um regime de trabalho de oito horas diárias, quantos defeitos deve-
mos esperar em um mês?
Resp: 240E(X) = 240 ln 5.
Exercício 97 Uma companhia de seguros pretende criar apólices de seguro indi-
viduais contra certos tipos de acidentes. Uma pesquisa piloto do serviço estatístico
permitiu estimar que, num período de um ano, cada pessoa tem uma chance em cada
cinco mil, aproximadamente, de se tornar vítima de um acidente coberto por este
tipo de apólice, e que a companhia poderá vender em média mil apólices de seguro
147
deste tipo por ano. Determinar a probabilidade de que o número de acidentados não
ultrapasse a três por ano (número a partir do qual a operação não é mais considerada
como rentável).
Resp: Seja X a v.a. que conta o número de acidentados no ano. Então X

1 1 k
1
e 5
5
P( ), com = 5
. Assim P (X = k) = ; k = 0; 1; 2; ::: Logo P (X 3) =
k!
1
P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = e 5 1 + 15 + 1
50
+ 1
750
.
Exercício 98 Livros produzidos por uma certa editora têm uma média de 1 defeito
de impressão por página. Qual é a probabilidade de que pelo menos em uma página
de um livro de 300 páginas desta editora haja pelo menos 5 defeitos?
Resp: Seja X a v.a. que conta o número de defeito de impressão por página.
e 1
Então X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Logo p = P (X 5) =
k!
P4 e 1
1 P (X < 5) = 1 . Seja Y a v.a. que conta o número de páginas com
k=0 k!
pelo menos 5 defeitos num livro de 300 páginas. Então Y B(300; p). Desejamos
300
P (Y 1) = 1 P (Y = 0) = 1 p0 (1 p)300 = 1 (1 p)300 = 1
0
300
P4 e 1
.
k=0 k!
Exercício 99 Gotas de chuva caem a uma taxa média de 30 gotas por cm2 e por
minuto. Qual a chance de um particular cm2 não ser atingido por qualquer gota de
chuva durante um período de 10 segundos?
Resp: Seja X a v.a. que conta o número de gotas por cm2 e por 10 segundos.
Então X P(5). Assim P (X = 0) = e 5 .
Exercício 100 Folhas de ‡andres de 2 metros de largura são produzidas em uma
fábrica e cortadas em lâminas a cada 5 metros de comprimento. Por estudos ante-
riores, sabe-se que os defeitos têm distribuição de Poisson com uma média de 0; 2
defeitos por metro quadrado. Se uma amostra aleatória de 10 lâminas é retirada da
produção, pergunta-se:
148
(a) Qual a probabilidade de haver mais do que uma lâmina na amostra com mais
de 1 defeito na superfície?
Resp: Seja X a v.a. que conta o número de defeitos na superfície de uma lâmina.
e 2 2x
Então X P(2). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim p = P (X > 1) =
x!
1 P (X 1) = 1 3e 2 . Seja Y a v.a. que conta o número de lâminas com pelo
menos 1 defeitos numa amostra de 10. Então Y B(10; p). Desejamos P (Y > 1) =
10 10
1 P (Y = 0) P (Y = 1) = 1 p0 (1 p)10 p1 (1 p)9 = 1
0 1
(1 p)10 10p (1 p)9 , com p = 1 3e 2 .
(b) Qual o número esperado de lâminas na amostra com mais de 1 defeito na
superfície? E a variância?
Resp: Desejamos E(Y ) = 10p e V ar(Y ) = 10p (1 p), com p = 1 3e 2 .
Exercício 101 Numa central telefônica, o número de chamadas chega com uma
média de 8 por minuto. Determinar a probabilidade de que num minuto se tenha:
(a) dez ou mais chamadas;
Resp: Seja X a v.a. que conta o número de chamadas por minuto. Então X
e 8 8x
P(8). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim P (X 10) = 1 P (X <
x!
P9 e 8 8x
10) = 1 .
x=0 x!
(b) menos que nove chamadas;
P8 e 8 8x
Resp: P (X 8) = .
x=0 x!
(c) entre sete (inclusive) e nove (exclusive) chamadas.
8 87 88
Resp: P (7 X < 9) = P (X = 7) + P (X = 8) = e + .
7! 8!
Exercício 102 Num certo tipo de fabricação de …ta magnética, ocorrem cortes a
uma taxa de um por 2:000 pés. Qual a probabilidade de que um rolo com 2:000 pés
de …ta magnética tenha:
(a) nenhum corte;
149
Resp: Seja X a v.a. que conta o número de cortes num rolo de 2:000 pés. Então
e 1
X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Assim P (X = 0) = e 1 .
k!
(b) no máximo dois cortes;
5e 1
Resp: P (X 2) = .
2
(c) pelo menos dois cortes.
Resp: P (X 2) = 1 2e 1 .
Exercício 103 Uma fonte radioativa é observada durante 7 intervalos de tempo,
cada um de dez segundos de duração. O número de partículas emitidas durante
cada período é contado. Suponha que o número de partículas emitidas X tenha
distribuição de Poisson com taxa de 0; 5 por segundo. Qual é a probabilidade de que
em cada um dos 7 intervalos de tempo, 4 ou mais partículas sejam emitidas?
Resp: Seja X a v.a. que conta o número de partículas emitidas em 10 segundos.

e 5 5x
Então X P(5). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim p = P (X 4) =
x!
P3 e 5 5x
1 . Seja Y a v.a. que conta o número de intervalos com 4 ou mais partícu-
x=0 x!
7
las emitidas. Então Y B(7; p). Desejamos P (Y = 7) = p7 (1 p)0 = p7 ,
7
P3 e 5 5x
com p = 1 .
x=0 x!
Exercício 104 O número de partículas emitidas por uma fonte radioativa, durante
um período especí…co, é uma variável aleatória com distribuição de Poisson. Se a
probabilidade de não haver emissões for igual a 1=3, qual é a probabilidade de que
duas ou mais emissões ocorram?
Resp: Seja X a v.a. que conta o número de emissões durante um período es-
pecí…co, então X P( ). Como P (X = 0) = e = 31 , temos = ln 3. Assim

k
(ln 3)
P (X = k) = ; k = 0; 1; 2; ::: Logo P (X 2) = 1 P (X = 0) P (X = 1) =
3k!
2 1
3 3
ln 3.
150
Exercício 105 Em certa rodovia, a intensidade média do ‡uxo de tráfego é de 30
carros por minuto. Um medidor é colocado na rua para registrar o número de carros
passando por cima. Após justi…car o uso de um modelo de probabilidade adequado
a tal experimento, calcule:
(a) a probabilidade de que 2 ou mais carros sejam registrados durante determi-
nado intervalo de 2 segundos;
Resp: Seja X a v.a. que conta o número de carros registrados durante um inter-
e 1
valo de 2 segundos, então X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Assim
k!
P (X 2) = 1 2e 1 .
(b) a probabilidade de passar mais de um minuto até registrar o primeiro carro.
Resp: Seja Y a v.a. que conta o número de carros registrados durante um in-
30
e 30k
tervalo de 1 minuto, então Y P(30). Assim P (X = k) = ; k = 0; 1; 2; :::
k!
30
Assim P (Y = 0) = e .
Exercício 106 Suponha que num dado …nal de semana o número de acidentes num
certo cruzamento tem distribuição de Poisson com média 0; 7. Qual a probabilidade
de que haverá pelo menos três acidentes no cruzamento durante o …nal de semana?
Resp: Seja X a v.a. que conta o número de acidentes num …nal de semana,
P
2 e 0;7
(0; 7)x
então X P(0; 7). P (X 3) = 1 P (X 2) = 1 .
x=0 x!
Exercício 107 Suponha que o número de defeitos num metro quadrado de tecido
tenha distribuição de Poisson com média 0; 4. Se uma amostra aleatória de 5 m2 de
tecido é inspecionada, qual a probabilidade de que o número total de defeitos nesta
amostra seja de pelo menos 6?
Resp: Seja X a v.a. que conta o número de defeitos numa amostra de 5 m2 de

P5 e 2 2x
tecido. Então X P(2). P (X 6) = 1 P (X 5) = 1 .
x=0 x!
151
Exercício 108 Suponha que uma certa …ta magnética contenha, em média, 3 de-
feitos por 1:000 pés. Qual a probabilidade de que um rolo de …ta de 1:200 pés não
contenha defeitos?
Resp: Seja X a v.a. que conta o número de defeitos num rolo de …ta de 1:200
3;6
pés.Então X P(3; 6). P (X = 0) = e .
Exercício 109 Suponha que, em média, uma certa loja sirva 15 clientes por hora.
Qual a probabilidade de que a loja não servirá mais do que 20 clientes num particular
período de 2 horas?
Resp: Seja X a v.a. que conta o número de clientes que chegam num período de
P
20 e 30x
30
2 horas. Então X P(30). P (X 20) = .
x=0 x!
Exercício 110 Suponha que num grande lote contendo T produtos manufaturados,
30% dos produtos são defeituosos e 70% são bons. Suponha também que 10 produtos
são selecionados aleatoriamente sem reposição do lote. Determine:
(a) uma expressão exata para a probabilidade de que não mais do que um produto
defeituoso seja obtido, e
Resp: Seja X a v.a. que conta o número de defeituosos

0 no lote
10 de T produtos.
1
@
0; 3T A@
0; 7T A
x 10 x
Então X Hip(T ; 0; 3T ; 10). Assim P (X = x) = 0 1 , para
@
T A
10
maxf0; 10 0; 7T g x minf10; 0; 3T g. Assim supondo que T 15 para que 10
1 0; 7T 0; 3T 0; 7T
0; 7T < 0, temos que P (X 1) = 0 1 + .
T A@
10 1 9
10
(b) uma expressão aproximada para esta probabilidade, baseada na distribuição
binomial.
Resp: Seja X a v.a. que conta o número de defeituosos no lote de T produtos, com
10
T grande. Então X B(10; 0; 3). Assim P (X = x) = (0; 3)x (0; 7)10 x , x =
x
152
10
0; 1; 2; 3; :::; 10. Assim P (X 1) = P (X = 0)+P (X = 1) = (0; 3)0 (0; 7)10 +
0
10
(0; 3)1 (0; 7)9 = (0; 7)10 + 3 (0; 7)9 .
1
153
Capítulo 7
Modelos de Variáveis Aleatórias

Contínuas
7.1 A Distribuição Uniforme
Diz-se que a variável aleatória X tem distribuição uniforme no intervalo [a; b], de-
notado por X U[a; b] se sua função de densidade de probabilidade é dada por

( 1
, se a x b
fX (x) = b a
0, caso contrário.
Assim a função de distribuição de X é dada por
8
< 0,
> se x < a
x a
FX (x) = , se a x < b
>
: b a
1, se x b
Observação 32 Se X U[a; b] então
a+b
E(X) =
2
(b a)2
V ar(x) =
12
Exemplo 94 Suponha que X tenha distribuição uniforme no intervalo ( 2; 8).
Ache a f.d.p. de X e encontre P (0 < X < 7).
7.2 A Distribuição Exponencial
Diz-se que a variável aleatória X tem distribuição exponencial com parâmetro ,
denotado por X Exp( ), se a função de densidade de probabilidade de X é dada
154
por
e x, x 0
fX (x) =
0, caso contrário
Assim a função de distribuição de X é dada por
0, se x < 0
FX (x) =
1 e x , se x 0
Proposição 21 (Propriedade Sem Memória) Seja X Exp( ). Então, para
todo t > 0 e s > 0, temos
P (X t + sjX t) = P (X s) .
Prova. (Em aula.)
Proposição 22 Se X Exp( ) então
mX (t) = , para t < ,

t
1
E(X) = e
1
V ar(X) = 2.
Prova. (Em aula.)
Exemplo 95 Para um certo tipo de componente eletrônico, a vida útil X (em mil
horas) tem distribuição exponencial com média 2. Pergunta-se:
(a) Qual a probabilidade de que um novo componente dure mais do que 1:000
horas?
(b) Se um componente já durou 1:000 horas, qual a probabilidade de que ele dure
pelo menos 1:000 horas mais?
Exemplo 96 O tempo de vida de lâmpadas produzidas pelo fabricante X tem dis-
tribuição exponencial com média de 20 dias. Se 10 lâmpadas são ligadas simultane-
amente, qual a probabilidade de que pelo menos 3 delas durem mais de 25 dias?
155
7.3 A Distribuição Normal
7.3.1 A Distribuição Normal Padrão
Diz-se que uma variável aleatória Z tem Distribuição Normal (ou Gaussiana) Padrão
com média zero e variância 1, denotado por Z N (0; 1), se a função de densidade
de probabilidade de Z é dada por
1 z2
fZ (z) = p e 2 , 1 < z < 1.
2
Sua forma é de um sino simétrico em torno de 0 como na …gura abaixo:
Proposição 23 Se Z N (0; 1), então
t2
mZ (t) = e 2
E(Z) = 0
V ar(Z) = 1
Prova. (Em aula.)
Vemos pela fórmula da Distribuição Normal e pelo grá…co acima que a curva
normal é simétrica e se aproxima rapidamente de zero nas caudas por ter em seu
z2
núcleo e 2 . Por esse motivo, as distribuições normais são candidatas a modelar
dados cujos histogramas sejam aproximadamente simétricos e de caudas leves, ou
156
seja, dados sem valores extremos ocorrendo com certa frequência e com coe…ciente
de assimetria próximo de 0.
De…na P (Z z) = (z), com (z) denominada função de distribuição da
variável aleatória Z. Então

Z z Z z
1 u2
(z) = fZ (u)du = p e 2 du.
1 1 2
Como (z) não pode ser obtida analiticamente, o valor de (z) é dado por
integração numérica e seus valores são tabelados (veja a tabela anexada).
Vejamos então como obter as probabilidades de interesse.
Observe que a variável Z vai de 3; 49 a 3; 49 na tabela, sendo a primeira coluna
referente à parte inteira e à primeira casa decimal de z e as outras colunas referentes
à segunda casa decimal de z. Vemos já com isso, que, embora Z esteja de…nida em
toda a reta real, a probabilidade é praticamente nula de um resultado experimental
modelado pela normal padrão sair do intervalo [ 3; 49; 3; 49]. Já vimos que isto se
dá porque sua função de densidade de probabilidade tem decaimento exponencial no
quadrado de z. Observe também que, como Z é variável aleatória contínua, temos
(z) = P (Z z) = P (Z < z), ou seja, podemos intercambiar os sinais de < ou ,
já que a probabilidade num ponto é nula. Vejamos então alguns exemplos abaixo:
Exemplo 97 Seja Z N (0; 1). Calcule:
(a) P (Z 1; 36)
(b) P (Z 0; 38)
(c) P (0; 31 Z < 2; 72)
(d) P ( 1; 32 Z 0; 3)
Rz
Solução: A tabela nos oferece (z) = P (Z z) = 1
fZ (u)du, ou seja, a área
abaixo da curva à esquerda de z. Para os valores que nos interessam temos:
157
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.4 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0002
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
-1.3 0:0968 0:0951 0:0934 0:0918 0:0901 0:0885 0:0869 0:0853 0:0838 0:0823
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
:
0.3 0:6179 0:6217 0:6255 0:6293 0:6331 0:6368 0:6406 0:6443 0:6480 0:6517
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
2.7 0:9965 0:9966 0:9967 0:9968 0:9969 0:9970 0:9971 0:9972 0:9973 0:9974
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
3.4 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9998
(a) P (Z 1; 36) = 0:0869 = 8; 69% (obtido pelo cruzamento da linha 1; 3
com a coluna 0; 06).
(b) P (Z 0; 38) = 1 P (Z 0; 38) = 1 0:6480 = 0; 352 = 35; 2%.
(c) P (0; 31 Z < 2; 72) = P (Z 2; 72) P (Z 0; 31) = 0:9967 0:6217 =
0; 375 = 37; 5%.
(d) P ( 1; 32 Z 0; 3) = P (Z 0; 3) P (Z 1; 32) = 0:6179 0:0934 =
0; 5245 = 52; 45%.
Mais relevante para a modelagem é a distribuição Normal com média e va-

2
riância , pois ela de…ne uma uma classe de in…nitas curvas que podem se ajustar
a dados aproximadamente simétricos com média amostral Xn e variância amostral
S 2 , se o ajuste for validado.
2
7.3.2 A Distribuição Normal com média e variância
Diz-se que uma variável aleatória X tem Distribuição Normal (ou Gaussiana) com
2 2
média e variância , denotado por X N( ; ), se a função de densidade de
probabilidade de X é dada por
1 (x )2
fX (x) = p e 2 2 , 1 < x < 1:
2
158
Vemos que aqui também a forma da função de densidade de X é um sino simétrico
em torno da média , conforme o grá…co abaixo:
Como toda distribuição simétrica, a média, a mediana e moda da Distribuição
Normal são iguais, e pode-se mostrar que a área abaixo da curva normal é unitária.
2 2 2
Proposição 24 Se X N( ; ), então Y = X+ N( + ; ), para
6= 0 e constantes reais.
Prova. (Em aula.)
2 X
Corolário 5 Se X N( ; ), então Z = N (0; 1).
Prova. (Em aula.)
2
Proposição 25 Se X N( ; ), então
t+ 21 2 t2
mX (t) = e ,
E(X) = e
2
V ar(X) = .
Prova. (Em aula.)

1
Como o desvio-padrão aparece no fator p , vemos que, quanto maior a
2
variabilidade dos dados, mais esse fator decresce tendendo a zero, fazendo com que
159
a curva …que mais e mais achatada, indicando de fato maior dispersão dos dados. O
grá…co a seguir representa diversas distribuições normais variando-se os parâmetros
média e desvio-padrão .
A função de distribuição da variável aleatória X é de…nida como

Z x Z x
1 (u )2
X (x) = P (X x) = fX (u)du = p e 2 2 du.
1 1 2
Exemplo 98 Suponha que os escores de QI sejam normalmente distribuídos, com
uma média de 100 e um desvio-padrão de 15. Determine a probabilidade de que uma
pessoa selecionada aleatoriamente tenha uma pontuação de QI inferior a 115.
Solução: Seja X a variável aleatória que denota o QI de uma pessoa. Então
sabemos que
2
X N( ; )
onde = 100 e = 15. Assim, temos X N (100; 225). Sabemos também que
X X 100
Z= = N (0; 1).
15
1 (x 100)2
Desejamos P (X < 115), ou seja, a área à esquerda de 115 sob a curva p e 450 .
15 2
160
Mas
P (X < 115) = P (X 100 < 115 100)

X 100 115 100
= P <
15 15
115 100
= P Z<
15
= P (Z < 1)
Assim
P (X < 115) = P (Z < 1) = 0; 8413,
obtido através da normal-padrão. Temos assim a seguinte estrutura equivalente:
161
Exemplo 99 As contas mensais de serviços públicos em determinada cidade são
normalmente distribuídas, com média de R$ 100:000 e desvio padrão de R$ 12:000.
Uma conta é escolhida aleatoriamente. Determine a probabilidade de ela estar entre
R$ 80:000 e R$ 115:000.
Solução: Seja X a variável aleatória que denota o valor da conta. Então sabemos
que
2
X N( ; )
onde = 100:000 e = 12:000. Assim, temos X N (100:000; (12:000)2 ). Sabemos
também que
X X 100:000
Z= = N (0; 1).
12:000
Desejamos P (80:000 X 115:000). Mas
P (80:000 X 115:000)
= P (80:000 100:000 X 100:000 115:000 100:000)

80:000 100:000 X 100:000 115:000 100:000
= P
12:000 12:000 12:000
= P ( 1; 67 Z 1; 25)
= P (Z 1; 25) P (Z 1; 67)
= 0; 8944 0; 0475
= 0; 8469
Assim
P (80:000 X 115:000) = 84; 69%.
Propriedades das Distribuições Normais
162
Propriedade 1: Se X N( ; 2
) então
P( X + )
= P( X + )
= P( X )
X
= P
= P( 1 Z 1)
= P (Z 1) P (Z 1)
= 0; 8413 0; 1587
P( X + ) = 0; 6826 = 68; 26%:
Da mesma forma, temos
P( 2 X +2 )
= P( 2 X +2 )
= P( 2 X 2 )
2 X 2
= P
= P( 2 Z 2)
= P (Z 2) P (Z 2)
= 0; 9772 0; 0228
P( 2 X + 2 ) = 0; 9544 = 95; 44%:
163
e …nalmente
P( 3 X +3 )
= P( 3 X +3 )
= P( 3 X 3 )
3 X 3
= P
= P( 3 Z 3)
= P (Z 3) P (Z 3)
= 0; 9987 0; 0013
P( 3 X + 3 ) = 0; 9974 = 99; 74%:
Assim temos a seguinte representação:
Propriedade 2: Se X N( x;
2
x) e Y = aX + b, com a 6= 0, então Y
2
N( y; y) onde
y = E (Y ) = E (aX + b) = aE (X) + b = a x +b
2
y = V ar (Y ) = V ar (aX + b) = a2 V ar (X) = a2 2
x
164
ou seja
2
X N( x; x) =) Y = aX + b N (a x + b; a2 2
x)
O que a propriedade acima nos diz é que transformações lineares ou a…ns de uma
variável normal é também uma variável normal.
Propriedade 3: Se Xi N ( i; 2
i) para i = 1; 2; :::; n são variáveis aleatórias
independentes e se Y = 1 X1 + 2 X2 + ::: + n Xn + , com ai 6= 0 para algum i,

2
então Y N( y; y) onde
y = E (Y ) = E ( 1 X1 + 2 X2 + ::: + n Xn + )
= 1E (X1 ) + 2E (X2 ) + ::: + nE (Xn ) +

X
n
y = i i +
i=1
2
y = V ar (Y ) = V ar ( 1 X1 + 2 X2 + ::: + n Xn + )
2 2 2
= 1V ar (X1 ) + 2V ar (X2 ) + ::: + nV ar (Xn ) + V ar ( )
2 2 2
= 1V ar (X1 ) + 2V ar (X2 ) + ::: + nV ar (Xn ) + 0
X
n
2 2 2
y = i i
i=1
ou seja
X
n Xn X
n
2 2 2
Xi N ( i; i) =) Y = i Xi + N( i i + ; i i)
i=1 i=1 i=1
O que a propriedade acima nos diz é que transformações lineares ou a…ns de
variáveis normais independentes é também uma variável normal.
Propriedade 4: Se Xi N( ; 2
) para i = 1; 2; :::; n são variáveis aleatórias
independentes e se Sn = X1 + X2 + ::: + Xn , então
Sn N (n ; n 2 ).
165
2
Essa propriedade decorre da Propriedade 3, tomando i = 1, i = e i =
2
para todo i e = 0.
Propriedade 5: Se Xi N( ; 2
) para i = 1; 2; :::; n são variáveis aleatórias
X1 + X2 + ::: + Xn
independentes e se Xn = , então
n
2
Xn N( Xn ; Xn ).
2
2
onde Xn = e Xn
= , pois
n
X1 + X2 + ::: + Xn
Xn = E Xn = E
n
1
= [E (X1 ) + E (X2 ) + ::: + E (Xn )]
n
1 n
Xn = [ + + ::: + ] = = .
n n
2 X1 + X2 + ::: + Xn
Xn = V ar Xn = V ar
n
1
= [V ar (X1 ) + V ar (X2 ) + ::: + V ar (Xn )]
n2
2 1 2 2 2 n 2 2
Xn = + + ::: + = = .
n2 n2 n
Assim
2
2
Xi N( ; ) =) Xn N( ; ).
n
Vamos ilustrar com alguns exemplos as propriedades acima.
Exemplo 100 As durações de gravidez têm distribuição aproximadamente normal
com média de 268 dias e desvio-padrão de 15 dias.
(a) Selecionada aleatoriamente uma mulher grávida, determine a probabilidade
de que a duração de sua gravidez seja inferior a 260 dias.
(b) Se 25 mulheres escolhidas aleatoriamente são submetidas a uma dieta es-
pecial a partir do dia em que engravidam, determine a probabilidade de os prazos
166
de duração de suas gravidezes terem média inferior a 260 dias (admitindo-se que a
dieta não produza efeito).
(c) Se as 25 mulheres têm realmente média inferior a 260 dias, há razão de
preocupação para os médicos de pré-natal? Justi…que adequadamente.
Solução: (a) Seja X a v.a. que denota a duração (em dias) de gravidez de uma
dada mulher. Então sabemos que X N (268; 225). Sabemos também que
X X 268
Z= = N (0; 1).
15
Desejamos
X 268 260 268

P (X < 260) = P <
15 15
= P (Z < 0; 53)
= 0; 2981
Assim
P (X < 260) = 29; 81%.
(b) Seja Xi a v.a. que denota a duração (em dias) de gravidez da i-ésima mulher
(i = 1; 2; :::25). Então sabemos que Xi N (268; 225). Sabemos também que
2
Xn N( ; ).
n
2
225
Mas = 268 e = = 9. Assim
n 25
X25 N (268; 9).
Sabemos também que

X25 268
Z= N (0; 1).
3
167
Desejamos
X25 268 260 268

P X25 < 260 = P <
3 3
= P (Z < 2; 67)
= 0; 0038
P X25 < 260 = 0; 38%.
(c) Pelo item (b), sob a hipótese de que a dieta não tem efeito, temos uma
chance ín…ma de 0; 38% de obtermos uma média de tempos de gravidez abaixo de
260, portanto um evento raro. Como isso de fato ocorreu, temos evidência de que
na verdade a dieta alterou o tempo de gravidez das mulheres, fazendo-o diminuir, o
que é preocupante do ponto de vista médico, já que abaixo de 260 dias a dieta estaria
induzindo a partos prematuros.
Exemplo 101 O peso de uma determinada fruta é uma variável aleatória com dis-
tribuição normal com média de 200 gramas e desvio-padrão de 50 gramas. Determine
a probabilidade de um lote contendo 100 unidades dessa fruta pesar mais que 21 kg.
Solução: Seja Xi a v.a. que denota o peso (em gramas) da i-ésima fruta do
lote, i = 1; 2; :::; 100. Sabemos que Xi N (200; 502 ). Sabemos também que o peso
total do lote é dado pela variável aleatória
S100 = X1 + X2 + ::: + X100 N (100 ; 100 2 ),
2
com = 200 e = 502 . Assim
S100 N (20:000; 5002 )
Assim
S100 20:000
Z= N (0; 1).
500
168
Desejamos
S100 20:000 21:000 20:000

P (S100 > 21:000) = P >
500 500
= P (Z > 2)
= 1 P (Z 2)
= 1 0; 9772
= 0; 0228
P (S100 > 21:000) = 2; 28%.
169
Capítulo 8
Teorema Central do Limite
2
Vimos anteriormente que se Xi N( ; ) para i = 1; 2; :::; n são variáveis aleatórias
X1 + X2 + ::: + Xn
independentes e se Xn = , então
n
2
Xn N( Xn ; Xn ).
2
2
2
onde Xn = e Xn
= . Assim Xn N( ; n
). No entanto, independentemente
n
da distribuição das variáveis Xi , se estas forem independentes e identicamente dis-
2
tribuídas com média e variância , teremos sempre que
2
2
Xn = E Xn = e Xn = V ar Xn = ,
n
pois para esses cálculos nos valemos apenas das propriedades da esperança e da
variância. Com isso, observamos que, quando n cresce, a variabilidade da variável
aleatória Xn decresce, tendendo a zero, conforme n tende a in…nito. Isso signi…ca
que quanto maior o número de elementos da amostra, menor será a variabilidade dos
valores da média amostral, indicando uma alta concentração dos valores das médias,
obtidas de várias amostras. Qual a consequência a se esperar disso? Nossa intuição
nos diria que se …zéssemos um histograma de vários valores de médias amostrais,
este histograma tenderia a ter uma forma simétrica e cada vez mais leptocúrtico
conforme o tamanho da amostra crescesse. E é isso de fato o que nos informa o
Teorema Central do Limite abaixo.
170
Teorema 13 (Teorema Central do Limite) Seja X1 ; X2 ; :::; Xn uma sequência
de variáveis aleatórias independentes e identicamente distribuídas com média e

2
variância . De…na as variáveis aleatórias
Sn = X1 + X2 + ::: + Xn
X1 + X2 + ::: + Xn
Xn =
n
então pode-se mostrar que, para n su…cientemente grande, qualquer que seja a dis-
tribuição de probabilidade dos Xi , temos
2
Sn N (n ; n 2 ) e Xn N( ; ).
n
Consequentemente, temos
Sn n
p N (0; 1)
n
e
Xn
N (0; 1).
p
n
A questão que se coloca é: o que é n su…cientemente grande? Se a distribuição das
variáveis aleatórias já for aproximadamente simétrica, então até para amostras de
tamanho pequeno o Teorema Central do Limite já garantirá uma ótima aproximação
da distribuição real da soma das variáveis e da média das variáveis. No entanto, no
pior cenário, considera-se n 30, como su…cientemente grande para valer o Teorema
Central do Limite.
171
Exemplo 102 A média de altura dos alunos da UFRJ é 1; 75 m com desvio-padrão
de 0; 1 m. Se uma amostra aleatória de 40 estudantes da UFRJ for selecionada,
qual é a probabilidade de que a média de altura na amostra seja superior a 1; 78 m?
Solução: Seja Xi a v.a. que denota o altura (em cm) do i-ésimo aluno da
amostra, i = 1; 2; :::; 40. Sabemos que
= E (Xi ) = 175 e = 10.
Embora não saibamos qual a distribuição das alturas, como o tamanho da amostra
é grande (n = 40), podemos nos valer do Teorema Central do Limite para a…rmar
que
2
X40 N( ; ).
40
Assim
100
X40 N (175; )
40
e
X 40 175
Z= N (0; 1).
10
p
40
172
Desejamos
0 1
B X 40 175 178 175 C
P X40 > 178 = PB@ 10
>
10
C
A
p p
40 40
= P (Z > 1; 90)
P X40 > 178 = 1 P (Z 1; 90)
= 1 0; 9713
= 0; 0287
P X40 > 178 = 2; 87%.
Aproximação Normal à Binomial
Vimos que se X1 ; X2 ; :::; Xn é uma seqüência de variáveis aleatórias independentes
de Bernoulli com parâmetro p, então Sn = X1 + X2 + ::: + Xn B(n; p). Assim, pelo
Teorema Central do Limite, para n su…cientemente grande Sn pode ser aproximada
por uma distribuição normal, já que
Sn N (np; npq).
ou, equivalentemente,
Sn np
p N (0; 1).
npq
Suponha Sn = X1 + X2 + ::: + Xn B(n; 41 ). Então para n = 5, 20 e 50, temos
as seguintes aproximações da curva Normal à Binomial:
173
Observe pelo grá…co acima, que para aproximar a probabilidade de X = k na Bi-
1 1
nomial é necessário integrar a curva Normal no intervalo k 2
;k + 2
, denominado
de correção de continuidade. Vejamos como fazer isso a partir de um exemplo.
Exemplo 103 Um par de dados é lançado 180 vezes por hora (aproximadamente).
(a) Qual a probabilidade aproximada de que 25 ou mais lançamentos tenham tido
soma 7 na primeira hora? (b) Qual a probabilidade aproximada de que entre 700 e
750 lançamentos tenham tido soma 7 durante 24 horas?
Solução: (a) Seja X a variável aleatória que conta o número de vezes em que
houve soma 7 na primeira hora. Como há 180 realizações na primeira hora e como
a probabilidade de soma 7 em um par de dados é 61 , temos que a distribuição exata
de X é Binomial com n = 180 e p = 61 . Assim
k 180 k
180 1 5
P (X = k) = , k = 0; 1; 2; 3; :::; 180.
k 6 6
1
Como n é grande, temos que X N (np; npq). Mas np = 180 6
= 30 e npq =
174
1 5
180 6 6
= 25. Assim
X N (30; 25)
Com isso, temos

X 30
Z= N (0; 1).
5
Desejamos
P (X 25) = 1 P (X < 25)

X
24
180 1
k
5
180 k
= 1 ,
k 6 6
k=0
cálculo esse ingrato de ser feito. Pela aproximação da Normal com a correção de
continuidade, temos
X 30 24; 5 30
P (X 24; 5) = P
5 5
= P (Z 1; 1)
= 1 P (Z 1; 1)
= 1 0; 1357
= 0; 8643
P (X 25) = 86; 43%.
(b) Seja Y a variável aleatória que conta o número de vezes em que houve soma
7 durante 24 horas. Como há 4:320 (180 24) realizações em 24 horas e como a
probabilidade de soma 7 em um par de dados é 61 , temos que a distribuição exata de
X é Binomial com n = 4:320 e p = 16 . Assim

k 4:320 k
4:320 1 5
P (Y = k) = , k = 0; 1; 2; 3; :::; 4:320.
k 6 6
1
Como n é grande temos que Y N (np; npq). Mas np = 4:320 6
= 720 e
1 5
npq = 4:320 6 6
= 600. Assim
Y N (720; 600)
175
Com isso, temos
Y 720
Z= p N (0; 1).
600
Desejamos
X
750
4:320 1
k
5
4:320 k
P (700 Y 750) = ,
k 6 6
k=700
cálculo esse extremamente complicado de ser feito, já que as combinações envolvi-
das são números muito grandes. Pela aproximação da Normal com a correção de
continuidade, temos
699; 5 720 Y 720 750; 5 720

P (699; 5 Y 750; 5) = P p p p
600 600 600
= P ( 0; 84 Z 1; 24)
= P (Z 1; 24) P (Z 0; 84)
= 0; 8925 0:2005
= 0; 692
P (700 Y 750) = 69; 2%.
Exercício 111 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro
são distribuídos normalmente, com média de R$ 10:000; 00 e desvio-padrão de R$
1:500; 00. Um depósito é selecionado ao acaso dentre todos referentes ao mês em
questão. Encontrar a probabilidade de que o depósito seja:
(a) R$ 10:000; 00 ou menos; Resp.: 50%
(b) pelo menos R$ 10:000; 00; Resp.: 50%
(c) um valor entre R$ 12:000; 00 e R$ 15:000; 00; Resp.: 9; 13%
(d) maior do que R$ 20:000; 00. Resp.: 0%
176
Exercício 112 A temperatura T de destilação do petróleo é crucial na determi-
nação da qualidade …nal do produto. Suponha que T seja uma v.a. com distribuição
uniforme no intervalo (150; 300). Suponha que o custo para produzir um galãode
petróleo seja C1 reais. Se o óleo for destilado a uma temperatura inferior a 200 , o
produto obtido é vendido a C2 reais; se a temperatura for superior a 200 , o produto
é vendido a C3 reais.
(a) Faça o grá…co da f.d.p. da v.a. T.

2C3 C2
(b) Qual o lucro esperado por galão? Resp.: + C1
3 3
Exercício 113 Seja X N (100; 100). Calcule:
(a) P (X 80). Resp.: 97; 7%
(b) O valor de , tal que P (100 X 100 + ) = 0; 95. Resp.: = 19; 6
Exercício 114 As alturas de 10:000 alunos de um colégio têm distribuição aproxi-
madamente normal, com média 170 cm e desvio padrão 5 cm.
(a) Qual o número esperado de alunos com altura superior a 165 cm? Resp.:
9:413
(b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas
dos alunos? Resp.: (164; 25; 175; 75)
Exercício 115 As vendas de um determinado produto têm distribuição aproximada-
mente normal, com média 500 e desvio-padrão 50. Se a empresa decide fabricar 600
unidades no mês em estudo, qual a probabilidade de que não possa atender a todos
os pedidos, por estar com a produção esgotada? Resp.: 2; 3%
Exercício 116 Suponha que as amplitudes de vida de dois aparelhos elétricos, D1
e D2 , tenham distribuições N (42; 36) e N (45; 9), respectivamente.
177
(a) Se os aparelhos são feitos para serem usados por um período de 45 horas,
qual o aparelho deve ser preferido? Resp.: D2
(b) Se os aparelhos são feitos para serem usados por um período de 49 horas,
qual o aparelho deve ser preferido? Resp.: D1
Exercício 117 O diâmetro X de rolamentos esféricos produzidos por uma fábrica
tem distribuição N (0; 6140; (0; 0025)2 ). O lucro L de cada rolamento depende de seu
diâmetro. Assim
L = 0; 10 se o rolamento for bom, isto é, 0; 610 < X < 0; 618;
L = 0; 05 se o rolamento for recuperável, isto é, 0; 608 < X < 0; 610 ou 0; 618 <
X < 0; 620;
L= 0; 10 se o rolamento for defeituoso, isto é, X < 0; 608 ou X > 0; 620.
(a) Calcule as probabilidades de que os rolamentos sejam bons, recuperáveis e
defeituosos. Resp.: 0; 8904; 0; 0932; e 0; 0164
(b) Calcule o lucro médio por rolamento produzido. Resp.: 0; 09206
Exercício 118 Seja Y com distribuição Binomial de parâmetros n = 10 e p = 0; 4.
Determine a aproximação normal para:
(a) P (3 < Y < 8). Resp.: 0; 6136
(b) P (Y 7). Resp.: 0; 0537
(c) P (Y < 5). Resp.: 0; 6255
Exercício 119 Suponha que um mecanismo eletrônico tenha tempo de vida X regido
por uma distribuição exponencial com média de 1000 horas. Suponha que o custo
de fabricação de um item seja 2 reais e o preço de venda seja 5 reais. O fabricante
garante total devolução do valor pago se X 900. Qual o lucro esperado por item
produzido? Resp.: 0; 033
178
Exercício 120 De um lote de produtos manufaturados, extraímos 100 itens ao
acaso. Se 10% dos itens são defeituosos, calcule a probabilidade exata de 12 itens
serem defeituosos e a probabilidade aproximada pela normal. Resp.: P (X = 12) =

100
(0; 1)12 (0; 9)88 ; P (X = 12) = 0; 1043
12
Exercício 121 A con…abilidade de um mecanismo eletrônico é a probabilidade de
que ele funcione sob as condições para as quais foi planejado. Uma amostra de 1000
desses itens é escolhida ao acaso e os itens são testados, obtendo-se 30 defeituosos.
Calcule a probabilidade de se obter pelo menos 30 itens defeituosos, supondo que a
con…abilidade de cada item é 0; 95. Resp.: aproximadamente 0; 9986
Exercício 122 A distribuição dos comprimentos dos elos da corrente de bicicleta é
normal, com média 2 cm e variância 0; 01 cm2 . Para que uma corrente se ajuste à
bicicleta, deve ter comprimento total entre 58 e 61 cm.
(a) Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta?
Resp.: 3; 41%
(b) E para uma corrente com 29 elos? Resp.: 50%
Exercício 123 Cada seção usada para a construção de um oleoduto tem um com-
primento com distribuição normal com média 5 m e desvio padrão de 20 cm. O
comprimento total do oleoduto será de 8 km.
(a) Se a …rma construtora do oleoduto encomendar 1600 seções, qual é a proba-
bilidade de ela ter que comprar mais do que uma seção adicional, isto é, de as 1600
seções somarem menos do que 7995m? Resp.: 26; 60%
(b) Qual é a probabilidade do uso exato de 1599 seções, isto é, a soma das 1599
seções estar entre 8000 e 8005m? Resp.: 16; 03%
179
Exercício 124 Seja X uma v.a. com distribuição uniforme em [ a; 3a]. Determine
4a2
a média e a variância de X. Resp.: a e , respectivamente.
3
Exercício 125 A máquina de empacotar um determinado produto o faz segundo
uma distribuição normal, com média e desvio-padrão 10 g.
(a) Em quanto deve ser regulado o peso médio para que apenas 10% dos pacotes
tenham menos do que 500 g? Resp.: = 512; 82
(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de
4 pacotes escolhidos ao acaso seja inferior a 2 kg? Resp.: 0; 519%
Exercício 126 Um elevador pode suportar uma carga máxima de 500 kg. Se a
distribuição X dos pesos dos usuários é normal com média 70 kg e desvio-padrão de
10 kg,
(a) qual a probabilidade de que o peso limite seja excedido para um grupo de 7
passageiros? Resp.: 35; 27%
(b) qual a probabilidade de que o peso limite seja excedido para um grupo de 6
passageiros? Resp.: 0; 055%
180
Capítulo 9
Estimação
Nesta aula exporemos as ideias centrais da Teoria de Estimação, dando ênfase à esti-
mação intervalar, já que a Teoria de Estimação na Estatística é de uma complexidade
que vale um curso inteiro para o seu tratamento adequado. Vimos que a problema-
tização mais central da Estatística consiste em se estimar o valor de determina-
dos parâmetros populacionais à luz das informações obtidas de uma amostra dessa
mesma população, através de um estimador convenientemente escolhido para "acer-
tar"em média o valor do parâmetro. Assim, partimos inicialmente de um estimador
pontual com propriedades desejadas e construímos uma distribuição de probabili-
dade amostral do estimador a …m de podermos estabelecer um intervalo de con…ança
para o parâmetro em estudo. Suponha que o alvo a ser atingido seja o parâmetro
populacional e que cada estimativa obtida de diversas amostras da população repre-
sente um "tiro". Então quando a média dos valores dos "tiros"(ou seja, a média de
diversas estimativas para o mesmo parâmetro) recai no alvo (parâmetro), dizemos
que nosso estimador é não-viesado (ou não-viciado, ou ainda não-tendencioso). Ob-
viamente, mais do que ter a média dos "tiros"no valor do parâmetro, gostaríamos
também que o atirador fosse preciso nos resultados. Assim podemos ter as seguintes
situações para estimadores de parâmetros populacionais:
181
Não-Viesado e Preciso Viesado e Preciso
Não-Viesado e Impreciso Viesado e Impreciso
Você já deve ter percebido que os melhores estimadores são os não-viesados
e precisos, certo? Mas nem sempre é possível obtê-los... Quando o estimador é
viesado e preciso, é possível corrigir o "estrabismo"do estimador e fazer com que ele
passe acertar em média o valor do parâmetro. É o caso em que discutimos o porquê
de se dividir a variância amostral por n 1 ao invés de n, ao contrário do cálculo da
variância populacional. Se dividíssemos a variância amostral por n, os tiros gerariam
um viés (diferença entre a média dos tiros e o valor do parâmetro) ocasionando um
erro de estimação. Assim, para os principais parâmetros populacionais tratados na
estatística, temos os seguintes estimadores pontuais não-viesados.
182
Parâmetro Estimador
Pn
Xi
Média X n = i=1
n
X o
Proporção p p^ = (X: n de "sucessos"na amostra)
n Pn 2
2 2 i=1 Xi Xn
Variância S =
s n 1
Pn 2
i=1 Xi Xn
Desvio-Padrão S=
n 1
Além desses principais estimadores, podemos citar outros de interesse, como:
a mediana amostral como um estimador natural da mediana populacional;
a moda amostral como um estimador natural da moda populacional;
a distância interquartil amostral como um estimador natural da distância in-
terquartil populacional;
o coe…ciente de correlação amostral r como um estimador natural do coe…ciente
de correlação populacional (X; Y );

1 Pn
a covariância amostral Sxy = xi Xn : yi Yn como um estimador
n i=1
natural da covariância populacional Cov(X; Y ).
Como dissemos anteriormente, a partir dos estimadores (variáveis aleatórias),
pode-se obter as distribuições de probabilidade dos mesmos, a …m de construir um
intervalo de con…ança para o parâmetro em estudo. Para isso o pesquisador deve
arbitrar um nível de con…ança dado por 1 , onde é a probabilidade de que
o intervalo construído não contenha o valor do parâmetro, chamado de nível de
signi…cância. Assim temos a seguinte de…nição:
O nível de con…ança, 1 , é a probabilidade de que a estimativa intervalar

contenha o parâmetro populacional em questão.
9.1 Propriedades dos Estimadores
Seja (X1 ; X2 ; :::; Xn ) uma amostra de tamanho n retirada de uma população com
uma dada distribuição. Denotemos por ^ = T (X1 ; X2 ; :::; Xn ) um estimador pontual
183
para um parâmetro de interesse.
De…nição 36 Dizemos que o estimador ^ do parâmetro é não tendencioso (ou
não-viesado, ou não-viciado) se a sua esperança coincide com o valor do parâmetro,
isto é,
E ^ = .
De…nição 37 De…ne-se o viés do estimador ^, denotado por B ^ , como
B ^ =E ^ .
Observação 33 Vê-se claramente que se ^ é estimador não tendencioso do parâmetro
, então B ^ = 0.
Exemplo 104 Seja (X1 ; X2 ; :::; Xn ) uma amostra de tamanho n retirada de uma
população com média e variância 2 .

Pn
Xi
(a) Mostre que X n = i=1 é estimador não tendencioso para .
Pn n
2
2 i=1 Xi Xn 2
(b) Mostre que S = é estimador não tendencioso para .
n 1
De…nição 38 De…ne-se o erro quadrático médio de ^ em relação ao parâmetro
, como
2
EQM ^ = E ^ .
Observação 34 Quanto menor for EQM ^ maior é a precisão do estimador ^.
Observação 35
2 2
EQM ^ = E ^ =E ^ E ^ +E ^
2 2
= E ^ E ^ + E ^ +2 ^ E ^ E ^
2 2 h i
= E ^ E ^ + E ^ +2 E ^ E ^ E ^
2 2
= E Ê ^ + E ^
h i2
EQM ^ = V ar ^ + B ^
184
De…nição 39 Dados dois estimadores não-tendenciosos ^1 e ^2 para um parâmetro
, dizemos que ^1 é mais e…ciente que ^2 , se
V ar ^1 < V ar ^2 .
De…nição 40 Dado um estimador ^ para o parâmetro , de…ne-se o erro-padrão do
estimador ^ como
r
EP ^ = V ar ^ .
Exemplo 105 Suponha um experimento consistindo de n provas de Bernoulli, com
probabilidade de sucesso p, desconhecida. Seja X o número de sucessos, e considere

X 1, se a primeira prova resultar sucesso
os estimadores para p: p^1 = e p^2 = .
n 0, caso contrário.
(a) Veri…que se p^1 e p^2 são não-tendenciosos.
(b) Determine a variância de cada estimador.
(c) Qual o estimador mais e…ciente?
9.2 Estimadores de Momentos
De…nição 41 O k-ésimo momento da população modelada por uma dada distribuição
é de…nido como
8 1
>
> X
>
> xk p(xi ), se X é v.a.d
>
< i=1 i
k = E Xk = Z1
>
>
>
> xk fX (x)dx, se X é v.a.c.
>
:
1
De…nição 42 O k-ésimo momento amostral é de…nido como
1X k
n
mk = X .
n i=1 i
De…nição 43 Dizemos que ^1 , ^2 , ..., ^r são estimadores obtidos pelo método dos
momentos se eles forem soluções das equações
k = mk , para k = 1; 2; :::; r.
185
Exemplo 106 Se (X1 ; X2 ; :::; Xn ) é uma amostra de tamanho n retirada de uma
2
população com uma distribuição normal com média e variância , quais os esti-
madores de momentos para esses parâmetros?
Exemplo 107 Se (X1 ; X2 ; :::; Xn ) é uma amostra de tamanho n retirada de uma
população com uma distribuição de Poisson com parâmetro > 0. Quais os possíveis
estimadores de momentos para ?
9.3 Estimadores de Máxima Verossimilhança
De…nição 44 Dada uma amostra (x1 ; x2 ; :::; xn ) de tamanho n retirada de uma
população com uma distribuição com função de probabilidade ou função de densidade
de probabilidade, dada por p(x; ) ou f (x; ), respectivamente, de…nimos a função
de verossimilhança como
p(x1 ; )p(x2 ; ):::p(xn ; ), se X é v.a.d

L( ; x1 ; x2 ; :::; xn ) =
f (x1 ; )f (x2 ; ):::f (xn ; ), se X é v.a.c.
Como a amostra já foi obtida, a função de verossimilhança deve ser encarada como
uma função do parâmetro apenas.
De…nição 45 O estimador de máxima verossilhança para o parâmetro , é o valor

^M V que maximiza a função de verossilhança L( ; x1 ; x2 ; :::; xn ), ou equivalente-
mente, o valor ^M V que maximiza l( ; x1 ; x2 ; :::; xn ) := ln L( ; x1 ; x2 ; :::; xn ).
Exemplo 108 Seja (x1 ; x2 ; :::; xn ) uma amostra de tamanho n retirada de uma pop-
ulação com uma distribuição exponencial de parâmetro > 0, desconhecido. Ache
o estimador de máxima verossilhança para à luz da amostra obtida.
Exemplo 109 Seja (x1 ; x2 ; :::; xn ) uma amostra de tamanho n retirada de uma pop-
ulação com uma distribuição de Poisson de parâmetro > 0, desconhecido. Ache o
estimador de máxima verossilhança para à luz da amostra obtida.
186
Exemplo 110 Seja a realização de 8 ensaios de Bernoulli com prababilidade p de-
sconhecida. Se obtemos os resultados 1; 0; 1; 0; 0; 1; 0; 0, qual o estimador de máxima
verossilhança para p à luz dessa amostra?
9.4 Estimação Intervalar de Parâmetros

9.4.1 Intervalo de Con…ança para a média populacional ( )
quando a variância populacional ( 2 ) é conhecida
Desejamos construir um intervalo de con…ança para a média populacional conhecendo-

2
se o valor da variância , uma situação um pouco incongruente, e que só se justi…ca
quando sabemos por exemplo por estudos anteriores da população inteira que a var-
2
iância era e se supõe que continua a mesma, tendo apenas a hipótese de mudança
da média, a qual se deseja estimar. Mas o caso mais relevante que recai ainda assim
nesse contexto é quando estamos lidando com amostras de tamanho grande (n 30).
Nesse caso, mesmo desconhecendo o valor da variância populacional, podemos sub-

2
stituir por S 2 , sem problema algum. Portanto, o contexto estudado aqui vale
2 2
tanto para conhecida, quanto para desconhecida, com amostras grandes.
Vimos, pelo Teorema Central do Limite, que temos a aproximação em dis-
tribuição:
Xn
Z= N (0; 1).
p
n
Se a população é normalmente distribuída, então a distribuição é exata:
Xn
Z= N (0; 1):
p
n
Suponha que desejemos formar um intervalo de con…ança para com uma prob-
abilidade de 1 . Então
P z =2 Z z =2 =1
187
0 1
B Xn C
P@ z =2 z =2 A =1
p
n
P z =2 p Xn z =2 p =1
n n
P Xn z =2 p Xn + z =2 p =1
n n
Assim temos:
P Xn z =2 p Xn + z =2 p =1 .
n n
O erro máximo da estimativa, E, é a maior distância possível entre a estimativa
pontual e o valor do parâmetro que se está estimando, dado o nível de con…ança
1 . Assim temos:
E=z =2 p .
n
Com isso, podemos dimensionar o tamanho da amostra necessário para que se
possa estimar a média populacional com um erro E. Isso será dado, isolando-se o
valor de n em E = z =2 p . Assim o tamanho n amostral é dado por:

n
2
z =2
n= .
E
Exemplo 111 Seja uma amostra aleatória com 35 preços (em reais) de um aparelho
celular especí…co. Sabendo-se que a média amostral foi de R$ 101; 77 e o desvio-
padrão de R$ 6; 69, pede-se:
(a) Determine a estimativa pontual para a média populacional dos preços do
celular em estudo.
(b) Determine o erro máximo da estimativa E, com base na amostra, ao nível
de 95% de con…ança.
188
(c) Determine o intervalo de con…ança de 95% para a média dos preços do celular
em estudo.
(d) Você quer estimar a média de preço do celular. Quantos preços de aparelhos
terão de ser incluídos em sua amostra se você quiser estar 95% seguro de que a
média amostral está a no máximo R$ 2; 00 da média populacional?
9.4.2 Intervalo de Con…ança para a média populacional ( )

quando a variância populacional ( 2 ) é desconhecida
Esse é certamente o contexto mais natural a se lidar com os problemas estatísticos
de estimação intervalar da média populacional. O problema agora é que, quando a
amostra é pequena, e utilizamos a variância da amostra no lugar da variância popu-
lacional, incorporamos mais incerteza aos intervalos. Daí a distribuição amostral ter
caudas mais "pesadas"para gerar valores mais atípicos. Assim, quando a variância
2
de uma população aproximadamente nomal é desconhecida, é possível mostrar
que
Xn
T = tn 1 Student,
S
p
n
s
Pn 2
i=1 Xi X n
com S = o desvio-padrão (corrigido) da amostra, e tn 1
n 1
Student a distribuição t-Student com n 1 graus de liberdade. Essa distribuição
é, como a Normal, centrada no zero e tabelada, de acordo com os seus graus de
liberdade (veja a tabela anexada). Observe que a tabela dá a área à direita do valor
de tn 1; , conforme grá…co abaixo com a no lugar de .
189
Distribuição t-Student
Quando os graus de liberdade da t-Student aumentam, a distribuição t-Student
tende à distribuição Normal. Daí o fato de termos proposto no caso anterior, para
amostras grandes, o uso da distribuição normal, na formação do intervalo de con…-

2
ança para a média populacional, mesmo com desconhecida.
Suponha que desejemos formar um intervalo de con…ança para com uma prob-
2
abilidade de 1 (nível de con…ança), supondo desconhecida. Então
P tn 1; =2 T tn 1; =2 =1
0 1
B Xn C
PB
@ tn 1; =2 tn 1; =2 A
C=1
S
p
n
S S
P tn 1; =2 p Xn tn 1; =2 p =1
n n
S S
P Xn tn 1; =2 p X n + tn 1; =2 p =1
n n
Assim, temos:
S S
P Xn tn 1; =2 p X n + tn 1; =2 p =1 .
n n
190
O erro máximo da estimativa, E, dado nível de con…ança, 1 é dado por:
S
E = tn 1; =2 p .
n
Com isso podemos dimensionar o tamanho da amostra necessário para que se
S
valor de n em E = tn 1; =2 p . Assim o tamanho n amostral é dado por:
n
2
tn 1; =2 S
n= .
E
Exemplo 112 Em uma amostra aleatória de 13 adultos da cidade do Rio de Janeiro,
a média de lixo reciclado por pessoa foi de 4; 3 kg por dia, com um desvio padrão de
0; 3 kg. Admita que a variável seja normalmente distribuída e construa um intervalo
de con…ança de 90% para a média de lixo reciclado por pessoa no Rio de Janeiro.
9.4.3 Intervalo de Con…ança para a proporção populacional

(p)
Suponha que p seja a proporção dos elementos da população que possuem um certo
atributo em estudo. Então

PN
i=1 Xi
p= ,
N
onde Xi = 1 se o i-ésimo elemento da população tem o atributo e Xi = 0 se
o i-ésimo elemento da população não tem o atributo. Assim Xi Ber(p) onde
E (Xi ) = p e V ar (Xi ) = p(1 p).
O estimador para p é dado por

Pn
i=1 Xi X
p^ = = ,
n n
onde X é o número de elementos na amostra com o dado atributo em estudo. Se
n for su…cientemente grande para satisfazer np 5 e n (1 p) 5, então vale o
191
Teorema Central do Limite, que nos garante:
p^ p
Z=r N (0; 1).
p(1 p)
n
r
p(1 p)
Como depende também do parâmetro, a ideia é substituir
r n r
p(1 p) p^(1 p^)
pela estimativa amostral e assim construir um intervalo de
n n
con…ança para p com uma probabilidade de 1 (nível de con…ança). Assim, temos:
P z =2 Z z =2 =1
0 1
B p^ p C
PB
@ z =2 r z =2 A
C=1
p^(1 p^)
n
r r !
p^(1 p^) p^(1 p^)
P z =2 p^ p z =2 =1
n n
r r !
p^(1 p^) p^(1 p^)
P p^ z =2 p p^ + z =2 =1
n n
Assim, temos:
r r !
p^(1 p^) p^(1 p^)
P p^ z =2 p p^ + z =2 =1 .
n n
O erro máximo da estimativa, E, dado o nível de con…ança 1 é dado por:

r
p^(1 p^)
E=z =2 .
n
Com isso podemos dimensionar o tamanho da amostra necessário para que se
r
p^(1 p^)
valor de n em E = z =2 . Assim o tamanho n amostral é dado por:
n
z =2 2
n = p^(1 p^) .
E
192
Observe que a fórmula do tamanho amostral acima depende de uma estimativa
preliminar p^ retirada de uma amostra piloto. Caso não seja possível obter a amostra
preliminar, então tomamos o valor de p^ que maximiza o fator p^(1 p^). Pode-se provar
1
pelo cálculo diferencial que p^ = 2
é o valor que maximiza p^(1 p^). Assim, sem uma
amostra preliminar, temos

z =2 2
n= .
2E
Exemplo 113 Em um estudo com 1:907 acidentes de tráfego, 449 estavam rela-
cionados ao uso de álcool. Pede-se:
(a) Construir um intervalo de con…ança de 99% para a proporção de acidentes
fatais relacionados ao álcool.
(b) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a
um nível de con…ança de 99%. Determine o tamanho mínimo da amostra necessário
para estimar a proporção populacional com uma precisão de 2%, sem uma amostra
preliminar.
(c) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a
um nível de con…ança de 99%. Determine o tamanho mínimo da amostra necessário
para estimar a proporção populacional com uma precisão de 2%, usando a estimativa
preliminar do enunciado do problema.
9.4.4 Intervalo de con…ança para variância populacional ( 2 )
A ideia agora é construir um intervalo de con…ança para a variância populacional

2
a partir da variãncia amostral S 2 . Pode-se mostrar em cursos avançados de
Estatística, que se a população é normalmente distribuída (ou aproximadamente
normal), então
(n 1) S 2 2
2 n 1
193
2
onde n 1 representa a distribuição de Qui-Quadrado com n 1 graus de liberdade.
Essa distribuição é de…nida nos valores reais não-negativos e é assimétrica, sendo
também tabelada de acordo com os graus de liberdade e os níveis de signi…cância
desejados. (Veja a tabela anexada.) Observe que a tabela dá a área à direita do

2
valor de n 1; , conforme grá…co abaixo com a no lugar de .
Distribuição Qui-Quadrado
Assim, temos
2 (n 1) S 2 2
P n 1;1 =2 2 n 1; =2 =1
2 2
P n 1;1 =2 (n 1) S 2 2 2
n 1; =2 =1
Mas, as duas desigualdades podem ser desenvolvidas como:
2 2 (n 1) S 2
n 1;1 =2 (n 1) S 2 =) 2
2
n 1;1 =2
e
(n 1) S 2
(n 1) S 2 2 2
n 1; =2 =) 2
2
n 1; =2
Assim temos:
!
(n 1) S 2 2 (n 1) S 2
P 2 2
=1 .
n 1; =2 n 1;1 =2
194
Exemplo 114 A …m de se estimar o desvio-padrão dos preços de aparelhos de MP3
no Rio de Janeiro, você seleciona ao acaso os preços de 17 MP3 players, obtendo-
se o desvio-padrão amostral de R$ 150; 00. Construa um intervalo de con…ança de
95% para a variância e o desvio-padrão dos preços dos aparelhos de MP3 no Rio de
Janeiro, assumindo a população normal.
Exercício 127 Seja fX1 ; X2 ; :::; Xn g uma amostra aleatória de variáveis aleatórias
independentes com função de densidade de probabilidade dada por
x 1 , se 0 < x < 1
fX (x) =
0, caso contrário
com > 0, um parâmetro desconhecido. Determine o estimador de máxima verossim-

n
ilhança para à luz da amostra fX1 ; X2 ; :::; Xn g. Resp.: ^ = Xn .
ln Xi
i=1
Exercício 128 Os sistemas de escapamento de uma aeronave funcionam devido
a um propelente sólido. A taxa de queima desse propelente é uma característica
importante do produto. Sabe-se que o desvio-padrão da taxa de queima seja de 2
cm/s. O experimentalista decide estimar a taxa média populacional a um nível de
signi…cância de 5%. Para isso ele seleciona uma amostra aleatória de tamanho 25
e obtém uma taxa média amostral de queima de 51; 3 cm/s.
(a) Qual o intervalo de con…ança obtido? Resp.: P (50; 5160 52; 0840) =
0; 95.
(b) Se o fabricante dos sistemas a…rma que a taxa média de seus produtos é de
50 cm/s, devemos aceitar ou rejeitar a a…rmação do fabricante? Resp.: Rejeitar.
Exercício 129 A tensão de ruptura dos cabos produzidos por um fabricante apre-
senta média de 1:800 kg e o desvio-padrão de 100 kg. Mediante nova técnica no
195
processo de fabricação, proclamou-se que a tensão de ruptura pode ter aumentado.
Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se obtido a
tensão média de 1:850 kg. Pode-se con…rmar a declaração ao nível de signi…cância
de 1%? Resp.: P (1813; 7 1886; 3) = 0; 99 e há evidências de que a média da
tensão de ruptura tenha aumentado.
Exercício 130 Um artigo no periódico Materials Engineering (1989, Vol.II, No.
4, pp. 275-281) descreve os resultados de testes de tensão quanto à adesão em 22
corpos de prova de liga U-700. A carga no ponto de falha do corpo de prova é dada
a seguir (em MPa):

19,8 18,5 17,6 16,7 15,8
15,4 14,1 13,6 11,9 11,4
11,4 8,8 7,5 15,4 15,4
19,5 14,9 12,7 11,9 11,4
10,1 7,9
(a) Qual o intervalo de con…ança para a média, ao nível de signi…cância de 5%?
Resp.: P (12; 1378 15; 2894) = 0; 95.
(b) Há evidências de que a carga média na falha excede 10 MPa? Resp.: Sim.
Exercício 131 Um fabricante de semicondutores produz controladores usados em
aplicações no motor de automóveis. O consumidor requer que a fração defeituosa
em uma etapa crítica de fabricação não exceda 0; 05 e que o fabricante demonstre
uma capacidade de processo nesse nível de qualidade. O fabricante de semicondutores
retira uma amostra de 200 aparelhos e encontra 4 defeituosos.
(a) Qual o intervalo de con…ança para a proporção de defeituosos, ao nível de
signi…cância de 5%? Resp.: P (0; 0006 p 0; 0394) = 0; 95.
(b) O fabricante pode demonstrar uma capacidade de processo para o consumidor?
Resp.: há evidência de que a fração de defeituosos não excede a 0; 05.
Exercício 132 Um fabricante de uma droga medicinal reivindicou que ela era 90%
196
e…caz em curar alergia, em um período de 8 horas. Para testar essa informação,
submetemos 200 pessoas com alergia à droga e 160 pessoas se curaram após o uso
da mesma. Determinar se a pretensão do fabricante é legítima a um nível de sig-
ni…cância de 1%. Resp.: P (0; 7273 p 0; 8727) = 0; 99 e há evidência de que a
informação dada pelo fabricante não seja verdadeira.
Exercício 133 Uma amostra de 10 pacotes de café solúvel de um dado fabricante
foi retirada, obtendo-se os dados: 46; 4; 46; 1; 45; 8; 47; 0; 46; 1; 45; 9; 45; 8; 46; 9;
45; 2 e 46; 0. Determine um intervalo de con…ança de 95% para a variância de tais

2
pacotes de café solúvel, assumindo uma população normal. Resp.: P (0; 1354
0; 2028) = 0; 95.
Exercício 134 Deseja-se estimar a taxa média de colesterol no plasma sanguíneo
de mulheres acima de 65 anos. Para isso, selecionou-se uma amostra de 25 mulheres,
a saber, fx1 ; x2 ; :::; x25 g, com os seguintes resultados
X
25 X
25
xi = 4:950 e (xi x25 )2 = 21:600
i=1 i=1
com os valores medidos em mg/100 ml de plasma.
(a) Construa um intervalo de con…ança ao nível de signi…cância de 10% para a
taxa média de colesterol de mulheres acima de 65 anos. Resp.: P (187; 734 208; 266) =
0; 9.
(b) Se o Ministério da Saúde a…rma que a taxa média de colesterol no plasma
sanguíneo de mulheres acima de 65 anos não excede a 210 mg/100 ml de plasma, há
razões para se acreditar nisso com base no intervalo de con…ança construído no item
(a)? Justi…que estatisticamente sua resposta. Resp.: Há evidências de que a taxa
média de colesterol no plasma sanguíneo de mulheres acima de 65 anos não excede
a 210 mg/100 ml de plasma.
197
Exercício 135 Deseja-se estimar a proporção de médicos não-fumantes. Para isso,
foram selecionados aleatoriamente 150 médicos e veri…cou-se que 123 deles não fu-
mam.
(a) Baseado nesses dados, construa um intervalo de 99% de con…ança para a ver-
dadeira proporção de não-fumantes em médicos. Resp.: P (0; 7394 p 0; 9006) =
0; 99.
(b) Se o Conselho de Medicina a…rma que menos do que 1=3 dos médicos fumam,
há razões para se acreditar nisso com base no intervalo de con…ança construído no
item (a)? Justi…que estatisticamente sua resposta. Resp.: Os dados con…rmam a
informação veiculada pelo Conselho de Medicina.
Exercício 136 Deseja-se estimar um salário médio de uma população. Sabe-se que
a variância populacional dos salários é de 1; 44 (em salários mínimos ao quadrado).
Qual deve ser o tamanho da amostra aleatória para que se possa garantir, com pelo
menos 98% de con…ança, que o salário médio da amostra não se afastará do salário
médio populacional por mais de 0; 05 salário mínimo? Resp.: Devemos ter uma
amostra de pelo menos 3:128 salários.
198
Capítulo 10
Testes de Hipóteses
Nesta aula exporemos as ideias centrais dos Testes de Hipóteses para uma única pop-
ulação: sua construção e seu elementos fundamentais para uma tomada de decisão
sob incerteza, concluindo assim os conceitos fundamentais da Estatística Básica.
Uma hipótese estatística é uma alegação sobre um parâmetro da população. O
que se deseja é, à luz da informação obtida por uma amostra dessa população,
decidir se aceitamos uma hipótese inicial (chamada de hipótese nula, H0 ) por não
haver evidências su…cientes contra ela, ou se a rejeitamos em favor de uma hipótese
alternativa (chamada de hipótese primo, H1 ), pelo fato de o resultado amostral ser
atípico dentro do contexto a…rmado pela hipótese nula. Vejamos como se estrutura
um teste de hipóteses.
Seja um parâmetro qualquer de uma população em estudo.
A hipótese nula H0 contém uma a…rmação do tipo: = 0, 0 ou 0 e
será contraposta a uma hipótese complementar alternativa do tipo 6= 0, < 0
ou > 0, respectivamente.
Assim temos os seguintes cenários de testes de hipóteses:
H0 : = 0 H0 : 0 H0 : 0
ou ou .
H1 : 6 = 0 H1 : < 0 H1 : > 0
199
Heurística para o Teste de Hipóteses
(1) Admitimos que a Hipótese Nula H0 é verdadeira a priori, tomando = 0,
qualquer que seja a hipótese contemplada ( = 0, 0 ou 0 ).
(2) Colhemos os dados através de uma amostra aleatória, retirada da população,
e calculamos as estatísticas amostrais cabíveis no contexto de cada parâmetro e
situação.
(3) Se a estatística amostral tiver baixa probabilidade de ter sido extraída de
uma população na qual a hipótese nula seja verdadeira, rejeitaremos H0 . Como
consequência, aceitaremos a hipótese alternativa, pois consideraremos que a baixa
probabilidade de a amostra ter sido obtida sob a hipótese de = 0 indicaria que
essa amostra veio na verdade de uma população em que o parâmetro era diferente
de 0. Se, por outro lado, a probabilidade não for baixa o bastante, não teremos
evidências su…cientes para rejeitarmos H0 .
Tipos de Erros e Nível de Signi…cância
Ao tomarmos uma decisão a respeito de uma a…rmação sobre um parâmetro,
estaremos sujeitos a dois tipos de erros: o Erro do Tipo I e o Erro do Tipo II.
Conforme o quadro abaixo:
200
Vemos que cometemos o Erro do Tipo I, quando a hipótese nula é realmente
verdadeira, mas optamos por rejeitá-la. Chegamos assim à importante de…nição na
Estatística de nível de signi…cância.
O nível de signi…cância, , é a probabilidade máxima que estamos

dispostos a incorrer para cometer o Erro do Tipo I.
Assim, devemos estabelecer a priori o nosso erro do tipo I, , isto é, quanto es-
tamos dispostos a errar ao a…rmar que H0 é falsa quando ela é verdadeira. Quanto
menor , mais evidências amostrais exigiremos para rejeitar H0 . Como consequên-
cia, aumentamos o nosso erro do tipo II, pois como estamos muito rigorosos para
rejeitar H0 , corremos mais riscos de aceitá-la quando ela de fato é falsa (erro tipo
II). Assim os erros do tipo I e II estão relacionados: diminuir o erro tipo I im-
plica aumentar o erro tipo II e vice-versa, conforme grá…co abaixo, representando
as hipóteses H0 : = 0 e H1 : = 1.
Erros Tipo I e II
A área em azul representa o erro tipo I, , de se rejeitar H0 , quando ela é de
fato verdadeira. Já a área em vermelho representa o erro tipo II, , de se aceitar
H0 , quando ela é de fato falsa, pois se situa na região de aceitação de H0 , embora
= 1.
201
O poder do teste, ( ), é a probabilidade de rejeitarmos
H0 quando H0 é de fato falsa, ou seja, ( ) = 1 .
Para cada cenário de teste de hipóteses, devemos estabeler nossas regiões de
rejeição de H0 , a partir do nível de signi…cância . Vejamo-los agora:
Teste Bicaudal (ou Bilateral)
Desejamos testar
H0 : = 0
H1 : 6 = 0
Assim, devemos distribuir o nível de signi…cância nas duas caudas da dis-
tribuição amostral, isto é =2 à esquerda e =2 à direita da distribuição, conforme
a …gura abaixo:
Se a estatística do teste se situar na região em vermelho (perfazendo 100 %
de probabilidade), então há evidências para se rejeitar H0 : = 0 ao nível de
signi…cância estabelecido.
Teste Monocaudal (ou Unilateral) à Esquerda
Desejamos testar
H0 : 0
H1 : < 0
Assim, devemos distribuir o nível de signi…cância na cauda esquerda da dis-
tribuição amostral, conforme a …gura abaixo:
202
de probabilidade), então há evidências para se rejeitar H0 : 0 ao nível de
Teste Monocaudal (ou Unilateral) à Direita
Desejamos testar
H0 : 0
H1 : > 0
Assim, devemos distribuir o nível de signi…cância na cauda direita da dis-
tribuição amostral, conforme a …gura abaixo:
de probabilidade), então há evidências para se rejeitar H0 : 0 ao nível de
Muitas das vezes, os estatísticos tomam suas decisões através do p-valor da
estatística, ou nível crítico, contrapondo-o com o nível de signi…cância estabelecido.
Mas em que consiste o p-valor na Estatística?
203
O p-valor, ^ ,é a probabilidade de se obter uma estatística amostral com um
valor tão ou mais extremo que o determinado pelos dados da amostra.
Após comparar o p-valor, ^ , ao valor de , o nível de signi…cância do teste,
podemos decidir se há evidência su…ciente para rejeitar a hipótese nula. Assim, por
exemplo,
se p , rejeitamos a hipótese nula;
se p > , não rejeitamos a hipótese nula.
Por que isso? Porque se a probabilidade de se ter obtido a estatística amostral,
supondo a hipótese nula verdadeira, é p com p , então o valor dessa estatística
tem uma probabilidade ainda menor (ou igual) àquela em que estabelecemos para
uma situação atípica supondo H0 verdadeira. Assim, há evidências amostrais de que
essa estatística vem de uma população com um parâmetro diferente do estabelecido
na hipótese nula. Se p > , então ainda não consideramos que o resultado da
estatística do teste seja atípico sob a hipótese de H0 verdadeira, pois consideramos
atípicos apenas aqueles eventos com probabilidade igual ou inferior a . Assim,
nesse último caso, não rejeitamos H0 .
Assim, por exemplo, se o p-valor de um teste de hipóteses unilateral é p =
0; 0749 = 7; 49%, então a um nível de signi…cância de = 0; 05 = 5% devemos
aceitar H0 . Agora, se p = 0; 0246 = 2; 46%, então a um nível de signi…cância de
= 0; 05 = 5% devemos rejeitar H0 ; mas a um nível de signi…cância de = 0; 01 =
1% devemos aceitar H0 , pois nesse caso não consideramos 2; 46% um evento raro ou
atípico, sob a hipótese nula verdadeira.
Etapas para o Teste de Hipóteses
204
(1) Estabeleça as hipóteses nula e alternativa: Escreva H0 e H1 como a…rmati-
vas matemáticas. Lembre que H0 sempre contém o símbolo =., mesmo quando as
hipóteses são 0 ou 0.
(2) Estabeleça o nível de signi…cância : Ele representa a probabilidade máxima
de se rejeitar a hipótese nula, caso ela seja a realmente verdadeira (ou seja, de se
cometer um erro do tipo I).
(3) Identi…que a distribuição amostral: A distribuição amostral é a distribuição
da estatística teste, supondo-se que a condição de igualdade na H0 seja verdadeira
(4) Determine a estatística teste e padronize-a: Faça os cálculos para padronizar
sua estatística amostral.
(5) Calcule o p-valor da estatística teste: Ele representa a probabilidade de se
obter a estatística teste (ou outro valor mais extremo) na distribuição amostral.
(6) Tome sua decisão: Se p , rejeite a hipótese nula. Se p > , não rejeite a
hipótese nula.
(7) Interprete sua decisão: Dada a alegação da hipótese nula, você poderá
rejeitá-la ou determinar que não há evidência su…ciente para isso.
Exemplo 115 A associação dos proprietários de indústrias metalúrgicas está muito
preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos
tempos tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 ho-
ras/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi
205
tomada uma amostra de nove indústrias e medido o número de horas/homem perdi-
das por acidente, que foi de 50 horas. Deseja-se saber se o programa de prevenção
de acidentes induziu de fato uma redução no número de horas/homem. Pede-se:
(a) Construir um teste de hipóteses para responder à pergunta central do estudo.
(b) Encontrar o nível crítico ou p-valor do teste e decidir ao nível de signi…cância
de 5% se há evidências de melhoria.
(c) Estabelecer a região de rejeição da hipótese nula ao nível de signi…cância de
5%.
Exemplo 116 Seja X uma v.a. com distribuição binomial, com n = 15. Considere
H0 : p 0; 5
H1 : p < 0; 5
com região crítica RC = f0; 1; 2g.
(a) Calcule a probabilidade do erro de tipo I.
(b) Calcule a probabilidade do erro de tipo II quando p = 0; 3.
(c) Calcule o poder do teste quando p = 0; 3.
10.1 Teste de Independência para Tabelas de Con-

tingência
Um teste qui-quadrado pode ser usado para determinar se duas variáveis qual-
itativas em tabelas de contingência são independentes. Já vimos que duas variáveis
são independentes se a ocorrência de uma não afeta a ocorrência da outra. Suponha
a tabela no domínio da frequência dada como a seguir:
B B1 B2 Bs Total
A
A1 O11 O12 O1s N1
A2 O21 O22 O2s N2
.. .. .. .. .. ..
. . . . . .
Ar Or1 Or2 Ors Nr
Total N1 N2 Ns N
206
Denotamos por Oij a frequência observada no cruzamento das categorias Ai
e Bj .
Denotamos por Eij a frequência esperada no cruzamento das categorias Ai
e Bj , caso Ai e Bj fossem independentes. Vimos na Aula 5 que esse cálculo é dado
por
Ni Nj
Eij = .
N
A ideia do teste é comparar se a distância entre os valores observados e os
valores esperados é grande estatisticamente. Se for considerado grande, então há
evidências de que as categorias A e B não são independentes.
Assim as hipóteses a serem contempladas são:
H0 : A e B são independentes
H1 : A e B não são independentes
A estatística do teste é dada por:
X
r X
s
(Oij Eij )2
0 =
i=1 j=1
Eij
que tem distribuição Qui-Quadrado com n = (r 1) (s 1) graus de liberdade.
De…nindo um nível de signi…cância , tomamos o valor tabelado da Qui-Quadrado

2
com n graus de liberdade, denotado aqui por n; e podemos agora tomar nossa de-
cisão.
Decisão:
2
(i) Se 0 > n; , então devemos rejeitar H0 e aceitar H1 . Ou seja, há evidências
de que as categorias são dependentes.
2
(ii) Se 0 n; , então devemos rejeitar H0 e aceitar H1 . Ou seja, há evidências
de que as categorias são dependentes.
207
Restrições: Para se utilizar o teste Qui-Quadrado para Tabelas de Contingência
é preciso garantir as seguintes condições:
(a) Só pode ser utilizado quando o tamanho da amostra é maior que 20.
(b) Quando o tamanho da amostra é maior que 20 e menor do que 40, só pode
ser utilizado se todas as caselas têm frequência esperada maior do que 5.
(c) Só pode ser utilizado se todas as frequências esperadas assumirem valores
iguais ou maiores que 1.
(d) Para tabelas de contingência 2 2, aconselha-se que a estatística do teste
seja calculada com a correção de Yates dada por
X
2 X
2
(jOij Eij j 0; 5)2
0 =
i=1 j=1
Eij
onde jOij Eij j é o valor absoluto da diferença entre o valor observado e o valor
esperado.
Vejamos um exemplo:
Exemplo 117 Deseja-se testar, ao nível de signi…cência de 5%, a hipótese de que
gênero e desempenho pro…ssional sejam variáveis independentes na prodissão de
Contador. Para isso, foram selecionadas 220 contadores (112 homens e 108 mul-
heres) e seus desempenhos foram avaliados, obtendo-se a seguinte tabela de con-
tingência.
Baixo Médio Superior Total

Homem 22 81 9 112
Mulher 14 75 19 108
Total 36 156 28 220
Solução: Nossas hipóteses a serem testadas são
H0 : gênero e desempenho são independentes

H1 : gênero e desempenho são dependentes
208
Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula
será:
112 36 112 156 112 28

E11 = = 18; 33, E12 = = 79; 42, E13 = = 14; 25
220 220 220
108 36 108 156 108 28
E21 = = 17; 67, E22 = = 76; 58, E23 = = 13; 75
220 220 220
A estatística do teste é dada por
X
2 X
3
(Oij Eij )2
0 =
i=1 j=1
Eij
(22 18; 33)2 (81 79; 42)2 (9 14; 25)2
= + + +
18; 33 79; 42 14; 25
(14 17; 67)2 (75 76; 58)2 (19 13; 75)2
+ +
17; 67 76; 58 13; 75
0 = 5; 51
O valor tabelado da Qui-Quadrado com n = (2 1) (3 1) = 2 graus de liberdade
e = 0; 05 é dado por
2
2;0;05 = 5; 991.
A estatística teste, 5; 51, não cai na região de rejeição, portanto não rejeitamos
H0 . Podemos concluir que gênero e desempenho pro…ssional são variáveis indepen-
dentes. Não se deve portanto contratar contadores com base no gênero, já que ser
homem ou mulher não in‡uencia seu desempenho pro…ssional.
Exemplo 118 Deseja-se testar, ao nível de signi…cência de 1%, a hipótese de que
a ausência ou presença de aberração cromossômica é independente da idade da
gestante. Para isso, 985 gestantes foram selecionadas e divididas segundo duas
faixas etárias e quanto à presença ou não de aberrações cromossômicas. Os dados
encontram-se na tabela abaixo:

Idade n Aberração Presente Ausente Total
35 ` 40 10 447 457
40 e mais 18 510 528
Total 28 957 985
209
Solução: Nossas hipóteses a serem testadas são
H0 : idade e aberrações são independentes

H1 : idade e aberrações são dependentes
Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula
será:
457 28 457 957
E11 = = 13, E12 = = 444
985 985
528 28 528 957
E21 = = 15, E22 = = 513
985 985
X
2 X
2
(jOij Eij j 0; 5)2
0 =
i=1 j=1
Eij
(j10 13j 0; 5)2 (j447 444j 0; 5)2
= + +
13 444
(j18 15j 0; 5)2 (j510 513j 0; 5)2
+
15 513
= 0; 48 + 0; 014 + 0; 42 + 0; 012
0 = 0; 926
O valor tabelado da Qui-Quadrado com n = (2 1) (2 1) = 1 grau de liberdade
e = 0; 01 é dado por
2
1;0;01 = 6; 635.
A estatística teste, 0; 926, não cai na região de rejeição, portanto não rejeita-
mos H0 . Podemos concluir que não há dependência entre a idade e a presença ou
ausência de aberração cromossômica.
10.2 Testes de Signi…cância do Coe…ciente de Cor-

relação r de Pearson
Vimos na Aula 4 que o coe…ciente de correlação (r) é a medida comumente
utilizada para se avaliar a correlação linear entre duas variáveis quantitativas e que
210
quanto mais próximo de 0 menor é a correlação entre duas variáveis X e Y . Nosso
objetivo é testar as seguintes hipóteses:
H0 : =0
H1 : 6= 0
com o parâmetro representando o coe…ciente de correlação da população. A partir
dos dados obtidos na forma tabelar
Covariável (X) x1 x2 ::: xn

Variável Resposta (Y ) y1 y2 ::: yn
vimos que o coe…ciente de correlação amostral é calculado como:
Pn
i=1 xi Xn : yi Yn
r = qP qP
n 2 n 2
i=1 xi Xn i=1 yi Yn
ou então de forma mais simpli…cada para o cálculo:
Pn P P
n i=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
r=q P P q P P
2 2
n ni=1 x2i ( ni=1 xi ) n ni=1 yi2 ( ni=1 yi )
onde Xn e Yn são as médias da covariável e da variável resposta, respectivamente.
A estatística do teste a ser utilizada nesse caso é dada por

p
r n 2
t0 = p
1 r2
De…nindo um nível de signi…cância , obtemos o valor tabelado na tabela da
t-Student com n 2 graus de liberdade e =2, pois o teste é bilateral e podemos
agora tomar nossa decisão:
Decisão:
(a) Se t0 2
= tn 2; =2 ; tn 2; =2 , então rejeitamos H0 e aceitamos H1 : 6= 0. Ou
seja, há evidências de que a correlação entre X e Y é de fato signi…cativa.
211
(b) Se, por outro lado, t0 2 tn 1; =2 ; tn 1; =2 , então não rejeitamos H0 . Ou
seja, não há evidências ao nível de signi…cância escolhido de que X e Y sejam
correlacionadas.
Exemplo 119 Deseja-se saber se há uma correlação linear entre o número de anos
de estudos completados pelo pai (X) e o número de anos de estudo completado pelo
…lho (Y). Para isso, uma amostra de 8 pares de pai e …lho foi selecionada, obtendo-se
os seguintes dados.
X Y X2 Y 2 XY
1 12 12 144 144 144
2 10 8 100 64 80
3 6 12 36 144 72
4 16 11 256 121 176
5 8 10 64 100 80
6 9 8 81 64 72
7 12 16 144 256 192
8 11 15 121 225 165
Total 84 92 946 1118 981
Obtenha o coe…ciente de correlação de Pearson e teste se o mesmo é signi…cativo
ao nível de signi…cância de 5%.
Solução: Assim temos
X
8 X
8 X
8 X
8 X
8
xi :yi = 981, xi = 84, yi = 92, x2i = 946 e yi2 = 1:118.
i=1 i=1 i=1 i=1 i=1
212
Utilizando a fórmula simpli…cada para r, temos
P P8 P8
8 8i=1 xi :yi i=1 xi : i=1 yi
r = q P P8
q
P P8
2 2
8 8i=1 x2i i=1 xi 8 8i=1 yi2 i=1 yi
8 981 84 92
= p p
8 946 842 8 1:118 922
120
= p p
512 480
r = 0; 24 ou r = 24%
Temos as seguintes hipóteses a serem testadas:
H0 : =0
H1 : 6= 0
Assim, nosso teste é bilateral e com o nível de signi…cância dado por = 0; 05,
temos o valor tabelado
tn 2; =2 = t6;0;025 = 2; 447.
A estatística do teste, sob H0 , é dada por:

p p
r n 2 0; 24 8 2
t0 = p =p = 0; 61.
1 r2 1 0; 242
Como t0 = 0; 61 2 [ t6;0;025 ; t6;0;025 ] = [ 2; 447; 2; 447], não rejeitamos H0 ao nível
de signi…cância 5%. Assim, não há evidência su…ciente para se acreditar que haja
uma correlação entre o número de anos de estudos completados pelo pai e o número
de anos de estudo completado pelo …lho.
213
10.3 Teste de Hipóteses para Diferença de Médias
para Dados Pareados
O objetivo desse teste é avaliar se duas respostas obtidas de uma mesma unidade
experimental do tipo antes e depois podem ser consideradas diferentes estatistca-
mente. Portanto os dois grupos de dados pertencem à mesma população e são
sonsiderados pareados. Teremos então um quadro do tipo:
X (antes) Y (depois)
1 x1 y1
2 x2 y2
.. .. ..
. . .
n xn yn
A ideia central aqui é avaliar se a diferença entre as duas médias Xn e Yn , isto
é, Yn Xn pode ser considerada estatísticamente como diferente de zero, para se
concluir que há diferença entre o antes e o depois.
De…nindo di = yi xi , temos o seguinte quadro
X (antes) Y (depois) D
1 x1 y1 d1 = y1 x1
2 x2 y2 d2 = y2 x2
.. .. ..
. . .
n xn yn dn = yn xn
Devemos calcular a média e a variância das diferenças di , isto é,
Pn
i=1 di
Dn = = Yn Xn
n
e
Pn 2
2 i=1 di Dn
SD =
n 1
As hipóteses a serem testadas são:
H0 : D =0 H0 : D 0 H0 : D 0
ou ou .
H1 : D 6= 0 H1 : D <0 H1 : D >0
214
A estatística do teste para todos os casos é dada por
Dn
t0 = SD
p
n
que tem distribuição t-Student com n 1 graus de liberdade.
De…nindo um nível de signi…cância , podemos agora tomar nossa decisão:
Decisão:
(a) No contexto de um teste bilateral: Se t0 2

= tn 1; =2 ; tn 1; =2 , então
rejeitamos H0 e aceitamos H1 : D 6= 0, ou seja, há diferença sigini…cativa entre o
antes e o depois. Se, por outro lado, t0 2 tn 1; =2 ; tn 1; =2 , então não rejeitamos
H0 , ou seja, não há evidências de que houve mudança entre o antes e o depois.
(b) No contexto de um teste unilateral à esquerda: Se t0 < tn 1; , então
rejeitamos H0 e aceitamos H1 : D < 0, ou seja, há diferença entre o antes e depois
e a média do depois pode ser considerada inferior à média do antes. Se, por outro
lado, t0 tn 1; , então não rejeitamos H0 , ou seja, a média do depois não pode
ser considerada inferior à média do antes.
(c) No contexto de um teste unilateral à direita: Se t0 > tn 1; , então
rejeitamos H0 e aceitamos H1 : D > 0, ou seja, há diferença entre o antes e depois
e a média do depois pode ser considerada superior à média do antes. Se, por outro
215
lado, t0 tn 1; , então não rejeitamos H0 , ou seja, a média do depois não pode ser
considerada superior à média do antes.
Exemplo 120 A tabela abaixo mostra a freqüência cardíaca (em batidas por min-
uto) de cinco pessoas antes e depois de uma sessão de exercícios físicos. Há evidência
su…ciente para se concluir que o exercício acelera a freqüência cardíaca? Use um
nível de signi…cância de 5%.
Indivíduo X (antes) Y (depois) D

1 65 127 d1 = 62
2 72 135 d2 = 63
3 85 140 d3 = 55
4 78 136 d4 = 58
5 93 150 d5 = 57
Solução: Devemos calcular a média e a variância das diferenças di , isto é,
P5
i=1 di 295
D5 = = = 59
5 5
e
P5 2
2 i=1 di D5 9 + 16 + 16 + 1 + 4 46
SD = = = = 11; 5
5 1 4 4
e
p
SD = 11; 5 = 3; 39
Desejamos testar as seguintes hipóteses

H0 : D 0
H1 : D >0
D5 59
t0 = S
= 3;39 = 38; 92:
pD p
5 5
Ao nível de signi…cância de 5% e no contexto de teste unilateral à direita, temos o
valor tabelado t4;0;05 = 2; 132.
Como t0 = 38; 92 > t4;0;05 = 2; 132, rejeitamos H0 e aceitamos H1 : D > 0, ou
seja, há diferença entre o antes e depois e a média do depois pode ser considerada
216
superior à média do antes. Em outras palavras, há evidência su…ciente para aceitar
a alegação de que o exercício acelera a freqüência cardíaca.
10.4 Teste de Hipóteses para a Diferença entre

duas Médias (amostras grandes e indepen-
dentes)
Nesse contexto os membros de uma amostra não têm relação com os membros
da outra. É o caso em que há dois grupos independentes de unidades experimentais
(tratamento e controle).
Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo
II, com n1 30 e n2 30, e que os resultados de cada grupo sejam:
Grupo I: fx1 ; x2 ; :::; xn1 g
Grupo II: fy1 ; y2 ; :::; yn2 g
Desejamos avaliar se a diferença entre as médias Xn1 e Yn2 , isto é, Yn2 Xn1 ,
pode ser considerada estatísticamente como diferente de zero, para se concluir que
há diferença entre os dois grupos independentes.
Nossas hipóteses a serem testadas são:
H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou .
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0
com 1 a média da população do Grupo I e 2 a média da população do Grupo
II.
A estatística do teste para todas as hipóteses acima é dada por
Yn Xn1
z0 = q2 2
S1 S2
n1
+ n22
com S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente, isto é,
Pn1 2 Pn2 2
2 i=1 xi Xn1 2 i=1 yi Yn2
S1 = e S2 = .
n1 1 n2 1
217
A estatística z0 tem distribuição normal padrão.
De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a
partir do valor tabelado na normal padrão:
Decisão:
(a) No contexto de um teste bilateral: Se z0 2

= z =2 ; z =2 , então rejeita-
mos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias diferentes.
Se, por outro lado, z0 2 z =2 ; z =2 , então não rejeitamos H0 , e podemos concluir
que não há diferença entre o grupo tratado e o grupo controle.
(b) No contexto de um teste unilateral à esquerda: Se z0 < z , rejeita-
mos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente e
inferior à média do Grupo I. Se, por outro lado, z0 z , não rejeitamos H0 , ou
seja, 2 1.
(c) No contexto de um teste unilateral à direita: Se z0 > z , rejeitamos
H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente e superior à
média do Grupo I. Se, por outro lado, z0 z , não rejeitamos H0 , ou seja, 2 1.
Exemplo 121 Para testar o efeito bené…co de um tratamento …toterápico sobre a
memória, selecionou-se aleatoriamente uma amostra de 95 pessoas, as quais rece-
berão o tratamento, e uma amostra de 105 pessoas que tomarão um placebo. Um
mês depois, ambos os grupos submetem-se a um teste. A nota média do grupo ex-
perimental é de 77, com um desvio padrão de 15. No grupo de controle, a média é
73 e o desvio padrão, 12. Teste a alegação de que o tratamento …toterápico melhora
a memória a um nível de signi…cância de 1%.
Solução: Temos n1 = 95 (tratado, Grupo I) e n2 = 105 (controle, Grupo II).
Além disso: X95 = 77, S1 = 15 e Y105 = 73, S2 = 12.
218
Desejamos testar as seguintes hipóteses:
H0 : 1 2 H0 : 1 2 0
ou equivalentemente
H1 : 1 > 2 H1 : 1 2 >0
X95 Y105 77 73
z0 = q 2 2
=q = 2; 07
S1 S2 152 122
95
+ 105 95
+ 105
O valor tabelado é z0;01 = 2; 33.
Como z0 = 2; 07 z0;01 = 2; 33, não rejeitamos H0 , ou seja, não há evidên-
cia su…ciente para aceitar a alegação de que o tratamento …toterápico aumenta a
memória.

duas Médias (amostras pequenas e indepen-
dentes)
Quando não se pode colher amostras de 30 ou mais itens, pode usar um teste t, se
as duas populações forem normalmente distribuídas.
A distribuição amostral depende do fato de as variâncias populacionais serem ou
não iguais. O primeiro passo, portanto, é testar se as duas variâncias amostrais po-
dem ser consideradas estatisticamente iguais ou não, para em seguida direcionarmos
para o teste apropriado.
10.5.1 Testando se as duas variâncias dos dois grupos são

iguais
Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo II, com
n1 < 30 e n2 < 30, e que os resultados de cada grupo sejam:
219
Sejam S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
Pn1 2 Pn2 2
i=1 xi Xn1 i=1 yi Yn2
S12 = e S22 = .
n1 1 n2 1
2 2
H0 : 1 = 2
2 2
H1 : 1 6 = 2
2 2
onde 1 e 2 são as variâncias populacionais dos grupos I e II, respectivamente.
S12
F0 = , se S12 S22
S22
ou
S22
F0 = , se S22 S12
S12
Se S12 S22 pode-se mostrar que F0 tem distribuição F-Snedecor com n1 1
graus de liberdade no numerador e n2 1 graus de liberdade no denominador,
denotada por Fn1 1;n2 1 .
Se S22 S12 pode-se mostrar que F0 tem distribuição F-Snedecor com n2 1
graus de liberdade no numerador e n1 1 graus de liberdade no denominador,
denotada por Fn2 1;n1 1 .
partir do valor tabelado da distribuição F.
Decisão:
S12
(a) No contexto S12 S22 : Se F0 = S22
> Fn1 1;n2 1; =2 , então rejeitamos H0
2 2
e aceitamos H1 : 1 6= 2, isto é, os dois grupos têm variâncias diferentes. Se, por
S12
outro lado, F0 = S22
Fn1 1;n2 1; =2 , então não rejeitamos H0 , e podemos concluir
que não há diferença entre as duas variâncias.
220
S22
(b) No contexto S22 S12 : Se F0 = S12
> Fn2 1;n1 1; =2 , então rejeitamos H0
2 2
e aceitamos H1 : 1 6= 2, isto é, os dois grupos têm variâncias diferentes. Se, por
S22
outro lado, F0 = S12
Fn2 1;n1 1; =2 , então não rejeitamos H0 , e podemos concluir
que não há diferença entre as duas variâncias.
Exemplo 122 Um engenheiro quer realizar um teste t para veri…car se o consumo
médio de combustível do carro A é inferior ao do B. Uma amostra aleatória do
consumo de combustível de 16 carros A tem um desvio padrão de 4; 5. Já a amostra
aleatória do consumo de 22 carros B tem um desvio padrão de 4; 2. O engenheiro
deveria usar o teste t com variâncias iguais ou com variâncias diferentes? Use um
nível de signi…cância de 5%.
Solução: Temos n1 = 16 (carro A, Grupo I) e n2 = 22 (carro B, Grupo II).
Além disso: S1 = 4; 5 e S2 = 4; 2.
Como S12 S22 , temos que a estatística do teste é dada por
S12 (4; 5)2

F0 = = = 1; 148
S22 (4; 2)2
A um nível de signi…cância de 5%, temos que o valor tabelado de F15;21;0;025 =
2; 53.
Como F0 = 1; 148 < F15;21;0;025 = 2; 53, não rejeitamos H0 , e podemos concluir
que não há diferença entre as duas variâncias. Ao fazer um teste t para comparar
as médias das duas populações, use o teste para variâncias iguais.
10.5.2 Testando a Diferença entre duas Médias (com as duas

variâncias dos dois grupos iguais)
Sejam os dois grupos:
221
Pn1 2 Pn2 2
S12 = e S22 = e
n1 1 n2 1
sejam Xn1 e Yn2 , as médias dos grupos I e II, respectivamente.
Se as variâncias das duas populações são consideradas estatisticamente iguais, é
possível combinar ou ‘agrupar’informação das duas amostras, a …m de formar uma
estimativa agrupada do desvio padrão, da seguinte forma:

s
(n1 1) S12 + (n2 1) S22
^=
n1 + n2 2
A estatística do teste para se testar as hipóteses
H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0
é dada por
Yn Xn1
t0 = q2
^ n11 + n12
que tem distribuição t-Student com n1 + n2 2 graus de liberdade.
partir do valor tabelado na t-Student com n1 + n2 2 graus de liberdade.
Decisão:

= tn1 +n2 2; =2 ; tn1 +n2 2; =2 ,
então rejeitamos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias
diferentes. Se, por outro lado, t0 2 tn1 +n2 2; =2 ; tn1 +n2 2; =2 , então não rejeitamos
H0 , e podemos concluir que não há diferença entre os dois grupos.
(b) No contexto de um teste unilateral à esquerda: Se t0 < tn1 +n2 2; ,
rejeitamos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente
222
e inferior à média do Grupo I. Se, por outro lado, t0 tn1 +n2 2; , não rejeitamos
H0 , ou seja, 2 1.
(c) No contexto de um teste unilateral à direita: Se t0 > tn1 +n2 2; ,
rejeitamos H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente
e superior à média do Grupo I. Se, por outro lado, t0 tn1 +n2 2; , não rejeitamos
H0 , ou seja, 2 1.
Exemplo 123 Cinco pick-ups pequenas e oito SUVs realizaram testes de colisão a
cinco milhas por hora. Para as pick-ups, o conserto do pára-choques custou em média
US$ 1:520, com um desvio padrão de US$ 403. No caso dos SUVs, o conserto custou
uma média de US$ 937, com um desvio padrão de US$ 382. Sendo = 0; 05, teste a
alegação de que o conserto de pára-choques das pick-ups custa mais que o dos SUVs.
Admita que a partir do teste de igualdade de variâncias tenhamos comprovado que
as mesmas sejam iguais.
Solução: Como na primeira fase se comprovou que as variâncias dos dois grupos
são iguais, devemos utilizar o teste t com n1 + n2 2 = 5+8 2 = 11 graus de
liberdade, pois temos n1 = 5 (carro pick-up, Grupo I) e n2 = 8 (carro SUV, Grupo
II). Temos também os seguintes dados: X5 = 1:520, S1 = 403 e Y8 = 937, S2 = 382.
Assim, temos
s
(n1 1) S12 + (n2 1) S22
^ =
n1 + n2 2
s
4 (403)2 + 7 (382)2
=
11
^ = 389; 77
Desejamos testar
H0 : 1 2 H0 : 1 2 0
ou equivalentemente .
H1 : 1 > 2 H1 : 1 2 >0
223
Xn Yn2 1:520 937

t0 = q1 = q = 2; 624.
^ n11 + n12 389; 77 15 + 18
O valor tabelado é t11;0;05 = 1; 796.
Como t0 = 2; 624 > t11;0;05 = 1; 796, rejeitamos H0 e aceitamos H1 : 1 2 > 0,
ou seja, a média do grupo I (pick-ups) é diferente e superior à média do Grupo II
(SUVs).
10.5.3 Testando a Diferença entre duas Médias (com as duas

variâncias dos dois grupos diferentes)
Sejam os dois grupos:

Pn1 2 Pn2 2
S12 = e S22 = e
n1 1 n2 1
sejam Xn1 e Yn2 , as médias dos grupos I e II, respectivamente.
Se as variâncias das duas populações são consideradas estatisticamente diferentes,
então a estatística do teste para se testar as hipóteses
H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0
é dada por
Yn Xn1
t0 = q2 2
S1 S2
n1
+ n22
2 2
S1 S2
n1
+ n2
2
que tem distribuição t-Student com = 2 2 graus de liberdade (arredon-
(S12 =n1 ) +
(S22 =n2 )
n1 1 n2 1
dando para o inteiro menor mais próximo).
224
partir do valor tabelado na t-Student com graus de liberdade.
Decisão:

= t ; =2 ; t ; =2 , então rejeita-
mos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias diferentes.
Se, por outro lado, t0 2 t ; =2 ; t ; =2 , então não rejeitamos H0 , e podemos concluir
que não há diferença entre os dois grupos.
(b) No contexto de um teste unilateral à esquerda: Se t0 < t ; , rejeita-
mos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente e
inferior à média do Grupo I. Se, por outro lado, t0 t ; , não rejeitamos H0 , ou
seja, 2 1.
(c) No contexto de um teste unilateral à direita: Se t0 > t ; , rejeitamos
H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente e superior à
média do Grupo I. Se, por outro lado, t0 t ; , não rejeitamos H0 , ou seja, 2 1.
Exemplo 124 Suponha dois grupos, tais que X15 = 400; 9, S1 = 10; 6 e Y15 =
367; 2, S2 = 6; 1. Suponha que o teste de igualdade de variâncias tenha comprovado
ao nível de signi…cância de 5% que as mesmas são diferentes e que desejamos testar
as hipóteses
H0 : 2 1 =0
H1 : 2 1 6= 0
ao mesmo nível de signi…cância. A estatística do teste é dada por
Yn Xn1 367; 2 400; 9

t0 = q2 2 2
=q = 10; 67
S1 S2 (10;6)2 (6;1)2
n1
+ n2 15
+ 15
2 2 2
S1 S2 (10;6)2 (6;1)2
n1
+ n2 15
+ 15
2
que tem distribuição t-Student com = 2 2 = ((10;6)2 =15)2 ((6;1)2 =15)2
=
(S12 =n1 ) +
(S22 =n2 ) 14
+ 14
n1 1 n2 1
225
22; 36 = 22 graus de liberdade. O valor tabelado para o teste bilaterial é t ; =2 =
t22;0;025 = 2; 074.
Como t0 = 10; 67 2
= [ 2; 074; 2; 074], rejeitamos H0 e aceitamos H1 : 2 1 6=
0, isto é, os dois grupos têm médias diferentes.

duas Proporções
Se as amostras independentes colhidas de duas populações forem grandes o bas-
tante, pode-se aplicar um teste para veri…car se há diferença entre as proporções
populacionais p1 e p2 .
Sejam X1 e X2 representam o número de sucessos na primeira e na segunda
amostra, respectivamente, e sejam n1 e n2 os tamanhos da primeira e da segunda
amostra, respectivamente. De…nimos as proporções amostrais dos dois grupos como
X1 X2
p^1 = e p^2 = .
n1 n2
De…na também
X1 + X2
p= eq=1 p.
n1 + n2
H0 : p 1 p2 = 0 H0 : p 1 p2 0 H0 : p 1 p2 0
ou ou
H1 : p 1 p2 6= 0 H1 : p 1 p2 < 0 H1 : p 1 p2 > 0
Se n1 p, n1 q, n2 p e n2 q equivalem a cada um pelo menos 5, então a estatística
do teste utilizada para as hipóteses acima é dada por
p^1 p^2
z0 = r
pq n11 + 1
n2
e tem distribuição normal padrão.
226
partir do valor tabelado na Normal Padrão.
Decisão:
(a) No contexto de um teste bilateral: Se z0 2

= z =2 ; z =2 , então rejeita-
mos H0 e aceitamos H1 : p1 p2 6= 0, isto é, os dois grupos têm proporções diferentes.
Se, por outro lado, z0 2 z =2 ; z =2 , então não rejeitamos H0 , e podemos concluir
que não há diferença entre as duas proporções.
(b) No contexto de um teste unilateral à esquerda: Se z0 < z , rejeita-
mos H0 e aceitamos H1 : p1 p2 < 0, ou seja, a proporção do grupo I é diferente e
inferior à proporção do Grupo II. Se, por outro lado, z0 z , não rejeitamos H0 ,
ou seja, p1 p2 .
(c) No contexto de um teste unilateral à direita: Se z0 > z , rejeitamos H0
e aceitamos H1 : p1 p2 > 0, ou seja, a proporção do grupo I é diferente e superior
à proporção do Grupo II. Se, por outro lado, z0 z , não rejeitamos H0 , ou seja,
p1 p2 .
Exemplo 125 Em um levantamento com 3:420 alunos do ensino médio privado,
917 disseram ter fumado nos 30 dias precedentes. Já em um levantamento com
5:131 alunos do ensino médio público, 1:503 disseram ter fumado nos 30 dias prece-
dentes. Pode-se aceitar a alegação de que a proporção de alunos de escola privada
que disseram ter fumado é inferior à proporção dos alunos do sistema público que
disseram ter fumado ao nível de signi…cância de 1%?
227

Apostila de Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila de Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

PROBABILIDADE E ESTATÍSTICA

Prof. Nei Rocha

1 A Natureza e os Conceitos Fundamentais da Estatística 1

2 Análise Exploratória de Dados 16

4 Esperança Matemática 105

5 Vetores Aleatórios Bidimensionais 120

6 Modelos de Variáveis Aleatórias Discretas 134

7 Modelos de Variáveis Aleatórias Contínuas 154

8 Teorema Central do Limite 170

10 Testes de Hipóteses 199

1.1 A Natureza da Estatística

Vivemos num mundo imerso em incertezas. A todo tempo somos bombardeados

por informações sobre pesquisas cientí…cas comprovando (estatisticamente) que tal

bos, e outros conteúdos de forte caracterização probabilística. Num mundo assim,

é de fundamental importância possuir um espírito crítico para informações sujeitas

à incerteza a …m de poder dar inteligibilidade a elas e até mesmo poder distinguir

informações falsas de verdadeiras. Nessa medida, a Estatística é uma disciplina

ina, Economia, Política, Psicologia, Tecnologia, Indústria (Controle de Qualidade),

Demogra…a (Censo), entre outras.

A raiz etimológica da palavra Estatística vem da palavra latina “status” que

signi…ca “estado” e signi…cava a contagem e gestão de dados do estado. Ao longo

da história da Estatística, essa vinculação ao estado foi se enfraquecendo e hoje

a estatística tem um caráter abrangente o bastante para lidar com sistemas do

conhecimento bem dissociados da noção de Estado.

saber: "Estatística"como Ciência e "estatística"como uma operação de dados co-

estudar) é uma estatística também. O contexto nos auxiliará a distinguir o signi…-

cado veiculado pelo termo estatística.

Mas como ciência, o que é a Estatística, a…nal?

Estatística é a arte e a ciência de coletar, analisar, apresentar,

é impossível analisar estatisticamente o comportamento de fenômenos incertos ou

E o que entendemos por "fenômenos incertos"?

Fenômenos aleatórios (ou incertos) são aqueles cujos resultados

Assim, onde há incerteza (e por conseguinte, variabilidade de resultados, mesmo

ordem simbólica ao fenômeno.

Em geral o professor de Matemática conhece bem a natureza do raciocínio

raciocínio estatístico. Qual a especi…cidade desses dois raciocínios e o que os difer-

O pensamento matemático baseia-se num raciocínio lógico em que as proposi-

fenômenos da natureza a partir de modelos determinísticos.

quanti…cada através da probabilidade. É a ciência da variabilidade por excelência

e procura, através de dados experimentais aleatórios, extrair organização do caos e

tomar decisões sob incerteza.

Os pensamentos matemático e estatístico são construídos, respectivamente, por

sentenças matemáticas e sentenças estatísticas. Sentenças matemáticas são aque-

Exemplos de sentenças matemáticas: “Todos os números primos são ímpares”(sen-

ímpares” (sentença verdadeira). Sentenças estatísticas são aquelas cuja veraci-

permitem matematizar a probabilidade de erro da a…rmação. Por exemplo, a sen-

honestidade da moeda no segundo caso do que no primeiro.

Como você deve ter percebido, em toda a…rmação estatística há um nível de

con…abilidade e uma probabilidade de erro ao a…rmarmos algo. Vejamos com um

Suponha que dois medicamentos (A e B) serão testados quanto ao tempo de

medicamento A tenha sido 2 minutos e do B de 4 minutos. Podemos dizer que as duas

médias são diferentes e que, portanto, o medicamento A é mais e…ciente do que o B?

Se estivermos imbuídos do raciocínio matemático, a duas respostas seriam “sim”,

pois 2 < 4. Entretanto, imbuídos do raciocínio estatístico, a resposta dependerá da

estrutura aleatória dos dados coletados. Vejamos dois cenários possíveis:

geométricos se comportam como a …gura 1 abaixo:

abilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento

B, por ter gerado uma menor média.

lugares geométricos se comportam como a …gura 2 abaixo:

distinguem um ao outro, e um teste estatístico adequado validaria com alta proba-

bilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento B,

por ter gerado uma menor média.

basear-se não apenas em valores pontuais de medida, mas também em estudos de