Você está na página 1de 231

PROBABILIDADE E ESTATÍSTICA

(PROFMAT)

Prof. Nei Rocha


Instituto de Matemática - UFRJ
Rio de Janeiro
2018-2
Sumário

1 A Natureza e os Conceitos Fundamentais da Estatística 1


1.1 A Natureza da Estatística . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Conceitos Fundamentais da Estatística . . . . . . . . . . . . . . . . . 7

2 Análise Exploratória de Dados 16


2.1 Representações Grá…cas de Dados . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Tabelas e Distribuição de Frequências . . . . . . . . . . . . . . 16
2.1.2 Representação Grá…ca de Dados . . . . . . . . . . . . . . . . . 20
2.2 Medidas-Resumo de Dados . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Medidas de Variabilidade . . . . . . . . . . . . . . . . . . . . . 45
2.2.3 Medidas de Assimetria, Curtose e Correlação . . . . . . . . . . 56

3 Probabilidade 72
3.1 De…nições e Resultados Básicos da Teoria das Probabilidades . . . . . 72
3.1.1 De…nição e Propriedades das Probabilidades . . . . . . . . . . 75
3.1.2 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . 84
3.1.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.2 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3 Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.4 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.5 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . 95
3.6 Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . . . . . . . 96
3.7 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . 99
3.8 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4 Esperança Matemática 105


4.1 De…nição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2 Esperanças de Funções de Variáveis Aleatórias . . . . . . . . . . . . . 108
4.3 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.4 Função Geratriz de Momentos . . . . . . . . . . . . . . . . . . . . . . 111
4.5 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5 Vetores Aleatórios Bidimensionais 120


5.1 Distribuições Conjuntas e Marginais . . . . . . . . . . . . . . . . . . . 120
5.2 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . 121
5.3 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . 123

1
5.4 Distribuições Condicionais e Esperança Condicional . . . . . . . . . . 124
5.5 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.6 Coe…ciente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.7 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6 Modelos de Variáveis Aleatórias Discretas 134


6.1 O Ensaio de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2 A Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3 A Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 138
6.4 A Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . 140
6.5 A Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 142
6.6 A Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 144
6.7 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

7 Modelos de Variáveis Aleatórias Contínuas 154


7.1 A Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.2 A Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . 154
7.3 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . 156
7.3.1 A Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . 156
2
7.3.2 A Distribuição Normal com média e variância . . . . . . 158

8 Teorema Central do Limite 170


8.1 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

9 Estimação 181
9.1 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . 183
9.2 Estimadores de Momentos . . . . . . . . . . . . . . . . . . . . . . . . 185
9.3 Estimadores de Máxima Verossimilhança . . . . . . . . . . . . . . . . 186
9.4 Estimação Intervalar de Parâmetros . . . . . . . . . . . . . . . . . . . 187
9.4.1 Intervalo de Con…ança para a média populacional ( ) quando
a variância populacional ( 2 ) é conhecida . . . . . . . . . . . . 187
9.4.2 Intervalo de Con…ança para a média populacional ( ) quando
a variância populacional ( 2 ) é desconhecida . . . . . . . . . . 189
9.4.3 Intervalo de Con…ança para a proporção populacional (p) . . . 191
9.4.4 Intervalo de con…ança para variância populacional ( 2 ) . . . . 193
9.5 Lista de Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

10 Testes de Hipóteses 199


10.1 Teste de Independência para Tabelas de Contingência . . . . . . . . . 206
10.2 Testes de Signi…cância do Coe…ciente de Correlação r de Pearson . . 210
10.3 Teste de Hipóteses para Diferença de Médias para Dados Pareados . . 214
10.4 Teste de Hipóteses para a Diferença entre duas Médias (amostras
grandes e independentes) . . . . . . . . . . . . . . . . . . . . . . . . . 217
10.5 Teste de Hipóteses para a Diferença entre duas Médias (amostras
pequenas e independentes) . . . . . . . . . . . . . . . . . . . . . . . . 219
10.5.1 Testando se as duas variâncias dos dois grupos são iguais . . . 219
10.5.2 Testando a Diferença entre duas Médias (com as duas variân-
cias dos dois grupos iguais) . . . . . . . . . . . . . . . . . . . 221

2
10.5.3 Testando a Diferença entre duas Médias (com as duas variân-
cias dos dois grupos diferentes) . . . . . . . . . . . . . . . . . 224
10.6 Teste de Hipóteses para a Diferença entre duas Proporções . . . . . . 226

i
Capítulo 1

A Natureza e os Conceitos
Fundamentais da Estatística

1.1 A Natureza da Estatística

Vivemos num mundo imerso em incertezas. A todo tempo somos bombardeados

por informações sobre pesquisas cientí…cas comprovando (estatisticamente) que tal

substância induz uma certa patologia, ou sobre pesquisas eleitorais, índices de rou-

bos, e outros conteúdos de forte caracterização probabilística. Num mundo assim,

é de fundamental importância possuir um espírito crítico para informações sujeitas

à incerteza a …m de poder dar inteligibilidade a elas e até mesmo poder distinguir

informações falsas de verdadeiras. Nessa medida, a Estatística é uma disciplina

crucial para todos os estudantes, e talvez aquela que mais atua na formação crítica

do cidadão, pois ela abarca diferentes áreas do conhecimento, tais como: Medic-

ina, Economia, Política, Psicologia, Tecnologia, Indústria (Controle de Qualidade),

Demogra…a (Censo), entre outras.

A raiz etimológica da palavra Estatística vem da palavra latina “status” que

signi…ca “estado” e signi…cava a contagem e gestão de dados do estado. Ao longo

da história da Estatística, essa vinculação ao estado foi se enfraquecendo e hoje

a estatística tem um caráter abrangente o bastante para lidar com sistemas do

conhecimento bem dissociados da noção de Estado.

1
No entanto, cabe ressaltar que hoje temos dois signi…cados para Estatística, a

saber: "Estatística"como Ciência e "estatística"como uma operação de dados co-

letados em pesquisas. Por exemplo, uma média aritmética (que iremos mais tarde

estudar) é uma estatística também. O contexto nos auxiliará a distinguir o signi…-

cado veiculado pelo termo estatística.

Mas como ciência, o que é a Estatística, a…nal?

Estatística é a arte e a ciência de coletar, analisar, apresentar,


e interpretar dados, para que se tomem decisões sob incerteza.

Você deve estar surpreso com o uso da palavra "arte"na de…nição acima, não?

Mas a verdade é que sem julgamento, experiência e até mesmo uma forte intuição

é impossível analisar estatisticamente o comportamento de fenômenos incertos ou

aleatórios.

E o que entendemos por "fenômenos incertos"?

Fenômenos aleatórios (ou incertos) são aqueles cujos resultados


de interesse não podem ser aferidos com 100% de certeza.

Assim, onde há incerteza (e por conseguinte, variabilidade de resultados, mesmo

sob mesmas condições iniciais) aí deverá estar a Estatística para nos auxiliar a dar

ordem simbólica ao fenômeno.

Em geral o professor de Matemática conhece bem a natureza do raciocínio

matemático, mas quase sempre não foi instruído na sua formação acadêmica do

raciocínio estatístico. Qual a especi…cidade desses dois raciocínios e o que os difer-

encia?

O pensamento matemático baseia-se num raciocínio lógico em que as proposi-

ções são verdadeiras ou falsas. Além disso, preocupa-se com a descrição unívoca de

fenômenos da natureza a partir de modelos determinísticos.

2
A Estatística, por sua vez, lida com proposições que não podemos dizer se são

verdadeiras e tampouco falsas, situando-se numa situação de incerteza, que pode ser

quanti…cada através da probabilidade. É a ciência da variabilidade por excelência

e procura, através de dados experimentais aleatórios, extrair organização do caos e

tomar decisões sob incerteza.

Os pensamentos matemático e estatístico são construídos, respectivamente, por

sentenças matemáticas e sentenças estatísticas. Sentenças matemáticas são aque-

las que nos permitem garantir com 100% de certeza se a mesma é verdadeira ou falsa.

Exemplos de sentenças matemáticas: “Todos os números primos são ímpares”(sen-

tença falsa, pois 2 é primo e par); “Todos os números primos maiores que 2 são

ímpares” (sentença verdadeira). Sentenças estatísticas são aquelas cuja veraci-

dade (ou falsidade) não possa ser garantida com 100% de certeza, mas apenas nos

permitem matematizar a probabilidade de erro da a…rmação. Por exemplo, a sen-

tença “uma moeda que, ao ser lançada 10 vezes, produz 8 caras não é honesta”

é uma sentença estatística, pois podemos apenas medir em que nível de con…abil-

idade tal a…rmativa pode ser considerada como verdadeira. Obviamente teremos

maior con…abilidade na a…rmação de uma sentença do tipo “uma moeda que, ao ser

lançada 50 vezes, produz 48 caras não é honesta”, pois há mais evidências contra a

honestidade da moeda no segundo caso do que no primeiro.

Como você deve ter percebido, em toda a…rmação estatística há um nível de

con…abilidade e uma probabilidade de erro ao a…rmarmos algo. Vejamos com um

exemplo esquemático como funciona uma tomada de decisão sob incerteza na Es-

tatística:

Suponha que dois medicamentos (A e B) serão testados quanto ao tempo de

cura para dor de cabeça. Para isso, selecionam-se n pessoas para o medicamento

3
A e n pessoas para o medicamento B. Suponha que a média do tempo de cura do

medicamento A tenha sido 2 minutos e do B de 4 minutos. Podemos dizer que as duas

médias são diferentes e que, portanto, o medicamento A é mais e…ciente do que o B?

Se estivermos imbuídos do raciocínio matemático, a duas respostas seriam “sim”,

pois 2 < 4. Entretanto, imbuídos do raciocínio estatístico, a resposta dependerá da

estrutura aleatória dos dados coletados. Vejamos dois cenários possíveis:

Cenário I: Os dados coletados nos dois grupos quando colocados em seus lugares

geométricos se comportam como a …gura 1 abaixo:

Figura 1

Neste cenário os dados coletados dos dois grupos são tão esparsos que se so-

brepõem um ao outro, e um teste estatístico adequado não validaria com alta prob-

abilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento

B, por ter gerado uma menor média.

Cenário II: Os dados coletados nos dois grupos quando colocados em seus

lugares geométricos se comportam como a …gura 2 abaixo:

4
Figura 2

Neste novo cenário os dados coletados dos dois grupos são tão coesos que se

distinguem um ao outro, e um teste estatístico adequado validaria com alta proba-

bilidade a a…rmação de que o tratamento A é mais e…ciente do que o tratamento B,

por ter gerado uma menor média.

Vemos com esses dois exemplos que uma tomada de decisão estatística deve

basear-se não apenas em valores pontuais de medida, mas também em estudos de

variabilidade dos dados para uma plena matematização das incertezas associadas às

a…rmações tecidas.

Vamos agora entender como se dão as fases de um trabalho estatístico. Para

isso, vejamos um caso concreto na pesquisa cientí…ca:

Um pesquisador deseja estudar o efeito de histórias infantis na prontidão para

a alfabetização de crianças, através de um teste de prontidão de leitura chamado

ABC. Para isso, ele seleciona sete crianças aleatoriamente para responderem ao

teste ABC sem o treinamento (pré-teste). Em seguida elas são estimuladas usando-

se a leitura e o comentário de histórias. Após o treinamento, as crianças respondem

novamente ao teste ABC (pós-teste). Ele deseja saber se o treinamento de fato induz

a prontidão na alfabetização.

Observe que esse estudo demanda a ferramenta Estatística, já que cada amostra

5
de sete alunos retirada trará resultados variáveis e desejamos concluir algo sob in-

certeza. Com esse objetivo, como conduzir as fases da Estatística?

Fase 1 (Coleta dos Dados): o pesquisador selecionará as sete crianças, que

participarão do estudo e mensurará os testes antes e depois do treinamento.

Fase 2 (Exploração dos Dados): o pesquisador fará uma análise exploratória

dos dados coletados para comparar os valores obtidos antes e depois do teste, a …m

de poder concluir, com um certo nível de con…abilidade, se houve uma melhora na

alfabetização. Para isso, selecionará os métodos estatísticos adequados para testar

a hipótese de que o treinamento de fato induziu ou não à prontidão na leitura. Ele

deverá portanto analisar dados, conforme tabela e grá…cos abaixo, criados após a

coleta dos dados.

Escores no Teste ABC do Grupo Experimental


Indivíduos Pré-Teste Pós-Teste
1 6 20
2 9 11
3 13 12
4 10 14
5 8 10
6 4 7
7 6 6

Bar/Column Plot (testeABC.STA 10v*7c)


24

20

16

12

PRE_TEST
0
Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 POS_TEST

Pré-Teste x Pós-Teste

6
Fase 3 (Inferência dos Dados): a partir da análise exploratória, o pesquisador

matematizará as incertezas e a natureza dos dados, e tecerá hipóteses relevantes que

serão testadas à luz de algum teste estatístico apropriado para o caso em estudo.

Fase 4 (Interpretar os Dados e Apresentar os Dados): o pesquisador fará

interpretações claras e compreensíveis até para não-estatísticos, quanti…cando o nível

de incerteza de suas a…rmações e propondo medidas gerenciais, quando necessárias,

à luz de suas conclusões, de maneira a apresentar seus resultados adequadamente

em conferências, mídias ou periódicos cientí…cos.

Claro que o exemplo acima é posto apenas para que possamos entender emblem-

aticamente como se constrói um raciocínio estatístico para o tratamento de dados.

1.2 Conceitos Fundamentais da Estatística

Em todas as áreas da ciência, conceitos são fundamentais para a contrução de uma

teoria. É o que se costuma chamar na …loso…a da linguagem uma taxonomia. Na

Estatística, isso não é diferente. Como a Estatística é um ramo da Matemática, ela

traz as marcas da concisão matemática e estabelece de forma unívoca os seus objetos

e seus conceitos. Nesta seção, discutiremos os conceitos-chave do nosso curso, para

que possamos caminhar de forma concisa na construção teórica da Estatística.

Antes, porém, gostaríamos de retomar a ideia mais emblemática da funcionali-

dade da Estatística nas ciências em geral:

A concepção mais emblemática da Estatística é aquela em que temos uma pop-

ulação de interesse em estudo e, por algum motivo, não podemos acessá-la integral-

mente para medir uma certa propriedade da mesma. O que fazer então? A ideia

central da Estatística é obter de maneira conscienciosa uma amostra que traga po-

tencialmente a informação da população e, através dela, inferir os resultados para

7
a população. Como a amostra é apenas uma parte da população, haverá portanto

variabilidade nos resultados amostrais (cada amostra retirada gerará resultados di-

versos), e, portanto, tais resultados serão aleatórios e devem ser modelados proba-

bilisticamente. Na presença, portanto, de variabilidade de resultados, temos então

legitimado aí o uso da Estatística, pois devemos tomar nossas decisões e a…rmar

determinadas coisas sob incerteza. Observe que se pudéssemos acessar toda a pop-

ulação, a mensuração da propriedade em estudo deixaria de ser variável e incerta,

pois acederíamos ao valor exato, e assim não haveria necessidade, no sentido estrito,

do uso da Estatística... É claro que este exemplo supõe uma população …nita. Se

a população fosse in…nita, então por mais razão a Estatística seria a ferramenta

teórica por excelência para o tratamento do problema! Mas estamos nos adiantando

e precisamos de…nir ainda o que se entende por população, amostra, parâmetro e

estatística (ou estimador) dentro das chamadas Estatística Descritiva e Estatística

Inferencial.

População é a coleção de todos os elementos (pessoas, objetos, ou dados)


de interesse num particular estudo.

Amostra é um suconjunto da população da qual a informação é coletada.

Parâmetro é a descrição numérica de uma característica da população.

Estatística (ou Estimador) é a descrição numérica de uma característica


da amostra.

Estatística Descritiva é parte da Estatística que se ocupa em


resumir (sintetizar) e organizar a informação de um conjunto de dados.

Estatística Inferencial é parte da Estatística que se ocupa em estimar


e tirar conclusões sobre características de uma população à luz da amostra.

Assim, suponha que estejamos interessados em estudar a renda bruta média

mensal de todos os brasileiros assalariados no ano de 2011.

8
Qual é a nossa população nesse estudo? Todos os brasileiros com carteira

assinada em 2011.

Qual seria uma possível amostra? Por exemplo, os brasileiros assalariados de

2011 do estado do Rio de Janeiro.

Qual é o nosso parâmetro de interesse? A média de todos os salários brutos

mensais de todos os brasileiros assalariados de 2011.

Qual é a nossa estatística? A média de todos os salários brutos mensais de todos

os brasileiros assalariados do estado do Rio de Janeiro de 2011.

A essa altura você já deve ter intuído que uma das ideias da Estatística é usar a

estatística (ou estimador) para a…rmar com um certo nível de con…abilidade qual o

valor do parâmetro em estudo.

Como dissemos anteriormente, para que a informação fornecida pela amostra

seja valiosa para a estimação de parâmetros, é necessário que amostra tenha sido

coletada de maneira conscienciosa da população. Embora haja toda uma teoria para

uma tecnologia de obtenção da amostra, gostaríamos apenas de caracterizar alguns

tipos aqui, pois o tratamento dessa teoria está fora dos objetivos desse curso:

Amostra aleatória: Cada membro da população tem a mesma chance de ser

selecionado.

Amostra aleatória simples: Todas as amostras de mesmo tamanho são

igualmente prováveis.

Amostra aleatória estrati…cada: A população é dividida em grupos (es-

tratos) e uma amostra aleatória é selecionada de cada grupo. Os estratos

podem ser faixas etárias, gêneros ou graus de escolaridade, por exemplo.

9
Amostra aleatória por conglomerados: A população é dividida em grupos

distintos (como se fossem subpopulações), chamados conglomerados. Usamos

a amostra aleatória simples para escolher uma amostra de conglomerados e

em seguida todos os indivíduos dos conglomerados escolhidos são analisados.

Amostra sistemática: A partir de uma população caracterizada numa listagem,

selecionamos aleatoriamente um elemento inicial, e em seguida, escolhemos

os membros da amostra a intervalos regulares. Por exemplo, se desejamos

selecionar um membro da população a cada 20 elementos da lista, então se-

lecionamos aleatoriamente um número de 1 a 20, digamos 7, e tomamos os

membros 27, 47, 67, e assim sucessivamente da lista.

Mas nossa taxonomia ainda não chegou ao …m... Temos ainda alguns conceitos

a discutir.

Um elemento é cada uma das unidades observadas no estudo.

Uma variável é uma característica de um elemento que se possa medir.

Uma observação é um conjunto de valores de variáveis de um dado elemento.

Por exemplo, se desejamos testar a in‡uência de um determinado medicamento

na pressão arterial de idosos acima de 65 anos, a partir da mensuração da pressão

arterial antes e depois da medicação, então, temos que cada idoso no estudo é

um elemento (ou unidade experimental); a pressão arterial é a nossa variável de

mensuração; e as medidas da pressão arterial antes e depois da medicação de cada

idoso compõem uma observação do estudo.

Finalmente, para fechar agora os nossos conceitos fundamentais da Estatística,

precisamos classi…car os tipos de variáveis presentes num determinado estudo. Por

10
que isso é tão importante? Porque é pela natureza dos dados, ou, como dizemos

em Estatística, pelo nível de mensuração dos dados, que saberemos quais métodos

estatísticos serão apropriados em cada caso. Assim, a natureza de nossos dados já

nos direciona para o tipo de tratamento estatístico de que faremos uso.

Uma variável qualitativa é uma variável que não assume valor numérico,
mas é classi…cada em categorias (qualidades).

Uma variável quantitativa é uma variável que assume valores numéricos.

Variáveis qualitativas são também chamadas de variáveis categóricas, pois podem

ser agrupadas em categorias. Alguns exemplos são: sexo, etnia, estado civil, etc.

Já exemplos de variáveis quantitativas temos: altura, peso, idade, número de …lhos,

etc.

As variáveis qualitativas podem ser classi…cadas como nominais ou ordinais.

Uma variável é dita nominal se assume categorias não-ordenadas, sem


característico numérico intrínseco. Por exemplo: sexo e etnia.

Uma variável é dita ordinal se assume categorias ordenadas, sem característico


numérico intrínseco. Por exemplo: classe social e grau de instrução.

Além disso, as variáveis quantitativas podem ser classi…cadas como discretas

ou contínuas.

Uma variável discreta pode assumir um número …nito ou contável de valores.


Cada valor pode ser grafado como um ponto na reta, com espaço entre os pontos.

Uma variável contínua assume um número in…nito de valores, formando


um intervalo da reta real, sem espaço entre os pontos.

11
Exemplos de variáveis quantitativas discretas são: número de habitantes por

domicílio, número de anos cursados com aprovação em séries escolares, etc. Já para

as quantitativas contínuas podemos citar: altura, peso, tempo de vida útil de um

componente eletrônico.

Assim temos o seguinte esquema resumido:


8
>
> Nominal
>
> Qualitativa
< Ordinal
Variável
>
>
>
> Discreta
: Quantitativa
Contínua

Associados aos tipos de variáveis, temos também os níveis de mensuração.

Níveis de Mensuração: Um conjunto de dados pode ser classi…cado de acordo


com o nível de medida mais alto que ele aplica. As quatro escalas de medida, da

mais baixa para a mais alta, são:

1. Escala Nominal: formada por categorias que descrevem atributos ou qual-

idades dos dados (variáveis qualitativas). Não há nenhuma ordem natural nessas

categorias e tampouco característicos numéricos intrínsecos. Exemplos: sexo, estado

civil, cor dos olhos, etnia, etc.

2. Escala Ordinal: formada por categorias que descrevem atributos ou quali-

dades dos dados (variáveis qualitativas), mas que podem ser ordenadas, embora não

tenham característicos numéricos intrínsecos. Exemplos: grau de hipertensão (leve,

moderada e grave), escolaridade (sem instrução, ensino fundamental, ensino médio,

ensino superior, pós-graduação), etc.

3. Escala Intervalar: é similar à escala ordinal, exceto pelo fato de as men-

surações serem numéricas e distâncias entre dois dados podem ser medidas. Entre-

tanto, o zero (0) não é natural, isto é, não indica a ausência do atributo mensurado.

12
Exemplo: temperatura em graus Celsius (0 C não indica a ausência de temper-

atura).

4. Escala Racional (ou das Razões): é a escala mais rica de mensuração, com

característicos numéricos intrínsecos e zero natural (indicando a ausência do atributo

medido). Exemplo: todas as mensurações físicas (peso, altura, massa corporal).

De posse desses conceitos fundamentais, podemos na próxima aula começar …nal-

mente a operar matematicamente nossos dados. Antes, porém, gostaríamos de pro-

por as seguintes atividades de sedimentação do conteúdo tratado em nossa primeira

aula.

Exercício 1 Qual o objetivo da Estatística?

Exercício 2 Como se estrutura a Estatística?

Exercício 3 Dê um exemplo de fenômeno aleatório e um exemplo de fenômeno

não-aleatório (determinístico).

Exercício 4 Suponha que você tivesse que validar a informação de que a geladeira

da fábrica A consome menos energia ao mês que a geladeira da fábrica B. Como

você intuitivamente estruturaria as fases do método estatístico para validar (ou não)

essa a…rmação?

Exercício 5 Retire de mídias (jornal, revista, internet, etc) uma matéria que você

utilizaria em sala de aula para ilustrar a presença da Estatística no dia a dia aos

seus alunos.

Exercício 6 Estabeleça se as seguintes situações ilustram o uso da Estatística De-

scritiva ou Estatística Inferencial, justi…cando as respostas.

13
(a) Em São Paulo, a média de gasto semanal de consumo de gasolina numa

amostra de 700 proprietários de carros foi de R$ 150; 00. O governo infere a média

semanal de gasto em gasolina no estado de São Paulo é R$ 150; 00.

(b) Uma amostra de 150 residentes de Copacabana mostra que 27 destes são

funcionários públicos. Assim 18% desses 150 residentes trabalham para o governo.

(c) A média de idade de uma amostra de 250 habitantes de Santa Cruz foi de 34

anos.

(d) Numa pesquisa feita com 1000 habitantes de Campos (Rio de Janeiro), 456

disseram que já fazem suas compras com sacola ecológica pessoal. A prefeitura con-

clui que 45; 6% dos habitantes de Campo já aderiram à bolsa ecológica.

Exercício 7 Deseja-se conhecer o comportamento de idosos do bairro do Flamengo,

com idade acima de 65 anos. Para isso, você como pesquisador decide selecionar

200 idosos moradores do Flamengo e, através de mensurações, obter as seguintes

informações por idoso:

(1) Ativo (A) ou Sedentário (S).

(2) Idade (em anos).

(3) Peso (em kg).

(4) Altura (em cm).

(5) Índice de Massa Corporal (IMC), que é a razão entre peso e altura em metros

elevada ao quadrado.

(6) Classe segundo o IMC (Normal (N) ou Sobrepeso (P))

(7) Circunferência da cintura (em cm).

(8) Circunferência do quadril (em cm).

(9) Relação Cintura/Quadril (RCQ) (adimensional).

(10) Classe segundo a RCQ, sendo PR (pequeno risco), MR (médio risco) e GR

14
(grande risco).

Com base no estudo acima, pede-se:

(a) Identi…car a população em estudo.

(b) Identi…car a amostra em estudo.

(c) Identi…car os possíveis parâmetros de interesse no estudo.

(d) Identi…car as estatísticas associadas aos parâmetros de interesse no estudo.

(e) Identi…car os elementos do estudo.

(f) Identi…car as variáveis do estudo.

(g) Identi…car as observações do estudo.

(h) Classi…car as variáveis do estudo como qualitativas ou quantitativas.

(i) Classi…car as variáveis qualitativas do estudo como nominais ou ordinais.

(j) Classi…car as variáveis quantitativas do estudo como discretas ou contínuas.

(k) Avaliar o nível de mensuração de cada variável do estudo.

15
Capítulo 2

Análise Exploratória de Dados

2.1 Representações Grá…cas de Dados

A Análise Exploratória de Dados, como o próprio termo indica, é uma fase artesanal

de extração de informação de um conjunto quase sempre desordenado e caótico de

dados coletados de um certo estudo. Assim, é preciso muitas vezes intuição sobre

como trabalhar convenientemente esses dados a …m de que informações valiosas

possam vir à tona.

A primeira tentativa de resumir os dados é feita através de grá…cos convenien-

temente escolhidos para dar voz à informação. (Aqui cabe ressaltar que, da mesma

forma que todo discurso tem uma intenção do falante por trás do que emite, tam-

bém o grá…co terá uma intencionalidade que deve ser observada a priori.) A fase

seguinte consiste em se obter medidas-resumo que possam nos auxiliar a caracterizar

a distribuição dos dados e nos preparar para um possível modelo de probabilidade

que se ajuste a esses dados.

2.1.1 Tabelas e Distribuição de Frequências

Como dissemos na aula anterior, dependendo da natureza da variável (qualitativa,

quantitativa, nominal, ordinal, discreta ou contínua) teremos um direcionamento do

que podemos fazer como síntese de informação.

16
Tabela de Frequência para Variáveis Qualitativas

Como a variável em estudo é qualitativa, só podemos contar quantas observações

no estudo têm o atributo em questão. É o que comumente chamamos de infor-

mação no domínio da frequência, pois não há um característico numérico intrínseco

à mensuração.

Exemplo 1 (Publicado no O Globo, 29/04/2011) Pesquisadores do Instituto

de Segurança Pública (ISP) …zeram em 2009 e 2010 uma pesquisa sobre vítimas de

estupro, tendo obtido os seguintes resultados. Em 2009, de 4120 vítimas registradas,

3002 eram do sexo feminino e 1118 eram do sexo masculino ou não identi…cado (o

gênero não consta no registro); já em 2010, de 4589 vítimas registradas, 3751 eram

do sexo feminino e 838 eram do sexo masculino ou não identi…cado.

Um resumo da informação via tabela de frequência poderia ser da forma:

Categoria 2009 2010


Mulheres 3:002 3:751
Homens ou sem identi…cação 1:118 838

Vemos que não há muito mais a oferecer como síntese. Poderíamos apenas

acrescentar mais informação, ou então usar a frequência relativa (%), como nos

exemplos abaixo:

Categoria 2009 2010


Mulheres 3:002 3:751
Homens ou sem identi…cação 1:118 838
Total 4:120 4:589

Categoria 2009 2010


Mulheres 72; 9% 81; 2%
Homens ou sem identi…cação 27; 1% 18; 2%
Total 100% 100%

A vantagem da última tabela é que podemos já ter uma ideia de aumento ou

redução no índice de estupros de 2009 a 2010.

17
Tabela de Frequência para Variáveis Quantitativas Discretas

Quando a variável é quantitativa discreta, devemos resumir a informação através

de uma tabela que represente a frequência com que cada valor observado aparece no

estudo. Assim, seja o seguinte exemplo:

Exemplo 2 Numa pesquisa realizada em 20 domicílios de classe A do Rio de Janeiro,

com o objetivo de contabilizar o número de …lhos por família, um pesquisador obteve

os seguintes dados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4 ,2, 1, 3, 1, 2, 1, 1, 1.

A variável do estudo é quantitativa discreta (número de …lhos por família). As-

sim, poderíamos sintetizar a informação dos dados através da seguinte tabela, con-

tendo tanto a frequência absoluta, quanto a frequência relativa (em percentual). É

importante ter a frequência relativa pois ela é uma espécie de probabilidade empírica

e isso nos ajudará a conceber mais tarde um modelo de probabilidade para a variável

em estudo.
No. de Filhos Frequência Frequência Relativa (%)
5
0 5 20
= 0; 25 = 25%
10
1 10 20
= 0; 50 = 50%
3
2 3 20
= 0; 15 = 15%
1
3 1 20
= 0; 05 = 5%
1
4 1 20
= 0; 05 = 5%
20
Total 20 20
= 1; 00 = 100%

Tabela de Frequência para Variáveis Quantitativas Contínuas

Quando a variável é quantitativa contínua (seus resultados se situam num inter-

valo da reta real), então devemos resumir a informação através de uma tabela que

represente a frequência com que cada valor observado aparece dentro de um dado

intervalo, chamado de classe. Vejamos como construir uma tabela de frequência a

partir de um exemplo:

18
Exemplo 3 Um pesquisador, contratado pela empresa de Telefonia Celular A, de-

seja estudar o tempo (em minutos gastos) por mês pelos seus assinantes. Para isso,

ele seleciona uma amostra aleatória de 30 clientes e obtém os seguintes dados: 102,

124, 108, 86, 103, 82, 71, 104, 112, 118, 87, 95, 103, 116, 85, 122, 87, 100, 105,

97, 107, 67, 78, 125, 109, 99, 105, 99, 101, 92.

Como a variável tempo é quantitativa contínua (mesmo mensurando-a em unidades

de minutos), a ideia é construir uma tabela de frequências em classes. A primeira

pergunta que surge é: quantas classes utilizar? Não há resposta absoluta para essa

questão e em geral é por tentativas que escolhemos a melhor. Claro que um número

pequeno de classes não vai revelar uma boa distribuição dos dados e tampouco um

número excessivo de classes, pois …caríamos potencialmente com uma frequência ou

nenhuma frequência por cada classe...

Em geral testamos inicialmente um número de classes k, dado por

p
k= n ou então k = 1 + 3; 3 log n

onde n é o número de observações coletadas e log é o logaritmo decimal. No nosso


p
caso, teríamos k = 5, pois n = 30 e n = 5; 477225:::

Vamos construir agora nossa tabela de frequências com os seguintes passos:

Passo 1) Obtenha os valores máximo e mínimo da amostra: Valor mínimo =

67 e Valor máximo = 125.

Passo 2) Escolha o número de classes para a tabela de frequência: k = 5 (pela

nossa discussão anterior).

Passo 3) Calcule a amplitude total dos dados (A) (a diferença entre o valor

máximo e o valor mínimo). No nosso exemplo, temos

A = 125 67 = 58.

19
A
Passo 4) Calcule a amplitude das classes (h) onde h := . Assim temos
k
58
h= = 11; 6, que arredondaremos para h = 12.
5

Passo 5) Calcule os limites das classes. O limite inferior da classe é o valor

mais baixo que pertence a ela e o limite superior é o mais alto. Use o valor mínimo

(67) como limite inferior da primeira classe.

Passo 6) De…na as 5 classes (intervalos), a saber: [67; 79), [79; 91), [91; 103),

[103; 115) e [115; 127].

Passo 7) Conte quantas observações se situam em cada classe, respeitando os

intervalos fechados à esquerda e abertos à direita, e coloque as observações numa

tabela do tipo abaixo.

Classes Frequência Frequência Relativa (%)


3
67 ` 79 3 10% = 30 100%
5
79 ` 91 5 16; 67% = 30 100%
8
91 ` 103 8 26; 66% = 30 100%
9
103 ` 115 9 30% = 30 100%
5
115 ` 127 5 16; 67% = 30 100%
30
Total 30 100% = 30 100%

Veremos depois que a tabela de frequências para dados quantitativos contínuos

enseja a construção de um grá…co extremamente importante na Estatística chamado

Histograma. Voltaremos a esse exemplo mais tarde.

2.1.2 Representação Grá…ca de Dados

A representação grá…ca é uma forma importante de veicular informações sintetizadas

de estudos, sobretudo na mídia. Por isso, é importante os professores explorarem

20
esse rico material em sala de aula, pois os alunos não poderão adquirir um letramento

estatístico adequado sem aprender a interpretá-los. Nossa sugestão é que você, pro-

fessor, peça aos alunos para trazerem recortes de jornais ou revistas com grá…cos

para a sala de aula, e proponha discussões não somente sobre os seus aspectos estru-

turais (geometria, função, etc.) mas também a intencionalidade do discurso grá…co.

Assim os alunos poderão adquirir cidadania e espírito crítico através da educação

estatística, pois é possível encontrar na mídia muitos grá…cos intencionalmente mal

construídos em suas escalas para gerar uma interpretação errônea dos dados co-

letados. Além disso, deve-se enfatizar em sala de aula o papel da representação

grá…ca no processo de análise estatística de dados e muita atenção deve ser dada à

especi…cidade de cada grá…co para os estudos estatísticos.

Grá…co em Setores para Variáveis Qualitativas

Esse tipo de grá…co, também conhecido como grá…co de pizza, é usado quando

desejamos enfatizar numa mensuração categórica qual a partipação de cada categoria

no todo observado. O ângulo de cada setor corresponde ao produto da frequência

relativa de cada categoria com os 360 (ou 2 radianos) da circunferência. Assim

voltando ao exemplo 1, temos a seguinte veiculação na mídia:

21
Embora vários programas de computador, como Excell, fazem os grá…cos

automaticamente, vejamos como os ângulos são calculados para a construção a mão

via compasso e esquadro a ser proposta em sala de aula aos alunos, dialogando assim

com o conteúdo de geometria aprendido classes anteriores.

Para o grá…co em setor de 2009, o percentual de participação do sexo feminino

foi de 72,9%. Assim, o ângulo referente ao setor feminino é dado por

0 00
0; 729 360 = 262 26 24

ou

0; 729 2 = 4; 58

Já para o grá…co em setor de 2010, o percentual de participação do sexo feminino

foi de 81,2%. Assim, o ângulo referente ao setor feminino é dado por

0 00
0; 812 360 = 292 19 12

ou

0; 812 2 = 5; 10

22
Grá…co em Barras para Variáveis Qualitativas ou Quantitativas Discretas

Esse tipo de grá…co tem uma certa similaridade de intenção com o grá…co em setores,

exceto pelo fato de que não estamos mais interessados em enfatizar a participação

de cada categoria no todo considerando todas as categorias conjuntamente. A ideia

é expressar informações individualizadas, e representadas por barras cuja altura

representa a frequência nas categorias. Vejamos o exemplo a seguir, representando

em barras o número de cópias de jornais (em milhares de exemplares) em alguns

países.

Número de cópias de jornal que circulam diariamente

80.000
72.047
Mil 70.000
har
es 60.000 58.247
de
exe 50.000
mp
lar
es 40.000
30.000
30.000 25.467 23.848
18.343
20.000
8.941
10.000 6.551 6.281 5.697

0 Jap Ale Ingl Fra Pol


EU Rú Índi Bra Itáli
ão A ssi ma a ate nça sil a ôni
a nh rra a
a

País

Vemos que aqui a intenção não é comparar qual a fatia de participação dos

jornais publicados no Japão na soma de todas as publicações de países em estudo. A

comparação é no sentido de informações isoladas. Vemos também que não existe um

lugar geométrico de…nido para a variável qualitativa país. Portanto, qualquer ordem

é possivel de ser escolhida (a ordem escolhida aí foi a decrescente para enfatizar os

maiores editores de jornais).

23
Quando a variável é quantitativa discreta, então o lugar geométrico está bem

de…nido e as barras são construídas nesses pontos, com altura igual (ou proporcional)

à frequência observada.

Cabe observar que alguns autores distinguem grá…co em barras (barra horizontal)

e grá…co em colunas (barras verticais). Não faremos no entanto essa distinção.

Abaixo se encontra um exemplo de barras horizontais veiculado no jornal O Globo

de 30 de abril de 2011.

Grá…co em Linha para Variáveis Quantitativas

Esse tipo de grá…co é usado sobretudo quando temos observações temporais de uma

variável em estudo e desejamos representá-la no tempo (abscissa) a …m de reconhecer

possíveis tendências e/ou sazonalidade (comportamento periódicos repetidos). O

exemplo a seguir ilustra bem a utilidade do grá…co em linha para a evolução do

preço do dólar comercial ao longo de um certo período de tempo.

24
Evolução do preço do dólar comercial
2.5
2.0

Valor do dólar
1.5
1.0
0.5
0.0
12/98 02/99 04/99 06/99 08/99
Data

Outro exemplo extraído do jornal O Globo de 30 de abril de 2011, referente ao

crescimento da população brasileira desde o século 19, encontra-se a seguir.

Histograma para Variáveis Quantitativas Contínuas

A ideia agora é representar uma …gura geométrica compacta para que possamos

futuramente pensar num modelo probabilístico contínuo para a variável em estudo.

Voltemos ao exemplo 3 do tempo (em minutos gastos) por mês pelos assinantes da

Telefonia Celular A. O grá…co das frequências por intervalo dado por

25
Classes Frequência
67 ` 79 3
79 ` 91 5
91 ` 103 8
103 ` 115 9
115 ` 127 5
Total 30

num histograma teria a seguinte caracterização:

Diagrama de Ramo-Folha para Variáveis Quantitativas Contínuas

Esse grá…co tem a mesma proposta do histograma, isto é, mostrar onde se situam as

maiores incidências da variável, mas o grá…co é construído com os próprios valores

numéricos. Tomemos novamente o exemplo 3 do tempo (em minutos gastos) por

mês pelos assinantes da Telefonia Celular A. Os valores vão de 67 a 125. A ideia é

tomar as dezenas como os ramos e as unidades com as folhas. Assim os ramos vão

de 6 a 12 e dispomos as folhas da seguinte forma:

26
Observe que, girando o grá…co acima para a esquerda, temos uma ideia de his-

tograma e de como seria uma função que cobrisse a última folha de cada ramo,

conforme a imagem abaixo.

Diagrama de Dispersão para a relação de duas variáveis quantitativas

Esse grá…co de pares ordenados no plano cartesiano é usado quando desejamos

avaliar a relação recíproca entre duas variáveis quantitativas de interesse. Por ex-

emplo, suponha que desejemos saber se há uma relação entre número de faltas em

sala de aula e média …nal das provas numa dada disciplina. Para isso, suponha que

tomemos uma amostra de 7 alunos obtendo o seguinte conjunto de pares de dados

dos alunos.

27
Aluno Faltas Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81

Assim, cada aluno representa um par ordenado de informação (x; y), onde x

representa o número de faltas e y a média …nal. O diagrama de dispersão, também

conhecido na literatura como scatter plot, é a representação grá…ca desses pares

ordenados. Com os dados acima, teríamos o seguinte grá…co.

O que podemos depreender, ao menos intuitivamente, a partir do grá…co acima?

Que parece haver uma relação quase linear entre faltas e média …nal na disciplina, e

que quanto maior o número de faltas mais baixa tende a ser a média …nal e vice-versa.

Esse grá…co é de extrema importância para que possamos medir a correlação linear

entre duas variáveis quantitativas em estudo, o chamado coe…ciente de correlação.

Agora que já sabemos como representar gra…camente de diversas formas os nossos

dados coletados podemos começar a resumir a informação de um ponto de vista

numérico. Esse será o objetivo a ser alcançado pela próxima aula.

28
Com os recursos de que dispõe, construa tabelas e/ou grá…cos que achar conve-

nientes para resumir pictogra…camente os seguintes dados:

Exercício 8 Área dos continentes em milhões de km2 : América, 42.960; Europa:

10.498; Ásia: 43.608; África: 30.335; Oceania: 8.923; Antártida: 16.500. (Fonte:

Atlas Geográ…co Mundial da Folha de São Paulo.)

Exercício 9 Lucro líquido em US$ bilhões, das companhias em Bolsa: 1990: 1; 0;

1991: 1; 4; 1992: 1; 5; 1993: 3; 8; 1994: 11; 5; 1995: 6; 4; 1996: 11; 4. (Fonte:

Economática.)

Exercício 10 Mercado Brasileiro de chocolate:

Divisão por empresas: Lacta: 35,4%; Nestlé: 31,6%; Garoto: 22,0%; Neug-

bauer: 3,6%; Ferrero Rocher: 0,9%; outros: 6,5%. (Fonte: Eletropaulo.)

Produção e Consumo em mil toneladas:

Ano 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Produção 196 220 251 294 296 305 329 313 327 327
Consumo 169 199 237 292 305 302 332 295 322 298
(Fonte: Folha de São Paulo, 24 de julho de 2002)

Exercício 11 Para um dado teste de QI, selecionou-se uma amostra de 15 pessoas

e registrou-se o tempo em minutos para fazê-lo, obtendo-se os seguintes valores: 30,

20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10. Faça um histograma e um

diagrama de ramos e folhas para os dados coletados.

2.2 Medidas-Resumo de Dados


2.2.1 Medidas de Posição

Medidas de Posição (ou de Tendência Central), como o próprio termo indica, visam

a sintetizar o conjunto de dados em geral numa única medida em algum lugar ge-

29
ométrico central. Isso só é possível se nossas observações são de natureza quantita-

tiva, pois, como dissemos anteriormente, as variáveis qualitativas estão no domínio

da frequência apenas, ou seja, só podemos contar quantas observações recaem em

cada categoria, mas não podemos operar matematicamente com as categorias em si.

As principais medidas de posição usadas na Estatística são a média aritmética, a

mediana, a moda e os quartis da distribuição. Outras medidas de posição existem,

mas não são tão usuais e não as trataremos nesse curso.

Seja uma amostra representada por fx1 ; x2 ; x3 ; :::; xn g de n observações numé-

ricas, retiradas de uma população hipotética de N elementos cujas medidas são

fX1 ; X2 ; X3 ; :::; XN g. Observe que em geral não temos acesso a todos os resultados

da população e assim n < N , o que justi…ca o uso da Estatística. Além disso

não se deve confundir xi (i = 1; 2; :::; n) e Xj (j = 1; 2; :::; N ). xi é o i-ésimo valor

observado na amostra, enquanto Xj é o j-ésimo valor não necessariamente observado

da população. Claro que para todo xi na amostra, existe um j tal que xi = Xj .

Média Aritmética

A média aritmética pode ser vista como o centro de gravidade de um conjunto de

dados. Por isso ela é conhecida na Estatística como o momento de primeira ordem

dos dados, ou seja o ponto de equilíbrio das observações.

A média aritmética da população ( ) é de…nida como


PN
X1 + X2 + ::: + XN Xi
= = i=1 .
N N
A média aritmética da amostra
Pn (Xn ) é de…nida como
x1 + x2 + ::: + xn xi
Xn = = i=1 .
n n

Observe que é um parâmetro (não acessado e …xo) e Xn é uma estatística

(acessada através da amostra e variável).

30
Exemplo 4 Suponha uma amostra de 5 elementos de uma população cujos resul-

tados são f1; 1; 4; 9; 10g. Então temos

1 + 1 + 4 + 9 + 10
X5 = = 5.
5

Propriedades da Média Aritmética (1) Seja uma amostra n observações numéri-

cas representado por fx1 ; x2 ; x3 ; :::; xn g com média Xn . Seja k um número real.

Então o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g terá média k Xn .

De fato podemos ver que

kx1 + kx2 + kx3 + ::: + kxn x1 + x2 + ::: + xn


=k = k Xn
n n

O que o resultado acima nos diz é que, ao multiplicarmos nossas observações

por um fator k, a nova média aritmética será dada pela média aritmética anterior

multiplicada pelo mesmo fator.

(2) Seja uma amostra de n observações numéricas representada por fx1 ; x2 ; x3 ; :::; xn g

com média Xn . Seja k um número real.

Então o conjunto fk + x1 ; k + x2 ; k + x3 ; :::; k + xn g terá média k + Xn .

De fato podemos ver que

(k + x1 ) + (k + x2 ) + (k + x3 ) + ::: + (k + xn ) nk + (x1 + x2 + ::: + xn )


=
n n
x1 + x2 + ::: + xn
= k+
n
= k + Xn

O que o resultado acima nos diz é que ao somarmos nossas observações por um

valor k, então a nova média aritmética será dada pela média aritmética anterior

somada pelo mesmo valor k.

31
(3) Seja uma amostra n observações numéricas representado por fx1 ; x2 ; x3 ; :::; xn g

com média Xn . Seja di = xi Xn a distância (orientada) entre a i-ésima observação

e a média aritmética. Então d1 + d2 + ::: + dn = 0, ou seja, as somas das distâncias

orientadas é sempre nula, e consequentemente a média das distâncias orientadas

é sempre nula. Isso comprova que a média é o ponto de equilíbrio de forças das

observações. De fato

d1 + d2 + ::: + dn = x1 Xn + x2 Xn + ::: + xn Xn

= (x1 + x2 + ::: + xn ) Xn + Xn + ::: + Xn

= (x1 + x2 + ::: + xn ) nXn


x1 + x2 + ::: + xn
= (x1 + x2 + ::: + xn ) n
n
= (x1 + x2 + ::: + xn ) (x1 + x2 + ::: + xn )

= 0

e assim
d1 + d2 + ::: + dn 0
= = 0.
n n

(4) A média é mal condicionada para valores atípicos no conjunto de dados.

No exemplo do conjunto de dados f1; 1; 4; 9; 10g a média é X5 =


1 + 1 + 4 + 9 + 10
= 5 e representa bem a coleção. No entanto se tivéssemos
5
1 + 1 + 4 + 9 + 100
f1; 1; 4; 9; 100g a média seria X5 = = 23, valor esse que não
5
representa a maioria dos dados 1, 1, 4, 9, abaixo do valor 10.

Com isso devemos ter cautela em sintetizar os dados com a média aritmética,

se os mesmos são muito assimétricos e possuem valores discrepantes. Por exemplo,

não seria adequado resumir a informação a respeito dos salários de trabalhadores

de uma indústria com a média aritmética, se há cargos no executivo com salários

astronômicos, pois estes elevariam a média salarial acima da realidade do trabal-

32
hador mediano. Nesses casos devemos tomar outra medida de posição, que seja

mais estável para dados atípicos, como a mediana, que veremos a seguir.

Cabe ressaltar aqui que se os dados são apresentados em tabelas de frequência,

indicando que o valor xi ocorre fi vezes no conjunto de dados, com f1 +f2 +:::+fn =

n, então a fórmula da média aritmética amostral será naturalmente dada por:


Pn
x1 :f1 + x2 :f2 + ::: + xn :fn i=1 xi :fi
Xn = = .
f1 + f2 + ::: + fn n

A fórmula acima pode ser interpretada como uma média aritmética ponderada

cujos pesos são as frequências fi , i = 1; 2; :::; n. Observe também que se denotarmos


fi fi
por pi = f1 +f2 +:::+fn
= n
a média dos dados pode ser expressa como

X
n
Xn = xi :pi ,
i=1

com pi tendo a interpretação de uma frequência relativa empírica da ocorrência de

xi . Veremos mais tarde que essa expressão se assemelha à fórmula da Esperança

Matemática de uma variável aleatória discreta.

Finalmente, se os dados são apresentados em classes com as respectivas frequên-

cias da classe, a fórmula acima também também expressa a média dos dados, com xi

agora representando o ponto médio do intervalo da i-ésima classe e fi a frequência

da i-ésima classe. Vejamos um exemplo desse tipo.

Exemplo 5 Suponha a distribuição de frequências em classe, vista na Aula 2, dada

por

Classes Frequência xi (Ponto Médio)


67 ` 79 3 73
79 ` 91 5 85
91 ` 103 8 97
103 ` 115 9 109
115 ` 127 5 121
Total 30

33
A média aritmética baseada nos dados agrupados em classe da tabela acima será

dada por

73 3 + 85 5 + 97 8 + 109 9 + 121 5 3:006


X30 = = = 100; 2.
30 30

Obviamente, esse valor não é necessariamente igual à média dos dados toma-

dos pontualmente (não agrupados em classe). No entanto, espera-se que ambos os

valores sejam próximos e, em situações em que não temos acesso aos dados não agru-

pados, não nos resta outra maneira de resgatar a média dos mesmos, senão através

do procedimento acima descrito.

Mediana

É a medida que ocupa a posição central num conjunto de dados ordenados (se

o número de elementos é ímpar) ou a média aritmética simples dos dois valores

centrais (se o número de elementos é par). Isto é, se de…nirmos x(k) como a k-ésima

observação ordenada em ordem crescente, isto é, x(1) x(2) x(3) ::: x(n) ,

então
x( n2 ) + x( n+2 )
2
M e = x( n+1 ) (se n é ímpar) ou M e = (se n é par).
2 2

Vejamos o seguinte exemplo para ilustrar o cálculo da mediana num conjunto de

dados não agrupados.

Exemplo 6 Suponha uma amostra de 10 elementos de uma população cujos resul-

tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem

crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos
x( 10 ) + x( 10+2 ) x(5) + x(6)
2 2
Me = =
2 2

Mas x(5) = 20 e x(6) = 27. Assim

20 + 27
Me = = 23; 5.
2

34
Propriedades da Mediana (1) A mediana divide a distribuição ao meio, indi-

cando que 50% dos valores observados estão abaixo e 50% estão acima deste valor

mediano.

(2) A mediana é uma medida robusta, isto é, se abala pouco para valores ex-

tremos na distribuição. Vejamos isso à luz de um exemplo simples:

Para o conjunto de dados f1; 1; 4; 9; 10g, temos que a média é X5 =


1 + 1 + 4 + 9 + 10
= 5 e a mediana é M e = x(3) = 4, ambas as medidas represen-
5
tando bem o conjunto como um todo. No entanto, se tivéssemos agora f1; 1; 4; 9; 10; 100g
1 + 1 + 4 + 9 + 10 + 100
a média seria X6 = = 20; 833::: (valor esse que não rep-
6
4+9
resenta a maioria dos dados) e a mediana seria M e = = 6; 5 (valor ainda
2
representativo da maioria dos dados). Assim, vemos que, na presença do valor ex-

tremo 100, a média passa de 5 a 20; 83, enquanto que a mediana passa de 4 a 6; 5.

Isso mostra o caráter de robustez da mediana.

Quando os dados estão distribuídos em classe, a médiana é calculada mediante

a fórmula:
n
2
fac
M e = li + h
fmed

onde li é o limite inferior da classe da mediana (isto é, a classe em que se situa a

informação de posição n2 ); n é o número de observações, fac é a frequência acumulada

anterior à classe da mediana; fmed é a frequência da classe da mediana; e h é a

amplitude da classe da mediana. Retomemos o Exemplo 5 anterior. Assim, temos

Classes Frequência Frequência Acumulada


67 ` 79 3 3
79 ` 91 5 8
91 ` 103 8 16
103 ` 115 9 25
115 ` 127 5 30
Total 30
30
Como há n = 30 observações a posição do valor mediano é 2
= 15 e, portanto,

35
a classe da mediana é 91 ` 103, pois esta classe contém os elementos ordenados da

9a a 16a posições. Assim, temos li = 91, fac = 8, fmed = 8 e h = 103 91 = 12.

Assim, a mediana será dada por

30
2
8
M e = 91 + 12 = 101; 5.
8

Moda

A moda (Mo) é a observação mais freqüente de um conjunto de dados. Caso não

haja observação mais freqüente, ou seja, todos os valores aparecem apenas uma

única vez no conjunto de dados, a distribuição é dita amodal. Podemos ter um

conjunto unimodal se houver apenas uma moda; bimodal se houver duas modas;

ou multimodal (ou plurimodal) se houver três ou mais modas no conjunto de

dados coletados.

Vejamos exemplos das quatro situações descritas acima: Sejam as notas da prova

de Matemática dos alunos de quatro turmas diferentes dadas pela tabela a seguir.

Turma Notas Moda Distribuição


T1 2; 4; 6; 8; 8,5; 9, 10 Não existe Amodal
T2 2; 4; 5; 5; 8; 9; 10 5 Unimodal
T3 2; 4; 5; 5; 8; 9; 9; 10 5e9 Bimodal
T4 2; 2; 4; 5; 5; 8; 9; 9; 10 2, 5 e 9 Plurimodal

A pergunta que surge naturalmente agora é: Quando a moda será preferível à

média ou à mediana?

Se a distribuição é bem equilibrada, isto é, o histograma da distribuição tem

uma certa simetria, e há um único valor modal, então as três medidas-resumo são

qualitativamente equivalentes. Mas nesse caso, em geral, preferiremos a média, pois

veremos futuramente que a média possui propriedades probabilísticas importantes

para a análise inferencial da população.

36
Se, no entanto, a distribuição é altamente assimétrica com valores atípicos e

unimodal, então preferiremos, em geral, tomar a mediana como medida síntese,

embora a moda também possa ser usada em certas situações nesse caso.

Se, por outro lado, o histograma da distribuição é do tipo bimodal (ou mesmo

plurimodal) como na representação esquemática abaixo, então nem a média, nem

a mediana são boas medidas de representação dos dados, pois estas se situariam

no "vale"da distribuição em que há pouca incidência de valores. Assim, neste caso,

preferiremos quase sempre a moda como medida síntese.

Distribuição Bimodal

Para dados agrupados em classe, existe também uma fórmula para o cálculo do

valor modal, dada por


1
M o = li + h
1 + 2

onde li é o limite inferior da classe modal (isto é, a classe de maior frequência); 1

é a diferença entre a frequência da classe modal e a frequência da classe anterior à

modal; 2 é a diferença entre a frequência da classe modal e a frequência da classe

posterior à modal; e h é a amplitude da classe modal.

Retomando o Exemplo 5 anterior, temos que a classe modal é dada por 103 ` 115,

pois é a de maior frequência (9 observações); li = 103; 1 = 9 8 = 1; 2 = 9 5 = 4;

37
e h = 115 103 = 12. Assim a moda será dada por

1
M o = 103 + 12 = 105; 4.
1+4

Relação Empírica entre Média, Mediana e Moda A seguinte relação em-

pírica em geral subsiste aproximadamente para os conjuntos de dados observados:

X Mo = 3 X Me .

Essa expressão pode ser apresentada de diversas formas e indica geometricamente

que a mediana se situa entre a média e a moda, sendo sua distância à moda o dobro

de sua distância à média (veri…que isso pela relação acima). Sua veri…cação na

prática tende a ser mais perfeita para conjunto maiores de dados, e sendo a moda

calculada com base em dados agrupados em classes de freqüências.

Quartis da Distribuição

Os quartis da distribuição são os três valores que dividem a distribuição em quatro

partes iguais. O primeiro quartil (Q1 ) é o valor da distribuição em que abaixo dele

há 25% da informação e acima dele há 75% da informação. O segundo quartil (Q2 ) é

precisamente a mediana da distribuição (o valor que divide a distribuição ao meio).

Finalmente o terceiro quartil (Q3 ) é o valor da distribuição em que abaixo dele há

75% da informação e acima dele há 25% da informação.

Sejam x(1) x(2) x(3) ::: x(n) , os dados ordenados em ordem crescente.

O primeiro quartil (Q1 ) é de…nido como Q1 = x 1 .


( (n+1))
4
O segundo quartil (Q2 ) é de…nido como Q2 = x 1 .
( (n+1))
2
O terceiro quartil (Q3 ) é de…nido como Q3 = x 3 .
( (n+1))
4

38
Lembrando que se as posições dos quartis acima não são valores inteiros, então

devemos fazer uma interpolação dos valores intermediários à posição. Vejamos com

o exemplo anterior.

Exemplo 7 Suponha uma amostra de 10 elementos de uma população cujos resul-

tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem

crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos

Q1 = x( 11 ) = x(2;75)
4

Com isso, o primeiro quartil se situa entre x(2) e x(3) com uma interpolação de 0; 75

entre eles. Assim, temos

Q1 = x(2) + 0; 75 x(3) x(2)

= 5 + 0; 75 (9 5)

Q1 = 8

O segundo quartil é dado por

Q2 = x( 11 ) = x(5;5)
2

Com isso, o segundo quartil se situa entre x(5) e x(6) com uma interpolação de 0; 5

entre eles. Assim, temos

Q2 = M e = x(5) + 0; 5 x(6) x(5)

= 20 + 0; 5 (27 20)

Q2 = 23; 5,

que é o resultado encontrado para a mediana.

Finalmente, o terceiro quartil é dado por

Q3 = x( 33 ) = x(8;25)
4

39
Com isso, o terceiro quartil se situa entre x(8) e x(9) com uma interpolação de 0; 25

entre eles. Assim, temos

Q3 = x(8) + 0; 25 x(9) x(8)

= 44 + 0; 25 (54 44)

Q3 = 46; 5.

Para valores agrupados em classe, temos a seguinte fórmula para o k-ésimo quartil

(k = 1; 2; 3):
n
k 4
fac
Qk = li + h
fQk

onde li é o limite inferior da classe do k-ésimo quartil (isto é, a classe em que se


n
situa a informação de posição k 4
); n é o número de observações, fac é a frequência

acumulada anterior à classe do k-ésimo quartil; fQk é a frequência da classe do k-

ésimo quartil; e h é a amplitude da classe do k-ésimo quartil. Retomando o Exemplo

5 anterior, temos que a classe do primeiro quartil é aquela que contém a observação
30
na posição 4
= 7; 5, ou seja, a classe 79 ` 91, pois esta contém as informações

ordenadas da posição 4 à posição 8. Assim, temos


30
1 4
3
Q1 = 79 + 12 = 89; 8.
5

O segundo quartil é a mediana já calculada anteriormente, isto é, Q2 = M e =

101; 5.

Finalmente, a classe do terceiro quartil é aquela que contém a observação na


30
posição 3 4
= 22; 5, ou seja, a classe 103 ` 115, pois esta contém as informações

ordenadas da posição 17 à posição 25. Assim, temos


30
3 4
16
Q3 = 103 + 12 = 111; 67.
9

Poderíamos então perguntar: Para que servem os quartis da distribuição?

40
Temos uma dupla resposta a esta pergunta: serve para reconhecer os dados

atípicos da distribuição, os chamados outliers e para construir um importante grá…co

estrutural da distribuição chamado Box-Plot. Vejamos os dois casos agora.

Reconhecimento dos Outliers (ou Dados Discrepantes) Para reconheci-

mento dos outliers da distribuição, precisamos obter o primeiro e o terceiro quartis

da distribuição (Q1 e Q3 ).

De…ne-se a amplitude interquartílica da distribuição (IQ) como IQ = Q3 Q1 .

3
Outliers da distribuição são os valores fora do intervalo Q1 2
IQ; Q3 + 32 IQ .

Vejamos um exemplo concreto:

Exemplo 8 As vendas de uma determinada loja em 27 dias observados são dadas

a seguir: 28, 43, 48, 51, 43, 30, 72, 44, 48, 33, 45, 37, 37, 42, 27, 47, 42, 23, 46,

39, 20, 45, 38, 19, 17, 35, 45.

Colocando os dados (n = 27) em ordem temos: 17, 19, 20, 23, 27, 28, 30, 33,

35, 37, 37, 38, 39, 42, 42, 43, 43, 44, 45, 45, 45, 46, 47, 48, 48, 51, 72.

Temos

Q1 = x( 28 ) = x(7) = 30,
4

Q2 = M e = x( 28 ) = x(14) = 42 e
2

Q3 = x( 84 ) = x(21) = 45.
4

Assim

IQ = Q3 Q1 = 45 30 = 15.

41
O intervalo dos valores típicos é dado por

3 3 3 3
Q1 IQ; Q3 + IQ = 30 15; 45 + 15
2 2 2 2
= [7; 5; 67; 5]

Assim vemos que o conjunto de dados possui um único outlier, o de valor 72,

valor esse considerado atípico e passível de uma análise mais minuciosa. Poderíamos

perguntar: Que dia foi esse? Há explicações plausíveis para esse valor à luz de algum

fator?

Há toda uma teoria so…sticada na Estatística para o tratamento dos outliers, mas

está fora de nosso escopo ir a fundo nessas questões, visto que nosso curso é voltado

para uma primeira inserção no universo da estatística.

Construção do Box-Plot Uma alternativa pictográ…ca do histograma da dis-

tribuição é o Box-Plot. Enquanto o histograma tem uma representação da dis-

tribuição numa perspectiva frontal, o box-plot se assemelha a uma visão panorâmica

de cima da distribuição.

O Box-Plot é um grá…co que contém os quartis da distribuição, os valores mín-

imos e máximos da distribuição que não são outliers e …nalmente os outliers. O

grá…co abaixo, referente aos dados sobre vendas tratados no exemplo 8, representa

os quartis (30, 42 e 45) que de…nem a caixa (box) que contém 50% da informação

central dos dados coletados; os valores mínimos e máximos não-atípicos (17 e 51) e

o valor do outlier (72) em asterisco.

42
Box-Plot

Observe que de 30 (Q1 ) a 42 (M e) há 25% da informação e de 42 (M e) a 45 (Q3 )

também há 25% da informação, e que o segundo intervalo tem menor amplitude

que o primeiro. Portanto, o histograma deve ser mais alto no segundo intervalo que

no primeiro, indicando que há uma assimetria da distribuição. (Embora tratemos o

estudo da assimetria das distribuições em aulas posteriores, você consegue visualizar

isso?)

Exercício 12 Dados A = f24; 26; 28; 30; 32; 34; 36g e B = f15; 20; 25; 30; 35; 40; 45g,

determine suas médias aritméticas, suas medianas e suas modas e diga se, com base

nelas, é possível diferenciar os dois conjuntos de dados.

Exercício 13 Dado o conjunto A = f85; 82; 97; 88; 89; 97; 89; 93; 88; 97; 96; 97; 98; 93; 97g

determine sua média aritmética, sua mediana e sua moda.

Exercício 14 Um geógrafo está interessado em estudar a idade de trabalhadores no

campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10

trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.

Pede-se:

(a) A média das idades.

(b) A moda das idades.

43
(c) A mediana das idades.

(d) Os possíveis outliers.

Exercício 15 Dê uma situação prática onde você acha que a mediana é uma medida

mais apropriada do que a média.

Exercício 16 Esboce um histograma onde a média e a mediana coincidem. Existe

alguma classe de histogramas onde isto sempre acontece?

Exercício 17 Num caso em que você esteja sintetizando o conjunto de dados em

uma única medida de posição ou tendência central, qual dentre elas (média, mediana

ou moda) você adotaria nos casos abaixo, justi…cando (em alguns casos mais de uma

escolha é possível):

(a) A distribuição é praticamente simétrica e unimodal.

(b) A distribuição é praticamente simétrica e bimodal.

(c) A distribuição é fortemente assimétrica.

Exercício 18 Quer-se estudar o número de erros de impressão de um livro. Para

isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de

erros por página:


Erros Frequência
0 25
1 20
2 3
3 1
4 1

(a) Qual o número médio de erros por página?

(b) E o número mediano?

(c) Qual é a moda?

(d) Se o livro tem 500 páginas, como você estimaria o total de erros esperado no

livro?

44
(e) Quais os quartis das distribuição? Há evidência de dados atípicos (outliers)?

(f) Faça num papel milimetrado o Box-Plot para os dados coletados.

Exercício 19 Uma amostra de idades de 100 indivíduos foi retirada de uma certa

população e sua distribuição de frequências em classes é dada por

Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15

Obtenha a média, a mediana, a moda e os quartis da distribuição.

2.2.2 Medidas de Variabilidade

Enquanto as medidas de posição procuram sintetizar o conjunto de dados em alguns

valores situados entre dados coletados, as medidas de dispersão buscam avaliar quão

dispersos (ou esparsos) são os dados coletados. Isso é de fundamental importância,

pois podemos ter dois conjuntos de dados com as mesmas medidas de posição, mas

com dispersões diferentes, fazendo com que os valores qualitativos dessas medidas

de posição sejam também diferentes.

Há uma piada irônica que diz que o estatístico é o pro…ssional que dirá que

uma pessoa, ao se sentar numa cadeira com duas placas de metal, uma aquecida a

100 C e outra resfriada a 40 C, estará em média confortável, pois a temperatura


40 + 100
média é de = 30 C! Na verdade, o verdadeiro estatístico jamais diria
2
isso, pois ele não toma decisões apenas pela média, mas na dispersão dos dados em

torno da média. Uma cadeira com duas placas de metal, uma aquecida a 35 C e

outra a 25 C, também tem temperatura média de 30 C, mas há menos dispersão da

temperatura nessa cadeira que na outra. Assim, embora quantitativamente iguais,

45
os dois valores de 30 C não são qualitativamente equivalentes. Há portanto que se

avaliar a variabilidade dos dados coletados, a …m de tecer conclusões adequadas.

Diversas são as medidas de variabilidade, mas estudaremos apenas as mais im-

portantes e frequentes no trabalho do estatístico.

Amplitude Total

A Amplitude Total (A) é de…nida como a diferença entre o maior e o menor valor

observado, x(n) e x(1) , respectivamente. Assim

A = x(n) x(1) .

Como se trata de uma medida bruta (pois só leva em consideração os dois valores

extremais do conjunto de dados), ela é usada mais frequentemente apenas para

auxiliar na construção do histograma, como visto anteriormente. Mais relevante

para a análise estatística é a variância, que de…niremos a seguir.

Variância

A variância representa a média das distâncias quadráticas entre cada valor observado

e a média do conjunto dos dados. Vimos anteriormente que a média das distâncias

orientadas entre cada valor observado e a média do conjunto dos dados é sempre

nula. Portanto a média das distâncias orientadas nada nos informa sobre a dispersão

dos dados. A ideia portanto é elevar ao quadrado as distâncias, pois nesse caso as

somas quadráticas não se anulam, a menos que todo valor observado seja igual à

média, isto é, os dados são todos iguais em valor.

Seja uma amostra representada por fx1 ; x2 ; x3 ; :::; xn g de n observações numé-

ricas, retirada de uma população hipotética de N elementos cujos resultados (não-

observados) são fX1 ; X2 ; X3 ; :::; XN g.

46
PN
2 2 i=1 (Xi )2
A variância da população ( ) é de…nida como = ,
N
com a média da população.

Pn 2
2 2 i=1 xi Xn
A variância da amostra (S ) é de…nida como S = ,
n 1
com Xn a média da amostra.

Aqui também vale ressaltar que a variância da população ( 2 ) não é observada

na maioria das vezes e, portanto, é um parâmetro a ser estimado. A variância

da amostra (S 2 ), ao contrário, é obtida através dos dados coletados e usada para

se estimar a variância da população. Portanto a variância da amostra é um valor

aleatório, pois depende da amostra que foi retirada.

A essa altura você deve estar se perguntando por que na fórmula da variância da

amostra dividimos por n 1 ao invés de n, como expresso na fórmula da variância

da população. Os estatísticos fazem isso, pois como S 2 é um valor aleatório (cada

amostra pode gerar uma variância amostral diferente), gostaríamos de "acertar"em

média o valor da variância da população. Se dividíssemos por n, iremos mostrar

ao …nal desse curso que a variância da amostra não acertaria em média a variância

da população. A correção adequada matematicamente é dividir por n 1, daí a

fórmula um pouco diferente. Claro que se a amostra é grande (por exemplo, maior

do que 30 observações), dividir por n ou por n 1 não fará muita diferença, mas se

a amostra é pequena esse fator de correção faz toda a diferença!

As fórmulas acima podem ser reescritas abrindo o quadrado dos binômios como

PN
2 i=1 Xi2 2
= e
N
Pn
2 i=1 x2i nXn2
S = .
n 1

(Veri…que isso você mesmo(a).)

47
Propriedades da Variância (1) Multiplicando-se todos os valores de uma var-

iável por uma constante, a variância do conjunto …ca multiplicada pelo quadrado

dessa constante.

Para ver isso, suponha que fx1 ; x2 ; x3 ; :::; xn g tenha média Xn .e variância S 2 .

Lembre agora que o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g terá média k Xn . Assim a

variância desse novo conjunto é dada por


Pn 2 Pn 2
i=1 kxi k Xn k 2 xi Xn
i=1
=
n 1 " Pnn 1 #
2
i=1 x i Xn
= k2
n 1
= k2S 2

Ou seja a nova variância é k 2 S 2 .

(2) Somando-se ou subtraindo-se uma constante a todos os valores de uma var-

iável, a variância não se altera.

Para ver isso, suponha que fx1 ; x2 ; x3 ; :::; xn g tenha média Xn .e variância S 2 .

Lembre agora que o conjunto fk + x1 ; k + x2 ; k + x3 ; :::; k + xn g terá média k + Xn .

Assim a variância desse novo conjunto é dada por


Pn 2 Pn 2
i=1 (k + xi ) k + Xn i=1 xi Xn
=
n 1 n 1
= S2

Assim, vemos que somar ou diminuir os dados por uma constante …xada não

alterará a dispersão dos dados.

(3) Pelas fórmulas das variâncias tanto populacional quanto amostral, vemos

que a variância é sempre um número real não-negativo. Ela será nula, se e somente

se xi = Xn , para todo i; portanto, se e somente se os dados são todos iguais. Caso

contrário, a variância será sempre estritamente positiva.

48
Novamente cabe ressaltar aqui que se os dados são apresentados em tabelas de

frequência, indicando que o valor xi ocorre fi vezes no conjunto de dados, com

f1 + f2 + ::: + fn = n, então a fórmula da variância amostral será naturalmente dada

por:
Pn 2
2 i=1 xi Xn :fi
S = .
n 1

Se os dados são apresentados em classes com as respectivas frequências da classe,

a fórmula acima também também expressa a variância amostral, com xi represen-

tando agora o ponto médio da i-ésima classe e fi a frequência da i-ésima classe.

Desvio-Padrão

Vimos que a variância é calculada elevando-se ao quadrado as observações. Portanto

se os dados são mensurados em metro, por exemplo, a variância será mensurada em

metro quadrado. Para retornar à medida original é preciso extrair a raiz quadrada

da variância. Esse valor é denominado desvio-padrão dos dados. Assim:

rP
N
p
2 i=1 (Xi )2
O desvio-padrão da população ( ) é de…nida como = = .
N
s
Pn 2
p i=1 xi Xn
O desvio-padrão da amostra (S) é de…nida como S = S2 = .
n 1

Relação Empírica entre Desvio-Padrão e Amplitude Na quase totalidade

dos casos práticos temos:


A A
<S< .
6 3

Propriedades do Desvio-Padrão (1) Somando-se ou subtraindo-se uma con-

stante a cada valor de um conjunto de dados, o desvio padrão não se altera. Isso

49
decorre do fato de que somando-se ou subtraindo-se uma constante a todos os val-

ores de uma variável, a variância não se altera. Portanto o desvio-padrão também

não se alterará.

(2) Multiplicando-se ou dividindo-se por uma constante cada valor de um con-

junto, o desvio padrão também …ca multiplicado ou dividido, respectivamente, pelo

módulo da constante.

Vimos que o conjunto fkx1 ; kx2 ; kx3 ; :::; kxn g tem variância k 2 S 2 . Assim o novo
p
desvio-padrão será dado por k 2 S 2 = jkj S.

Coe…ciente de Variação

Nem sempre uma variância pequena (e consequentemente desvio-padrão pequeno)

signi…ca pouca dispersão. Tampouco uma variância grande é sempre indicador de

alta dispersão. Esses valores podem ser altos ou baixos devido à magnitude dos dados

observados. Se medimos observações em microscópio, por exemplo, teremos fatal-

mente um valor numericamente baixo de variância, podendo no entanto haver alta

dispersão dos dados no nível microscópico. Da mesma maneira, ao medir produto

interno bruto em dólares do Brasil teremos valores observados de alta magnitude,

gerando variância grande, mas não necessariamente indicando alta dispersão.

Como então avaliar a dispersão adequadamente? A ideia é tomar o desvio-padrão

dos dados comparativamente à escala média dos dados. Tal medida é denominada

de Coe…ciente de Variação (CV ) e é de…nida como o quociente entre o desvio-

padrão e a média dos dados observados. É frequentemente expresso em porcentagem.

Assim temos:

S S
CV = ou CV = 100%.
X X

Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu

50
valor médio. Assim, uma pequena dispersão absoluta pode ser, na verdade, con-

siderável quando comparada com a ordem de grandeza dos valores da variável e

vice-versa. Quando consideramos o coe…ciente de variação, enganos de interpre-

tação desse tipo são evitados. Quando o CV tem uma medida em percentual abaixo

de 50%, dizemos que os dados são relativamente homogêneos; acima de 50% os da-

dos são considerados heterogêneos, mas caso o coe…ciente de variação seja superior

a 100% dizemos que eles têm uma superdispersão.

Consideremos o seguinte problema para o cálculo de medidas de posição e vari-

abilidade.

Exemplo 9 Suponha duas amostras de preços de fechamento atingido por dois pa-

cotes de ações registrados em dez sextas-feiras consecutivas.

Ações A 56 56 57 58 61 63 63 67 67 67
Ações B 33 42 48 52 57 67 67 77 82 90

Pede-se:

(a) Obtenha as médias, as medianas e as modas dos dois conjuntos de dados.

(b) Obtenha as amplitudes totais dos dois conjuntos de dados.

(c) Obtenha as variâncias dos dois conjuntos de dados.

(d) Obtenha os desvios-padrão dos dois conjuntos de dados.

(e) Obtenha os coe…cientes de variação dos dois conjuntos de dados.

Sejam XA e XB as médias, M eA e M eB as medianas e M oA e M oB as modas.

Então temos:
56 + 56 + ::: + 67 + 67 615
XA = = = 61; 5
10 10
33 + 42 + ::: + 82 + 90 615
XB = = = 61; 5
10 10
61 + 63
M eA = = 62
2
57 + 67
M eB = = 62
2

51
M oA = 67

M oB = 67

Portanto os dois conjuntos têm as mesmas medidas de posição pedidas.

Vejamos agora as amplitudes totais nos dois conjuntos:

AA = 67 56 = 11

AB = 90 33 = 57

Assim, vemos que as Ações B têm maior amplitude que as Ações A.

A …m de preparar os cálculos das medidas de dispersão montaremos duas tabelas

com as seguintes colunas:


2
Ações A xi XA xi XA
56 56 61; 5 = 5; 5 30; 25
56 56 61; 5 = 5; 5 30; 25
57 57 61; 5 = 4; 5 20; 25
58 58 61; 5 = 3; 5 12; 25
61 61 61; 5 = 0; 5 0; 25
63 63 61; 5 = 1; 5 2; 25
63 63 61; 5 = 1; 5 2; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
P10 P10 P10 2
i=1 xi = 615 i=1 xi XA = 0 i=1 xi XA = 188; 50
2
Ações B xi XB xi XB
33 33 61; 5 = 28; 5 812; 25
42 42 61; 5 = 19; 5 380; 25
48 48 61; 5 = 13; 5 182; 25
52 52 61; 5 = 9; 5 90; 25
57 57 61; 5 = 4; 5 20; 25
67 67 61; 5 = 5; 5 30; 25
67 67 61; 5 = 5; 5 30; 25
77 77 61; 5 = 15; 5 240; 25
82 82 61; 5 = 20; 5 420; 25
90 90 61; 5 = 28; 5 812; 25
P10 P10 P10 2
i=1 xi = 615 i=1 xi XB = 0 i=1 xi XB = 3:018; 50

Assim, temos as seguintes variâncias amostrais nos dois conjuntos:

52
P10 2
i=1 xi XA 188; 50
SA2 = = = 20; 944:::
10 1 9

P10 2
i=1 xi XB 3:018; 50
SB2 = = = 335; 3888:::
10 1 9

Os respectivos desvios-padrão são:

p
SA = 20; 944::: = 4; 5765

p
SB = 335; 3888::: = 18; 3136

Finalmente os coe…cientes de variação nos dois grupos são dados por:

SA 4; 5765
CVA = = = 0; 0744
XA 61; 5

ou

CVA = 7; 44%

SB 18; 3136
CVB = = = 0; 2978
XB 61; 5

ou

CVB = 29; 78%

Finalmente, concluímos que embora os dois conjuntos tenham medidas de posição

equivalentes, há maior variabilidade, e consequentemente mais incerteza, nas Ações

B do que nas Ações A.

53
Exercício 20 Esboce os histogramas de três variáveis (X, Y e Z) com a mesma

média aritmética, mas com variâncias ordenadas em ordem crescente. Em qual

histograma, a média tem maior valor qualitativo para sintetizar o conjunto de dados?

Exercício 21 Um geógrafo está interessado em estudar a idade de trabalhadores no

campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10

trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.

Pede-se:

(a) A amplitude total dos dados.

(b) A variância do conjunto de dados.

(c) O desvio-padrão do conjunto de dados.

(d) O coe…ciente de variação do conjunto de dados. O conjunto parece ser ho-

mogêneo ou heterogêneo?

Exercício 22 Quer-se estudar o número de erros de impressão de um livro. Para

isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de

erros por página:

Erros Frequência
0 25
1 20
2 3
3 1
4 1

(a) Calcule a variância da amostra.

(b) Calcule o desvio-padrão da amostra.

(c) Calcule o coe…ciente de variação da amostra. O conjunto parece ser homogê-

neo ou heterogêneo?

Exercício 23 Um órgão do governo do estado está interessado em determinar padrões

sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um

54
levantamento em 10 cidades, foram obtidos os valores (codi…cados) da tabela abaixo:

Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18
Pede-se:

(a) A média dos investimentos.

(b) A moda.

(c) A mediana.

(d) O desvio-padrão.

(e) O coe…ciente de variação.

(f) Diagnosticar se há dados discrepantes (outliers).

Exercício 24 Durante um ano, foram coletados os índices pluviométricos mensais

de uma certa região, cujos dados encontram-se na tabela abaixo.

Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Índice 69 53 41 46 50 40 41 40 42 38 42 46

Pede-se:

(a) O índice pluviométrico médio no ano.

(b) A variância e o desvio-padrão do índice pluviométrico.

(c) O coe…ciente de variação.

Exercício 25 Suponha que você esteja interessado em avaliar qual de dois exper-

imentadores (A e B) faz mensurações mais precisas ao microscópio. Para isso,

cada experimentador faz 10 mensurações, resultando nas seguintes médias e variân-

cias: XA = 0; 1, SA2 = 0; 009404, XB = 0; 4, SA2 = 0; 02. Utilizando uma medida

estatística apropriada, qual dos experimentadores você diria ser mais preciso?

Exercício 26 Uma amostra de idades de 100 indivíduos foi retirada de uma certa

população e sua distribuição de frequências em classes é dada por

55
Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15

Obtenha a variância, o desvio-padrão e o coe…ciente de variação das idades dos

indivíduos da amostra.

2.2.3 Medidas de Assimetria, Curtose e Correlação


Medidas de Assimetria

Diagnosticar se uma dada distribuição é ou não simétrica é fundamental em Estatís-

tica, pois como discutimos antes, uma distribuição altamente assimétrica enfraquece

o valor da média como medida síntese dos dados, pois a média é abalada por valores

extremos. Além disso, muitos todos testes estatísticos para tomada de decisão sob

incerteza dependem de hipóteses sobre distribuições simétricas, como a distribuição

Normal, que estudaremos mais adiante nesse curso. Daí a importância desse tópico

em Estatística.

Toda distribuição pode ser classi…cada como simétrica, assimétrica à direita (ou

positiva) e assimétrica à esquerda (ou negativa). Os grá…cos abaixo ilustram os três

casos:

Simétrica (Xn = M ed = M o)

56
Assimétrica à Direita (M o < M ed < Xn )

Assimétrica à Esquerda (Xn < M ed < M o)

Há várias medidas de assimetria, mas nesse curso nos ateremos apenas ao Coe-

…ciente de Assimetria de Pearson (As ). Ele é dado pela fórmula:

Xn Mo
As =
S

onde Xn , M o e S são, respectivamente, a média, a moda e o desvio-padrão da

amostra.

Decisão:

(a) Se As = 0, então a distribuição é simétrica.

(b) Se As > 0, então a distribuição é assimétrica positiva ou à direita.

(c) Se As < 0, então a distribuição é assimétrica negativa ou à esquerda.

Além disso:

(i) se jAs j 0; 15, a distribuição é considerada simétrica;

57
(i) se 0; 15 < jAs j 1, a assimetria é considerada moderada;

(ii) se jAs j > 1, a assimetria é considerada forte.

Medidas de Curtose

As medidas de curtose avaliam o grau de achatamento da distribuição. Com refer-

ência ao grau de achatamento, podemos classi…car a distribuição como Leptocúr-

tica (pouco achatada), Mesocúrtica (médio achatada) e Platicúrtica (muito

achatada), conforme os grá…cos abaixo:

Há várias medidas de curtose, mas nos ateremos apenas ao Coe…ciente de

Curtose de Pearson (K) dado pela fórmula:

4
K= 2
2

onde
Pn 4
i=1 xi Xn
4 =
n

e
Pn 2
i=1 xi Xn
2 =
n

Decisão:

58
(a) Se K < 3, então a distribuição é platicúrtica.

(b) Se K = 3, então a distribuição é mesocúrtica.

(c) Se K > 3, então a distribuição é leptocúrtica.

Observe que, se a distribuição é platicúrtica, isso indica que há uma grande vari-

abilidade da variável observada, o que enfraquece o valor de medidas de posição como

a média, por exemplo. Já numa distribuição leptocúrtica, temos alta concentração

dos dados, o que torna as medidas-resumo potencialmente mais representativas. É

pela conjunção da assimetria com a curtose que podemos avaliar apropriadamente

as medidas de posição calculadas.

Exemplo 10 Suponha uma amostra de 10 elementos de uma população com os

seguintes resultados: 5, 15, 15, 15, 25, 25, 25, 25, 35, 35.

Assim, temos:

5+3 15 + 4 25 + 2 35 220
Xn = =
10 10

Xn = 22.

M o = 25

2 (5 22)2 + 3 22)2 + 4 (25


(15 22)2 + 2 (35 22)2
S =
9
289 + 147 + 36 + 338 810
= =
9 9
p
S 2 = 90 e S = 90 = 9; 4868

Assim
Xn Mo 22 25
As = = = 0; 3162
S 9; 4868

Como As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além

disso, como 0; 15 < jAs j = 0; 3162 1, a assimetria é considerada moderada.

59
Analisemos agora os dados, quanto ao grau de achatamento (curtose).
P10 4
i=1 xi X10
4 =
10
(5 22)4 + 3 (1522)4 + 4 (25 22)4 + 2 (35 22)4
=
10
83:521 + 7:203 + 324 + 57:122
=
10
148:170
=
10

4 = 14:817

P10 2
i=1 xi X10
2 =
10
(5 22)2 + 3 (1522)2 + 4 (25 22)2 + 2 (35 22)2
=
10
289 + 147 + 36 + 338 810
= = =
10 10

2 = 81

Assim
4 14:817 14:817
K= 2
= 2 =
2 (81) 6:561

K = 2; 2583

Portanto, como K = 2; 2583 < 3, então a distribuição é platicúrtica.

Exercício 27 Foi comparado o desempenho na Escala de Desenvolvimento de Pen-

samento Lógico (EPL), de Longeot, entre sujeitos dos cursos de graduação em Psi-

cologia, Biologia e Física da USP, freqüentando o primeiro e o último ano. Essa

escala, baseada na Teoria do Desenvolvimento do Pensamento Lógico de Piaget, per-

mite classi…car o sujeito em um dentre cinco níveis de desenvolvimento: Concreto

A (0 a 4 pontos) ou B (5 a 10 pontos); Pré-formal (11 a 17 pontos); Formal A (18

a 23 pontos) ou B (24 a 28 pontos). Os resultados obtidos foram os seguintes:

60
Média: 22; 30 Mediana: 22; 00
Moda: 22; 00 1o Quartil: 20; 00
Sexo Masculino:
3o Quartil: 25; 00 Variância: 7; 51
Mínimo: 17; 00 Máximo: 26; 00

Média: 20; 88 Mediana: 21; 00


Moda: 22; 00 1o Quartil: 19; 00
Sexo Feminino:
3o Quartil: 23; 00 Variância: 11; 93
Mínimo: 10; 00 Máximo: 28; 00

(a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais

heterogêneo? Justi…que com base a uma medida estatística apropriada.

(b) Há evidência de dados discrepantes (outliers) no grupo masculino? Jus-

ti…que.

(c) Há evidência de dados discrepantes (outliers) no grupo feminino? Jus-

ti…que.

(d) Analise a assimetria da distribuição dos escores do grupo masculino.

(e) Analise a assimetria da distribuição dos escores do grupo feminino.

Exercício 28 Houve uma denúncia por parte dos operários de uma indústria de

que, toda vez que ocorreria um acidente em uma seção da indústria, ocorreriam

outros em outras seções mais ou menos no mesmo horário. Em outras palavras, os

acidentes não estavam ocorrendo ao acaso. Para veri…car esta hipótese, foi feita

uma contagem do número de acidentes por hora durante um certo número de dias

(24 horas por dia). Os resultados da pesquisa estão abaixo:

Número de Acidentes por Hora 0 1 2 3 4 5 6 7 8


Número de Horas 200 152 60 30 13 9 7 5 4

(a) Qual o número médio de acidentes por hora?

(b) E o número mediano?

(c) Qual é a moda?

(d) Qual é o desvio-padrão?

61
(e) Avalie os dados quanto à assimetria.

(f) Avalie os dados quanto à curtose.

Coe…ciente de Correlação

Vimos anteriormente que o diagrama de dispersão (scatterplot) é usado quando

desejamos avaliar a relação entre duas variáveis. A visualização é um primeiro passo

para um entendimento dessa possível in‡uência de uma variável sobre outra, mas

há que se medir a correlação entre elas. O coe…ciente de correlação (r) é a

medida comumente utilizada para se avaliar a correlação linear entre duas variáveis

quantitativas.

Suponha que tenhamos uma amostra de n pares de dados (xi ; yi ), i = 1; 2; :::; n,

onde x é a variável explicativa (também denominada independente ou covariável),

que procura explicar o comportamento da variável resposta y (também denominada

dependente). Assim, por exemplo, se desejamos saber se o número de cigarros

fumados por dia tem relação com a capacidade pulmonar, então x é o número de

cigarros fumados por uma unidade experimental e y a medição de sua capacidade

pulmonar. Assim temos um conjunto de dados do tipo

Covariável (x) x1 x2 ::: xn


Variável Resposta (y) y1 y2 ::: yn

O coe…ciente de correlação é expresso pela seguinte fórmula:

Pn
i=1 xi Xn : yi Yn
r = qP qP
n 2 n 2
i=1 xi Xn i=1 yi Yn
ou então de forma mais simpli…cada para o cálculo:
Pn P P
n i=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
r=q P P q P P
2 2
n ni=1 x2i ( ni=1 xi ) n ni=1 yi2 ( ni=1 yi )

62
onde Xn e Yn são as médias da covariável e da variável resposta, respectivamente.

A correlação pode ser positiva, negativa ou nula. Vejamos com exemplos grá…cos

os três casos:

Vemos que na correlação linear positiva, a melhor reta que passa por entre os

pontos tem coe…ciente angular positivo, indicando que, quando a variável explicativa

cresce, a variável resposta tende a crescer também. No exemplo puramente ilustra-

tivo acima, a nota do vestibular tem correlação positiva com a média das notas da

graduação de 18 alunos que participaram da amostra.

63
Vemos que na correlação linear negativa, a melhor reta que passa por entre os

pontos tem coe…ciente angular negativo, indicando que, quando a variável explica-

tiva cresce, a variável resposta tende a decrescer. No exemplo acima, as horas de

treinamento, à luz da amostra de 20 funcionários de uma dada indústria, guardam

uma correlação negativa com o número de acidentes.

Vemos que na correlação linear nula, os pontos se distribuem no plano cartesiano

como uma nebulosa, não havendo qualquer indicação de uma melhor reta que passe

próximo aos pontos. Nesse exemplo, não há qualquer correlação entre altura do

indivíduo e o seu quociente de inteligência (QI), avaliado através de uma amostra

de 25 indivíduos.

Propriedades do Coe…ciente de Correlação (r) (1) O coe…ciente de corre-

lação é sempre um número entre 1 e 1, isto é, r 2 [ 1; 1], e mede o grau de ajuste

da reta aos pontos no plano cartesiano.

(2) Se r está próximo a 1, há uma forte correlação negativa, ou seja, há uma

reta de coe…ciente angular negativo passando muito próximo aos pontos amostrais.

(Se r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os

pontos são colineares.) Se r está próximo de 0, não há correlação linear, os pontos

64
se comportam como uma nebulosa ou têm comportamento fortemente não linear.

E se r está próximo de 1, há uma forte correlação positiva, ou seja, há uma reta

de coe…ciente angular positivo passando muito próximo aos pontos amostrais. (Se

r = 1, então essa reta passa exatamente sobre todos os pontos, ou seja, os pontos

são colineares.)

(3) O coe…ciente de correlação é também expresso na forma percentual. Assim

se r = 0; 87, então pode-se escrever r = 87%, signi…cando que a correlação entre

as duas variáveis em estudo é negativa e relativamente alta. Além disso, o valor

r2 = ( 0; 87)2 = 0; 7569 = 75; 69% nos informa que 75; 69% da variabilidade da

variável resposta é explicada pela covariável em estudo, e que, portanto, 24; 31%

(100% 75; 69%) da variabilidade da variável resposta não é explicada pela variável

explicativa. O coe…ciente r2 é chamado de coe…ciente de determinação.

É preciso, no entanto, ressaltar que mesmo uma alta correlação entre duas var-

iáveis não signi…ca necessariamente uma relação de causa-efeito entre elas! Relações

de causalidade são atribuídas pela conhecimento cientí…co sobre as variáveis en-

volvidas, pois poderíamos ter por exemplo uma alta correlação numérica entre grau

de calvície e grau de miopia, sem no entanto ter qualquer relação causal médica

plausível para isso. Portanto, é preciso cautela ao se tirar conclusões em estudos de

correlação entre variáveis.

A Reta de Regressão

Mais do que medir o grau de correlação linear entre duas variáveis quantitativas,

interessa-nos também obter a equação da melhor reta que passa pelos pontos ob-

servados, pois através dessa reta podemos estimar a variável resposta para valores

não observados da variável explicativa. A melhor reta é obtida através do Cálculo

Diferencial, pelo uso da derivação parcial e sua demostração está além do escopo

65
desse curso introdutório.

Depois de constatar que existe uma correlação linear signi…cante, podemos então

escrever uma equação linear que descreva a relação entre as variáveis x e y. Essa

equação chama-se reta de regressão ou reta do ajuste ótimo.

Denominemos y^i , o valor estimado da variável resposta pela reta de regressão à

luz do valor da variável explicativa xi . Então podemos descrever (dada a existência

de uma relação linear entre as variáveis):

y^i = axi + b

O Método de Mínimos Quadrados, desenvolvido por Gauss, consiste em obter a

e b, a …m de minimizar a soma dos quadrados dos erros ei = yi y^i entre o valor

observado da variável resposta e seu valor estimado pela reta de regressão, isto é,

minimizar
X
n X
n
2
X
n
e2i = (yi y^i ) = (yi axi b)2 ,
i=1 i=1 i=1

conforme a ilustração abaixo:

Pode-se mostrar através do Cálculo Diferencial que os valores de a e b que min-


Pn
imizam i=1 (yi axi b)2 são dados por
P P P
n ni=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
a= P P 2
n ni=1 x2i ( ni=1 xi )

66
e

b = Yn a:Xn .

Vamos então ilustrar com um exemplo o uso do coe…ciente de correlação e da

reta de regressão.

Exemplo 11 Suponha que desejemos avaliar a correlação entre o número de faltas

dos alunos em sala de aula e a média …nal de suas provas em Matemática num

dado ano letivo. Para isso, selecionamos aleatoriamente 7 alunos para a amostra,

obtendo-se os dados abaixo.


Aluno Falta Média Final
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81

A primeira coisa a se fazer, como dissemos antes, é construir um diagrama

de dispersão para avaliar gra…camente uma possível relação entre as variáveis em

estudo. No nosso caso, a variável explicativa, ou covariável, x, é o número de faltas

e a variável resposta, y, é a média …nal do ano letivo. O diagrama de dispersão é

dado por:

67
Pelo diagrama de dispersão, vemos que há indicíos de uma boa correlação linear

negativa entre número de faltas e média …nal, indicando que quanto mais faltas tem

um aluno, mais a sua média …nal tende a decrescer. Precisamos agora medir a

correlação entre as variáveis em estudo. Para isso, prepararemos uma tabela com

as somas necessárias para o cálculo do coe…ciente de correlação r.


Aluno xi yi xi :yi x2i yi2
1 8 78 624 64 6:084
2 2 92 184 4 8:464
3 5 90 450 25 8:100
4 12 58 696 144 3:364
5 15 43 645 225 1:849
6 9 74 666 81 5:476
7 6 81 486 36 6:561
Somas 57 516 3:751 579 39:898
Assim temos
X
7 X
7 X
7 X
7 X
7
xi :yi = 3:751, xi = 57, yi = 516, x2i = 579 e yi2 = 39:898.
i=1 i=1 i=1 i=1 i=1

Utilizando a fórmula simpli…cada para r, temos


P P7 P7
7 7i=1 xi :yi i=1 xi : i=1 yi
r = q P P7
q
P P7
2 2
7 7i=1 x2i i=1 xi 7 7i=1 yi2 i=1 yi
7 3:751 57 516
= p p
7 579 572 7 39:898 5162
3:155
= p p
804 13:030

68
r= 0; 975 ou r = 97; 5%

Vemos então uma alta correlação negativa entre as duas variáveis em estudo,

con…rmando nossa análise do diagrama de dispersão. O coe…ciente de determinação

é dado por r2 = ( 0; 975)2 = 0; 9506 = 95; 06%. Assim apenas 4; 94% das notas

…nais não são explicadas pelo número de faltas dos alunos.

Vamos agora então obter a equação da reta de regressão

y^i = axi + b

onde
P7 P7 P7
7
i=1 x i :y i i=1 x i : i=1 yi
a = P7 P 7 2
7 i=1 x2i i=1 xi
7 3:751 57 516
=
7 579 572
3:155
=
804

a= 3; 924

b = Y7 a:X7
516 57
= ( 3; 924) :
7 7

b = 105; 667

A reta de regressão tem a equação dada por

y^i = 3; 924xi + 105; 667.

Observe que de fato o coe…ciente angular da reta é negativo, indicando a correlação

negativa entre as variáveis no estudo.

De posse desta reta, podemos estimar valores de média …nal para números de

faltas não observadas na amostra. Por exemplo, qual seria a média …nal esperada

69
para um aluno que tivesse 4 faltas no ano letivo? Teríamos então

y^ = 3; 924 4 + 105; 667

= 89; 97

Ou seja, esperaríamos que um aluno com 4 faltas obtivesse média …nal de 89; 97.

Exercício 29 Muitas vezes, a determinação da capacidade de produção instalada

para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como

alternativa, pode-se estimar a capacidade de produção através da escolha de uma

outra variável de medida mais fácil e que esteja linearmente relacionada com ela.

Suponha que foram observados os valores para as variáveis: capacidade de pro-

dução instalada, potência instalada e área construída, conforme tabela abaixo:

Cap. Prod. Inst. (ton.) 4 5 4 5 8 9 10 11 12 12


Potência Inst. (1000 kW) 1 1 2 3 3 5 5 6 6 6
Área Construída (100 m) 6 7 10 10 11 9 12 10 11 14

(a) Com base num critério estatístico, qual das variáveis (potência instalada ou

área construída) você escolheria para estimar a capacidade de produção instalada?

Justi…que solidamente.

(b) Tendo escolhido a variável que melhor estima a capacidade de produção in-

stalada, obtenha a reta de regressão das variáveis envolvidas.

Exercício 30 Com o objetivo de veri…car até que ponto o "status"da relação amorosa

- casamento ou namoro - in‡ui na percepção do amor por parte dos jovens, foi apli-

cada uma escala de atitudes em 16 pares, sendo oito compostos de namorados e oito

de casados. Uma das suposições das autoras era que entre casados haveria maior

concordância de atitude do que entre namorados, ou seja, que os dois membros do

mesmo par teriam o mesmo enfoque no amor - romântico ou não. Os resultados

apenas dos 8 pares casados estão apresentados abaixo.

70
Comparação entre Homens e Mulheres Casados quanto ao Grau de Romantismo:

Casais Mulher (X) Homem (Y)


1 72 75
2 73 72
3 74 76
4 74 75
5 73 69
6 73 73
7 72 67
8 70 72

Pede-se:

(a) Construir um Diagrama de Dispersão para os dados coletados.

(b) Determinar o Coe…ciente de Correlação Linear, e tirar conclusões.

(c) Determinar a reta de regressão de Y como variável resposta e X como covar-

iável.

(d) Determinar a reta de regressão de X como variável resposta e Y como covar-

iável.

(e) Estimar o grau de romantismo da mulher, quando o homem apresenta resul-

tado 74.

(f) Estimar o grau de romantismo do homem, quando a mulher apresenta resul-

tado 71.

71
Capítulo 3

Probabilidade

3.1 De…nições e Resultados Básicos da Teoria das


Probabilidades

Suponha que vamos realizar um experimento cujo resultado não pode ser predito

de antemão. Entretanto, suponha que saibamos todos os possíveis resultados de

tal experimento. Este conjunto de todos os resultados possíveis, que denotaremos

por , é chamado de espaço amostral do experimento. Assim, temos a seguinte

de…nição:

De…nição 1 O conjunto de todos os resultados possíveis de um determinado ex-

perimento é chamado de espaço amostral.

Exemplo 12 Se o experimento consiste em lançar uma moeda, então = fCa; Cog,

onde Ca é ”cara” e Co é ”coroa”.

Exemplo 13 Se o experimento consiste em lançar um dado e observar a face su-

perior, então = f1; 2; 3; 4; 5; 6g.

Exemplo 14 Se o experimento consiste em lançar duas moedas, então

= f(Ca; Ca); (Ca; Co); (Co; Ca); (Co; Co)g, onde o resultado (a; b) ocorre se a

face da primeira moeda é a e a face da segunda moeda é b.

72
Exemplo 15 Se o experimento consiste em lançar dois dados e observar as faces

superiores, então
8 9
>
> (1; 1) (1; 2) (1; 3) (1; 4) (1; 5) (1; 6) >
>
>
> >
>
>
> (2; 1) (2; 2) (2; 3) (2; 4) (2; 5) (2; 6) >
>
< =
(3; 1) (3; 2) (3; 3) (3; 4) (3; 5) (3; 6)
=
>
> (4; 1) (4; 2) (4; 3) (4; 4) (4; 5) (4; 6) >
>
>
> >
>
>
> (5; 1) (5; 2) (5; 3) (5; 4) (5; 5) (5; 6) >
>
: ;
(6; 1) (6; 2) (6; 3) (6; 4) (6; 5) (6; 6)

onde o resultado (i; j) ocorre se a face i aparece no primeiro dado e a face j no

segundo dado.

Exemplo 16 Se o experimento consiste em medir a vida útil de um carro, então

um possível espaço amostral consiste de todos os números reais não-negativos, isto

é, = [0; 1).

De…nição 2 Qualquer subconjunto A do espaço amostral , isto é A , ao qual

atribuímos uma probabilidade, é dito um evento aleatório.

Obviamente, como ; e os conjuntos ; e são eventos aleatórios. O

conjunto vazio ; é denominado evento impossível e o conjunto é denominado

evento certo. Se ! 2 o evento f!g é dito elementar (ou simples).

De…nição 3 Dois eventos A e B são ditos mutuamente exclusivos ou incom-

patíveis se A \ B = ;.

Observação 1 É importante saber traduzir a notação de conjuntos para a lin-

guagem de eventos: A [ B é o evento ”A ou B”; A \ B é o evento ”A e B” e

Ac é o evento ”não A”.

Observação 2 (Concepção Errônea) Um dos equívocos comumente observado é

o estabelecimento de uma relação um a um do experimento com o espaço amostral

associado. É preciso ter em mente que para todo experimento é possível estabelecer

73
uma in…nidade de espaços amostrais, todos legítimos, pois o espaço amostral deve

ser o conjunto que contém todos os resultados possíveis, mas não há necessidade

de que este seja minimal. Assim, se o experimento consiste em lançar um dado

e se observar a sua face superior, podemos ter 1 = f1; 2; 3; 4; 5; 6g, 2 = N e

3 = (0; 1) como espaços amostrais legítimos para esse experimento. Em todos


1
eles basta atribuir a probabilidade de 6
para os pontos 1; 2; 3; 4; 5 e 6 e probabilidade

nula para os demais pontos se houver. Claro que não há necessidade de se pecar por

excesso, se podemos reconhecer o espaço amostral mínimo, mas isso nem sempre é

possível, como o exemplo 16, que se presta a vários possíveis espaços amostrais e

nesse caso pecaremos por excesso e deixaremos a medida de probabilidade fazer o

trabalho de de…nir pontos (ou regiões) de maior e menor probabilidade.

É preciso lembrar também que toda escolha do espaço amostral induz uma medida

de probabilidade diferente. Por exemplo, se temos uma urna com três bolas brancas

e 2 bolas vermelhas e o experimento consiste em se retirar uma bola e registrar a sua

cor, então poderíamos ter os seguintes espaços amostrais, dentre outros possíveis:

1 = fb; vg e 2 = fb1 ; b2 ; b3 ; v1 ; v2 g. No primeiro espaço amostral, estaríamos con-

siderando as bolas pretas e vermelhas indistinguíveis entre si e assim o ponto b teria


3 2
5
de chance e o ponto v teria 5
de chance, ou seja, um espaço amostral de elemen-

tos não equiprováveis. No segundo espaço amostral, estaríamos considerando todas

as bolas como distinguíveis e, nesse caso, cada ponto tem a mesma probabilidade
1
5
, construindo assim um espaço amostral de elementos equiprováveis. Portanto, se

o evento for "retirar uma bola branca", então esse evento será dado por fbg pelo

espaço amostral 1, e fb1 ; b2 ; b3 g pelo espaço amostral 2. No entanto, ambos terão

a mesma chance de 35 .

74
3.1.1 De…nição e Propriedades das Probabilidades

Há várias interpretações da probabilidade. Discutiremos as três mais correntes:

(Clássica) Baseia-se no conceito de equiprobabilidade, ou seja, de resultados equiprováveis.

Seja A um evento e o espaço amostral …nito, então

#A
P (A) =
#

onde #A é a cardinalidade de A e # a cardinalidade de .

Vemos, portanto, que esta de…nição de probabilidade presupõe que todos os

elementos de são igualmente prováveis, ou seja, têm o mesmo peso. Este é o caso

por exemplo de um dado equilibrado.

Esta forma de de…nir a probabilidade é também conhecida pelo nome de probabil-

idade de Laplace, em homenagem ao astrônomo e matemático francês Pierre-Simon

Laplace, que estabeleceu, de uma maneira sistemática e rigorosa, os princípios e

propriedades desta forma de calcular probabilidades.

Exemplo 17 Sete pessoas entram juntas num elevador no andar térreo de um ed-

ifício de 10 andares. Suponha que os passageiros saiam independentemente e de

maneira aleatória com cada andar (1; 2; :::; 10) tendo a mesma probabilidade de ser

selecionado. Qual a probabilidade de que todos saiam em andares diferentes?

(Freqüentista) Baseia-se na freqüência relativa de um ”número grande” de realizações inde-

pendentes do experimento. Seja A um evento, então

nA
P (A) = lim
n!1 n

onde nA é o número de ocorrências do evento A em n realizações.

75
Observação 3 O limite acima não pode ser entendido como um limite matemático,

pois dado " > 0 não há garantia de que existe n0 2 N tal que para todo n n0 se

tenha
nA
P (A) < ".
n
nA
É improvável que P (A) " para n N (grande), mas pode acontecer.
n
Outra di…culdade do conceito freqüentista é que o experimento nunca é realizado

in…nitas vezes, logo não há como avaliar a probabilidade de forma estrita.

Exemplo 18 (Discussão em sala de aula) Suponha a seguinte situação: Você

está participando de um programa televisivo chamado "Porta da Felicidade", da

seguinte forma: O apresentador do programa lhe mostra três portas, uma das quais

esconde um carro como prêmio e as outras duas não oferecem nada e o colocam

fora do jogo. O que acontece? Você escolhe uma porta e o apresentador abre uma

outra porta vazia não escolhida por você. Assim, ainda há a chance de você ganhar

o carro. Mas agora lhe é oferecida a oportunidade de mudar de porta! O que você

deve fazer para maximizar a chance de acerto? Ficar com a mesma porta escolhida;

mudar para a outra porta; ou qualquer das duas estratégias, por ser indiferente?

Analise a estratégia ótima à luz do conceito frequentista de probabilidade.

(Subjetiva) Baseia-se em crenças e/ou informações do observador a respeito do fenômeno

em estudo. Neste caso a probabilidade de um evento depende do observador,

isto é, do que o observador conhece sobre o fenômeno em estudo. Pode pare-

cer um tanto informal para uma de…nição de probabilidade de um evento. No

entanto, em muitas situações é necessário recorrer a um especialista para ter

pelo menos uma ideia vaga de como se comporta o fenômeno de nosso inter-

esse e saber se a probabilidade de um evento é alta o baixa. Por exemplo,

76
qual é a probabilidade de que o Vasco ganhe o próximo campeonato? Cer-

tas circunstâncias internas do time, as condições do time rival ou qualquer

outra condição externa, são elementos que só algumas pessoas conhecem e que

poder¬am nos dar uma ideia mais exata desta probabilidade. Esta forma sub-

jetiva de atribuir probabilidades aos diferentes eventos deve, entretanto, ser

consistente com uma série de regras naturais que estudaremos adiante.

Exemplo 19 Por exemplo, seja o evento C ”chove em Moscou”.

Então, para alguém no Rio de Janeiro, sem qualquer conhecimento prévio, podemos

ter a seguinte avaliação: P (C) = 0; 5.

Já para alguém de Leningrado, podemos ter: P (C) = 0; 8, se chove em Leningrado

e P (C) = 0; 2, se não chove em Leningrado.

Finalmente, para alguém de Moscou, tem-se: P (C) = 1, se está chovendo em

Moscou e P (C) = 0, se não está chovendo em Moscou.

(Axiomática) Na de…nição axiomática da probabilidade não se estabelece a forma explícita

de calcular as probabilidades, mas unicamente as regras que o cálculo das

probabilidades deve satisfazer. Três postulados ou axiomas para a Teoria das

Probabilidades foram estabelecidos em 1933 pelo matemático russo Andrey

Nikolaevich Kolmogorov.

Não nos preocuparemos com o problema de como de…nir probabilidade para cada

experimento. Assentaremos a base axiomática da teoria das probabilidades tal como

foi erigida por Kolmogorov, responsável pela base matemática sólida da teoria.

Seja um espaço amostral e A um subconjunto de . Uma medida de proba-

bilidade P é uma aplicação de argumento A tendo os seguintes axiomas:

A1) P (A) 0.

77
A2) P ( ) = 1.

A3) (Aditividade …nita) Se A1 ; A2 ; :::; An são disjuntos dois a dois, isto é,


n X n
Ai \ Aj = ; para todo i 6= j, então P [ Ai = P (Ai ).
i=1
i=1

Uma função P satisfazendo os Axiomas 1, 2 e 3 é chamada probabilidade …ni-

tamente aditiva. Entretanto, no curso formal de Probabilidade você verá que,

para dar conta dos problemas reais de Probabilidade, será mais conveniente

supor -aditividade:

1 X
1
A3’) Se A1 ; A2 ; ::: são disjuntos dois a dois, então P [ Ai = P (Ai ).
i=1
i=1

Com base nos axiomas de probabilidade, pode-se demonstrar os seguintes teore-

mas:

Teorema 1 P (;) = 0.

Prova. (Em aula.)

Observação 4 (Concepção Errônea) Sabemos agora que se A = ; então P (A) =

0. No entanto, a recíproca não é verdadeira, isto é, P (A) = 0 não implica neces-

sariamente que A = ;! Um evento pode ter probabilidade nula e não ser impossível.

Da mesma forma, sabemos pelo Axioma 2 que se A = então P (A) = 1. No

entanto um evento pode ter probabilidade 1 e não ser o evento certo . É o que

chamamos em probabilidade de um evento quase-certo.

Vejamos o exemplo a seguir para ilustrar esses fatos.

Exemplo 20 Um experimento consiste em se selecionar um ponto aleatoriamente

do círculo de raio unitário centrado na origem. Então

= ! = (x; y) : x2 + y 2 1

78
Como todo ponto é aleatoriamente escolhido, a probabilidade de um ponto cair numa

região do círculo deveria ser a razão entre a área dessa região e a área do círculo

unitário. Assim, se A , temos

SA
P (A) = ,

com SA a área da região de…nida pelos pontos de A. Mas então, todo evento ele-

mentar desse espaço amostral tem probabilidade nula, pois se A = f(a; b)g, então

SA = 0, e consequentemente
0
P (A) = = 0.

No entanto A 6= ?. Além disso, observe que todo experimento terá como um resul-

tado um ponto do círculo unitário, que tinha probabilidade nula antes de ele ocorrer.

Portanto eventos de probabilidade 0 não são necessariamente eventos impossíveis!

Seja agora o evento B como sendo o conjunto de pontos do círculo unitário tais

que a abscissa é diferente da ordenada, isto é, B = f! = (x; y) : x2 + y 2 1 e x 6= yg.

Naturalmente B é subconjunto próprio de . Mas

SB
P (B) = = = 1,

pois SB (a área da região de…nida pelos pontos de B) equivale à área de . Assim

B é um evento quase-certo, pois embora possamos obter um ponto do tipo (a; a) que

não satisfaz ao evento B, a chance de isso ocorrer é nula.

Teorema 2 Para todo A , temos P (Ac ) = 1 P (A).

Prova. (Em aula.)

Teorema 3 Para todo A , temos 0 P (A) 1.

Prova. (Em aula.)

79
Teorema 4 Sejam A e B . Se A B, então

(a) P (B A) = P (B) P (A);

(b) P (A) P (B).

Prova. (Em aula.)

Teorema 5 Sejam A e B . Então P (A [ B) = P (A) + P (B) P (A \ B).

Prova. (Em aula.)

Teorema 6 Sejam A, B e C eventos aleatórios. Então P (A [ B [ C) = P (A) +

P (B) + P (C) P (A \ B) P (A \ C) P (B \ C) + P (A \ B \ C).

Prova. (Em aula.)

O que o teorema acima nos informa é que a probabilidade da união de três even-

tos é dado pela soma das probabilidades da ocorrência individual deles, retirada da

soma das probabilidades de ocorrerem dois a dois e somada com a chance de eles

ocorrerem concomitantemente. O resultado acima, conhecido como o Princípio da

Inclusão e Exclusão da Probabilidade, pode ser generalizado para n eventos. As-

sim, a probabilidade da união de n eventos será dada pela soma das probabilidades

individuais, menos a soma das probabilidades dois a dois, mais a soma das probabili-

dades dos eventos tomados três a três, menos a soma das probabilidades dos eventos

tomados quatro a quatro, e assim por diante. Assim, quando temos um número par

de eventos a fórmula termina com uma diferença; se o número de eventos é ímpar,

a fórmula termina com uma soma. Em outras palavras, sejam A1 ; A2 ; :::; An .

Então

n X
n X X
P [ Ai = P (Ai ) P (Ai \ Aj ) + P (Ai \ Aj \ Ak )
i=1
i=1 i<j i<j<k
X
P (Ai \ Aj \ Ak \ Al ) + ::: + ( 1)n+1 P (A1 \ A2 \ ::: \ An )
i<j<k<l

80
Observação 5 (Paradoxo de Bertrand) O Paradoxo de Bertrand nos mostra

que não existe um único modelo de Probabilidade para um dado experimento, se

a gênese do fenômeno não é conhecida. Vejamos o paradoxo:

Seja um triângulo equilátero inscrito num círculo unitário. Uma corda do círculo

é selecionada aleatoriamente. Qual a probabilidade de que a corda seja maior que o

lado do triângulo?

Modelo 1: A corda é obtida através da seleção aleatória de dois pontos da

circunferência. Então p = 31 .

Modelo 2: Um ponto é escolhido aleatoriamente sobre um diâmetro do círculo.

A corda é obtida pela perpendicular ao diâmetro que passa pelo ponto. Então p = 21 .

Modelo 3: Um ponto é escolhido aleatoriamente do círculo. A corda é con-

struída tendo o ponto selecionado como seu ponto médio. Então p = 41 .

81
Vejamos os seguintes exemplos para aplicação dos resultados obtidos.

Exemplo 21 Suponha que dois dados sejam lançados. Qual a probabilidade de que

a soma dos números seja par?

Exercício 31 5 bolas brancas e 3 bolas vermelhas são retiradas aleatoriamente de

uma urna. Qual a probabilidade de que a primeira e a última bolas sejam brancas?

Qual a probabilidade de que a primeira e a última bolas tenham cores diferentes?

Exemplo 22 Um ponto é selecionado do círculo unitário. Qual a probabilidade de

se selecionar um ponto no setor angular de 0 a radianos?


4

Exemplo 23 Sete pessoas entram juntas num elevador no andar térreo de um ed-

ifício de 10 andares. Suponha que os passageiros saiam independentemente e de

maneira aleatória com cada andar (1; 2; :::; 10) tendo a mesma probabilidade de ser

selecionado. Qual a probabilidade de que todos saiam em andares diferentes?

Exemplo 24 Numa sala há n alunos (n 365). Qual a probabilidade de haver dois

ou mais alunos com a mesma data de aniversário (dia e mês idênticos)?

Exemplo 25 Em uma sala, 10 pessoas estão usando emblemas numerados de 1 a

10. Três pessoas são escolhidas ao acaso e convidadas a se retirarem simultanea-

mente. Os números dos emblemas são registrados. Pergunta-se:

(a) Qual a probabilidade de que o menor número seja 5?

(b) Qual a probabilidade de que o maior número seja 5?

Exemplo 26 Da população canadense 30% são da província de Quebec, 28% falam

francês e 24% são de Quebec e falam francês. Escolhido ao acaso um canadense,

qual a probabilidade de:

82
(a) ser de Quebec ou falar francês?

(b) não ser de Quebec nem falar francês?

(c) falar francês mas não ser de Quebec?

Exemplo 27 Se quatro dados são lançados, qual a probabilidade de que os quatro

números sejam diferentes?

Exemplo 28 Qual a probabilidade de se ganhar a sena com um único cartão e

jogando apenas 6 números? E a quina? E a quadra?

Exemplo 29 Uma caixa contém 2n sorvetes, n do sabor A e n do sabor B. De um

grupo de 2n pessoas, a < n preferem o sabor A, b < n o sabor B e 2n (a + b) não

têm preferência. Se os sorvetes são distribuídos ao acaso, qual a probabilidade de

que a preferência de todas as pessoas seja respeitada?

Exemplo 30 Se P (E) = 0; 9 e P (F ) = 0; 8, mostre que P (E \ F ) 0; 7. Em geral

mostre que

P (E \ F ) P (E) + P (F ) 1.

Este resultado é conhecido como a desigualdade de Bonferroni.

Exemplo 31 Suponha que n homens presentes numa festa joguem seus chapéus no

centro da sala. Em seguida cada homem de olhos vendados seleciona um chapéu.

Mostre que a probabilidade de que nenhum dos n homens selecione o seu próprio

chapéu é
1 1 1 ( 1)n
+ ::: + .
2! 3! 4! n!

O que acontece quando n ! 1?

Exemplo 32 Um baralho tem 52 cartas. Estas cartas consistem de 4 naipes chama-

dos paus, ouros, copas e espadas. Cada naipe tem 13 cartas com os símbolos 2, 3, 4,

83
..., 10, J, Q, K, A. Uma mão de pôquer consiste de 5 cartas extraídas do baralho, sem

reposição e sem consideração de ordem. Considera-se que constituem seqüências as

mãos do seguinte tipo: A, 2, 3, 4, 5; 2, 3, 4, 5, 6;...; 10, J, Q, K, A. Determine a

probabilidade de se extrair:

(a) um Royal Flush ((10, J, Q, K, A) do mesmo naipe).

(b) um Straight Flush (cinco cartas do mesmo naipe em seqüência).

(c) um Four (valores da forma (x, x, x, x, y) onde x e y são distintos).

(d) um Full House (valores da forma (x, x, x, y, y) onde x e y são distintos).

(e) um Flush (cinco cartas do mesmo naipe).

(f) um Straight (cinco cartas em seqüência, sem consideração de naipes).

(g) uma Trinca (valores da forma (x, x, x, y, z) onde x, y e z são distintos).

(h) Dois pares (valores da forma (x, x, y, y, z) onde x, y e z são distintos).

(i) um par (valores da forma (x, x, y, z, w) onde x, y, z e w são distintos).

3.1.2 Probabilidade Condicional

De…nição 4 Seja um espaço amostral. Se B e P (B) > 0, a probabilidade

condicional de A dado B é de…nida por

P (A \ B)
P (A j B) = , A . (3.1)
P (B)

Note que P (A j B), A , é realmente uma probabilidade (veri…que os ax-

iomas!). Conseqüentemente as propriedades de probabilidade são mantidas, por

exemplo,

P (Ac j B) = 1 P (A j B).

Exemplo 33 Certo experimento consiste em lançar um dado equilibrado duas vezes,

independentemente. Dado que os dois números sejam diferentes, qual é a probabili-

dade condicional de

84
(a) pelo menos um dos números ser 6;

(b) a soma dos números ser 8?

Teorema 7 Sejam A; B com P (A) > 0 e P (B) > 0. Então

P (A \ B) = P (B):P (A j B)

= P (A):P (B j A)

Prova. (Em aula.)

Teorema 8 (a) P (A \ B \ C) = P (A):P (B j A):P (C j A \ B).

(b) P (A1 \ A2 \ ::: \ An ) = P (A1 ):P (A2 j A1 ):P (A3 j A1 \ A2 ):::P (An j A1 \

A2 \ :::An 1 ), para todo A1 ; A2 ; :::; An e para todo n = 2; 3; :::.

Prova. (Em aula.)

Exemplo 34 Selecionar três cartas sem reposição ao acaso. Qual a probabilidade

de se retirar 3 reis. (Use o teorema acima para resolver o problema e compare com

o uso da análise combinatória.)

De…nição 5 Seja um conjunto não-vazio. Uma partição de é uma família de

conjuntos A1 , A2 , ..., An tais que


n
(i) [ Ai =
i=1

(ii) Ai \ Aj = ;, para todo i 6= j.

Ou seja, os conjuntos A1 , A2 , ..., An são disjuntos dois a dois e a sua união é

o conjunto . Dizemos também que foi particionado pelos conjuntos A1 , A2 , ...,

An .

Para todo evento B temos

n
B = [ (Ai \ B) .
i=1

85
Como os Ai são disjuntos, então os Ci = Ai \B são disjuntos. Com isto podemos

demonstrar os seguintes teoremas:

Teorema 9 (Teorema da Probabilidade Total) Se a seqüência (…nita ou enu-

merável) de eventos aleatórios A1 , A2 , ...formar uma partição de , então

X
P (B) = P (Ai ):P (B j Ai ) (3.2)
i

para todo B .

Prova. (Em aula.)

Teorema 10 (Fórmula de Bayes) Se a seqüência (…nita ou enumerável) de even-

tos aleatórios A1 , A2 , ... formar uma partição de , então

P (Ai )P (B j Ai )
P (Ai j B) = X . (3.3)
P (Aj ):P (B j Aj )
j

Prova. (Em aula.)

Exemplo 35 Seja uma caixa contendo 3 moedas: duas honestas e uma de duas

caras. Retirar uma moeda ao acaso e jogá-la. Qual a probabilidade condicional da

moeda ter sido a de duas caras, dado que o resultado …nal foi cara?

Exemplo 36 Durante o mês de novembro a probabilidade de chuva é de 0,3. O

Fluminense ganha um jogo em um dia com chuva com probabilidade de 0,4; e em

um dia sem chuva com a probabilidade de 0,6. Se ganhou um jogo em novembro,

qual a probabilidade de que choveu nesse dia?

Exemplo 37 Pedro quer enviar uma carta à Marina. A probabilidade de que Pedro

escreva a carta é de 0,80. A probabilidade de que o correio não a perca é de 0,9. A

probabilidade de que o carteiro a entregue é de 0,9. Dado que Marina não recebeu a

carta, qual é a probabilidade de que Pedro não a tenha escrito?

86
Exemplo 38 Uma moeda é lançada. Se ocorre cara, um dado é lançado e o seu

resultado é registrado. Se ocorre coroa, dois dados são lançados e a soma dos pontos

é registrada. Qual a probabilidade de ser registrado o número 2?

Exemplo 39 Suponha que temos 4 cofres, cada um com dois compartimentos. Os

cofres 1 e 2 têm um anel de brilhante num compartimento e um anel de esmeralda

no outro. O cofre 3 têm dois anéis de brilhante em seus compartimentos, e o cofre

4 têm dois anéis de esmeralda. Escolhe-se um cofre ao acaso, abre-se um dos com-

partimentos ao acaso e encontra-se um anel de brilhantes. Calcule a probabilidade

de que o outro compartimento contenha:

(a) um anel de esmeralda;

(b) um anel de brilhantes.

Exemplo 40 Um estudante se submete a um exame de múltipla escolha no qual

cada questão tem cinco respostas possíveis, das quais exatamente uma é correta. O

estudante seleciona a resposta correta se ele sabe a resposta. Caso contrário, ele

seleciona ao acaso uma resposta dentre as 5 possíveis. Suponha que o estudante

saiba 70% das questões. Pergunta-se:

(a) Qual a probabilidade de que o estudante escolha a resposta correta para uma

dada questão?

(b) Se o estudante escolhe a resposta correta para uma dada questão, qual a

probabilidade de que ele sabia a resposta?

3.1.3 Independência

De…nição 6 Seja um espaço amostral. Os eventos aleatórioa A e B são (esto-

casticamente) independentes se

P (A \ B) = P (A):P (B).

87
Observação 6 Eventos de probabilidade 0 ou 1 são independentes de qualquer outro.

Observação 7 (Concepção Errônea) Um erro muito comum entre os alunos é

associar independência com disjunção de eventos, interpretando erroneamente que

se A e B são independentes, então A \ B = ?. É justamente o contrário que se dá,

ou seja, se A \ B = ?, então A e B não são independentes (a menos que um deles

ao menos tenha probabilidade zero). Isso …ca claro se pensarmos que P (A) = p > 0

e P (B) = q > 0 com A \ B = ?. Assim, neste caso, teremos

P (A \ B) P (?) 0
P (A j B) = = = = 0 6= p = P (A) .
P (B) P (B) q

Assim P (A j B) 6= P (A), o que prova que A e B não são independentes!

Outra maneira de justi…car esse fato é pensar que se A e B não têm nada em

comum, então se um deles ocorre a probabilidade de o outro ocorrer é inevitavelmente

nula, o que reduz uma chance inicial desse outro evento ocorrer a zero. Ou seja,

para que dois conjuntos sejam independentes eles necessitam potencialmente ter algo

em comum, do contrário serão dependentes.

Outro problema de má interpretação do conceito de independência de eventos

com a disjunção decorre de uma má caracterização do espaço amostral como no

exemplo a seguir.

Exemplo 41 Um dado e uma moeda honestos são lançados sucessivamente e seus

resultados são registrados. Qual a probabilidade de se obter um número primo e uma

face cara?

Teorema 11 A é independente de si mesmo se e somente se P (A) = 0 ou 1.

Prova. (Em aula.)

Teorema 12 Se A e B são independentes, então A e B c também são independentes

(e também Ac e B, e ainda Ac e B c ).

88
Prova. (Em aula.)

De…nição 7 Os eventos aleatórios Ai , i 2 I (I um conjunto de índices), são inde-

pendentes dois a dois (ou a pares) se

P (Ai \ Aj ) = P (Ai ):P (Aj )

para todo i; j 2 I, i 6= j.

De…nição 8 (a) Os eventos aleatórios A1 ; :::; An (n 2) são chamados (coletiva

ou estocasticamente) independentes se

P (Ai1 \ Ai2 \ ::: \ Aim ) = P (Ai1 ):P (Ai2 ):::P (Aim )

para todo 1 i1 < i2 < ::: < im n, para todo m = 2; 3; :::; n (isto é, se todas as

combinações satisfazem a regra produto).

(b) Os eventos aleatórios A1 ; A2 ; ::: independentes se para todo n 2, A1 ; :::; An

são independentes.

Observação 8 Independência a pares não implica independência coletiva. Con-

forme o exercício a seguir.

Exemplo 42 Seja = fw1 ; w2 ; w3 ; w4 g e suponha P (fwg) = 1=4 para todo w 2 .

Sejam os eventos A = fw1 ; w4 g, B = fw2 ; w4 g e C = fw3 ; w4 g. Veri…que que A, B

e C são independentes dois a dois, mas

P (A \ B \ C) 6= P (A):P (B):P (C).

Exercício 32 Suponha que dois jogadores A e B se alternam num jorgo de dardo.

Se os jogadores A e B têm, respectivamente, 60% e 80% de chance de acertar o alvo

e se as jogadas são independentes umas das outras, qual a probabilidade de A ganhar

o jogo se ele começa o jogo? E qual a probabilidade de B ganhar nestas condições?

89
3.2 Lista de Exercícios

Exercício 33 Suponha que A, B e C sejam eventos tais que A e B sejam indepen-

dentes e que P (A \ B \ C) = 0; 04, P (C j A \ B) = 0; 25, P (B) = 4P (A). Calcule

P (A [ B). Resp.: 84%.

Exercício 34 Um médico a partir da observação de sintomas supõe com 55% de

probabilidade que seu paciente esteja com o vírus HIV. Para con…rmar, pede-lhe

que faça um exame que dá positivo em 70% das vezes que o paciente de fato tem a

doença e dá negativo em 65% das vezes que o paciente não tem de fato a doença.

Pergunta-se: Dado que o teste foi positivo, qual a probabilidade de que o paciente

tenha o vírus HIV? Resp.: 70; 97%

Exercício 35 Suponha que uma caixa contenha 5 moedas e que cada moeda tenha

uma probabilidade diferente de dar cara. Seja pi a probabilidade de sair cara, quando

a i-ésima moeda é lançada, e que p1 = 0, p2 = 1=4, p3 = 1=2, p4 = 3=4, p5 = 1.

Suponha, …nalmente, que uma moeda é selecionada aleatoriamente da caixa e que,

ao ser lançada, dá cara. Com base nesta informação, calcule:

(a) A probabilidade de que se tenha selecionado a moeda 5. Resp.: 2=5.

(b) A probabilidade de se obter outra cara ao lançar a mesma moeda novamente.

Resp.: 3=4.

Exercício 36 Dois dados são lançados. Seja A1 = fface ímpar no primeiro dadog,

A2 = fface ímpar no segundo dadog e A3 = fa soma da faces é ímparg. Esses even-

tos são independentes dois a dois? Eles são conjuntamente independentes? Resp.:

Sim; Não.

Exercício 37 Uma moeda honesta é lançada até que uma cara ocorra ou então até

90
que três lançamentos sejam feitos. Qual a probabilidade de que a moeda deva ser

jogada 3 vezes se se sabe que o primeiro lançamento foi coroa? Resp.: 1=2.

Exercício 38 Prove que se A e B são eventos tais que P (A) > 0, P (B) > 0 e

P (AjB) > P (A), então P (BjA) > P (B).

Exercício 39 Se A e B são eventos independentes tais que P (A) = 1=3 e P (B) =

1=2, calcule P (A [ B), P (Ac [ B c ) e P (Ac \ B). Resp.: 2=3, 5=6 e 1=3.

Exercício 40 A probabilidade de um homem ser canhoto é 1=10. Qual é a prob-

abilidade de, em um grupo de 10 homens, haver pelo menos um canhoto? Resp.:

aproximadamente 0; 65.

Exercício 41 Sacam-se, sucessivamente e sem reposição, duas cartas de um baralho

comum (52 cartas). Calcule a probabilidade de a primeira carta ser uma dama e a

segunda ser de copas. Resp.: 1=52.

Exercício 42 Quantas pessoas você deve intrevistar para ter probabilidade igual ou

superior a 0; 5 de encontrar pelo menos uma que aniversarie hoje? Resp.: 253

Exercício 43 Quantas vezes, no mínimo, se deve lançar um dado não tendencioso

para que a probabilidade de obter algum 6 seja superior a 0; 9? Resp.: 13.

Exercício 44 Um dia você captura 10 peixes em um lago, marca-os e coloca-os de

novo no lago. Dois dias após, você captura 20 peixes no mesmo lago e constata que

dois desses peixes haviam sido marcados por você. Se o lago possui k peixes, qual

era a probabilidade de, capturando 20 peixes, encontrar dois peixes marcados? Resp.:
1
10 k 10 k
.
2 18 20

91
Exercício 45 Qual a probabilidade de, em um grupo de 4 pessoas:

(a) haver alguma coincidência de signos zodiacais? Resp.: 41=96.

(b) as quatro terem o mesmo signo? Resp.: 1=1728.

(c) duas terem um mesmo signo, e as outras duas outro signo? Resp.: 11=576.

(d) três terem um mesmo signo, e a outra outro signo? Resp.: 11=432.

(e) todas terem signos diferentes? Resp.: 55=96.Variáveis Aleatórias

3.3 Conceito

Informalmente, uma variável aleatória é um característico numérico do resultado de

um experimento. Por exemplo:

Exemplo 43 Seja o lançamento de duas moedas e a observação do número de caras

obtido. Então = f(Ca; Ca); (Ca; Co); (Co; Ca); (Co; Co)g. Se de…nirmos X =

número de caras observadas, e ! 1 = (Ca; Ca), ! 2 = (Ca; Co), ! 3 = (Co; Ca),

! 4 = (Co; Co), temos

X(! 1 ) = 2;

X(! 2 ) = X(! 3 ) = 1;

X(! 4 ) = 0.

Exemplo 44 Escolher ao acaso um ponto em [0; 1]. Seja X o quadrado do ponto

obtido. Então = [0; 1] e

X(!) = ! 2 .

Exemplo 45 Escolher ao acaso um ponto no círculo unitário. Seja X a distância

entre o ponto escolhido e a origem. Então = f(x; y) : x2 + y 2 1g e, com

! = (x; y), temos


p
X(!) = x2 + y 2 .

92
Exemplo 46 Joga-se um dado e observa-se a face superior. Então = f1; 2; 3; 4; 5; 6g

X(!) = !.

Entretanto, nem toda função de em R traduz uma variável aleatória.

De…nição 9 Uma variável aleatória X em um espaço de probabilidade ( ; A; P ) é

uma função real de…nida no espaço tal que o conjunto [! 2 : X(!) x] (daqui

para frente escrito de forma simpli…cada [X x]) é evento aleatório para todo x 2 R;

isto é,

X: !R

é uma variável aleatória se [X x] 2 A para todo x 2 R.

Exemplo 47 Sejam = f1; 2; 3; 4g e A = f;; f1; 2g; f3; 4g; g e considere os con-

juntos A = f1; 2g e B = f1; 3g. Então 1A é variável aleatória em ( ; A), mas 1B

não é.

3.4 Função de Distribuição

De…nição 10 A função de distribuição (acumulada) da variável aleatória X,

representada por FX , ou simplesmente por F quando não houver confusão, é de…nida

por

FX (x) = P (X x), x 2 R. (3.4)

Exemplo 48 Duas moedas honestas são lançadas. Seja a variável X que conta o

número de caras observadas. Construa a função de distribuição da variável aleatória

X e represente-a gra…camente.

93
Exemplo 49 Seja um experimento que consiste em selecionar um ponto no círculo

unitário. Seja X a distância entre o ponto escolhido e a origem. Construa a função

de distribuição da variável aleatória X e represente-a gra…camente.

Proposição 1 Propriedades da Função de Distribuição. Se X é uma variável

aleatória, sua função de distribuição F tem as seguintes propriedades:

F1) Se x1 x2 então F (x1 ) F (x2 ); isto é, F é não-decrescente.

F2) Se xn # y, então F (xn ) # F (y); isto é, F é contínua à direita.

F3) limx! 1 F (x) = 0 e limx!+1 F (x) = 1.

Prova. (Em aula)

Tendo em mente que FX (x) = P (X x), podemos observar que

1. P (X > a) = 1 P (X a) = 1 FX (a)

2. P (a < X b) = P (X b) P (X a) = P (X b) P (X a) =

FX (b) FX (a)

3. P (X = a) = P (X a) P (X < a) = FX (a) FX (a ). Ou seja, P (X = a)

é o tamanho do salto da função de distribuição em x = a. Se a função for

contínua no ponto x = a então P (X = a) = 0.

4. P (a < X < b) = P (a < X b) P (X = b)

= P (X b) P (X a) P (X = b) = FX (b) FX (a) [FX (b) FX (b )]

= FX (b ) FX (a).

5. P (a X < b) = P (a < X < b) + P (X = a)

= FX (b ) FX (a) + [FX (a) FX (a )] = FX (b ) FX (a ).

94
6. P (a X b) = P (a < X b) + P (X = a)

= FX (b) FX (a) + [FX (a) FX (a )] = FX (b) FX (a ).

Exemplo 50 Um dado tendencioso é tal que a probabilidade de um ponto é propor-

cional ao próprio ponto. Seja X a variável aleatória que representa a parte inteira

da raiz quadrada do dobro da face obtida. Pede-se:

(a) O espaço de probabilidade ( ; A; P ) e o espaço de probabilidade induzido pela

variável aleatória X.

(b) A função de distribuição da variável aleatória X, esboçando o seu grá…co.

Exemplo 51 Um ponto é selecionado aleatoriamente do intervalo (0; 1). Seja X a

variável aleatória de…nida como X(!) = ln !, com ! o ponto obtido no experi-

mento. Pede-se:

(a) O espaço de probabilidade ( ; A; P ) e o espaço de probabilidade induzido pela

variável aleatória X.

(b) A função de distribuição da variável aleatória X, esboçando o seu grá…co.

3.5 Variáveis Aleatórias Discretas

De…nição 11 A variável aleatória X é discreta se toma um número …nito ou enu-

merável de valores, isto é, se existe um conjunto …nito ou enumerável fx1 ; x2 ; :::g

R tal que X(!) 2 fx1 ; x2 ; :::g para todo ! 2 . A função p(xi ) de…nida por

p(xi ) = P (X = xi ), i = 1; 2; 3; ::: (3.5)

é chamada função de probabilidade de X.

[
Observação 9 Note que [X x] = [X = xi ] e assim
i:xi x
X X
F (x) = P (X = xi ) = p(xi ).
i:xi x i:xi x

95
Além disso, observe que

p(xi ) 0, i = 1; 2; 3; ::: (3.6)

e
X
1
p(xi ) = 1. (3.7)
i=1

Exemplo 52 A probabilidade de um indivíduo acertar um alvo é 2/3. Ele deve

atirar até atingir o alvo pela primeira vez. Seja X a variável aleatória que representa

o número de tentativas até que ele acerte o alvo. Pede-se:

(a) A função de probabilidade de X, mostrando que ela atende as propriedades

(3.6) e (3.7).

(b) A probabilidade de serem necessários cinco tiros para que ele acerte o alvo.

Exemplo 53 Seja X o número de caras obtidas em 4 lançamentos de uma moeda

honesta. Construa a função de probabilidade e a função de distribuição de X es-

boçando os seus grá…cos.

3.6 Variáveis Aleatórias Contínuas

De…nição 12 A variável aleatória X é (absolutamente) contínua se sua função de

distribuição FX (x) é contínua. Isto é, se existe uma função fX (x), dita função de

densidade de probabilidade, com as seguintes propriedades

fX (x) 0 para todo x 2 R e


Z1
fX (x)dx = 1
1

de modo que
Zx
FX (x) = fX (t)dt.
1

96
Observação 10 Pelo Teorema Fundamental do Cálculo, observe que

dFX (x)
fX (x) = .
dx

Observação 11 Como FX (x) é contínua, observe que

1. P (X = x) = FX (x) FX (x ) = 0 para todo x 2 R.

2. P (a X b) = P (a < X b) = P (a X < b) = P (a < X < b) =


Zb
fX (x)dx.
a

3. dFX (x) = fX (x)dx.

Exemplo 54 Veri…que que


8
>
> 0, z < 0
< 2
z , 0 z < 12
FZ (z) = 1
>
> 1 3(1 z)2 , 2
z<1
:
1, z 1

é uma função de distribuição e obtenha a função de densidade de Z. Calcule também

P (Z > 41 jZ 3
4
).

Exemplo 55 Veri…que que


8
< 0, y < 0
p
FY (y) = y, 0 y 1
:
1, y > 1
é uma função de distribuição e calcule a função de densidade de Y. Use-a para

calcular P ( 14 < Y < 34 ).

De…nição 13 Uma variável aleatória é dita singular, se sua função de distribuição

é contínua, mas sua derivada é zero em quase todos os pontos, isto é, exceto em um

conjunto de medida de Lebesgue nula. (Essa linguagem mencionando "quase todos

os pontos"é muito utilizada em probabilidade avançada e signi…ca que a propriedade

só não é válida num conjunto de pontos que tem probabilidade zero, às vezes também

97
referido como de medida nula.) Em outras palavras, X é singular se, e somente se,

existe um conjunto B de comprimento zero tal que P (X 2 B) = 1 e FX é contínua

(isto é, P (X = x) = 0 para todo x 2 R).

De…nição 14 Uma variável aleatória X é dita mista se tem partes nas diferentes

classi…cações (parte discreta, parte contínua e parte singular). (O mais comum é a

mistura de parte contínua com parte discreta, pois, como dissemos, a parte singular

raramente ocorre.)

Exemplo 56 (Exemplo de Variável Aleatória Mista: Discreta e Contínua ao mesmo

tempo) A função de distribuição de uma variável aleatória X é dada por:


8
>
> 0, x < 0
>
>
< x2 , 0 x < 1
2
FX (x) = 3
, 1 x<2
>
> 11
>
> , 2 x<3
: 12
1, x 3

Obtenha:

(a) o grá…co de FX (x);

(b) P (X < 3);

(c) P (X = 1);

(d) P (X > 1=2);

(e) P (2 < X < 4).

Observação 12 Assim toda função de distribuição F de uma variável aleatória X

admite a decomposição

F = 1 Fd + 2 Fac + 3 Fs

onde Fd é a função de distribuição da parte discreta de X, Fac é a função de dis-

tribuição da parte absolutamente contínua de X, Fs é função de distribuição da parte

singular de X, e 1 + 2 + 3 = 1 com 1 0, 2 0e 3 0.

98
Exemplo 57 Seja X uma variável com função de distribuição
8
< 0, x < 2
1
FX (x) = + x+2 , 2 x<0
: 34 1 8 x
4
+ 4 (1 e ), x 0

(a) Classi…que a variável aleatória X e esboce um grá…co de FX .

(b) Calcule P (X > 1) e P (X 4jX > 0).

(c) Decomponha F nas partes discreta, absolutamente contínua e singular.

3.7 Funções de Variáveis Aleatórias

Seja X uma variável aleatória em ( ; A; P ), e considere o problema de determinar

a distribuição de Y = g(X), com g uma função mensurável. Então, temos

FY (y) = P fY yg = P fg(X) yg

De…nindo By = fx : g(x) yg, temos

FY (y) = P fX 2 By g

= PX fBy g

ou seja, conhecendo a distribuição de X, podemos obter a distribuição de qualquer

função mensurável de X.

Observação 13 (a) Quando X é discreta, Y é também discreta e o problema torna-

se simples, pois
X
pY (y) = pX (xi )
i:g(xi )=y

(b) Quando X é contínua, o problema é mais complexo pois Y pode ser discreta,

contínua ou mista. A ideia aqui é essencialmente obter a função de distribuição da

variável aleatória Y e decompô-la nas suas partes discreta e contínua.

99
Exemplo 58 Seja uma variável aleatória discreta, com função de probabilidade
jp k
x
dada por P (X = x) = 12 para x = 1; 2; 3; ::: Seja Y = X , a parte inteira
p
de X. Qual a função de probabilidade da variável aleatória Y?

Exemplo 59 Seja X uma variável aleatória contínua com função de densidade dada

por
( 1
, 2 x 5
fX (x) = 7
0, caso contrário
Encontre a densidade de Y = X 2 .

Exemplo 60 Seja X uma variável contínua com densidade


8
>
> 1
< 4 x, 0 x < 2
>
fX (x) = 1
>
> , 2 x 6
> 8
: 0, caso contrário

(a) Determine a função de distribuição de Y = min(3; X).

(b) Faça a decomposição de FY nas suas partes discreta, contínua e singular.

3.8 Lista de Exercícios

Exercício 46 Mostre que se X é uma v.a. do tipo contínuo com função de densi-

dade par, ou seja, simétrica em torno de x = 0, isto é, fX (x) = fX ( x), então:

(a) FX (x) = 1 FX ( x);

(b) FX (0) = 12 ;

(c) P ( x < X < x) = 2FX (x) 1, x > 0;


Zx
1
(d) P (X > x) = 2 fX (t)dt, x > 0.
0

Exercício 47 Seja F (x) a função


8
< 0, se x < 0
F (x) = x + 21 , se 0 x 1
2
:
1, se x > 12

100
Mostre que F é de fato uma função de distribuição e calcule:

(a) P (X > 81 )

(b) P ( 18 < X < 25 )


2
(c) P (X < 5
j X > 18 )

Exercício 48 Suponha que X seja uma variável aleatória com f.d.p. dada por

1
fX (x) = , 1<x<1
2(1 + jxj)2

(a) Obtenha a função de distribuição de X.

(b) Ache P ( 1 < X < 2).

(c) Ache P (jXj > 1).

Exercício 49 Z é uma variável aleatória contínua com função de densidade de

probabilidade
10e 10z , z > 0
fZ (z) =
0, z 0

Obtenha a função de distribuição de Z e esboce o seu grá…co.

Exercício 50 Seja X uma variável contínua com densidade fX (x) = 21 e jxj


, 1<

x < 1. Mostre que a densidade de Y = X 2 é dada por

1 p
y
fY (y) = p e 1(0;1) (y).
2 y

Exercício 51 Seja X uma variável aleatória com função de distribuição


8
>
> 0, se x < 0
>
>
>
>
>
> 1 1
>
>
< 4 + 8 x(x + 2), se 0 x < 1
>
FX (x) =
>
> 3
>
> , se 1 x < 34
>
>
>
> 4
>
>
>
: 1, se x 4
3

Pede-se:

101
(a) Classi…car a v.a. X, segundo o critério discreto, contínuo ou misto, justi…-

cando.

(b) Obter a função de probabilidade e/ou a função de densidade da v.a. X.

Exercício 52 Seja FX a função de distribuição de uma variável aleatória X, de…nida

por
x
FX (x) = C1 + C2 para 1<x<1
(jxj + 1)

Pede-se:

(a) O valor das constantes C1 e C2 .

(b) A função de densidade de probabilidade de X.

(c) P (X 1j X > 1).

Exercício 53 Seja X uma variável aleatória positiva com f.d.p. dada por

3x
fX (x) = 3e ; x>0

1
Obtenha o modelo de probabilidade da variável aleatória Y = .
X +1

Exercício 54 Suponha que a variável aleatória absolutamente contínua X tenha a

f.d.p.
x2
f (x) = Cxe , x 0

(a) Calcule o valor de C.

(b) Ache a função de distribuição da variável aleatória X.

(c) Calcule P (X 2jX 1).

Exercício 55 Um ponto K é selecionado aleatoriamente no intervalo (0; 5). Qual

a probabilidade de que as raízes da equação 4x2 + 4Kx + K + 2 = 0 sejam reais?

102
c
Exercício 56 Suponha que a variável X tenha densidade f (x) = para x > 1 e
x4
f (x) = 0, caso contrário, onde c é uma constante. Pede-se:

(a) o valor de c;

(b) a função de distribuição de X e o seu esboço grá…co;

(c) calcule P (X 5jX > 2);

(d) um modelo de probabilidade para a variável aleatória Y = bXc, a parte inteira

da variável aleatória X;

(e) um modelo de probabilidade para a variável aleatória Z = 2X + 8.

Exercício 57 Seja X uma v.a. com função de distribuição dada por


8
< 0, se x < 1
FX (x) = c(1 e (x 1) ), se 1 x < 2
:
c(1 e 1 + e 2 e 2(x 1) ), se x 2

Pede-se:

(a) Obter o valor de c.

(b) Classi…que a v.a. X conforme seja discreta, contínua ou mista e obtenha

a função de probabilidade e/ou função de densidade de probabilidade conforme a

natureza de X.
3
(c) Calcular P (X 2
jX < 4).

(d) Seja Y = X 3 . Ache a lei de Y .

Exercício 58 Seja X variável aleatória com função de distribuição dada por


8
>
> 0, se x < 0
>
>
>
> 1=4, se 0 x < 1
<
2=5, se 1 x < 2
FX (x) =
>
> 1=2, se 2 x < 3
>
>
>
> (2x 5)=2, se 3 x < 3; 5
:
1, se x 3; 5

Pede-se:

(a) Veri…que que F é de fato uma função de distribuição.

103
(b) Classi…que a v.a. X conforme seja discreta, contínua ou mista e obtenha

a função de probabilidade e/ou função de densidade de probabilidade conforme a

natureza de X e decomponha a F nas suas partes discreta, absolutamente contínua

e singular.

(c) Calcular P (29X 6X 2 30).

Exercício 59 Um vendedor de equipamento pesado pode visitar, num dia, um ou


1 2
dois clientes, com probabilidade dee , respectivamente. De cada contrato, pode
3 3
1
resultar a venda de um equipamento por R$ 50:000; 00 (com probabilidade ) ou
10
9
nenhuma venda (com probabilidade ). Indicando a variável aleatória Y como o
10
valor total de vendas diárias desse vendedor, pede-se:

(a) A função de probabilidade de Y .

(b) A função de distribuição de Y .

Exercício 60 Considere a variável aleatória X com função de densidade de prob-

abilidade dada por


c jx 2j , 0 x 4
f (x) =
0, caso contrário

(a) Obtenha o valor de c.

(b) Obtenha a função de distribuição de probabilidade da variável aleatória X.

(c) Obtenha o modelo de probabilidade a variável aleatória Y, de…nida como

2X, se 0 X 2
Y =
2X + 8, se 2 < X 4

104
Capítulo 4

Esperança Matemática

4.1 De…nição

De…nição 15 Seja X uma variável aleatória com função de distribuição FX . A

esperança de X, denotada E(X), é de…nida como


Z1
E(X) = xdFX (x) (4.1)
1

quando a integral está bem de…nida.

Observação 14 (a) '(x) = x é contínua. A integral (4.1) é de Riemann-Stieltjes.


Z1
(b) A esperança está bem de…nida se pelo menos uma das integrais xdFX (x)
0
Z0
ou xdFX (x) for …nita.
1
Z1 Z0
(c) Se ambas as integrais xdFX (x) e xdFX (x) forem …nitas, dizemos que X
0 1
é integrável, ou seja, X é integrável se
Z1
E(jXj) = jxj dFX (x) < 1.
1

(d) Se X é uma variável aleatória discreta tomando valores no conjunto fx1 ; x2 ; x3 ; :::g

e com função de probabilidade p(xi ) = P (X = xi ), então

X
1
E(X) = xi p(xi ).
i=1

105
(e) Se X é uma variável aleatória contínua com função de densidade de probabilidade

fX (x), então
Z1
E(X) = xfX (x)dx
1

(f) Se X é tal que sua função de distribuição se decompõe F = Fd + Fac + Fs ,

então
X
1 Z1 Z1
E(X) = xi p(xi ) + xfX (x)dx + xdFs (x).
i=1 1 1

Exemplo 61 Um dado é lançado sucessivamente, até que a face 6 ocorra pela

primeira vez. Seja X a variável que conta o número de lançamentos até a ocor-

rência do primeiro 6. Calcule a esperança de X.

Exemplo 62 Suponha que X seja uma variável aleatória com f.d.p. dada por

C(9 x2 ), 3 x 3
f (x) =
0, caso contrário

(a) Obtenha o valor de C.

(b) Obtenha a esperança de X.

(c) Ache P (jXj 1).

Proposição 2 (Propriedades da Esperança) A esperança matemática atende

às seguintes propriedades:

(i) E(C) = C, onde C é uma constante real.

(ii) Se a X b, então a E(X) b.

(iii) E(aX + b) = aE(X) + b, para quaisquer a e b reais.

(iv) E[X E(X)] = 0.

(v) Se X Y , então E(X) E(Y ).

(vi) Se X é uma variável aleatória tal que 0 jXj Y , onde Y é variável

aleatória integrável, então X é integrável.

106
Prova. (Em aula.)

Proposição 3 Seja X uma variável aleatória com função de distribuição FX . Então


Z1 Z0
E(X) = (1 FX (x))dx FX (x)dx.
0 1

Prova. (Em aula)

Corolário 1 Seja X uma variável aleatória não-negativa com função de distribuição

FX . Então
Z1 Z1
E(X) = (1 FX (x))dx = P (X > x)dx.
0 0

Observe pelo exercício seguinte, que sem a hipótese de integrabilidade, o resul-

tado não se veri…ca, pois:

Exemplo 63 Uma variável aleatória X é dita ter distribuição de Cauchy com

parâmetros M e b, se sua densidade é dada por

b
f (x) =
[b2 + (x M )2 ]

para todo x 2 R, b > 0 e M 2 R. Mostre que M é ponto de simetria de X, mas

E(X) não existe.

Proposição 4 (Desigualdade de Jensen) Seja ' uma função convexa de…nida na

reta. Se a variável aleatória X é integrável, então

E['(X)] '[E(X)].

Prova. (Em aula)

Observação 15 Se ' é uma função côncava, então E['(X)] '[E(X)]. (Mostre

isso.)

107
Exemplo 64 Pela desigualdade de Jensen, temos, por exemplo, que

(a) E [jXj] jE(X)j.

(b) E(X 2 ) E 2 (X).

(c) E jXjp (E jXj)p jEXjp . onde p 1.


1 1
(d) E se X > 0.
X EX

4.2 Esperanças de Funções de Variáveis Aleatórias

De…nição 16 Seja X uma variável aleatória e (x) uma função real mensurável.

Então a esperança da variável aleatória Y = (X) é dada por

Z1 Z1 Z0
E(Y ) = ydF (X) (y) = (1 F (X) (y))dy F (X) (y)dy.
1 0 1

A fórmula acima nem sempre é muito fácil de ser usada, pois devemos obter

a distribuição de Y a partir da distribuição da variável X e só então obter E(Y ).

No entanto é possível mostrar pela Teoria da Medida que a esperança da variável

aleatória Y = (X) é dada por


Z1 Z1
E (X) = ydF (X) (y) = (x)dFX (x)
1 1

onde a existência de uma das integrais implica a existência da outra bem como a

igualdade das duas. Ou seja,

X
1
E[ (X)] = (xi )p(xi ) (se X é discreta)
i=1

Z1
E[ (X)] = (x)fX (x)dx (se X é contínua)
1

108
4.3 Momentos

De…nição 17 Seja X uma variável aleatória. De…ne-se o k-ésimo momento or-

dinário da variável aleatória X, mk , como


Z1
k
mk = E(X ) = xk dFX (x).
1

Assim,

X
1
mk = xki P (X = xi ) se X é v.a.d.
i=1
Z1
mk = xk fX (x)dx se X é v.a.c.
1

De…nição 18 Seja X uma variável aleatória. De…ne-se o k-ésimo momento de

X em torno de b, Mk , como
Z1
k
E[(X b) ] = (x b)k dFX (x).
1

De…nição 19 Seja X uma variável aleatória. De…ne-se o k-ésimo momento cen-

tral da variável aleatória X, Mk , como

Mk = E[(X E(X))k ].

Assim,

X
1
Mk = [xi E(X)]k P (X = xi ) se X é v.a.d.
i=1
Z1
Mk = [x E(X)]k fX (x)dx se X é v.a.c.
1

De…nição 20 Seja X uma variável aleatória. De…ne-se a variância da variável


2
aleatória X, denotada por V ar(X) ou X, como

V ar(X) = E[(X E(X))2 ].

109
Proposição 5 A variância de uma variável aleatória X atende às seguintes pro-

priedades:

(i) V ar(X) = E(X 2 ) E 2 (X).

(ii) V ar(C) = 0, onde C é uma constante.

(iii) V ar(aX + b) = a2 V ar(X), para quaisquer a e b reais.

Prova. (Em aula.)

Observação 16 Pelos resultados anteriores, vemos que

m1 = E(X)

M1 = 0

M2 = V ar(X) = m2 m21 .

De…nição 21 De…ne-se o desvio-padrão da variável aleatória X, denotado por

DP (X) ou X, como
p
DP (X) = V ar(X).

Proposição 6 (Desigualdade básica de Markov) Seja X uma variável aleatória não-

negativa e seja > 0 uma constante. Então

E(X)
P (X ) .

Prova. (Em aula.)

Proposição 7 (Desigualdade de Markov) Seja X uma variável aleatória qualquer

e seja > 0 uma constante. Então para todo t > 0,

E jXjt
P (jXj ) t .

Prova. (Em aula.)

110
Proposição 8 (Desigualdade Clássica de Tchebychev) Seja X uma variável aleatória

integrável e seja > 0 uma constante. Então

V ar(X)
P (jX E(X)j ) 2 .

Prova. (Em aula.)

Exemplo 65 Suponha que X seja uma variável aleatória tal que P (X 0) = 1 e

P (X 10) = 15 . Mostre que E(X) 2.

Exemplo 66 Suponha que X seja uma variável aleatória tal que E(X) = 10, P (X
9
7) = 0; 2 e P (X 13) = 0; 3. Prove que V ar(X) 2
.

Proposição 9 Se Z 0 e EZ = 0, então P fZ = 0g = 1, ou seja, Z = 0 quase

certamente.

Prova. (Em aula.)

Observação 17 A proposição acima implica que, quando V arX = 0, então X é

constante quase certamente, pois P fX = EXg = 1.

Proposição 10 Seja X integrável, = EX. Então minimiza E (X c)2 , c 2 R,

isto é,

V arX = E (X )2 = min E (X c)2 .


c2R

Prova. (Em aula.)

4.4 Função Geratriz de Momentos

De…nição 22 Seja X uma variável aleatória. De…ne-se a função geratriz de

momentos de X, mX (t), como

mX (t) = E[etX ], com t 2 R.

111
Assim,

X
1
mX (t) = etxi P (X = xi ) se X é v.a.d.
i=1
Z1
mX (t) = etx fX (x)dx se X é v.a.c.
1

X
1 Z1
mX (t) = etxi P (X = xi ) + etx fX (x)dx se X é v.a. mista.
i=1 1

Proposição 11 (Propriedades da Função Geratriz de Momentos) As seguintes

propriedades a respeito da função geratriz de momentos mX (t) se veri…cam:

(i) mX (0) = 1.

(ii) Se X tem função geratriz de momentos mX (t) e se Y = aX + b, então

mY (t) = ebt mX (at).

(iii) Se X tem função geratriz de momentos mX (t), então

dk
mX (t) = E[X k ].
dtk t=0

ou seja
dk
mX (0) = mk (o k-ésimo momento ordinário de X).
dtk

Prova. (Em aula.)

Exemplo 67 Seja X a variável aleatória que conta o número de lançamentos de

uma moeda honesta até que ocorra a primeira cara. Ache a função geratriz de

momentos de X e use-a para calcular E(X) e V ar(X).

Exemplo 68 Seja X uma variável aleatória contínua com função de densidade de

probabilidade dada por


( 1 x
e 5 , se x 0
fX (x) = 5
0, caso contrário

Ache a função geratriz de momentos de X e use-a para calcular E(X) e V ar(X).

112
Exemplo 69 Suponha que X seja uma variável aleatória com função geratriz de

momentos dada por


2 +3t
mX (t) = et , 1 < t < 1.

Ache a esperança e a variância de X.

4.5 Lista de Exercícios

Exercício 61 Considere três lançamentos de uma moeda honesta. De…na K como

cara e K como coroa. Se ocorre o evento KKK, dizemos que temos uma sequência,

ao passo que se ocorre K KK temos três sequências. De…na a variável aleatória X

como o número de caras obtidas e Y como o número de seqüências resultantes dos

três lançamentos. Assim, por exemplo, X K K K = 1 e Y K K K = 2. Pede-se:

(a) As funções de probabilidade de X e Y .


X 0 1 2 3 Y 1 2 3
Resp.: e .
P (X = x) 1=8 3=8 3=8 1=8 P (Y = y) 1=4 1=2 1=4
(b) As esperanças de X e Y .

Resp.: E(X) = 1; 5 e E(Y ) = 2.

(c) As variâncias de X e Y .

Resp.: V ar(X) = 0; 75 e E(Y ) = 0; 5.

Exercício 62 Seja X uma variável aleatória discreta com distribuição dada por
X 0 1 2
.
P (X = x) 1=2 1=4 1=4
(a) Calcule E(X). Resp.: E(X) = 3=4.

(b) Considere a variável aleatória Y = (X a)2 . Calcule E(Y ) = E (X a)2

para a = 0, 1=4, 1=2, 3=4, 1. Obtenha o grá…co de g(a) = E (X a)2 e deduza o

valor de a que minimiza a função g(a).


a 0 1=4 1=2 3=4 1
Resp.: 2 . E (X a)2
g(a) = E (X a) 1; 25 0; 9375 0; 75 0; 6875 0; 75
é minimizada por a = E(X) = 3=4.

113
Exercício 63 Um vendedor de equipamento pesado pode visitar, num dia, um ou

dois clientes, com probabilidades de 1=3 e 2=3, respectivamente. De cada contato,

pode resultar a venda de um equipamento por R$ 50:000; 00 (com probabilidade de

1=10) ou nenhuma venda com probabilidade 9=10). Indicando por Y o valor total de

vendas diárias desse vendedor, pede-se:

(a) A função de probabilidade da v.a. Y .


Y 0 50:000 100:000
Resp.: .
P (Y = y) 126=150 23=150 1=150
(b) O valor esperado de vendas diárias. Resp.: E(Y ) = 8:333; 33.

Exercício 64 O tempo T , em minutos, necessário para um operário processar certa

peça é uma v.a. com a seguinte distribuição de probabilidade:


t 2 3 4 5 6 7
.
P (T = t) 0; 1 0; 1 0; 3 0; 2 0; 2 0; 1
(a) Qual a média do tempo de processamento? Resp.: E(T ) = 4; 6.

(b) Para cada peça processada, o operário ganha um …xo de R$ 2; 00, mas se ele

processa a peça em menos de 6 minutos, ganha R$ 0; 50 em cada minuto poupado.

Por exemplo, se ele processa a peça em 4 minutos, recebe a quantia adicional de R$

1; 00.

(b.1) Encontre a distribuição da v.a. G de…nida como a quantia ganha por peça.
g 2; 0 2; 5 3; 0 3; 5 4; 0
Resp.: .
P (G = g) 0; 3 0; 2 0; 3 0; 1 0; 1
(b.2) Encontre a média da v.a. G. Resp.: E(G) = 2; 75.

(b.3) Encontre a variância da v.a. G. Resp.: V ar(G) = 0; 4125.

Exercício 65 Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua função

de distribuição F (x) é tal que FX (1) FX (1 ) = 1=3, FX (2) FX (2 ) = 1=6 e

FX (3) FX (3 ) = 1=2.

(a) Obtenha a função de probabilidade de X.


X 1 2 3
Resp.:
P (X = x) 1=3 1=6 1=2

114
(b) Obtenha a função
8 de distribuição de X e esboce o seu grá…co.
>
> 0, x < 1
<
1=3, 1 x < 2
Resp.: FX (x) =
>
> 1=2, 2 x < 3
:
1, x 3
Exercício 66 Considere uma urna contendo três bolas vermelhas e cinco pretas.

Retire três bolas e de…na a v.a. X como o número de bolas pretas na amostra.

(a) Qual a distribuição de X se as extrações são feitas sem reposição?


X 0 1 2 3
Resp.: .
P (X = x) 1=56 15=56 30=56 10=56
(b) Qual a distribuição de X se as extrações são feitas com reposição?
X 0 1 2 3
Resp.: .
P (X = x) 27=512 135=512 225=512 125=512

Exercício 67 Um ‡orista faz estoque de uma ‡or de curta duração que lhe custa R$

0; 50 e que ele vende por R$ 1; 50 no primeiro dia que a ‡or está na loja. Toda ‡or

que não é vendida nesse primeiro dia não serve mais e é jogada fora. Seja X a v.a.

que denota o número de ‡ores que os fregueses compram em um dia casualmente

escolhido. O ‡orista descobriu que a função de probabilidade de X é dada por


X 0 1 2 3
P (X = x) 0; 1 0; 4 0; 3 0; 2
Quantas ‡ores deveria o ‡orista ter em estoque para maximizar o valor esperado

do seu lucro? Resp.: Se ele compra 1 ‡or o lucro médio é R$ 0; 85; se ele compra

2 ‡ores o lucro médio é R$1; 10; e se ele compra 3 ‡ores o lucro médio é R$ 0; 90.

Assim ele deveria comprar 2 ‡ores sempre para maximizar seu lucro médio.

Exercício 68 Dada a função

2e 2x , x 0
f (x) =
0, caso contrário
Z1
(a) Mostre que esta é uma f.d.p. Resp.: f (x) 0 para todo x 2 R e fX (x)dx =
1
1.
20
(b) Calcule P (X > 10). Resp.: P (X > 10) = e .

115
Exercício 69 Uma v.a. X tem distribuição triangular no intervalo [0; 1] se sua

f.d.p. for dada por 8


< Cx, 0 x 1=2
f (x) = C (1 x) , 1=2 x 1
:
0, caso contrário
(a) Obtenha o valor da constante C. Resp.: C = 4.

(b) Esboce o grá…co da f (x).

(c) Calcule:

(c.1) P (X 1=2); Resp.: P (X 1=2) = 1=2.

(c.2) P (X > 1=2); Resp.: P (X > 1=2) = 1=2.

(c.3) P (1=4 X 3=4). Resp.: P (1=4 X 3=4) = 3=4.

Exercício 70 Obtenha o valor da constante C para que a função


C=x2 , x 10
f (x) =
0, caso contrário
seja uma densidade de alguma variável aleatória X e calcule P (X > 15) :

Resp.: C = 10 e P (X > 15) = 2=3.

Exercício 71 Determine a esperança e a variância da v.a. cuja f.d.p. é dada por


senx, 0 x =2
f (x) =
0, caso contrário
Resp.: E(X) = 1 e V ar(X) = 1.

Exercício 72 A v.a. contínua X tem f.d.p. dada por


3x2 , 1 x 0
f (x) =
0, caso contrário
(a) Se b for um número tal que 1 < b < 0, calcule P (X > bjX < b=2). Resp.:
7b3
P (X > bjX < b=2) = .
b3 + 8
(b) Obtenha E(X) e V ar(X). Resp.: E(X) = 3=4 e V ar(X) = 3=80.

Exercício 73 Certa liga é formada pela mistura fundida de dois metais. A liga

resultante contém certa percentagem de chumbo, X, que pode ser considerada uma

v.a. com f.d.p.

116
3
5
10 5 x (100 x) , 0 x 100
f (x) =
0, caso contrário
Suponha que L, o lucro líquido obtido na venda dessa liga (por unidade de peso),

seja dado por L = C1 + C2 X. Calcule E(L), o lucro esperado por unidade. Resp.:

E(L) = C1 + 50C2 .

Exercício 74 A demanda diária de arroz num supermercado, em centenas de qui-

los, é uma v.a. com f.d.p. dada por


8 2
< 3 x, 0 x < 1
1
f (x) = x + 1, 1 x 3
: 3
0, caso contrário
(a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao

acaso? Resp.: 37; 5%.

(b) Em 30 dias, quanto o gerente do supermercado espera vender? Resp.: 4:000

kg.

(c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes

diariamente para que não falte arroz em 95% dos dias? Resp.: 245 kg.

Exercício 75 Seja X a v.a. con f.d.p. dada por


c (1 x2 ) , 1 x 1
f (x) =
0, caso contrário
Calcule a média e a variância da variável aleatória X. Resp.: E(X) = 0 e

V ar(X) = 1=5.

Exercício 76 Seja X variável aleatória com função de densidade de probabilidade


1
dada por f (x) = se 3 x 5 e f (x) = 0, caso contrário. De…na
8
2X
Y = X:1fjXj<1g + X:1f1 jXj 2g + :1fjXj>2g .
jXj

Pede-se:

(a) A função8 de distribuição da variável aleatória Y , esboçando o seu grá…co.


< 0, se y < 2
>
y+3
Resp. FY (y) = , se 2 y<2
>
: 8
1, se y 2

117
(b) A decomposição da função de distribuição
8 nas partes discreta, absolutamente
< 0, se y < 2
>
1
contínua e singular. Resp.: Fd (y) = , se 2 y < 2 , Parte Absolutamente
>
: 4
1, se y 2
8
>
< 0, se y < 2
y+2
Contínua Fac (y) = , se 2 y < 2 , não há parte singular. FY (y) =
>
: 4
1, se y 2
1 1
Fd (y) + Fac (y) + 0:Fs (y)
2 2
(c) Calcular E (Y ) e V ar (Y ) de duas formas (pela distribuição de X e pela
1 29
distribuição de Y). Resp.: E (Y ) = 2
e V ar (Y ) = 12

3 1
(d) Calcular P ( 2
Y <2j 1<Y 2). Resp.: 2

Exercício 77 Seja X uma variável aleatória com função de densidade dada por

e x
f (x) = , 1 < x < 1.
(1 + e x )2
A variável aleatória X assim de…nida é dita ter distribuição logística.

(a) Obtenha a função de distribuição da variável aleatória X e esboce o seu


1
grá…co. Resp.: FX (x) = 1+e x , 1 < x < 1.

(b) Mostre que a distribuição de X é simétrica em torno de zero. Resp.: f (x) =

f ( x)

(c) Determine a esperança de X, caso exista. Resp.: E (X) = 0

(d) Calcule P (X 2 6 jXj). Resp.: P ( 2 X 2) = 76; 16%

2
Exercício 78 Seja X uma variável aleatória com E (X) = e V ar (X) = e seja

mX (t) a função geratriz de momentos de X para 1 < t < 1. Seja c > 0 uma

constante real e seja Y uma variável aleatória com função geratriz de momentos

dada por

mY (t) = ec[mX (t) 1]


, para 1 < t < 1.

2
Obtenha E (Y ) e V ar (Y ) em termos de e . Resp.: E (Y ) = c e V ar (Y ) =
2 2
c( + ).

118
Exercício 79 Suponha que X seja uma variável aleatória com E (X) = e V ar (X) =
2 2 2
e que o quarto momento ordinário de X existe. Mostre que E (X 4 ) ( 2
+ ).

119
Capítulo 5

Vetores Aleatórios Bidimensionais

Neste capítulo estudaremos as distribuições conjuntas de vetores aleatórios, em par-

ticular dos vetores bivariados discretos. Os resultados podem ser estendidos aos

vetores aleatórios contínuos e serão vistos de forma extensa e rigorosa no curso de

Probabilidade.

De…nição 23 Um vetor (X; Y ) com X e Y variáveis aleatórias de…nidas no mesmo

espaço de probabilidade ( ; P ) é chamado vetor aleatório bidimensional se para

todo x; y 2 R, fX x; Y yg := fX xg \ fY yg é um evento aleatório.

5.1 Distribuições Conjuntas e Marginais

De…nição 24 (Função de Probabilidade Conjunta) Se as variáveis X e Y do

vetor aleatório são discretas, temos um vetor aleatório discreto e de…nimos sua

função de probabilidade conjunta da seguinte forma:

p(xi ; yj ) = P (X = xi ; Y = yj ).

É imediato veri…car que

p(xi ; yj ) 0, para todo (i; j) 2 N2 e

X
1 X
1
p(xi ; yj ) = 1.
i=1 j=1

120
De…nição 25 (Função de Densidade Conjunta) Se as variáveis X e Y do ve-

tor aleatório admitem uma função de densidade de probabilidade conjunta fX;Y (x; y)

tal que

fX;Y (x; y) 0, para todo (x; y) 2 R2

e
Z +1 Z +1
fX;Y (x; y)dxdy = 1,
1 1

dizemos que o vetor aleatório é absolutamente contínuo.

De…nição 26 (Função de Probabilidade Marginal) Se p(xi ; yj ) é a função de

probabilidade conjunta de X e Y , então a função de probabilidade marginal de X é

X
1
P (X = xi ) = p(xi ; yj ).
j=1

Equivalentemente, a função de probabilidade marginal de Y é

X
1
P (Y = yj ) = p(xi ; yj ).
i=1

De…nição 27 (Função de Densidade Marginal) Se fX;Y (x; y) é a função de

densidade de probabilidade conjunta de X e Y , então a função de probabilidade

marginal de X é
Z +1
fX (x) = fX;Y (x; y)dy.
1

Equivalentemente, a função de probabilidade marginal de Y é


Z +1
fY (y) = fX;Y (x; y)dx.
1

5.2 Independência de Variáveis Aleatórias

De…nição 28 (Independência de Variáveis Aleatórias) (i) Seja (X; Y ) um ve-

tor aleatório discreto. As variáveis aleatórias X e Y são ditas independentes se, para

121
todo (x; y) 2 R2 ,

P (X = x; Y = y) = P (X = x)P (Y = y).

(ii) Seja (X; Y ) um vetor aleatório absolutamente contínuo. As variáveis aleatórias

X e Y são ditas independentes se, para todo (x; y) 2 R2 ,

fX;Y (x; y) = fX (x)fY (y).

Exemplo 70 Duas moedas equilibradas são lançadas de forma independente e de…n-

imos as variáveis aleatórias X e Y da seguinte forma: X = número de caras nos dois

lançamentos e Y = função indicadora de faces iguais nos dois lançamentos, isto é,

Y = 1, se as duas faces são iguais e Y = 0, se as duas faces são diferentes. Pede-se:

(a) Obtenha a função de probabilidade conjunta de X e Y .

(b) Obtenha as funções de probabilidade marginais de X e de Y .

(c) Veri…que se X e Y são independentes.


3
(c) Calcule P X 2
;Y =0 .

Exemplo 71 Seja (X; Y ) um vetor aleatório absolutamente contínuo con densidade

conjunta dada por

4xy, se 0 < x < 1 e 0 < y < 1


fX;Y (x; y) =
0, caso contrário

1
(a) Calcule P 2
< X < 43 ; 14 < Y < 1
2
.

(b) Obtenha as densidades marginais de X e Y.

(c) Veri…que se X e Y são independentes.

122
5.3 Esperança Matemática

De…nição 29 (Esperança) (i) Seja H(X; Y ) uma função de R2 em R. Então

de…nimos E [H(X; Y )] como


8 1 1
> XX
< H(xi ; yj )p(xi ; yj ), se (X; Y ) é vetor discreto
E [H(X; Y )] =
> i=1 j=1
: R +1 R +1
1 1
H(x; y)fX;Y (x; y)dxdy, se (X; Y ) é vetor contínuo

Exemplo 72 Cosiderando o exemplo 70, pede-se:

(a) Calcule E [X + Y ] e mostre que E [X + Y ] = E [X] + E [Y ].

(b) Calcule E [XY ].

Exemplo 73 Cosiderando o exemplo 71, pede-se

(a) Calcule E [X + Y ] e mostre que E [X + Y ] = E [X] + E [Y ].

(b) Calcule E [XY ].

Proposição 12 Dadas duas variáveis aleatórias X e Y quaisquer com distribuição

conjunta, temos

E [X + Y ] = E [X] + E [Y ] .

Prova. (Em aula.)

Corolário 2 Decorre do fato de a esperança ser um operador linear que

E [ X + Y ] = E [X] + E [Y ] .

Prova. (Em aula.)

Observação 18 Se X1 ; X2 ; :::; Xn são variáveis aleatórias, então


" # " #
X
n X
n X
n X
n
E Xi = E [Xi ] e E i Xi = iE [Xi ] .
i=1 i=1 i=1 i=1

123
5.4 Distribuições Condicionais e Esperança Condi-
cional

De…nição 30 (Distribuição Condicional) (i) Se P (X = x; Y = y) é a função

de probabilidade conjunta de X e Y , então a função de probabilidade condicional de

X dado Y = y é de…nida como

P (X = x; Y = y)
P (X = xjY = y) = .
P (Y = y)

Equivalentemente, a função de probabilidade condicional de Y dado X = x é de…nida

como
P (X = x; Y = y)
P (Y = yjX = x) = .
P (X = x)

(ii) Se fX;Y (x; y) é a função de densidade de probabilidade conjunta de X e Y , então

a função de densidade de probabilidade condicional de X dado Y = y é de…nida como

fX;Y (x; y)
fXjY (xjy) = .
fY (y)

Equivalentemente, a função de probabilidade condicional de Y dado X = x é de…nida

como
fX;Y (x; y)
fY jX (yjx) = .
fX (x)

De…nição 31 (Esperança Condicional) (i) A esperança condicional de X, dado

que Y = y, é de…nida como


8 1
> X
< xi P (X = xi jY = y), se (X; Y ) é vetor discreto
E (XjY = y) =
>
: R +1
i=1

1
xfXjY (xjy)dx, se (X; Y ) é vetor contínuo

Equivalentemente, a esperança condicional de Y, dado que X = x, é de…nida como


8 1
> X
< yi P (Y = yi jX = x), se (X; Y ) é vetor discreto
E (Y jX = x) =
>
: R +1
i=1

1
yfY jX (yjx)dy, se (X; Y ) é vetor contínuo

124
Exemplo 74 Cosiderando ainda o exemplo 70, pede-se:

(a) Obtenha a distribuição condicional de X dado que Y = 1.

(b) Obtenha a esperança condicional de X dado que Y = 1.

Exemplo 75 Cosiderando ainda o exemplo 71, pede-se:

(a) Obtenha a distribuição condicional de X dado que Y = 34 .

(b) Obtenha a esperança condicional de X dado que Y = 34 .

5.5 Covariância

De…nição 32 A covariância entre duas variáveis aleatórias X e Y é de…nida como

Cov(X; Y ) = E [(X EX) (Y EY )]

= E [XY ] E [X] E [Y ]

Duas variáveis aleatórias X e Y são ditas não-correlacionadas se Cov(X; Y ) = 0.

Observação 19 Dada uma variável aleatória X, observe que Cov(X; X) = V ar (X).

Proposição 13 Se X e Y são variáveis aleatórias independentes, então

E [XY ] = E[X]E[Y ].

Prova. (Em aula)

Corolário 3 Se X e Y são variáveis aleatórias independentes, então X e Y são

não-correlacionadas.

Prova. (Em aula)

Observação 20 O corolário anterior nos informa que variáveis aleatórias indepen-

dentes são não-correlacionadas, mas a recíproca não é necessariamente verdadeira.

125
O exemplo a seguir nos mostra que a recíproca do corolário não é sempre verdadeira,

isto é, Cov(X; Y ) = 0 (ou equivalentemente EXY = EX:EY ) não implica X e Y

independentes.

Exemplo 76 Sejam X e Y variáveis aleatórias tomando valores 1; 0; 1 com dis-

tribuição conjunta dada por p( 1; 1) = p( 1; 1) = p(1; 1) = p(1; 1) = p(0; 0) =


1
5
. Então EXY = EX:EY , mas X e Y não são independentes, pois P (X = 0; Y =

0) 6= P (X = 0):P (Y = 0).

Proposição 14 A variância da variável aleatória X + Y é dada por

V ar [X + Y ] = V ar [X] + V ar [Y ] + 2Cov(X; Y ).

Prova. (Em aula)

Corolário 4 Se X e Y são variáveis aleatórias não-correlacionadas, então

V ar [X + Y ] = V ar [X] + V ar [Y ] .

Prova. (Em aula)

Observação 21 Se X1 ; X2 ; :::; Xn são variáveis aleatórias não-correlacionadas, en-

tão
" #
X
n X
n
V ar Xi = V ar [Xi ] .
i=1 i=1

Observação 22 Se X1 ; X2 ; :::; Xn são variáveis aleatórias não-correlacionadas, en-

tão
" #
X
n X
n
2
V ar i Xi = iV ar [Xi ] .
i=1 i=1

Exemplo 77 Um paleontólogo acredita que o número de minerais presentes em

certo tipo de rocha pode in‡uir na chance de se encontrar fósseis perto de uma in-

dústria calcária. Através de amostras de rocha obtidas em levantamentos de campo,

126
ele obteve a distribuição conjunta para as variáveis Z : número de minerais presentes

e W: variável que assume 1, se for observada a presença de fóssil e 0 caso contrário.


WnZ 1 2 3
0 1=8 1=8 1=4
1 1=8 1=4 1=8
(a) Calcule P (W = 0; Z > 1).

(b) Encontre as distribuições marginais para Z e W.

(c) Veri…que se W e Z são independentes.

(d) Calcule Cov(W; Z).

(e) Calcule V ar(2W 3Z).

Exemplo 78 Sabe-se que X e Y são independentes e assumem, respectivamente, os

valores 1, 2 e 3; e 0, 1 e 2. Admita conhecidas as probabilidades P (Y = 0) = 1=3,

P (X = 3) = 1=3, P (X = 1; Y = 0) = 1=9 e P (X = 3; Y = 2) = 1=9.

(a) Construa a tabela de dupla entrada para X e Y.

(b) Calcule E (XY ) e V ar (X + Y ).

Exemplo 79 Seja X1 ; X2 ; :::; Xn uma sequência de variáveis aleatórias indepen-


2
dentes e identicamente distribuídas com média e variância . De…na as variáveis

aleatórias

Sn = X1 + X2 + ::: + Xn
X1 + X2 + ::: + Xn
Xn =
n

Mostre que
2
E (Sn ) = n , V ar (Sn ) = n e
2
E X n = , V ar X n = .
n

127
5.6 Coe…ciente de Correlação
X EX
De…nição 33 Dada uma variável aleatória X, a variável aleatória Z =
X

é uma padronização de X (também chamada de redução ou normalização de X).

Observe que E (Z) = 0 e V ar (Z) = 1.

De…nição 34 Chama-se coe…ciente de correlação entre X e Y , denotado por

X;Y ou (X; Y ), a correlação entre as sua variáveis padronizadas, isto é,

Cov(X; Y ) X EX Y EY
X;Y = =E .
X: Y X Y

Proposição 15 Seja X;Y coe…ciente de correlação entre X e Y . Então os seguintes

resultados se veri…cam:

(i) 1 X;Y 1.

(ii) X;Y = 1 se e somente se P fY = aX + bg = 1 para algum a > 0 e b 2 R.

(iii) X;Y = 1 se e somente se P fY = aX + bg = 1 para algum a < 0 e b 2 R.

Prova. (Em aula.)

2
Observação 23 Em modelos lineares, o coe…ciente X;Y representa o quanto da

variabilidade de X in‡uencia a variabilidade de Y e vice-versa.

Exemplo 80 Sejam X e Y duas variáveis aleatórias discretas com distribuição con-

junta dada por


XnY 0 1 2
1 1=8 1=8 1=4
1 1=8 1=4 1=8
2
Obtenha o coe…ciente de correlação entre X e Y e interprete o valor de X;Y .

5.7 Lista de Exercícios

Exercício 80 A tabela abaixo dá a distribuição conjunta de X e Y.

128
YnX 1 2 3
0 0; 1 0; 1 0; 1
1 0; 2 0 0; 3
2 0 0; 1 0; 1
(a) Determine as distribuições marginais de X e Y.
x 1 2 3 y 0 1 2
Resp.: e
P (X = x) 0; 3 0; 2 0; 5 P (Y = y) 0; 3 0; 5 0; 2
(b) Determine as esperanças e as variâncias de X e Y.

Resp.: E(X) = 2; 2, V ar(X) = 0; 76, E(Y ) = 0; 9 e V ar(Y ) = 0; 49

(c) Veri…que se X e Y são independentes.

Resp.: Não, pois P (X = 1; Y = 0) = 0; 1 6= P (X = 1)P (Y = 0) = 0; 09

(d) Calcule P (X = 1jY = 0) e P (Y = 2jX = 3).


1 1
Resp.: P (X = 1jY = 0) = 3
e P (Y = 2jX = 3) = 5

(e) Calcule P (X 2) e P (X = 2; Y 1).


1
Resp.: P (X 2) = 0; 5 e P (X = 2; Y 1) = 8

(f) Obtenha o coe…ciente de correlação entre X e Y.

Resp.: X;Y = 0; 1966

Exercício 81 Considere a distribuição conjunta de X e Y, variáveis aleatórias in-

dependentes, dada pela tabela abaixo, parcialmente conhecida.


Yn X 1 0 1 P (Y = y)
1 1=12
0 1=3
1 1=4 1=4
P (X = x)
(a) Calcule as médias e as variâncias de X e Y.
1 5
Resp.: E(X) = 0, V ar(X) = 1, E(Y ) = 3
e V ar(Y ) = 9

(b) Calcule E ( 3X + 2Y ) e V ar ( 3X + 2Y ).

Resp.: E ( 3X + 2Y ) = 32 , V ar ( 3X + 2Y ) = 101
9

(c) Obtenha as distribuições condicionais de X, dado que Y = 0; e de Y, dado

que X = 1.

129
x 1 0 1 y 1 0 1
Resp.: e
P (X = xjY = 0) 1=2 0 1=2 P (Y = yjX = 1) 1=6 1=3 1=2
(d) Calcule E(XjY = 0) e E(Y jX = 1).
1
Resp.: E(XjY = 0) = 0 e E(Y jX = 1) = 3

Exercício 82 Suponha que X e Y tenham a seguinte distribuição conjunta:


YnX 1 2 3
1 0; 1 0; 1 0
2 0; 1 0; 2 0; 3
3 0; 1 0; 1 0
(a) Seja Z = X + Y . Encontre a função de probabilidade de Z, calcule a partir

dela E(X + Y ) e compare o resultado com E(X) + E(Y ), calculado por meio das

marginais de X e Y.
z 2 3 4 5 6
Resp.: e E(X + Y ) = E(X) + E(Y ) = 4
P (Z = z) 0; 1 0; 2 0; 3 0; 4 0
(b) Seja W = XY . Encontre a função de probabilidade de W , calcule a par-

tir dela E(XY ) e e compare o resultado com E(X)E(Y ), calculado por meio das

marginais de X e Y.
w 1 2 3 4 6 9
Resp.: e E(XY ) = E(X)E(Y ) =
P (W = w) 0; 1 0; 2 0; 1 0; 2 0; 4 0
4

(c) Mostre que, embora E(XY ) = E(X)E(Y ), X e Y não são independentes.

Resp.: Como Cov(X; Y ) = E(XY ) E(X)E(Y ) = 0, temos que as variáveis X

e Y são não-correlacionadas, mas não são independentes, pois P (X = 3; Y = 3) =

0 6= 0; 3 0; 2 = P (X = 3) P (Y = 3).

Exercício 83 Lançam-se dois dados perfeitos, em sequência. X indica o número

obtido no primeiro dado e Y o maior ou o número comum aos dois dados.

(a) Encontre a distribuição conjunta de X e Y e as marginais de X e de Y.

130
YnX 1 2 3 4 5 6 P (Y = y)
1 1=36 0 0 0 0 0 1=36
2 1=36 1=18 0 0 0 0 1=12
3 1=36 1=36 1=12 0 0 0 5=36
Resp.:
4 1=36 1=36 1=36 1=9 0 0 7=36
5 1=36 1=36 1=36 1=36 5=36 0 1=4
6 1=36 1=36 1=36 1=36 1=36 1=6 11=36
P (X = x) 1=6 1=6 1=6 1=6 1=6 1=6 1
(b) As duas variáveis são independentes? Justi…que matematicamente.

Resp.: Não, pois P (X = 1; Y = 1) 6= P (X = 1)P (Y = 1)

(c) Calcule as esperanças e as variâncias de X e Y.

Resp.: E(X) = 27 , V ar(X) = 35


12
, E(Y ) = 161
36
e V ar(Y ) = 2555
1296

(d) Calcule a covariância entre X e Y.


35
Resp.: Cov(X; Y ) = 24

(e) Calcule E(X + Y ).


287
Resp.: E(X + Y ) = 36

(f) Calcule V ar(X + Y ).


10115
Resp.: V ar(X + Y ) = 1296

Exercício 84 Prove as seguintes propriedades da covariância:

(a) Cov (X; Y ) = Cov (Y; X).


!
Pm P
n P
m P
n
(b) Cov ai Xi ; b j Yj = ai bj Cov (Xi ; Yj ).
i=1 j=1 i=1 j=1

Exercício 85 Suponha que (X; Y ) tenha função de densidade conjunta dada por

e x y , se x > 0 e y > 0
fX;Y (x; y) =
0, caso contrário

(a) Calcule as funções de densidade marginais e veri…que se as variáveis são

independentes. Resp.: fX (x) = e x , x > 0; fY (y) = e y , y > 0. X e Y são

independentes.

(b) Calcule P (0 < X < 1; 1 < Y < 2). Resp.: (1 e 1 ) (e 1


e 2)

(c) Calcule (X; Y ). Resp.: (X; Y ) = 0, pois X e Y são independentes.

131
Exercício 86 Suponha que (X; Y ) tenha função de densidade conjunta dada por

x + y, se 0 < x < 1 e 0 < y < 1


fX;Y (x; y) =
0, caso contrário

(a) Calcule as funções de densidade marginais e veri…que se as variáveis são

independentes. Resp.: fX (x) = x + 21 , 0 < x < 1; fY (y) = y + 21 , 0 < y < 1. X e Y

não são independentes.


1
(b) Calcule (X; Y ). Resp.: (X; Y ) = 11
.

Exercício 87 Suponha que (X; Y ) tenha função de densidade conjunta dada por

C (x + y) , se 0 < x < 4 e 0 < y < 4


fX;Y (x; y) =
0, caso contrário

(a) Obtenha o valor de C. Resp.: 1=64

(b) Calcule as funções de densidade marginais e veri…que se as variáveis são


1 1
independentes. Resp.: fX (x) = 16
(x + 2), 0 < x < 4; fY (y) = 16
(y + 2), 0 < y <

4. X e Y não são independentes.


x+y
(c) Obtenha a densidade condicional de X dada Y. Resp.: fXjY (xjy) = 4(y+2)
,

0 < x < 4.
x+y
(d) Obtenha a densidade condicional de Y dada X. Resp.: fY jX (yjx) = 4(x+2)
,

0 < y < 4.
6x+16
(e) Calcule E (Y jX = x). Resp. E (Y jX = x) = x+2
.

Exercício 88 Mostre que a covariância de duas v.a’s é invariante para soma de

constantes, isto é, se a e b são constantes e Y1 = X1 + a e Y2 = X2 + b, então

Cov(Y1 ; Y2 ) = Cov(X1 ; X2 ).

Exercício 89 Sejam X e Y variáveis aleatórias de média zero, variância igual a 1

e correlação . Seja Z = X Y.

(a) Mostre que Z e Y não são correlacionadas.


2
(b) Ache a média e a variância de Z. Resp.: E(Z) = 0 e V ar(Z) = 1

132
Exercício 90 Se X e Y são v.a.’s independentes com variâncias …nitas, demonstre

que

V ar (XY ) = V ar (X) V ar (Y ) + (EX)2 V ar(Y ) + (EY )2 V ar(X).

133
Capítulo 6

Modelos de Variáveis Aleatórias


Discretas

6.1 O Ensaio de Bernoulli

Suponha um experimento realizado uma única vez tendo probabilidade p de sucesso

e q = 1 p de fracasso. Denote a variável aleatória X = 0 se fracasso ocorre e

X = 1 se sucesso ocorre. Então a variável aleatória X é dita ter distribuição

de Bernoulli com parâmetro p, representado por X Ber(p), e sua função de

probabilidade é dada por

p, se x = 1
P (X = x) =
q = 1 p, se x = 0

Podemos também representar a função de probabilidade acima de uma forma uni…-

cada dada por:

P (X = x) = px (1 p)1 x , x = 0; 1.

A adoção de X = 1 para sucesso e X = 0 para fracasso na realização tem o

objetivo de tornar a variável X como um contador de sucessos se outros ensaios

de Bernoulli são realizados. Assim, se n ensaios de Bernoulli são realizados, então

tomando Xi = 1, se i-ésimo ensaio é um sucesso e Xi = 0, se i-ésimo ensaio é um

fracasso, para i = 1; 2; :::; n, então a soma X1 + X2 + ::: + Xn representa o número

134
de sucessos obtidos nas n realizações. Veremos a seguir que essa variável aleatória

Sn desempenha um papel fundamental na Estatística. Antes, porém, vejamos o

seguinte resultado.

Proposição 16 Se X Ber(p), então

E(X) = p,

V ar(X) = pq.

Prova. (Em aula.)

6.2 A Distribuição Binomial

Seja a realização de n ensaios independentes de Bernoulli, cada um tendo a mesma

probabilidade p de sucesso e q = 1 p de fracasso. Seja X a variável aleatória

que conta o número de sucessos nas n realizações. A variável aleatória X é dita ter

distribuição Binomial com parâmetros n e p, denotado por X B(n; p), e sua

função de probabilidade é dada por

n
P (X = k) = pk q n k , k = 0; 1; 2; 3; :::; n.
k

onde
n n!
= e n! = 1:2:3:::n.
k k! (n k)!

Observação 24 O nome Binomial vem do fato de que essa distribuição tem relação

com o Binômio de Newton. O Binômio de Newton estabelece que

n
X
n
n
(a + x) = ak x n k .
k
k=0

Tomando a = p e x = q na fórmula do Binômio de Newton, temos que

n
X
n
n
(p + q) = pk q n k .
k
k=0

135
Mas p + q = p + (1 p) = 1, e assim

X
n
n X
n
n k n k
1 = p q = P (X = k)
k
k=0 k=0

ou seja
X
n
P (X = k) = 1,
k=0

provando que, de fato, a fórmula da Distribuição Binomial satisfaz as duas condições

de uma função de probabilidade: (i) P (X = k) 0, para k = 0; 1; 2; :::; n; e (ii)


Pn
k=0 P (X = k) = 1.

Vejamos por meio de um exemplo a justi…cativa da fórmula acima.

Exemplo 81 Seja uma prova com 5 questões. Suponha que cada questão tenha 4

alternativas de respostas, das quais somente uma é a correta. Determine a probabi-

lidade de um aluno acertar exatamente três questões de forma puramente aleatória,

isto é, "chutando".

É preciso reconhecer que a ideia de um histograma para uma variável discreta é

um tanto abusiva, já que histogramas representam essencialmente o comportamento

de variáveis contínuas. Mas a ideia aqui é preparar o terreno para uma aproximação

do modelo Binomial por uma variável contínua cuja densidade passe próximo ao

"histograma"da Binomial. Veremos isso mais tarde.

Proposição 17 Se X B(n; p), então

mX (t) = (pet + q)n ,

E(X) = np,

V ar(X) = npq.

136
Prova. (Em aula.)

De fato, observe que se Xi Ber(p), para i = 1; 2; :::; n, independentes então

X = X1 + X2 + ::: + Xn B(n; p), e

E(X) = E(X1 ) + E(X2 ) + ::: + E(Xn )

= p + p + ::: + p

= np

V ar(X) = V ar(X1 ) + V ar(X2 ) + ::: + V ar(Xn )

= pq + pq + ::: + pq

= npq.

Observe que o resultado da esperança da Binomial é bastante intuitivo, pois se


1
temos, por exemplo, uma probabilidade p = 25% = 4
de sucesso em cada realização,
1
então se realizarmos n = 20 experimentos esperaríamos uma média de np = 4
20 =

5 sucessos.

Exemplo 82 Das variáveis abaixo, assinale quais são binomiais, e para essas dê

os respectivos espaços de estado e função de probabilidade. Quando julgar que a

variável não é binomial, aponte as razões de sua conclusão.

(a) De uma urna com 10 bolas brancas e 20 pretas, vamos extrair, com reposição,

5 bolas. X é o número de bolas brancas nas 5 extrações.

(b) Refaça o problema anterior, mas dessa vez as 5 extrações são sem reposição.

(c) Temos 5 urnas com bolas pretas e brancas e vamos extrair uma bola de cada

urna. Seja X o número de bolas brancas obtidas no …nal.

(d) Vamos realizar uma pesquisa em 10 cidades brasileiras, escolhendo ao acaso

137
um habitante de cada uma delas e classi…cando-o em pró ou contra um certo projeto

federal. Seja X o número de indivíduos contra a projeto …nal da pesquisa.

(e) Em uma indústria existem 100 máquinas que fabricam determinada peça.

Cada peça é classi…cada como boa ou defeituosa. Escolhemos ao acaso um instante

de tempo e veri…camos uma peça de cada uma das máquinas. Suponha que X seja

o número de defeituosas.

Exemplo 83 Um certo sistema eletrônico contém 10 componentes. Suponha que a

probabilidade de falha de qualquer componente individual seja de 0; 2 e que eles fal-

hem independentemente uns dos outros. Dado que pelo menos um dos componentes

falhou, qual a probabilidade de que pelo menos dois falharam?

Exemplo 84 Se X B(n; p), sabendo-se que E(X) = 12 e V (X) = 3, determinar:

(a) P (X < 12);

(b) P (X 14);
p
(c) E(Z) e V (Z), onde Z = (X 12)= 3;

(d) P (Y 12=16), onde Y = X=n.

6.3 A Distribuição Geométrica

Sejam ensaios sucessivos e independentes de Bernoulli, cada um tendo a mesma

probabilidade p de sucesso e q = 1 p de fracasso. Seja X a variável aleatória

que conta o número de realizações até que o primeiro sucesso ocorra. A variável

aleatória X é dita ter distribuição Geométrica com parâmetro p, denotado por

X Geo(p), e sua função de probabilidade é dada por

P (X = x) = q x 1 p, x = 1; 2; 3; 4; :::

138
Proposição 18 Se X Geo(p), então

pet
mX (t) = , para t < ln q
1 qet
1
E(X) = ,
p
q
V ar(X) = 2 .
p

Prova. (Em aula.)

Observação 25 Se X Geo(p), então para todos os inteiros não negativos m e n

temos

P (X = m + n j X m) = P (X = n) .

Esse resultado é conhecido na Teoria das Probabilidades como “propriedade sem

memória” da variável aleatória.

Exemplo 85 Uma urna contém b bolas brancas e v bolas vermelhas. Bolas são

retiradas ao acaso, com reposição, até que uma bola branca seja encontrada. Seja

X a variável aleatória que representa o número de tentativas até a extração da

primeira bola branca. Encontre a lei de X, a esperança e a variância de X e calcule

a probabilidade de que sejam necessárias pelo menos n retiradas para a extração da

primeira bola branca.

Exemplo 86 As cinco primeiras repetições de um experimento custam R$ 10; 00

cada. Todas as repetições subseqüentes custam R$ 5; 00 cada. Suponha que o experi-

mento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso

de uma repetição é igual a 0; 9, e se as repetições são independentes, qual é custo

esperado da operação?

139
6.4 A Distribuição Binomial Negativa

Sejam ensaios sucessivos e independentes de Bernoulli, cada um tendo a mesma

probabilidade p de sucesso e q = 1 p de fracasso. Seja X a variável aleatória

que conta o número de realizações até que o r-ésimo sucesso ocorra. A variável

aleatória X é dita ter Distribuição Binomial Negativa (também conhecida como

Distribuição de Pascal) com parâmetro r e p, denotado por X BN (r; p), e sua

função de probabilidade é dada por

k 1
P (X = k) = pr q k r , k = r; r + 1; r + 2; r + 3; :::;
r 1

Observação 26 A distribuição é de…nida para valores maiores ou igual a r, já que

são necessários pelo menos r realizações para se obter r sucessos.

Observação 27 De…nindo Y = X r, então Y representa o número de fracassos

até a ocorrência do r-ésimo sucesso. Assim, Y 2 f0; 1; 2; 3; :::g e

P (Y = y) = P (X r = y) = P (X = y + r)
y+r 1
= pr q y
r 1

y+r 1
P (Y = y) = pr q y , y = 0; 1; 2; 3; :::
y

Mas vimos que

r ( r) ( r 1) ( r 2) ::: ( r y + 1)
=
y y!
y+r 1
= ( 1)y
y

Assim
y+r 1 r
= ( 1)y
y y

140
e, portanto,

r
P (Y = y) = ( 1)y pr q y
y
r
P (Y = y) = pr ( q)y , y = 0; 1; 2; 3; :::
y

o que justi…ca o seu nome “binomial negativa”.

r 1
Observação 28 Vimos também que a expansão por Taylor de (1 + x) =
(1 + x)r
é dada por
r
X
1
r
(1 + x) = xk para 1 < x < 1.
k
k=0

Portanto

X
1 X
1
r
P (Y = y) = pr ( q)y
y
y=0 y=0
X
1
r
= p r
( q)y
y
y=0
r r
= p (1 q)

= pr p r

= 1

Proposição 19 Se X BN (r; p), então

r
pet
mX (t) = , para t < ln q
1 qet
r
E(X) = ,
p
rq
V ar(X) = 2 .
p

Prova. (Em aula.)

Observação 29 Os resultados acima são intuitivos, uma vez que a v.a. X bino-

mial negativa pode ser vista como r replicações de variáveis aleatórias Geométricas.

141
Assim, se Xi Geo(p), para i = 1; 2; :::; n, independentes então X = X1 + X2 +

::: + Xr BN (r; p),

E(X) = E(X1 ) + E(X2 ) + ::: + E(Xr )


1 1 1
= + + ::: +
p p p
r
=
p

V ar(X) = V ar(X1 ) + V ar(X2 ) + ::: + V ar(Xr )


q q q
= 2
+ 2 + ::: + 2
p p p
rq
= 2,
p

resultados que con…rmam a proposição anterior. (Posteriormente justi…caremos os

cálculos acima, pois eles dependem de estruturas de vetores aleatórios e distribuições

conjuntas.)

Observação 30 Claramente, se X BN (1; p) então X Geo(p).

Exemplo 87 Uma peça produzida em série numa fábrica tem 10% de probabilidade

de ser defeituosa e as ocorrências de defeitos são independentes. Suponha que você

vá retirando aleatoriamente peças da produção até encontrar a 5a peça defeituosa.

Seja X a v.a. que representa o número de inspeções até que isso ocorra. Obtenha a

lei de X, a média e a variância de X.

6.5 A Distribuição de Poisson

O matemático francês Siméon-Denis Poisson constrói um belo processo que dá in-

teligibilidade matemática a fenômenos raros estudados ao longo do tempo contínuo.

142
Seu objetivo foi construir um modelo de contagem de ocorrências de um dado fenô-

meno num intervalo de tempo, a partir de um parâmetro que representa a taxa

média de ocorrências no intervalo estudado.

Siméon-Denis Poisson (1781 - 1840)

Veremos formalmente no curso de Probabilidade como construir tal modelo a

partir de algumas hipóteses a respeito do processo de ocorrência. Nesse curso intro-

dutório vamos apenas exibi-lo.

De…nição 35 Seja X uma variável aleatória de…nida em f0; 1; 2; 3; :::g tendo função

de probabilidade dada por

x
e
P (X = x) = , para x = 0; 1; 2; 3; ::: e > 0.
x!

Então X é dita ter distribuição de Poisson de parâmetro , X P( ).

Proposição 20 Se X P( ), então

(et 1)
mX (t) = e ,

E(X) = ,

V ar(X) = .

Prova. (Em aula.)

143
Exemplo 88 Suponha que uma fonte radioativa emita partículas a uma taxa de 20

por hora. Pergunta-se:

(a) Qual a probabilidade de que exatamente 5 partículas sejam emitidas durante

o período de 15 minutos?

(b) Supondo que comecemos a registrar as partículas às 9:00h, qual a probabili-

dade de que a primeira partícula registrada ocorra entre 9:04h e 9:10h?

Exemplo 89 Acidentes ocorrem numa plataforma de petróleo a uma taxa média de

1; 5 por mês. Pergunta-se:

(a) Qual a probabilidade de nenhum acidente em janeiro?

(b) Qual a probabilidade de ocorrer 4 acidentes no período de março a abril?

(c) Qual a probabilidade de haver pelo menos um acidente em cada mês do ano

de 1998?

Exemplo 90 O número de petroleiros que chegam a uma re…naria em cada dia

ocorre a uma taxa média de 2. As atuais instalações podem atender, no máximo, a

três petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a

outro porto.

(a) Em um dia, qual a probabilidade de se enviar petroleiros para outro porto?

(b) De quanto deverão ser aumentadas as instalações para permitir atender a

todos os navios que chegarem pelo menos em 95% dos dias?

6.6 A Distribuição Hipergeométrica

Seja uma população …nita de N elementos, contendo a pessoas com o atributo A

e b = N a pessoas sem o atributo A. Uma amostra de tamanho n é retirada

sem reposição da população. Seja X a variável aleatória que representa o número de

pessoas com o atributo A na amostra. A variável aleatória X é dita ter distribuição

144
Hipergeométrica de paramânetros N , a e n, denotado por X Hip(N; a; n) e

sua função de probabilidade é dada por

a N a
x n x
P (X = x) = , para maxf0; n bg x minfn; ag.
N
n
a b
Observação 31 Se X Hip(N; a; n), então, denotando p = N
eq= N
temos

E(X) = np,
N n
V ar(X) = npq .
N 1

Exemplo 91 Uma classe contém 40 homens e 20 mulheres. Um comitê deverá ser

formado por 6 alunos selecionados aleatoriamente da classe sem reposição. Qual a

probabilidade de que o comitê seja formado por uma maioria de homens?

Exemplo 92 Pequenos motores elétricos são expedidos em lotes de 50 unidades.

Antes que uma remessa seja aprovada, um inspetor escolhe 5 desses motores e os

inspeciona. Se nenhum dos motores inspecionados for defeituoso, o lote é aprovado.

Se um ou mais forem veri…cados defeituosos, todos os motores da remessa são in-

specionados. Suponha que existam, de fato, três motores defeituosos no lote. Qual

é a probabilidade de que a inspeção total seja necessária?

Exemplo 93 De um lote que contém 25 peças, das quais 5 são defeituosas, são

escolhidas 4 ao acaso. Seja X a variável aleatória que conta o número de defeituosas

na amostra. Determine a função de probabilidade de X, quando:

(a) as peças forem escolhidas com reposição;

(b) as peças forem escolhidas sem reposição.

145
6.7 Lista de Exercícios

Exercício 91 Um fabricante de peças de automóveis garante que uma caixa de suas

peças conterá, no máximo, duas defeituosas. Se a caixa contém 18 peças, e a exper-

iência tem mostrado que esse processo de fabricação produz 5% de peças defeituosas,

qual a probabilidade de que uma caixa satisfaça a garantia?

Resp: Seja X a v.a. que conta o número de peças defeituosas na caixa com
18
18 peças. Então P (X = x) = (0; 05)x (0; 95)18 x , x = 0; 1; 2; 3; :::; 18.
x
Desejamos P (X 2) = P (X = 0) + P (X = 1) + P (X = 2).

Exercício 92 Um homem dispara 12 tiros independentes num alvo. Se a probabili-

dade de acerto do atirador é de 90%, qual a probabilidade de que o alvo seja atingido

pelo menos duas vezes, sabendo-se que o mesmo foi atingido pelo menos uma vez?

Resp: Seja X a v.a. que conta o número de acertos do homem. Então P (X =


12
x) = (0; 9)x (0; 1)12 x , x = 0; 1; 2; 3; :::; 12. Desejamos P (X 2jX 1) =
x
P (X 2) 1 P (X < 2) 1 P (X = 0) P (X = 1)
= = .
P (X 1) 1 P (X < 1) 1 P (X = 0)

Exercício 93 Suponha que a probabilidade de que um certo experimento seja sucesso

é de 0; 4, e denote X o número de sucessos que são obtidos em 15 realizações inde-

pendentes do experimento. Qual a lei da variável aleatória X?

Resp: Seja X a v.a. que conta o número de sucessos nas 15 tentativas. Então
15
P (X = x) = (0; 4)x (0; 6)15 x , x = 0; 1; 2; 3; :::; 15.
x

Exercício 94 Uma moeda viciada onde a probabilidade de cara é 0,6 é lançada nove

vezes. Calcule a probabilidade de ocorrer um número par de caras.

Resp: Seja X a v.a. que conta o número de caras nas 9 tentativas. Então P (X =
9 P
4
x) = (0; 6)x (0; 4)9 x , x = 0; 1; 2; 3; :::; 9. Desejamos P (X = 2k) =
x k=0
P
4
9
(0; 6)2k (0; 4)9 2k
.
k=0 2k

146
Exercício 95 Um contador de partículas tem probabilidade de 0,7 de contar cada

partícula que entra em sua abertura, independentemente de uma partícula para outra.

Qual a distribuição do número de partículas que ele não registra, antes da primeira

partícula a ser contada. Qual a esperança e a variância desta distribuição?

Resp: Seja X a v.a. que conta o número de partículas que ele não registra,

antes da primeira partícula a ser contada. Então P (X = x) = (0; 3)x (0; 7), x=

0; 1; 2; 3; ::: ou seja X = Y 1 onde Y Geo(0; 7). Assim E (X) = E (Y ) 1=


1 3 0:3 30
0;7
1= 7
e V ar (X) = V ar (Y ) = (0;7)2
= 49
.

Exercício 96 Seja X uma variável aleatória com distribuição de Poisson, repre-

sentando o aparecimento de defeitos por hora numa linha de montagem de um com-

ponente eletrônico. Sabendo-se que a probabilidade de não ocorrer defeito em uma

hora qualquer é de 0,2, pede-se:

(a) A probabilidade de que numa certa hora ocorram não mais que dois defeitos.

Resp: Seja X a v.a. que conta o número de defeitos por hora, então X
1
P( ). Como P (X = 0) = e = 5
, temos = ln 5. Assim P (X = k) =
(ln 5)k
; k = 0; 1; 2; ::: Logo P (X 2) = P (X = 0) + P (X = 1) + P (X = 2) =
5k!
1 (ln 5)2
5
1 + ln 5 + 2
.

(b) Supondo um regime de trabalho de oito horas diárias, quantos defeitos deve-

mos esperar em um mês?

Resp: 240E(X) = 240 ln 5.

Exercício 97 Uma companhia de seguros pretende criar apólices de seguro indi-

viduais contra certos tipos de acidentes. Uma pesquisa piloto do serviço estatístico

permitiu estimar que, num período de um ano, cada pessoa tem uma chance em cada

cinco mil, aproximadamente, de se tornar vítima de um acidente coberto por este

tipo de apólice, e que a companhia poderá vender em média mil apólices de seguro

147
deste tipo por ano. Determinar a probabilidade de que o número de acidentados não

ultrapasse a três por ano (número a partir do qual a operação não é mais considerada

como rentável).

Resp: Seja X a v.a. que conta o número de acidentados no ano. Então X


1 1 k
1
e 5
5
P( ), com = 5
. Assim P (X = k) = ; k = 0; 1; 2; ::: Logo P (X 3) =
k!
1
P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = e 5 1 + 15 + 1
50
+ 1
750
.

Exercício 98 Livros produzidos por uma certa editora têm uma média de 1 defeito

de impressão por página. Qual é a probabilidade de que pelo menos em uma página

de um livro de 300 páginas desta editora haja pelo menos 5 defeitos?

Resp: Seja X a v.a. que conta o número de defeito de impressão por página.
e 1
Então X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Logo p = P (X 5) =
k!
P4 e 1
1 P (X < 5) = 1 . Seja Y a v.a. que conta o número de páginas com
k=0 k!

pelo menos 5 defeitos num livro de 300 páginas. Então Y B(300; p). Desejamos
300
P (Y 1) = 1 P (Y = 0) = 1 p0 (1 p)300 = 1 (1 p)300 = 1
0
300
P4 e 1
.
k=0 k!

Exercício 99 Gotas de chuva caem a uma taxa média de 30 gotas por cm2 e por

minuto. Qual a chance de um particular cm2 não ser atingido por qualquer gota de

chuva durante um período de 10 segundos?

Resp: Seja X a v.a. que conta o número de gotas por cm2 e por 10 segundos.

Então X P(5). Assim P (X = 0) = e 5 .

Exercício 100 Folhas de ‡andres de 2 metros de largura são produzidas em uma

fábrica e cortadas em lâminas a cada 5 metros de comprimento. Por estudos ante-

riores, sabe-se que os defeitos têm distribuição de Poisson com uma média de 0; 2

defeitos por metro quadrado. Se uma amostra aleatória de 10 lâminas é retirada da

produção, pergunta-se:

148
(a) Qual a probabilidade de haver mais do que uma lâmina na amostra com mais

de 1 defeito na superfície?

Resp: Seja X a v.a. que conta o número de defeitos na superfície de uma lâmina.
e 2 2x
Então X P(2). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim p = P (X > 1) =
x!
1 P (X 1) = 1 3e 2 . Seja Y a v.a. que conta o número de lâminas com pelo

menos 1 defeitos numa amostra de 10. Então Y B(10; p). Desejamos P (Y > 1) =
10 10
1 P (Y = 0) P (Y = 1) = 1 p0 (1 p)10 p1 (1 p)9 = 1
0 1
(1 p)10 10p (1 p)9 , com p = 1 3e 2 .

(b) Qual o número esperado de lâminas na amostra com mais de 1 defeito na

superfície? E a variância?

Resp: Desejamos E(Y ) = 10p e V ar(Y ) = 10p (1 p), com p = 1 3e 2 .

Exercício 101 Numa central telefônica, o número de chamadas chega com uma

média de 8 por minuto. Determinar a probabilidade de que num minuto se tenha:

(a) dez ou mais chamadas;

Resp: Seja X a v.a. que conta o número de chamadas por minuto. Então X
e 8 8x
P(8). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim P (X 10) = 1 P (X <
x!
P9 e 8 8x
10) = 1 .
x=0 x!
(b) menos que nove chamadas;
P8 e 8 8x
Resp: P (X 8) = .
x=0 x!
(c) entre sete (inclusive) e nove (exclusive) chamadas.
8 87 88
Resp: P (7 X < 9) = P (X = 7) + P (X = 8) = e + .
7! 8!

Exercício 102 Num certo tipo de fabricação de …ta magnética, ocorrem cortes a

uma taxa de um por 2:000 pés. Qual a probabilidade de que um rolo com 2:000 pés

de …ta magnética tenha:

(a) nenhum corte;

149
Resp: Seja X a v.a. que conta o número de cortes num rolo de 2:000 pés. Então
e 1
X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Assim P (X = 0) = e 1 .
k!
(b) no máximo dois cortes;
5e 1
Resp: P (X 2) = .
2
(c) pelo menos dois cortes.

Resp: P (X 2) = 1 2e 1 .

Exercício 103 Uma fonte radioativa é observada durante 7 intervalos de tempo,

cada um de dez segundos de duração. O número de partículas emitidas durante

cada período é contado. Suponha que o número de partículas emitidas X tenha

distribuição de Poisson com taxa de 0; 5 por segundo. Qual é a probabilidade de que

em cada um dos 7 intervalos de tempo, 4 ou mais partículas sejam emitidas?

Resp: Seja X a v.a. que conta o número de partículas emitidas em 10 segundos.


e 5 5x
Então X P(5). Assim P (X = x) = ; x = 0; 1; 2; ::: Assim p = P (X 4) =
x!
P3 e 5 5x
1 . Seja Y a v.a. que conta o número de intervalos com 4 ou mais partícu-
x=0 x!
7
las emitidas. Então Y B(7; p). Desejamos P (Y = 7) = p7 (1 p)0 = p7 ,
7
P3 e 5 5x
com p = 1 .
x=0 x!

Exercício 104 O número de partículas emitidas por uma fonte radioativa, durante

um período especí…co, é uma variável aleatória com distribuição de Poisson. Se a

probabilidade de não haver emissões for igual a 1=3, qual é a probabilidade de que

duas ou mais emissões ocorram?

Resp: Seja X a v.a. que conta o número de emissões durante um período es-

pecí…co, então X P( ). Como P (X = 0) = e = 31 , temos = ln 3. Assim


k
(ln 3)
P (X = k) = ; k = 0; 1; 2; ::: Logo P (X 2) = 1 P (X = 0) P (X = 1) =
3k!
2 1
3 3
ln 3.

150
Exercício 105 Em certa rodovia, a intensidade média do ‡uxo de tráfego é de 30

carros por minuto. Um medidor é colocado na rua para registrar o número de carros

passando por cima. Após justi…car o uso de um modelo de probabilidade adequado

a tal experimento, calcule:

(a) a probabilidade de que 2 ou mais carros sejam registrados durante determi-

nado intervalo de 2 segundos;

Resp: Seja X a v.a. que conta o número de carros registrados durante um inter-
e 1
valo de 2 segundos, então X P(1). Assim P (X = k) = ; k = 0; 1; 2; ::: Assim
k!
P (X 2) = 1 2e 1 .

(b) a probabilidade de passar mais de um minuto até registrar o primeiro carro.

Resp: Seja Y a v.a. que conta o número de carros registrados durante um in-
30
e 30k
tervalo de 1 minuto, então Y P(30). Assim P (X = k) = ; k = 0; 1; 2; :::
k!
30
Assim P (Y = 0) = e .

Exercício 106 Suponha que num dado …nal de semana o número de acidentes num

certo cruzamento tem distribuição de Poisson com média 0; 7. Qual a probabilidade

de que haverá pelo menos três acidentes no cruzamento durante o …nal de semana?

Resp: Seja X a v.a. que conta o número de acidentes num …nal de semana,
P
2 e 0;7
(0; 7)x
então X P(0; 7). P (X 3) = 1 P (X 2) = 1 .
x=0 x!

Exercício 107 Suponha que o número de defeitos num metro quadrado de tecido

tenha distribuição de Poisson com média 0; 4. Se uma amostra aleatória de 5 m2 de

tecido é inspecionada, qual a probabilidade de que o número total de defeitos nesta

amostra seja de pelo menos 6?

Resp: Seja X a v.a. que conta o número de defeitos numa amostra de 5 m2 de


P5 e 2 2x
tecido. Então X P(2). P (X 6) = 1 P (X 5) = 1 .
x=0 x!

151
Exercício 108 Suponha que uma certa …ta magnética contenha, em média, 3 de-

feitos por 1:000 pés. Qual a probabilidade de que um rolo de …ta de 1:200 pés não

contenha defeitos?

Resp: Seja X a v.a. que conta o número de defeitos num rolo de …ta de 1:200
3;6
pés.Então X P(3; 6). P (X = 0) = e .

Exercício 109 Suponha que, em média, uma certa loja sirva 15 clientes por hora.

Qual a probabilidade de que a loja não servirá mais do que 20 clientes num particular

período de 2 horas?

Resp: Seja X a v.a. que conta o número de clientes que chegam num período de
P
20 e 30x
30
2 horas. Então X P(30). P (X 20) = .
x=0 x!

Exercício 110 Suponha que num grande lote contendo T produtos manufaturados,

30% dos produtos são defeituosos e 70% são bons. Suponha também que 10 produtos

são selecionados aleatoriamente sem reposição do lote. Determine:

(a) uma expressão exata para a probabilidade de que não mais do que um produto

defeituoso seja obtido, e

Resp: Seja X a v.a. que conta o número de defeituosos


0 no lote
10 de T produtos.
1
@
0; 3T A@
0; 7T A
x 10 x
Então X Hip(T ; 0; 3T ; 10). Assim P (X = x) = 0 1 , para
@
T A
10
maxf0; 10 0; 7T g x minf10; 0; 3T g. Assim supondo que T 15 para que 10
1 0; 7T 0; 3T 0; 7T
0; 7T < 0, temos que P (X 1) = 0 1 + .
T A@
10 1 9
10
(b) uma expressão aproximada para esta probabilidade, baseada na distribuição

binomial.

Resp: Seja X a v.a. que conta o número de defeituosos no lote de T produtos, com
10
T grande. Então X B(10; 0; 3). Assim P (X = x) = (0; 3)x (0; 7)10 x , x =
x

152
10
0; 1; 2; 3; :::; 10. Assim P (X 1) = P (X = 0)+P (X = 1) = (0; 3)0 (0; 7)10 +
0
10
(0; 3)1 (0; 7)9 = (0; 7)10 + 3 (0; 7)9 .
1

153
Capítulo 7

Modelos de Variáveis Aleatórias


Contínuas

7.1 A Distribuição Uniforme

Diz-se que a variável aleatória X tem distribuição uniforme no intervalo [a; b], de-

notado por X U[a; b] se sua função de densidade de probabilidade é dada por


( 1
, se a x b
fX (x) = b a
0, caso contrário.
Assim a função de distribuição de X é dada por
8
< 0,
> se x < a
x a
FX (x) = , se a x < b
>
: b a
1, se x b
Observação 32 Se X U[a; b] então

a+b
E(X) =
2
(b a)2
V ar(x) =
12

Exemplo 94 Suponha que X tenha distribuição uniforme no intervalo ( 2; 8).

Ache a f.d.p. de X e encontre P (0 < X < 7).

7.2 A Distribuição Exponencial

Diz-se que a variável aleatória X tem distribuição exponencial com parâmetro ,

denotado por X Exp( ), se a função de densidade de probabilidade de X é dada

154
por
e x, x 0
fX (x) =
0, caso contrário

Assim a função de distribuição de X é dada por

0, se x < 0
FX (x) =
1 e x , se x 0

Proposição 21 (Propriedade Sem Memória) Seja X Exp( ). Então, para

todo t > 0 e s > 0, temos

P (X t + sjX t) = P (X s) .

Prova. (Em aula.)

Proposição 22 Se X Exp( ) então

mX (t) = , para t < ,


t
1
E(X) = e
1
V ar(X) = 2.

Prova. (Em aula.)

Exemplo 95 Para um certo tipo de componente eletrônico, a vida útil X (em mil

horas) tem distribuição exponencial com média 2. Pergunta-se:

(a) Qual a probabilidade de que um novo componente dure mais do que 1:000

horas?

(b) Se um componente já durou 1:000 horas, qual a probabilidade de que ele dure

pelo menos 1:000 horas mais?

Exemplo 96 O tempo de vida de lâmpadas produzidas pelo fabricante X tem dis-

tribuição exponencial com média de 20 dias. Se 10 lâmpadas são ligadas simultane-

amente, qual a probabilidade de que pelo menos 3 delas durem mais de 25 dias?

155
7.3 A Distribuição Normal
7.3.1 A Distribuição Normal Padrão

Diz-se que uma variável aleatória Z tem Distribuição Normal (ou Gaussiana) Padrão

com média zero e variância 1, denotado por Z N (0; 1), se a função de densidade

de probabilidade de Z é dada por

1 z2
fZ (z) = p e 2 , 1 < z < 1.
2

Sua forma é de um sino simétrico em torno de 0 como na …gura abaixo:

Proposição 23 Se Z N (0; 1), então

t2
mZ (t) = e 2

E(Z) = 0

V ar(Z) = 1

Prova. (Em aula.)

Vemos pela fórmula da Distribuição Normal e pelo grá…co acima que a curva

normal é simétrica e se aproxima rapidamente de zero nas caudas por ter em seu
z2
núcleo e 2 . Por esse motivo, as distribuições normais são candidatas a modelar

dados cujos histogramas sejam aproximadamente simétricos e de caudas leves, ou

156
seja, dados sem valores extremos ocorrendo com certa frequência e com coe…ciente

de assimetria próximo de 0.

De…na P (Z z) = (z), com (z) denominada função de distribuição da

variável aleatória Z. Então


Z z Z z
1 u2
(z) = fZ (u)du = p e 2 du.
1 1 2

Como (z) não pode ser obtida analiticamente, o valor de (z) é dado por

integração numérica e seus valores são tabelados (veja a tabela anexada).

Vejamos então como obter as probabilidades de interesse.

Observe que a variável Z vai de 3; 49 a 3; 49 na tabela, sendo a primeira coluna

referente à parte inteira e à primeira casa decimal de z e as outras colunas referentes

à segunda casa decimal de z. Vemos já com isso, que, embora Z esteja de…nida em

toda a reta real, a probabilidade é praticamente nula de um resultado experimental

modelado pela normal padrão sair do intervalo [ 3; 49; 3; 49]. Já vimos que isto se

dá porque sua função de densidade de probabilidade tem decaimento exponencial no

quadrado de z. Observe também que, como Z é variável aleatória contínua, temos

(z) = P (Z z) = P (Z < z), ou seja, podemos intercambiar os sinais de < ou ,

já que a probabilidade num ponto é nula. Vejamos então alguns exemplos abaixo:

Exemplo 97 Seja Z N (0; 1). Calcule:

(a) P (Z 1; 36)

(b) P (Z 0; 38)

(c) P (0; 31 Z < 2; 72)

(d) P ( 1; 32 Z 0; 3)
Rz
Solução: A tabela nos oferece (z) = P (Z z) = 1
fZ (u)du, ou seja, a área

abaixo da curva à esquerda de z. Para os valores que nos interessam temos:

157
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.4 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0003 0:0002
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
-1.3 0:0968 0:0951 0:0934 0:0918 0:0901 0:0885 0:0869 0:0853 0:0838 0:0823
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
:
0.3 0:6179 0:6217 0:6255 0:6293 0:6331 0:6368 0:6406 0:6443 0:6480 0:6517
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
2.7 0:9965 0:9966 0:9967 0:9968 0:9969 0:9970 0:9971 0:9972 0:9973 0:9974
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
3.4 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9997 0:9998

(a) P (Z 1; 36) = 0:0869 = 8; 69% (obtido pelo cruzamento da linha 1; 3

com a coluna 0; 06).

(b) P (Z 0; 38) = 1 P (Z 0; 38) = 1 0:6480 = 0; 352 = 35; 2%.

(c) P (0; 31 Z < 2; 72) = P (Z 2; 72) P (Z 0; 31) = 0:9967 0:6217 =

0; 375 = 37; 5%.

(d) P ( 1; 32 Z 0; 3) = P (Z 0; 3) P (Z 1; 32) = 0:6179 0:0934 =

0; 5245 = 52; 45%.

Mais relevante para a modelagem é a distribuição Normal com média e va-


2
riância , pois ela de…ne uma uma classe de in…nitas curvas que podem se ajustar

a dados aproximadamente simétricos com média amostral Xn e variância amostral

S 2 , se o ajuste for validado.

2
7.3.2 A Distribuição Normal com média e variância

Diz-se que uma variável aleatória X tem Distribuição Normal (ou Gaussiana) com
2 2
média e variância , denotado por X N( ; ), se a função de densidade de

probabilidade de X é dada por

1 (x )2
fX (x) = p e 2 2 , 1 < x < 1:
2

158
Vemos que aqui também a forma da função de densidade de X é um sino simétrico

em torno da média , conforme o grá…co abaixo:

Como toda distribuição simétrica, a média, a mediana e moda da Distribuição

Normal são iguais, e pode-se mostrar que a área abaixo da curva normal é unitária.

2 2 2
Proposição 24 Se X N( ; ), então Y = X+ N( + ; ), para

6= 0 e constantes reais.

Prova. (Em aula.)

2 X
Corolário 5 Se X N( ; ), então Z = N (0; 1).

Prova. (Em aula.)

2
Proposição 25 Se X N( ; ), então

t+ 21 2 t2
mX (t) = e ,

E(X) = e

2
V ar(X) = .

Prova. (Em aula.)


1
Como o desvio-padrão aparece no fator p , vemos que, quanto maior a
2
variabilidade dos dados, mais esse fator decresce tendendo a zero, fazendo com que

159
a curva …que mais e mais achatada, indicando de fato maior dispersão dos dados. O

grá…co a seguir representa diversas distribuições normais variando-se os parâmetros

média e desvio-padrão .

A função de distribuição da variável aleatória X é de…nida como


Z x Z x
1 (u )2
X (x) = P (X x) = fX (u)du = p e 2 2 du.
1 1 2

Exemplo 98 Suponha que os escores de QI sejam normalmente distribuídos, com

uma média de 100 e um desvio-padrão de 15. Determine a probabilidade de que uma

pessoa selecionada aleatoriamente tenha uma pontuação de QI inferior a 115.

Solução: Seja X a variável aleatória que denota o QI de uma pessoa. Então

sabemos que
2
X N( ; )

onde = 100 e = 15. Assim, temos X N (100; 225). Sabemos também que

X X 100
Z= = N (0; 1).
15
1 (x 100)2
Desejamos P (X < 115), ou seja, a área à esquerda de 115 sob a curva p e 450 .
15 2

160
Mas

P (X < 115) = P (X 100 < 115 100)


X 100 115 100
= P <
15 15
115 100
= P Z<
15
= P (Z < 1)

Assim

P (X < 115) = P (Z < 1) = 0; 8413,

obtido através da normal-padrão. Temos assim a seguinte estrutura equivalente:

161
Exemplo 99 As contas mensais de serviços públicos em determinada cidade são

normalmente distribuídas, com média de R$ 100:000 e desvio padrão de R$ 12:000.

Uma conta é escolhida aleatoriamente. Determine a probabilidade de ela estar entre

R$ 80:000 e R$ 115:000.

Solução: Seja X a variável aleatória que denota o valor da conta. Então sabemos

que
2
X N( ; )

onde = 100:000 e = 12:000. Assim, temos X N (100:000; (12:000)2 ). Sabemos

também que
X X 100:000
Z= = N (0; 1).
12:000

Desejamos P (80:000 X 115:000). Mas

P (80:000 X 115:000)

= P (80:000 100:000 X 100:000 115:000 100:000)


80:000 100:000 X 100:000 115:000 100:000
= P
12:000 12:000 12:000
= P ( 1; 67 Z 1; 25)

= P (Z 1; 25) P (Z 1; 67)

= 0; 8944 0; 0475

= 0; 8469

Assim

P (80:000 X 115:000) = 84; 69%.

Propriedades das Distribuições Normais

162
Propriedade 1: Se X N( ; 2
) então

P( X + )

= P( X + )

= P( X )
X
= P

= P( 1 Z 1)

= P (Z 1) P (Z 1)

= 0; 8413 0; 1587

P( X + ) = 0; 6826 = 68; 26%:

Da mesma forma, temos

P( 2 X +2 )

= P( 2 X +2 )

= P( 2 X 2 )
2 X 2
= P

= P( 2 Z 2)

= P (Z 2) P (Z 2)

= 0; 9772 0; 0228

P( 2 X + 2 ) = 0; 9544 = 95; 44%:

163
e …nalmente

P( 3 X +3 )

= P( 3 X +3 )

= P( 3 X 3 )
3 X 3
= P

= P( 3 Z 3)

= P (Z 3) P (Z 3)

= 0; 9987 0; 0013

P( 3 X + 3 ) = 0; 9974 = 99; 74%:

Assim temos a seguinte representação:

Propriedade 2: Se X N( x;
2
x) e Y = aX + b, com a 6= 0, então Y
2
N( y; y) onde

y = E (Y ) = E (aX + b) = aE (X) + b = a x +b

2
y = V ar (Y ) = V ar (aX + b) = a2 V ar (X) = a2 2
x

164
ou seja
2
X N( x; x) =) Y = aX + b N (a x + b; a2 2
x)

O que a propriedade acima nos diz é que transformações lineares ou a…ns de uma

variável normal é também uma variável normal.

Propriedade 3: Se Xi N ( i; 2
i) para i = 1; 2; :::; n são variáveis aleatórias

independentes e se Y = 1 X1 + 2 X2 + ::: + n Xn + , com ai 6= 0 para algum i,


2
então Y N( y; y) onde

y = E (Y ) = E ( 1 X1 + 2 X2 + ::: + n Xn + )

= 1E (X1 ) + 2E (X2 ) + ::: + nE (Xn ) +


X
n

y = i i +
i=1
2
y = V ar (Y ) = V ar ( 1 X1 + 2 X2 + ::: + n Xn + )

2 2 2
= 1V ar (X1 ) + 2V ar (X2 ) + ::: + nV ar (Xn ) + V ar ( )

2 2 2
= 1V ar (X1 ) + 2V ar (X2 ) + ::: + nV ar (Xn ) + 0
X
n
2 2 2
y = i i
i=1

ou seja

X
n Xn X
n
2 2 2
Xi N ( i; i) =) Y = i Xi + N( i i + ; i i)
i=1 i=1 i=1

O que a propriedade acima nos diz é que transformações lineares ou a…ns de

variáveis normais independentes é também uma variável normal.

Propriedade 4: Se Xi N( ; 2
) para i = 1; 2; :::; n são variáveis aleatórias

independentes e se Sn = X1 + X2 + ::: + Xn , então

Sn N (n ; n 2 ).

165
2
Essa propriedade decorre da Propriedade 3, tomando i = 1, i = e i =
2
para todo i e = 0.

Propriedade 5: Se Xi N( ; 2
) para i = 1; 2; :::; n são variáveis aleatórias
X1 + X2 + ::: + Xn
independentes e se Xn = , então
n

2
Xn N( Xn ; Xn ).

2
2
onde Xn = e Xn
= , pois
n
X1 + X2 + ::: + Xn
Xn = E Xn = E
n
1
= [E (X1 ) + E (X2 ) + ::: + E (Xn )]
n
1 n
Xn = [ + + ::: + ] = = .
n n
2 X1 + X2 + ::: + Xn
Xn = V ar Xn = V ar
n
1
= [V ar (X1 ) + V ar (X2 ) + ::: + V ar (Xn )]
n2
2 1 2 2 2 n 2 2

Xn = + + ::: + = = .
n2 n2 n

Assim
2
2
Xi N( ; ) =) Xn N( ; ).
n

Vamos ilustrar com alguns exemplos as propriedades acima.

Exemplo 100 As durações de gravidez têm distribuição aproximadamente normal

com média de 268 dias e desvio-padrão de 15 dias.

(a) Selecionada aleatoriamente uma mulher grávida, determine a probabilidade

de que a duração de sua gravidez seja inferior a 260 dias.

(b) Se 25 mulheres escolhidas aleatoriamente são submetidas a uma dieta es-

pecial a partir do dia em que engravidam, determine a probabilidade de os prazos

166
de duração de suas gravidezes terem média inferior a 260 dias (admitindo-se que a

dieta não produza efeito).

(c) Se as 25 mulheres têm realmente média inferior a 260 dias, há razão de

preocupação para os médicos de pré-natal? Justi…que adequadamente.

Solução: (a) Seja X a v.a. que denota a duração (em dias) de gravidez de uma

dada mulher. Então sabemos que X N (268; 225). Sabemos também que

X X 268
Z= = N (0; 1).
15

Desejamos

X 268 260 268


P (X < 260) = P <
15 15
= P (Z < 0; 53)

= 0; 2981

Assim

P (X < 260) = 29; 81%.

(b) Seja Xi a v.a. que denota a duração (em dias) de gravidez da i-ésima mulher

(i = 1; 2; :::25). Então sabemos que Xi N (268; 225). Sabemos também que

2
Xn N( ; ).
n
2
225
Mas = 268 e = = 9. Assim
n 25

X25 N (268; 9).

Sabemos também que


X25 268
Z= N (0; 1).
3

167
Desejamos

X25 268 260 268


P X25 < 260 = P <
3 3
= P (Z < 2; 67)

= 0; 0038

P X25 < 260 = 0; 38%.

(c) Pelo item (b), sob a hipótese de que a dieta não tem efeito, temos uma

chance ín…ma de 0; 38% de obtermos uma média de tempos de gravidez abaixo de

260, portanto um evento raro. Como isso de fato ocorreu, temos evidência de que

na verdade a dieta alterou o tempo de gravidez das mulheres, fazendo-o diminuir, o

que é preocupante do ponto de vista médico, já que abaixo de 260 dias a dieta estaria

induzindo a partos prematuros.

Exemplo 101 O peso de uma determinada fruta é uma variável aleatória com dis-

tribuição normal com média de 200 gramas e desvio-padrão de 50 gramas. Determine

a probabilidade de um lote contendo 100 unidades dessa fruta pesar mais que 21 kg.

Solução: Seja Xi a v.a. que denota o peso (em gramas) da i-ésima fruta do

lote, i = 1; 2; :::; 100. Sabemos que Xi N (200; 502 ). Sabemos também que o peso

total do lote é dado pela variável aleatória

S100 = X1 + X2 + ::: + X100 N (100 ; 100 2 ),

2
com = 200 e = 502 . Assim

S100 N (20:000; 5002 )

Assim
S100 20:000
Z= N (0; 1).
500

168
Desejamos

S100 20:000 21:000 20:000


P (S100 > 21:000) = P >
500 500
= P (Z > 2)

= 1 P (Z 2)

= 1 0; 9772

= 0; 0228

P (S100 > 21:000) = 2; 28%.

169
Capítulo 8

Teorema Central do Limite

2
Vimos anteriormente que se Xi N( ; ) para i = 1; 2; :::; n são variáveis aleatórias
X1 + X2 + ::: + Xn
independentes e se Xn = , então
n

2
Xn N( Xn ; Xn ).

2
2
2
onde Xn = e Xn
= . Assim Xn N( ; n
). No entanto, independentemente
n
da distribuição das variáveis Xi , se estas forem independentes e identicamente dis-
2
tribuídas com média e variância , teremos sempre que

2
2
Xn = E Xn = e Xn = V ar Xn = ,
n

pois para esses cálculos nos valemos apenas das propriedades da esperança e da

variância. Com isso, observamos que, quando n cresce, a variabilidade da variável

aleatória Xn decresce, tendendo a zero, conforme n tende a in…nito. Isso signi…ca

que quanto maior o número de elementos da amostra, menor será a variabilidade dos

valores da média amostral, indicando uma alta concentração dos valores das médias,

obtidas de várias amostras. Qual a consequência a se esperar disso? Nossa intuição

nos diria que se …zéssemos um histograma de vários valores de médias amostrais,

este histograma tenderia a ter uma forma simétrica e cada vez mais leptocúrtico

conforme o tamanho da amostra crescesse. E é isso de fato o que nos informa o

Teorema Central do Limite abaixo.

170
Teorema 13 (Teorema Central do Limite) Seja X1 ; X2 ; :::; Xn uma sequência

de variáveis aleatórias independentes e identicamente distribuídas com média e


2
variância . De…na as variáveis aleatórias

Sn = X1 + X2 + ::: + Xn

X1 + X2 + ::: + Xn
Xn =
n

então pode-se mostrar que, para n su…cientemente grande, qualquer que seja a dis-

tribuição de probabilidade dos Xi , temos

2
Sn N (n ; n 2 ) e Xn N( ; ).
n

Consequentemente, temos

Sn n
p N (0; 1)
n

e
Xn
N (0; 1).
p
n

A questão que se coloca é: o que é n su…cientemente grande? Se a distribuição das

variáveis aleatórias já for aproximadamente simétrica, então até para amostras de

tamanho pequeno o Teorema Central do Limite já garantirá uma ótima aproximação

da distribuição real da soma das variáveis e da média das variáveis. No entanto, no

pior cenário, considera-se n 30, como su…cientemente grande para valer o Teorema

Central do Limite.

171
Exemplo 102 A média de altura dos alunos da UFRJ é 1; 75 m com desvio-padrão

de 0; 1 m. Se uma amostra aleatória de 40 estudantes da UFRJ for selecionada,

qual é a probabilidade de que a média de altura na amostra seja superior a 1; 78 m?

Solução: Seja Xi a v.a. que denota o altura (em cm) do i-ésimo aluno da

amostra, i = 1; 2; :::; 40. Sabemos que

= E (Xi ) = 175 e = 10.

Embora não saibamos qual a distribuição das alturas, como o tamanho da amostra

é grande (n = 40), podemos nos valer do Teorema Central do Limite para a…rmar

que
2
X40 N( ; ).
40
Assim
100
X40 N (175; )
40
e
X 40 175
Z= N (0; 1).
10
p
40

172
Desejamos
0 1
B X 40 175 178 175 C
P X40 > 178 = PB@ 10
>
10
C
A
p p
40 40
= P (Z > 1; 90)

P X40 > 178 = 1 P (Z 1; 90)

= 1 0; 9713

= 0; 0287

P X40 > 178 = 2; 87%.

Aproximação Normal à Binomial

Vimos que se X1 ; X2 ; :::; Xn é uma seqüência de variáveis aleatórias independentes

de Bernoulli com parâmetro p, então Sn = X1 + X2 + ::: + Xn B(n; p). Assim, pelo

Teorema Central do Limite, para n su…cientemente grande Sn pode ser aproximada

por uma distribuição normal, já que

Sn N (np; npq).

ou, equivalentemente,
Sn np
p N (0; 1).
npq

Suponha Sn = X1 + X2 + ::: + Xn B(n; 41 ). Então para n = 5, 20 e 50, temos

as seguintes aproximações da curva Normal à Binomial:

173
Observe pelo grá…co acima, que para aproximar a probabilidade de X = k na Bi-
1 1
nomial é necessário integrar a curva Normal no intervalo k 2
;k + 2
, denominado

de correção de continuidade. Vejamos como fazer isso a partir de um exemplo.

Exemplo 103 Um par de dados é lançado 180 vezes por hora (aproximadamente).

(a) Qual a probabilidade aproximada de que 25 ou mais lançamentos tenham tido

soma 7 na primeira hora? (b) Qual a probabilidade aproximada de que entre 700 e

750 lançamentos tenham tido soma 7 durante 24 horas?

Solução: (a) Seja X a variável aleatória que conta o número de vezes em que

houve soma 7 na primeira hora. Como há 180 realizações na primeira hora e como

a probabilidade de soma 7 em um par de dados é 61 , temos que a distribuição exata

de X é Binomial com n = 180 e p = 61 . Assim

k 180 k
180 1 5
P (X = k) = , k = 0; 1; 2; 3; :::; 180.
k 6 6

1
Como n é grande, temos que X N (np; npq). Mas np = 180 6
= 30 e npq =

174
1 5
180 6 6
= 25. Assim

X N (30; 25)

Com isso, temos


X 30
Z= N (0; 1).
5
Desejamos

P (X 25) = 1 P (X < 25)


X
24
180 1
k
5
180 k
= 1 ,
k 6 6
k=0

cálculo esse ingrato de ser feito. Pela aproximação da Normal com a correção de

continuidade, temos

X 30 24; 5 30
P (X 24; 5) = P
5 5
= P (Z 1; 1)

= 1 P (Z 1; 1)

= 1 0; 1357

= 0; 8643

P (X 25) = 86; 43%.

(b) Seja Y a variável aleatória que conta o número de vezes em que houve soma

7 durante 24 horas. Como há 4:320 (180 24) realizações em 24 horas e como a

probabilidade de soma 7 em um par de dados é 61 , temos que a distribuição exata de

X é Binomial com n = 4:320 e p = 16 . Assim


k 4:320 k
4:320 1 5
P (Y = k) = , k = 0; 1; 2; 3; :::; 4:320.
k 6 6
1
Como n é grande temos que Y N (np; npq). Mas np = 4:320 6
= 720 e
1 5
npq = 4:320 6 6
= 600. Assim

Y N (720; 600)

175
Com isso, temos
Y 720
Z= p N (0; 1).
600
Desejamos

X
750
4:320 1
k
5
4:320 k
P (700 Y 750) = ,
k 6 6
k=700

cálculo esse extremamente complicado de ser feito, já que as combinações envolvi-

das são números muito grandes. Pela aproximação da Normal com a correção de

continuidade, temos

699; 5 720 Y 720 750; 5 720


P (699; 5 Y 750; 5) = P p p p
600 600 600
= P ( 0; 84 Z 1; 24)

= P (Z 1; 24) P (Z 0; 84)

= 0; 8925 0:2005

= 0; 692

P (700 Y 750) = 69; 2%.

8.1 Lista de Exercícios

Exercício 111 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro

são distribuídos normalmente, com média de R$ 10:000; 00 e desvio-padrão de R$

1:500; 00. Um depósito é selecionado ao acaso dentre todos referentes ao mês em

questão. Encontrar a probabilidade de que o depósito seja:

(a) R$ 10:000; 00 ou menos; Resp.: 50%

(b) pelo menos R$ 10:000; 00; Resp.: 50%

(c) um valor entre R$ 12:000; 00 e R$ 15:000; 00; Resp.: 9; 13%

(d) maior do que R$ 20:000; 00. Resp.: 0%

176
Exercício 112 A temperatura T de destilação do petróleo é crucial na determi-

nação da qualidade …nal do produto. Suponha que T seja uma v.a. com distribuição

uniforme no intervalo (150; 300). Suponha que o custo para produzir um galãode

petróleo seja C1 reais. Se o óleo for destilado a uma temperatura inferior a 200 , o

produto obtido é vendido a C2 reais; se a temperatura for superior a 200 , o produto

é vendido a C3 reais.

(a) Faça o grá…co da f.d.p. da v.a. T.


2C3 C2
(b) Qual o lucro esperado por galão? Resp.: + C1
3 3

Exercício 113 Seja X N (100; 100). Calcule:

(a) P (X 80). Resp.: 97; 7%

(b) O valor de , tal que P (100 X 100 + ) = 0; 95. Resp.: = 19; 6

Exercício 114 As alturas de 10:000 alunos de um colégio têm distribuição aproxi-

madamente normal, com média 170 cm e desvio padrão 5 cm.

(a) Qual o número esperado de alunos com altura superior a 165 cm? Resp.:

9:413

(b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas

dos alunos? Resp.: (164; 25; 175; 75)

Exercício 115 As vendas de um determinado produto têm distribuição aproximada-

mente normal, com média 500 e desvio-padrão 50. Se a empresa decide fabricar 600

unidades no mês em estudo, qual a probabilidade de que não possa atender a todos

os pedidos, por estar com a produção esgotada? Resp.: 2; 3%

Exercício 116 Suponha que as amplitudes de vida de dois aparelhos elétricos, D1

e D2 , tenham distribuições N (42; 36) e N (45; 9), respectivamente.

177
(a) Se os aparelhos são feitos para serem usados por um período de 45 horas,

qual o aparelho deve ser preferido? Resp.: D2

(b) Se os aparelhos são feitos para serem usados por um período de 49 horas,

qual o aparelho deve ser preferido? Resp.: D1

Exercício 117 O diâmetro X de rolamentos esféricos produzidos por uma fábrica

tem distribuição N (0; 6140; (0; 0025)2 ). O lucro L de cada rolamento depende de seu

diâmetro. Assim

L = 0; 10 se o rolamento for bom, isto é, 0; 610 < X < 0; 618;

L = 0; 05 se o rolamento for recuperável, isto é, 0; 608 < X < 0; 610 ou 0; 618 <

X < 0; 620;

L= 0; 10 se o rolamento for defeituoso, isto é, X < 0; 608 ou X > 0; 620.

(a) Calcule as probabilidades de que os rolamentos sejam bons, recuperáveis e

defeituosos. Resp.: 0; 8904; 0; 0932; e 0; 0164

(b) Calcule o lucro médio por rolamento produzido. Resp.: 0; 09206

Exercício 118 Seja Y com distribuição Binomial de parâmetros n = 10 e p = 0; 4.

Determine a aproximação normal para:

(a) P (3 < Y < 8). Resp.: 0; 6136

(b) P (Y 7). Resp.: 0; 0537

(c) P (Y < 5). Resp.: 0; 6255

Exercício 119 Suponha que um mecanismo eletrônico tenha tempo de vida X regido

por uma distribuição exponencial com média de 1000 horas. Suponha que o custo

de fabricação de um item seja 2 reais e o preço de venda seja 5 reais. O fabricante

garante total devolução do valor pago se X 900. Qual o lucro esperado por item

produzido? Resp.: 0; 033

178
Exercício 120 De um lote de produtos manufaturados, extraímos 100 itens ao

acaso. Se 10% dos itens são defeituosos, calcule a probabilidade exata de 12 itens

serem defeituosos e a probabilidade aproximada pela normal. Resp.: P (X = 12) =


100
(0; 1)12 (0; 9)88 ; P (X = 12) = 0; 1043
12

Exercício 121 A con…abilidade de um mecanismo eletrônico é a probabilidade de

que ele funcione sob as condições para as quais foi planejado. Uma amostra de 1000

desses itens é escolhida ao acaso e os itens são testados, obtendo-se 30 defeituosos.

Calcule a probabilidade de se obter pelo menos 30 itens defeituosos, supondo que a

con…abilidade de cada item é 0; 95. Resp.: aproximadamente 0; 9986

Exercício 122 A distribuição dos comprimentos dos elos da corrente de bicicleta é

normal, com média 2 cm e variância 0; 01 cm2 . Para que uma corrente se ajuste à

bicicleta, deve ter comprimento total entre 58 e 61 cm.

(a) Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta?

Resp.: 3; 41%

(b) E para uma corrente com 29 elos? Resp.: 50%

Exercício 123 Cada seção usada para a construção de um oleoduto tem um com-

primento com distribuição normal com média 5 m e desvio padrão de 20 cm. O

comprimento total do oleoduto será de 8 km.

(a) Se a …rma construtora do oleoduto encomendar 1600 seções, qual é a proba-

bilidade de ela ter que comprar mais do que uma seção adicional, isto é, de as 1600

seções somarem menos do que 7995m? Resp.: 26; 60%

(b) Qual é a probabilidade do uso exato de 1599 seções, isto é, a soma das 1599

seções estar entre 8000 e 8005m? Resp.: 16; 03%

179
Exercício 124 Seja X uma v.a. com distribuição uniforme em [ a; 3a]. Determine
4a2
a média e a variância de X. Resp.: a e , respectivamente.
3

Exercício 125 A máquina de empacotar um determinado produto o faz segundo

uma distribuição normal, com média e desvio-padrão 10 g.

(a) Em quanto deve ser regulado o peso médio para que apenas 10% dos pacotes

tenham menos do que 500 g? Resp.: = 512; 82

(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de

4 pacotes escolhidos ao acaso seja inferior a 2 kg? Resp.: 0; 519%

Exercício 126 Um elevador pode suportar uma carga máxima de 500 kg. Se a

distribuição X dos pesos dos usuários é normal com média 70 kg e desvio-padrão de

10 kg,

(a) qual a probabilidade de que o peso limite seja excedido para um grupo de 7

passageiros? Resp.: 35; 27%

(b) qual a probabilidade de que o peso limite seja excedido para um grupo de 6

passageiros? Resp.: 0; 055%

180
Capítulo 9

Estimação

Nesta aula exporemos as ideias centrais da Teoria de Estimação, dando ênfase à esti-

mação intervalar, já que a Teoria de Estimação na Estatística é de uma complexidade

que vale um curso inteiro para o seu tratamento adequado. Vimos que a problema-

tização mais central da Estatística consiste em se estimar o valor de determina-

dos parâmetros populacionais à luz das informações obtidas de uma amostra dessa

mesma população, através de um estimador convenientemente escolhido para "acer-

tar"em média o valor do parâmetro. Assim, partimos inicialmente de um estimador

pontual com propriedades desejadas e construímos uma distribuição de probabili-

dade amostral do estimador a …m de podermos estabelecer um intervalo de con…ança

para o parâmetro em estudo. Suponha que o alvo a ser atingido seja o parâmetro

populacional e que cada estimativa obtida de diversas amostras da população repre-

sente um "tiro". Então quando a média dos valores dos "tiros"(ou seja, a média de

diversas estimativas para o mesmo parâmetro) recai no alvo (parâmetro), dizemos

que nosso estimador é não-viesado (ou não-viciado, ou ainda não-tendencioso). Ob-

viamente, mais do que ter a média dos "tiros"no valor do parâmetro, gostaríamos

também que o atirador fosse preciso nos resultados. Assim podemos ter as seguintes

situações para estimadores de parâmetros populacionais:

181
Não-Viesado e Preciso Viesado e Preciso

Não-Viesado e Impreciso Viesado e Impreciso

Você já deve ter percebido que os melhores estimadores são os não-viesados

e precisos, certo? Mas nem sempre é possível obtê-los... Quando o estimador é

viesado e preciso, é possível corrigir o "estrabismo"do estimador e fazer com que ele

passe acertar em média o valor do parâmetro. É o caso em que discutimos o porquê

de se dividir a variância amostral por n 1 ao invés de n, ao contrário do cálculo da

variância populacional. Se dividíssemos a variância amostral por n, os tiros gerariam

um viés (diferença entre a média dos tiros e o valor do parâmetro) ocasionando um

erro de estimação. Assim, para os principais parâmetros populacionais tratados na

estatística, temos os seguintes estimadores pontuais não-viesados.

182
Parâmetro Estimador
Pn
Xi
Média X n = i=1
n
X o
Proporção p p^ = (X: n de "sucessos"na amostra)
n Pn 2
2 2 i=1 Xi Xn
Variância S =
s n 1
Pn 2
i=1 Xi Xn
Desvio-Padrão S=
n 1
Além desses principais estimadores, podemos citar outros de interesse, como:

a mediana amostral como um estimador natural da mediana populacional;

a moda amostral como um estimador natural da moda populacional;

a distância interquartil amostral como um estimador natural da distância in-

terquartil populacional;

o coe…ciente de correlação amostral r como um estimador natural do coe…ciente

de correlação populacional (X; Y );


1 Pn
a covariância amostral Sxy = xi Xn : yi Yn como um estimador
n i=1
natural da covariância populacional Cov(X; Y ).

Como dissemos anteriormente, a partir dos estimadores (variáveis aleatórias),

pode-se obter as distribuições de probabilidade dos mesmos, a …m de construir um

intervalo de con…ança para o parâmetro em estudo. Para isso o pesquisador deve

arbitrar um nível de con…ança dado por 1 , onde é a probabilidade de que

o intervalo construído não contenha o valor do parâmetro, chamado de nível de

signi…cância. Assim temos a seguinte de…nição:

O nível de con…ança, 1 , é a probabilidade de que a estimativa intervalar


contenha o parâmetro populacional em questão.

9.1 Propriedades dos Estimadores

Seja (X1 ; X2 ; :::; Xn ) uma amostra de tamanho n retirada de uma população com

uma dada distribuição. Denotemos por ^ = T (X1 ; X2 ; :::; Xn ) um estimador pontual

183
para um parâmetro de interesse.

De…nição 36 Dizemos que o estimador ^ do parâmetro é não tendencioso (ou

não-viesado, ou não-viciado) se a sua esperança coincide com o valor do parâmetro,

isto é,

E ^ = .

De…nição 37 De…ne-se o viés do estimador ^, denotado por B ^ , como

B ^ =E ^ .

Observação 33 Vê-se claramente que se ^ é estimador não tendencioso do parâmetro

, então B ^ = 0.

Exemplo 104 Seja (X1 ; X2 ; :::; Xn ) uma amostra de tamanho n retirada de uma

população com média e variância 2 .


Pn
Xi
(a) Mostre que X n = i=1 é estimador não tendencioso para .
Pn n
2
2 i=1 Xi Xn 2
(b) Mostre que S = é estimador não tendencioso para .
n 1

De…nição 38 De…ne-se o erro quadrático médio de ^ em relação ao parâmetro

, como
2
EQM ^ = E ^ .

Observação 34 Quanto menor for EQM ^ maior é a precisão do estimador ^.

Observação 35
2 2
EQM ^ = E ^ =E ^ E ^ +E ^
2 2
= E ^ E ^ + E ^ +2 ^ E ^ E ^
2 2 h i
= E ^ E ^ + E ^ +2 E ^ E ^ E ^
2 2
= E ^E ^ + E ^
h i2
EQM ^ = V ar ^ + B ^

184
De…nição 39 Dados dois estimadores não-tendenciosos ^1 e ^2 para um parâmetro

, dizemos que ^1 é mais e…ciente que ^2 , se

V ar ^1 < V ar ^2 .

De…nição 40 Dado um estimador ^ para o parâmetro , de…ne-se o erro-padrão do

estimador ^ como
r
EP ^ = V ar ^ .

Exemplo 105 Suponha um experimento consistindo de n provas de Bernoulli, com

probabilidade de sucesso p, desconhecida. Seja X o número de sucessos, e considere


X 1, se a primeira prova resultar sucesso
os estimadores para p: p^1 = e p^2 = .
n 0, caso contrário.
(a) Veri…que se p^1 e p^2 são não-tendenciosos.

(b) Determine a variância de cada estimador.

(c) Qual o estimador mais e…ciente?

9.2 Estimadores de Momentos

De…nição 41 O k-ésimo momento da população modelada por uma dada distribuição

é de…nido como
8 1
>
> X
>
> xk p(xi ), se X é v.a.d
>
< i=1 i
k = E Xk = Z1
>
>
>
> xk fX (x)dx, se X é v.a.c.
>
:
1

De…nição 42 O k-ésimo momento amostral é de…nido como

1X k
n
mk = X .
n i=1 i

De…nição 43 Dizemos que ^1 , ^2 , ..., ^r são estimadores obtidos pelo método dos

momentos se eles forem soluções das equações

k = mk , para k = 1; 2; :::; r.

185
Exemplo 106 Se (X1 ; X2 ; :::; Xn ) é uma amostra de tamanho n retirada de uma
2
população com uma distribuição normal com média e variância , quais os esti-

madores de momentos para esses parâmetros?

Exemplo 107 Se (X1 ; X2 ; :::; Xn ) é uma amostra de tamanho n retirada de uma

população com uma distribuição de Poisson com parâmetro > 0. Quais os possíveis

estimadores de momentos para ?

9.3 Estimadores de Máxima Verossimilhança

De…nição 44 Dada uma amostra (x1 ; x2 ; :::; xn ) de tamanho n retirada de uma

população com uma distribuição com função de probabilidade ou função de densidade

de probabilidade, dada por p(x; ) ou f (x; ), respectivamente, de…nimos a função

de verossimilhança como

p(x1 ; )p(x2 ; ):::p(xn ; ), se X é v.a.d


L( ; x1 ; x2 ; :::; xn ) =
f (x1 ; )f (x2 ; ):::f (xn ; ), se X é v.a.c.

Como a amostra já foi obtida, a função de verossimilhança deve ser encarada como

uma função do parâmetro apenas.

De…nição 45 O estimador de máxima verossilhança para o parâmetro , é o valor


^M V que maximiza a função de verossilhança L( ; x1 ; x2 ; :::; xn ), ou equivalente-

mente, o valor ^M V que maximiza l( ; x1 ; x2 ; :::; xn ) := ln L( ; x1 ; x2 ; :::; xn ).

Exemplo 108 Seja (x1 ; x2 ; :::; xn ) uma amostra de tamanho n retirada de uma pop-

ulação com uma distribuição exponencial de parâmetro > 0, desconhecido. Ache

o estimador de máxima verossilhança para à luz da amostra obtida.

Exemplo 109 Seja (x1 ; x2 ; :::; xn ) uma amostra de tamanho n retirada de uma pop-

ulação com uma distribuição de Poisson de parâmetro > 0, desconhecido. Ache o

estimador de máxima verossilhança para à luz da amostra obtida.

186
Exemplo 110 Seja a realização de 8 ensaios de Bernoulli com prababilidade p de-

sconhecida. Se obtemos os resultados 1; 0; 1; 0; 0; 1; 0; 0, qual o estimador de máxima

verossilhança para p à luz dessa amostra?

9.4 Estimação Intervalar de Parâmetros


9.4.1 Intervalo de Con…ança para a média populacional ( )
quando a variância populacional ( 2 ) é conhecida

Desejamos construir um intervalo de con…ança para a média populacional conhecendo-


2
se o valor da variância , uma situação um pouco incongruente, e que só se justi…ca

quando sabemos por exemplo por estudos anteriores da população inteira que a var-
2
iância era e se supõe que continua a mesma, tendo apenas a hipótese de mudança

da média, a qual se deseja estimar. Mas o caso mais relevante que recai ainda assim

nesse contexto é quando estamos lidando com amostras de tamanho grande (n 30).

Nesse caso, mesmo desconhecendo o valor da variância populacional, podemos sub-


2
stituir por S 2 , sem problema algum. Portanto, o contexto estudado aqui vale
2 2
tanto para conhecida, quanto para desconhecida, com amostras grandes.

Vimos, pelo Teorema Central do Limite, que temos a aproximação em dis-

tribuição:
Xn
Z= N (0; 1).
p
n
Se a população é normalmente distribuída, então a distribuição é exata:

Xn
Z= N (0; 1):
p
n

Suponha que desejemos formar um intervalo de con…ança para com uma prob-

abilidade de 1 . Então

P z =2 Z z =2 =1

187
0 1
B Xn C
P@ z =2 z =2 A =1
p
n

P z =2 p Xn z =2 p =1
n n

P Xn z =2 p Xn + z =2 p =1
n n

Assim temos:

P Xn z =2 p Xn + z =2 p =1 .
n n

O erro máximo da estimativa, E, é a maior distância possível entre a estimativa

pontual e o valor do parâmetro que se está estimando, dado o nível de con…ança

1 . Assim temos:

E=z =2 p .
n

Com isso, podemos dimensionar o tamanho da amostra necessário para que se

possa estimar a média populacional com um erro E. Isso será dado, isolando-se o

valor de n em E = z =2 p . Assim o tamanho n amostral é dado por:


n
2
z =2
n= .
E

Exemplo 111 Seja uma amostra aleatória com 35 preços (em reais) de um aparelho

celular especí…co. Sabendo-se que a média amostral foi de R$ 101; 77 e o desvio-

padrão de R$ 6; 69, pede-se:

(a) Determine a estimativa pontual para a média populacional dos preços do

celular em estudo.

(b) Determine o erro máximo da estimativa E, com base na amostra, ao nível

de 95% de con…ança.

188
(c) Determine o intervalo de con…ança de 95% para a média dos preços do celular

em estudo.

(d) Você quer estimar a média de preço do celular. Quantos preços de aparelhos

terão de ser incluídos em sua amostra se você quiser estar 95% seguro de que a

média amostral está a no máximo R$ 2; 00 da média populacional?

9.4.2 Intervalo de Con…ança para a média populacional ( )


quando a variância populacional ( 2 ) é desconhecida

Esse é certamente o contexto mais natural a se lidar com os problemas estatísticos

de estimação intervalar da média populacional. O problema agora é que, quando a

amostra é pequena, e utilizamos a variância da amostra no lugar da variância popu-

lacional, incorporamos mais incerteza aos intervalos. Daí a distribuição amostral ter

caudas mais "pesadas"para gerar valores mais atípicos. Assim, quando a variância
2
de uma população aproximadamente nomal é desconhecida, é possível mostrar

que
Xn
T = tn 1 Student,
S
p
n
s
Pn 2
i=1 Xi X n
com S = o desvio-padrão (corrigido) da amostra, e tn 1
n 1
Student a distribuição t-Student com n 1 graus de liberdade. Essa distribuição

é, como a Normal, centrada no zero e tabelada, de acordo com os seus graus de

liberdade (veja a tabela anexada). Observe que a tabela dá a área à direita do valor

de tn 1; , conforme grá…co abaixo com a no lugar de .

189
Distribuição t-Student

Quando os graus de liberdade da t-Student aumentam, a distribuição t-Student

tende à distribuição Normal. Daí o fato de termos proposto no caso anterior, para

amostras grandes, o uso da distribuição normal, na formação do intervalo de con…-


2
ança para a média populacional, mesmo com desconhecida.

Suponha que desejemos formar um intervalo de con…ança para com uma prob-
2
abilidade de 1 (nível de con…ança), supondo desconhecida. Então

P tn 1; =2 T tn 1; =2 =1
0 1
B Xn C
PB
@ tn 1; =2 tn 1; =2 A
C=1
S
p
n
S S
P tn 1; =2 p Xn tn 1; =2 p =1
n n
S S
P Xn tn 1; =2 p X n + tn 1; =2 p =1
n n

Assim, temos:

S S
P Xn tn 1; =2 p X n + tn 1; =2 p =1 .
n n

190
O erro máximo da estimativa, E, dado nível de con…ança, 1 é dado por:

S
E = tn 1; =2 p .
n

Com isso podemos dimensionar o tamanho da amostra necessário para que se

possa estimar a média populacional com um erro E. Isso será dado, isolando-se o
S
valor de n em E = tn 1; =2 p . Assim o tamanho n amostral é dado por:
n
2
tn 1; =2 S
n= .
E

Exemplo 112 Em uma amostra aleatória de 13 adultos da cidade do Rio de Janeiro,

a média de lixo reciclado por pessoa foi de 4; 3 kg por dia, com um desvio padrão de

0; 3 kg. Admita que a variável seja normalmente distribuída e construa um intervalo

de con…ança de 90% para a média de lixo reciclado por pessoa no Rio de Janeiro.

9.4.3 Intervalo de Con…ança para a proporção populacional


(p)

Suponha que p seja a proporção dos elementos da população que possuem um certo

atributo em estudo. Então


PN
i=1 Xi
p= ,
N

onde Xi = 1 se o i-ésimo elemento da população tem o atributo e Xi = 0 se

o i-ésimo elemento da população não tem o atributo. Assim Xi Ber(p) onde

E (Xi ) = p e V ar (Xi ) = p(1 p).

O estimador para p é dado por


Pn
i=1 Xi X
p^ = = ,
n n

onde X é o número de elementos na amostra com o dado atributo em estudo. Se

n for su…cientemente grande para satisfazer np 5 e n (1 p) 5, então vale o

191
Teorema Central do Limite, que nos garante:

p^ p
Z=r N (0; 1).
p(1 p)
n
r
p(1 p)
Como depende também do parâmetro, a ideia é substituir
r n r
p(1 p) p^(1 p^)
pela estimativa amostral e assim construir um intervalo de
n n
con…ança para p com uma probabilidade de 1 (nível de con…ança). Assim, temos:

P z =2 Z z =2 =1
0 1
B p^ p C
PB
@ z =2 r z =2 A
C=1
p^(1 p^)
n
r r !
p^(1 p^) p^(1 p^)
P z =2 p^ p z =2 =1
n n
r r !
p^(1 p^) p^(1 p^)
P p^ z =2 p p^ + z =2 =1
n n

Assim, temos:

r r !
p^(1 p^) p^(1 p^)
P p^ z =2 p p^ + z =2 =1 .
n n

O erro máximo da estimativa, E, dado o nível de con…ança 1 é dado por:


r
p^(1 p^)
E=z =2 .
n

Com isso podemos dimensionar o tamanho da amostra necessário para que se

possa estimar a média populacional com um erro E. Isso será dado, isolando-se o
r
p^(1 p^)
valor de n em E = z =2 . Assim o tamanho n amostral é dado por:
n
z =2 2
n = p^(1 p^) .
E

192
Observe que a fórmula do tamanho amostral acima depende de uma estimativa

preliminar p^ retirada de uma amostra piloto. Caso não seja possível obter a amostra

preliminar, então tomamos o valor de p^ que maximiza o fator p^(1 p^). Pode-se provar
1
pelo cálculo diferencial que p^ = 2
é o valor que maximiza p^(1 p^). Assim, sem uma

amostra preliminar, temos


z =2 2
n= .
2E

Exemplo 113 Em um estudo com 1:907 acidentes de tráfego, 449 estavam rela-

cionados ao uso de álcool. Pede-se:

(a) Construir um intervalo de con…ança de 99% para a proporção de acidentes

fatais relacionados ao álcool.

(b) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a

um nível de con…ança de 99%. Determine o tamanho mínimo da amostra necessário

para estimar a proporção populacional com uma precisão de 2%, sem uma amostra

preliminar.

(c) Você deseja estimar a proporção de acidentes fatais relacionados ao álcool a

um nível de con…ança de 99%. Determine o tamanho mínimo da amostra necessário

para estimar a proporção populacional com uma precisão de 2%, usando a estimativa

preliminar do enunciado do problema.

9.4.4 Intervalo de con…ança para variância populacional ( 2 )

A ideia agora é construir um intervalo de con…ança para a variância populacional


2
a partir da variãncia amostral S 2 . Pode-se mostrar em cursos avançados de

Estatística, que se a população é normalmente distribuída (ou aproximadamente

normal), então
(n 1) S 2 2
2 n 1

193
2
onde n 1 representa a distribuição de Qui-Quadrado com n 1 graus de liberdade.

Essa distribuição é de…nida nos valores reais não-negativos e é assimétrica, sendo

também tabelada de acordo com os graus de liberdade e os níveis de signi…cância

desejados. (Veja a tabela anexada.) Observe que a tabela dá a área à direita do


2
valor de n 1; , conforme grá…co abaixo com a no lugar de .

Distribuição Qui-Quadrado

Assim, temos

2 (n 1) S 2 2
P n 1;1 =2 2 n 1; =2 =1

2 2
P n 1;1 =2 (n 1) S 2 2 2
n 1; =2 =1

Mas, as duas desigualdades podem ser desenvolvidas como:

2 2 (n 1) S 2
n 1;1 =2 (n 1) S 2 =) 2
2
n 1;1 =2

e
(n 1) S 2
(n 1) S 2 2 2
n 1; =2 =) 2
2
n 1; =2

Assim temos:

!
(n 1) S 2 2 (n 1) S 2
P 2 2
=1 .
n 1; =2 n 1;1 =2

194
Exemplo 114 A …m de se estimar o desvio-padrão dos preços de aparelhos de MP3

no Rio de Janeiro, você seleciona ao acaso os preços de 17 MP3 players, obtendo-

se o desvio-padrão amostral de R$ 150; 00. Construa um intervalo de con…ança de

95% para a variância e o desvio-padrão dos preços dos aparelhos de MP3 no Rio de

Janeiro, assumindo a população normal.

9.5 Lista de Exercícios

Exercício 127 Seja fX1 ; X2 ; :::; Xn g uma amostra aleatória de variáveis aleatórias

independentes com função de densidade de probabilidade dada por

x 1 , se 0 < x < 1
fX (x) =
0, caso contrário

com > 0, um parâmetro desconhecido. Determine o estimador de máxima verossim-


n
ilhança para à luz da amostra fX1 ; X2 ; :::; Xn g. Resp.: ^ = Xn .
ln Xi
i=1

Exercício 128 Os sistemas de escapamento de uma aeronave funcionam devido

a um propelente sólido. A taxa de queima desse propelente é uma característica

importante do produto. Sabe-se que o desvio-padrão da taxa de queima seja de 2

cm/s. O experimentalista decide estimar a taxa média populacional a um nível de

signi…cância de 5%. Para isso ele seleciona uma amostra aleatória de tamanho 25

e obtém uma taxa média amostral de queima de 51; 3 cm/s.

(a) Qual o intervalo de con…ança obtido? Resp.: P (50; 5160 52; 0840) =

0; 95.

(b) Se o fabricante dos sistemas a…rma que a taxa média de seus produtos é de

50 cm/s, devemos aceitar ou rejeitar a a…rmação do fabricante? Resp.: Rejeitar.

Exercício 129 A tensão de ruptura dos cabos produzidos por um fabricante apre-

senta média de 1:800 kg e o desvio-padrão de 100 kg. Mediante nova técnica no

195
processo de fabricação, proclamou-se que a tensão de ruptura pode ter aumentado.

Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se obtido a

tensão média de 1:850 kg. Pode-se con…rmar a declaração ao nível de signi…cância

de 1%? Resp.: P (1813; 7 1886; 3) = 0; 99 e há evidências de que a média da

tensão de ruptura tenha aumentado.

Exercício 130 Um artigo no periódico Materials Engineering (1989, Vol.II, No.

4, pp. 275-281) descreve os resultados de testes de tensão quanto à adesão em 22

corpos de prova de liga U-700. A carga no ponto de falha do corpo de prova é dada

a seguir (em MPa):


19,8 18,5 17,6 16,7 15,8
15,4 14,1 13,6 11,9 11,4
11,4 8,8 7,5 15,4 15,4
19,5 14,9 12,7 11,9 11,4
10,1 7,9
(a) Qual o intervalo de con…ança para a média, ao nível de signi…cância de 5%?

Resp.: P (12; 1378 15; 2894) = 0; 95.

(b) Há evidências de que a carga média na falha excede 10 MPa? Resp.: Sim.

Exercício 131 Um fabricante de semicondutores produz controladores usados em

aplicações no motor de automóveis. O consumidor requer que a fração defeituosa

em uma etapa crítica de fabricação não exceda 0; 05 e que o fabricante demonstre

uma capacidade de processo nesse nível de qualidade. O fabricante de semicondutores

retira uma amostra de 200 aparelhos e encontra 4 defeituosos.

(a) Qual o intervalo de con…ança para a proporção de defeituosos, ao nível de

signi…cância de 5%? Resp.: P (0; 0006 p 0; 0394) = 0; 95.

(b) O fabricante pode demonstrar uma capacidade de processo para o consumidor?

Resp.: há evidência de que a fração de defeituosos não excede a 0; 05.

Exercício 132 Um fabricante de uma droga medicinal reivindicou que ela era 90%

196
e…caz em curar alergia, em um período de 8 horas. Para testar essa informação,

submetemos 200 pessoas com alergia à droga e 160 pessoas se curaram após o uso

da mesma. Determinar se a pretensão do fabricante é legítima a um nível de sig-

ni…cância de 1%. Resp.: P (0; 7273 p 0; 8727) = 0; 99 e há evidência de que a

informação dada pelo fabricante não seja verdadeira.

Exercício 133 Uma amostra de 10 pacotes de café solúvel de um dado fabricante

foi retirada, obtendo-se os dados: 46; 4; 46; 1; 45; 8; 47; 0; 46; 1; 45; 9; 45; 8; 46; 9;

45; 2 e 46; 0. Determine um intervalo de con…ança de 95% para a variância de tais


2
pacotes de café solúvel, assumindo uma população normal. Resp.: P (0; 1354

0; 2028) = 0; 95.

Exercício 134 Deseja-se estimar a taxa média de colesterol no plasma sanguíneo

de mulheres acima de 65 anos. Para isso, selecionou-se uma amostra de 25 mulheres,

a saber, fx1 ; x2 ; :::; x25 g, com os seguintes resultados

X
25 X
25
xi = 4:950 e (xi x25 )2 = 21:600
i=1 i=1

com os valores medidos em mg/100 ml de plasma.

(a) Construa um intervalo de con…ança ao nível de signi…cância de 10% para a

taxa média de colesterol de mulheres acima de 65 anos. Resp.: P (187; 734 208; 266) =

0; 9.

(b) Se o Ministério da Saúde a…rma que a taxa média de colesterol no plasma

sanguíneo de mulheres acima de 65 anos não excede a 210 mg/100 ml de plasma, há

razões para se acreditar nisso com base no intervalo de con…ança construído no item

(a)? Justi…que estatisticamente sua resposta. Resp.: Há evidências de que a taxa

média de colesterol no plasma sanguíneo de mulheres acima de 65 anos não excede

a 210 mg/100 ml de plasma.

197
Exercício 135 Deseja-se estimar a proporção de médicos não-fumantes. Para isso,

foram selecionados aleatoriamente 150 médicos e veri…cou-se que 123 deles não fu-

mam.

(a) Baseado nesses dados, construa um intervalo de 99% de con…ança para a ver-

dadeira proporção de não-fumantes em médicos. Resp.: P (0; 7394 p 0; 9006) =

0; 99.

(b) Se o Conselho de Medicina a…rma que menos do que 1=3 dos médicos fumam,

há razões para se acreditar nisso com base no intervalo de con…ança construído no

item (a)? Justi…que estatisticamente sua resposta. Resp.: Os dados con…rmam a

informação veiculada pelo Conselho de Medicina.

Exercício 136 Deseja-se estimar um salário médio de uma população. Sabe-se que

a variância populacional dos salários é de 1; 44 (em salários mínimos ao quadrado).

Qual deve ser o tamanho da amostra aleatória para que se possa garantir, com pelo

menos 98% de con…ança, que o salário médio da amostra não se afastará do salário

médio populacional por mais de 0; 05 salário mínimo? Resp.: Devemos ter uma

amostra de pelo menos 3:128 salários.

198
Capítulo 10

Testes de Hipóteses

Nesta aula exporemos as ideias centrais dos Testes de Hipóteses para uma única pop-

ulação: sua construção e seu elementos fundamentais para uma tomada de decisão

sob incerteza, concluindo assim os conceitos fundamentais da Estatística Básica.

Uma hipótese estatística é uma alegação sobre um parâmetro da população. O

que se deseja é, à luz da informação obtida por uma amostra dessa população,

decidir se aceitamos uma hipótese inicial (chamada de hipótese nula, H0 ) por não

haver evidências su…cientes contra ela, ou se a rejeitamos em favor de uma hipótese

alternativa (chamada de hipótese primo, H1 ), pelo fato de o resultado amostral ser

atípico dentro do contexto a…rmado pela hipótese nula. Vejamos como se estrutura

um teste de hipóteses.

Seja um parâmetro qualquer de uma população em estudo.

A hipótese nula H0 contém uma a…rmação do tipo: = 0, 0 ou 0 e

será contraposta a uma hipótese complementar alternativa do tipo 6= 0, < 0

ou > 0, respectivamente.

Assim temos os seguintes cenários de testes de hipóteses:

H0 : = 0 H0 : 0 H0 : 0
ou ou .
H1 : 6 = 0 H1 : < 0 H1 : > 0

199
Heurística para o Teste de Hipóteses

(1) Admitimos que a Hipótese Nula H0 é verdadeira a priori, tomando = 0,

qualquer que seja a hipótese contemplada ( = 0, 0 ou 0 ).

(2) Colhemos os dados através de uma amostra aleatória, retirada da população,

e calculamos as estatísticas amostrais cabíveis no contexto de cada parâmetro e

situação.

(3) Se a estatística amostral tiver baixa probabilidade de ter sido extraída de

uma população na qual a hipótese nula seja verdadeira, rejeitaremos H0 . Como

consequência, aceitaremos a hipótese alternativa, pois consideraremos que a baixa

probabilidade de a amostra ter sido obtida sob a hipótese de = 0 indicaria que

essa amostra veio na verdade de uma população em que o parâmetro era diferente

de 0. Se, por outro lado, a probabilidade não for baixa o bastante, não teremos

evidências su…cientes para rejeitarmos H0 .

Tipos de Erros e Nível de Signi…cância

Ao tomarmos uma decisão a respeito de uma a…rmação sobre um parâmetro,

estaremos sujeitos a dois tipos de erros: o Erro do Tipo I e o Erro do Tipo II.

Conforme o quadro abaixo:

200
Vemos que cometemos o Erro do Tipo I, quando a hipótese nula é realmente

verdadeira, mas optamos por rejeitá-la. Chegamos assim à importante de…nição na

Estatística de nível de signi…cância.

O nível de signi…cância, , é a probabilidade máxima que estamos


dispostos a incorrer para cometer o Erro do Tipo I.

Assim, devemos estabelecer a priori o nosso erro do tipo I, , isto é, quanto es-

tamos dispostos a errar ao a…rmar que H0 é falsa quando ela é verdadeira. Quanto

menor , mais evidências amostrais exigiremos para rejeitar H0 . Como consequên-

cia, aumentamos o nosso erro do tipo II, pois como estamos muito rigorosos para

rejeitar H0 , corremos mais riscos de aceitá-la quando ela de fato é falsa (erro tipo

II). Assim os erros do tipo I e II estão relacionados: diminuir o erro tipo I im-

plica aumentar o erro tipo II e vice-versa, conforme grá…co abaixo, representando

as hipóteses H0 : = 0 e H1 : = 1.

Erros Tipo I e II

A área em azul representa o erro tipo I, , de se rejeitar H0 , quando ela é de

fato verdadeira. Já a área em vermelho representa o erro tipo II, , de se aceitar

H0 , quando ela é de fato falsa, pois se situa na região de aceitação de H0 , embora

= 1.

201
O poder do teste, ( ), é a probabilidade de rejeitarmos
H0 quando H0 é de fato falsa, ou seja, ( ) = 1 .

Para cada cenário de teste de hipóteses, devemos estabeler nossas regiões de

rejeição de H0 , a partir do nível de signi…cância . Vejamo-los agora:

Teste Bicaudal (ou Bilateral)

Desejamos testar
H0 : = 0
H1 : 6 = 0

Assim, devemos distribuir o nível de signi…cância nas duas caudas da dis-

tribuição amostral, isto é =2 à esquerda e =2 à direita da distribuição, conforme

a …gura abaixo:

Se a estatística do teste se situar na região em vermelho (perfazendo 100 %

de probabilidade), então há evidências para se rejeitar H0 : = 0 ao nível de

signi…cância estabelecido.

Teste Monocaudal (ou Unilateral) à Esquerda

Desejamos testar
H0 : 0
H1 : < 0

Assim, devemos distribuir o nível de signi…cância na cauda esquerda da dis-

tribuição amostral, conforme a …gura abaixo:

202
Se a estatística do teste se situar na região em vermelho (perfazendo 100 %

de probabilidade), então há evidências para se rejeitar H0 : 0 ao nível de

signi…cância estabelecido.

Teste Monocaudal (ou Unilateral) à Direita

Desejamos testar
H0 : 0
H1 : > 0

Assim, devemos distribuir o nível de signi…cância na cauda direita da dis-

tribuição amostral, conforme a …gura abaixo:

Se a estatística do teste se situar na região em vermelho (perfazendo 100 %

de probabilidade), então há evidências para se rejeitar H0 : 0 ao nível de

signi…cância estabelecido.

Muitas das vezes, os estatísticos tomam suas decisões através do p-valor da

estatística, ou nível crítico, contrapondo-o com o nível de signi…cância estabelecido.

Mas em que consiste o p-valor na Estatística?

203
O p-valor, ^ ,é a probabilidade de se obter uma estatística amostral com um
valor tão ou mais extremo que o determinado pelos dados da amostra.

Após comparar o p-valor, ^ , ao valor de , o nível de signi…cância do teste,

podemos decidir se há evidência su…ciente para rejeitar a hipótese nula. Assim, por

exemplo,

se p , rejeitamos a hipótese nula;

se p > , não rejeitamos a hipótese nula.

Por que isso? Porque se a probabilidade de se ter obtido a estatística amostral,

supondo a hipótese nula verdadeira, é p com p , então o valor dessa estatística

tem uma probabilidade ainda menor (ou igual) àquela em que estabelecemos para

uma situação atípica supondo H0 verdadeira. Assim, há evidências amostrais de que

essa estatística vem de uma população com um parâmetro diferente do estabelecido

na hipótese nula. Se p > , então ainda não consideramos que o resultado da

estatística do teste seja atípico sob a hipótese de H0 verdadeira, pois consideramos

atípicos apenas aqueles eventos com probabilidade igual ou inferior a . Assim,

nesse último caso, não rejeitamos H0 .

Assim, por exemplo, se o p-valor de um teste de hipóteses unilateral é p =

0; 0749 = 7; 49%, então a um nível de signi…cância de = 0; 05 = 5% devemos

aceitar H0 . Agora, se p = 0; 0246 = 2; 46%, então a um nível de signi…cância de

= 0; 05 = 5% devemos rejeitar H0 ; mas a um nível de signi…cância de = 0; 01 =

1% devemos aceitar H0 , pois nesse caso não consideramos 2; 46% um evento raro ou

atípico, sob a hipótese nula verdadeira.

Etapas para o Teste de Hipóteses

204
(1) Estabeleça as hipóteses nula e alternativa: Escreva H0 e H1 como a…rmati-

vas matemáticas. Lembre que H0 sempre contém o símbolo =., mesmo quando as

hipóteses são 0 ou 0.

(2) Estabeleça o nível de signi…cância : Ele representa a probabilidade máxima

de se rejeitar a hipótese nula, caso ela seja a realmente verdadeira (ou seja, de se

cometer um erro do tipo I).

(3) Identi…que a distribuição amostral: A distribuição amostral é a distribuição

da estatística teste, supondo-se que a condição de igualdade na H0 seja verdadeira

(4) Determine a estatística teste e padronize-a: Faça os cálculos para padronizar

sua estatística amostral.

(5) Calcule o p-valor da estatística teste: Ele representa a probabilidade de se

obter a estatística teste (ou outro valor mais extremo) na distribuição amostral.

(6) Tome sua decisão: Se p , rejeite a hipótese nula. Se p > , não rejeite a

hipótese nula.

(7) Interprete sua decisão: Dada a alegação da hipótese nula, você poderá

rejeitá-la ou determinar que não há evidência su…ciente para isso.

Exemplo 115 A associação dos proprietários de indústrias metalúrgicas está muito

preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos

tempos tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 ho-

ras/homem. Tentou-se um programa de prevenção de acidentes, após o qual foi

205
tomada uma amostra de nove indústrias e medido o número de horas/homem perdi-

das por acidente, que foi de 50 horas. Deseja-se saber se o programa de prevenção

de acidentes induziu de fato uma redução no número de horas/homem. Pede-se:

(a) Construir um teste de hipóteses para responder à pergunta central do estudo.

(b) Encontrar o nível crítico ou p-valor do teste e decidir ao nível de signi…cância

de 5% se há evidências de melhoria.

(c) Estabelecer a região de rejeição da hipótese nula ao nível de signi…cância de

5%.

Exemplo 116 Seja X uma v.a. com distribuição binomial, com n = 15. Considere

H0 : p 0; 5
H1 : p < 0; 5

com região crítica RC = f0; 1; 2g.

(a) Calcule a probabilidade do erro de tipo I.

(b) Calcule a probabilidade do erro de tipo II quando p = 0; 3.

(c) Calcule o poder do teste quando p = 0; 3.

10.1 Teste de Independência para Tabelas de Con-


tingência

Um teste qui-quadrado pode ser usado para determinar se duas variáveis qual-

itativas em tabelas de contingência são independentes. Já vimos que duas variáveis

são independentes se a ocorrência de uma não afeta a ocorrência da outra. Suponha

a tabela no domínio da frequência dada como a seguir:

B B1 B2 Bs Total
A
A1 O11 O12 O1s N1
A2 O21 O22 O2s N2
.. .. .. .. .. ..
. . . . . .
Ar Or1 Or2 Ors Nr
Total N1 N2 Ns N

206
Denotamos por Oij a frequência observada no cruzamento das categorias Ai

e Bj .

Denotamos por Eij a frequência esperada no cruzamento das categorias Ai

e Bj , caso Ai e Bj fossem independentes. Vimos na Aula 5 que esse cálculo é dado

por
Ni Nj
Eij = .
N

A ideia do teste é comparar se a distância entre os valores observados e os

valores esperados é grande estatisticamente. Se for considerado grande, então há

evidências de que as categorias A e B não são independentes.

Assim as hipóteses a serem contempladas são:

H0 : A e B são independentes
H1 : A e B não são independentes

A estatística do teste é dada por:

X
r X
s
(Oij Eij )2
0 =
i=1 j=1
Eij

que tem distribuição Qui-Quadrado com n = (r 1) (s 1) graus de liberdade.

De…nindo um nível de signi…cância , tomamos o valor tabelado da Qui-Quadrado


2
com n graus de liberdade, denotado aqui por n; e podemos agora tomar nossa de-

cisão.

Decisão:
2
(i) Se 0 > n; , então devemos rejeitar H0 e aceitar H1 . Ou seja, há evidências

de que as categorias são dependentes.

2
(ii) Se 0 n; , então devemos rejeitar H0 e aceitar H1 . Ou seja, há evidências

de que as categorias são dependentes.

207
Restrições: Para se utilizar o teste Qui-Quadrado para Tabelas de Contingência

é preciso garantir as seguintes condições:

(a) Só pode ser utilizado quando o tamanho da amostra é maior que 20.

(b) Quando o tamanho da amostra é maior que 20 e menor do que 40, só pode

ser utilizado se todas as caselas têm frequência esperada maior do que 5.

(c) Só pode ser utilizado se todas as frequências esperadas assumirem valores

iguais ou maiores que 1.

(d) Para tabelas de contingência 2 2, aconselha-se que a estatística do teste

seja calculada com a correção de Yates dada por

X
2 X
2
(jOij Eij j 0; 5)2
0 =
i=1 j=1
Eij

onde jOij Eij j é o valor absoluto da diferença entre o valor observado e o valor

esperado.

Vejamos um exemplo:

Exemplo 117 Deseja-se testar, ao nível de signi…cência de 5%, a hipótese de que

gênero e desempenho pro…ssional sejam variáveis independentes na prodissão de

Contador. Para isso, foram selecionadas 220 contadores (112 homens e 108 mul-

heres) e seus desempenhos foram avaliados, obtendo-se a seguinte tabela de con-

tingência.

Baixo Médio Superior Total


Homem 22 81 9 112
Mulher 14 75 19 108
Total 36 156 28 220

Solução: Nossas hipóteses a serem testadas são

H0 : gênero e desempenho são independentes


H1 : gênero e desempenho são dependentes

208
Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula

será:

112 36 112 156 112 28


E11 = = 18; 33, E12 = = 79; 42, E13 = = 14; 25
220 220 220
108 36 108 156 108 28
E21 = = 17; 67, E22 = = 76; 58, E23 = = 13; 75
220 220 220
A estatística do teste é dada por
X
2 X
3
(Oij Eij )2
0 =
i=1 j=1
Eij
(22 18; 33)2 (81 79; 42)2 (9 14; 25)2
= + + +
18; 33 79; 42 14; 25
(14 17; 67)2 (75 76; 58)2 (19 13; 75)2
+ +
17; 67 76; 58 13; 75

0 = 5; 51

O valor tabelado da Qui-Quadrado com n = (2 1) (3 1) = 2 graus de liberdade

e = 0; 05 é dado por
2
2;0;05 = 5; 991.

A estatística teste, 5; 51, não cai na região de rejeição, portanto não rejeitamos

H0 . Podemos concluir que gênero e desempenho pro…ssional são variáveis indepen-

dentes. Não se deve portanto contratar contadores com base no gênero, já que ser

homem ou mulher não in‡uencia seu desempenho pro…ssional.

Exemplo 118 Deseja-se testar, ao nível de signi…cência de 1%, a hipótese de que

a ausência ou presença de aberração cromossômica é independente da idade da

gestante. Para isso, 985 gestantes foram selecionadas e divididas segundo duas

faixas etárias e quanto à presença ou não de aberrações cromossômicas. Os dados

encontram-se na tabela abaixo:


Idade n Aberração Presente Ausente Total
35 ` 40 10 447 457
40 e mais 18 510 528
Total 28 957 985

209
Solução: Nossas hipóteses a serem testadas são

H0 : idade e aberrações são independentes


H1 : idade e aberrações são dependentes

Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula

será:
457 28 457 957
E11 = = 13, E12 = = 444
985 985
528 28 528 957
E21 = = 15, E22 = = 513
985 985

A estatística do teste é dada por

X
2 X
2
(jOij Eij j 0; 5)2
0 =
i=1 j=1
Eij
(j10 13j 0; 5)2 (j447 444j 0; 5)2
= + +
13 444
(j18 15j 0; 5)2 (j510 513j 0; 5)2
+
15 513
= 0; 48 + 0; 014 + 0; 42 + 0; 012

0 = 0; 926

O valor tabelado da Qui-Quadrado com n = (2 1) (2 1) = 1 grau de liberdade

e = 0; 01 é dado por
2
1;0;01 = 6; 635.

A estatística teste, 0; 926, não cai na região de rejeição, portanto não rejeita-

mos H0 . Podemos concluir que não há dependência entre a idade e a presença ou

ausência de aberração cromossômica.

10.2 Testes de Signi…cância do Coe…ciente de Cor-


relação r de Pearson

Vimos na Aula 4 que o coe…ciente de correlação (r) é a medida comumente

utilizada para se avaliar a correlação linear entre duas variáveis quantitativas e que

210
quanto mais próximo de 0 menor é a correlação entre duas variáveis X e Y . Nosso

objetivo é testar as seguintes hipóteses:

H0 : =0
H1 : 6= 0

com o parâmetro representando o coe…ciente de correlação da população. A partir

dos dados obtidos na forma tabelar

Covariável (X) x1 x2 ::: xn


Variável Resposta (Y ) y1 y2 ::: yn

vimos que o coe…ciente de correlação amostral é calculado como:

Pn
i=1 xi Xn : yi Yn
r = qP qP
n 2 n 2
i=1 xi Xn i=1 yi Yn
ou então de forma mais simpli…cada para o cálculo:

Pn P P
n i=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
r=q P P q P P
2 2
n ni=1 x2i ( ni=1 xi ) n ni=1 yi2 ( ni=1 yi )

onde Xn e Yn são as médias da covariável e da variável resposta, respectivamente.

A estatística do teste a ser utilizada nesse caso é dada por


p
r n 2
t0 = p
1 r2

De…nindo um nível de signi…cância , obtemos o valor tabelado na tabela da

t-Student com n 2 graus de liberdade e =2, pois o teste é bilateral e podemos

agora tomar nossa decisão:

Decisão:

(a) Se t0 2
= tn 2; =2 ; tn 2; =2 , então rejeitamos H0 e aceitamos H1 : 6= 0. Ou

seja, há evidências de que a correlação entre X e Y é de fato signi…cativa.

211
(b) Se, por outro lado, t0 2 tn 1; =2 ; tn 1; =2 , então não rejeitamos H0 . Ou

seja, não há evidências ao nível de signi…cância escolhido de que X e Y sejam

correlacionadas.

Exemplo 119 Deseja-se saber se há uma correlação linear entre o número de anos

de estudos completados pelo pai (X) e o número de anos de estudo completado pelo

…lho (Y). Para isso, uma amostra de 8 pares de pai e …lho foi selecionada, obtendo-se

os seguintes dados.
X Y X2 Y 2 XY
1 12 12 144 144 144
2 10 8 100 64 80
3 6 12 36 144 72
4 16 11 256 121 176
5 8 10 64 100 80
6 9 8 81 64 72
7 12 16 144 256 192
8 11 15 121 225 165
Total 84 92 946 1118 981

Obtenha o coe…ciente de correlação de Pearson e teste se o mesmo é signi…cativo

ao nível de signi…cância de 5%.

Solução: Assim temos

X
8 X
8 X
8 X
8 X
8
xi :yi = 981, xi = 84, yi = 92, x2i = 946 e yi2 = 1:118.
i=1 i=1 i=1 i=1 i=1

212
Utilizando a fórmula simpli…cada para r, temos
P P8 P8
8 8i=1 xi :yi i=1 xi : i=1 yi
r = q P P8
q
P P8
2 2
8 8i=1 x2i i=1 xi 8 8i=1 yi2 i=1 yi
8 981 84 92
= p p
8 946 842 8 1:118 922
120
= p p
512 480

r = 0; 24 ou r = 24%

Temos as seguintes hipóteses a serem testadas:

H0 : =0
H1 : 6= 0

Assim, nosso teste é bilateral e com o nível de signi…cância dado por = 0; 05,

temos o valor tabelado

tn 2; =2 = t6;0;025 = 2; 447.

A estatística do teste, sob H0 , é dada por:


p p
r n 2 0; 24 8 2
t0 = p =p = 0; 61.
1 r2 1 0; 242

Como t0 = 0; 61 2 [ t6;0;025 ; t6;0;025 ] = [ 2; 447; 2; 447], não rejeitamos H0 ao nível

de signi…cância 5%. Assim, não há evidência su…ciente para se acreditar que haja

uma correlação entre o número de anos de estudos completados pelo pai e o número

de anos de estudo completado pelo …lho.

213
10.3 Teste de Hipóteses para Diferença de Médias
para Dados Pareados

O objetivo desse teste é avaliar se duas respostas obtidas de uma mesma unidade

experimental do tipo antes e depois podem ser consideradas diferentes estatistca-

mente. Portanto os dois grupos de dados pertencem à mesma população e são

sonsiderados pareados. Teremos então um quadro do tipo:

X (antes) Y (depois)
1 x1 y1
2 x2 y2
.. .. ..
. . .
n xn yn

A ideia central aqui é avaliar se a diferença entre as duas médias Xn e Yn , isto

é, Yn Xn pode ser considerada estatísticamente como diferente de zero, para se

concluir que há diferença entre o antes e o depois.

De…nindo di = yi xi , temos o seguinte quadro

X (antes) Y (depois) D
1 x1 y1 d1 = y1 x1
2 x2 y2 d2 = y2 x2
.. .. ..
. . .
n xn yn dn = yn xn
Devemos calcular a média e a variância das diferenças di , isto é,
Pn
i=1 di
Dn = = Yn Xn
n

e
Pn 2
2 i=1 di Dn
SD =
n 1

As hipóteses a serem testadas são:

H0 : D =0 H0 : D 0 H0 : D 0
ou ou .
H1 : D 6= 0 H1 : D <0 H1 : D >0

214
A estatística do teste para todos os casos é dada por

Dn
t0 = SD
p
n

que tem distribuição t-Student com n 1 graus de liberdade.

De…nindo um nível de signi…cância , podemos agora tomar nossa decisão:

Decisão:

(a) No contexto de um teste bilateral: Se t0 2


= tn 1; =2 ; tn 1; =2 , então

rejeitamos H0 e aceitamos H1 : D 6= 0, ou seja, há diferença sigini…cativa entre o

antes e o depois. Se, por outro lado, t0 2 tn 1; =2 ; tn 1; =2 , então não rejeitamos

H0 , ou seja, não há evidências de que houve mudança entre o antes e o depois.

(b) No contexto de um teste unilateral à esquerda: Se t0 < tn 1; , então

rejeitamos H0 e aceitamos H1 : D < 0, ou seja, há diferença entre o antes e depois

e a média do depois pode ser considerada inferior à média do antes. Se, por outro

lado, t0 tn 1; , então não rejeitamos H0 , ou seja, a média do depois não pode

ser considerada inferior à média do antes.

(c) No contexto de um teste unilateral à direita: Se t0 > tn 1; , então

rejeitamos H0 e aceitamos H1 : D > 0, ou seja, há diferença entre o antes e depois

e a média do depois pode ser considerada superior à média do antes. Se, por outro

215
lado, t0 tn 1; , então não rejeitamos H0 , ou seja, a média do depois não pode ser

considerada superior à média do antes.

Exemplo 120 A tabela abaixo mostra a freqüência cardíaca (em batidas por min-

uto) de cinco pessoas antes e depois de uma sessão de exercícios físicos. Há evidência

su…ciente para se concluir que o exercício acelera a freqüência cardíaca? Use um

nível de signi…cância de 5%.

Indivíduo X (antes) Y (depois) D


1 65 127 d1 = 62
2 72 135 d2 = 63
3 85 140 d3 = 55
4 78 136 d4 = 58
5 93 150 d5 = 57
Solução: Devemos calcular a média e a variância das diferenças di , isto é,
P5
i=1 di 295
D5 = = = 59
5 5

e
P5 2
2 i=1 di D5 9 + 16 + 16 + 1 + 4 46
SD = = = = 11; 5
5 1 4 4

e
p
SD = 11; 5 = 3; 39

Desejamos testar as seguintes hipóteses


H0 : D 0
H1 : D >0
A estatística do teste é dada por

D5 59
t0 = S
= 3;39 = 38; 92:
pD p
5 5

Ao nível de signi…cância de 5% e no contexto de teste unilateral à direita, temos o

valor tabelado t4;0;05 = 2; 132.

Como t0 = 38; 92 > t4;0;05 = 2; 132, rejeitamos H0 e aceitamos H1 : D > 0, ou

seja, há diferença entre o antes e depois e a média do depois pode ser considerada

216
superior à média do antes. Em outras palavras, há evidência su…ciente para aceitar

a alegação de que o exercício acelera a freqüência cardíaca.

10.4 Teste de Hipóteses para a Diferença entre


duas Médias (amostras grandes e indepen-
dentes)

Nesse contexto os membros de uma amostra não têm relação com os membros

da outra. É o caso em que há dois grupos independentes de unidades experimentais

(tratamento e controle).

Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo

II, com n1 30 e n2 30, e que os resultados de cada grupo sejam:

Grupo I: fx1 ; x2 ; :::; xn1 g

Grupo II: fy1 ; y2 ; :::; yn2 g

Desejamos avaliar se a diferença entre as médias Xn1 e Yn2 , isto é, Yn2 Xn1 ,

pode ser considerada estatísticamente como diferente de zero, para se concluir que

há diferença entre os dois grupos independentes.

Nossas hipóteses a serem testadas são:

H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou .
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0

com 1 a média da população do Grupo I e 2 a média da população do Grupo

II.

A estatística do teste para todas as hipóteses acima é dada por

Yn Xn1
z0 = q2 2
S1 S2
n1
+ n22
com S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente, isto é,
Pn1 2 Pn2 2
2 i=1 xi Xn1 2 i=1 yi Yn2
S1 = e S2 = .
n1 1 n2 1

217
A estatística z0 tem distribuição normal padrão.

De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a

partir do valor tabelado na normal padrão:

Decisão:

(a) No contexto de um teste bilateral: Se z0 2


= z =2 ; z =2 , então rejeita-

mos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias diferentes.

Se, por outro lado, z0 2 z =2 ; z =2 , então não rejeitamos H0 , e podemos concluir

que não há diferença entre o grupo tratado e o grupo controle.

(b) No contexto de um teste unilateral à esquerda: Se z0 < z , rejeita-

mos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente e

inferior à média do Grupo I. Se, por outro lado, z0 z , não rejeitamos H0 , ou

seja, 2 1.

(c) No contexto de um teste unilateral à direita: Se z0 > z , rejeitamos

H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente e superior à

média do Grupo I. Se, por outro lado, z0 z , não rejeitamos H0 , ou seja, 2 1.

Exemplo 121 Para testar o efeito bené…co de um tratamento …toterápico sobre a

memória, selecionou-se aleatoriamente uma amostra de 95 pessoas, as quais rece-

berão o tratamento, e uma amostra de 105 pessoas que tomarão um placebo. Um

mês depois, ambos os grupos submetem-se a um teste. A nota média do grupo ex-

perimental é de 77, com um desvio padrão de 15. No grupo de controle, a média é

73 e o desvio padrão, 12. Teste a alegação de que o tratamento …toterápico melhora

a memória a um nível de signi…cância de 1%.

Solução: Temos n1 = 95 (tratado, Grupo I) e n2 = 105 (controle, Grupo II).

Além disso: X95 = 77, S1 = 15 e Y105 = 73, S2 = 12.

218
Desejamos testar as seguintes hipóteses:
H0 : 1 2 H0 : 1 2 0
ou equivalentemente
H1 : 1 > 2 H1 : 1 2 >0
A estatística do teste é dada por

X95 Y105 77 73
z0 = q 2 2
=q = 2; 07
S1 S2 152 122
95
+ 105 95
+ 105

O valor tabelado é z0;01 = 2; 33.

Como z0 = 2; 07 z0;01 = 2; 33, não rejeitamos H0 , ou seja, não há evidên-

cia su…ciente para aceitar a alegação de que o tratamento …toterápico aumenta a

memória.

10.5 Teste de Hipóteses para a Diferença entre


duas Médias (amostras pequenas e indepen-
dentes)

Quando não se pode colher amostras de 30 ou mais itens, pode usar um teste t, se

as duas populações forem normalmente distribuídas.

A distribuição amostral depende do fato de as variâncias populacionais serem ou

não iguais. O primeiro passo, portanto, é testar se as duas variâncias amostrais po-

dem ser consideradas estatisticamente iguais ou não, para em seguida direcionarmos

para o teste apropriado.

10.5.1 Testando se as duas variâncias dos dois grupos são


iguais

Suponha que um estudo seja conduzido com n1 do Grupo I e n2 do Grupo II, com

n1 < 30 e n2 < 30, e que os resultados de cada grupo sejam:

Grupo I: fx1 ; x2 ; :::; xn1 g

Grupo II: fy1 ; y2 ; :::; yn2 g

219
Sejam S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
Pn1 2 Pn2 2
i=1 xi Xn1 i=1 yi Yn2
S12 = e S22 = .
n1 1 n2 1

Desejamos testar as seguintes hipóteses:

2 2
H0 : 1 = 2
2 2
H1 : 1 6 = 2

2 2
onde 1 e 2 são as variâncias populacionais dos grupos I e II, respectivamente.

A estatística do teste é dada por

S12
F0 = , se S12 S22
S22

ou
S22
F0 = , se S22 S12
S12

Se S12 S22 pode-se mostrar que F0 tem distribuição F-Snedecor com n1 1

graus de liberdade no numerador e n2 1 graus de liberdade no denominador,

denotada por Fn1 1;n2 1 .

Se S22 S12 pode-se mostrar que F0 tem distribuição F-Snedecor com n2 1

graus de liberdade no numerador e n1 1 graus de liberdade no denominador,

denotada por Fn2 1;n1 1 .

De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a

partir do valor tabelado da distribuição F.

Decisão:
S12
(a) No contexto S12 S22 : Se F0 = S22
> Fn1 1;n2 1; =2 , então rejeitamos H0
2 2
e aceitamos H1 : 1 6= 2, isto é, os dois grupos têm variâncias diferentes. Se, por
S12
outro lado, F0 = S22
Fn1 1;n2 1; =2 , então não rejeitamos H0 , e podemos concluir

que não há diferença entre as duas variâncias.

220
S22
(b) No contexto S22 S12 : Se F0 = S12
> Fn2 1;n1 1; =2 , então rejeitamos H0
2 2
e aceitamos H1 : 1 6= 2, isto é, os dois grupos têm variâncias diferentes. Se, por
S22
outro lado, F0 = S12
Fn2 1;n1 1; =2 , então não rejeitamos H0 , e podemos concluir

que não há diferença entre as duas variâncias.

Exemplo 122 Um engenheiro quer realizar um teste t para veri…car se o consumo

médio de combustível do carro A é inferior ao do B. Uma amostra aleatória do

consumo de combustível de 16 carros A tem um desvio padrão de 4; 5. Já a amostra

aleatória do consumo de 22 carros B tem um desvio padrão de 4; 2. O engenheiro

deveria usar o teste t com variâncias iguais ou com variâncias diferentes? Use um

nível de signi…cância de 5%.

Solução: Temos n1 = 16 (carro A, Grupo I) e n2 = 22 (carro B, Grupo II).

Além disso: S1 = 4; 5 e S2 = 4; 2.

Como S12 S22 , temos que a estatística do teste é dada por

S12 (4; 5)2


F0 = = = 1; 148
S22 (4; 2)2

A um nível de signi…cância de 5%, temos que o valor tabelado de F15;21;0;025 =

2; 53.

Como F0 = 1; 148 < F15;21;0;025 = 2; 53, não rejeitamos H0 , e podemos concluir

que não há diferença entre as duas variâncias. Ao fazer um teste t para comparar

as médias das duas populações, use o teste para variâncias iguais.

10.5.2 Testando a Diferença entre duas Médias (com as duas


variâncias dos dois grupos iguais)

Sejam os dois grupos:

Grupo I: fx1 ; x2 ; :::; xn1 g

Grupo II: fy1 ; y2 ; :::; yn2 g

221
Sejam S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,
Pn1 2 Pn2 2
i=1 xi Xn1 i=1 yi Yn2
S12 = e S22 = e
n1 1 n2 1

sejam Xn1 e Yn2 , as médias dos grupos I e II, respectivamente.

Se as variâncias das duas populações são consideradas estatisticamente iguais, é

possível combinar ou ‘agrupar’informação das duas amostras, a …m de formar uma

estimativa agrupada do desvio padrão, da seguinte forma:


s
(n1 1) S12 + (n2 1) S22
^=
n1 + n2 2

A estatística do teste para se testar as hipóteses

H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0

é dada por
Yn Xn1
t0 = q2
^ n11 + n12
que tem distribuição t-Student com n1 + n2 2 graus de liberdade.

De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a

partir do valor tabelado na t-Student com n1 + n2 2 graus de liberdade.

Decisão:

(a) No contexto de um teste bilateral: Se t0 2


= tn1 +n2 2; =2 ; tn1 +n2 2; =2 ,

então rejeitamos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias

diferentes. Se, por outro lado, t0 2 tn1 +n2 2; =2 ; tn1 +n2 2; =2 , então não rejeitamos

H0 , e podemos concluir que não há diferença entre os dois grupos.

(b) No contexto de um teste unilateral à esquerda: Se t0 < tn1 +n2 2; ,

rejeitamos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente

222
e inferior à média do Grupo I. Se, por outro lado, t0 tn1 +n2 2; , não rejeitamos

H0 , ou seja, 2 1.

(c) No contexto de um teste unilateral à direita: Se t0 > tn1 +n2 2; ,

rejeitamos H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente

e superior à média do Grupo I. Se, por outro lado, t0 tn1 +n2 2; , não rejeitamos

H0 , ou seja, 2 1.

Exemplo 123 Cinco pick-ups pequenas e oito SUVs realizaram testes de colisão a

cinco milhas por hora. Para as pick-ups, o conserto do pára-choques custou em média

US$ 1:520, com um desvio padrão de US$ 403. No caso dos SUVs, o conserto custou

uma média de US$ 937, com um desvio padrão de US$ 382. Sendo = 0; 05, teste a

alegação de que o conserto de pára-choques das pick-ups custa mais que o dos SUVs.

Admita que a partir do teste de igualdade de variâncias tenhamos comprovado que

as mesmas sejam iguais.

Solução: Como na primeira fase se comprovou que as variâncias dos dois grupos

são iguais, devemos utilizar o teste t com n1 + n2 2 = 5+8 2 = 11 graus de

liberdade, pois temos n1 = 5 (carro pick-up, Grupo I) e n2 = 8 (carro SUV, Grupo

II). Temos também os seguintes dados: X5 = 1:520, S1 = 403 e Y8 = 937, S2 = 382.

Assim, temos
s
(n1 1) S12 + (n2 1) S22
^ =
n1 + n2 2
s
4 (403)2 + 7 (382)2
=
11
^ = 389; 77

Desejamos testar
H0 : 1 2 H0 : 1 2 0
ou equivalentemente .
H1 : 1 > 2 H1 : 1 2 >0

223
A estatística do teste é dada por

Xn Yn2 1:520 937


t0 = q1 = q = 2; 624.
^ n11 + n12 389; 77 15 + 18

O valor tabelado é t11;0;05 = 1; 796.

Como t0 = 2; 624 > t11;0;05 = 1; 796, rejeitamos H0 e aceitamos H1 : 1 2 > 0,

ou seja, a média do grupo I (pick-ups) é diferente e superior à média do Grupo II

(SUVs).

10.5.3 Testando a Diferença entre duas Médias (com as duas


variâncias dos dois grupos diferentes)

Sejam os dois grupos:

Grupo I: fx1 ; x2 ; :::; xn1 g

Grupo II: fy1 ; y2 ; :::; yn2 g

Sejam S12 e S22 as variâncias amostrais dos Grupos I e II, respectivamente,isto é,


Pn1 2 Pn2 2
i=1 xi Xn1 i=1 yi Yn2
S12 = e S22 = e
n1 1 n2 1

sejam Xn1 e Yn2 , as médias dos grupos I e II, respectivamente.

Se as variâncias das duas populações são consideradas estatisticamente diferentes,

então a estatística do teste para se testar as hipóteses

H0 : 2 1 =0 H0 : 2 1 0 H0 : 2 1 0
ou ou
H1 : 2 1 6= 0 H1 : 2 1 <0 H1 : 2 1 >0

é dada por
Yn Xn1
t0 = q2 2
S1 S2
n1
+ n22
2 2
S1 S2
n1
+ n2
2
que tem distribuição t-Student com = 2 2 graus de liberdade (arredon-
(S12 =n1 ) +
(S22 =n2 )
n1 1 n2 1
dando para o inteiro menor mais próximo).

224
De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a

partir do valor tabelado na t-Student com graus de liberdade.

Decisão:

(a) No contexto de um teste bilateral: Se t0 2


= t ; =2 ; t ; =2 , então rejeita-

mos H0 e aceitamos H1 : 2 1 6= 0, isto é, os dois grupos têm médias diferentes.

Se, por outro lado, t0 2 t ; =2 ; t ; =2 , então não rejeitamos H0 , e podemos concluir

que não há diferença entre os dois grupos.

(b) No contexto de um teste unilateral à esquerda: Se t0 < t ; , rejeita-

mos H0 e aceitamos H1 : 2 1 < 0, ou seja, a média do grupo II é diferente e

inferior à média do Grupo I. Se, por outro lado, t0 t ; , não rejeitamos H0 , ou

seja, 2 1.

(c) No contexto de um teste unilateral à direita: Se t0 > t ; , rejeitamos

H0 e aceitamos H1 : 2 1 > 0, ou seja, a média do grupo II é diferente e superior à

média do Grupo I. Se, por outro lado, t0 t ; , não rejeitamos H0 , ou seja, 2 1.

Exemplo 124 Suponha dois grupos, tais que X15 = 400; 9, S1 = 10; 6 e Y15 =

367; 2, S2 = 6; 1. Suponha que o teste de igualdade de variâncias tenha comprovado

ao nível de signi…cância de 5% que as mesmas são diferentes e que desejamos testar

as hipóteses
H0 : 2 1 =0
H1 : 2 1 6= 0
ao mesmo nível de signi…cância. A estatística do teste é dada por

Yn Xn1 367; 2 400; 9


t0 = q2 2 2
=q = 10; 67
S1 S2 (10;6)2 (6;1)2
n1
+ n2 15
+ 15
2 2 2
S1 S2 (10;6)2 (6;1)2
n1
+ n2 15
+ 15
2
que tem distribuição t-Student com = 2 2 = ((10;6)2 =15)2 ((6;1)2 =15)2
=
(S12 =n1 ) +
(S22 =n2 ) 14
+ 14
n1 1 n2 1

225
22; 36 = 22 graus de liberdade. O valor tabelado para o teste bilaterial é t ; =2 =

t22;0;025 = 2; 074.

Como t0 = 10; 67 2
= [ 2; 074; 2; 074], rejeitamos H0 e aceitamos H1 : 2 1 6=

0, isto é, os dois grupos têm médias diferentes.

10.6 Teste de Hipóteses para a Diferença entre


duas Proporções

Se as amostras independentes colhidas de duas populações forem grandes o bas-

tante, pode-se aplicar um teste para veri…car se há diferença entre as proporções

populacionais p1 e p2 .

Sejam X1 e X2 representam o número de sucessos na primeira e na segunda

amostra, respectivamente, e sejam n1 e n2 os tamanhos da primeira e da segunda

amostra, respectivamente. De…nimos as proporções amostrais dos dois grupos como

X1 X2
p^1 = e p^2 = .
n1 n2

De…na também
X1 + X2
p= eq=1 p.
n1 + n2

Desejamos testar as seguintes hipóteses:

H0 : p 1 p2 = 0 H0 : p 1 p2 0 H0 : p 1 p2 0
ou ou
H1 : p 1 p2 6= 0 H1 : p 1 p2 < 0 H1 : p 1 p2 > 0

Se n1 p, n1 q, n2 p e n2 q equivalem a cada um pelo menos 5, então a estatística

do teste utilizada para as hipóteses acima é dada por

p^1 p^2
z0 = r
pq n11 + 1
n2

e tem distribuição normal padrão.

226
De…nindo um nível de signi…cância , podemos agora tomar nossa decisão a

partir do valor tabelado na Normal Padrão.

Decisão:

(a) No contexto de um teste bilateral: Se z0 2


= z =2 ; z =2 , então rejeita-

mos H0 e aceitamos H1 : p1 p2 6= 0, isto é, os dois grupos têm proporções diferentes.

Se, por outro lado, z0 2 z =2 ; z =2 , então não rejeitamos H0 , e podemos concluir

que não há diferença entre as duas proporções.

(b) No contexto de um teste unilateral à esquerda: Se z0 < z , rejeita-

mos H0 e aceitamos H1 : p1 p2 < 0, ou seja, a proporção do grupo I é diferente e

inferior à proporção do Grupo II. Se, por outro lado, z0 z , não rejeitamos H0 ,

ou seja, p1 p2 .

(c) No contexto de um teste unilateral à direita: Se z0 > z , rejeitamos H0

e aceitamos H1 : p1 p2 > 0, ou seja, a proporção do grupo I é diferente e superior

à proporção do Grupo II. Se, por outro lado, z0 z , não rejeitamos H0 , ou seja,

p1 p2 .

Exemplo 125 Em um levantamento com 3:420 alunos do ensino médio privado,

917 disseram ter fumado nos 30 dias precedentes. Já em um levantamento com

5:131 alunos do ensino médio público, 1:503 disseram ter fumado nos 30 dias prece-

dentes. Pode-se aceitar a alegação de que a proporção de alunos de escola privada

que disseram ter fumado é inferior à proporção dos alunos do sistema público que

disseram ter fumado ao nível de signi…cância de 1%?

227

Você também pode gostar