Escolar Documentos
Profissional Documentos
Cultura Documentos
ERIVELTON VITOR
Probabilidade e
Estatística
Resumo Básico dos conceitos
estatísticos descritivos e das
probabilidades
Uruaçu – GO
Conteúdo
Introdução .......................................................................................................................................... 5
1. Noção geral sobre estatística e análise de dados. ................................................................. 7
1.1. Conceitos preliminares – população, amostra e variável .................................................. 7
1.2. Análise de dados e probabilidades..................................................................................... 9
1.3. Organização dos dados e medidas resumo...................................................................... 12
Exercícios: lista 1.1 ...................................................................................................................... 25
1.4. Representação por diagramas ......................................................................................... 30
Exercícios: lista 1.2 ...................................................................................................................... 41
1.5. Coleta de dados e amostragem ....................................................................................... 52
Exercícios: Lista 1.3 ..................................................................................................................... 58
2. Probabilidades...................................................................................................................... 63
2.1. Probabilidade – principais conceitos ............................................................................... 64
2.2. Probabilidade em espaços finitos .................................................................................... 72
Exercícios: Lista 2.1 ..................................................................................................................... 80
2.3. Probabilidade condicional e Independência de eventos ................................................. 83
2.4. Teorema de Bayes ............................................................................................................ 87
Exercícios: Lista 2.2 ..................................................................................................................... 93
3. Variáveis Aleatórias .............................................................................................................. 97
3.1. Probabilidades para variáveis aleatórias........................................................................ 101
Exercícios: Lista 3.1 ................................................................................................................... 120
3.2. Variáveis aleatórias bidimensionais ............................................................................... 128
Exercícios: Lista 3.2 ................................................................................................................... 151
4. Modelos Probabilísticos ..................................................................................................... 159
4.1. Modelos Discretos.......................................................................................................... 159
4.2. Modelos Contínuos ........................................................................................................ 184
Exercícios: Lista 4.2 ................................................................................................................... 213
5. Introdução à Inferência Estatística..................................................................................... 221
5.1. Conceitos Básicos ........................................................................................................... 221
5.2. Distribuições Amostrais.................................................................................................. 224
5.3. Amostragem ................................................................................................................... 229
Exercícios: Lista 5.1 ................................................................................................................... 233
6. Intervalo de Confiança ....................................................................................................... 237
6.1. Intervalo da Confiança para a média ............................................................................. 237
6.2. Intervalo de Confiança para a Variância ........................................................................ 242
6.3. Intervalo de Confiança para proporção ou probabilidade 𝒑 ......................................... 244
Exercícios: Lista 6.1 ................................................................................................................... 246
7. Teste de Hipótese............................................................................................................... 249
7.1. Conceitos principais ....................................................................................................... 249
7.2. Testes de Hipótese ......................................................................................................... 253
Exercícios: Lista 7.1 ................................................................................................................... 266
7.3. Probabilidade de Significância 𝒑 − 𝒗𝒂𝒍𝒐𝒓..................................................................... 271
Exercícios: Lista 7.2 ................................................................................................................... 274
7.4. Análise da Variância ....................................................................................................... 275
Exercícios: Lista 7.3................................................................................................................... 291
8. Análise Conjunta de Variáveis ............................................................................................ 297
8.1 Associação entre Variáveis............................................................................................. 300
8.2 Modelos de Regressão ................................................................................................... 316
Exercícios: Lista 8.1................................................................................................................... 325
Apêndice ........................................................................................................................................ 333
A. Resultados de Análise Combinatória ................................................................................. 333
B. Calculadora Científica - CASIO 𝒇𝒙-82MS............................................................................ 335
C. Tabelas Estatísticas ............................................................................................................ 337
Referências Bibliográficas .............................................................................................................. 342
Introdução
A origem da Estatística é rodeada de mistérios. Foram muitas as contribuições linguísticas
para chegarmos ao conceito conhecido hoje. O mais aceito é o de que Estatística têm sua origem
na palavra latina STATUS (Estado), mas muitos acreditam que o conceito, hoje dado a
Estatística, derivou-se duma variação do neolatim statisticum collegium ("conselho de Estado")
com a do Italiano statista ("estadista" ou "político") juntamente com o alemão Statistik,
introduzido pela primeira vez por Gottfried Achenwall (1749), que designava originalmente a
análise de dados sobre o Estado, significando a "ciência do Estado" (então chamada aritmética
política (political arithmetic) em inglês). A palavra adquiriu o significado de coleta e
classificação de dados em geral através de Sir John Sinclair no início do século XIX. A rumores
que na antiga Babilônia, China e Egito a mais ou menos 3.000 anos AC já se fazia uso das
técnicas usadas hoje nessa ciência. No Velho Testamento bíblico temos uma referência a uma
instrução dada a Moises para que fizesse um levantamento de quantos homens israelitas
estavam aptos para guerrear. Dessa forma, o propósito original da Estatística era fornecer os
dados a serem usados pelo governo e outras organizações. A coleta de dados sobre estados e
localidades continua, em grande parte, através de órgãos estatísticos nacionais e internacionais.
Uma investigação normalmente enfoca uma coleção bem definida de objetos que
constituem o conjunto de unidades de interesse. Essa coleção de unidades passíveis de
observação com uma ou mais características em comum que se pretende analisar é dita
população estatística. Em um estudo, a população pode ser finita (possuirá uma quantidade 𝑁
de pontos populacionais) ou infinita (não é possível contar quantos elementos tem ou possui
uma quantidade numericamente grande). Numa investigação a população pode consistir em
todas as aves nascidas de um determinado procedimento. Outra investigação pode estabelecer
que a população seja todos os alevinos que receberam um tipo específico de ração durante o
ano mais recente. Quando as informações desejadas estiverem disponíveis, de forma que se
possa avaliar individualmente cada unidade observável da população, temos o que é
denominado censo. Restrições de destrutividade, tempo, dinheiro e outros recursos escassos
normalmente tornam um censo impraticável ou inviável. Em vez disso, um subconjunto finito
da população, o que chamamos de amostra, é selecionado de uma forma prescrita e
irrevogavelmente representativa. Dessa maneira, podemos obter uma amostra de parafusos de
uma determinada produção como base de investigação da conformidade dos parafusos com as
especificações do fabricante; ou podemos selecionar uma amostra dos formandos em
engenharia do ano anterior para obter um retorno sobre a qualidade dos currículos. Para a
realização desses estudos, é necessário que o pesquisador tenha em mente algumas informação
sobre o problema a ser estudado. Essa rotina geralmente inclui:
1. Formulação do problema: Identificar claramente o problema ou questão que
precisa ser respondida por meio da análise estatística. Isso envolve definir objetivos
claros e estabelecer as hipóteses a serem testadas;
2. Planejamento: Esta fase envolve desenvolver uma descrição clara e concisa do
problema a ser investigado, definição dos objetos e questões de pesquisa, seleção
da população ou amostra para realização da pesquisa, definição das variáveis,
9. Tomada de decisões: Com base nas conclusões tiradas da análise estatística, tomar
decisões informadas ou fazer recomendações relevantes para o problema ou questão
original. tirar conclusões ou fazer recomendações com base na solução do
problema.
10. Revisão e validação: A fase final envolve revisar todo o processo, desde o
planejamento até a interpretação dos resultados, para garantir a validade e a
confiabilidade da análise estatística realizada.
Os passos acima são fases do que chamamos método pois descrevem um conjunto de
ações, meios e rotinas organizados convenientemente para se chegar a um fim esperado. O
método pode ser descrito de forma experimental ou estatístico. O primeiro se caracteriza por
manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo a descobrir
seus efeitos sobre o fenômeno aleatório em estudo. Seu objetivo é permitir conhecimentos sobre
comportamentos comuns a um grupo de fatores sobre o problema (fenômeno) em estudo. O
segundo admite a impossibilidade de se manter todas as causas presentes constantes, então, se
registra todas as variações possíveis e procura determinar quais influências cabe a cada uma
dessas variações nos fenômenos aleatórios que se destacam porque eles se repetem e estão
associados a uma variabilidade. Após a ocorrência de um fenômeno aleatório, é impossível
prever com certa precisão o resultado de nova ocorrência.
Suponha que busquemos uma estimativa do valor médio da resistência à flexão de todas
as vigas que podem ser feitas dessa forma (se considerarmos a população de todas as vigas,
estaremos tentando estimar a média da população) como no Exemplo 1.1. Pode-se mostrar que,
com alto nível de confiança, a resistência média da população está entre 7,48 Mpa e 8,80 MPa.
Isso é denominado intervalo de confiança ou estimativa por intervalo. De forma alternativa,
esses dados podem ser usados para prever a resistência à flexão de uma única viga desse tipo.
Com alto nível de confiança, a resistência de uma determinada viga excederá 7,35 MPa. O
número 7,35 é denominado limite inferior de previsão.
■
Os métodos de apresentação e ilustração de inferência estatística úteis ao trabalho
científico e a análise de dados trazem informações confiáveis no âmbito das incertezas. Estes
métodos estatísticos são projetados para contribuir para o processo de fazer julgamentos
científicos em face da incerteza e variação. Para tratar desse assunto, buscamos a proficiência
em probabilidade que nos leva à melhor compreensão de como os procedimentos inferenciais
são desenvolvidos e usados, como as conclusões estatísticas podem ser traduzidas para a
Figura 1.1
Antes de podermos entender o que uma determinada amostra pode nos dizer sobre a
população, devemos entender a incerteza associada à tomada da amostra de uma dada
população. Como exemplo do contraste entre os focos da probabilidade e da inferência
estatística, considere o uso de cintos de segurança manuais de dois pontos em carros equipados
com cintos automáticos de três pontos. Em probabilidade, podemos assumir que 50% de todos
os motoristas de carros equipados dessa forma em uma determinada área metropolitana usam
regularmente o cinto de dois pontos (uma hipótese sobre a população), de forma que
perguntamos: “Qual a probabilidade de que uma amostra de 100 motoristas inclua ao menos 70
que usam regularmente o cinto de dois pontos?” ou “Em uma amostra de tamanho 100, quantos
motoristas podemos esperar que usem o cinto de dois pontos?” Por outro lado, em inferência
estatística temos as informações da amostra disponíveis. Por exemplo: uma amostra de 100
motoristas de tais carros revelou que 65 usam o cinto de dois pontos regularmente. Podemos
perguntar então: “Isso fornece evidência suficiente para a conclusão de que mais de 50% de
todos os motoristas nessa área usam regularmente o cinto de dois pontos?” Nesse último
cenário, tentamos usar as informações da amostra para responder a uma pergunta sobre a
estrutura de toda a população a partir da qual a amostra foi selecionada. No exemplo do cinto
de dois pontos, a população está bem definida e concreta: todos os motoristas de carros
equipados de uma forma em uma determinada área metropolitana. Quando a população não
existir na realidade? Neste caso, é conveniente pensarmos na população como consistindo de
todos os resultados possíveis que possam ocorrer para determinada variável, que podem ser
feitas em condições experimentais. Tal população é denominada população conceitual ou
hipotética. Há diversas situações de problemas em que se encaixam questões na estrutura de
inferência estatística pela conceitualização de uma população.
Distribuição de dados
Ao coletar e armazenar os resultados em uma investigação, obtemos um conjunto de
dados, que chamamos distribuição de dados. Esse conjunto de dados é classificado como
univariado, bivariado e multivariado. Um conjunto de dados é classificado em univariado
quando é obtido de observações sobre uma única variável. Por exemplo: podemos determinar
o tipo de transmissão, automática (A) ou manual (M), de cada um dentre 10 automóveis
recentemente comprados em um determinado revendedor, resultando em um conjunto 𝑋 de
dados categorizados, a saber, 𝑋 = {𝑀; 𝐴; 𝐴; 𝐴; 𝑀; 𝐴; 𝐴; 𝑀; 𝐴; 𝐴}. O número de bactérias,
Por exemplo: um médico pesquisador pode determinar a pressão sanguínea sistólica, a pressão
sanguínea diastólica e o nível de colesterol de cada paciente participante de um estudo. Cada
observação seria um trio de números, como (120; 80; 146). Em muitos conjuntos de dados
multivariados, algumas variáveis são numéricas e outras são categorizadas.
Os resumos visuais de dados são excelentes ferramentas para obter impressões e ideias
iniciais. Uma análise mais formal de dados frequentemente exige o cálculo e a interpretação de
medidas-resumo numéricas simples. Isto é, a partir dos dados, tentamos extrair diversos
números simples, que servem para caracterizar o conjunto dedados e indicar algumas
informações consideráveis. Nossa preocupação principal será com os dados numéricos. Antes
de obtermos qualquer medida representativa de uma distribuição, devemos, primeiro, organizar
os dados em ordem crescente. Suponha, então, que nossa distribuição seja como dada no
Exemplo 1.2 abaixo.
Exemplo 1.2 Considere os salários, em frações do salário mínimo, dos 36 empregados da seção
orçamentos da Companhia MB, organizados em ordem crescente.
4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,44 7,59
8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76
11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,5 19,40 23,30
Selecionando um empregado, ao acaso, dentre os 36 pesquisados que salário seria
esperado ele receber? Qual o valor mínimo recebido pelos 25% mais bem pagos? Que
características, de tal conjunto de números, são de maior interesse e merecem ênfase?
■
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥̅ = (1.1)
𝑛
Entendemos que a média 𝑥̅ representa o valor mais provável da variável em estudo. Da
distribuição dada no Exemplo 1.2 temos que a média amostral é 𝑥̅ = 11,12. Ao se realizar várias
medidas, os valores obtidos tendem a estar mais próximos deste valor. A média é o que melhor
representa o “valor real” da variável. Como a média é facilmente influenciada por valores
atípicos conhecidos por outliers que são resultados muito afastados da aglomeração dos demais
resultados, quer seja por baixo quer seja por cima, uma forma de suprimir seus efeitos é
calculando a média aparada. Uma média aparada é calculada aparando-se certa porcentagem
dos maiores e menores valores. Por exemplo, para calcular a média aparada em 5%, deve-se
eliminar 5% dos menores resultados e 5% dos maiores resultados, calculando assim a média
dos 90% restantes. O arredondamento correspondente à porcentagem de truncamento 𝑝, com
0 < 𝑝 < 1, é feita sempre para o maior inteiro menor que 𝒑 × 𝒏. Com os dados do exemplo
1.2 temos que 10% de 36 é 0,1 ⋅ 36 = 3,6. Assim, serão eliminados 3 (maior inteiro menor
que 3,6) à esquerda e à direita, e, a média aparada em 10% é igual a 𝑥̅𝑡𝑟(10) = 10,838.
Definimos também a moda, indicada por 𝒎𝒐, como sendo o resultado com maior frequência
dentro da coleção de resultados possíveis da variável. Na Tabela 1.2 temos 5,6 como valor
modal. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos resultados
̃ = 𝒎𝒅 como
pode ser bimodal, trimodal, etc. Ainda destacamos a mediana, indicada por 𝒙
sendo um valor numérico que ocupa a posição central da distribuição de dados adequadamente
organizada (ordem crescente é o mais comum). Assim, se 𝑋 = {3, 4, 7, 8, 9, 9, 11} a mediana
será o valor 8, correspondente à quarta posição, isto é, 𝑥̃ = 𝑥4 = 8. É imediato que a mediana
deixa 50% dos resultados à sua esquerda. Os valores ordenados da variável 𝑋 são chamados
estatísticas de ordem, a saber, 𝑥1 = 3, 𝑥2 = 4, 𝑥3 = 7, 𝑥4 = 8, 𝑥5 = 9, 𝑥6 = 9, 𝑥7 = 11, assim
temos 3 ≤ 4 ≤ 7 ≤ 8 ≤ 9 ≤ 9 ≤ 11.
Para um tratamento estatístico mais rigoroso das variáveis quantitativas, costuma-se usar
uma definição considerando as frequências acumuladas da distribuição, ou seja, dado 𝑛
observações de uma variável quantitativa amostral e, sendo 𝑥 um número real qualquer, de sorte
que 𝑥𝑖 ≤ 𝑥, sendo 𝑥𝑖 o resultado na 𝑖 − é𝑠𝑖𝑚𝑎 posição, chamar-se-á de função de distribuição
empírica (FDE) a função 𝐹𝑒 (𝑥) que estabelece a proporção dos dados que estão à esquerda do
valor arbitrário 𝑥. A igualdade (1.2) traz a forma da FDE empírica.
1
𝐹𝑒 (𝑥) = ⋅∑𝑖
𝑛 (1.2)
𝑥𝑖 ≤𝑥
Essa função fornece, qualquer que seja o valor real 𝑥, a proporção dos resultados na
distribuição que são menores que ou iguais a 𝑥. Para ilustrar, considere a distribuição 𝑋 =
{3, 4, 7, 8, 9, 9, 11}. A FDE de 𝑋, considerando a expressão dada em (1.2), fica como abaixo
0 , se x 3
1 7 , se 3 x 4
2 7 , se 4 x 7
Fe ( x) = 3 7 , se 7 x 8
4 7 , se 8 x 9
6 7 , se 9 x 11
1 , se x 11
graficamente temos
𝑥̃
Figura 1.2
dados, ou seja, 𝑀𝑑 = 𝑥̃ = 𝑥(𝑛+1) . Caso o número (𝑛 + 1)⁄2 não seja inteiro, basta obter o valor
2
médio entre elemento imediatamente menor e o imediatamente maior que 𝑥(𝑛+1) . Por exemplo,
2
𝑥13 +𝑥14
se (𝑛 + 1)⁄2 = 13,5, então 𝑥̃ = . A equação (1.3) pode ser usada para calcular a
2
De modo geral, pode-se definir uma medida, digamos, que deixa 43% dos resultados à
sua esquerda. Essa medida é chamada de quantil de ordem 𝑝ou 𝑝 − 𝑞𝑢𝑎𝑛𝑡𝑖𝑙, indicado por 𝑞(𝑝),
onde 𝑝 é uma proporção qualquer 0 < 𝑝 < 1 tal que 100𝑝% das observações sejam menores
do que 𝑞(𝑝). Abaixo, alguns quantis e seus nomes particulares:
𝑞(0,50): 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 5𝑜 𝐷𝑒𝑐𝑖𝑙 = 50𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 como um valor que deixa 25% dos
𝑞(0,40): 4𝑜 𝐷𝑒𝑐𝑖𝑙
𝑞(0,95): 95𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙
𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Figura 1.3
onde 𝑘 é o maior inteiro menor que 𝑝 ⋅ (𝑛 + 1). (existem outras formas de aproximar um 𝑝 −
𝑞𝑢𝑎𝑛𝑡𝑖𝑙, uma delas é considerar a FDE empírica como visto em (1.2)).
Espero que o leitor tenha percebido a forma como obtemos a equação (1.3). Vejamos:
considerando que o quantil de ordem 𝑝 é estimado por 𝑞(𝑝) ≈ 𝑥𝑝⋅(𝑛+1) sendo 0 < 𝑝 < 1 e,
levando em conta que o valor de 𝑝 ⋅ (𝑛 + 1) pode não ser inteiro, então considera-se a maior
posição menor que ou igual a 𝑝 ⋅ (𝑛 + 1), chamada de 𝑘, ponderando a proximidade do quartil,
mediante a parte decimal de 𝑝 ⋅ (𝑛 + 1), aos extremos do intervalo (𝑥𝑘 ; 𝑥𝑘+1 ). Por exemplo
tomando 𝑝(𝑛 + 1) = 17,35 entendemos que o quartil desejado é maior que o décimo sétimo
valor e menor que o décimo oitavo, estando a 0,35 da distância entre eles, ou seja, o quartil
requerido é o valor 𝑥17 mais 35⁄100 da distância entre 𝑥17 e o 𝑥18 . Assim, o quartil procurado
é obtido por 𝑥17 + 0,35 ⋅ (𝑥18 − 𝑥17 ) que é exatamente o resultado expresso por (1.3). A Figura
1.4 ilustra esta situação.
Figura 1.4
𝐼𝑄 = 𝑄3 − 𝑄1 (1.4)
localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena
porção dos dados. A mediana é uma medida resistente, a média não é. Agora, deixando 𝑋
denotar as realizações de uma variável e 𝑥𝑖 indicar o aspecto observado da 𝑖 − é𝑠𝑖𝑚𝑎
realização, temos cinco valores que descrevem bem o comportamento geométrico das
realizações em 𝑋, a saber, 𝑥1 , 𝑄1, 𝑄2 , 𝑄3 e 𝑥𝑛 , ilustrado abaixo
50% das
observações
𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Figura 1.5
Medidas de dispersão
O resumo de um conjunto de dados referentes a uma variável por uma única medida
representativa de posição central esconde toda a informação sobre a variabilidade do conjunto
de observações. Mesmo em problemas de análise de poucos dados, o sucesso de um método
estatístico em particular depende da magnitude da variabilidade entre as realizações dentro da
amostra. O leitor deve entender que o pesquisador quer saber o quanto os dados estão dispersos,
ou homogêneos em relação à média, isto é, a variabilidade do conjunto (dispersão) avalia como
os elementos estão concentrados em torno da média. Quanto menor for a dispersão mais
próximos e homogêneos à média estarão as realizações de um conjunto de dados. Por exemplo,
suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes
notas:
grupo A: 3, 4, 5, 6, 7 grupo D : 3, 5, 5, 7
grupo B: 1, 3, 5, 7, 9 grupo E: 3, 5, 5, 6, 5
grupo C: 5, 5, 5, 5, 5
∑ |𝑥𝑖 − 𝑥̅ | = 2 + 1 + 0 + 1 + 2 = 6
𝑖=1
e
5
∑(𝑥𝑖 − 𝑥̅ )2 = 4 + 1 + 0 + 1 + 4 = 10
𝑖=1
O uso desses totais pode causar certas dificuldades quando compararmos conjuntos de dados
com números diferentes de observações, como os conjuntos A e D acima. Neste contesto
definimos variância amostral, indicada por 𝑺𝟐 , como a soma dos quadrados dos desvios
dividida por (𝑛 − 1). Em símbolos temos
∑(𝑥𝑖 − 𝑥̅ )2
𝑆2 = (1.5)
𝑛−1
Mais adiante explicaremos o porquê da divisão por (𝑛 − 1), mas adianto que dessa forma
temos um estimador não viesado da variância populacional 𝜎 2 que é definida como a média
dos quadrados dos desvios (𝒅𝒊 ). O valor (𝑛 − 1) é, frequêntemente chamado de graus de
liberdade associados à estimativa da variância. Ao leitor atento saliento que daqui pra frente a
𝑆 = √𝑆 2 (1.6)
o 𝑆 indica qual a distância, em média, que determinado resultado está da média. Um valor de
desvio padrão grande significa que os valores amostrais avaliados estão bem distribuídos ou
muito heterogêneos, em torno da média, enquanto que um valor pequeno para o desvio padrão
indica que eles estão condensados próximos da média. Em poucas palavras, quanto menor o
desvio padrão, mais homogênea é a amostra.
O erro padrão quantifica o quão precisamente sua estimativa amostral reflete o verdadeiro
valor do parâmetro na população. Quanto menor for o erro padrão, maior será a precisão da
estimativa. A igualdade acima deixa claro que o erro padrão é inversamente proporcional ao
tamanho da amostra, isso significa que, à medida que o tamanho da amostra aumenta, o erro
padrão diminui, o que reflete uma maior precisão da estimativa. O erro padrão desempenha um
papel fundamental na construção de intervalos de confiança e na realização de testes de
hipóteses. Intervalos de confiança são usados para estimar um intervalo em que o valor
populacional provavelmente se encontra, com base na amostra. Testes de hipóteses são usados
para determinar se uma diferença ou efeito observado é estatisticamente significativo
permitindo assim comparar estimativas de diferentes amostras ou populações. Quando se
compara duas estimativas, a que tiver um erro padrão menor geralmente é considerada mais
precisa. Para calcularmos o intervalo de confiança da média basta multiplicar o erro padrão
pelo percentil associado ao nível de significância observado em uma distribuição normal
padrão. Para uma confiabilidade de 95% o intervalo de confiança é dado por
𝑆 𝑆
(𝑥̅ − 1.96 × , . 𝑥̅ + 1.96 × ) (1.8)
√𝑛 √𝑛
o intervalo (1.8) contém a média populacional segundo uma confiabilidade de 95%, ou seja, se
considerarmos 100 intervalos aleatórios iguais a (1.8), todos baseados em amostras de tamanho
𝑛, é esperado que 95 deles contenha a média populacional do conjunto de dados em análise.
Veremos melhor sua aplicabilidade mais adiante. Contudo, quando se quer comparar duas
distribuições distintas, o desvio padrão não produz o resultado esperado visto que ele é obtido
tomando por base os resultados numéricos da distribuição. Um valor alto do desvio padrão não
necessariamente significa uma alta dispersão entre os dados. Para poder comparar duas ou mais
distribuições usamos o coeficiente de variação, indicado por 𝐶𝑉, estabelecido como a razão
entre o desvio padrão amostral e a média da distribuição, ou seja,
𝑆
𝐶𝑉 = (1.9)
𝑥̅
facilmente se percebe que o coeficiente de variação é um valor que oscila no intervalo [0, 1].
Para obter o porcentual de dispersão basta multiplicar o resultado por 100. O coeficiente de
variação é muito usado como outro critério para comparação de duas ou mais distribuições. É
uma quantidade livre de escalas, que expressa uma medida relativa de dispersão útil para a
comparação em termos relativos do grau de concentração, em torno da média, de séries
distintas. Diz-se que a distribuição possui variabilidade nula ou pequena quando o coeficiente
de variação der até 10%; média dispersão quando der acima de 10% e abaixo de 20%; e grande
dispersão quando superar 20%. Para melhor compreendermos essas ideias, consideremos a
distribuição 𝑍 = {2, 5, 5, 7, 8, 9, 9, 11} . Para essa distribuição temos;
2 + 5 + 5 + 7 + 8 + 9 + 9 + 11
𝑧̅ = =7
8
2
(2 − 7)2 + (5 − 7)2 + (5 − 7)2 + (8 − 7)2 + (9 − 7)2 + (9 − 7)2 + (11 − 7)2
𝑆 = = 8,286
8−1
𝑆 = √8,286 = 2,879
2,879
𝐶𝑉 = = 0,41 𝑜𝑢 41% (alta dispersão)
7
2,879
𝐸𝑃(𝑧̅) = = 1,02
√8
4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,44 7,59
8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76
11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,5 19,40 23,30
obtemos as medidas estatísticas amostrais, usando um software específico.
Uma coisa tem que ficar bem clara, a variância e o desvio padrão apresentados acima são
calculadas para uma variável amostral. Os resultados obtidos usando uma distribuição amostral
são chamados Estatísticas Amostrais. É possível fazer inferências (previsões sobre o
comportamento da variável) sobre a população caso conheçamos as Estatísticas Amostrais.
Assimetria e Curtose
Ao plotar os valores de uma distribuição, esta pode apresentar uma representação gráfica
simétrica ou com algum tipo de assimetria. Os dados são ditos simétricos ou aproximadamente
simétricos se os pontos no topo superior direito do gráfico comportam-se como os pontos do
canto inferior esquerdo. É equivalente a dizer que a dispersão inferior é igual ou
aproximadamente igual à dispersão superior, ou seja, 𝑄2 − 𝑥1 ≅ 𝑥𝑛 − 𝑄2. Caso tenhamos
𝑄2 − 𝑥1 < 𝑥𝑛 − 𝑄2 diz-se que a distribuição é assimétrica à direita; caso tenhamos 𝑄2 − 𝑥1 >
𝑥𝑛 − 𝑄2 diz-se que a distribuição é assimétrica à esquerda. Uma das muitas formas de medir o
grau de assimetria de uma distribuição 𝑋 é o coeficiente de assimetria, que indicamos por 𝐴𝑠 e
calculado como abaixo
𝑛
𝑛 𝑥𝑖 − 𝑥̅ 3
𝐴𝑠 = ∑( ) (1.10)
(𝑛 − 1)(𝑛 − 2) 𝑆
𝑖=1
Alguns estatísticos usam este resultado para mensurar o grau de assimetria de uma
distribuição 𝑋 da seguinte forma: se 0 ≤ |𝐴𝑠| ≤ 0,15, a distribuição é praticamente simétrica;
se 0,15 < |𝐴𝑠| < 0,50 a distribuição possui assimetria fraca; se 0,50 ≤ |𝐴𝑠| < 1 classificamos
como assimetria moderada, e, quando |𝐴𝑠| ≥ 1 temos uma assimétrica forte. De forma geral,
uma distribuição de valores 𝑋 pode apresentar uma das seguintes formas
O valor 𝐾 = 0,263 significa que a curva é relativamente normal. Mais adiante veremos
que o achatamento do gráfico se relaciona com a medida do desvio padrão. Quanto maior for o
desvio padrão, mais achatado será o gráfico. (Consegue explicar o porquê?). A figura seguinte
ilustra essa ideia bem como indica os nomes dados a cada tipo de achatamento.
Figura 1.8
𝑐𝑜𝑛𝑠𝑢𝑚𝑜
consumo ajustado =
(𝑐𝑙𝑖𝑚𝑎, 𝑒𝑚 𝑔𝑟𝑎𝑢 𝑑𝑖𝑎)(á𝑟𝑒𝑎 𝑑𝑎 𝑐𝑎𝑠𝑎)
c) Discuta a variabilidade desses dados. Segundo seus cálculos, pode existir algum fator
que esteja influenciando o consumo nessa população? Explique
d) Encontre o intervalo de confiança para esses dados ao nível de 95% de confiabilidade.
Qual interpretação é dada a esse intervalo? Comente.
11. Há determinadas situações em que não se tem acesso aos dados individuais, mas está
disponível uma distribuição de frequências da variável de interesse. A tabela abaixo está o
resumo da variável tempo de espera dos clientes de uma das agências do Banco XX na
cidade de Uruaçu-GO.
Distribuição de frequências do tempo de permanência na fila do banco
referente a uma amostra de clientes do Banco XX agência Uruaçu-GO
em julho de 2018
Permanência (horas) Frequência Absoluta (fi)
0 − 10 70
10 − 20 69
20 − 30 90
30 − 40 43
40 − 50 43
50 − 60 31
60 − 70 16
70 − 80 7
80 − 90 0
90 − 100 1
Total 370
Fonte: dados Hipotéticos
0,31 0,35 0,36 0,36 0,37 0,38 0,40 0,40 0,40 0,41
0,41 0,42 0,42 0,42 0,42 0,42 0,43 0,44 0,45 0,46
0,46 0,47 0,48 0,48 0,48 0,51 0,54 0,54 0,55 0,58
0,62 0,66 0,66 0,67 0,68 0,75
c) Discuta a variabilidade desses dados. Segundo seus cálculos, pode existir algum fator
que esteja influenciando essa corrosão nessa amostra? Explique
Exemplo 1.4 A tragédia que ocorreu com o ônibus espacial Challenger e seus astronautas, em
1986, levou a diversos estudos para investigar os motivos da falha da missão. A atenção
rapidamente se voltou ao comportamento dos anéis de vedação do motor do foguete. Aqui estão
os dados resultantes de observações de 𝑿 =temperatura do anel de vedação (°F) de cada teste
de acionamento ou lançamento real do motor do foguete da nave (Presidential Commissionon
the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131).
84 49 61 40 83 67 45 66 70 69
80 58 68 60 67 72 73 70 57 63
70 78 52 67 53 67 75 61 70 81
76 79 75 76 58 31
■
Perceba que sem nenhuma organização, é difícil ter noção do que pode ser uma
temperatura normal ou representativa, se os valores estão altamente concentrados em torno de
um ponto ou se estão dispersos, se há lacunas nos dados, que porcentagem dos dados estão na
faixa dos 60 e assim por diante. Podemos organizar esses dados inicialmente da forma mais
simples pensável, pô-los em ordem crescente, obtendo assim as estatísticas de ordem.
31 40 45 49 52 53 57 58 58 60
61 61 63 66 67 67 67 67 68 69
70 70 70 70 72 73 75 75 76 76
78 79 80 81 83 84
Essa forma de organização chamamos de ROL. Baseado no ROL é possível construir uma
tabela de frequência simples onde listamos os dados pontualmente e declaramos a frequência
absoluta de cada um. Essa forma de resumir os dados nem sempre irá surtir os efeitos desejados,
Prof. Me. Erivelton Vitor
Noção geral sobre estatística e análise de dados. 31
visto que se tivermos uma grande quantidade de resultados, cada um com frequência 1, teríamos
uma tabela exageradamente grande e de desconfortável leitura, na qual não teríamos a
sintetização esperada. Isso pode ser visto no Exemplo 1.4 e sua tabela de frequência simples
reproduzida abaixo
Diagrama de pontos
horizontal. Quando um valor ocorre mais de uma vez, há um ponto para cada ocorrência e esses
pontos são empilhados verticalmente. Como ocorre com o diagrama de ramo e folha, um gráfico
de pontos fornece informações sobre localização, dispersão, extremos e lacunas. A Figura 1.9
mostra um diagrama de pontos para os dados de temperatura de Anel de Vedação apresentados
no Exemplo 1.4. Um valor de temperatura representativo é o que se apresenta na metade de 60
(°F) e há grande dispersão ao redor do centro. Os dados se estendem mais na extremidade
inferior do que na extremidade superior e a menor observação, 31, pode ser claramente descrita
como um outlier.
Figura 1.9
Se o conjunto de dados discutido no Exemplo 1.4 consistisse de 50 ou 100 observações de
temperatura, cada uma registrada em décimos de graus, seria muito mais trabalhoso construir
um gráfico de pontos. Nossa próxima técnica é melhor adaptável a tais situações.
Ramo e Folhas
Gráficos como o Diagrama de Pontos, o Histograma ou até mesmo o gráfico em colunas
dão uma ideia do comportamento dos dados referente a variável considerada, porém a forma
geométrica da distribuição é tão importante quanto as medidas de posição e dispersão. Neste
contexto, o gráfico Ramo-e-Folhas é um excelente recurso para termos uma ideia da forma
geométrica da distribuição, e o melhor, sem perda (ou pouca perda) de informações sobre os
dados em si. O uso do diagrama de ramo-e-rolha é uma maneira eficaz de resumir os dados, e
consequentemente mostrar seu comportamento geométrico e densidade dos dados. A ideia
básica é dividir cada observação em duas partes: a primeira, chamada ramo colocada à esquerda
de uma linha vertical, a segunda chamada folha colocada à direita. Assim, um valor tipo 4,5
pode ser divido em 4 (ramo) e 5 (folha) e indicado por 4|5, com unidade da folha=0,1. A
unidade da folha descreve a ordem numérica que a folha ocupa no número original, podendo
ser: [⋯ centesimal (0,01), decimal (0,1), unidade (1), dezena (10) centena (100), ⋯ ].
Considerando o ramo-e-folhas com unidade da folha = 1, o resultado 5|23788 indicará
respectivamente os valores 52, 53, 57, 58 e 58. As vezes será viável dividir o ramo em duas
categorias dentro do próprio ramo, para evitar uma linha muito extensa. Na Figura 1.10 os ramos
foram divididos de forma a agrupar as folhas em duas categorias dentro do mesmo ramo. Uma
folha de ‘0’ a ‘4’ e outra folha de ‘5’ a ‘9’. A escolha dos ramos e das folhas é critério do
pesquisador e dependerá unicamente da forma numérica dos dados, porém não se deve escolher
as ordens dos ramos de forma a deixar os dados muito aglomerados em uma quantidade muito
pequena de ramos, isso atrapalha a interpretação e validação dos dados. Para exemplificar, se
tivermos o conjunto de dados 𝑋 como abaixo
15.315 23.440 6.551 13.253 25.312 35.780 42.320 34.782 27.435 17.661
16.820 38.000 40.300 15.800 18.300 21.780 32.414 32.000 18.700 19.600
20.414 23.313 26.432 30.515 27.610 8.598 12.417 22.300 25.400 21.200
22.540 22.010 30.000 21.380 24.780 29.000 30.400 12.319 36.728 36.483
27.312 35.318 18.620 38.661 40.681 19.302 23.300 21.350 28.412 21.313
Seu gráfico ramo-e-folha, considerando o ramos como a maior ordem e a folha a ordem
numérica inferior, tem a forma
𝑓𝑖 Ramo Folha
2 0 68
5 1 223
14 1 556788899
(13) 2 0111112223334
23 2 55677789
15 3 000224
9 3 556688
3 4 002
Unidade de Folha = 1.000
Figura 1.10
milhar) foram considerados, e contabilizou quantos valores estão nesta ordem. Essa informação
foi descrita no rodapé do diagrama, na legenda Unidade de folha = 1.000. Assim, o ponto 2|5
indica que o resultado é 25.000. sendo descartados as centenas, dezenas e unidades. Na Figura
1.11 é mostrado o diagrama de ramo-e-folha simples. Já na Figura 1.12 vemos o diagrama de
ramo-e-folhas duplo criados a partir dos dados do Exemplo 1.4.
É importante salientar que não se deve misturar ramos duplos com ramos simples no
interior do gráfico Ramo-e-Folha. Caso haja vários ramos sem frequência no interior do gráfico,
ele devem aparecer na descrição dos ramos ponderando a folha em branco. Somente o primeiro
e o último ramo podem ser simples quando os demais forem duplos.
Histograma:
O diagrama ramo-e-folha nos possibilita pensar o conjunto de dados divididos em
intervalos de classe, visto que a tabela simples de frequência é inviável, como descrevemos
acima. O diagrama ramo-e-folha do Exemplo 1.4, apresentado na Figura 1.12, sugere que o
intervalo 30 − 31 contém a primeira categoria de folha do ramo 3 com 1 resultado (frequência
1), o intervalo 32−39 não possui nenhuma folha do ramo 3. Já o intervalo 40−44 contém a
primeira categoria de folha do ramo 4 com 1 resultado (frequência 1), o intervalo 45−49 contém
a segunda categoria de folha do ramo 4 com 2 resultados (frequência 2), o intervalo 50−53
possui a primeira categoria de folha do ramo 5 com 2 resultados (frequência 2), enquanto o
intervalo 54−59 possui a segunda categoria de folha do ramo 5 com 3 resultados (frequência
Prof. Me. Erivelton Vitor
Noção geral sobre estatística e análise de dados. 35
3), o intervalo 60−63 contém a primeira categoria de folha do ramo 6 com 4 resultados
(frequência 4), o intervalo 64−69 contém a segunda categoria de folha do ramo 6 com 7
resultados (frequência 7), o intervalo 70−74 contém a primeira categoria de folha do ramo 7
com 6 resultados (frequência 6), o intervalo 75−79 possui a segunda categoria de folha do ramo
7 com 6 resultados (frequência 6) e por último o intervalo 80−85 possui a primeira categoria de
folha do ramo 8 com 4 resultados (frequência 4), enquanto o intervalo 86−90 não contém
nenhuma folha do ramo 8. A tabela com esses intervalos ficaria como abaixo
Identificado o intervalo de classe, pode-se obter seu ponto médio (𝑃𝑚), bastando para
isso somar os extremos e o resultado dividir por 2. A frequência relativa (𝑝𝑖 ) ou proporção de
cada intervalo de classe é obtida dividindo cada frequência absoluta de classe pelo número total
de observações, ou seja, podemos calcular a frequência relativa por meio da fórmula 𝑝𝑖 = 𝑓𝑖 ⁄𝑛
onde 𝑓𝑖 é a frequência absoluta do intervalo, obtida por contagem direta dos valores no ROL.
A densidade (𝑑𝑖 ) de cada intervalo de classe é obtida dividindo cada frequência relativa de
classe pela amplitude da classe, ou seja, a densidade de classe é calculada por meio da fórmula
𝑑𝑖 = 𝑝𝑖 ⁄ℎ𝑖 , onde ℎ𝑖 indica a amplitude do intervalo e pode ser obtido realizando uma subtração
simples: ℎ𝑖 = (𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒) − (𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒).
O leitor mais atento certamente percebeu que os intervalos expostos na tabela acima
possuem amplitudes diferentes. O interessante é que todos os intervalos tenham a mesma
amplitude. Resolvemos isso considerando intervalos com igual amplitude, que contenham as
categorias de folha de cada ramo ou partes delas, de sorte que o primeiro intervalo contenha a
Prof. Me. Erivelton Vitor
36 Probabilidade e Estatística
primeira categoria do menor ramo e o último intervalo contenha a segunda categoria do maior
ramo do diagrama ramo-e-folha. A amplitude de cada intervalo geralmente indicada pela letra
ℎ pode ser obtido pela fórmula ℎ = (𝑥máx − 𝑥mín )⁄(𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠). Costumeiramente
se arredonda ℎ𝑖 para cima. Isso não é uma regra. Dessa forma, podemos construir uma tabela
dividida em classes, onde declaramos a frequência de cada intervalo, considerado como uma
classe. Para computar essa frequência necessitamos irrefutavelmente de conhecer todos os
resultados amostrais, de preferência o ROL desses resultados.
Nos dados do diagrama ramo-e-folha do Exemplo 1.4 de duas categorias (Figura 1.12), a
amplitude da cada intervalo, considerando usar 10 intervalos, é ℎ = (84 − 31)⁄10 ≅ 6. Assim,
podemos estabelecer a primeira classe como sendo o intervalo 27 ⊢ 33 porque contém a
primeira categoria do menor ramo que é 3 e tem amplitude 6. O intervalo 27 ⊢ 33 é pensado
como todos os valores maiores que ou iguais 27 e menores que 33. Uma vez obtido o primeiro
intervalo, os demais são obtidos somando 6 ao limite superior do intervalos antecedentes.
Construímos a tabela, considerando o ponto médio, a frequência, a frequência relativa e a
densidade de cada classe. Como as classes têm todas a mesma amplitude, a densidade é obtida
pela fórmula 𝑑𝑖 = 𝑝𝑖 ⁄ℎ. Abaixo a tabela agrupada em classe dos dados do Exemplo 1.4, cuja
construção foi baseada no diagrama ramo-e-folha duplo (duas categorias) à direita descrito
anteriormente e com classes de mesma amplitude.
Tabela 1.5 Temperatura do anel de vedação (°F) de cada teste de acionamento ou lançamento
real do motor do foguete da nave do Exemplo 1.4
Temperatura (°F) 𝑝𝑚 𝑓𝑖 𝑝𝑖 𝑑𝑖
27 ⊢ 33 30 1 0,028 0,0046
33 ⊢ 39 36 0 0,000 0,0000
39 ⊢ 45 42 1 0,028 0,0046
45 ⊢ 51 48 2 0,056 0,0093
51 ⊢ 57 54 2 0,056 0,0093
57 ⊢ 63 60 6 0,167 0,0278
63 ⊢ 69 66 7 0,194 0,0323
69 ⊢ 75 72 7 0,194 0,0323
75 ⊢ 81 78 7 0,194 0,0323
81 ⊢ 87 84 3 0,083 0,0138
Total -- 36 1 --
valores para 𝑥. Indique, nesse eixo, os pontos médios de cada classe. Desenhe um retângulo,
acima de cada ponto médio explicitado, cuja alturas seja a densidade correspondente (ou
frequência relativa) ao ponto médio analisado. Abaixo histograma dos dados do Exemplo 1.4
construído a partir dos dados exibidos no ramo-e-folha mostrado na Figura 1.12
Histograma de Tem_anel_vedação
0,035
0,030
0,025
Densidade
0,020
0,01 5
0,01 0
0,005
0,000
30 36 42 48 54 60 66 72 78 84
Tem_anel_vedação
Figura 1.13
possui dois picos diferentes. A bi-modalidade pode ocorrer quando o conjunto de dados
consistir em observações sobre dois tipos bastante diferentes de indivíduos ou objetos. Um
histograma com mais de dois picos é denominado multimodal. Claro que o número de picos
pode depender da escolha dos intervalos de classe, particularmente com um pequeno número
de observações. Quanto maior o número de classes, maior é a probabilidade de a bi-modalidade
ou de a multi-modalidade e manifestar. Um histograma é simétrico se a metade à esquerda for
uma imagem refletida da metade direita. Um histograma unimodal tem inclinação positiva se
a cauda direita ou superior for estendida em comparação à cauda esquerda ou inferior e
inclinação negativa desviar-se para a esquerda. É possível medir o grau de assimetria de uma
curva. Veremos como mais adiante. A Figura abaixo exibe histogramas “ajustados”, obtidos
pela sobreposição de uma curva de densidade ajustada sobre os retângulos, que ilustram as
diversas possibilidades.
Figura 1.14
Histograma da Temperatura
Normal
Estimativa da distribuição de frequência
0,035 Média 65,86
DesvPad 1 2,1 6
0,030 N 36
0,025
Densidade
0,020
0,01 5
0,01 0
0,005
0,000
36 48 60 72 84
Temperatura
Figura 1.15
Note que o histograma (também a curva) tem uma leve inclinação para a direita. Isso
sugere que os dados estão mais concentrados acima da média. Um histograma funciona melhor
quando o tamanho de amostra for de pelo menos 20. Se o tamanho de amostra for muito
pequeno, cada barra no histograma pode não conter pontos de dados suficientes para demonstrar
precisamente a distribuição dos dados. Se o tamanho amostral for menor do que 20, considere
usar um gráfico de valor individual, como por exemplo, o diagrama de pontos.
Box Plot
Outra exibição útil para refletir as propriedades de uma amostra é o diagrama BoxPlot.
Este gráfico inclui o intervalo interquartílico dos dados em uma caixa que possui a mediana
exibida no interior. O intervalo interquartil tem como extremos o 3º quartil e o 1º quartil. Além
da caixa, os “bigodes” se estendem, mostrando observações extremas na amostra. Para amostras
razoavelmente grandes, o visor mostra o centro de localização, a variabilidade e o grau de
assimetria. Além disso, o BoxPlot pode fornecer ao espectador informações sobre quais
observações podem ser outliers. Outliers são observações consideradas anormalmente distantes
da maior parte dos dados. Do ponto de vista estatístico, um outlier pode ser produto de um erro
de observação ou de arredondamento, ou até mesmo uma anomalia da própria distribuição. Daí,
usarmos o nome (ou valores) exteriores. Contudo, na prática, estas duas denominações são
frequentemente usadas com o mesmo significado: observações fora de lugar, discrepantes ou
atípicas.
Existem muitos testes estatísticos que são projetados para detectar outliers.
Tecnicamente, pode-se ver um outlier como sendo uma observação que representa um “evento
raro” (há uma pequena probabilidade de obter um valor que esteja longe da maior parte dos
dados). As informações visuais no gráfico BoxPlot não pretendem ser um teste formal para
outliers. Pelo contrário, é visto como uma ferramenta de diagnóstico. Embora a determinação
de quais observações são outliers varie com o tipo de software usado, um procedimento comum
é usar um múltiplo do intervalo interquartil. Por exemplo, se a distância da caixa exceder 1,5
vezes o intervalo interquartílico (em qualquer direção), a observação pode ser rotulada como
um outlier. As informações contidas no esquema dos cinco números podem ser traduzidas
graficamente num diagrama que chamaremos de desenho esquemático ou Box Plots como
indicado na Figura 1.16
Figura 1.16
Desejo, agora, que o leitor observe como esses recursos elucidam o comportamento dos
dados e começam a nos mostrar como os valores resultantes são distribuídos ao longo da escala
de medida
Figura 1.17
a) Que proporção das pastilhas da amostra tinha ao menos uma partícula? Ao menos cinco
partículas?
b) Que proporção das pastilhas da amostra tinha entre cinco e 10 (inclusive) partículas?
Estritamente entre cinco e 10 partículas?
c) Desenhe um histograma usando a frequência relativa no eixo vertical. Como você
descreveria o formato do histograma?
9. O artigo “The Pedaling Technique of Elite Endurance Cyclists” (Int. J. of Sport
Biomechanics, 1991, p. 29-53) relatou os dados a seguir sobre a potência de uma única
perna de um ciclista em alta carga de trabalho:
244 191 160 187 180 176 174 205 211 183 211 180 194 200
a) Calcule e interprete a média e a mediana amostrais.
b) Suponha que a primeira observação tenha sido 204 em vez de 244. Como a média e a
mediana seriam afetadas?
c) Calcule uma média aparada, eliminando a maior e a menor observações da amostra.
Qual é a porcentagem de truncamento correspondente?
d) O artigo também relatou valores sobre a potência de uma única perna para uma carga
Grupo controle: 7 3 −4 14 2 5 22 −7 9 5
Grupo de tratamento: −6 5 9 4 4 12 37 5 3 3
a) Faça um gráfico de pontos dos dados para os dois grupos no mesmo gráfico.
b) Calcule a média, mediana e média aparada em 10% para ambos os grupos.
c) Explique por que a diferença de médias sugere uma conclusão sobre o efeito do regime,
enquanto a diferença em medianas ou médias aparadas sugere uma conclusão diferente.
11. Um serviço de teste de consumidores obteve a seguinte quilometragem, por litro, em cinco
corridas de teste realizadas com três carros compactos:
Carro A: 31,7 30,4 30,6 31,4 27,9
Carro B: 31,2 28,7 31,3 28,7 31,3
Carro C: 28,6 29,1 28,5 32,1 29,7
Tanto o fabricante do carro A, quanto o do carro B, pretendem anunciar que seus carros
tiveram o melhor "desempenho médio" nesse teste. Que medidas de posição cada um
deverá usar para conseguir o seu intento? E se o fabricante do carro C contratasse você para
achar uma maneira, SEM FRAUDES, de mostrar que seu carro teve o melhor desempenho,
o que você sugeriria? Justifique sua resposta.
12. Os tempos despendidos por uma amostra de 12 alunos, em segundos, para percorrer certo
trajeto, sem barreira, foram 16, 17, 16, 20, 18, 16, 17, 19, 21, 22, 16, 23. Determine o valor,
sem agrupar os dados, das medidas de posição.
13. Você é responsável por uma classe de 50 alunos. As faltas às aulas em sua disciplina foram:
0 3 4 5 0 2 1 3 2 1
1 3 3 3 0 1 4 2 1 2
1 0 2 2 3 2 4 1 1 3
2 1 1 1 2 3 5 3 2 2
4 2 0 0 3 3 5 0 2 3
a) Construa o ROL para então construir a distribuição de frequência para melhor apresentar
e analisar estes dados.
b) Represente esses dados usando o diagrama de pontos.
c) Qual a percentagem de alunos que tiveram falta abaixo de 4?
d) Qual a percentagem de alunos que tiveram falta acima de 2?
e) Se estivéssemos interessados na falta que ocorreu com maior frequência, qual seria?
f) Determine as medidas de posição.
14. Um estudo de corrosão foi feito para determinar se o revestimento de um metal com uma
substância retardadora de corrosão reduziu a quantidade de corrosão. O revestimento é um
protetor que é anunciado para minimizar o dano por fadiga neste tipo de material. Também
é interessante a influência da umidade na quantidade de corrosão. Uma medição de
corrosão pode ser expressa em milhares de ciclos para falha. Dois níveis de revestimento
foram usados: sem revestimento e revestimento contra corrosão química, foram usava.
Além disso, os dois níveis de umidade relativa são 20% e 80% de umidade relativa. O
experimento envolve quatro combinações de tratamento que estão listadas na tabela que
segue.
Corrosão média
em milhares
Revestimento Umidade
de ciclos por
falhas
Sem revestimento 20% 975
80% 350
Revestimento 20% 1750
químico 80% 1550
20.414 23.313 26.432 30.515 27.610 8.598 12.417 22.300 25.400 21.200
16.820 38.000 40.300 15.800 18.300 21.780 32.414 32.000 18.700 19.600
22.540 22.010 30.000 21.380 24.780 29.000 30.400 12.319 36.728 36.483
27.312 35.318 18.620 38.661 40.681 19.302 23.300 21.350 28.412 21.313
Agrupe esses das numa tabela de frequência agrupada por classes. Construa seu
histograma.
16. Os dados a seguir representam indivíduos que foram contaminados pelo veneno de um
certo tipo de inseto e submetidos a tratamento. A variável de interesse denomina-se Recup
e é definida como o tempo, em horas, entre a administração do tratamento e a recuperação
do indivíduo. Os valores de Recup são os seguintes:
3 90 23 46 2 42 47 37 12 51
11 1 3 3 45 3 4 11 2 8
56 39 22 16 5 52 35 10 14 50
a) Determine a medidas de posição e dispersão desses valores. Qual o grau de variabilidade
desses dados?.
b) Separe o conjunto de dados em três grupos denominados: cura rápida, com valor de
Recup menor ou igual a 12, cura normal, se o valor de Recup for maior do que 12 e
menor ou igual a 45, e cura lenta, se o valor de Recup estiver acima de 45. Compare a
variabilidade desses três grupos através de seus coeficientes de variação
17. As concentrações de óxido de nitrogênio e hidrocarbono (em g/m3) foram determinadas
em uma área urbana, em locais e horários específicos. Os dados são mostrados a seguir.
c) Calcule média e desvio padrão para cada variável e para a variável DIF = O - H
(diferença entre as concentrações dos poluentes).
d) Considerando a variável DIF, pode-se dizer que as duas classes de poluentes estão
presentes nas mesmas concentrações?
18. Considere uma população constituída de 40 profissionais liberais que foram, questionados
sobre o número de revistas e/ou jornais que os mesmos são assinantes, obteve-se a seguinte
tabela:
Número de profissionais liberais que assinam
alguma revista ou jornal.
Nº de Publicações Nº de Profissionais
0 6
1 8
2 12
3 10
4 4
Total 40
Pede-se:
19. O dono de uma Lan House quer saber se o tempo de uso da internet por sessão é diferente
entre seus clientes jovens e adultos. Para isso, ele contratou um Estatístico, que coletou
uma amostra aleatória de clientes nos dois grupos e mediu o tempo, em minutos, que cada
cliente gastou em sua sessão. Os dados coletados estão resumidos nas duas ogivas (dois
polígonos de frequências acumuladas) mostradas na figura a seguir:
Comente sobre a seguinte frase: “mais de 50% dos clientes adultos utilizam a internet por
mais de 30 minutos a cada sessão”
20. Os fenômenos mundiais de crescimento e de declínio florestal atraem grande interesse
público e científico. O gráfico a seguir foi baseado nos dados do artigo “Relationship
among crown condition, growth and stand nutrition in seven northern Vermont
sugarbushes” ( Canad. J. of Forest Res., 1995, 0. 386.397) que apresenta um diagrama de
caixa (boxplots) das variáveis individualmente. O secamento dos ramos é um indicador de
retardamento no crescimento da planta e, quanto mais baixo o pH do solo, maior a sua
acidez. A amostra consistiu de 19 pares das medidas tomadas na região.
Com base na amostra determine o graus de variação desses preços. Baseado no valor
obtido, pode-se dizer que a variação é alta? Justifique.
23. Para se estudar o desempenho das corretoras de ações A e B, selecionou-se de cada uma
delas amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a
porcentagem de lucro apresentada durante o período de um ano. Os gráficos a seguir
apresentam os desenhos esquemáticos relativos à porcentagem de lucro das amostras de A
e B durante o período citado.
Relativamente à porcentagem de lucro obtida por essas corretoras pode-se afirmar que
a) exatamente 25% dos valores de A são inferiores a 55.
b) menos de 50% dos valores de B são superiores a 55.
c) o maior valor de A é 60.
d) os valores de A apresentam maior variabilidade que os de B.
e) os valores de B apresentam assimetria positiva.
24. Construa o Box plot para a seguinte amostra aleatória de um experimento:
3 3 3 3 4 4 4 4 4 4
4 4 4 4 5 5 5 5 5 5
5 5 5 5 5 5 5 6 6 6
6 6 7 7 7 7 7 8 8 8
8 8 8 9 9 9 9 10 15 17
7,5 6,2 5,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4
8,3 6,5 7,6 9,3 9,2 7,3 5,0 6,3 13,8 6,2
5,4 4,8 7,5 6,0 6,9 10,8 7,5 6,6 5,0 3,3
7,6 3,9 11,9 2,2 15,0 7,2 6,1 15,3 18,9 7,2
5,4 5,5 4,3 9,0 12,7 11,3 7,4 5,0 3,5 8,2
8,4 7,3 10,3 11,9 6,0 5,6 9,5 9,3 10,4 9,7
5,1 6,7 10,2 6,2 8,4 7,0 4,8 5,6 10,5 14,6
10,8 15,5 7,5 6,4 3,4 5,5 6,6 5,9 15,0 9,6
7,8 7,0 6,9 4,1 3,6 11,9 3,7 5,7 6,8 11,3
9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6 4,5 6,2
8,3 3,2 4,9 5,0 6,0 8,2 6,3 3,8 6,0
a) Construa um diagrama de Ramo-e-Folha para esses dados.
b) Qual taxa é considerada vazão típica ou representativa?
c) O diagrama parece ser concentrado ou disperso?
d) A distribuição dos valores parece razoavelmente simétrica? Em caso negativo, como
você descreveria o desvio da simetria?
e) Você descreveria alguma observação como distante do resto dos dados (um outlier)?
29. Num determinado teste realizado a 50 estudantes obtiveram-se as seguintes pontuações:
75 98 42 75 84 87 65 59 63 86
78 37 99 66 90 79 80 89 68 57
95 55 79 88 76 60 77 49 92 83
71 78 53 81 77 58 93 85 70 62
80 74 69 90 62 84 64 73 48 72
Determine:
a) a nota N, tal que 30% dos alunos tenham notam menor ou igual a N;
b) A nota P tal que 75% dos alunos estejam acima ou igual a P.
Na maioria das pesquisas estatísticas são usados dados amostrais, isso ocorre devido à
grande dificuldade ou até mesmo impossibilidade de se pesquisar todos os elementos da
população. Para coletar dados amostrais se deve usar métodos apropriados, tal como a seleção
aleatória. Se os dados não forem coletados usando-se métodos apropriados, eles não são válidos.
A importância da amostragem adequada gira em torno do grau de confiança com o qual o
pesquisador é capaz de responder às perguntas feitas sobre a população pesquisada. Vamos
supor que apenas uma única população exista no problema, assim a amostragem aleatória
simples significa que toda e qualquer amostra específica de tamanho 𝑛 tenha a mesma chance
de ser selecionada (como qualquer outra amostra do mesmo tamanho dentro da mesma
população). Em muitos casos uma tabela de números aleatórios pode ser utilizada na seleção
de amostras. Se possível for a enumeração das unidades populacionais, então podemos
simplesmente sortear o elementos da amostra, ou seguir um critério de ‘saltos’ seguindo passos
bem estabelecidos. O segundo procedimento chamamos de Amostragem Aleatória
Sistemática. Por exemplo, considere uma população com 𝑁 elementos, ordenados de alguma
forma, da qual deseja-se uma amostra com 𝑛 elementos (𝑛 < 𝑁). Para realizar uma amostragem
aleatória sistemática, defina a constante 𝑘 = 𝑁⁄𝑛. Após a definição do valor de 𝑘, sorteia-se o
ponto inicial da amostragem dentre os elementos do primeiro intervalo constituído pelos
elementos populacionais numerados de 1 até 𝑘. Escolhe se o seguinte, que estará 𝑘 posições à
frente do primeiro, e o terceiro que estará 𝑘 posições à frente do segundo, e assim por diante,
sempre somando 𝑘 à ordem do elemento anterior, até completar a escolha dos 𝑛 elementos que
vão compor a amostra. Para facilitar a compreensão, imagine uma distribuição de dados de uma
variável populacional 𝑋 contendo 𝑁 = 15 pontos. Disponha estes pontos ao longo de uma
linha. Suponha 𝑛 = 5. Logo 𝑘 = 3. Escolha para o primeiro ponto da amostra 𝑥1 = 𝑋2. Os
demais pontos amostrais serão 𝑥2 = 𝑋5, 𝑥3 = 𝑋8, 𝑥4 = 𝑋11 e 𝑥5 = 𝑋14 . Logo a amostra será
composta pelos pontos amostrais {𝑋2 , 𝑋5 , 𝑋8 , 𝑋11 , 𝑋15 }.
Figura 1.18
Uma vantagem da AAS é que ela ajuda na eliminação do problema de fazer com que a
amostra reflita uma população diferente (possivelmente mais restrita) do que aquela sobre a
qual inferências precisam ser feitas. Por exemplo, uma amostra deve ser escolhida para
responder a certas questões relacionadas à qualidade da água numa determinada região. A
amostra envolve a escolha de, digamos, 10 frascos de 100 ml cada, e uma pesquisa para avaliar
os teores de metais pesados e Ph deve ser conduzida. Agora, suponha que a amostragem
aleatória não seja usada. Em vez disso, todos ou quase todos os 10 frascos foram tomados em
córregos próximos a nascentes. Acredita-se que a qualidade da água em córregos longe das
nascentes sejam diferentes das próximas as nascentes. Em outras palavras, a amostra coletada
restringiu a população e, portanto, as inferências precisam ser restritas à “população limitada”,
e neste caso, restringir pode ser indesejável. Se, de fato, as inferências precisam ser feitas sobre
todos os mananciais da região, a amostra de tamanho 10 frascos descrita aqui é, muitas vezes,
referida como uma amostra parcial ou tendenciosa.
Notoriamente uma AAS nem sempre é apropriada. Qual abordagem alternativa é usada?
Depende da complexidade do problema. Muitas vezes, por exemplo, as unidades de
amostragem não são homogêneas e naturalmente se dividem em grupos não sobrepostos que
são homogêneos. Esses grupos são chamados de estratos, e um procedimento chamado
amostragem aleatória estratificada envolve a seleção aleatória de uma amostra dentro de
cada estrato. O objetivo é ter certeza de que cada um dos estratos não está superestimado nem
subi-representado. Para isso defina a proporção do estrato em relação à população. A Proporção
do estrato ℎ será igual ao número de elementos presentes neste estrato 𝑁ℎ dividido pelo
tamanho da população 𝑁, ou seja, 𝑁ℎ ⁄𝑁. Multiplique o tamanho total da amostra 𝑛 pela
proporção de cada estrato na população 𝑁ℎ ⁄𝑁. Assim, teremos um tamanho de amostra em
cada estrato, proporcional ao tamanho do estrato em relação à população. Por exemplo,
suponha que uma pesquisa por amostragem seja realizada com o objetivo de reunir opiniões
preliminares sobre um plebiscito referente ao porte de arma de fogo em uma determinada
cidade. A cidade é subdividida em vários grupos sociais que representam estratos naturais. Para
não desconsiderar ou superestimar qualquer grupo, amostras aleatórias separadas de cada grupo
devem ser coletadas de forma proporcional.
As observações contidas em uma amostra são tanto mais informativas sobre a população
quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. Por
exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da
ponta do dedo de um paciente dará uma ideia geral da quantidade de glóbulos brancos no corpo
todo, pois sabe-se que a quantidade de glóbulos brancos é homogenia. A maneira de se obter a
amostra é de extrema importância e, por este motivo existem vários procedimentos para
coletagem de uma amostra. Esses procedimentos constituem especialidades dentro da
Estatística, sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas. Para
melhor compreensão podemos dividir os procedimentos científicos de obtenção de dados
amostrais em três grandes grupos:
1. Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida,
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda,
subdividi-los em dois subgrupos: Levantamentos probabilísticos e não probabilísticos.
O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos
elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer à amostra. No segundo grupo são os demais procedimentos, tais
como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de
especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novo
medicamento e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A
grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida,
baseando-se no resultado contido na própria amostra. Tais medidas já são bem difíceis
para os procedimentos de segundo grupo.
2. Procedimentos Experimentais, cujo principal objetivo é o de analisar o efeito de uma
variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em
estudo (população), bem como o controle de fatores externos, com o intuito de medir o
efeito desejado. Como exemplo, digamos que o pesquisador esteja interessado em saber
se a altura que um produto ocupa na gôndola interfere na quantidade vendida. Outra
aplicabilidade é na medicina, onde esse tipo de estudo é frequentemente usado.
3. Levantamentos Observacionais: aqui, os dados são coletados sem que o pesquisador
tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros
grosseiros. As séries de dados temporais são exemplos típicos desses levantamentos. Por
exemplo, o pesquisador está interessado em prever as vendas de uma empresa em função
de vendas passadas, neste caso, o pesquisador não pode selecionar os dados, esses são as
vendas efetivamente ocorridas.
Primeiro: devemos estabelecer a que nível de confiança (indicado por 𝛾) nossa amostra será
representativa da população. O valor crítico mais comum associado ao nível de confiança é 𝛾 =
95% com valor crítico normal bicaudal1 associado de 𝑍𝛾 = 1,96 . Segundo: estipular que
margem de erro amostral será aceitável nos resultados amostrais. É evidente que quanto maior
o nível de confiança, maior deve ser o tamanho da amostra, quanto menor o erro permitido,
maior deve ser o tamanho da amostra. Outro fator que influencia o tamanho de uma amostra é
a variabilidade dos dados populacionais quanto maior a variabilidade maior o tamanho da
amostra. Indicando a margem de erro amostral por 𝜀 > 0, e considerando uma população
normalmente distribuída com variância populacional 𝜎 2 conhecida então o tamanho 𝑛 da
amostra pode ser inicialmente estimado por
𝑍𝛾 2
𝑛 = 𝜎2 ⋅ ( ) (1.12)
𝜀
Caso queiramos outros níveis de confiança, devemos mudar o valor 𝑍𝛾 conforme o nível de
confiança 𝛾 exigido. A Tabela 1.6 abaixo exibe os pontos críticos associados a alguns níveis de
confiança que podem ser usados numa primeira análise. Outros pontos críticos associados ao
nível de confiança podem ser obtidos considerando uma distribuição normal e serão detalhados
no Capítulo 5, quando discutiremos mais detalhadamente o processo de amostragem bem como
a obtenção do tamanho de uma amostra mediante o conhecimento da população.
Tabela 1.6
Nível de confiança ( 𝛾 ) Ponto crítico bicaudal associado(𝑍𝛾 )
95,0% 1,96
97,0% 2,17
97,5% 2,245
99,0% 2,578
É claro que a fórmula (1.12) nos prende quanto ao conhecimento sobre 𝑛, já que é
necessário ter alguma informação prévia sobre 𝜎 2 ou, então, usar uma pequena amostra piloto
para estimar o valor da variância populacional. O estimador mais comum para a variância
populacional é a variância amostral 𝑆 2 . Usando este resultado em (1.12) teremos uma estimativa
1
O nome bicaudal se dá porque o erro esperado – 𝜀 – pode ser para mais ou para menos.
ótima para o número 𝑛 de objetos amostrais necessários para uma análise comparativa entre as
estatísticas e os parâmetros populacionais dentro dos critérios estabelecidos. Podemos usar
também a proporção populacional como parâmetro estatístico , visto que sua determinação afeta
o tamanho da amostra. No caso de querermos usar proporções sobre a população a relação (1.12)
resulta
𝑍𝛾 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) (1.13)
𝜀
Quando estivermos trabalhando com uma população finita sendo contabilizados 𝑁 pontos
populacionais, as fórmulas (1.12) e (1.13) sofrem uma pequena modificação, segundo a variável
em estudo. Estas fórmulas são básicas para qualquer tipo de composição de amostra; todavia,
existem fórmulas específicas segundo o critério de composição da amostra. Se o investigador
escolhe mais de uma variável, deve optar pelo maior 𝑛 obtido. Quando você não tiver condições
de prever o valor de 𝑝, admita 𝑝 = 0,50, pois, dessa forma você terá o maior tamanho da
amostra, admitindo-se constantes os demais elementos. Nesta situação a equação (1.13) toma a
forma
𝑍𝛾 2
𝑛 = 0,25 ⋅ ( ) (1.14)
𝜀
Nas pesquisas eleitorais é comum o uso da fórmula (1.14). Os índices que se tornaram
padrão nesse mercado são 2 pontos percentuais para a margem de erro e 95% para o nível de
confiança. Isso significa dizer que se a pesquisa for repetida 100 vezes, em 95 delas os
resultados estarão dentro da variação de 2 pontos percentuais para mais ou para menos. Uma
pesquisa com essas variáveis precisa ouvir 2.401 eleitores. Caso a margem de erro seja de 3
pontos percentuais é, então, necessário ouvir 1.068 pessoas.
Exemplo 1.5: Um engenheiro deseja estimar o salário média para o primeiro ano de trabalho de
um bacharel em engenharia civil. Quantos valores de salários devem ser tomados, se o
engenheiro deseja ter 97% de confiança em que a média amostral esteja a menos de 𝑹$ 𝟓𝟎𝟎, 𝟎𝟎
da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que o desvio
padrão dos salários de um bacharel em engenharia seja de 𝝈 = 𝑹$ 𝟔. 𝟐𝟓𝟎, 𝟎𝟎.
Solução: Queremos determinar o tamanho 𝑛 da amostra, para que com 𝛾 = 97% de confiança
a diferença entre a média amostral e a populacional seja menos de 500, ou seja, 𝜀 = 500. Como
foi dado que 𝜎 = 6.250, aplicamos a equação (1.12) obtendo:
2
𝑍97% 2 2
2,17 2
𝑛 =𝜎 ⋅( ) ⟶⇢ 𝑛 = (6.250) ⋅ ( ) ⟶⇢ 𝑛 = 736
𝜀 500
arredondado para cima. Devemos, portanto, obter uma amostra de 736 salários de primeiro ano,
selecionadas aleatoriamente, de bacharéis em engenharia civil para que tal amostra, com 97%
de confiança, tenha média amostral 𝑥̅ que defira no máximo em R$500,00 da verdadeira média
populacional µ.
Exemplo 1.6: O diretor de um empresa de seguros de autos deseja saber o tamanho 𝒏 para uma
amostra necessário para determinar a proporção da população atendida por uma das filiais da
empresa no estado de Goiás situada no município de Uruaçu. Não foi feito um levantamento
prévio da proporção amostral e, portanto, seu valor é desconhecido. Ele quer ter 95% de
confiança que o erro máximo de estimativa seja de ±𝟓%. Quantas pessoas necessitam ser
entrevistadas?
Solução: Devemos considerar o fato de a proporção amostral de atendimentos pela empresa
para pessoas de Uruaçu não é conhecida. Utilizamos a equação (1.13) para 𝑝 = 0,5, 𝜀 = 0,05 e
𝑍95% = 1,96, conforme texto, para determinar o tamanho da amostra. Assim,
𝑍95% 2 1,96 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) ⟶⇢ 𝑛 = (0,5) ⋅ (1 − 0,5) ⋅ ( ) ⟶⇢ 𝑛 = 385
𝜀 0,05
arredondado para cima. Devemos, portanto, obter uma amostra de 385 pessoas para determinar
a proporção da população atendida pela filial da empresa na cidade de Uruaçu-GO.
Nesta situação, qual a melhor técnica para a realização desta pesquisa? O censo, a
amostragem probabilística ou a amostragem não probabilística. Justifique.
4. Suponha que estejamos interessados em obter uma amostra numa população finita com
exatamente 𝑁 pontos populacionais. Quantas amostras do tipo AAS podem ser extraídas
dessa população? Cite ao menos dois exemplos.
5. Uma pesquisa educacional procura determinar a eficácia de um novo método de
alfabetização de adultos. Terminado o período de ensino, o rendimento é medido pelos
resultados obtidos pelos alunos na leitura de um texto.
a. Descreva a população de interesse.
b. Deve-se usar amostragem neste caso ? Por quê ?
6. Identifique qual o procedimento de coleta de dados (observação, questionário com ou sem
entrevista) usadas nas situações abaixo e suas vantagens e desvantagens:
a. Amostragem sobre os hábitos de compra de gêneros alimentícios de uma certa área, por
telefone.
b. Distribuição de questionários, pelo correio, para estudar hábito de leitura de jornais dos
respondentes.
c. Estudo da relação criança hospitalizada e família, acompanhada por um observador.
d. Estudo do nível de poluição atmosférica medida por aparelhos, na Rodoviária.
7. Elabore argumentos e comente sobre os tipos de problemas que surgiriam nos seguintes
planos amostrais
a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início
das atividades das 7h para as 7h30min, decidiu-se entrevistar os 30 primeiros operários
que chegassem à fábrica na quarta-feira.
b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários.
c) Para estimar a percentagem média da receita municipal investida em lazer, enviaram-se
questionários a todas as prefeituras de certo estado, e a amostra foi formada pelas
prefeituras que enviaram as respostas.
d) Para verificar se a oferta de brindes nas vendas de sabão em pó influencia as vendas
tomaram-se quatro supermercado na zona sul e quatro na zona norte de uma cidade com
mais de 300.000 habitantes. Nas quatro lojas da zona sul, o produto era vendido com
brinde, enquanto nas outras quatro era vendido sem o brinde. No fim do mês,
compararam-se as vendas da zona sul com as da zona norte
8. Suponha que estejamos interessados em obter uma amostra numa população finita com
exatamente 𝑁 pontos populacionais. Quantas amostras do tipo AAS podem ser extraídas
dessa população? Cite ao menos dois exemplos.
9. A distribuição do número de filhos, por família, de uma zona rural está na tabela abaixo
No de filhos Percentagem
0 10
1 20
2 30
3 25
4 15
Total 100
a) Sugira um procedimento para sortear uma observação ao acaso dessa população.
b) Dê, na forma de uma tabela de dupla entrada, as possíveis amostras de duas famílias que
podem ser formadas e as respetivas probabilidades de ocorrência.
c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se observar
a quádrupla ordenada (2,3,3,1)?
10. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos
empregados de uma grande empresa. A gerência da empresa deseja ter 97,5% de confiança
de que a média da amostra está no máximo com uma margem de erro de ±𝑅$ 50 da média
real das despesas médicas familiares. Um estudo-piloto indica que o desvio-padrão pode
ser calculado como sendo igual a 𝑅$400.
a) Qual o tamanho de amostra necessário?
b) Se a gerência deseja estar certa em uma margem de erro de ±𝑅$25, que tamanho de
amostra será necessário?
11. Um candidato à presidência da república questiona os resultados de uma pesquisa de
intensão de votos divulgada, na qual foram usados 2% como margem de erro e 95% como
nível de confiança. Por conta própria encomenda outra pesquisa a outro instituto renomado
de pesquisa e pedi que seja usado uma margem de erro de 0,5% e com nível de confiança
de 97,5%. Os resultados obtidos por esta segunda pesquisa não foram muito diferentes dos
da primeira. Explique por que isso ocorreu. (Para o nível de confiança de 97,5% use como ponto
crítico bicaudal associado 𝑍97,5% = 2,17 na equação 1.11)
12. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para
adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio
dos instrutores de estatística. Queremos ter 95% de confiança em que nossa média amostral
esteja a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é
2. Probabilidades
No estudo da estatística, estamos preocupados basicamente com a apresentação e
interpretação dos resultados do acaso que ocorrem em um estudo planejado ou investigação
científica. Por exemplo, podemos registrar o número de acidentes que ocorrem mensalmente
no cruzamento da avenida Goiás com a rua Jamel Cecílio, na esperança de justificar a instalação
de um semáforo; podemos classificar itens saindo de uma linha de montagem como
"defeituosos" ou "não-defeituosos"; ou podemos estar interessados no volume de gás liberado
em uma reação química quando a concentração de um ácido é variada. Portanto, o estatístico
geralmente está lidando com dados numéricos, representando contagens ou medidas, ou dados
categóricos, que podem ser classificados de acordo com algum critério. Vamos nos referir a
qualquer gravação de informação, seja ela numérica ou categórica, como uma observação.
Assim, os números {2, 0, 1, 2}, representando o número de acidentes ocorridos em cada mês,
de janeiro a abril, no ano passado, na interseção entre a Avenida Goiás e a rua Jamel Cecílio,
constitui um conjunto de observações. Da mesma forma, os dados categóricos {N, D, N, N, D},
representando os itens considerados defeituosos ou não-defeituosos quando cinco itens são
inspecionados. Tais resultados são registrados como observações.
Os estatísticos usam a palavra experimento para descrever qualquer processo que gere
um conjunto de dados. Um exemplo simples de um experimento estatístico é o lançamento de
uma moeda. Neste experimento, existem apenas dois resultados possíveis, cara ou coroa. Outro
experimento pode ser o lançamento de um míssil e a observação de sua velocidade em horários
específicos. As opiniões dos eleitores sobre um novo imposto sobre vendas também podem ser
consideradas como observações de um experimento. Estamos particularmente interessados nas
observações obtidas repetindo o experimento várias vezes. Na maioria dos casos, os resultados
dependerão do acaso e, portanto, não podem ser previstos com certeza. Se um químico executa
uma análise várias vezes sob as mesmas condições, ele ou ela obterá medidas diferentes,
indicando um elemento de chance no procedimento experimental. Mesmo quando uma moeda
é lançada repetidamente, não podemos ter certeza de que um dado lance resultará em uma coroa.
No entanto, sabemos todo o conjunto de possibilidades para cada lance, cara ou coroa.
Dada a discussão, devemos lidar com a amplitude do termo experimento. Três tipos de
estudos estatísticos são essencialmente apreciados: experimentos planejados, estudos
Prof. Me. Erivelton Vitor
64 Probabilidade e Estatística
O modelo probabilístico pode ser constituído por meio de premissas, como por exemplo,
estabelecer qual experimento melhor descreve as ocorrências do fenômeno em questão; saber
a priori todos os possíveis resultados do experimento, sem, contudo, saber o resultado que
ocorrerá a cada realização do experimento. A análise dos experimentos realizados para estudo
do fenômeno revela que
(a) Cada realização do experimento pode ser repetida indefinidamente sob as mesmas
condições;
(b) Não se conhece um particular valor do experimento a priori, porém pode-se
descrever todos os possíveis resultados – as possibilidades;
(c) Quando um experimento for repetido um grande número de vezes surgirá uma
𝑓
regularidade, isto é, haverá uma estabilidade da fração 𝑝 = 𝑛 (frequência relativa),
Figura 2.1
Como veremos mais adiante, a característica (c) é de fundamental importância para a
avaliação da probabilidade de um certo evento. Ou seja, a probabilidade de um evento é dada
pela razão entre o número de ocorrência do evento e o número total de ensaios quando este
tende ao infinito, mais precisamente
𝑛𝑜 𝑑𝑒 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑒𝑚 𝑛 𝑒𝑛𝑠𝑎𝑖𝑜𝑠
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = lim (2.1)
𝑛→∞ 𝑛
Ω = {(𝑥, 𝑦) ∶ 0 ≤ 𝑥 ≤ 𝑦 ≤ 1} (2.2)
Essa ideia de espaço amostral infinito gera muito desconforto nos menos preparados
teoricamente. A ideia de infinito é muito abrangente, por isso não detalharemos muito sobre tal
assunto nestas notas. Mas, qualquer que seja o espaço amostral Ω sempre é possível dele retirar
um subconjunto finito ou não. No caso de Ω ser finito, digamos com 𝑁 pontos amostrais,
qualquer subconjunto retirado de Ω será finito com uma quantidade 𝑛 ≤ 𝑁 de pontos amostrais.
probabilidade. Eventos que não possuem intersecção são ditos disjuntos ou mutuamente
exclusivos. Dessa forma temos a
Ainda sobre o evento complementar, diversos resultados podem ser avaliados a partir do
conceito de complementar, os quais podem ser facilmente verificados usando o diagrama. A
seguir alguns exemplos:
• 𝐴∩∅=∅ • (𝐴′ )′ = 𝐴
• 𝐴∪∅=𝐴 • (𝐴 ∩ 𝐵)′ = 𝐴′ ∪ 𝐵′
• Ω′ = ∅ • (𝐴 ∪ 𝐵)′ = 𝐴′ ∩ 𝐵′
• ∅′ = Ω
Função Probabilidade
Definição 2.4 (Axiomas de Kolmogorov) Seja 𝛀 um conjunto finito não vazio e 𝓕(𝛀) o
conjunto das partes de 𝛀. Seja 𝑷: 𝓕(𝛀) → ℝ uma função escalar. A terna (𝛀, 𝓕, 𝑷) é dita
espaço de probabilidades se 𝑷 satisfazer os seguintes axiomas:
I) 𝑃(𝐴) ≥ 0, para todo 𝐴 ∈ ℱ(𝛀);
II) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), se 𝐴 e 𝐵 são disjuntos
III) 𝑃(Ω) = 1
E ainda, não importando o tamanho do evento nem seu tipo, sua probabilidade será
sempre um número positivo menor que ou igual a 1 em qualquer que seja o espaço amostral 𝛀,
ou seja, tomando 𝐴 ∈ ℱ(𝛀), então 0 ≤ 𝑃(𝐴) ≤ 1. Para ver isso perceba que sendo 𝐴′ o
complementar de 𝐴 em Ω, então 0 ≤ 𝑃(𝐴) ≤ 𝑃(𝐴) + 𝑃(𝐴′ ) = 𝑃(𝐴 ∪ 𝐴′ ) = 𝑃(Ω) = 1, logo
0 ≤ 𝑃(𝐴) ≤ 1. Outro fato curioso sobre probabilidade é que se 𝐴 = 𝐵 então 𝑃(𝐴) = 𝑃(𝐵).
(Prove isto, amigo leitor!)
Teoremas de Probabilidade
Apresento alguns resultados importantes sobre probabilidades que serão muito úteis em
problemas práticos. Todas as justificativas são simples não necessitando de muito
aprofundamento teórico para compreendê-las.
Até aqui, apesar de se ter postulado a existência do número 𝑃(𝐴) e de várias propriedades
(teoremas) que esse número possui, nada foi dito quanto a maneira de se calcular o valor de
𝑃(𝐴). Para esse cálculo, devem ser feitas certas suposições adicionais que conduzem a um
método de avaliação da probabilidade, porém, se essas suposições não forem fundamentais,
precisa-se recorrer à experimentação a fim de se encontrar o valor de 𝑃(𝐴).
Sendo 𝐴 um evento composto por mais que um elemento simples, para determinar a
probabilidade 𝑃(𝐴) somamos todas as probabilidades atribuídas para os pontos amostrais em
𝐴. Por exemplo, se 𝐴 = {𝑎1 , 𝑎2 }, então
𝑃(𝐴) = 𝑝1 + 𝑝2 (2.5)
1 1 1 1 𝑟
𝑃(𝐴) = 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑟 = + + ⋯+ = 𝑟 ∙ =
⏟
𝑁 𝑁 𝑁 𝑁 𝑁
𝑟 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠
𝑟
ou seja, 𝑃(𝐴) = 𝑁. Este método de avaliar 𝑃(𝐴) é frequentemente enunciado da seguinte forma
𝑛(𝐴)
𝑃(𝐴) = (2.6)
𝑛(Ω)
sendo 𝑛(𝐴) número de pontos amostrais em 𝐴 e 𝑛(Ω) número total de pontos amostrais em Ω.
Esta forma de calcular a probabilidade é baseada em espaços amostrais finitos e equiprováveis.
Caso o espaço amostral seja finito e não equiprovável a forma de estimarmos o valor da
probabilidade de um evento 𝐴 é considerar as frequências relativas obtidas pela observação e
𝑓𝐴
execução dos experimentos estatísticos, ou seja, 𝑃(𝐴) = lim .
𝑛→∞ 𝑛
Teorema 2.6 (Combinação) O número máximo de grupos, contendo 𝒑 objetos cada um, que se
pode formar de um total de 𝒏 objetos é
𝑛 𝑛!
( ) = 𝐶𝑛,𝑝 = (2.7)
𝑝 𝑝! (𝑛 − 𝑝)!
Teorema 2.7 (Princípio Multiplicativo) Se uma escolha pode ser realizada de 𝒏 maneiras, e se
para cada uma delas uma segunda escolha pode ser realizada de 𝒎 maneiras, então o total de
maneiras distintas de escolher a primeira e a segunda juntas será 𝒏 × 𝒎.
Este princípio multiplicativo pode ser visto usando a árvore de possibilidades. Na árvore
que segue os experimentos são tais que o primeiro possui dois resultados possíveis de ocorrer,
e, para cada uma dessas duas maneiras há três resultados possíveis para o segundo experimento
ocorrer, e ainda, para cada par de ocorrências dos dois primeiros há quatro resultados possíveis
de ocorrer o terceiro experimento. Assim haverá ao todo 2 × 3 × 4 = 24 maneiras dos três
eventos ocorrerem de forma distinta. Veja abaixo
É claro que o princípio multiplicativo pode ser estendido a mais de dois experimentos.
Suponha que 𝑟 experimentos que devem ser realizados são tais que o primeiro pode resultar em
qualquer um dos 𝑛1 resultados possíveis; e se, para cada um desses 𝑛1 resultados possíveis,
houver 𝑛2 resultados possíveis do segundo experimento; e se, para cada um dos resultados
possíveis dos dois primeiros experimentos, houver 𝑛3 resultados possíveis do terceiro
experimento; [e se ⋯], então há um total de (𝑛1 ⋅× 𝑛2 × ⋯ × 𝑛𝑟 ) resultados possíveis dos 𝑟
experimentos.
Exemplo 2.1 Num lote de 12 peças, 4 são defeituosas. Duas peças são retiradas de forma
aleatória. Calcule a probabilidade de:
a) ambas serem defeituosas;
b) ambas não são defeituosas;
c) ao menos uma defeituosa.
Solução 1: Abaixo a árvore das possibilidades para esse problema, onde B1 indica que a
primeira peça saiu boa, B2|B1 indica que a segunda peça saiu boa quando a primeira foi boa, e
assim com os demais. Os números entre parênteses indicam as probabilidades de cada evento.
Sugiro o leitor fazer as contas e verificar se as probabilidades apresentadas são de fato os valores
apresentados na árvore de possibilidades.
Portanto,
a) Só existe um galho que fornece a probabilidade pedida. O galho segue o seguinte caminho:
1 3 1
D1→ D2|D1 . Assim, 𝑃(𝑎𝑚𝑏𝑎𝑠 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠) = 𝑃(𝐷1 ) ⋅ 𝑃(𝐷2 |𝐷1 ) = 3 ⋅ 11 = 11
b) Só existe um galho que fornece a probabilidade pedida. O galho segue o seguinte caminho:
2 7 14
B1→ B2|B1 . Assim, 𝑃(𝑎𝑚𝑏𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠) = 𝑃(𝐵1 ) ⋅ 𝑃(𝐵2 |𝐵1 ) = 3 ⋅ 11 = 33
c) Existem três galhos que fornecem a probabilidade pedida. Os galho são: B1→ D2|B1, D1→B2|D1 e
D1→ D2|D1, Assim, a probabilidade pedida é dada pela soma desses galhos. Veja
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = 𝑃(𝐵1 ) ⋅ 𝑃(𝐷2 |𝐵1 ) + 𝑃(𝐷1 ) ⋅ 𝑃(𝐵2 |𝐷1 ) + 𝑃(𝐷1 ) ⋅ 𝑃(𝐷2 |𝐷1 )
2 4 1 8 1 3
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = ⋅ + ⋅ + ⋅
3 11 3 11 3 11
8 8 3 19
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = + + =
33 33 33 33
Outra forma de pensar este problema, talvez mais complexa, mas quem vai decidir é você leitor.
■
Solução 2: Nesta segunda forma de resolver usaremos os conceitos de análise combinatória.
Veja que temos 12 peças das quais vamos retirar duas. O espaço amostral Ω será formado por
todos os possíveis pares de peças que podem ser retirados. Assim,
12!
𝑛(Ω) = 𝐶12,2 = = 66
2! (12 − 2)!
a) Seja 𝐴 = {𝑎𝑚𝑏𝑎𝑠 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠}. Note que queremos as duas peças defeituosas. Para
isso ocorrer é necessário que se extraia as duas peças das 4 defeituosas e nenhuma das 8 boas.
Assim,
4! Princípio multiplicativo para dois
𝑛(𝐴) = 𝐶4,2 ∙ 𝐶8,0 = ∙1=6 experimentos. Duas defeituosas e
2! (4 − 2)!
nenhuma boa
𝑛(𝐴) 6 1
logo, 𝑃(𝐴) = 𝑛(Ω) = 66 = 11
b) Seja 𝐵 = {𝑎𝑚𝑏𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠}. Note que queremos as duas peças não
defeituosas. Para isso ocorrer é necessário que se extraia duas peças das 8 boas (não defeituosas)
e nenhuma das 4 defeituosas. Assim,
8!
𝑛(𝐵) = 𝐶8,2 ∙ 𝐶4,0 = ∙ 1 = 28
2! (8 − 2)!
𝑛(𝐵) 28 14
logo, 𝑃(𝐴) = 𝑛(Ω) = 66 = 33
c) Seja 𝐶 = {𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎}. Uma análise simples vê-se que 𝐶 = 𝐵 ′ . logo
14 19
𝑃(𝐶) = 𝑃(𝐵 ′ ) = 1 − 𝑃(𝐵) ou 𝑃(𝐶) = 1 − 33 = 33.
■
A vantagem de se empregar os recursos da análise combinatória na resolução de
problemas de probabilidade esteja, talvez, em sua agilidade e não dependência gráfica, visto
que conseguimos resolver sem o auxílio da árvore de possibilidades, que dependendo do
problema pode ser bem complicado construí-la. Claro que para problemas simples e com
poucos experimentos sendo analisados, a árvore de possibilidades é um recurso quase que
indispensável.
Exemplo 2.2 Três cavalos A, B e C estão em uma corrida. Sabe-se, por corridas anteriores, que
A tem duas vezes mais probabilidade de ganhar que B, e B têm duas vezes mais chances de
ganhar que C.
a) Quais são as probabilidades de vitória de cada um desses cavalos?
b) Qual seria a probabilidade de B ou C ganhar?
Solução: Sejam 𝑃(𝐴), 𝑃(𝐵) e 𝑃(𝐶) as probabilidades de A, B e C vencerem. Pela leitura do
enunciado fica claro que o cavalo C é o que tem menos chances de vencer, e, 𝑃(𝐴) = 2𝑃(𝐵) =
4𝑃(𝐶). Dessa forma temos
1
𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) = 1 ou 4𝑃(𝐶) + 2𝑃(𝐶) + 𝑃(𝐶) = 1 ou 𝑃(𝐶) =
7
Logo,
4 2 1
a) 𝑃(𝐴) = 7 ; 𝑃(𝐵) = 7 𝑒 𝑃(𝐶) = 7
b) Queremos que B ou C ganhe. Como apareceu o conectivo “ou” isso implica em união dos
2 1 3
eventos. Como 𝐵 ∩ 𝐶 = ∅, temos 𝑃(𝐵 ∪ 𝐶) = 𝑃(𝐵) + 𝑃(𝐶) = 7 + 7 = 7
Exemplo 2.3 Suponha que as especificações do fabricante sobre a extensão de certo tipo de
cabo para computadores sejam de 2.000 ± 10 milímetros. Nessa indústria, sabe-se que um cabo
menor tem a mesma possibilidade de ser defeituoso ( não atender as especificações) do que um
cabo maior. Ou seja, a probabilidade de se produzir, aleatoriamente, um cabo maior que 2.010
mm é igual à probabilidade de se produzir um cabo menor que 1.990 mm. Sabe-se que a
probabilidade de que os processedimentos de produção atendam às especificações é de 0,99.
a) Qual a probabilidade de um cado selecionado aleatoriamente seja muito grande?
b) Qual a probabilidade de que um cabo selecionado aleatoriamente seja maior que 1.990?
Solução: Sejam os eventos:
𝐴 = {as especificações são atendidas},
𝐵 = {a medida do cabo é menor que 1.990} e
𝐶 = {a medida do cabo é maior que 2.010}
1
Pelo enunciado temos, 𝑃(𝐴) = 0,99 e 𝑃(𝐵) = 𝑃(𝐶). Verifique que, 𝑃(𝐵) = 2 ∙ 𝑃(𝐴′ ), assim
1 1
a) 𝑃(𝐵) = 𝑃(𝐶) = 2 ∙ (1 − 𝑃(𝐴)) = 2 ∙ (1 − 0,99) = 0,005. Dessa forma, 𝑃(𝐵) = 0,005 e
𝑃(𝐶) = 0,005
b) Seja 𝑋 o tamanho do cabo, então 𝑃(1990 ≤ 𝑋 ≤ 2010) = 𝑃(𝐴) = 0,99. Já para
𝑃(2010 < 𝑋) = 𝑃(𝐵) = 0,005. Assim, 𝑃(1990 < 𝑋) = 𝑃(𝐴) + 𝑃(𝐵) = 0,995
■
Exemplo 2.4 Suponha que num lote com 20 peças existam cinco defeituosas. Escolhemos
quatro peças do lote ao acaso, ou seja, uma amostra de quatro elementos, de modo que a ordem
dos elementos seja irrelevante. Determine a probabilidade de se escolher duas peças
defeituosas.
Solução: Temos 20 peças das quais vamos retirar quatro. O espaço amostral Ω será formado
por todas as possíveis quadras de bolas que podem ser retirados. Assim,
20!
𝑛(Ω) = 𝐶20,4 = = 4.845
4! (20 − 4)!
Seja 𝐴 = {escolher duas peças defeituosas}. Devemos escolher 2 peças boas dentre as 15
boas e 2 peças defeituosas dentre as 5 defeituosas. Com isso, 𝑛(𝐴) = 𝐶5,2 ∙ 𝐶15,2 = 1.050.
𝑛(𝐴) 1.050
Dessa forma, 𝑃(𝐴) = 𝑛(Ω) = 4.845 = 0, 2167
Exemplo 2.5 O jogo da mega sena consiste em escolher 6 dezenas dentre as 60 disponíveis (01,
02, 03, ⋯, 59, 60). O jogador pode marcar, num mesmo volante, de 6 a 15 dezenas. O custo de
cada volante simples, marcado com 6 dezenas, é R$ 4,50. Determine a probabilidade de haver
vencedor, do prêmio principal, quando se marca 10 dezenas no volante?
Solução: Note que devemos obter quantos volantes simples de 6 dezenas equivale um volante
único marcado com 10 dezenas. O total de volantes simples com 6 dezenas que podem ser
marcados é 𝐶60,6 e, um volante marcado com 10 dezenas equivale a 𝐶10,6 volantes simples de
6 dezenas. Sendo assim, definimos o evento
𝐴 = {haver vencedor do prêmio principal, quando se marca 10 dezenas no volante},
logo,
𝑛(𝐴) 𝐶10,6 210 3 1
𝑃(𝐴) = ⟹ 𝑃(𝐴) = = = ≅
𝑛(Ω) 𝐶60,6 50.063.860 715.198 238.399
Portanto, a chance de ganhar na mega sena marcando 10 dezenas num volante equivale a 1
chance em 238,399 ou 𝑃(𝐴) ≅ 0,000004194 = 4,194 × 10−6
■
Exemplo 2.6 A farmácia F possui, no que se refere ao Resfenol, em seu estoque 10 unidades
em comprimidos e 6 em solução. Os remédios são pegos na prateleira de forma aleatória para
serem negociados. No dia em que foram vendidos 4 unidades de Resfenol, ache a probabilidade
de serem comercializados:
a) Todos do mesmo tipo;
b) Dois de cada tipo;
c) No mínimo um em solução.
Solução: Vamos procurar o espaço amostral desse problema. Como são 10 em comprimidos e
6 em solução temos 16 tipos de Resfenol. Como foram vendidos 4 unidades, o espaço amostral
é formado por todas as quadras que podemos formar com as 16 unidades, ou seja,
16!
𝑛(Ω) = 𝐶16,4 = = 1.820
4! (16 − 4)!
a) Seja o evento 𝐴 = {todos do mesmo tipo}. Como são dois tipos distintos, temos o uso do
conectivo “ou”, isto é, serem vendidos 4 comprimidos ou 4 soluções. Assim o número de
elementos de 𝐴 é 𝑛(𝐴) = 𝐶10,4 ∙ 𝐶6,0 + 𝐶10,0 ∙ 𝐶6,4 = 225.
𝑛(𝐴) 225 O conectivo “ou” é
com isso, 𝑃(𝐴) = 𝑛(Ω) = 1.820 ≅ 0,124
interpretado como soma
b) Seja o evento 𝐵 = {dois de cada tipo}. Neste caso, temos o uso do conectivo “e”, isto é,
serem vendidos 2 comprimidos e 2 soluções.
𝑛(𝐴) 675
Teremos então 𝑛(𝐵) = 𝐶10,2 ∙ 𝐶6,2 = 675. Com isso, 𝑃(𝐵) = 𝑛(Ω) = 1.820 ≅ 0,371
c) Seja o evento 𝐶 = {no mínimo uma solução}. Neste caso, temos o uso dos conectivos
“ou” e “e” simultaneamente, isto é:
serem vendidos 3 comprimidos e 1solução ou
serem vendidos 2 comprimidos e 2 soluções ou
serem vendidos 1 comprimidos e 3 soluções ou serem vendidos somente 4 soluções.
Assim, 𝑛(𝐶) = 𝐶10,3 ∙ 𝐶6,1 + 𝐶10,2 ∙ 𝐶6,2 + 𝐶10,1 ∙ 𝐶6,3 + 𝐶6,4 ∙ 𝐶10,0 = 1.610.
𝑛(𝐴) 1.610
Com isso, 𝑃(𝐶) = 𝑛(Ω) = 1.820 ≅ 0,885
Uma forma alternativa de resolver este item é usar o complementar do evento 𝐶, isto é, 𝐶 ′ =
𝑛(𝐶 ′ ) 3
{não vender solução}. Assim, 𝑛(𝐶 ′ ) = 𝐶10,4 ∙ 𝐶6,0 = 210. Com isso 𝑃(𝐶 ′ ) = = 26.
𝑛(Ω)
3
Portanto, 𝑃(𝐶) = 1 − 𝑃(𝐶 ′ ), ou seja, 𝑃(𝐶) = 1 − 26 ≅ 0,885
Exemplo 2.7 Sejam os eventos 𝑨 e 𝑩 com 𝑷(𝑨) = 𝟏/𝟐, 𝑷(𝑩) = 𝟏/𝟒 e 𝑨 e 𝑩 disjuntos. Dessa
forma, calcule:
a) 𝑃(𝐴′) b) 𝑃(𝐵′) c) 𝑃(𝐴 ∩ 𝐵) d) 𝑃(𝐴 ∪ 𝐵) e) 𝑃[(𝐴 ∩ 𝐵)′ ]
Solução:
a) 𝑃(𝐴′) = 1 − 𝑃(𝐴) assim 𝑃(𝐴′) = 1/2
b) 𝑃(𝐵′) = 1 − 𝑃(𝐵) assim 𝑃(𝐵′) = 3/4
c) 𝑃(𝐴 ∩ 𝐵) = 0 visto que 𝐴 e 𝐵 são disjuntos, ou seja, 𝐴 ∩ 𝐵 = ∅
d) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) = 3/4
e) Como 𝐴 ∩ 𝐵 = ∅, então (𝐴 ∩ 𝐵)′ = Ω, logo 𝑃[(𝐴 ∩ 𝐵)′ ] = 𝑃(Ω) = 1
■
Exemplo 2.8 Uma pequena empresa possui 6 funcionários do sexo masculino e 5 funcionários
do sexo feminino. Cada dia é selecionado, ao acaso, um funcionário para realizar o teste do
bafômetro. Na semana que houver 4 testes de bafômetro, ache a probabilidade de que o teste
seja realizado por:
a) Pessoas do mesmo sexo;
b) Alternadamente quanto ao sexo;
Prof. Me. Erivelton Vitor
80 Probabilidade e Estatística
Qual a probabilidade de que uma família escolhida aleatoriamente tenha renda familiar
a) Entre 400 e 999,99 reais R. 0,20
10. Se no problema 9 acima, um prêmio surpresa for dado à pessoa que usar cadeira fixa em
primeiro lugar, ache a probabilidade do contemplado for a pessoa que chegar ao salão:
a) Em segundo lugar. R. 0,2667
b) Em terceiro lugar. R. 0,1000
11. Uma empresa possui 5 linhas de montagem de seus produtos, denominadas A, B, C, D e
E, sendo que para verificar o comportamento de seus funcionários é feito vistoria diária por
um fiscal, de forma aleatória. Se em um dia houver duas vistorias em que cada linha pode
ser visitada no máximo uma vez, ache a probabilidade de que:
a) A linha A seja visitada. R. 0,4
b) A linha A ou a linha B sejam visitadas. R. 0,7
c) A linha A e a linha B sejam visitadas. R. 0,1
d) A linha A nem a linha B sejam visitadas. R. 0,3
e) A linha D não seja visitada. R. 0,6
12. Refaça o exercício 11 acima, se uma mesma linha puder ser vistoriada mais de uma vez.
R. 0,36 ; 0,64 ; 0,08; 0,36 e 0,64
13. Suponha que estejamos testando uma partida de válvula eletrônica e que a probabilidade
de um teste ser positivo seja de 3/4. Os testes prosseguem até que apareça a primeira válvula
positiva. Determine a probabilidade de o teste parar na terceira tentativa. R. 3/64
14. Refaça o Exemplo 2.8 considerando agora que um mesmo funcionário não pode realizar o
teste do bafômetro duas vezes na mesma semana.
evento 𝐴 “a posteriori”. Para ilustrar, suponha que o espaço amostral Ω seja a população adulta
(maiores de 18 anos) da cidade de Uruaçu a qual completou os requerimentos para o nível
universitário. Um Levantamento de acordo com o gênero e status empregatício foi realizado e
os dados estão na Tabela 2.1.
Um desses indivíduos é selecionado aleatoriamente para uma turnê pelo Norte Goiano
para divulgar as vantagens de novos cursos universitários serem trazidos para o Campus do IFG
na cidade de Uruaçu. Estabeleça os eventos:
𝐻 = {um homem é escolhido}
𝑀 = {uma mulher é escolhida}
assim,
𝑛(𝐻) 500 5 𝑛(𝑀) 400 4
𝑃(𝐻) = = = ≅ 0,556 e 𝑃(𝑀) = = = ≅ 0,444
𝑛(Ω) 900 9 𝑛(Ω) 900 9
Este exemplo ilustra que eventos podem ter diferentes probabilidades quando
considerados em relação a diferentes espaços amostrais. Esse conceito de probabilidade
condicional é dado na definição 2.5
Definição 2.5 A probabilidade condicional de 𝑨 dado 𝑩, denotada por 𝒑(𝑨|𝑩) é definida por
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = (2.8)
𝑃(𝐵)
esta definição só faz sentido se 𝑃(𝐵) > 0.Considerando a igualdade (2.6) encontramos outra
estrutura para a igualdade (2.8), a saber,
𝑛(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = (2.9)
𝑛(𝐵)
sugiro o leitor fazer essa transformação. Um fato curioso ocorre quando trabalhamos com
probabilidades condicionais envolvendo complementares. Devemos imaginar que se o evento
𝐴 está condicionado à ocorrência do evento 𝐵, então seu complementar também esteja. Sim,
isso ocorre de fato. Se considerarmos o fato que 𝑃(𝐴) + 𝑃(𝐴′ ) = 1 temos imediatamente que
𝑃(𝐴|𝐵 ) + 𝑃(𝐴′ |𝐵) = 1 o que significa que 𝑃(𝐴′ |𝐵) = 1 − 𝑃(𝐴|𝐵). Saliento que a
condicionalidade não altera os resultados anteriores já estudados.
Exemplo 2.9 A probabilidade de que um vôo regular marcado parta na hora é 𝑷(𝑫) = 𝟎, 𝟖𝟑; a
probabilidade de que chegue na hora marcada é de 𝑷(𝑨) = 𝟎, 𝟖𝟐; e a probabilidade de que o
vôo parta e chegue na hora é de 𝑷(𝑫 ∩ 𝑨) = 𝟎, 𝟕𝟖. Determine a probabilidade de que
a) O avião chegue na hora, sabendo que ele partiu na hora marcada;
b) O avião tenha partido na hora marcada, dado que chegou na hora.
Solução: Tanto o item (a) quanto o item (b) pedem probabilidades condicionadas. Assim,
usando a definição 2.5 temos
𝑃(𝐴∩𝐷) 0,78
a) 𝑃(𝐴|𝐷) = = 0,83 ≅ 0,94
𝑃(𝐷)
𝑃(𝐴∩𝐷) 0,78
b) 𝑃(𝐷|𝐴) = = 0,82 ≅ 0,95
𝑃(𝐴)
Teorema 2.8 (Teorema do Produto) Sejam 𝑨 e 𝑩 eventos do mesmo espaço amostral, então
conhecidas. O valor de 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵|𝐴) somente poderá ser obtido se for os valores
das probabilidade 𝑃(𝐴) e 𝑃(𝐵|𝐴) conhecidos ou se de alguma forma puderem ser calculados.
Exemplo 2.10 Suponha que temos uma caixa com 20 fusíveis, dentre os quais 5 apresentam
defeito. Se 2 fusíveis são selecionados aleatoriamente e removidos da caixa, sucessivamente,
sem reposição do primeiro, qual a probabilidade de que ambos apresentem defeito?
Solução: Temos aqui duas circunstâncias que nomearemos como eventos: 𝐴 =
{o primeiro fusível tenha defeito} e 𝐵 = {o segundo fusível tenha defeito}. Claramente de
pede 𝑃(𝐴 ∩ 𝐵) pois se quer os dois com defeito: o primeiro “e” o segundo. Usando o Teorema
2.8 temos 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴).
5 1
Como 𝑃(𝐴) = 20 = 4 (por quê?) e, a probabilidade do segundo ser defeituoso é condicionada
4
à primeira probabilidade, temos, 𝑃(𝐵|𝐴) = 19 (por quê?). Logo𝑃(𝐴 ∩ 𝐵) = (1/4) ∙ (4/19) ou
Definição 2.6 (Eventos Independentes) Dois eventos 𝑨 e 𝑩 de um mesmo espaço amostral são
ditos eventos independentes se
Exemplo 2.11 Uma maratona é disputa com prêmios apenas para os três primeiros colocados.
Segundo o regulamento podem participar homens e mulheres acima de 18 anos. Estabeleça os
eventos
𝐴 = {Dentre os 3 primeiros colocados haja pelo menos dois homens} e
𝐵 = {Dentre os 3 primeiros colocados haja pelo menos um de cada sexo}
Os eventos A e B são independentes?
Solução: Indicando por 𝐻 o maratonista homem e por 𝑀 o maratonista mulher, temos
Ω = {(𝐻𝐻𝐻), (𝐻𝐻𝑀), (𝐻𝑀𝐻), (𝑀𝐻𝐻), (𝑀𝑀𝑀), (𝑀𝑀𝐻), (𝑀𝐻𝑀), (𝐻𝑀𝑀)}
assim, 𝑛(Ω) = 8. Analisando o espaço amostral temos
𝑛(𝐴) 4 1 𝑛(𝐵) 6 3
𝑃(𝐴) = = = e 𝑃(𝐵) = = =
𝑛(Ω) 8 2 𝑛(Ω) 8 4
para que os eventos 𝐴 e 𝐵 sejam independentes deve-ser ter 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵), como
(𝐴 ∩ 𝐵) = {(𝐻𝐻𝑀), (𝐻𝑀𝐻), (𝑀𝐻𝐻)} tem-se
𝑛(𝐴 ∩ 𝐵) 3
𝑃(𝐴 ∩ 𝐵) = =
𝑛(Ω) 8
como 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) (verifique!) os eventos 𝐴 e 𝐵 são independentes.
■
Ω
𝐴5
𝐴1
𝐴3
𝐴𝑖
𝐴4
𝐴2 𝐵
⋯
Figura 2.2
𝑛 𝑛
Exemplo 2.13 Em certa linha de produção, três máquinas 𝑴𝟏 , 𝑴𝟐 e 𝑴𝟑 produzem 30%, 45% e
25% dos produtos, respectivamente. Sabe-se, de experiências anteriores, que 2%, 3% e 2% dos
produtos feitos por cada máquina são, respectivamente, defeituosos. Agora, suponha que um
produto, já acabado, seja selecionado aleatoriamente. Qual é a probabilidade de que tal produto
apresente algum defeito?
Solução: Pela leitura do enunciado, estabelecemos os eventos:
𝑀1 = {o produto é feito pela máquina 1} ⟶ 𝑃(𝑀1 ) = 0,30 𝑒 𝑃(𝐷 ⁄𝑀1 ) = 0,02
𝑀2 = {o produto é feito pela máquina 2} ⟶ 𝑃(𝑀2 ) = 0,45 𝑒 𝑃(𝐷 ⁄𝑀2 ) = 0,03
𝑀3 = {o produto é feito pela máquina 3} ⟶ 𝑃(𝑀3 ) = 0,25 𝑒 𝑃(𝐷 ⁄𝑀3 ) = 0,02
𝐷 = {o produto tem defeito}
Aplicando o teorema 2.7 temos
𝑃(𝐷) = 𝑃(𝐷 ∩ 𝑀1 ) + 𝑃(𝐷 ∩ 𝑀2 ) + 𝑃(𝐷 ∩ 𝑀3 )
= 𝑃(𝑀1 ) ∙ 𝑃(𝐷⁄𝑀1 ) + 𝑃(𝑀2 ) ∙ 𝑃(𝐷⁄𝑀2 ) + 𝑃(𝑀3 ) ∙ 𝑃(𝐷⁄𝑀3 )
= 0,30 ∙ 0,02 + 0,45 ∙ 0,03 + 0,25 ∙ 0,02
= 0,0245
Portanto, a probabilidade de que tal produto apresente algum defeito é 𝑃(𝐷) = 0,0245
■
Dessa forma, desde que haja relativamente poucos eventos na partição, pode-se usar um gráfico
de árvore para analisar e obter o resultado desejado.
Exemplo 2.15 Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso
de treinamento durante uma semana. No final do curso, eles são submetidos a uma prova e 25%
são classificados com bons, 50% como médios e os restantes como fracos. Para facilitar a
seleção, a empresa pretende substituir o treinamento por um teste contendo questões referentes
a conhecimentos gerais e específicos. Para isso, gostaria de conhecer qual a probabilidade de
um indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso. Assim, neste ano,
antes do início do curso, os candidatos foram submetidos ao teste e receberam o conceito
aprovado ou reprovado. No final do curso, obtiveram-se as seguintes probabilidades
condicionadas:
𝑃(𝐴|𝐵) = 0,80 𝑃(𝐴|𝑀) = 0,50 𝑃(𝐴|𝐹) = 0,20
Determine a probabilidade do candidato aprovado no teste ser considerado fraco, caso fizesse
o curso.
Solução: Enunciado longo deve ser lido com cautela. Vamos estabelecer os eventos:
𝐵 = {candidato bom pelo curso} ⟶ 𝑃(𝐵) = 0,25
𝑀 = {candidato médio pelo curso} ⟶ 𝑃(𝑀) = 0,50
𝐹 = {candidato fraco pelo curso} ⟶ 𝑃(𝐹) = 0,25
𝐴 = {Aprovado no teste}
Devemos encontrar 𝑃(𝐹 ⁄𝐴). Usando o teorema 2.8 (de Bayes):
Prof. Me. Erivelton Vitor
92 Probabilidade e Estatística
𝑃(𝐹 ∩ 𝐴)
𝑃(𝐹|𝐴) = Para achar 𝑃(𝐴) use o Teorema 2.9
𝑃(𝐴)
𝑃(𝐹) ∙ 𝑃(𝐴|𝐹)
=
𝑃(𝐹) ∙ 𝑃(𝐴|𝐹) + 𝑃(𝑀) ∙ 𝑃(𝐴|𝑀) + 𝑃(𝐵) ∙ 𝑃(𝐴|𝐵)
0,25 ∙ 0,20
=
0,25 ∙ 0,20 + 0,50 ∙ 0,50 + 0,25 ∙ 0,80
= 0,10
Portanto, apenas 10% dos aprovados no teste seriam considerados fracos durante o curso.
■
Exemplo 2.16 Incidência de doença rara. Apenas 1 em 1000 adultos é acometido por uma
doença rara para a qual foi desenvolvido um teste de diagnóstico. O teste funciona de tal forma
que, se o indivíduo tiver a doença, o resultado do teste será positivo em 99% das vezes e, se não
a tiver, será positivo em apenas 2% das vezes. Se um indivíduo selecionado aleatoriamente for
testado e o resultado for positivo, qual é a probabilidade de ele ter a doença?
Solução: Para usar o teorema de Bayes, considere por A1={indivíduo tem a doença},
A2={indivíduo não tem a doença} e B={resultado do teste positivo}. Então, P(A1)=0,001,
P(A2)= 0,999, P(B/A1)=0,99, e P(B/A2)=0,02. O diagrama de árvore deste problema está na
figura seguinte
o resultado parece ir de encontro à intuição. O resultado do teste parece tão preciso que
esperamos que alguém com um resultado positivo tenha alta probabilidade de ter a doença,
enquanto a probabilidade condicional calculada é de apenas 0,047. Entretanto, como a doença
é rara e o teste é moderadamente confiável, a maior parte dos resultados positivos dos testes
provém de erros e não de indivíduos doentes. A probabilidade de ter a doença foi aumentada
por um fator multiplicativo 47 (da probabilidade anterior 0,001 para a posterior 0,047); mas,
para se obter maior aumento na probabilidade posterior, é necessário um teste de diagnóstico
com menores taxas de erros. Se a doença não fosse tão rara (por exemplo, 25% de incidência
na população), as taxas de erros do presente teste forneceriam um bom diagnóstico.
■
Urnas 𝑢1 𝑢2 𝑢3
Cores
Pretas 3 4 2
Brancas 1 3 3
Vermelhas 5 2 3
Escolheu-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, verificando-se que a
bola é branca. Qual a probabilidade da bola ter vindo da urna 2? da 3? R. 24/59 e 8/59
6. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido ao
acaso seja defeituoso. Determine qual a probabilidade de ele ter sido fabricado pela fábrica
I. R. 0,16
7. A poluição dos rios no estado de São Paulo é um problema há anos. Considere os seguintes
eventos:
𝐴 = {O rio é poluído}
𝐵 = {Uma amostra de água testada detecta poluição}
𝐶 = {A pesca é permitida}
Assuma que 𝑃(𝐴) = 0,30, 𝑃(𝐵⁄𝐴) = 0,75, 𝑃(𝐵⁄𝐴′ ) = 0,20, 𝑃(𝐶 ⁄𝐴 ∩ 𝐵) = 0,20,
𝑃(𝐶 ⁄𝐴′ ∩ 𝐵) = 0,15, 𝑃(𝐶 ⁄𝐴 ∩ 𝐵 ′ ) = 0,80 e 𝑃(𝐶 ⁄𝐴′ ∩ 𝐵 ′ ) = 0,90. Determine:
a) 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) R. 0,045
b) 𝑃(𝐵 ′ ∩ 𝐶) R. 0,564
c) 𝑃(𝐶) R. 0,630
d) A probabilidade de o rio ser poluído, dado que a pesca é permitida e a amostra testada
não detectou poluição R. 0,1064
8. Uma indústria emprega três planos analíticos para criar e desenvolver seus produtos. Devido
aos custos, os três planos são usados em momentos variados. Na verdade, os planos 1, 2 e 3
são usados para 30%, 20% e 50% dos produtos, respectivamente. O índice de defeitos é
deferente para os três procedimentos: 𝑃(𝐷⁄𝑃𝐼 ) = 0,01, 𝑃(𝐷⁄𝑃𝐼𝐼 ) = 0,03 e 𝑃(𝐷⁄𝑃𝐼𝐼𝐼 ) =
0,02, onde 𝑃(𝐷⁄𝑃𝑗 ) é a probabilidade de um produto apresentar defeitos, dado o plano 𝑗. Se
selecionarmos um produto aleatoriamente e observarmos que ele apresenta defeitos, qual foi
provavelmente o plano usado, e, em consequência, responsável pelo defeito? R. Plano III
9. Um sistema elétrico consiste em quatro componentes, conforme ilustrado na figura abaixo.
Figura A Figura B
𝑆 = {𝑡 ∶ 𝑡 > 0} (3.1)
onde 𝑡 indica o tempo de duração, em horas. Ele indica que uma determina lâmpada pode durar
qualquer valor real positivo, medido em horas. O pesquisador, neste caso, tem interesse em
saber qual o intervalo (𝑡𝑚í𝑛 , 𝑡𝑚á𝑥 ) que conterá 90% das lâmpadas produzidas, sendo este
resultado confiável em 95% dos testes. Para obter esta resposta é necessário estudo de modelos
probabilísticos que descrevam o mais fidedignamente possível o comportamento da duração
dessas lâmpadas. A obtenção de tais modelos necessita de artifícios matemáticos baseados no
comportamento pontual da variável em estudo (variável discreta) e/ou da generalização do
conceito de histograma (variável contínua). O conhecimento de modelos probabilísticos para
variáveis quantitativas é muito importante e grande parte do restante destas notas será dedicado
ao estudo de alguns desses modelos bem como fazer inferência sobre seus parâmetros. Essas
variáveis, para as quais iremos construir modelos probabilísticos, serão chamadas de variáveis
aleatórias (v.a). Para as variáveis qualitativas a descrição da probabilidade associada será
objeto de estudo no capítulo 8, quando estudaremos a Análise Conjunta de Variáveis.
Inicialmente buscaremos modelos probabilísticos para descrever variáveis aleatórias discretas
e contínuas. Neste sentido diremos que uma variável aleatória é uma função que associa um
número real a cada elemento do espaço amostral, isto se dá por que frequentemente, quando
um experimento é realizado, estamos interessados principalmente em alguma função do
resultado em oposição ao próprio resultado real. Por exemplo, ao lançar dados, muitas vezes
estamos interessados na soma dos dois dados e não estamos realmente preocupados com os
valores separados de cada dado. Ou seja, podemos estar interessados em saber que a soma é 7
e não se preocupar se o resultado real foi (1, 6), (2, 5), (3, 4), (4, 3), ( 5, 2) ou (6, 1). Além disso,
ao jogar uma moeda, podemos estar interessados no número total de caras que ocorrem e não
nos importarmos com a sequência de cara-coroa que resulta. Essas quantidades de interesse, ou,
mais formalmente, essas funções de valor real definidas no espaço amostral são, como
chamamos acima, variáveis aleatórias. Como o valor de uma variável aleatória é determinado
pelo resultado do experimento, podemos atribuir probabilidades aos possíveis valores da
variável aleatória2.A definição 3.1 melhor elucida este conceito.
𝐴 X 𝑋(𝐴)
Ω ℝ
Figura 3.1
Observações Importantes:
1. Observe que, apesar da infelicidade da terminologia “Variável Aleatória”, 𝑋 é uma
função cujo domínio é Ω e o contra domínio é ℝ, em outras palavras, o valor 𝑥 que é
imagem da variável aleatória 𝑋 representa um número associado a algum subconjunto
𝐴 ∈ ℱ(Ω) ( subconjunto das partes de Ω).
2
Uma forma alternativa de retratar esse assunto é considerar uma variável aleatória X em um espaço de
probabilidade (Ω, ℱ, P) como uma função de imagens reais definida em Ω, tal que {X ≤ x} = {A ∈ Ω ∶ X(A) ≤ x}
para todo x ∈ R.
2. Nas aplicações, é conveniente trabalhar com números e não com eventos, daí, o uso
da variável aleatória. Assim, se Ω for numérico é conveniente que 𝑋(𝑥) = 𝑥
Exemplo 3.1 Ao término do ano letivo os professores encerram as notas dos alunos. Neste caso,
o espaço amostral é formado por todos os alunos que foram até o final do curso. Selecionado
um aluno ao acaso existem duas opções ou este aluno foi aprovado ou ele foi reprovado. Se
deixarmos 𝑿 denotara situação de um aluno arbitrariamente escolhido, podemos estabelecer
que
1, 𝑠𝑒 𝑥 = 𝑜 𝑎𝑙𝑢𝑛𝑜 𝑓𝑜𝑖 𝑎𝑝𝑟𝑜𝑣𝑎𝑑𝑜
𝑋(𝑥) = {
0, 𝑠𝑒 𝑥 = 𝑜 𝑎𝑙𝑢𝑛𝑜 𝑓𝑜𝑖 𝑟𝑒𝑝𝑟𝑜𝑣𝑎𝑑𝑜
Dessa forma, teremos imediatamente que se Luiz foi aprovado, então 𝑋(𝐿𝑢𝑖𝑧) = 1, agora se
Luiz foi retido (reprovado), teremos 𝑋(𝐿𝑢𝑖𝑧) = 0. Portanto, 𝑋 é dita ser uma variável aleatória
(v.a.)cujos possíveis valores resposta são 0 ou 1, isto é, 𝑋 = {0, 1}. Se associarmos uma
probabilidade 𝑝 ao resultado 1 e 𝑞 = 1 − 𝑝 ao resultado 0, podemos descrever as
probabilidades associadas para esta variável aleatória 𝑋, como abaixo
𝑥 1 0
𝑃(𝑋 = 𝑥) 𝑝 1−𝑝
Exemplo 3.2 Uma moeda honesta é lançada três vezes O espaço amostral para este experimento
é 𝛀 = {𝒄𝒄𝒄, 𝒄𝒄𝒌, 𝒄𝒌𝒄, 𝒌𝒄𝒄, 𝒌𝒄𝒌, 𝒌𝒌𝒄, 𝒄𝒌𝒌, 𝒌𝒌𝒌}, sendo 𝒄 = 𝒄𝒂𝒓𝒂 e 𝒌 = 𝒄𝒐𝒓𝒐𝒂. Deixe 𝑿
como uma v.a. que descreva o número de caras. Neste caso, a variável aleatória 𝑿 assume quatro
possíveis resultados, a saber,
0, 𝑠𝑒 𝑥 ∈ {𝑘𝑘𝑘}
1, 𝑠𝑒 𝑥 ∈ {𝑘𝑘𝑐, 𝑘𝑐𝑘, 𝑐𝑘𝑘}
𝑋(𝑥) = {
2, 𝑠𝑒 𝑥 ∈ {𝑘𝑐𝑐, 𝑐𝑘𝑐, 𝑐𝑐𝑘}
3, 𝑠𝑒 𝑥 ∈ {𝑐𝑐𝑐}
ou seja, 𝑋(𝑐𝑐𝑐) = 3, 𝑋(𝑐𝑐𝑘) = 2, 𝑋(𝑘𝑐𝑐) = 1 e 𝑋(𝑘𝑘𝑘) = 0. Logo, a variável aleatória
associada 𝑋 assumirá qualquer um desses quatro possíveis resultados, e, a distribuição de
probabilidade será dada por
𝑥 0 1 2 3
𝑃(𝑋 = 𝑥) 1⁄8 3⁄8 3⁄8 1⁄8
■
Exemplo 3.3 Suponha que a variável aleatória 𝑿 denote o número mínimo de ribetes
semicondutores que precisam ser analisadas para detectar uma falha de condução numa rede
transmisora. Suponha que a probabilidade de um ribite apresentar uma falha seja 0,01 e que os
ribites funcionem de forma independente. Determine a distribuição de probabilidade de 𝑿.
Solução: Suponha que 𝑝 denote um ribite em que uma falha seja perceptível e 𝑎 indica umribite
no qual ela está ausente. O espaço amostral do experimento é infinito e pode ser representado
como todas as sequências possíveis que começam com uma sequência de caracteres iguais a 𝑎
e terminam com 𝑝. Isto é,
Ω = {𝑝, 𝑎𝑝, 𝑎𝑎𝑝, 𝑎𝑎𝑎𝑝, 𝑎𝑎𝑎𝑎𝑝, 𝑎𝑎𝑎𝑎𝑎𝑝, ⋯ }
Assim, a variável 𝑋 assume qualquer valor no conjunto 𝑋 = {1, 2, 3, 4, 5, ⋯ }. O ponto amostral
{𝑝} indica que foi necessário analisar apenas um ribite, tendo probabilidade igual a 𝑃(𝑋 = 1) =
𝑃(𝑝) = 0,01. O ponto amostral {𝑎𝑎𝑝} indica que foram necessários analisar três ribites para
detectar uma falha, cuja probabilidade é, considerando a independência dos ribites, igual a
𝑃(𝑋 = 3) = 𝑃(𝑎𝑎𝑝) = 𝑃(𝑎)𝑃(𝑎)𝑃(𝑝) = 0,99 ⋅ 0,99 ⋅ 0,01 = 0,009801. Assim, uma foma
geral de obter a probabilidade de testar 𝑥 ribites até obter uma falhaserá
𝑃(𝑋 = 𝑥) = 𝑃 (𝑎𝑎𝑎𝑎𝑎𝑎𝑝)
⏟ = (0,99)𝑥−1 ⋅ 0,01
𝑥−1 𝑓𝑎𝑡𝑜𝑟𝑒𝑠 "𝑎"
Exemplo 3.4 Estudos recentes mostraram que a probabilidade de um paciente vir a óbito, ao ser
internado na Unidade de Terapia Intensiva – UTI de certo hospital é de 15%. Deixe 𝑿 ser a
variável aleatória indicadora de óbito, se um paciente der entrada no UTI. Dessa forma a v.a. 𝑿
assumirá somente dois valores, {𝟎, 𝟏}, isto é,
1, 𝑠𝑒 𝑥 = 𝑜 𝑝𝑎𝑐𝑖𝑒𝑛𝑡𝑒 𝑛ã𝑜 𝑚𝑜𝑟𝑟𝑒𝑟
𝑋(𝑥) = {
0, 𝑠𝑒 𝑥 = 𝑜 𝑝𝑎𝑐𝑖𝑒𝑛𝑡𝑒 𝑚𝑜𝑟𝑟𝑒𝑟
Dessa forma, se escrevermos 𝑋(𝐶𝑎𝑟𝑙𝑜𝑠) = estamos dizendo que Carlos morreu ao ser
internado na UTI, caso contrário, se Carlos sobreviver depois de ser internado na UTI,
𝑥 0 1
𝑃(𝑋 = 𝑥) 0,15 0,85
Variáveis Discretas
Uma análise detalhada na Definição 3.1 mostra que uma variável aleatória 𝑋 pode assumir
valores reais discretos: pontuais finitos ou enumeráveis e/ou valores contínuos: infinitos e não
enumeráveis. Uma variável aleatória que pode assumir no máximo um número contável de
valores possíveis é considerada discreta. No Exemplo 3.3 a v.a. 𝑋 assume valores no conjunto
A = {1, 2, 3, 4, 5, ⋯ }. A representação na reta real para 𝑋 é
Figura 3.2
função. Para uma variável aleatória discreta 𝑋, definimos a função de massa de probabilidade
𝑝(𝑥) de 𝑋. A Definição 3.2 esclarece melhor esse conceito.
Definição 3.2 A função 𝒑 é dita ser função de distribuição de massa de probabilidade (fmp) da
variável aleatória discreta 𝑿 se para qualquer 𝒙𝒊 = 𝑿(𝑨𝒊 ), sendo 𝑨𝒊 ∈ 𝓕(𝛀),tivermos
𝒑(𝒙𝒊 ) = 𝑷(𝑿 = 𝒙𝒊 ) satisfazendo aos critérios
ℱ(Ω) é o conjunto das partes de Ω.
1. 0 ≤ 𝑝(𝑥𝑖 ) ≤ 1
Qualquer subconjunto de Ω pertence
2. ∑ 𝑝(𝑥𝑖 ) = 1
a ℱ(Ω).
𝑖
Esta fmp dada por 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) e satisfazendo as condições da Definição 3.2 pode
ser representado por uma tabela, um gráfico ou mesmo uma fórmula matemática. Além disso,
os valores assumidos por 𝑝(𝑥) indicam exatamente a probabilidade de que variável aleatória 𝑋
assuma o valor 𝑥 especificado.
Exemplo 3.5 Seja o experimento Jogar uma moeda duas vezes e anotar o resultado da face
visível. Definindo a v.a. 𝑿: o número de caras que podem ocorrer. Denotando 𝒄𝒂𝒓𝒂 por 𝒄 e
coroa por 𝒌, temos o espaço amostral 𝛀 desse experimento é 𝛀 = {𝒄𝒄, 𝒄𝒌, 𝒌𝒄, 𝒌𝒌}. dessa forma,
𝑿 pode assumir valor 𝟎 (zero), quando não aparecer cara; 𝟏 quando aparecer somente uma cara
ou 𝟐 quando aparecer duas caras. Assim 𝑿 = {𝟎, 𝟏, 𝟐}.
(i) Tabela:
𝑥 0 1 2
𝑃(𝑋 = 𝑥) 1⁄4 1⁄ 2 1⁄4
(ii) Gráfico:
𝑝(𝑥)
1
1⁄2
1⁄4
0 1 2 𝑥
Exemplo 3.6 Se uma agência de veículos vende 50% de seu estoque de certo carro importado
equipado com airbags, determine a fórmula para a distribuição da massa de probabilidade do
número de carros com airbags entre os próximos quatro carros vendidos pela agência?
Solução: Primeiro, note que o espaço amostral terá 24 = 16 elementos (por quê?). Como a
probabilidade de se vender uma carro equipado com airbag é 0,5, então o espaço amostral é
equiprovável. Dessa forma, definindo 𝑋 = o número de carros com 𝑎𝑖𝑟𝑏𝑎𝑔𝑠 vendidos
teremos os possíveis valores para 𝑋, a saber, 𝑋 = {0, 1, 2, 3,4}. Assim,
𝐶4,0 1
𝑃(𝑋 = 0) = =
16 16
𝐶4,1 4 1
𝑃(𝑋 = 1) = = =
16 16 4
𝐶4,2 6 3
𝑃(𝑋 = 2) = = =
16 16 8
𝐶4,3 4 1
𝑃(𝑋 = 3) = = =
16 16 4
𝐶4,4 1
𝑃(𝑋 = 4) = =
16 16
Portanto, a função de distribuição da massa de probabilidade para este problema é:
(i) Tabela:
𝑥 0 1 2 3 4
𝑃(𝑋 = 𝑥) 1⁄16 1⁄4 3⁄8 1⁄4 1⁄16
(ii) Gráfico:
𝑝(𝑥)
1⁄2
3⁄8
1⁄4
1⁄16
0 1 2 3 4 𝑥
■
Exemplo 3.8 Um carregamento de oito microcomputadores similares para um ponto-de-venda
contém três que apresentam defeitos. Se a escola faz uma compra aleatória de dois desses
microcomputadores, determine a distribuição de probabilidade para o número de defeituosos.
Solução: Deixe 𝑋 denotar o número de microcomputadores com defeito. Dessa forma 𝑋 será
uma v.a. e seus possíveis valores serão {0, 1, 2}, ou seja, 𝑋 = {0, 1, 2}. Agora, vamos calcular
as probabilidades para cada um desses valores (𝑥𝑖 )
𝐶3,0 ∙ 𝐶5,2 10
𝑃(𝑋 = 0) = =
𝐶8,2 28
𝐶3,1 ∙ 𝐶5,1 15
𝑃(𝑋 = 1) = =
𝐶8,2 28
𝐶3,2 ∙ 𝐶5,0 3
𝑃(𝑋 = 2) = =
𝐶8,2 28
Portanto, a distribuição da massa de probabilidade de 𝑋, usando tabela é
𝑥 0 1 2
10 15 3
𝑃(𝑋 = 𝑥)
28 28 28
Definição 3.3 A função 𝑭 é dita função de massa acumulada de probabilidade de uma variável
aleatória 𝑿 que tem massa de probabilidade 𝒑(𝒙) = 𝑷(𝑿 = 𝒙) se
Graficamente temos
𝐹(𝑥)
1
⁄
25 28
10⁄28
0 1 2 𝑥
Em muitos casos o pesquisador tem mais interesse sobre o valor mais provável que a
variável 𝑋 possa assumir do que os valores propriamente ditos. Um dos conceitos mais
importantes na teoria das probabilidades é o da expectativa de uma variável aleatória. Se 𝑋 é
uma variável aleatória discreta com função de distribuição de probabilidade 𝑝(𝑥), então a
expectativa, ou o valor esperado, de 𝑋, denotado por 𝜇𝑋 = 𝐸[𝑋],ou simplesmente 𝜇 quando
não houver possibilidade de confusão, é entendido como a média ponderada dos possíveis
valores que 𝑋 pode assumir, cada valor sendo ponderado pela probabilidade que 𝑋 assume, ou
seja, é o valor mais provável de ocorrer quando se analisa tal variável. A Definição 3.4 nos ensina
o obter tal medida.
Definição 3.4 A média ou valor esperado de uma variável aleatória discreta 𝑿, com massa de
probabilidade 𝒑(𝒙), denotada por 𝝁 ou 𝑬[𝑿] é
Exemplo 3.10 Após cada nascimento, os bebês são classificados de acordo com uma escala
denominada Apgar. As classificações possíveis são 0, 1,..., 10, com a classificação do bebê
determinada por cor, tônus muscular, esforço respiratório, batimentos cardíacos e irritabilidade
reflexas (a melhor pontuação possível é 10). Seja 𝑿 o escore Apgar de uma criança selecionada
aleatoriamente em um determinado hospital no próximo ano e suponha que a fmp de X seja
𝑥 0 1 2 3 4 5 6 7 8 9 10
𝑝(𝑥) 0,002 0,001 0,002 0,005 0,02 0,04 0,18 0,37 0,25 0,12 0,01
Agora, suponha que nos seja dada uma variável aleatória discreta junto com sua função
de massa de probabilidade e que é necessário calcular o valor esperado de alguma função de 𝑋,
digamos, 𝑔(𝑋). Como podemos conseguir isso? Uma maneira é a seguinte: Como 𝑔(𝑋) é uma
variável aleatória discreta, ela tem uma função de distribuição de massa de probabilidade, que
pode ser determinada a partir da massa de probabilidade de 𝑋. Uma vez que tenhamos
determinado a função de massa de probabilidade de 𝑔(𝑋), podemos calcular 𝐸[𝑔(𝑋)] usando
a definição do valor esperado. Embora o procedimento anterior sempre nos permita calcular o
valor esperado de qualquer função de 𝑋 a partir de um conhecimento da função de distribuição
de probabilidade de 𝑋, existe outra maneira de pensar sobre 𝐸[𝑔(𝑋)]: Como 𝑔(𝑋) igual 𝑔(𝑥)
sempre que 𝑋 é igual a 𝑥, parece razoável que 𝐸[𝑔(𝑋)] deva ser apenas uma média ponderada
dos valores 𝑔(𝑥), com 𝑔(𝑥) sendo ponderada pela probabilidade de que 𝑋 é igual a 𝑥. Ou seja,
o seguinte resultado é bastante intuitivo.
Teorema 3.1 Suponha ser 𝑿 uma variável aleatória discreta que adquire um dos valores 𝒙𝒊 ,
𝒊 ≥ 𝟏, com probabilidades 𝒑(𝒙𝒊 ), então, para qualquer função 𝒈(𝒙𝒊 ) de valores reais temos
Este teorema facilita o cálculo do valor esperado para qualquer função 𝑔(𝑋) quando
conhecido a função de distribuição da v.a. 𝑋. Definir 𝑔(𝑋) = 𝑋 2 em (3.4) produz
Prof. Me. Erivelton Vitor
108 Probabilidade e Estatística
𝐸[𝑋 2 ] = ∑ 𝑥 2 𝑝(𝑥𝑖 )
𝑖
Figura 3.3
Apesar de ambas as distribuições ilustradas na figura acima terem o mesmo centro 𝜇 , a
distribuição da Figura 3.3(b) tem maior dispersão ou variabilidade do que a da Figura 3.3(a).
Embora 𝐸[𝑋] forneça a média ponderada dos possíveis valores de 𝑋, ela não nos diz nada sobre
a variação ou disseminação desses valores. Esperamos que 𝑋 assuma valores em torno de seu
𝐸[𝑋]. Uma maneira razoável de medir a possível variação de 𝑋 seria observar a distância
máxima de 𝑋 à sua média, em média. Uma maneira possível de medir essa variação seria
considerar, então, a quantidade 𝐸[𝑋 − 𝜇], onde 𝜇 = 𝐸[𝑋]. No entanto, torna-se
matematicamente inconveniente lidar com essa quantidade, então uma quantidade mais tratável
e geralmente considerada é a expectativa do quadrado da diferença entre 𝑋 e sua média.
Considerando que o valor médio obtido foi de 𝜇 = 7,15 para a distribuiçao da massa de
probabilidade acima, o grau de variabilidade desta variável 𝑋 é, então, obtido por meio da
variância ou do desvo padrão obtidos por meio da (3.7). Assim,
𝜎 2 = (0 − 7,15)2 ⋅ 0,002 + (1 − 7,15)2 ⋅ 0,001 + ⋯ + (9 − 7,15)2 ⋅ 0,12 + (10 − 7,15)2 ⋅ 0,01
𝜎 2 = 1,5815
Dessa forma, o desvio padrão fica 𝜎 = √1,5815 = 1,2576. Como o resultado da variância bem
como do desvio padrão foi consideravelmente grande em relação aos valores de 𝑋,
consideramos que o grau de dispersão desta variável é forte.
■
Vamos agora estender nosso conceito da variância de uma variável aleatória 𝑋 para incluir
variáveis aleatórias relacionadas a 𝑋. Para a variável aleatória 𝑔(𝑋), a variância, denotada por
2
𝜎𝑔(𝑋) , é calculada por meio do seguinte teorema
Teorema 3.2 Suponha ser 𝑋 uma variável aleatória discreta. Para qualquer função
𝑔relacionada a 𝑋, a variância de 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = 𝐸 [(𝑔(𝑋) − 𝜇𝑔(𝑋) ) ] (3.9)
o valor de 𝜇𝑔(𝑋) é obtido usando o resultado do Teorema 3.1. É claro que considerando a
Definição 3.4 uma fórmula para o cálculo da variância de uma variável aleatória 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = ∑(𝑔(𝑥) − 𝜇𝑔(𝑋) ) 𝑝(𝑥) (3.10)
𝑥
Neste ponto, a variância ou desvio padrão só tem significado quando comparamos duas
ou mais distribuições que possuem as mesmas unidades de medida. Portanto, poderíamos
comparar as variâncias das distribuições de conteúdo, medidas em litros, de peso de pacotes de
macarrão de duas empresas, e o valor maior indicaria a empresa cujo produto era mais variável
ou menos uniforme. Não seria significativo comparar a variância de uma distribuição de alturas
com a variância de uma distribuição de pontuações de aptidão. Como visto, a média é uma
medida do centro ou do meio da distribuição de probabilidade, e a variância é uma medida da
dispersão, ou variabilidade na distribuição. Essas duas medidas não identificam exclusivamente
uma distribuição de probabilidade, ou seja, duas distribuições diferentes podem ter a mesma
média e a mesma variância, então, para podermos compar duas distribuições quanto ao grau de
variabilidade, usamos o coeficiente de variacão, indicado por 𝐶𝑉, como definido abaixo
𝜎
𝐶𝑉(𝑋) = (3.11)
𝜇
Como o coeficiente de variação foi alto, 𝟏𝟕, 𝟓𝟗%, diremos que a distribuição possui uma forte
variabilidade.
Exemplo 3.13 Um vendedor de equipamentos pesados pode visitar, num dia, um ou dois
clientes, com probabilidade de 1/3 ou 2/3, respectivamente. De cada contrato, pode resultar
numa venda de um equipamento por R$ 50.000,00 (com probabilidade de 1/10) ou nenhuma
venda (com probabilidade de 9/10). Indicando por X o valor total de vendas diárias desse
vendedor, escreva a função distribuição de probabilidade de X e calcule o valor total esperado
de vendas diárias.
Solução:Deixe 𝐴 indicar o número diário de clientes visitados e 𝑉 o número de vendas efetuadas
no dia. Facilmente se vê que 𝐴 = {1,2} e 𝑃(𝐴 = 1) = 1⁄3 e 𝑃(𝐴 = 2) = 2⁄3. Para obter a
fmp da v.a 𝑉 perceba que
(i) 𝑉 = 0 ocorre se o vendedor visitar um cliente e não vender ouvisitar dois clientes e não
vender para nenhum deles. Com isso
1 9 2 9 9 252
𝑃(𝑉 = 0) = 𝑃((𝐴 = 1) ∩ (𝑉 = 0)) + 𝑃((𝐴 = 2) ∩ (𝑉 = 0)) = ⋅ + ⋅ ⋅ =
3 10 3 10 10 300
(ii) 𝑉 = 1 ocorre se o vendedor visitar um cliente e vender ou visitar dois clientes e vender
apenas para um deles. Com isso
1 1 2 1 9 46
𝑃(𝑉 = 1) = 𝑃((𝐴 = 1) ∩ (𝑉 = 1)) + 2 ⋅ 𝑃((𝐴 = 2) ∩ (𝑉 = 1)) = ⋅ +2⋅( ⋅ ⋅ )=
3 10 3 10 10 300
(iii) 𝑉 = 2 ocorre unicamente no caso em que o vendedor visitar dois clientes e vender
para os dois. Com isso
2 1 1 2
𝑃(𝑉 = 2) = 𝑃((𝐴 = 2) ∩ (𝑉 = 2)) = ⋅ ⋅ =
3 10 10 300
252 46 2
e o valor esperado de 𝑋𝐸[𝑋] = 0 ⋅ 300 + 50.000 ⋅ 300 + 100.000 ⋅ 300 = 8.333,33. Portanto é
esperado vender em um dia R$ 8.333,33. (Você amigo leitor pode resolver este problema usando a árvode
de possibilidades. Surijo que tente esta outra forma)
■
Variáveis Contínuas
variáveis aleatórias cujo conjunto de valores possíveis é incontável ou não enumerável. Dois
exemplos são o tempo que um trem chega a uma parada específica e a vida útil de um transistor.
Deixe 𝑋 indicar uma variável aleatória. Dizemos que 𝑋 é uma variável aleatória contínua se
existir uma função não negativa 𝑓, definida para todo o real 𝑥 ∈ (−∞, ∞), tendo a propriedade
que, para qualquer conjunto 𝐵 de números reais,
∞
1 = 𝑃(𝑋 ∈ (−∞, ∞)) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
𝑏
𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥 (3.13)
𝑎
𝑎
𝑃(𝑋 = 𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥 = 0
𝑎
em palavras, esta equação afirma que a probabilidade de uma variável aleatória contínua
assumir qualquer valor pontual fixo é zero. E mais, para uma variável aleatória contínua,
𝑎
𝑃(𝑋 < 𝑎) = 𝑃(𝑋 ≤ 𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
+∞
2. ∫ 𝑓(𝑥)𝑑𝑥 = 1
−∞
𝑏
3. 𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥
𝑎
Observações Importantes
1. As probabilidades abaixo serão todas iguais, se 𝑋 for variável aleatória contínua:
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏)
2. A função 𝑓(𝑥), densidade de probabilidade, não é probabilidade. Somente quando a
função 𝑓(𝑥) for integrada entre dois limites é que ela produzirá uma probabilidade, que
será a área sob a curva da função entre 𝑥 = 𝑎 e 𝑥 = 𝑏 com 𝑎 < 𝑏.
3. Pode-se fazer uma analogia com a Mecânica e considerar-se que numa variável aleatória
discreta, a massa de probabilidade está concentrada em pontos isolados da reta real, e, no
caso da variável aleatória contínua, a massa de probabilidade está espalhada de modo
contínuo em seguimentos de reta real.
+∞
4. Como ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1 temos que a área total abaixo do gráfico de Gráfico de 𝑓(𝑥) é 1
unidade de área.
Exemplo 3.14 Suponha que o erro na temperatura de reação (em oC) , para um experimento de
laboratório controlado, seja a variável aleatória contínua 𝑿, que tem a função densidade de
probabilidade
𝑥 2 /3, 𝑠𝑒 − 1 < 𝑥 < 2
𝑓(𝑥) = {
0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
𝑥2
𝑓(𝑥) = 0 𝑓(𝑥) = 𝑓(𝑥) = 0
3
−∞ −1 +2 +∞
Temos
+∞ −1 2 +∞
a) ∫ 𝑓(𝑥)𝑑𝑥 = ∫ 𝑓(𝑥)𝑑𝑥 + ∫ 𝑓(𝑥)𝑑𝑥 + ∫ 𝑓(𝑥)𝑑𝑥
−∞ −∞ −1 2
2 2 2
𝑥2
= ∫ 0𝑑𝑥 + ∫ 𝑑𝑥 + ∫ 0𝑑𝑥
−1 −1 3 −1
𝑥=2
𝑥2 8 1
= | = + =1
3 𝑥=−1 9 9
1 𝑥2 𝑥=1
𝑥2 1
b) 𝑃(0 < 𝑋 ≤ 1) = ∫ 𝑑𝑥 = | =
0 3 3 𝑥=0 9
■
Exemplo 3.15 Deixe 𝑿 denotar a corrente medida em um fio de cobre fino em miliamperes.
Suponha que a fdp de 𝑿 seja como abaixo,
0,05 𝑠𝑒 0 ≤ 𝑥 ≤ 20
𝑓(𝑥) = {
0 𝑐𝑐
assim, existe uma probabilidade de 50% de chances de uma corrente medida ser menor que 10
miliamperes. E se fosse para obter 𝑃(5 < 𝑋 < 20)? Comente essa probabilidade. Faça essa
conta amigo leitor.
■
Exemplo 3.16 Faça a variável aleatória contínua 𝑿 denotar o diâmetro de um furo perfurado em
um componente de chapa metálica. O diâmetro do alvo é de 12,5 milímetros. A maioria dos
distúrbios aleatórios no processo resulta em diâmetros maiores. Dados históricos mostram que
a distribuição de 𝑿 pode ser modelada por uma função de densidade de probabilidade igual a
−20(𝑥−12,5)
𝑓(𝑥) = {20𝑒 𝑠𝑒 𝑥 ≥ 12,5
0 𝑐𝑐
Se uma peça com um diâmetro maior que 12,60 milímetros é descartada, que proporção de
peças é descartada?
Solução: Como antes, se 𝑓(𝑥) é função de densidade de probabilidade, a probabilidade
solicitada é
+∞ +∞
+∞
𝑃(𝑋 > 12,60) = ∫ 𝑓(𝑥) 𝑑𝑥 = ∫ 20𝑒 −20(𝑥−12,5) 𝑑𝑥 = 𝑒 −20(𝑥−12,5) |𝑥=12,60 = 0,135
12,6 12,6
Interpretação Prática: Essa proporção de 13,5% de peças com diâmetros superiores a 12,60mm,
indica que a proporção de peças que são descartadas é alta. Melhorias de processo são
necessárias para aumentara proporção de peças com dimensões próximas a 12,50mm
■
𝑥
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 (3.14)
−∞
Exemplo 3.17 Para a função densidade do Exemplo 3.14 , determine 𝑭(𝒙) e use-a para avaliar
𝑷(𝟎 < 𝑿 ≤ 𝟏). Faça o gráfico de 𝑭(𝒙)
Solução: Considerando a função dada, temos que 𝑓(𝑥) existe se−1 < 𝑥 < 2, assim,
𝑥 𝑥 𝑡=𝑥
𝑡2 𝑡3 𝑥3 + 1
𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 = ∫ 𝑑𝑡 = | =
−∞ −1 3 9 𝑡=−1 9
então
0 , para 𝑥 < −1
3
𝐹(𝑥) = {(𝑥 + 1)/9 , para − 1 ≤ 𝑥 < 2
1 , para 2 ≤ 𝑥
Para avaliar a probabilidade 𝑃(0 < 𝑋 ≤ 1) considere a igualdade dada em (3.15), assim
2 1 1
𝑃(0 < 𝑋 ≤ 1) = 𝐹(1) − 𝐹(0) = − =
9 9 9
Este resultado está de acordo com o resultado obtido usando a função densidade do
Exemplo 3.14 acima. Abaixo o gráfico de 𝐹(𝑥).
5𝑥
5𝑡 𝑡=𝑥 5𝑥 1
𝐹(𝑥) = ∫ 𝑑𝑡 = | 2 = −
2 8𝑏 8𝑏 𝑡= 𝑏 8𝑏 4
𝑏 5
5
2
0 , 𝑥 < 𝑏
5
𝐹(𝑥) = 5𝑥 1 2
− , 𝑏 ≤ 𝑥 < 2𝑏
8𝑏 4 5
{ 1 , 2𝑏 ≤ 𝑥
Para determinar a probabilidade de que o lance vendedor seja menor do que o lance preliminar
estimado 𝑏, devemos ter
5 1 3
𝑃(𝑋 ≤ 𝑏) = 𝐹(𝑏) = − =
8 4 8
■
Como no caso discreto, dada uma variável aleatória contínua𝑋 juntamente com sua
função de densidade de probabilidade 𝑓(𝑥) é extremamente útil resumir as propriedades
essenciais de 𝑋 por certas medidas adequadamente definidas. Vimos, no caso discreto, que essas
medidas são 𝜇 = 𝐸[𝑋], a 𝜎 2 = 𝑉𝑎𝑟(𝑋) e 𝜎 = 𝑑𝑝(𝑋). Assim, teremos para 𝑋 quando contínua
a seguinte definição.
Definição 3.9 Suponha ser X uma variável aleatória contínua com função de densidade de
probabilidade 𝒇(𝒙), então a média ou valor esperado de 𝑿, denotado por 𝝁 ou 𝑬[𝑿] é
+∞
𝜇 = 𝐸[𝑋] = ∫ 𝑥 𝑓(𝑥) 𝑑𝑥 (3.16)
−∞
Exemplo 3.19 Considere a fdp para a variável aleatória 𝑿 do Exemplo 3.14, como abaixo
𝑥 2 /3, 𝑠𝑒 − 1 < 𝑥 < 2
𝑓(𝑥) = {
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Determine o valor médio de 𝑋.
Solução: Para o cálculo da média 𝜇𝑋 usaremos a equação (3.16). Vamos lá!
+∞ 2 𝑥=2
𝑥3 𝑥4 5
𝜇𝑋 = ∫ 𝑥𝑓(𝑥) 𝑑𝑥 = ∫ 𝑑𝑥 = ( )| =
−∞ −1 3 12 𝑥=−1 4
■
Embora o método empregado na Definição 3.9 para calcular o valor esperado de uma
função de 𝑋 seja sempre aplicável, existe, como no caso discreto, uma maneira de proceder no
caso em que tenhamos uma função 𝑔(𝑋). O seguinte é um análogo direto do Teorema 3.1 da
seção anterior.
Teorema 3.3 Suponha ser 𝑿 uma variável aleatória contínua com função de densidade de
probabilidade 𝒇(𝒙), então, para qualquer função de valor real 𝒈(𝑿)
∞
𝜇𝑔(𝑋) = 𝐸[𝑔(𝑋)] = ∫ 𝑔(𝑥)𝑓(𝑥) 𝑑𝑥 (3.17)
−∞
A mesma observação feita no Teorema 3.1 pode ser estendida ao caso contínuo. Definir
𝑔(𝑋) = 𝑋 2 em (3.17) produz
∞
2]
𝐸[𝑋 = ∫ 𝑥 2 𝑓(𝑥) 𝑑𝑥
−∞
e ainda, considerando que a variância é definida como a média dos quadrados das observações
em torno da média, como descrito em (3.5), temos que definir 𝑔(𝑋) = (𝑋 − 𝜇)2 na equação
(3.17) novamente produz a fórmula para se calcular a variância de uma variável aleatória
contínua dada por
+∞
𝜎2 = ∫ (𝑥 − 𝜇)2 𝑓(𝑥) 𝑑𝑥 (3.18)
−∞
𝜎 = √𝜎 2 (3.19)
+∞ 𝟐
𝟓 𝟐 𝒙𝟐 𝟐
𝟓𝒙 𝟐𝟓 𝒙𝟐
𝝈𝟐 = ∫ (𝒙 − 𝝁)𝟐 𝒇(𝒙) 𝒅𝒙 = ∫ (𝒙 − ) ⋅ 𝒅𝒙 = ∫ (𝒙𝟐 − + ) ⋅ 𝒅𝒙
−∞ −𝟏 𝟒 𝟑 −𝟏 𝟐 𝟏𝟔 𝟑
2 𝑥=2
2
𝑥 4 5𝑥 3 25𝑥 2 𝑥 5 5𝑥 4 25𝑥 3 17 323
𝜎 =∫ ( − + ) 𝑑𝑥 = ( − + )| = ( ) − (− ) = 0,6375
−1 3 6 48 15 24 144 𝑥=−1 90 720
Teorema 3.4 Suponha ser 𝑋 uma variável aleatória contínua. Para qualquer função real 𝑔(𝑋)
relacionada a 𝑋,a variância de 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = 𝐸 [(𝑔(𝑋) − 𝜇𝑔(𝑋) ) ] (3.21)
o valor de 𝜇𝑔(𝑋) é obtido usando o resultado do Teorema 3.3. Considerando a Definição 3.9 uma
fórmula para o cálculo da variância de uma variável aleatória 𝑔(𝑋) é
∞
2 2
𝜎𝑔(𝑋) = ∫ (𝑔(𝑥) − 𝜇𝑔(𝑋) ) 𝑓(𝑥) 𝑑𝑥 (3.22)
−∞
Com cálculos muito simples, pode-se mostrar que a média 𝜇 = 𝐸[𝑋] de uma variável
aleatória 𝑋, sendo ela discreta ou contínua satisfaz cada uma das propriedades seguintes, onde
𝑘 ∈ ℝ.
• A média de uma constante é a própria constante: 𝐸[𝑘] = 𝑘
• Multiplicando a variável aleatória 𝑋 por uma constante, sua média fica multiplicada
por essa constante: 𝐸[𝑘 ⋅ 𝑋] = 𝑘 ⋅ 𝐸[𝑋]
• Somando (subtraindo) uma constante a uma variável aleatória 𝑋, a sua média fica
somada (subtraída) da mesma constante: 𝐸[𝑋 ± 𝑘] = 𝐸[𝑋] ± 𝑘
• A média dos desvios de observação é nulo: 𝐸[𝑋 − 𝜇] = 0
2. Uma população de 1.000 crianças foi analisada num estudo para determinar a efetividades
de uma vacina contra um tipo e alergia. No estudo, as crianças recebiam uma dose de vacina
e, após um mês, passavam por um novo teste. Caso ainda tivessem tido alguma reação
alérgica, recebiam outra dose da vacina. Ao fim de 5 doses, todas as crianças foram
consideradas imunizadas. Os resultados completos estão na tabela abaixo:
Dose 1 2 3 4 5
No crianças 245 288 256 145 66
Encontre a função de probabilidade (fmp) e a função de probabilidade acumulada (fma) para
a variável 𝑋: numero de doses recebidas. Faça a representação gráfica da fma. Suponha
que uma criança dessa população seja sorteada ao acaso, qual será a probabilidade dele ter
recebido no máximo 3 doses?
3. Elabore argumentos e cálculos para justificar a igualdade 𝐸[𝑎𝑋 + 𝑏] = 𝑎𝐸[𝑋] + 𝑏, onde 𝑋
é uma variável aleatória discreta ou contínua e 𝑎 e 𝑏 são números reais com 𝑎 ≠ 0.
4. Um competidor em um programa de perguntas e respostas é apresentado a duas perguntas,
digamos 𝑃1 e 𝑃2 que ele deve tentar responder na ordem que escolher. Se ele decidir tentar
a pergunta i primeiro, ele poderá continuar com a pergunta j, 𝑗 ≠ 𝑖, apenas se sua resposta à
pergunta i estiver correta. Se a resposta inicial estiver incorreta, ele não poderá responder à
outra pergunta. O competidor deve receber um prêmio, em dólares, digamos 𝑉𝑖 se ele
responder à pergunta 𝑖 corretamente, 𝑖 = 1; 2. Por exemplo, ele receberá 𝑉1 + 𝑉2 dólares se
responder as duas perguntas corretamente. Suponha que a probabilidade de ele saber a
resposta para a pergunta 𝑖 é 𝑝𝑖 , 𝑖 = 1; 2. Estabeleça uma relação capaz de predizer qual
pergunta ele deve tentar responder primeiro para maximizar seus ganhos esperados?
Suponha que os eventos 𝐸𝑖 ; 𝑖 = 1; 2, que ele conhece a resposta para a pergunta 𝑖 sejam
eventos independentes.
Teste sua relação supondo que ele tem 60% de certeza de responder à pergunta 1, ao valor
de $200,corretamente e 80% de certeza de responder à pergunta 2, ao valor de $100,
corretamente. Neste caso, qual pergunta ele deve responder primeiro, a 1 ou a 2?
do experimento.
8. Num levantamento feito num posto de atendimento à família, constatou que 19% das
famílias atendidas pelo posto não têm filhos, que 26% têm apenas um filho, 31% têm dois
filhos e o restante das famílias se divide igualmente entre terem três quatro ou cinco filhos.
respectivamente. Além disso, foram obtidos dos fabricantes o preço de cada componente
($5,00) e as probabilidades de produção de cada componente com as características bom,
longo e curto. Conforme tabela abaixo
Distribuição da produção das fábricas A e B, de acordo com as medidas das peças produzidas
Fábrica A Fábrica B
Produto
(Cilindro) (Esfera)
Dentro das especificações ----------------Bom (B) 0,995 0,987
Maior que as especificações--------------Longo(L) 0,001 0,010
Menor que as especificações-------------Curto (C) 0,004 0,003
Se o produto final apresentar algum componente com a característica C (curto), ele será
irrecuperável, e o conjunto será vendido como sucata ao preço de $5,00. Cada componente
longo poderá ser recuperado a um custo adicional de $5,00. Se o preço de venda de cada
unidade for de $25,00, estabeleça como variável aleatória
𝑋: o lucro por conjunto montado, e, obtenha a massa de probabilidade de 𝑋.
12. Elabore argumentos e cálculos para justificar cada uma das propriedades que variância
satisfaz para todo 𝑘 ∈ ℝ.
i. A variância de uma constante é 0 (zero): 𝑉𝑎𝑟[𝑘] = 0
ii. Multiplicando a variável aleatória 𝑋 por uma constante, sua variância fica multiplicada
pelo quadrado da constante: 𝑉𝑎𝑟[𝑘 ⋅ 𝑋] = 𝑘 2 ⋅ 𝑉𝑎𝑟[𝑋]
iii. Somando (subtraindo) uma constante a uma variável aleatória 𝑋, a sua variância não se
altera: 𝑉𝑎𝑟[𝑋 ± 𝑘] = 𝑉𝑎𝑟[𝑋]
13. Dada a função
2𝑒 −2𝑥 ; 0 ≤ 𝑥
𝑓(𝑥) = {
0 ; 𝑥<0
a) Mostre que 𝑓(𝑥) é uma f.d.p.
b) Calcule 𝑃(10 < 𝑋)
𝑓(𝑥)
c) Calcule 𝐸[𝑔(𝑋)] sendo 𝑔(𝑋) = √ .
2
14. Suponha que a duração em mil horas das lâmpadas produzidas por certa indústria tenha
função de densidade de probabilidade dada por:
−3 3
𝑥2 + 8 𝑥 ∶ 0 ≤ 𝑥 ≤ 4
𝑓(𝑥) = { 32
0 ∶ 𝑐. 𝑐.
Determine:
21. Num teste educacional com crianças, o tempo para a realização de uma bateria de
questões de raciocínio verbal e lógico é medido e anotado para ser comparado com um
modelo teórico. Este teste é utilizado para identificar o desenvolvimento das crianças e
auxiliar a aplicação de medidas corretivas. O modelo teórico considera
𝑇: 𝑡𝑒𝑚𝑝𝑜 𝑑𝑒 𝑡𝑒𝑠𝑡𝑒 𝑒𝑚 𝑚𝑖𝑛𝑢𝑡𝑜, como uma variável aleatória contínua com função
densidade de probabilidade dada por:
(𝑡 − 4)/40 , 8 ≤ 𝑡 < 10
𝑓(𝑡) = { 3/20 , 10 ≤ 𝑡 ≤ 15
0 , 𝑐. 𝑐
a. Verifique se essa função é realmente um fdp.
b. Represente graficamente a fdp da v.a. T.
c. Calcule a probabilidade de uma criança levar de 9 a 12 minutos para realizar essa bateria
de exames.
22. Considere o lançamento de três moedas. Se ocorre o evento CCC, dizemos que temos
uma sequência, ao passo que se ocorre o evento CRC temos três sequências. Defina a v.a
𝑋: número de caras obtidas e 𝑌: número de sequências, isso para cada resultado possível.
Assim, 𝑋(𝐶𝑅𝑅) = 1 e 𝑌(𝐶𝑅𝑅) = 2. Obtenha as distribuições de 𝑋 e 𝑌. Calcule 𝜇𝑋 , 𝜇𝑌 ,
𝜎 2 (𝑋) e 𝜎 2 (𝑌).
23. Suponha que a v.a. 𝑉 tenha a distribuição seguinte:
𝑣 0 1
𝑃(𝑉 = 𝑣) 𝑝 1−𝑝
Obtenha 𝐸[𝑉] e 𝑉𝑎𝑟(𝑉)
24. Seja 𝑋com distribuição dada por
𝑥 0 1 2
𝑃(𝑋 = 𝑥) ½ 1/4 1/4
a) Calcule 𝐸[𝑋]
b) Considere a v.a. 𝑔(𝑋) = (𝑋 − 𝑎)2, calcule 𝐸[𝑔(𝑋)] para 𝑎 = 0, 1⁄4 , 1⁄4 , 3⁄4 , 1
c) Obtenha o gráfico de 𝐸[𝑔(𝑋)] = 𝑔(𝑎). Para qual valor de 𝑎, 𝑔(𝑎) é mínima?
25. Um auditor fiscal faz visitas surpresas a estabelecimentos comerciais com contratos
ativos com o governo. Ele pode visitar, num dia, dois ou três desses estabelecimentos, com
probabilidade de 2/7 ou 5/7, respectivamente. De cada visita, pode resultar em um multa no
valor de R$ 750.000,00 (com probabilidade 3/13) ou nenhuma multa (com probabilidade
10/13). Deixe 𝑋 indicar o valor total em multas diárias aplicadas por esse auditor, escreva a
função de probabilidade de 𝑋. Com base na função massa de probabilidade de 𝑋 calcule o
valor total, em reais, esperado de multas diárias aplicadas.
26. Calcule a variância da variável aleatória 𝑌 do problema 4.
27. O tempo 𝑇, em minutos, necessário para um operário processar certa peça é uma v.a. com
a seguinte distribuição de probabilidade
𝑥 2 3 4 5 6 7
𝑃(𝑋 = 𝑥) 0,1 0,1 0,3 0,2 0,2 0,1
a) Calcule o tempo médio de processamento
b) Para cada peça processada, o operário ganha um fixo de R$ 2,00, mas, se ele processar a
peça em menos de seis minutos, ganha R$ 0,50 em cada minuto poupado. Por exemplo, se
ele processa a peça em quatro minutos, recebe a quantia adicional de R$ 1,00. Encontre a
distribuição, a média e a variância da v.a. 𝐺: quantia em R$ ganha por peça.
28. Sabe-se que a v.a. 𝑋 assume os valores 1, 2, e 3 e que sua f.m.a 𝐹(𝑥) é tal que
𝐹(1) − 𝐹(1 −) = 1/3
𝐹(2) − 𝐹(2 −) = 1/6
𝐹(3) − 𝐹(3 −) = 1/2
Prof. Me. Erivelton Vitor
Variáveis Aleatórias 127
𝑓(𝑥) = {
sin 𝑥 , 0 ≤ 𝑥 ≤ 𝜋/2 3𝑥 2 , −1≤𝑥 ≤0
𝑔(𝑥) = {
0 , caso contrário 0, caso contrári𝑜
37. A demanda diária de arroz num supermercado, em centenas de quilos, é uma v.a. com fdp
2𝑥/3 𝑠𝑒 0 ≤ 𝑥 ≤ 1
𝑓(𝑥) = {−𝑥/3 + 1 𝑠𝑒 1 ≤ 𝑥 ≤ 3
0 se x < 0 𝑜𝑢 3 < 𝑥
a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao acaso/
b) Em 30 dias, quanto o gerente do supermercado espera vender?
c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente
para que não falte arroz em 95% dos dias?
38. Certa liga é formada pela mistura fundida de dois metais. A liga resultante contém certa
porcentagem de chumbo, 𝑋, que pode ser considerada uma v.a. com fdp
3
𝑓(𝑥) = 10−5 𝑥(100 − 𝑥) , 0 ≤ 𝑥 ≤ 100
5
Suponha que 𝐿, o lucro líquido obtido na venda dessa liga (por unidade de peso), seja dado
por 𝐿 = 2,35 + 𝑋𝑒 −0,5. Calcule 𝜎(𝐿), o desvio padrão do lucro. R. 𝜎(𝐿) ≅ 13,5624
indivíduo a sua pontuação no teste de aptidão 𝑇, sua classificação no ensino médio 𝑀 e média
no final do ano de calouro na faculdade 𝐹, gera ternas da forma (𝑡, 𝑚, 𝑓 ).
Definição 3.10 A função 𝒑 é dita função massa de probabilidade conjunta para as variáveis
aleatórias discretas 𝑿 e 𝒀, indicada por 𝒑(𝒙, 𝒚) se
1. 𝑝(𝑥, 𝑦) ≥ 0
2. ∑ ∑ 𝑝(𝑥, 𝑦) = 1
𝑥 𝑦
3. 𝑝(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)
Exemplo 3.22 Uma grande agência de seguros presta serviços a diversos clientes que
compraram uma apólice residencial e outra de automóvel da mesma seguradora. Para cada tipo,
deve ser especificado um valor dedutível. Para uma apólice de automóvel as opções são US$
100 e US$ 250, enquanto, para uma apólice residencial, as opções são US$0, US$ 100 e US$
200. Suponha que um indivíduo com os dois referidos tipos seja selecionado aleatoriamente
nos arquivos da seguradora. Deixe X denotar o valor dedutível na apólice de automóvel e Y
valor dedutível na apólice residencial. Os pares (X, Y) possíveis são (100, 0), (100, 100), (100,
200), (250, 0), (250, 100) e (250, 200). Suponha que a fmp conjunta seja dada na tabela de
probabilidade conjunta a seguir:
Tabela 3.1Distribuição de probabilidade conjunta do Exemplo 3.22
𝑦 Totais
𝑝(𝑥, 𝑦)
0 100 200 Linhas
100 0,20 0,10 0,20 0,50
x
250 0,05 0,15 0,30 0,50
Totais
0,25 0,25 0,50 1
Colunas
a fmp conjunta acima especifica a probabilidade associada a cada um dos pares (𝑋, 𝑌), com
qualquer outro parde probabilidade zero. Para entendimento digamos que se queira saber a
probabilidade de ocorrer o par (100, 200). Então, 𝑝(100,200) = 𝑃(𝑋 = 100 , 𝑌 = 200) =
0,20. A probabilidade 𝑃(𝑌 ≥ 100) é obtida pela soma das probabilidades de todos os pares os
quais 𝑦 ≥ 100, assim 𝑃(𝑌 ≥ 100) = 𝑝(100,100) + 𝑝(250,100) + 𝑝(100,200) +
𝑝(250,200) = 0,75.
■
Exemplo 3.23 Duas calculadoras científicas são selecionadas aleatoriamente de uma caixa que
contém 3 calculadoras da marca B, 2 da marca R e 3 da marca G. Se 𝑿 denotar o número de
calculadoras da marca B selecionadas e 𝒀 o número de calculadoras da marca R selecionadas,
encontre
a) a função de probabilidade conjunta 𝒑(𝒙, 𝒚),
b) 𝑷[(𝑿, 𝒀) ∈ 𝑹], onde 𝑹 é a região 𝑹 = {(𝒙, 𝒚) ∶ 𝒙 + 𝒚 ≤ 𝟏}.
Solução: Da leitura do problema, tiramos que os possíveis pares de valores (𝑥, 𝑦) são (0, 0), (0,
1), (1, 0), (1, 1), (0, 2) e (2, 0).
a) Agora, 𝑝(0, 1), por exemplo, representa a probabilidade de que uma calculadora da marca
Ge uma da marca R são selecionadas. O número total de maneiras igualmente prováveis de
As probabilidades somadas por linha e por coluna são chamadas de probabilidade marginais.
Note que a soma das probabilidade marginais é exatamente igual a 1. A distribuição de
probabilidade conjunta da tabela pode ser representado pela fórmula
■
Assim como a função de distribuição de probabilidade de uma única variável aleatória 𝑋
é assumida como zero em todos os valores fora do intervalo caracterizador de 𝑋, então a função
de distribuição conjunta de probabilidade de 𝑋 e 𝑌 é zero em valores para os quais uma
probabilidade não é especificada, isto é, se o par (𝑥, 𝑦) não pertencer ao intervalo caracterizador
de 𝑝(𝑥, 𝑦) então sua probabilidade será 0(zero).
conjunto bidimensional 𝑅 (como uma região no plano cartesiano) é obtida pela integração dupla
de uma função denominada função de densidade conjunta. Quando 𝑋 e 𝑌 são variáveis
aleatórias contínuas, a função de densidade conjunta 𝑓é imaginada como a especificação de
uma superfície de altura 𝑓(𝑥, 𝑦) acima do ponto (𝑥, 𝑦) em um sistema tridimensional. Então
𝑃((𝑋, 𝑌) ∈ 𝑅) é pensado como o volume abaixo dessa superfície sobre a região 𝑅, isto é, o
volume do cilindro delimitado pela base 𝑅 e a superfície gerada por 𝑓(𝑥, 𝑦), onde 𝑅 é qualquer
região no plano 𝑥𝑦. Como indicado na Figura 3.4 abaixo
Figura 3.4
Definição 3.11 A função 𝒇é dita função densidade de probabilidade conjunta para as variáveis
aleatórias contínuas 𝑿 e 𝒀, indicada por 𝒇(𝒙, 𝒚) se
1. 𝑓(𝑥, 𝑦) ≥ 0
+∞ +∞
2. ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 = 1
−∞ −∞
Exemplo 3.24 Um banco opera tanto uma instalação de drive-through como em guichê de
atendimento. Em um dia selecionado aleatoriamente, assuma 𝑿 denote a proporção de tempo
em que a instalação de drive-through está em uso (ao menos um cliente está sendo atendido ou
esperando para ser atendido) e 𝒀 a proporção de tempo em que o guichê de atendimento está
em uso. O conjunto de valores possíveis de (𝑿, 𝒀) é, então, o retângulo 𝑹 = {(𝒙, 𝒚): 𝟎 ≤ 𝒙 ≤
𝟏 ; 𝟎 ≤ 𝒚 ≤ 𝟏}. Suponha que a fdp conjunta de (𝑿, 𝒀) seja dada por
6 2
𝑓(𝑥, 𝑦) = {5 (𝑥 + 𝑦 ) 𝑠𝑒 0 ≤ 𝑥 ≤ 1 ; 0 ≤ 𝑦 ≤ 1
0 𝑐𝑐
6 𝑥=1⁄4 1 𝑥=1⁄4
= ⋅ 𝑥 2 |𝑥=0 + ⋅ 𝑥|𝑥=0
40 160
7
=
640
■
Exemplo 3.25 Deixe a variável aleatória 𝑿 indicar o tempo até que um servidor de computador
se conecte à sua máquina (em milissegundos) e deixe que 𝒀 indique o tempo até que o servidor
o autorize como usuário válido (em milissegundos). Cada uma dessas variáveis aleatórias mede
a espera a partir de um tempo de início comum e 𝑿 < 𝒀. Assuma que a função conjunta de
densidade de probabilidade para 𝑿 e 𝒀 seja
−6
𝑓(𝑥, 𝑦) = {6 × 10 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑠𝑒 𝑥 < 𝑦
0 𝑐𝑐
∞ ∞ ∞ ∞
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 = ∫ ∫ 6 × 10−6 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑑𝑦𝑑𝑥
−∞ −∞ 0 𝑥
∞ ∞
−6 −0,001𝑥
= 6 × 10 ∫ 𝑒 (∫ 𝑒 −0,002𝑦 𝑑𝑦) 𝑑𝑥
0 𝑥
∞ ∞
−6 −0,001𝑥
𝑒 −0,002𝑦
= 6 × 10 ∫ 𝑒 ( | ) 𝑑𝑦
0 −0,002 𝑦=𝑥
∞
= 0,003 ∫ 𝑒 −0,003𝑥 𝑑𝑦
𝑥
∞
𝑒 −0,003𝑥
= 0,003 ⋅ ( | )
−0,003 𝑥=0
1
= 0,003 ⋅ ( )
0,003
= 1
Considerando que 𝑓(𝑥, 𝑦) ≥ 0 para todo 𝑥 ∈ 𝑅, temos que 𝑓(𝑥, 𝑦) assim definida é de fato uma
fdp conjunta. Para calcular a probabilidade do item (b) seguem os cálculos
1000 2000
𝑃(𝑋 < 1000 , 𝑌 < 2000) = ∫ ∫ 6 × 10−6 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑑𝑦𝑑𝑥
0 𝑥
1000 2000
= 6 × 10−6 ∫ 𝑒 −0,001𝑥 (∫ 𝑒 −0,002𝑦 𝑑𝑦) 𝑑𝑥
0 𝑥
1000
𝑒 −0,002𝑥 − 𝑒 −4
= 6 × 10−6 ∫ 𝑒 −0,001𝑥 ( ) 𝑑𝑥
0 0,002
1000
= 0,003 ∫ (𝑒 −0,003𝑥 − 𝑒 −0,001𝑥−4 ) 𝑑𝑥
0
1 − 𝑒 −3 𝑒 −4 − 𝑒 −5
= 0,003 [( )−( )]
0,003 0,001
= 0,915
■
= lim 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦)
𝑦→∞
= lim 𝐹(𝑥, 𝑦)
𝑦→∞
= 𝐹(𝑥, ∞)
= 𝐹(∞, 𝑦)
Definição 3.12 As funções massa de probabilidade marginais das variáveis aleatórias discretas
𝑿 e 𝒀, representadas respectivamente por 𝒑𝑿 (𝒙) e 𝒑𝒀 (𝒚) são dadas por
O termo marginal é usado aqui por que, no caso discreto, os valores de 𝑝𝑋 (𝑥) e 𝑝𝑌 (𝑦)
são exatamente os totais marginais das respectivas linhas e colunas quando os valores de 𝑝(𝑥, 𝑦)
são dispostos em um tabela retangular. Todas as declarações de probabilidade conjuntas sobre
𝑋 e 𝑌 podem, em teoria, ser respondidas em termos de sua função de distribuição conjunta. Por
exemplo, suponha que nós quiséssemos calcular a probabilidade conjunta de que 𝑋 é maior que
𝑥 e 𝑌 é maior que 𝑦. Isso pode ser feito da seguinte maneira:
𝑃(𝑋 > 𝑥, 𝑌 > 𝑦) = 1 − 𝑃((𝑋 > 𝑥, 𝑌 > 𝑦))′
= 1 − 𝑃((𝑋 > 𝑥)′ ∪ (𝑌 > 𝑦)′)
= 1 − 𝑃((𝑋 ≤ 𝑥) ∪ (𝑌 ≤ 𝑦 ))
= 1 − (𝑃(𝑋 ≤ 𝑥) + 𝑃(𝑌 ≤ 𝑦) − 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦))
= 1 − 𝐹(𝑥, ∞) − 𝐹(∞, 𝑦) + 𝐹(𝑥, 𝑦)
Para variáveis aleatórias contínuas, uma abordagem análoga à que foi usada no caso
discreto é usada para determinar distribuições de probabilidade marginais. Dessa forma a
função de densidade acumulada para as variáveis aleatórias 𝑋 e 𝑌,quando são ambas contínuas,
com fdp igual a 𝑓(𝑥, 𝑦) é definida por
𝑎+𝑑𝑎 𝑏+𝑑𝑏
𝑃(𝑎 < 𝑋 < 𝑎 + 𝑑𝑎, 𝑏 < 𝑌 < 𝑏 + 𝑑𝑏) = ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 ≈ 𝑓(𝑎, 𝑏)𝑑𝑎𝑑𝑏
𝑎 𝑏
onde
∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦
−∞
∞ ∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 e 𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 (3.27)
−∞ −∞
Uma probabilidade para apenas uma variável aleatória, digamos, por exemplo,
𝑃(𝑎 < 𝑋 < 𝑏) pode ser encontrada a partir da densidade de probabilidade marginal de 𝑋 ou da
integral da densidade de probabilidade conjunta de 𝑋 e 𝑌.
𝑏 𝑏 ∞ 𝑏 ∞
𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑋) (𝑥) 𝑑𝑥 = ∫ [∫ 𝑓(𝑥, 𝑦) 𝑑𝑦] 𝑑𝑥 = ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥
𝑎 𝑎 −∞ 𝑎 −∞
Fica evidente que podemos obter o valor esperado ou média para cada uma das variáveis
𝑋 e 𝑌 usando suas funções de probabilidade marginais. Como exemplo, supondo que 𝑋 e 𝑌 seja
contínuas com função de densidade conjunta de probabilidade𝑓(𝑥, 𝑦), então
∞ ∞
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 𝑒 𝐸[𝑌] = ∫ 𝑦𝑓𝑌 (𝑦) 𝑑𝑦 (3.28)
−∞ −∞
Exemplo 3.26 Suponha que 3 bolas sejam selecionadas aleatoriamente de uma urna contendo 3
bolas vermelhas, 4 brancas e 5 azuis. Se deixarmos que 𝑿 e 𝒀 denotem, respectivamente, o
número de bolas vermelhas e brancas escolhidas, então a função de massa de probabilidade
conjunta de 𝑿 e 𝒀 tem a forma, 𝒑(𝒊, 𝒋) = 𝑷{𝑿 = 𝒊, 𝒀 = 𝒋}, e está detalhada na tabela abaixo.
Sugiro ao leitor calcular cada uma das probabilidades expostas na tabela. Para ajudar,
deixarei o cálculo de 𝑷(𝑿 = 𝟏, 𝒀 = 𝟐) como abaixo
(31) ⋅ (42) 18 9
𝑃(1,2) = = =
(12
3
) 220 110
∞ 0
6 6 2
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ (𝑥 + 𝑦 2 ) 𝑑𝑦 = 𝑥 +
−∞ 1 5 5 5
6 2 3
𝑓𝑌 (𝑦) = {5 𝑦 + 5 , 𝑠𝑒 0 ≤ 𝑦 ≤ 1
0 , 𝑐𝑐
1 3
Com isso, se desejarmos, por exemplo, descobri a probabilidade 𝑃 (4 ≤ 𝑌 ≤ 4) basta usar a sua
3
1 3 4 37
𝑃 ( ≤ 𝑌 ≤ ) = ∫ 𝑓𝑌 (𝑦) 𝑑𝑦 = ≅ 0,4625
4 4 1 80
4
Na seção 3.1, afirmamos que o valor 𝑥 da variável aleatória 𝑋 representa um evento que
é um subconjunto do espaço amostral. Se usarmos a definição de probabilidade condicional
como declarado no Capítulo 2 e reproduzida em (3.29)
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = , 𝑐𝑜𝑚 𝑃(𝐵) > 0 (3.29)
𝑃(𝐵)
𝑃(𝑋 = 𝑥, 𝑌 = 𝑦) 𝑝(𝑥, 𝑦)
𝑃(𝑌 = 𝑦|𝑋 = 𝑥) = = desde que 𝑝𝑋 (𝑥) > 0
𝑃(𝑋 = 𝑥) 𝑝𝑋 (𝑥)
onde 𝑋 e 𝑌 são variáveis aleatórias discretas. Não é difícil mostrar que a função 𝑝(𝑥, 𝑦)⁄𝑝𝑋 (𝑥),
que é estritamente uma função de 𝑦 com 𝑥 fixo, satisfaz todas as condições de uma distribuição
de probabilidade. Isso também é verdade quando 𝑓(𝑥, 𝑦) e 𝑓𝑋 (𝑥) são a densidade conjunta e a
distribuição marginal, respectivamente, de variáveis aleatórias contínuas. Como resultado, é
extremamente importante que façamos uso do tipo especial de distribuição da forma
𝑝(𝑥, 𝑦)⁄𝑝𝑋 (𝑥) para poder calcular efetivamente as probabilidades condicionais no caso em que
𝑋e 𝑌 são ambas discretas. Este tipo de distribuição é chamado de distribuição de probabilidade
condicional.
𝑝(𝑥, 𝑦)
𝑝𝑌|𝑥 (𝑦) = , 𝑝𝑋 (𝑥) > 0 (3.30)
𝑝𝑋 (𝑥)
𝑝(𝑥, 𝑦)
𝑝𝑋|𝑦 (𝑥) = , 𝑝𝑌 (𝑦) > 0 (3.31)
𝑝𝑌 (𝑦)
No caso em que 𝑋 e 𝑌 são ambas contínuas, use nas fórmulas acima, a função densidade
𝑓(𝑥, 𝑦) e as densidades marginais 𝑓𝑌 (𝑦) e 𝑓𝑋 (𝑥). Observe que a definição de 𝑝𝑌|𝑥 (𝑦)
corresponde à de 𝑃(𝐴|𝐵), a probabilidade condicional da ocorrência de 𝐴, dado que 𝐵 tenha
ocorrido. Isto se dá por que em muitas situações, as informações sobre o valor observado de
uma das duas variáveis 𝑋e 𝑌 fornecem dados sobre o valor da outra variável. No Exemplo 3.22,
Definição 3.15 Duas variáveis aleatórias 𝑿 e 𝒀 são ditas estatisticamente independentes se,
para quaisquer dois conjuntos de números reais 𝑨 e 𝑩 tivermos
Se a Definição 3.15 não for satisfeita para todos os pares (𝑥, 𝑦), então 𝑋 e 𝑌 são ditas
estatisticamente dependentes. Em outras palavras, as variáveis aleatórias 𝑋 e 𝑌 são
independentes se, para todo 𝐴 e 𝐵, os eventos 𝐸𝐴 = {𝑋 ∈ 𝐴} e 𝐸𝐵 = {𝑌 ∈ 𝐵} são independentes.
Assim, em termos da função de distribuição acumulada conjunta 𝐹(𝑥, 𝑦) teremos que 𝑋 e 𝑌 são
independentes se, e somente se,
(3.32)
𝐹(𝑥, 𝑦) = 𝐹𝑋 (𝑥) ⋅ 𝐹𝑌 (𝑦) , 𝑝𝑎𝑟𝑎 𝑡𝑑𝑜𝑠 𝑥, 𝑦
a equivalência segue porque, se a equação expressa na Definição 3.15 for satisfeita, então
obtemos a equação (3.33) deixando 𝐴 e 𝐵 ser, respectivamente, os conjuntos de um ponto 𝐴 =
{𝑥} e 𝐵 = {𝑦}. Além disso, se a equação (3.33) for válida, então, para quaisquer conjuntos 𝐴,
𝐵, é possível provar a equação da Definição 3.15.
Exemplo 3.28 Suponha que 3% das famílias de uma determinada comunidade não tenham
filhos; 14,5% tenham 1 filho; 25% tenham 2 filhos; 25,5% tenham 3; 20% tenham 4 filhos; 8%
tenham; 5 filhos e 4% tenham 6 filhos. Suponha ainda que, em cada família, cada criança tenha
a mesma probabilidade (independentemente) de ser uma criança menino ou menina. Se uma
família for escolhida aleatoriamente desta comunidade, então 𝑿, o número de meninos e 𝒀, o
número de meninas, nessa família terá a função de massa de probabilidade conjunta mostrada
na tabela seguinte.
Tabela 3.4 Distribuição de probabilidade conjunta do Exemplo 3.28
𝑦 Soma Linhas
𝑝(𝑥, 𝑦)
0 1 2 3 𝑝𝑋 (𝑥)
0 0,03 0,07 0,06 0,04 0,20
1 0,075 0,175 0,15 0,10 0,50
x
2 0,015 0,035 0,03 0,02 0,10
3 0,03 0,07 0,06 004 0,20
Soma Colunas
0,15 0,35 0,30 0,20 1
𝑝𝑌 (𝑦)
É simples ferificar que 𝑝(𝑥𝑖 , 𝑦𝑗 ) = 𝑝𝑋 (𝑥𝑖 ) ⋅ 𝑝𝑌 (𝑦𝑗 ) para todo 𝑖, 𝑗 variando de 1 a 3. Portanto,
as variáveis 𝑋 e 𝑌 descritas no Exemplo 3.28 são estatísticamente independentes.
■
Exemplo 3.29 Reconsidere a situação do Exemplo 3.24 que envolvem 𝑿 como proporção de
tempo em que o guichê de automóveis de um banco está ocupado e 𝒀como proporção análoga
para o guichê de atendimento a pessoas. A fdp condicional de 𝒀 dado que 𝑿 = 𝟎, 𝟖 é
𝑓(0,8; 𝑦) 1,2 ⋅ (0,8 + 𝑦 2 ) 1
𝑓𝑌|0,8 (𝑦) = = = (24 + 30𝑦 2 ) , 0 < 𝑦 < 1
𝑓𝑋 (0,8) 1,2 ⋅ 0,8 + 0,4 34
A probabilidade de o guichê de pessoas estar ocupado no máximo metade do tempo, dado que
𝑋 = 0,8 é
0,5 0,5
1
𝑃(𝑌 ≤ 0,5|𝑋 = 0,8) = ∫ 𝑓𝑌|0,8 (𝑦) 𝑑𝑦 = ∫ (24 + 30𝑦 2 ) 𝑑𝑦 ≅ 0,390
−∞ 0 34
Se usar diretamente a fdp marginal de 𝑌 o resultado fornecido seria 𝑃(𝑌 ≤ 0,5) = 0,350. Além
disse, 𝐸[𝑌] = 0,6 (verifique!), enquanto a proporção esperada de tempo em que o guichê de
pessoas está ocupado, dado que 𝑋 = 0,8 (uma expectativa condicional) é
∞
1 1
𝐸[𝑌|0,8] = ∫ 𝑦 ⋅ 𝑓𝑌|0,8 (𝑦) 𝑑𝑦 = ∫ 𝑦(24 + 30𝑦 2 ) 𝑑𝑦 = 0,574
−∞ 34 0
■
Exemplo 3.30 A função de densidade conjunta de 𝑿 e 𝒀 é dada por
𝑎 ∞
𝑃(𝑋 < 𝑎) = ∫ ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑦𝑑𝑥
0 0
𝑎
−𝑥
= ∫ 𝑒 𝑑𝑥
0
= 1 − 𝑒 −𝑎
Para o item (b) consideraremos a Definição 3.13, dessa forma teremos
∞ ∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑦 = 𝑒 −𝑥
−∞ 0
e
∞ ∞
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑥 = 2𝑒 −2𝑦
−∞ 0
Para responder o item (c) temos que ter em mente o que significa duas variáveis aleatórias
contínuas serem independentes. Perceba que
𝑓(𝑥, 𝑦) = 2𝑒 −𝑥−2𝑦 = 𝑒 −𝑥 ⋅ 2𝑒 −2𝑦 = 𝑓𝑋 (𝑥) ⋅ 𝑓𝑌 (𝑦)
Portanto a equação (3.34) é satisfeita, e, dessa forma concluímos que as varáveis 𝑋 e 𝑌 são
estatisticamente independentes.
■
10 3 𝑦=1 10 2 2 𝑥=𝑦
= 𝑥𝑦 | = 𝑦 𝑥 |
3 𝑦=𝑥 2 𝑥=0
10
= 𝑥(1 − 𝑥 3 ), 0 < 𝑥 < 1 = 5𝑦 4 , 0 < 𝑦 < 1
3
Logo,
10
𝑓𝑋 (𝑥) = 𝑥(1 − 𝑥 3 ), 0<𝑥<1 e 𝑓𝑌 (𝑦) = 5𝑦 4 , 0<𝑦<1
3
Portanto,
3𝑦 2
𝑓𝑌|𝑥 (𝑦) = ,0 < 𝑥 < 𝑦 < 1
1 − 𝑥3
1
Para responder o item (b) é só observar que o pedido é traduzido por 𝑃 (𝑦 > 2 |𝑋 = 0,25).Com
isso obtemos
∞ ∞
1 3𝑦 2 8
𝑃 (𝑦 > 2 |𝑋 = 0,25) = ∫ 𝑓𝑌|0,25 (𝑦) 𝑑𝑦 − ∫ 𝑑𝑦 =
1 1 1 − (0,25)3 9
2 2
1
Ou seja, 𝑃 (𝑦 > 2 |𝑋 = 0,25) = 0,8889
Vimos anteriormente que qualquer função 𝑔(𝑋) de uma única v.a. 𝑋 é, por si mesma,
uma variável aleatória. Entretanto, para calcular 𝐸[𝑔(𝑋)], não foi necessário obter a
distribuição de probabilidades de 𝑔(𝑋); ao contrário, 𝐸[𝑔(𝑋)] foi calculado como uma média
ponderada dos valores de 𝑔(𝑋), em que a função distribuição foi a fmp 𝑝(𝑥) da própria v.a. 𝑋
(ou a função densidade 𝑓(𝑥), no caso contínuo). O leitor pode verificar isso nos Teorema 3.1 e
Teorema 3.3. Um resultado semelhante é obtido para a função 𝑔(𝑋, 𝑌) de duas variáveis, isto é,
um análogo bidimensional desses resultados, que fornecem fórmulas computacionais para
calcular o valor esperado de uma função 𝑔 de duas variáveis. Suponha que 𝑋 e 𝑌 sejam variáveis
aleatórias e 𝑔(𝑋, 𝑌) seja uma função de duas variáveis, então temos o seguinte resultado.
Teorema 3.5 Suponha 𝑿 e 𝒀 como variáveis aleatórias conjuntas com 𝒑(𝒙, 𝒚) ou 𝒇(𝒙, 𝒚),
conforme 𝑿 e 𝒀 sejam ambas discretas ou contínuas. Então, o valor esperado de uma função
𝒈(𝑿, 𝒀) é dado por
e, mais, esta relação é verdadeira nos caso em que 𝑋 e 𝑌 são ambas discretas ou ambas
contínuas. Quando duas variáveis aleatórias X e Y não são independentes, geralmente é de
interesse avaliar quão fortemente estão relacionadas uma com a outra. Para isso estudamos o
grau linear de relacionamento. A definição seguinte nos fornece uma ferramenta para este tipo
de análise.
Definição 3.16 A covariância entre duas variáveis aleatórias conjuntas 𝑿 e 𝒀 é dada por
negativa forte, a 𝐶𝑜𝑣(𝑋, 𝑌) deve ser negativa. Se 𝑋 e 𝑌 não estão fortemente relacionadas, os
produtos positivo e negativo tenderão a cancelar um ao outro, produzindo uma 𝐶𝑜𝑣(𝑋, 𝑌)
próxima de 0. A figura seguinte exibe as diferentes possibilidades.
Figura 3.5
Existe uma versão livre de escala da covariância chamada coeficiente de correlação que
é amplamente usada em estatística, e está exposto na
Definição 3.17 Suponha 𝑿 e 𝒀como variáveis aleatórias conjuntas com covariância 𝑪𝒐𝒗(𝑿, 𝒀)
e desvio padrão 𝝈𝑿 e 𝝈𝒀 respectivamente. O coeficiente de correlação de 𝑿 e de 𝒀 é dado por
𝐶𝑜𝑣(𝑋, 𝑌)
𝜌𝑋𝑌 =
𝜎𝑋 ⋅ 𝜎𝑌
Deve ficar claro para o leitor que 𝜌𝑋𝑌 está livre das unidades de 𝑋 e 𝑌. O coeficiente de
correlação satisfaz a desigualdade −1 ≤ 𝜌𝑋𝑌 ≤ 1. Assume-se um valor zero quando
𝐶𝑜𝑣(𝑋, 𝑌) = 0, isto significa que as variáveis 𝑋 e 𝑌 são não correlacionadas. Onde existe uma
dependência linear perfeita, digamos 𝑌 ≡ 𝑎 + 𝑏𝑋, teremos 𝜌𝑋𝑌 = +1 se 𝑏 > 0 e 𝜌𝑋𝑌 = −1 se
𝑏 < 0. O coeficiente de correlação é o assunto de mais discussão no Capítulo 8, onde lidamos
com regressão linear .
Exemplo 3.32 Suponha que estamos interessados em estudar a composição das famílias com
três crianças, quanto ao sexo. Deixe 𝑿 indicar o número de meninos 𝒀 o número de meninas.
Suponha ainda que as possíveis composições tenham a mesma probabilidade, Assim, obtemos
a tabela seguinte.
𝑌 Soma Linhas
𝑝(𝑥, 𝑦)
0 1 2 3 𝑝𝑋 (𝑥)
0 0 0 0 1⁄8 1⁄8
1 0 0 3⁄8 0 3⁄8
𝑋
2 0 3⁄8 0 0 3⁄8
3 1⁄8 0 0 0 1⁄8
Soma Colunas
1⁄8 3⁄8 3⁄8 1⁄8 1
𝑝𝑌 (𝑦)
1 3 3 1 12
𝐸[𝑋] = ∑ 𝑥𝑝𝑋 (𝑥) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 1,5
𝑥
1 3 3 1 12
𝐸[𝑌] = ∑ 𝑦𝑝𝑌 (𝑦) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 1,5
𝑦
2 2
1 2
3 2
3 2
1 24
𝐸[𝑋 2 ] = ∑ 𝑥 𝑝𝑋 (𝑥) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 3
𝑥
2 2
1 2
3 2
3 2
1 24
𝐸[𝑌 2 ] = ∑ 𝑦 𝑝𝑌 (𝑦) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 3
𝑦
ou seja,
𝐸[𝑋] = 𝐸[𝑌] = 1,5
𝜎(𝑋) = 𝜎(𝑌) = √0,75
𝐸[𝑋𝑌] = 1,5
Exemplo 3.33 Considere duas variáveis aleatórias contínuas 𝑿 e 𝒀 tais que a função densidade
conjunta entre elas seja como abaixo
𝒙+𝒚 , 𝟎<𝒙<𝟏 𝒆 𝟎<𝒚<𝟏
𝒇(𝒙, 𝒚) = {
𝟎 , 𝒄𝒄
∞ 1
1
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ (𝑥 + 𝑦) 𝑑𝑦 = 𝑥 + , 0<𝑥<1
−∞ 0 2
∞ 1
1
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ (𝑥 + 𝑦) 𝑑𝑥 = 𝑦 + , 0 < 𝑦 < 1
{ −∞ 0 2
Agora, a partir delas obtemos
∞ 1
1 7
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 (𝑥 + ) 𝑑𝑥 = = 𝐸[𝑌]
−∞ 0 2 12
∞ 1
2]
1 5
𝐸[𝑋 = ∫ 𝑥 2 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 2 (𝑥 + ) 𝑑𝑥 = = 𝐸[𝑌 2 ]
−∞ 0 2 12
5 7 2 11
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 = −( ) = = 0,07634 = 𝑉𝑎𝑟 [𝑌]
12 12 144
1 1 1 1 1
𝑦 𝑦2 1
𝐸[𝑋𝑌] = ∫ ∫ 𝑥𝑦𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ∫ 𝑥𝑦(𝑥 + 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ( + ) 𝑑𝑦 =
0 0 0 0 0 3 2 3
e
∞ 1
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ 8𝑥𝑦 𝑑𝑥 = 4𝑥 2 𝑦|𝑥=𝑦
𝑥=1
= 4𝑦 − 4𝑦 3 , 0≤𝑦≤1
−∞ 𝑦
∞ 1
4
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥(4𝑥 3 ) 𝑑𝑥 =
−∞ 0 5
∞ 1
4
𝐸[𝑋 2 ] = ∫ 𝑥 2 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 2 (4𝑥 3 ) 𝑑𝑥 =
−∞ 0 6
∞ 1
8
𝐸[𝑌] = ∫ 𝑦𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ 𝑦(4𝑦 − 4𝑦 3 ) 𝑑𝑦 =
−∞ 0 15
∞ 1
1
𝐸[𝑌 2 ] = ∫ 𝑦 2 𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ 𝑦 2 (4𝑦 − 4𝑦 3 ) 𝑑𝑦 =
−∞ 0 3
4 4 2 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 = −( ) = = 0,02667
6 5 75
1 8 2 11
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − (𝐸[𝑌])2 = −( ) = = 0,04889
3 15 225
1 1 1 1 1
8 8 4
𝐸[𝑋𝑌] = ∫ ∫ 𝑥𝑦𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ∫ 𝑥𝑦(8𝑥𝑦) 𝑑𝑥𝑑𝑦 = ∫ ( 𝑦 2 − 𝑦 3 ) 𝑑𝑦 =
0 𝑦 0 𝑦 0 3 3 9
4 4 8 4
Dessa forma obtemos 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑋] − 𝐸[𝑋]𝐸[𝑌] = 9 − 5 ⋅ 15 = 225. Dessa forma o
𝐶𝑜𝑣(𝑋,𝑌) 4⁄225
coeficiente de correlação será 𝜌(𝑋, 𝑌) = 𝜎(𝑋)𝜎(𝑌) = − = 0,4924. Esse resultado
√2⁄75 ⋅ √11⁄225
3. Um posto de gasolina tem ilhas de auto-serviço e de serviço completo. Em cada ilha, há uma
única bomba de auto-serviço de gasolina comum com duas mangueiras. Deixe X denotar o
número de mangueiras em uso na ilha de auto-serviço em um momento específico e Y o
número de mangueiras na ilha de serviço completo em uso naquele mesmo momento. A fdp
de 𝑋 e 𝑌é mostrada na tabela a seguir:
𝑦
𝑝(𝑥, 𝑦)
0 1 2
0 0,10 0,04 0,02
x 1 0,08 0,20 0,06
2 0,06 0,14 0,30
a) Qual é 𝑃(𝑋 = 1, 𝑌 = 1)?
b) Calcule 𝑃(𝑋 ≤ 1 , 𝑌 ≤ 1).
c) Descreva o evento {𝑥 ≠ 0 𝑒 𝑦 ≠ 0}. Calcule sua probabilidade
d) Calcule a fdp marginal de 𝑋 e de 𝑌. Usando 𝑝𝑋 (𝑥) calcule 𝑃(𝑥 ≤ 1).
e) 𝑋 e 𝑌 são v.a’s independentes? Explique cuidadosamente sua resposta
f) Determine o coeficiente de correlação 𝜌(𝑋, 𝑌).
4. Um determinado mercado tem uma fila de caixa expressa e uma fila de caixa super expressa.
Represente por 𝑋 o número de clientes na fila da caixa expressa em um determinado horário
do dia e por 𝑌 o número de clientes na fila da caixa superexpressa no mesmo horário.
Suponha que a fdp conjunta de 𝑋 e 𝑌 seja dada na tabela a seguir.
a) Qual é 𝑃(𝑋 = 1, 𝑌 = 1). Faça a interpretação deste resultado.
b) Qual é 𝑃(𝑋 = 𝑌). Faça a interpretação deste resultado
c) Represente por A o evento de haver no mínimo dois clientes a mais em uma fila do que
na outra. Expresse A em termos de 𝑋 e 𝑌, e calcule a probabilidade desse evento.
d) Qual é a probabilidade de o número total de clientes nas duas filas ser exatamente quatro?
E no mínimo quatro?
e) Determine a fdp marginal de 𝑋 e, depois calcule o número esperado de clientes na fila da
caixa expressa.
f) Determine a fdp marginal de 𝑌.
g) Pela inspeção das probabilidades dadas, as variáveis aleatórias 𝑋 e 𝑌 são independentes?
Explique seu raciocínio.
5. Cada pneu traseiro em um avião experimental deve ser preenchido a uma pressão de 40 libras
por polegada quadrada (psi). Deixe que 𝑋 indique a pressão de ar real para o pneu direito e
𝑌 denote a pressão de ar real para o pneu esquerdo. Suponha que 𝑋 e 𝑌 sejam variáveis
aleatórias com a função de densidade conjunta
2 2)
𝑓(𝑥, 𝑦) = {𝑘(𝑥 + 𝑦 𝑠𝑒 30 ≤ 𝑥 ≤ 50 𝑒 30 ≤ 𝑦 ≤ 50
0 𝑠𝑒 𝑐𝑐
3
a) Qual é o valor de 𝑘? R. 𝑘 = 3920000
b) Qual é a probabilidade de os dois pneus estarem com pressão inferior à ideal? R. 0,1888
c) Qual é a probabilidade de a diferença de pressão de ar entre os dois pneus ser no máximo
2 psi?
d) Determine a distribuição (marginal) da pressão de ar só do pneu direito.
e) 𝑋 e 𝑌são v.a.’s independentes? Seja bem claro em seus argumentos.
6. Deixe𝑋 e 𝑌 denotar os comprimentos de vida, em anos, de dois componentes em um sistema
eletrônico. Se a função de densidade conjunta dessas variáveis aleatórias for
−(𝑥+𝑦)
𝑓(𝑥, 𝑦) = { 𝑒 𝑠𝑒 𝑥 ≥ 0 𝑒 𝑦 ≥ 0
0 𝑐𝑐
encontre 𝑃(0 < 𝑋 < 1|𝑌 = 2).
7. Deixe 𝑋1 , ⋯ , 𝑋𝑛 serem variáveis aleatórias independentes e identicamente distribuídas tendo
variância 𝜎 2 . Mostre que 𝐶𝑜𝑣(𝑋𝑖 − 𝑋̅, 𝑋̅) = 0.
8. Suponha que duas variáveis aleatórias 𝑋 e 𝑌 tenham a densidade conjunta
4𝑥𝑦 𝑠𝑒 0 < 𝑥 < 1 𝑒 0 < 𝑦 < 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
encontre
1 1 1
a) 𝑃 (0 ≤ 𝑋 ≤ 2 , 4 ≤ 𝑌 ≤ 2);
círculo, de modo que todos os pontos estejam em um lado dessa linha, como mostra o
diagrama a seguir:
𝑐 𝑠𝑒 𝑥 2 + 𝑦 2 ≤ 𝑅 2
𝑓(𝑥, 𝑦) = {
0 𝑠𝑒 𝑥 2 + 𝑦 2 > 𝑅 2
para algum valor de 𝑐. Nestas circunstâncias,
a) determine c.
b) encontre as funções de densidade marginal de 𝑋 e 𝑌.
c) calcule a probabilidade de que 𝐷, a distância da origem do ponto selecionado, seja menor
ou igual a um certo valor0 ≤ 𝑎 ≤ 𝑅.
d) encontre 𝐸[𝐷].
15. Deixe 𝑋 indicar o número de vezes que uma determinada máquina de controle numérico
funcionará incorretamente: 1, 2 ou 3 vezes em qualquer dia. Deixe 𝑌 indicar o número de
vezes que um técnico é chamado em uma chamada de emergência. Sua distribuição de
probabilidade conjunta é dada como
𝑦
𝑝(𝑥, 𝑦)
1 3 5
1 0,05 0,05 0,00
x 2 0,05 0,10 0,20
3 0,10 0,35 0,10
a) Avalie a distribuição marginal de 𝑋.
b) Avalie a distribuição marginal de 𝑌.
c) Encontre 𝑃(𝑌 = 3|𝑋 = 2).
d) As variáveis 𝑋 e 𝑌 são Independentes? Argumente sobre essa interrogativa.
e) Determine o coeficiente de correlação entre 𝑋 e 𝑌. O que pode ser dito sobre a relação
entre tais variáveis? Argumente.
16. Sejam 𝑋 e 𝑌 variáveis aleatórias com fmp conjunta dada por
𝑦
𝑝(𝑥, 𝑦)
−2 −1 4 5
1 0,1 0,2 0 0,3
x
2 0,2 0,1 0,1 0
a) Achar as distribuições marginais de 𝑋 e de 𝑌
b) Calcular 𝐸[𝑋], 𝐸[𝑌] e 𝐸[𝑋𝑌]
c) Calcular a covariância entre 𝑋 e 𝑌
d) Calcular 𝜎𝑋 e 𝜎𝑌
e) Calcular 𝜌(𝑋, 𝑌)
f) As variáveis são independentes? Por quê?
17. Dada a seguinte função densidade conjunta das v.a.’s 𝑋 e 𝑌
Prof. Me. Erivelton Vitor
Variáveis Aleatórias 157
3𝑥𝑦(𝑥 + 𝑦) 𝑠𝑒 0 ≤ 𝑥 ≤ 1 , 0 ≤ 𝑦 ≤ 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
g) Determine as funções marginais de 𝑋 e 𝑌
h) Calcular 𝐸[𝑋] e 𝐸[𝑌]
i) Calcular 𝜎𝑋2 e 𝜎𝑌2
j) Calcular 𝑃(0,5 ≤ 𝑋 ≤ 0,75)
k) Calcular o coeficiente de correlação entre 𝑋 e 𝑌.
Distribuição Uniforme
Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção
de modelos probabilísticos para situações reais e consequentemente a estimação de seus
parâmetros. Como vimos antes, a coleção de resultados discretos obtidos a partir do estudo de
uma variável poder ser organizada em segundo as estatísticas de ordem, o chamado ROL. Por
∑ 𝑥𝑖
𝐸[𝑋] = (4.1)
𝑁
2 (𝑋)
1 2
(∑𝑥𝑖 )2
𝜎 = ⋅ [∑ 𝑥𝑖 − ] (4.2)
𝑁 𝑁
1
𝐹(𝑋) = ∑𝑖 (4.3)
𝑁
𝑥𝑖 ≤𝑥
Exemplo 4.1: Seja 𝑿 a variável aleatória que indica o “número de pontos marcados na face
superior de um dado, quando lançado”. Assim,
𝑥 1 2 3 4 5 6
𝑃(𝑋 = 𝑥) 1⁄6 1⁄6 1⁄6 1⁄6 1⁄6 1⁄6
1 1 (21)2
Portanto, 𝐸[𝑋] = 6 (21) = 3,5 e 𝑉𝑎𝑟(𝑋) = 6 [91 − ] ≅ 2,92.
6
Variáveis cujas medidas representativas são dadas por (4.1), (4.2) e (4.3) comumente são
associadas a um Variável Aleatória Uniforme. Assim a variável aleatória uniforme é a mais
simples de todas as distribuições de probabilidade, por que esta distribuição se caracteriza pelo
fato que a variável aleatória assume cada um de seus valores com igual probabilidade. Tal
probabilidade é chamada de distribuição uniforme discreta de probabilidade.
Distribuição Binomial
Dessa forma uma variável aleatória 𝑋, que assume os valores 0 (fracasso) e 1 (sucesso),
com função de massa de probabilidade 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) como em (4.4) é chamada Variável
Aleatória de Bernoulli.
0 𝑠𝑒 𝑥 < 0
𝑝(𝑥) = { 0 𝑠𝑒 𝑥 > 1 (4.4)
(2𝑝 − 1)𝑥 + 1 − 𝑝 𝑠𝑒 𝑥 ∈ {0,1}
𝑆𝑆𝑆 ⋯ 𝑆𝑆 ⏟
⏟ 𝐹𝐹𝐹 ⋯ 𝐹𝐹𝐹
𝑥 𝑠𝑢𝑐𝑒𝑠𝑠𝑜𝑠 𝑛−𝑥 𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜𝑠
𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑛
𝑃(𝑋 = 𝑥) = ( ) ⋅ 𝑝 𝑥 ⋅ (1 − 𝑝)𝑛−𝑥 (4.5)
𝑥
Definição 4.1 Deixe 𝑿 denotar o número de sucessos num experimento binomial. Então 𝑿 tem
distribuição binomial com parâmetros 𝒏 e 𝒑,indicada por 𝒃(𝒏, 𝒑) se
𝑛
𝑏(𝑥; 𝑛, 𝑝) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥 (4.6)
𝑥
com 𝑥 = 1, 2, ⋯ , 𝑛.
é imediato que
𝑛 𝑛
𝑛 𝑛
∑ 𝑃(𝑋 = 𝑥) = ∑ ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 = (𝑝 + (1 − 𝑝)) = 1
𝑥
𝑥=0 𝑥=0
Exemplo 4.2 Considere um processo de fabricação em que são produzidos milhões de itens por
dia. Em média, 1% desses itens está fora das especificações. No processo de controle de
qualidade, seleciona-se uma amostra de 50 itens e classifica-se cada item como sendo dentro
ou fora das especificações. Qual a probabilidade de se encontrar no máximo um item fora das
especificações?
Solução: Seja a v.a. 𝑋: o número de itens não conformes na amostra. Pela leitura do
problema tiramos que 𝑛 = 50; 𝑥 ≤ 1 e 𝑝 = 0,01. Assim,
50 50
𝑃(𝑋 ≤ 1) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = ( ) ⋅ 0,010 ⋅ 0,9950 + ( ) ⋅ 0,011 ⋅ 0,9949
0 1
Exemplo 4.3 Um grande varejista de rede adquire um certo tipo de dispositivo eletrônico de um
fabricante. O fabricante indica que a taxa defeituosa do dispositivo é de 3%.
a) O inspetor escolhe aleatoriamente 20 itens de uma remessa. Qual é a probabilidade de haver
pelo menos um item defeituoso entre esses 20?
b) Suponha que o varejista receba 10 remessas em um mês e o inspetor teste aleatoriamente 20
dispositivos por remessa. Qual é a probabilidade de haver exatamente 3 remessas contendo cada
uma, pelo menos um dispositivo defeituoso entre as 20 selecionadas e testadas d, remessa?
Solução: a) Seja a v.a. 𝑋 o número de itens defeituosos dentre os 20 selecionados. Assim,
20
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = ( ) ⋅ 0,030 ⋅ 0,972 = 0,4562
0
Usando a identidade
𝑛 𝑛−1
𝑥( ) = 𝑛( )
𝑥 𝑥−1
obtemos
𝑛
𝑛−1 𝑥
𝐸[𝑋 𝑘 ] = ∑ 𝑥 𝑘−1 𝑛 ( ) 𝑝 (1 − 𝑝)𝑛−𝑥 faça 𝑦 = 𝑥 − 1
𝑥−1
𝑥=1
𝑛
𝑛−1 𝑦
= 𝑛𝑝 ∑(𝑦 + 1)𝑘−1 ( ) 𝑝 (1 − 𝑝)𝑛−1−𝑦
𝑦
𝑦=0
= 𝑛𝑝𝐸[(𝑌 + 1)𝑘−1 ]
logo,
onde 𝑌~𝑏(𝑛 − 1, 𝑝), ou seja, 𝑌 é uma variável aleatória binomial com parâmetros (𝑛 − 1) e
(𝑝). Definir 𝑘 = 1 na igualdade anterior produz
𝐸[𝑋] = 𝑛𝑝
precedente a anterior e usar a fórmula anterior para o valor esperado de uma variável aleatória
binomial produz
𝐸[𝑋 2 ] = 𝑛𝑝𝐸[𝑌 + 1]
= 𝑛𝑝((𝑛 − 1)𝑝 + 1)
Distribuição Geométrica
A equação (4.8) se faz verdadeira porque, para que 𝑋 seja igual a 𝑥, é necessário e
suficiente que as primeiras (𝑥 − 1) tentativas sejam falhas e que a enésima tentativa seja um
sucesso. Uma vez que os resultados dos ensaios sucessivos são considerados independentes, a
probabilidade que ocorra um sucesso nas primeiras𝑥 tentativas será 1. Vejamos
∞ ∞
𝑝
∑ 𝑃(𝑋 = 𝑥) = 𝑝 ∑(1 − 𝑝)𝑥−1 = =1
1 − (1 − 𝑝)
𝑥=1 𝑥=1
Definição 4.2 Em uma série de ensaios de Bernoulli, deixe a variável aleatória 𝑿 denotar o
número de tentativas até o primeiro sucesso. Então 𝑿 é uma variável aleatória geométrica com
parâmetro 𝒑, 𝟎 < 𝒑 < 𝟏 se sua fdp é
Exemplo 4.4 A probabilidade de uma bolacha conter uma grande partícula de contaminação é
de 0,01. Se for assumido que a escolha das bolachas é aleatória e independente, qual é a
probabilidade de que exatamente 125 bolachas precisam ser analisadas antes que uma grande
partícula seja detectada?
Solução: Deixe 𝑿 denotar o número de amostras analisadas até que uma grande partícula seja
detectada. Então 𝑿 é uma variável aleatória geométrica com 𝒑 = 𝟎, 𝟎𝟏. A probabilidade
solicitada é 𝑷(𝑿 = 𝟏𝟐𝟓) = (𝟎, 𝟗𝟗)𝟏𝟐𝟒 ⋅ 𝟎, 𝟎𝟏 = 𝟎, 𝟎𝟎𝟐𝟗
■
Exemplo 4.5 Uma urna contém 𝑵 bolas brancas e 𝑴 pretas. As bolas são selecionadas
aleatoriamente, uma de cada vez, até que uma preta seja obtida. Se assumirmos que cada bola
selecionada é devolvida antes que a próxima seja retirada, qual é a probabilidade de que
a) exatamente 𝑥 sorteios são necessários?
b) pelo menos 𝑥 sorteios são necessários?
Solução: Se deixarmos que 𝑋 indique o número de sorteios necessários para selecionar uma
bola preta, então 𝑋 satisfaz a Definição 4.2 com 𝑝 = 𝑀⁄(𝑀 + 𝑁). Consequentemente,
𝑀 𝑀 𝑥−1 𝑀𝑁 𝑥−1
a) 𝑃(𝑋 = 𝑥) = 𝑁+𝑀 ⋅ (1 − 𝑁+𝑀) = (𝑁+𝑀)2
b) Neste item a probabilidade requerida é a de que 𝑋 assuma valores maiores do que ou iguais
a um estipulado valor 𝑥. Dessa forma teremos
∞ 𝑛−1
𝑀 𝑀
𝑃(𝑋 ≥ 𝑥) = ∑ ⋅ (1 − )
𝑁+𝑀 𝑁+𝑀
𝑛=𝑥
∞ 𝑛−1
𝑀 𝑀
= ⋅ ∑ (1 − )
𝑁+𝑀 𝑁+𝑀
𝑛=𝑥
𝑁 𝑥−1
𝑀 (𝑁+𝑀)
= ( )⋅ 𝑁
𝑁+𝑀 1 − 𝑁+𝑀
𝑥−1
𝑁
= ( )
𝑁+𝑀
Naturalmente, a parte (b) poderia ter sido obtida diretamente, já que a probabilidade de
que pelo menos 𝑥 tentativas sejam necessárias para obter um sucesso é igual à probabilidade de
que as primeiras tentativas (𝑥 − 1) sejam todas falhas. Isto é, para uma variável aleatória
geométrica fica 𝑃(𝑋 ≥ 𝑥) = (1 − 𝑝)𝑥−1 . Com um cálculo não muito complicado mostra-se
que o valor esperado e a variância de uma variável aleatória segundo uma distribuição
geométrica são dados pelas igualdades abaixo
1 1−𝑝
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.10)
𝑝 𝑝2
Distribuição Hipergeométrica
Um caso particular ocorre quando se estuda uma amostra de tamanho 𝑛 retirada de uma
população com total de 𝑁 itens com 𝑛 ≤ 𝑁 claramente. Como exemplo, um dia de produção de
850 peças fabricadas contém 50 peças que não atendem aos requisitos do cliente. Duas peças
são selecionadas aleatoriamente, sem substituição, da produção do dia. Sejam 𝐴 e 𝐵 os eventos
que a primeira e a segunda peças não estão conformes os requisitos do cliente, respectivamente.
Considerando uma probabilidade condicional estuda no capítulo 2, encontramos 𝑃(𝐴) =
50⁄850 e 𝑃(𝐵|𝐴) = 49⁄849. Consequentemente, o conhecimento de que a primeira peça não
está em conformidade sugere que é menos provável que a segunda peça selecionada também
não esteja dentro dos padrões. Deixe 𝑋 denotar o número de peças fora dos requisitos do clientes
na amostra. Então
800 799
𝑃(𝑋 = 0) = 𝑃(𝐴′ ∩ 𝐵′) = ⋅ = 0,886
850 849
800 50 50 49
𝑃(𝑋 = 1) = 𝑃((𝐴′ ∩ 𝐵) ∪ (𝐴 ∩ 𝐵 ′ )) = ⋅ + ⋅ = 0,111
850 849 850 849
50 49
𝑃(𝑋 = 2) = 𝑃(𝐴 ∩ 𝐵) = ⋅ = 0,003
850 849
aleatória binomial. Mas, como neste exemplo, as amostras geralmente são selecionadas sem
substituição. Embora as probabilidades possam ser determinadas pelo raciocínio usado no
exemplo acima, uma fórmula geral para calcular probabilidades quando amostras são
selecionadas sem substituição é bastante útil. As regras de contagem apresentadas no Capítulo
2 podem ser usadas para justificar a fórmula dada na Definição 4.3 abaixo.
(𝑘𝑥) ⋅ (𝑁−𝑘
𝑛−𝑘
)
ℎ(𝑥; 𝑁, 𝑛, 𝑘) = 𝑃(𝑋 = 𝑥) = (4.11)
(𝑁𝑛)
custas do item que está sendo testado. Ou seja, o item é destruído e, portanto, não pode ser
substituído na amostra. Assim, a amostragem sem reposição é necessária.
vermelhos, e para cada uma dessas formas podemos escolher 2 cartas pretas em (26
2
) formas.
Portanto o número total de maneiras de selecionar 3 cartas vermelhas e 2 pretas em 5 retiradas
é o produto (26
3
) ⋅ (26
2
). O número total de maneiras de selecionar qualquer 5 das 52 cartas
disponíveis é (52
5
). Assim, a probabilidade de selecionar 5 cartas sem substituição das quais 3
são vermelhas e 2 são pretas, é dada por
(26
3
) ⋅ (26
2
)
𝑃(𝑋 = 3) = = 0,3251
(52
5
)
(𝑘𝑥) ⋅ (𝑁−𝑘
𝑛−𝑘
) (12
2
) ⋅ (83)
𝑃(𝑋 = 𝑥) = ⟶⇢⇢ 𝑃(𝑋 = 2) = = 0,238
(𝑁𝑛) (20
5
)
■
É possível construir tabelas abrangentes da distribuição hipergeométrica usando um
software adequado, mas, como a distribuição possui três parâmetros, as tabelas requerem muito
mais espaço do que as da distribuição binomial. Os programas estatísticos geram probabilidades
hipergeométricas facilmente. Como no caso binomial, há expressões simples para 𝐸[𝑋] e
𝑉𝑎𝑟(𝑋) para uma v.a. 𝑋 com distribuição de probabilidade hipergeométrica, ou seja, se
𝑋~ℎ(𝑥; 𝑛; 𝑘; 𝑁 ) então
𝑘 𝑘 𝑁−𝑘 𝑘
𝐸[𝑋] = 𝑛 ⋅ e 𝑉𝑎𝑟(𝑋) = 𝑛 ⋅ ⋅( ) ⋅ (1 − ) (4.12)
𝑁 𝑁 𝑁−1 𝑁
Definição 4.4 Suponha que ensaios independentes, cada um com probabilidade 𝒑, 𝟎 < 𝒑 < 𝟏,
de ser um sucesso sejam realizados até que um total de 𝒓 sucessos seja acumulado. Se
deixarmos 𝑿 igual ao número de tentativas necessárias, então a fdp de 𝑿 é
𝑛−1 𝑟
𝑛𝑏(𝑥; 𝑟, 𝑝) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 (1 − 𝑝)𝑛−𝑟 (4.13)
𝑟−1
A equação (4.13) é verdadeira porque, para que o enésimo sucesso ocorra no enésimo teste,
deve haver (𝑟 − 1) sucessos nos primeiros (𝑛 − 1) testes e o enésimo teste deve ser bem
sucedido.
Exemplo 4.8 Um pediatra deseja convocar cinco casais, cada um esperando seu primeiro filho,
para participarem de um novo regime de parto natural. Seja 𝒑 a probabilidade de um casal
selecionado aleatoriamente concorda em participar. Se 𝒑 = 𝟎, 𝟐, qual é a probabilidade de 15
casais serem solicitados antes de serem encontrados cinco que concordem em participar?
Solução: É pedido a probabilidade de ocorrerem 15convites até o quinto casal aceitar em
participar. Isto é, devemos ter 4 aceitações nos 14 primeiros convites e uma aceitação no décimo
quinto convite. Pela leitura temos𝑟 = 5, 𝑝 = 0,2 e 𝑥 = 15. Usando (4.12) temos
15 − 1
𝑃(𝑋 = 15) = ( ) ⋅ 0,25 ⋅ (1 − 0,2)15−5 ⟶⇢⇢ 𝑃(𝑋 = 15) = 0,034
5−1
■
Distribuição de Poisson
Definição 4.5 Uma variável aleatória discreta 𝑿 tem distribuição de Poisson com parâmetro
𝝀 > 𝟎 se
𝑒 −𝜆 ⋅ 𝜆𝑥
𝑃(𝑋 = 𝑥; 𝜆) = (4.14)
𝑥!
com 𝑥 = 1, 2, 3, ⋯.
𝑒 −𝑛𝑝 ⋅ (𝑛𝑝)𝑥
𝑏(𝑥; 𝑛, 𝑝) ≅ (4.15)
𝑥!
Geralmente, o valor 𝜆 que aparece na Definição 4.5 é uma taxa por unidade de medida.
Como 𝜆 é positivo, 𝑃(𝑋 = 𝑥; 𝜆) também será qualquer que seja o valor de 𝑥. O fato de
∑∞ 𝜆
𝑥=0 𝑃(𝑋 = 𝑥; 𝜆) = 1 é uma conseqüência da expansão de 𝑒 da série infinita de Maclaurin,
∞
𝜆
𝜆𝑥
𝑒 =∑ (4.18)
𝑥!
𝑥=0
∞
𝑒 −𝜆 ⋅ 𝜆𝑥
∑ =1
𝑥!
𝑥=0
o que mostra que 𝑃(𝑋 = 𝑥; 𝜆) satisfaz a segunda condição necessária para definir uma fdp.
Exemplo 4.10 É sabido que no Cal Center de uma grande empresa, um telefonista atende, em
média, 2 chamadas por hora. Dessa forma, qual a probabilidade dessa telefonista receber no
máximo três chamadas em 2 horas? E a probabilidade de não receber chamadas em 90 minutos?
Solução: Note que o enunciado forneceu o valor de atendimentos médio de 2chamadas por
hora, logo𝜆 = 2. Em duas horas o “novo” valor de lambda será,𝜆 = (2 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠⁄ℎ𝑜𝑟𝑎) ⋅
(2 ℎ𝑜𝑟𝑎𝑠) = 4 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠. Já para 90 minutos teremos uma hora e meia então o “novo” valor
de lambda será 𝜆 = (2 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠⁄ℎ𝑜𝑟𝑎) ⋅ (1,5 ℎ𝑜𝑟𝑎) = 3 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠. Assim, a primeira
pergunta: No máximo três chamadas em 2 horas temos 𝜆 = 4 e
𝑃(𝑋 ≤ 3; 4) = 𝑃(𝑋 = 0; 4) + 𝑃(𝑋 = 1; 4) + 𝑃(𝑋 = 2; 4) + 𝑃(𝑋 = 3; 4)
𝑒 −(4) ⋅ (4)0 𝑒 −(4) ⋅ (4)1 𝑒 −(4 ⋅ (4)2 𝑒 −(4) ⋅ (4)3
= + + +
0! 1! 2! 3!
= 0,4331
A segunda pergunta: nenhuma chamada em 90 minutos. Aqui, 𝜆 = 3, e
𝑒 −(3) ⋅ (3)0
𝑃(𝑋 = 0; 3) = ≅ 0,0498
0!
Portanto, existe uma probabilidade de 43,31% de a atendente receber no máximo três
chamados em 2 horas e 4,98% de ela não receber chamadas em 90 minutos.
■
Solução: Deixe 𝑋 denotar o número de partículas na área de um disco em estudo. Como o número
médio de partículas é de 0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 temos 𝜆 = 0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 . Estamos
interessados em avaliar uma área de 100 𝑐𝑚2 . Com isso devemos obter o “novo” valor de
lambda correspondente a esta área de 100 𝑐𝑚2 . Assim, 𝜆 = (100 𝑐𝑚2 ) ⋅
(0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 ) = 10 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠. Dessa forma, aplicando (4.14) para 𝜆 = 10
chegamos a
𝑒 −(10) ⋅ (10)12
𝑃(𝑋 = 12; 10) = ≅ 0,095
12!
■
Exemplo 4.12 Se uma editora de livros não-técnicos se esforça para garantir que seus livros não
possuem erros tipográficos, deforma que a probabilidade de uma página conter um erro desse
tipo é de 0,005 e os erros são independentes de página para página, qual é a probabilidade de
um de seus romances de 400 páginas conter exatamente uma página com erros? No máximo
três páginas com erros?
Solução: Deixe 𝑋 representar o número de páginas que contém ao menos um erro. Com uma
análise detalhada do problema, vê-se que 𝑋 é uma v.a. binomial com 𝑛 = 400 e 𝑝 = 0,005, de
forma que 𝑛𝑝 = 2. O que queremos é 𝑃(𝑋 = 1) e 𝑃(𝑋 ≤ 3). Como 𝑋~𝑏(𝑥; 𝑛, 𝑝) é 𝑛𝑝 = 2
então 𝑃(𝑋 = 𝑥) pode ser aproximada pela distribuição de Poisson com 𝜆 = 2. Assim,
−2
(2)1
𝑃(𝑋 = 1; 2) ≅ 𝑒 ⋅ = 0,271
1!
e
3
𝑒 −2 ⋅ (2)𝑥 𝑒 −2 ⋅ (2)0 𝑒 −2 ⋅ (2)1 𝑒 −2 ⋅ (2)2 𝑒 −2 ⋅ (2)3
𝑃(𝑋 ≤ 3; 2) ≅ ∑ = + + + = 0,857
𝑥! 0! 1! 2! 3!
𝑥=0
b) Refaça o problema anterior, mas dessa vez as 𝑛 extrações são sem reposição.
c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada urna.
Suponha que 𝑋 seja o número de bolas brancas obtidas no final.
d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um
habitante de cada uma delas e classificando-o em pró ou contra um certo projeto federal.
Suponha que 𝑋 seja o número de indivíduos contra o projeto no final da pesquisa.
e) Em uma indústria existem 100 máquinas que fabricam determinada peça. Cada peça é
classificada com boa ou defeituosa. Escolhendo ao acaso um instante de tempo e
verificamos uma peça de cada uma das máquinas. Suponha que 𝑋 seja o número de peças
defeituosas.
2. Uma máquina de solda automática está sendo considerada para uso em um processo de
produção. Será considerado para compra se for bem sucedido em 99% das suas soldas. Caso
contrário, não será considerado eficiente. Um teste deve ser realizado com um protótipo para
realizar 100 soldas. A máquina será aceita para fabricação se não falhar mais que 3 soldas.
a) Qual é a probabilidade de que uma eficiente máquina seja rejeitada?
b) Qual é a probabilidade de que uma máquina ineficiente com 95% de sucesso de
soldagem seja aceita?
3. Suponha que a probabilidade de que qualquer pessoa acredite em um conto sobre as
transgressões de uma atriz famosa seja 0,8. Qual é a probabilidade de que
a) a sexta pessoa a ouvir este conto é a quarta a acreditar nisso?
b) a terceira pessoa a ouvir este conto é a primeira a acreditar nisso?
4. Se 𝑋 ~ 𝑏(𝑛, 𝑝), sabendo-se que 𝐸[𝑋] = 12 e 𝜎 2 = 3, determine:
a) 𝑛
b) 𝑝
c) 𝑃(𝑋 < 12)
d) 𝑃(14 ≤ 𝑋)
e) 𝐸[𝑍] e 𝑉𝑎𝑟(𝑍), onde 𝑍 = (𝑋 − 12)/√13
14 12
f) 𝑃 (16 ≤ 𝑌) e 𝑃 (16 ≤ 𝑌), onde 𝑌 = 𝑋/𝑛
5. Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson,
com a média de oito chamadas por minuto. Determinar qual a probabilidade de que num
minuto se tenha:
a) Dez ou mais chamadas
adivinhar corretamente, ele ganha uma quantia (em reais) igual à soma dos dedos mostrados
por ele e seu oponente. Se ambos os jogadores acertarem corretamente ou se nenhum dos
dois adivinhar corretamente, nenhum dinheiro será ganho. Considere um jogador específico,
e denote por 𝑋 a quantia de dinheiro que ele ganha em um único jogo de “Dois Dedos”.
a) Se cada jogador agir independentemente do outro, e se cada jogador fizer a sua escolha
do número de dedos que ele irá mostrar e o número que ele terá de adivinhar que seu
oponente mostrará de tal forma que cada uma das 4 possibilidades é igualmente
provável, quais são os valores possíveis de 𝑋 e quais são suas probabilidades
associadas?
b) Suponha que cada jogador aja de maneira independente do outro. Se cada jogador
decidir segurar o mesmo número de dedos que ele suponha que seu oponente irá segurar,
e se cada jogador tem a mesma probabilidade de segurar 1 ou 2 dedos, quais são os
valores possíveis de 𝑋 e suas probabilidades associadas?
12. Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso
é de 0,2. Se dez itens produzidos por essa máquina são selecionados ao acaso, qual a
probabilidade de que não mais do que um defeituoso seja encontrado? Use a binomial e a
distribuição de Poisson e compare os resultados.
13. Encontre o valor esperado e a variância do número de vezes que um jogador deve lançar
um dado até que o resultado 1 tenha ocorrido 4 vezes.
14. Calcule as seguintes probabilidades binomiais diretamente pela fórmula 𝑏(𝑥; 𝑛, 𝑝) para:
a) 𝑏(3; 8; 0,6)
b) 𝑏(5; 7; 0,9)
c) 𝑃(3 ≤ 𝑋 ≤ 5) quando 𝑛 = 10 e 𝑝 = 0,2
d) 𝑃(1 ≤ 𝑋) quando 𝑛 = 12 e 𝑝 = 0,1
15. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o número de machos,
Os dados estão representados na tabela abaixo
No de Machos No de Ninhadas
0 20
1 360
2 700
3 680
4 200
5 40
Total 2.000
a) Calcule a proporção média de machos
Prof. Me. Erivelton Vitor
Modelos Probabilísticos 181
b) Calcule, para cada valor de 𝑋, o número de ninhadas que você deve esperar se
𝑋 ~ 𝑏(5, 𝑝), onde 𝑝 é a proporção média de machos calculada no item (a)
16. Se 𝑋 tem distribuição binomial com parâmetros 𝑛 = 5 e 𝑝 = 1/2, faça os gráficos da
distribuição de 𝑋 e da fma 𝐹(𝑥).
17. Durante um processo de fabricação, 15 unidades são selecionadas aleatoriamente a cada
dia da linha de produção para verificar o percentual de defeito. A partir da informação
histórica, sabe-se que a probabilidade de uma unidade defeituosa é de 0,05. A qualquer
momento, 2 ou mais defeituosos são encontrados na amostra de 15, o processo é
interrompido. Este procedimento é usado para fornecer um sinal caso a probabilidade de um
defeito tenha aumentado.
a) Qual é a probabilidade de que, em qualquer dia, o processo de produção seja
interrompido? (Assuma 5% de defeito.)
b) Suponha que a probabilidade de um defeito tenha aumentado para 0,07. Qual é a
probabilidade de que, em qualquer dia, o processo de produção não seja interrompido?
18. Considere, agora, 𝑛 = 5 e 𝑝 = 1/4. Obtenha o gráfico da distribuição de 𝑋. Qual a
diferença entre esse gráfico e o correspondente do problema 16? O que ocasionou a
diferença?
19. Suponha que os navios cheguem a um porto a razão de 2 navios por hora. Observando o
processo de distribuição durante o período de meia hora, determine a probabilidade de:
a) Não chegar nenhum navio. R. 36,8%
b) Chegarem 3 navios. R. 6,1%
20. Em uma série de campeonatos da NBA (Associação Nacional de Basquete), a equipe que
vence quatro partidas em sete é a vencedora. Suponha que as equipes A e B se enfrentem
nos jogos do campeonato e que a equipe A tenha probabilidade de 0,55 de ganhar um jogo
sobre a equipe B.
a) Qual é a probabilidade de o time A vencer a série em 6 jogos? R. 0,1853
b) Qual é a probabilidade de a equipe A vencer a série? R. 0,6083
c) Se as equipes A e B estavam frente a frente em uma série de playoffs regionais, que é
decidida vencendo três de cinco jogos, qual é a probabilidade de que o time A ganhe a
série? R. 0,5931
21. Suponha que os defeitos em fios para tear tenham média de 0,2 defeitos por metro.
Inspecionando-se pedaços de fio de 6 metros, determine a probabilidade de menos de 2
defeitos sejam encontrados. R. 66,22%
22. Suponha que a v.a. 𝑋 seja aproximada pela distribuição binomial com parâmetros 𝑛 e 𝑝,
ou seja, 𝑃(𝑋 = 𝑥) = 𝑏(𝑥; 𝑛, 𝑝)e
𝑛
𝑏(𝑥; 𝑛, 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑥
𝜆
sendo 𝑝 é a probabilidade de sucesso. Considerando 𝑝 = 𝑛, com 𝜆 > 0, elabore argumentos
e conclua, baseando-se nos seus cálculos, que a distribuição de Poisson é uma boa
aproximação da distribuição binomial quando 𝑛 for grande e 𝑝 pequeno.
23. Ocasionalmente, um dispositivo eletrônico não funciona e precisa ser substituído. Sabe-se
que o dispositivo é considerado satisfatório se, em média, não gerar mais do que 0,20 erro
por hora. Um período de 5 horas específico é escolhido para testar o dispositivo. Se não
ocorrer mais do que 1 erro durante o período de tempo, o dispositivo será considerado
satisfatório.
a) Qual é a probabilidade de que um dispositivo satisfatório seja considerado
insatisfatório com base no teste? Assuma um processo de Poisson.
b) Qual é a probabilidade de um dispositivo ser aceito como satisfatório quando, em ato,
o número médio de erros é de 0,25? Novamente, assuma um processo de Poisson.
24. A probabilidade de um paciente se recuperar de uma doença sanguínea rara é de 0,4. Se 15
pessoas são conhecidas por terem contraído esta doença, qual é a probabilidade de que
a) pelo menos 10 sobrevivam, R. 0,0338
b) de 3 a 8 sobrevivem, R 0,8779
c) exatamente 5 sobrevivem? R 0,1859
25. A probabilidade de cada núcleo do urânio 238 (U 238 ) se desintegrar emitindo um partícula
𝛼, em um segundo, é muito pequena, cerca de 4,9 × 10−18 . Experiências mostram que em
1 mg (U 238 ) existem aproximadamente 2,533 × 1018 núcleos. Definindo a variável
aleatória N como o número de núcleos que se desintegram e, admitindo–se que a
desintegração de um núcleo não afeta a probabilidade de desintegração de qualquer núcleo
(independência), determine a probabilidade de exatamente 2 núcleos se desintegrarem em
0,30 mg (U 238 ), em 1 (um) segundo. R. 0,169
Distribuição Uniforme
O modelo uniforme é o mais simples modelo para uma variável aleatória contínua. Segue
a definição: Uma variável aleatória é dita ser uniforme sobre o intervalo (0; 1) se sua função de
densidade de probabilidade é dada por
1, 𝑠𝑒 0 < 𝑥 < 1
𝑓(𝑥) = { (4.19)
0, 𝑐𝑐
Perceba que a equação (4.19) é, de fato, uma função de densidade, pois 𝑓(𝑥) ≥ 0 e
+∞
∫−∞ 𝑓(𝑥) 𝑑𝑥 = 1. Porque 𝑓(𝑥) > 0 somente quando 𝑥 ∈ (0 ; 1), segue que deve assumir um
valor somente no intervalo (0; 1). Além disso, 𝑓(𝑥) é constante para 𝑥 ∈ (0 ; 1), 𝑋 tem a
mesma probabilidade de estar perto de qualquer valor em (0; 1) do que estar perto de qualquer
outro valor. Para verificar esta declaração, note que, para qualquer 0 < 𝑎 < 𝑏 < 1 é fato que
𝑏
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥 = 𝑏 − 𝑎
𝑎
Definição 4.6 Uma variável aleatória 𝑿 é dita variável aleatória uniforme no intervalo (𝒂; 𝒃)
se a função de densidade de probabilidade de 𝑿 é dada por
1
𝑓(𝑥) = {𝑏 − 𝑎 , 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏 (4.20)
0, 𝑐𝑐
𝑥
Como 𝐹(𝑥) = ∫−∞ 𝑓(𝑡) 𝑑𝑡, segue da (4.20) que a função de densidade acumulada de uma
variável aleatória uniforme no intervalo (𝑎; 𝑏) é dada por
0, 𝑠𝑒 𝑥 ≤ 𝑎
𝑥−𝑎
𝐹(𝑥) = { , 𝑠𝑒 𝑎 < 𝑥 < 𝑏 (4.21)
𝑏−𝑎
1, 𝑠𝑒 𝑥 > +𝑏
Figura 4.1
∞ ∞
𝐸[𝑋] = ∫ 𝑥𝑓(𝑥) 𝑑𝑥 𝐸[𝑋 2]
= ∫ 𝑥 2 𝑓(𝑥) 𝑑𝑥
−∞ −∞
𝑏 𝑏
𝑥 e 𝑥2
= ∫ 𝑑𝑥 = ∫ 𝑑𝑥
𝑎 𝑏−𝑎 𝑎 𝑏−𝑎
𝑏+𝑎 𝑏 2 + 𝑎𝑏 + 𝑎2
= =
2 3
ou seja, sendo 𝑋 uma variável aleatória uniforme, sua média e variância são dadas por
𝑎+𝑏 (𝑏 − 𝑎)2
𝐸[𝑋] = e 𝑉𝑎𝑟(𝑋) = (4.22)
2 12
Exemplo 4.13 Considere a escolha, de forma aleatória, de um ponto no segmento de reta [𝟎, 𝟐].
Qual a probabilidade de que o ponto escolhido esteja entre 𝟏 e 𝟑/𝟐?
Solução: Fazendo 𝑋 representar a variável escolher um ponto de [0, 2] tem-se que a função
1 1
densidade de 𝑋 é dada por 𝑓(𝑥) = 𝑏−𝑎 ⟶ 𝑓(𝑥) = 2 para todo 0 ≤ 𝑥 ≤ 2. Assim,
3/2
3 1 1
𝑃 (0 ≤ 𝑋 ≤ ) = ∫ 𝑑𝑥 =
2 0 2 4
Distribuição Normal
Definição 4.7 A variável aleatória 𝑋 com função de densidade de probabilidade dada por
1 1 𝑥−𝜇 2
𝑒 −2 ( )
𝑓(𝑥) = 𝜎 −∞<𝑥 <∞ (4.23)
𝜎√2𝜋
é dita variável aleatória normal com parâmetros𝜇 e 𝜎, com −∞ < 𝜇 < ∞, 𝑒 𝜎 > 0. A
notação 𝑋~𝑁(𝜇 , 𝜎 2 ) é usada para denotar essa distribuição.
Figura 4.2
Figura 4.3
Para simplificar usaremos a expressão dada na Definição 4.7 para designar uma v.a. 𝑋
que é normalmente distribuída com parâmetros 𝜇 e 𝜎 2 , isto é, 𝑋~𝑁(𝜇, 𝜎 2 ). Uma implicação
importante do resultado precedente é que se 𝑋 é normalmente distribuído com os parâmetros 𝜇
e 𝜎 2 , então a variável aleatória
𝑋−𝜇
𝑍= (4.24)
𝜎
Figura 4.4
𝑋−𝜇
Se tivermos 𝑋~𝑁(𝜇 ; 𝜎 2 ), então a v.a. 𝑍 = com fdp dada (4.25) terá média 0 (zero)
𝜎
e variância 1. O que não se mostra tão facilmente é que 𝑍 dada também tem distribuição normal.
A transformação é fundamental para calcularmos probabilidades relativas a uma distribuição
normal qualquer. Em referências futuras diremos, simplesmente, que 𝑍~𝑁(0 ; 1).
𝑡
𝐹(𝑡) = ∫ 𝑓(𝑥) 𝑑𝑥 (4.26)
−∞
A integral em (4.26) corresponde à área, sob 𝑓(𝑥), desde −∞ até 𝑡. Veja na Figura 4.5
Figura 4.5
Suponha agora que 𝑋~𝑁(𝜇, 𝜎 2 ) e que queiramos calcular a probabilidade expressa por
𝑃(𝑎 < 𝑋 < 𝑏), como mostra a figura seguinte
Figura 4.6
A integral (4.26) não pode ser resolvida analiticamente, e, portanto a probabilidade indica
só poderá ser obtida, aproximadamente, por meio de integração numérica. No entanto, para
cada valor de 𝜇 e cada valor de 𝜎, teríamos de obter 𝑃(𝑎 < 𝑋 < 𝑏) para diversos valores de 𝑎
e 𝑏, segundo a função dada em (4.23). Essa tarefa é facilitada através do uso de Definição 4.8,
de sorte que somente é necessário construir uma tabela para a distribuição normal padrão. Isso
se dá por que todos os valores de 𝑋 entre 𝑥1 e 𝑥2 têm valores 𝑍 correspondentes entre 𝑧1 e 𝑧2
de sorte que a área sob a curva 𝑋 entre as ordenadas 𝑥 = 𝑥1 e 𝑥 = 𝑥2 seja igual a área sob a
curva 𝑍 entre as coordenadas transformadas 𝑧 = 𝑧1 e 𝑧 = 𝑧2 .
Figura 4.7
Agora, reduzimos o número necessário de tabelas de áreas de curva normal para uma, a
da distribuição normal padrão. A Tabela I (anexo) indica a área sob a curva normal padrão
𝑥−𝜇
correspondente a 𝑃(𝑍 < 𝑧𝑐 ) onde 𝑧𝑐 = é o valor calculado de 𝑍 correspondente aos
𝜎
Perceba que as probabilidades são obtidas pela integração da função 𝜑(𝑧). Essa tábua dá
a probabilidade sob uma curva normal padrão, que nada mais são do que as correspondentes
áreas sob a curva.
Alguns exemplos para mostrar como devemos olhar a tabela I (anexo) quando quisermos
obter alguma probabilidade. Claro que neste aspecto, as característica simétricas da distribuição
normal são fundamentais para uma análise correta da tabela. Olhando a tabela I, determine o
valor de:
c) 𝑃(−1,73 ≤ 𝑍 ≤ 0)
𝑃(−1,73 ≤ 𝑍 ≤ 0) = 𝑃(𝑍 ≤ 0) − 𝑃(𝑍 ≤ −1,73)
= 0,5 − (1 − 𝑃(𝑍 ≤ 1,73))
≅ 0,45818
(devido à simetria da curva)
Área de correspondente a
𝑃(−1,73 ≤ 𝑍 ≤ 0)
d) 𝑃(1,73 ≤ 𝑍)
𝑃(1,73 ≤ 𝑍) = 1 − 𝑃(𝑍 ≤ 1,73)
≅ 0,04182
Área de correspondente a
𝑃(1,73 ≤ 𝑍)
Área de correspondente a
𝑃(𝑍 < −1,73)
f) 𝑃(0,47 ≤ 𝑍 ≤ 1,73)
𝑃(0,47 ≤ 𝑍 ≤ 1,73) = 𝑃(𝑍 ≤ 1,73) − 𝑃(𝑍 ≤ 0,47)
= 0,95818 − 0,68082
≅ 0,27736
Área de correspondente a
𝑃(0,47 ≤ 𝑍 ≤ 1,73)
Agora, suponha que 𝑋 seja uma v.a tal que 𝑋 ~ 𝑁(𝜇, 𝜎 2 ), sendo 𝜇 = 3 e 𝜎 2 = 16, e,
𝑋−𝜇
queiramos calcular 𝑃(2 ≤ 𝑋 ≤ 5). Utilizando𝑍 = temos
𝜎
= 𝑃(−0,25 ≤ 𝑍 ≤ 0,5)
Exemplo 4.14 Os depósitos efetuados no Banco Certo durante o mês de janeiro são distribuídos
normalmente, com média de R$ 10.000,00 e desvio padrão de R$ 1.500,00. Um depósito é
selecionado ao acaso dentre todos os referentes ao mês em questão. Encontre a probabilidade
de que o depósito seja:
a) R$ 10.000,00 ou menos
b) Pelo menos R$ 10.000,00
c) Um valor entre R$ 12.000,00 e R$ 15.000,00
d) Maior que R$ 20.000,00
Solução: Pelo enunciado temos 𝜇 = 10.000 e 𝜎 = 1.500. Seja 𝑋: valor do depósito, então,
a)
10.000 − 10.000
𝑃(𝑋 ≤ 10.000) = 𝑃 (𝑍 ≤ )
1.500
= 𝑃(𝑍 ≤ 0)
= 0,5
Área correspondente a
𝑃(𝑍 ≤ 0)
b)
10.000 − 10.000
𝑃(10.000 ≤ 𝑋) = 𝑃( ≤ 𝑍)
1.500
= 𝑃(0 ≤ 𝑍)
= 1 − (𝑃(𝑍 ≤ 0))
= 0,5
Área correspondente a
𝑃(0 ≤ 𝑍)
c)
𝑋 = 𝜎𝑋 ⋅ 𝑍 + 𝜇𝑋 (4.27)
Exemplo 4.15 Dada uma distribuição normal com 𝝁 = 𝟒𝟎 e 𝝈 = 𝟔, encontre o valor de 𝒙 tal
que
a) 45% da área esteja a sua esquerda
b) 14% da área esteja a sua direita
Solução: Uma área de 45% à esquerda do valor 𝑥 desejado está sombreada na Figura 4.10
seguinte. Queremos um valor 𝑧 que deixa uma área de 0,45 para a esquerda. Da tabela I
encontramos 𝑧𝑐 = −0,13 tal que 𝑃(𝑍 < −0,13) = 0,45. Consequentemente usando (4.27)
obtemos, 𝑥𝑐 = 6 ⋅ (−0,13) + 40 = 39,22.
Agora, para uma área de 14% à direita da 𝑥 está ilustrado na Figura 4.11. Desta vez, precisamos
de um valor de 𝑧 que deixa 0.14 da área para a direita e, portanto, uma área de 0,86 à esquerda.
Mais uma vez, da tabela I, encontramos 𝑧𝑐 = 1,08 tal que 𝑃(𝑍 < 1,08) = 0,86. Então usando
novamente (4.27) obtemos 𝑥 = 6 ⋅ 1,08 + 40 = 46,48.
Figura 4.12
Não deve ser uma surpresa saber que a distribuição normal pode ser usada para aproximar
probabilidades binomiais para casos em que 𝑛 é grande. Como exemplo suponha que em um
canal de comunicação digital, o número de bits recebidos com erro possa ser modelado por uma
variável aleatória binomial e assuma que a probabilidade de que um bit seja recebido com erro
seja de 1 × 10−5. Se 16 milhões de bits são transmitidos, qual é a probabilidade de ocorrerem
150 erros ou menos? Fazendo 𝑋 ser a variável aleatória que denote o número de erros recebidos,
então 𝑋 é uma variável aleatória binomial e a probabilidade pedida é calculada como abaixo
150
16.000.000
𝑃(𝑋 ≤ 150) = ∑ ( ) ⋅ (10−5 )𝑥 ⋅ (1 − 10−5 )16.000.000−𝑥
𝑥
𝑥=0
0,20
0,1 5
f(x)
0,1 0
0,05
0,00
1 2 3 4 5 6 7 8 9
x
Figura 4.13
A área de cada barra é igual à probabilidade binomial de x. Observe que a área de barras
pode ser aproximada por áreas sob a função de densidade normal. A partir da figura acima
pode-se ver que uma probabilidade tal como 𝑃(3 ≤ 𝑋 ≤ 7) é melhor aproximada pela área sob
a curva normal de 2,5 a 7,5. Essa observação fornece um método para aproximar probabilidades
binomiais. Como uma distribuição normal contínua é usada para aproximar uma distribuição
binomial discreta, a modificação é referida como uma correção de continuidade.
Teorema 4.1 Se 𝑿 é uma variável aleatória binomial com parâmetros 𝒏 e 𝒑, então a forma
limite da distribuição de
𝑋 − 𝑛𝑝
𝑍= (4.28)
√𝑛𝑝(1 − 𝑝)
De forma mais geral, contanto que o histograma de probabilidade não apresente muita
inclinação, as probabilidades binomiais podem ser bem aproximadas pelas áreas da curva
normal. Habitualmente se diz que 𝑋 tem uma distribuição aproximadamente normal. Na prática,
a aproximação é adequada desde que 𝑛𝑝 < 10 ou 𝑛(1 − 𝑝) < 10. Para aproximar uma
probabilidade binomial com uma distribuição normal, uma correção de continuidade é aplicada
da seguinte maneira
Exemplo 4.16 Agora temos condições de resolver o problema exposto no início desta seção.
suponha que em um canal de comunicação digital, o número de bits recebidos com erro
possa ser modelado por uma variável aleatória binomial e assuma que a probabilidade de
que um bit seja recebido com erro seja de 𝟏 × 𝟏𝟎−𝟓. Se 16 milhões de bits são transmitidos
qual é a probabilidade de ocorrerem 150 erros ou menos?
Solução: Aqui temos 𝑛 = 16.000.000 e 𝑝 = 10−5 = 0,00001. Assim, a normal que se ajusta
à esta binomial terá média 𝜇 = 𝑛𝑝 = 160 e variância 𝜎 2 = 𝑛𝑝(1 − 𝑝) = 159,9984.
Considerando (4.29) e a tabela I obtemos 𝑃(𝑋 ≤ 150) = 𝑃(𝑍 ≤ −0,75) = 0,22663. Portanto
existe uma chance de aproximadamente 22,67% de se ter 150 bits com erros ou menos. Se o
leitor é corajoso o suficiente para desenvolver a expressão binomial resultante chegaria ao
seguinte valor
150
16.000.000
𝑃(𝑋 ≤ 150) = ∑ ( ) ⋅ (10−5 )𝑥 ⋅ (1 − 10−5 )16.000.000−𝑥 ≅ 0,228031
𝑥
𝑥=0
Distribuição Exponencial
de falhas. A chave para o relacionamento é o seguinte conceito. A distância até a primeira falha
excede 3 unidades se e somente se não houver falhas dentro de um comprimento de 3 unidades–
simples, mas suficiente para uma análise da distribuição de 𝑋. A distribuição de probabilidade
do intervalo 𝑡 entre dois sucessos consecutivos de uma distribuição de Poisson é a distribuição
exponencial definida abaixo.
Definição 4.9 A variável aleatória 𝑿 tem distribuição exponencial com parâmetro 𝝀 > 𝟎 se sua
função densidade de probabilidade fdp é dada por
𝜆𝑒 −𝑥𝜆 , 𝑠𝑒 𝑥 > 0
𝑓(𝑥) = { (4.30)
0 , 𝑐𝑐
1 1
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.31)
𝜆 𝜆2
−𝑡𝜆
𝐹(𝑥) = {1 − 𝑒 , 𝑠𝑒 𝑥 ≥ 0 (4.32)
0 , 𝑐𝑐
Aconselho o leitor a plotar o gráfico de 𝐹(𝑥) acima. Não é difícil ver que
É importante enfatizar que esta distribuição se caracteriza, dentre outros aspectos, por ter
uma função de taxa de falha constante que a propósito é a única distribuição com esta
propriedade. Em termos matemáticos sua simplicidade se destaca em relação às demais, talvez
seja este o motivo dela ser usada extensivamente como um modelo para o tempo de vida de
certos produtos e materiais, uma vez que descreve adequadamente o tempo de vida de óleos
isolantes e dielétricos, dentre outros.
Exemplo 4.17 O tempo de vida (em horas) de um transmissor pode variar considerando uma
v.a. com distribuição exponencial. Após alguns testes, constatou que a vida média do
transmissor é 𝟓𝟎𝟎 horas. Qual a probabilidade de que ele dure mais do que a média?
Solução: Primeiro, se o tempo médio é de 500 horas, então 1⁄𝜆 = 500. Dessa forma,
+∞
𝑃(𝑋 > 500) = ∫ 𝑓(𝑥) 𝑑𝑥
500
+∞
1 −𝑥
= ∫ 𝑒 500 𝑑𝑥
500 500
𝑎
1 𝑥
= ∙ lim [∫ 𝑒 −500 𝑑𝑥]
500 𝑎→+∞ 500
1 𝑥 𝑥=𝑎
= ∙ lim [(−500𝑒 −500 )| ]
500 𝑎→+∞ 𝑥=500
1 𝑎 500
= ∙ lim [(−500𝑒 −500 ) − (−500𝑒 −500 )]
500 𝑎→+∞
= 𝑒 −1
= 0,36788
Outra forma de resolvermos esses problemas seria considerar (4.33) quando 1⁄𝜆 = 500 e 𝑥 =
500. Assim,
𝑃(𝑋 > 500) = 𝑒 −𝑥𝜆 ⟶ 𝑃(𝑋 > 500) = 𝑒 −1 = 0,36788
𝑎
1 𝑥
= ∙ lim [∫ 𝑒 −400 𝑑𝑥]
400 𝑎→+∞ 1.000
1 𝑥 𝑥=𝑎
= ∙ lim [(−400𝑒 −400 )| ]
400 𝑎→+∞ 𝑥=1.000
1 𝑎 1.000
= ∙ lim [(−400𝑒 −400 ) − (−400𝑒 − 400 )]
400 𝑎→+∞
1.000
= 𝑒 − 400
= 0,08208
b)
1.000
𝑃(800 < 𝑋 < 1.000) = ∫ 𝑓(𝑥) 𝑑𝑥
800
1.000
1 −𝑥
= ∫ 𝑒 400 𝑑𝑥
800 400
1.000
1 𝑥
= ∙∫ 𝑒 −400 𝑑𝑥
400 800
1 𝑥 𝑥=1.000
= ∙ (−400𝑒 −400 )|
400 𝑥=800
1 1.000 800
= ∙ [(−400𝑒 − 400 ) − (−400𝑒 −400 )]
400
1.000 800
= −𝑒 − 400 + 𝑒 −400
= 0,05325
Distribuição Gama
Embora a distribuição normal possa ser usada para resolver muitos problemas de
engenharia e ciências de forma geral, ainda existe um grande número de situações que exigem
diferentes tipos de funções de densidade. Duas dessas funções de densidade, as distribuições
gama e exponencial, são discutidas sem muito aprofundamento agora. Poderá o leitor perceber
quer a distribuição exponencial é um caso especial da distribuição gama, e, ambos possuem um
grande número de aplicações. As distribuições exponencial e gama desempenham um papel
importante tanto na teoria das filas quanto nos problemas de confiabilidade. O tempo entre as
chegadas nas instalações de serviço e o tempo até a falha dos componentes e sistemas elétricos
geralmente são bem modelados pela distribuição exponencial. A relação entre o gama e o
exponencial permite que o gama seja usado em tipos semelhantes de problemas. Para mais
detalhes e ilustrações sugiro uma leitura detalhada em [10].
A distribuição gama deriva seu nome da função gama bem conhecida, estudada em muitas
áreas da matemática. Antes de prosseguirmos para a distribuição gama, vamos revisar esta
função e algumas de suas importantes propriedades.
∞
Γ(𝜔) = ∫ 𝑥 𝜔−1 𝑒 −𝑥 𝑑𝑥 , 𝑝𝑎𝑟𝑎 𝜔 > 0 (4.34)
0
Como a função gama é baseada numa integral que envolve exponencial, é fácil mostrar
que
Γ(𝑛) = (𝑛 − 1)(𝑛 − 2). . . (1)Γ(1)
para um inteiro positivo 𝑛. Para ver a prova disso, integra-se (4.34) por partes fazendo 𝑢 = 𝑥 𝜔−1
e 𝑑𝑣 = 𝑒 −𝑥 𝑑𝑥. Dessa forma obtemos
∞ ∞
Γ(𝜔) = −𝑒 −𝑥 𝑥 𝜔−1 |∞
𝑥=0 + ∫ (𝜔 − 1)𝑥 𝜔−2 −𝑥
𝑒 𝑑𝑥 = (𝜔 − 1) ∫ 𝑥 𝜔−2 𝑒 −𝑥 𝑑𝑥
0 0
Como é de fácil percepção, trabalhar com a função gama pode ser um tanto trabalhoso.
Devido a isto, nos restringiremos ao trabalho com tabelas. Nestas notas não é apresentado uma
tabela específica para a distribuição gama
Definição 4.11 A variável aleatória contínua 𝑋 tem distribuição gama, com parâmetros 𝛼 > 0
e 𝜆 > 0 se sua função de densidade é dada por
𝜆𝑒 −𝜆𝑥 (𝜆𝑥)𝛼−1
𝑓(𝑥) = { , 𝑠𝑒 𝑥 ≥ 0 (4.35)
Γ(𝛼)
0 , 𝑐𝑐
A figura seguinte ilustra os gráficos da fdp gama 𝑓(𝑥) para diversos pares (𝛼, 𝜆). Quando
𝛼 ≤ 1, 𝑓(𝑥) é estritamente decrescente à medida que 𝑥 aumenta a partir de 0. Quando 𝛼 > 1,
𝑓(𝑥) aumenta, a partir de 0, em 𝑥 = 0 até um máximo e depois decresce. O parâmetro 𝜆 em
(4.35) é denominado parâmetro de escala porque os valores diferentes de 1 esticam ou
comprimem a fdp na direção de 𝑥. No entanto, deve-se verificar as definições usadas nos
pacotes de software. Por exemplo, o Minitab define o parâmetro de escala como 1⁄𝜆. Esboços
da distribuição gama para vários valores de 𝛼 e 𝜆 são mostrados na figura abaixo. Muitas formas
diferentes podem ser geradas a partir de alterações nesses parâmetros.
Figura 4.14
Para esta distribuição, o valor esperado e a variância são obtidos a partir de integração
razoavelmente direta. Os resultados obtidos são
𝛼 𝛼
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.36)
𝜆 𝜆2
É claro que o leitor atento imagina como é o formato da função de distribuição acumulada
da função gama. Tal função se obtém integrando (4.35) na variável 𝑡, a partir de 0 até um valor
estrito 𝑥 > 0 obtendo 𝐹(𝑥).
Distribuição Qui-Quadrado
Definição 4.12 Diz-se que uma variável aleatória 𝑋 possui uma distribuição qui-quadrado com
parâmetro 𝑣 > 0 se sua fdp é dada por
1
𝑥 (𝑣−2)⁄2 𝑒 −𝑥⁄2 , 𝑠𝑒 𝑥 ≥ 0
𝑓(𝑥) = {2𝑣⁄2 Γ(𝑣⁄2) (4.37)
0 , 𝑐𝑐
Perceba que a distribuição qui-quadrado tem densidade gama com α = v⁄2 e λ = 1⁄2.
Recomendo o leitor voltar na expressão (4.35) substituir os parâmetros comentados para obter
a expressão (4.37). A distribuição qui-quadrado é importante por ser a base de diversos
procedimentos de inferência estatística. O motivo disso é que as distribuições qui-quadrado
estão intimamente relacionadas a distribuições normal. Usando as técnicas adequadas de
integração, pode-se mostrar que
Na Definição 4.12 apareceu a ideia de graus de liberdade. Para entendermos melhor essa
ideia pensemos no seguinte exemplo: consideremos que 5 pessoas possuem peso médio de
75kg. Assim, a soma dos 5 pesos deve ser 375kg (restrição). Portanto, neste caso, temos um
grau de liberdade de 5 − 1 = 4, pois os quatro pesos iniciais podem ser escolhidos
aleatoriamente, contudo o 5 peso deve ser igual a 375 − (𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 4 𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑜𝑠). A
distribuição Qui-Quadrado tem um papel vital na inferência estatística. Como a obtenção de
suas probabilidades envolve a resolução de integrais extremamente complexas, existem tabelas
para obter tais probabilidades. A tabela II fornece os valores 𝑥𝑐 tais que 𝑃(𝑋 > 𝑥𝑐 ) = 𝛼, isto é,
a tabela fornece a abscissa da distribuição para diversas áreas (probabilidades) da cauda à
direita. Assim,
Figura 4.15
Prof. Me. Erivelton Vitor
Modelos Probabilísticos 207
Figura 4.16
É conveniente usar essa distribuição 2𝑣 (qui-quadrado) ao invés do modelo da
distribuição normal apresentada na Definição 4.7 sempre que 𝑣 < 30. Isto é, quando o grau de
liberdade da variável aleatória 𝑋 for superior que 30, é melhor usar a distribuição normal.
Exemplo 4.20 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição qui-
quadrado com 𝒗 = 𝟐𝟓 graus de liberdade. Usando a tabela II, obtenha os valores 𝒙𝐬𝐮𝐩 e 𝒙𝐢𝐧𝐟
tais que 𝑷(𝒙𝐢𝐧𝐟 < 𝒕 < 𝒙𝐬𝐮𝐩 ) = 𝟎, 𝟗𝟓.
Solução: Perceba que aqui temos 𝛼 = 5%. Como a análise é bilateral, então 2,5% à direita de
𝑥sup e 2,5% à esquerda de 𝑥inf . Assim,
• o valor da abscissa 𝑥sup é obtido na tabela II encontrando-se na 1ª coluna com 25 e 1ª
linha com 2,5%. Assim, 𝑥sup = 40,646
• o valor da abscissa 𝑥inf é obtido na tabela II encontrando-se na 1ª coluna com 25 e 1ª
linha com 97,5%(100% − 2,5%). Assim, 𝑥inf = 13,120
Figura 4.17
Distribuição 𝒕 de Student
Definição 4.13 Uma variável aleatória contínua 𝑿 tem distribuição 𝒕 de Student com 𝒗 graus
de liberdade se sua fdp é dada por
Γ((𝑣 + 1)⁄2)
𝑓(𝑥) = (1 + 𝑥 2 ⁄𝑣)−(𝑣+1)⁄2 (4.39)
Γ(𝑣⁄2)√𝑣𝜋
Figura 4.18
𝑣
𝐸[𝑋] = 0 𝑒 𝑉𝑎𝑟(𝑋) = , 𝑠𝑒 𝑣 > 2 (4.40)
𝑣−2
4
𝜎(𝑡4 ) = √ ≅ 1,41
4−2
se 𝑣 = 100 obtemos 𝜎(𝑡100 ) = √100⁄98 ≅ 1,01, o que garante que para valores maiores que
100 < 𝑣, é melhor utilizar a distribuição normal padrão. A tabela III (anexo deste material) traz
as abscissas da distribuição𝑡 para diversas áreas (probabilidades) nas caudas. Trata-se de uma
tabela bilateral. Assim para uma amostra com 𝑛 elementos e com 𝑣 = 𝑛 − 1 graus de liberdade,
a probabilidade de um valor 𝑥 = 𝑡 estar no intervalo (– 𝑡𝑐 , 𝑡𝑐 ) será 1 − 𝛼, ou seja,
𝑃(– 𝑡𝑐 < 𝑡 < 𝑡𝑐 ) = 1 − 𝛼. Aqui o valor de 𝛼 é chamado de nível de significância e dado em
decimais.
Figura 4.19
Figura 4.20
Exemplo 4.21 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição 𝒕 de
Student com 𝒗 = 𝟗 graus de liberdade. Usando a tabela III, obtenha os valores 𝒕𝒄 tais que
𝑷(−𝒕𝒄 < 𝒕 < 𝒕𝒄 ) = 𝟎, 𝟗𝟓
Solução: Analisando a tabela III para 𝑣 = 9 e 𝛼 = 5%, ou seja, 𝛼 = 0,05 encontramos 𝑡𝑐 =
2,262. Logo, 𝑃(−2,262 < 𝑡 < 2,262) = 0,95.
Uma representação gráfica é
Figura 4.21
Região com 95% de chances de −2,262 < 𝑡 < 2,262 com 𝑣 = 9 graus de liberdade
Distribuição F de Snedecor
dado no Teorema 5.7 o qual discutiremos melhor no Capítulo 5. Portanto, a distribuição F tem
grande aplicação na comparação de duas variâncias. A Distribuição F de Snedecor é definida
como abaixo.
Definição 4.12 Uma variável aleatória contínua 𝑋 tem distribuição 𝐹 de Snedecor com 𝑣1
graus de liberdade no numerador e 𝑣2 graus de liberdade no denominador se sua fdp é dada
por
Figura 4.22
Quando a variável aleatória 𝑋 tiver distribuição F de Snedecor com 𝑣1 e 𝑣2 graus de
liberdade. Usaremos a notação 𝑋 ∼ 𝐹(𝑣1 , 𝑣2 ). Pode-se mostrar que
𝑣2 2𝑣22 (𝑣1 + 𝑣2 − 2)
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.42)
𝑣2 − 2 𝑣1 (𝑣2 − 2)2 (𝑣2 − 4)
Figura 4.23
Escrevendo 𝐹𝛼 (𝑣1 , 𝑣2 ) pode-se provar que a relação (4.43) é válida para todo 𝛼 ≠ 0.
1
𝐹1−𝛼 (𝑣1 , 𝑣2 ) = (4.43)
𝐹𝛼 (𝑣2 , 𝑣1 )
1 1
ou seja, sendo 𝐹5% (10,6) = 4,06, então 𝐹95% (10,6) = 𝐹 = 3,22 = 0,311
5% (6,10)
Obtido usando a
Tabela IV
Figura 4.24
Exemplo 4.22 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição 𝑭 de
Snedecor com 𝒗𝟏 = 𝟗 graus de liberdade no numerador e 𝒗𝟐 = 𝟓 graus de liberdade no
denominador. Obtenha os valores de 𝒇𝐬𝐮𝐩 e 𝒇𝐢𝐧𝐟 tais que 𝑷(𝒇𝐢𝐧𝐟 < 𝑭(𝒗𝟏 , 𝒗𝟐 ) < 𝒇𝐬𝐮𝐩 ) = 𝟎, 𝟗𝟎.
Para isso, consulte a tabela IV quando 𝜶 = 𝟓%.
Solução: Uma análise direta vê-se que 𝑓sup = 𝐹5% (9,5) e que 𝑓inf = 𝐹95% (9,5). Usando a
tabela IV quando 𝛼 = 0,05, obtemos 𝑓sup = 𝐹5% (9,5) = 4,77. Considerando a igualdade (4.43)
1 1 1
a saber 𝐹1−𝛼 (𝑣1 , 𝑣2 ) = 𝐹 teremos 𝐹95% (9,5) = 𝐹 = 3,48 = 0,29. Portanto, quando
𝛼 2 ,𝑣1 )
(𝑣 5% (5,9)
0,29 < 𝐹(9,5) < 4,77 teremos 𝑃(0,29 < 𝐹(9,5) < 4,77) = 0,90. Graficamente,
Figura 4.25
0,297
2
i) Determine 𝜒𝑠𝑢𝑝 tal que 𝑃(37,652 < 𝜒 2 < 𝜒𝑠𝑢𝑝
2
) = 0,045 quando 𝑣 = 25R. 𝛼 =
2
0,005,assim 𝜒𝑠𝑢𝑝 = 46,928
2 2
j) Determine 𝜒𝑖𝑛𝑓 tal que 𝑃(𝜒 2 > 𝜒𝑖𝑛𝑓 2
) = 0,025 quando 𝑣 = 19. R. 𝛼 = 0,025,assim 𝜒𝑖𝑛𝑓 =
32,852
2 2 2
2. Determine os valores do 𝜒𝑠𝑢𝑝 e 𝜒𝑖𝑛𝑓 2
nas figuras abaixo.R. 𝜒𝑠𝑢𝑝 = 13,4 e 𝜒𝑖𝑛𝑓 = 3,49
4. Use a função gama com 𝑦 = √2𝑥 para mostrar que Γ(1⁄2) = √𝜋.
5. Considerando que o gráfico abaixo a baixo indique uma distribuição 𝑡 de Student com 20
graus de liberdade.
Determine o valor de 𝑡𝑖𝑛𝑓 e 𝑡𝑠𝑢𝑝 indicados na figura. R. 𝑡𝑖𝑛𝑓 = −1,064 e 𝑡𝑠𝑢𝑝 = 2,086
6. Seja 𝑍 uma variável aleatória norma e calcule as probabilidade a seguir, fazendo as
ilustrações quando apropriado.
a) 𝑃(0 ≤ 𝑍 ≤ 2,17)
b) 𝑃(0 ≤ 𝑍 ≤ 1)
c) 𝑃(−2,5 < 𝑍 < 2,5)
d) 𝑃(−2,5 ≤ 𝑍 < 0)
e) 𝑃(𝑍 ≤ 1,37)
f) 𝑃(−1,75 ≤ 𝑍)
g) 𝑃(−1,5 ≤ 𝑍 ≤ 2)
h) 𝑃(1,37 < 𝑍 < 2,57)
i) 𝑃(0,25 ≤ |𝑍|)
j) 𝑃(|𝑍| ≤ 1,98)
7. O gráfico abaixo é de uma distribuição 𝐹 de Snedecor com 𝑣1 = 8 e 𝑣2 = 10.
Determine a média, variância, desvio padrão bem como as abscissas 𝑓𝑖𝑛𝑓 e 𝑓𝑠𝑢𝑝 R. 𝑓𝑖𝑛𝑓 =
0,2985, 𝑓𝑠𝑢𝑝 = 3,07, média=1,25, variância=1,042 e dp=1,021
11. Comente o seguinte problema: Considere uma corda aleatória de um círculo. Qual é a
probabilidade de que o comprimento da corda seja maior que o lado do triângulo equilátero
inscrito nesse círculo?
12. As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal,
com média 170 cm e desvio padrão 5 cm.
a) Qual o número esperado de alunos com altura superior a 165 cm?
b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
13. As vendas de determinado produto têm distribuição aproximadamente normal, com
média 500 unidades e desvio padrão 50 unidades. Se a empresa decide fabricar 600 unidades
no mês em estudo, qual a probabilidade de que não possa atender a todos os pedidos desse
mês, por estar com a produção esgotada?
14. Seja 𝑋 uma variável aleatória normalmente distribuída com média 𝜇𝑋 e variância 𝜎𝑋2
conhecidos. Elabore argumentos e cálculos para mostrar que, nestas circunstâncias, a
variável 𝑌 = 𝑎𝑋 + 𝑏 também é normalmente distribuída com média 𝜇𝑌 = 𝑎𝜇𝑋 + 𝑏 e
variância 𝜎𝑌 = 𝑎2 𝜎𝑋2
15. O diâmetro 𝑋 de rolamentos esféricos produzidos por uma fábrica tem distribuição
𝑁(6,14 × 10−1 ; 6,25 × 10−6 ). O lucro 𝑇 de cada rolamento depende de seu diâmetro.
Assim,
𝑇 = 0,10, se o rolamento for bom (0,610 < 𝑋 < 0,618)
𝑇 = 0,05, se o rolamento for recuperável (0,608 < 𝑋 < 0,610) ou (0,618 < 𝑋 < 0,620
𝑇 = −0,10, se o rolamento for defeituoso (𝑋 < 0,608 𝑜𝑢 0,620 < 𝑋)
Calcule
a) As probabilidades de que os rolamentos sejam bons, recuperáveis e defeituosos. 𝑇0,10 : 𝑝 =
0,8904; 𝑇0,05 : 𝑝 = 0,0932 𝑒 𝑇−0,10 : 𝑝 = 0,0164
b) 𝐸[𝑇]. R.0,09206
16. Suponha que um mecanismo eletrônico tenha um tempo de vida 𝑋 (em 1.000 horas) que
possa ser considerado uma v.a. contínua com f.d.p𝑓(𝑥) = 𝑒 −𝑥 , se 0 < 𝑥. Suponha que o
custo de fabricação de um item seja R$ 2,00 e o preço de venda seja R$ 5,00. O fabricante
garante total devolução se 𝑋 ≤ 0,9. Qual o lucro esperado por item?
17. De um lote de produtos manufaturados, extraímos 100 itens ao acaso; se 10% dos itens
do lote são defeituosos, calcule a probabilidade de 12 itens serem defeituosos. Use também
a aproximação normal.
dos consumidores estourem essa garantia. Qual deve ser a quilometragem mínima de
garantia para que isso ocorra? R. 30.100km
23. Se as interrupções no suprimento de energia elétrica ocorrem segundo uma distribuição
de Poisson com média de uma interrupção por mês (quatro semanas), qual a probabilidade
de que entre duas interrupções consecutivas haja um intervalo de:
a) Menos de uma semana R.0,2212
b) Entre dez e doze semanas. R. 0,0323
c) Mais de três semanas. R. 0,4724
24. O dispositivo de abertura automática de um pára-quedas de carga militar foi projetado
para abrir quando estiver a 200 m do solo. Suponha que a altitude de abertura tenha uma
distribuição normal com média 200 m e desvio padrão 30 m. Haverá dano no equipamento
se o pára-quedas abrir a uma altitude inferior a 100 m. Qual é a probabilidade de haver dano
ao equipamento em pelo menos um de cinco pára-quedas lançados independentemente?
25. Suponha que o diâmetro de certo tipo de árvores na altura do tronco tenha distribuição
normal com 𝜇 = 8,8 e 𝜎 = 2,8, conforme sugerido pelo artigo “Simulating a Harvester-
Forwarder Softwood Thinning” (Forest Products J., May 1997, p. 36-41).
a) Qual é a probabilidade de uma árvore selecionada aleatoriamente ter um diâmetro de no
mínimo 10 polegadas? Exceder 10 polegadas?
b) Qual é a probabilidade de o diâmetro de uma árvore selecionada aleatoriamente exceder
20 polegadas?
c) Qual é a probabilidade de o diâmetro de uma árvore selecionada aleatoriamente estar
entre 5 e 10 polegadas?
d) Que valor c faz com que o intervalo (-8,8c; 8,8c) inclua 98% de todos os valores de
diâmetro? R. 𝑐 = 1,7414
e) Se quatro árvores forem selecionadas de forma independente, qual é a probabilidade de
ao menos uma ter diâmetro maior que 10 polegadas?
26. Considere os bebês nascidos no intervalo “normal” de 37-43 semanas de gestação. Muitos
dados apoiam a suposição de que, para os bebês nascidos nos Estados Unidos, o peso de
nascimento possui distribuição normal com média 3432 g e desvio padrão 482 g. [O artigo
“Are Babies Normal” (The American Statistician, 1999, p. 298-302) analisou dados de um
ano específico. Para uma escolha significativa de intervalos de classe, um histograma não
tinha aparência normal, mas, após mais investigações, determinou-se que isso acontecia
devido a alguns hospitais medirem o peso em gramas e outros em onças (com aproximação
para a próxima onça) e depois converterem para gramas. Uma escolha de intervalos de classe
modificada resultou um histograma bem-descrito por uma distribuição normal.
a) Qual é a probabilidade de o peso de nascimento de um bebê selecionado aleatoriamente
exceder 4000 gramas? Estar entre 3000 e 4000 gramas?
b) Qual é a probabilidade de o peso de um bebê selecionado aleatoriamente ser inferior a
2000 gramas ou superior a 5000 gramas?
c) Qual é a probabilidade de o peso de nascimento de um bebê selecionado aleatoriamente
exceder 7 libras?
d) Como você caracterizaria o 0,1% mais extremo de todos os pesos de nascimento?
e) Se X for uma variável aleatória com distribuição normal e a for uma constante numérica
(𝑎 ≠ 0), então 𝑌 = 𝑎𝑋também terá uma distribuição normal. Use isso para determinar
a distribuição do peso de nascimento expresso em libras (formato, média e desvio
padrão) e então calcule novamente a probabilidade da parte (c). Como isso se compara
à resposta anterior?
27. Em resposta às preocupações sobre o conteúdo nutricional dos fastfoods, o McDonald’s
anunciou que usará um novo óleo na fritura de suas batatas. O produto diminuirá
substancialmente os níveis de ácido de gordura trans e aumentará a quantidade de gordura
poli-insaturada mais benéfica. A empresa alega que 97 dentre 100 pessoas não conseguem
detectar diferença no gosto entre o óleo antigo e o novo. Assumindo que esse valor esteja
correto (como proporção de longo prazo), qual é a probabilidade aproximada de, em uma
amostra de 1000 indivíduos que compraram fritas no McDonald’s,
a) ao menos 40 sentirem a diferença de gosto entre os dois óleos?
b) no máximo 5% sentirem a diferença de gosto entre os dois óleos?
Até aqui não nos preocupamos essencialmente com a população nem com a amostra, e
sim, trabalhamos apenas com os recursos matemáticos que dispomos para avaliar o
comportamento de certas variáveis conhecido um conjunto de dados de tal variável. Agora
apresentaremos os argumentos estatísticos necessários para fazer afirmações sobre as
características de uma população, com base em informações dadas por amostras. Neste sentido
apresentamos a
Definição 5.1 Uma amostra aleatória simples - 𝑨𝑨𝑺 - de 𝒏 elementos de uma população é
representada pelas variáveis aleatórias 𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 no qual cada 𝑿𝒊 , com 𝒊 = 𝟏, 𝟐, ⋯ 𝒏
representa um elemento da amostra.
amostras possíveis tem igual probabilidade, 1⁄(𝑁𝑛) de ser selecionada.Obtida uma amostra,
muitas vezes desejamos usá-la para produzir alguma característica específica. Por exemplo, se
quisermos calcular a média da amostra (𝑋1, 𝑋2 , ⋯ , 𝑋𝑛 ) usamos a expressão
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ = (5.1)
𝑛
Podemos estar interessados em qualquer outra característica da amostra, que sempre será
uma função do vetor aleatório (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ), ou então, ter o interesse em explorar relações
entre as variáveis envolvendo experimentos mais complexos. Claramente, neste caso, não existe
Definição 5.2 Uma estatística é uma característica da amostra, ou seja, uma estatística 𝑻 é
uma função de 𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 .
1
Média da Amostra: 𝑋̅ = ∑ 𝑋𝑖
𝑛
1
Variância da Amostra: 𝑆 2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
Menor valor da Amostra: 𝑋1 = min{𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 }
Maior valor da Amostra: 𝑋𝑛 = max{𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 }
Amplitude Amostral: 𝑅 = 𝑋𝑛 − 𝑋1
A 𝑖 − é𝑠𝑖𝑚𝑎 observação: = 𝑋𝑖
Distância Quartílica: 𝐷𝑞 = 𝑞(0,75) − 𝑞(0,25)
Definição 5.3 Um parâmetro é uma medida usada para descrever uma característica da
população.
Só pra fixar bem lembremos que parâmetros são funções de valores populacionais,
enquanto estatística são funções de valores amostrais.
Note que, segundo essa definição, um estimador é o que chamamos antes Estatística,
porém associando-o a um parâmetro populacional. Aqui, objetivamos determinar uma função
𝑇 = 𝑔(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) que seja “próxima” do parâmetro 𝜃 segundo algum critério.
𝐸[𝑇] = 𝜃 (5.2)
para todo 𝜃.
Definição 5.6 Estimativa é o valor assumido pelo estimador em uma particular amostra.
Uma população finita com 𝑁 elementos possui variância populacional dada por
𝑁
1
𝜎 2 = ∑(𝑋𝑖 − 𝜇)2 (5.3)
𝑁
𝑖=1
1
onde 𝜇 = 𝑁 ∑𝑁
𝑖=1 𝑋𝑖 é a média populacional. Considerando a Definição 5.5 é possível mostrar
que um estimador não viesado para (5.3) baseado numa 𝐴𝐴𝑆 de tamanho (𝑛) é
𝑛
1
2
𝑆 = ∑(𝑋𝑖 − 𝑋̅)2 (5.4)
𝑛−1
𝑖=1
𝜎
𝐸𝑅(𝑋̅) = (5.6)
√𝑛
𝑆
𝐸𝑅(𝑋̅) = (5.7)
√𝑛
retiramos todas as amostras de uma população conhecida segundo o plano amostral. Isto é, qual
a distribuição de 𝑇 quando (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) assume todos os valores possíveis. Essa distribuição
é chamada é chamada distribuição amostral da estatística 𝑇 e desempenha papel fundamental
na teoria da inferência estatística. Em síntese temos:
(a) uma população 𝑋, com determinado parâmetro de interesse 𝜃;
(b) todas as amostras retiradas da população, de acordo com certo procedimento;
(c) para cada amostra, calculamos o valor de 𝑡 da estatística 𝑇; e
(d) os valores de 𝑡 formam uma nova população, cuja distribuição recebe o nome de
Distribuição Amostral da Estatística𝑻.
todas as possíveis AAS de tamanho (𝑛) dessa população, e para cada uma calcular a média 𝑋̅.
Em seguida consideraremos a distribuição amostral das médias e estudaremos suas
propriedades. Nosso primeiro resultado está no
Teorema 5.1 Seja 𝑋 uma variável aleatória com média 𝜇 e variância 𝜎2 , e seja (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 )
̅ terá
uma AAS de 𝑋, então a distribuição 𝑋
𝜎2
𝐸[𝑋̅] = 𝜇 e 𝑉𝑎𝑟(𝑋̅) = (5.8)
𝑛
Note que à medida que (𝑛) cresce a variância tende a 0(zero), e, consequentemente, o
polígono de frequência (histograma alisado) aproxima-se de uma distribuição normal. Esse
exemplo sugere que quando se aumenta o tamanho da amostra, independentemente da forma
da distribuição da população, a distribuição amostral de 𝑋̅ aproxima-se cada vez mais de uma
distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido
como Teorema Central do Limite, abaixo enunciado.
Teorema 5.2 (Teorema Central do Limite - TCL) Para amostras simples (𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 ),
retiradas de uma mesma população com média 𝝁 e variância 𝝈𝟐 finita, a distribuição amostral
̅ aproxima-se, para (𝒏) grande, de uma distribuição normal, com média 𝑬[𝑿
da média 𝑿 ̅] = 𝝁
̅ ) = 𝝈𝟐 ⁄𝒏.
e variância 𝑽𝒂𝒓(𝑿
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 − 𝑛𝜇
𝑍= (5.9)
𝜎 √𝑛
tende para uma distribuição normal padrão quando 𝑛 → ∞. Isso é, para −∞ < 𝑎 < ∞,
𝑎
1 2 ⁄2
𝑃(𝑍 ≤ 𝑎) → ∫ 𝑒 −𝑥 𝑑𝑥 𝑞𝑢𝑎𝑛𝑑𝑜 𝑛 → ∞
√2𝜋 −∞
O Teorema 5.3 é uma tradução nossa da referência [4]. Ele diz que sendo 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛
uma sequência de variáveis aleatórias independentes e igualmente distribuídas retiradas de uma
mesma população que tem média 𝜇 e variância 𝜎 2 conhecidas, e, escrevendo 𝑋̅ como em (5.1),
ou seja, 𝑋̅ = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )⁄𝑛 então
𝑋̅ − 𝜇
𝑍= ~𝑁(0, 1) (5.10)
𝜎 ⁄ √𝑛
Corolário 1 A distribuição de “e” aproxima-se de uma distribuição normal com média 0(zero)
e variância 𝜎2 ⁄𝑛, isto é,
√𝑛 ⋅ 𝑒 (5.11)
~𝑁(0, 1)
𝜎
O TCL afirma que 𝑋̅ aproxima-se de uma distribuição normal padrão quando (𝑛) tende
ao infinito, e a rapidez dessa convergência depende da distribuição da população da qual a
amostra é retirada. Isto é, se a população original tem uma distribuição próxima à da normal, a
convergência é rápida, caso contrário, a convergência é tão mais lenta quanto for o afastamento
da distribuição da população original à normal. Abaixo alguns resultados extremamente úteis
na inferência estatística.
Teorema 5.4 Se 𝑆 2 é a variância de uma amostra aleatória de tamanho (𝑛), retirada de uma
população normal, com variância 𝜎 2 conhecida, então a variável aleatória
(𝑛 − 1)𝑆 2
2
𝜒 = (5.12)
𝜎2
𝑛
2
(𝑋𝑖 − 𝑋̅)2
𝜒 =∑ (5.13)
𝜎2
𝑖=1
𝑋𝑖 −𝜇
Considerando que 𝜇 seja estimado pela estatística 𝑋̅, se deixarmos 𝑍𝑖 = na equação
𝜎
(5.13) teremos, então, o modelo de distribuição 𝑞𝑢𝑖 − 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜 pensado como a soma dos
quadrados de uma coleção de variáveis aleatórias independentes𝑍𝑖 , normalmente distribuídas,
com média zero e variância 1, ou seja,
𝑋̅ − 𝜇
𝑇= (5.15)
𝑆⁄√𝑛
𝑛 𝑛
1 1
𝑋̅ = ∑ 𝑋𝑖 𝑒 𝑆2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛 𝑛−1
𝑖=1 𝑖=1
Suponha agora que amostras aleatórias de tamanho (𝑛) e (𝑚) sejam selecionadas de duas
populações normais, com variâncias 𝜎𝑛2 e 𝜎𝑚
2
respectivamente. Pelo Teorema 5.4 as variáveis
(𝑛 − 1)𝑆𝑛2 2
(𝑚 − 1)𝑆𝑚
𝜒𝑛2 = 𝑒 2
𝜒𝑚 = (5.16)
𝜎𝑛2 2
𝜎𝑚
𝑆𝑛2 ⁄𝜎𝑛2
𝐹= 2 ⁄𝜎 2
(5.17)
𝑆𝑚 𝑚
Isso significa que uma distribuição 𝐹 com 𝑣1 graus de liberdade no numerador e 𝑣2 graus
de liberdade no denominador é expressa por como o quociente de duas variáveis com
distribuiçãoqui-quadrado. Dessa forma, temos o teorema abaixo:
Teorema 5.7 Se 𝑼 e 𝑽 duas variâncias aleatórias independentes, cada uma com distribuição
qui-quadrado, com 𝒗𝟏 e 𝒗𝟐 graus de liberdade, respectivamente. Então, a variável aleatória
𝑈⁄𝑣1
𝑊= (5.18)
𝑉 ⁄𝑣2
5.3. Amostragem
Geralmente, as pesquisas são realizadas através de estudos dos elementos que compõem
uma amostra extraída da população que se pretende analisar. Nem sempre uma amostra retrata
com exatidão o comportamento dos indivíduos da população, e, torna-se claro que a
representatividade da amostra dependerá de seu tamanho (quanto maior melhor).Na teoria da
amostragem, são consideradas duas dimensões:
(1). Dimensionamento da amostra
(2). Composição da amostra
Esses tópicos foram discutidos no Capítulo 1, Seção 1.5, dessa forma, apenas
comentaremos de forma mais detalhada o dimensionamento da amostra, ou seja, da
determinação do tamanho da Amostra. Anteriormente fizemos uma análise sem muitas
explicações sobre as fórmulas usadas, vimos que em certas ocasiões faz-se necessário
determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro
de estimação previamente estipulado, com determinado grau de confiança. Agora daremos um
tratamento mais elegante às ideias outrora discutidas. Para isso suponha que estejamos
estimando a média 𝜇 populacional e para tanto usaremos a média amostral, 𝑋̅, baseada numa
amostra de tamanho (𝑛). Temos que determinar o valor de (𝑛) de modo que a probabilidade da
média amostral diferir da média populacional seja no máximo 𝜀 > 0 dado um nível de confiança
𝛾, 0 < 𝛾 < 1. Em símbolos
𝑃(|𝑋̅ − 𝜇| ≤ 𝜀) = 𝛾 (5.19)
aqui 𝜀 é o chamado erro amostral e é a máxima diferença que podemos suportar. Considerando
a hipótese de que a média amostral 𝑋̅ seja normalmente distribuída, então, conforme Teorema
5.1 temos 𝑋̅ ~ 𝑁(𝜇; 𝜎 2 ⁄𝑛) e, consequentemente o erro amostral também será normalmente
distribuído, isto é, (𝑋̅ − 𝜇) ~ 𝑁(0; 𝜎 2 ⁄𝑛). Portanto
𝜀 𝜀
𝑃(−𝜀 ≤ 𝑋̅ − 𝜇 ≤ 𝜀) = 𝑃 (− ≤𝑍≤ )≅𝛾
𝜎 ⁄ √𝑛 𝜎⁄√𝑛
com 𝑍 = (𝑋̅ − 𝜇)⁄(𝜎⁄√𝑛). Dessa forma, dado o nível de confiança𝛾, podemos obter 𝑍𝛾 ,
chamada de ponto crítico bicaudal associada a 𝛾, usando a distribuição normal padrão –
𝜀
𝑁(0, 1) – de sorte que 𝑃(−𝑍𝛾 < 𝑍 < 𝑍𝛾 ) = 𝛾 com 𝜎⁄ = 𝑍𝛾 . Tal equação nos fornece uma
√𝑛
expressão para o cálculo do tamanho da amostra a ser escolhida, tendo por base a distribuição
normal padrão, a saber,
𝑍𝛾 2
2
𝑛 =𝜎 ⋅( ) (5.20)
𝜀
𝑍𝛾 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) (5.21)
𝜀
𝑍𝛾 2
𝑛 = 0,25 ⋅ ( ) (5.22)
𝜀
2
𝑁 ⋅ 𝜎 2 ⋅ (𝑍𝛾 )
𝑛= 2 (5.23)
𝜀 2 ⋅ (𝑁 − 1) + 𝜎 2 ⋅ (𝑍𝛾 )
2
𝑁 ⋅ 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
𝑛= 2 (5.24)
𝜀 2 ⋅ (𝑁 − 1) + 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
estas fórmulas são básicas para qualquer tipo de composição de amostra; todavia, existem
fórmulas específicas segundo o critério de composição da amostra. Se o investigador escolhe
mais de uma variável, deve optar pelo maior (𝑛) obtido.
Exemplo 5.1 Suponha que a variável escolhida num estudo seja a proporção de eleitores ao
candidato ELE e que o investigador tenha elementos para suspeitar que essa porcentagem seja
de 30%. Admita um nível de confiança de 99% e um erro amostral de 2%. Nestas condições,
qual o tamanho da amostra a ser estudada?
Solução: Pela leitura do problema tiramos𝜀 = 0,02, 𝑝 = 0,30, 1 − 𝑝 = 0,70, 𝛾 = 0,99 e𝑍𝛾 =
2,57 (para obter o valor de o valor de 𝑍99% usaremos a tabela I considerando 𝛼 = 0,01 então
𝛼⁄2 = 0,005). Como não foi informado o tamanho da população, usaremos(5.21). Assim,
𝑍𝛾 2 2,57 2
𝑛 = 𝑝(1 − 𝑝) ( ) ⟶⇢ 𝑛 = 0,30 ∙ 0,70 ∙ ( ) ⟶⇢ 𝑛 ≅ 3.468
𝜀 0,02
■
Exemplo 5.2 Suponha que numa pesquisa de mercado estima-se que no mínimo 60% das
pessoas entrevistadas preferirão a marca A de um produto. Essa informação é baseada em
̂ seja
pesquisas anteriores. Determine o tamanho de uma amostra para que o erro amostral de 𝒑
menor do que 3% com probabilidade de 95%.
Portanto, a proporção da amostras de tamanho 50 que terão erro amostral absoluto maior do
que 20 centímetros é 31,73%.
■
Exemplo 5.4 Um levantamento feito pela secretaria municipal de saúde de Uruaçu –GO
contatou que o total de crianças de 0 a 6 anos regularmente inscritas nas creches municipais é
de 3148. Este levantamento foi usado num estudo para comparar doses de um tratamento da
anemia ferropriva. Na metodologia deste estudo tem-se que a prevalência esperada de anêmicos
em geral é de 20%, e que a prevalência esperada para anemia ferropriva é de 5,7%. Utilizando-
se uma margem de erro de 5% e um nível de confiança de 95%, qual o tamanho de amostra
para estimar a prevalência de anemia ferropriva?
Solução: Devemos considerar o fato de a população ter um total de 𝑁 = 3148 elementos. Pela
leitura do enunciado temos para 𝑝 = 0,057, 𝜀 = 0,05 e 𝑍𝛾 = 1,96. Usaremos a equação (5.24)
para determinar o tamanho da amostra. Assim,
2
𝑁 ⋅ 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
𝑛= 2
𝜀 2 ⋅ (𝑁 − 1) + 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
3148 ⋅ 0,057 ⋅ (1 − 0,057) ⋅ (1,96)2
𝑛=
0,052 ⋅ (3148 − 1) + 0,057 ⋅ (1 − 0,57) ⋅ (1,96)2
𝑛 = 81
arredondado para cima. Devemos, portanto, avaliar uma amostra de 81 crianças para determinar
a proporção da população com anemia ferropriva na cidade de Uruaçu-GO com margem de erro
de 5% e nível de confiança de 95%.
■
1. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar
uma vacina, de modo que a proporção de indivíduos imunizados na amostra defira de menos
de 2% da proporção verdadeira de imunizados da população, com probabilidade de 90%.
Qual o tamanho da amostra a escolher? R. 𝑛 ≅ 1.692
2. No problema anterior, suponha que a indústria tenha a informação de que a proporção de
imunizados pela vacina seja 0,80 ≤ 𝑝. Qual o novo tamanho de amostra a escolher? Houve
redução? R. 𝑛 ≅ 1.080
3. Definimos a variável 𝑒 = 𝑋̅ − 𝜇 como sendo o erro amostral médio. Suponha que a variância
dos salários de uma certa região seja de 400 reais2.
a) Determine a média e a variância de 𝑒. R. 𝜇𝑒 = 0 e 𝜎𝑒2 = 400⁄𝑛
b) Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2
reais? R. 0,617
c) E qual a proporção das amostras de tamanho 100? R. 0,317
d) Neste último caso, qual o valor de 𝑑, tal que 𝑃(𝑑 < |𝑒|) = 1%R. 𝑑 = 5,15
e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos sejam
inferiores a um real? R. 1.537
4. Cada seção usada para a construção de um oleoduto tem comprimento médio de 5 m e desvio
padrão de 20 cm. O comprimento total do oleoduto será de 8 km.
a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual a probabilidade de ele
ter de comprar mais do que uma seção adicional (isto é, de as 1.600 seções somarem menos
de 7.995)? R. 26,60%
b) Qual a probabilidade do uso exato de 1.599 seções (isto é, a soma das 1.600 seções estar
entre 8.000 m e 8.005 m)? R. 16,03%
5. A distribuição dos salários (em salários mínimos) de operários do sexo masculino de uma
grande empresa é 𝑁(5,4 ; 1,69), e a de operários do sexo feminino é 𝑁(5,4 ; 2,25).
Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se 𝐷 for a
diferença entre o salário médio dos homens e das mulheres:
a) Calcule 𝑃(|𝐷| > 0,5)R. 31,37%
b) Qual o valor de 𝑑 tal que 𝑃(|𝐷| > 𝑑) = 0,05? R. 𝑑 = 0,973
c) Que tamanho comum deveriam ter ambas as amostras para que 𝑃(|𝐷| > 0,4) = 0,05? R.
𝑛 = 95
6. Suponha que a proporção de elementos que são considerados bons em uma população
infinita seja 𝑝. Estime o tamanho de uma amostra, de forma que o erro amostral seja de 5%
com nível de significância de 95,45%. R 𝑛 = 400
7. Na questão anterior, qual seria o tamanho da amostra supondo uma população com 200.000
elementos? Que conclusão pode-se ter ao comparar os resultados? R.𝑛 = 399
8. Deseja-se estimar a concentração média de zinco recuperado de uma amostra de medições
desse material em 36 locações diferentes, em gramas por mililitro. Supondo que o desvio
padrão da população seja 0,3 determine o tamanho da amostra necessário, se quisermos estar
95% confiantes de que nossa estimativa da média difira da média populacional por menos
de 5%? R. 𝑛 = 139
9. A tabela CD-Veículos traz os preços de 30 carros nacionais e importados, extraídos da
população de todos os carros vendidos no mercado. Supondo que o desvio padrão dessa
amostra seja um bom representante do verdadeiro desvio padrão da população, qual será o
tamanho de uma amostra a ser colhida, de modo que, com probabilidade 90%, a média
amostral difira da verdadeira média de menos de 2%?
Tabela CD-Veículos
Preço Comprimento Motor
Veículo N/I
(em dólares) (em metros) (em VC)
Asia Tower 9.440 3,36 40 I
Audi A3 38.850 4,15 125 I
Chevrolet Astra 10.532 4,11 110 N
Chevrolet Blazer 16.346 4,60 106 N
Chevrolet Corsa 6.176 3,73 60 N
Chevrolet Tigra 12.890 3,92 100 I
Chevrolet Vectra 13.140 4,47 110 N
Chrysler Neon 31.640 4,36 115 I
Dodge Dakota 11.630 4,98 121 N
Fiat Fiorino 6.700 4,16 76 N
Fiat Marea 12.923 4,39 127 N
Fiat Uno Mile 5.257 3,64 57 N
10. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes não
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinação. Qual
a probabilidade de que um pacote não satisfaça à garantia? R. 0,059%
11. A prefeitura de cidade quer estimar a proporão 𝑝 dos moradores favoráveis à mudança do
horário comercial, com o intuito de economizar combustível. Essa proporção deverá ser
estimada com um erro máximo de 5%, a um nível de 90% de confiança.
a) Que tamanho deverá ter a amostra se a proporção 𝑝 esperada deve estar entre 20% e 50%.
R. 𝑛 ≅ 271
b) Numa amostra de 400 moradores, 160 foram favoráveis à mudança; qual seria o intervalo
de confiança para 𝑝, nesse caso, com 𝛾 = 0,95? R. 𝐼𝐶 = [0,352 ; 0,448]
12. No exemplo 5.4, qual seria o tamanho máximo para a referida amostra? Comente.
13. Um escritório de contabilidade fez um levantamento sobre a renda anual de 100 clientes.
Os dados coletados estão abaixo (em rendas 1.000 × 𝑅$). Calcule o tamanho da amostra
para se estimar a média populacional, sendo 𝜀 = 𝑅$ 2.000,00, 𝜎 = 𝑅$ 7.000,00 e 1 − 𝛼 =
0,955.R. 𝑛 ≅ 33
29 6 34 12 15 31 34 20 8 30 8 15 24 22 35 31 25 26 20 10 30 4
16 21 14 21 16 18 20 12 31 20 12 18 12 25 26 13 10 5 13 19 30 17
25 29 25 28 32 15 10 21 18 7 16 14 11 22 21 36 32 17 15 13 8 12
23 25 13 21 5 12 32 21 10 30 30 10 14 17 34 22 30 48 19 12 8 7
15 20 26 25 22 30 33 14 17 13 10 9
que contém θ, e, se exigirmos que a probabilidade de que esse intervalo contenha o parâmetroθ
seja 𝛾 = (1 − 𝛼) (coeficiente de confiança), geralmente 𝛾 = 90%, 95%, 99% , ⋯, obtemos
uma excelente estimativa intervalar com probabilidades de 90%, 95%, 99%, ⋯ de que esse
intervalo contenha o parâmetro 𝜃.Esta técnica diferencia-se da estimação “por ponto”, onde se
calcula um único valor (estimativa) para o parâmetro populacional. No caso do intervalo de
confiança busca-se um segmento, ou intervalo que contêm o parâmetro desconhecido. Por
exemplo, retira-se uma amostra de 500 brasileiros e calcula-se a média de suas alturas
encontrando-se 1,66 m. Logo, uma estimação pontual da verdadeira média 𝜇 é dada por 𝑥̅ =
1,66 𝑚. Já através do intervalo de confiança poder-se-ia encontrar um intervalo, por exemplo,
[1,58; 1,68] que, em 95% das vezes, incluiria𝜇 (a verdadeira média dos brasileiros)
𝜎2
𝑋̅~𝑁 (𝜇 , ) (população não finita) (6.2)
𝑛
e
Prof. Me. Erivelton Vitor
238 Probabilidade e Estatística
𝜎2 𝑁 − 𝑛
𝑋̅~𝑁 (𝜇 , ( )) (população finita) (6.3)
𝑛 𝑁−1
assim, para o caso de populações infinitas, uma mudança de variável se faz necessário, de forma
que
𝑋̅ − 𝜇
𝑍= (6.4)
𝜎𝑋̅
𝜎
seja normalmente distribuída com média 0 e variância 1, onde 𝜎𝑋̅ = . Fixado um nível de
√𝑛
confiança igual a (1 − 𝛼) temos que o intervalo (6.1) se equivale ao intervalo de forma que
Figura 6.1
de forma que 𝑃(𝑋̅ − 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ) = 1 − 𝛼. Como poderá ser verificado a
aplicação da fórmula (6.6) é extremamente simples. Fixa-se o valor de confiança (1 − 𝛼), ou
(1 − 𝛼)100 = %, observe na Tabela I (tabela de distribuição normal padrão) o valor das
abscissas que deixam 𝛼/2 em cada uma das caldas. Para fazer essa pesquisa na Tabela I,
proceda assim:
(ii) Obtenha o valor de 1 − 𝛼/2
(iii) Procure no corpo da tabela o valor obtido em (i)
(iv) O valor de 𝑍𝛼⁄2 será montado pela junção do valor à extrema direita na mesma linha
do valor encontrado em (i) e o valor no topo da coluna do referido valor em (i).
Exemplo 6.1 A duração de vida de uma peça de equipamento é tal que 𝝈 = 𝟓 horas. Foram
amostradas 100 dessas peças obtendo-se a média de 500 horas. Deseja-se construir um intervalo
de confiança para a verdadeira duração média com um nível de confiança de 95%.
Solução: Do enunciado tiramos 𝑋̅ = 500, 𝜎 = 5, 𝑛 = 100 e 1 − 𝛼 = 0,95 ou seja, 𝛼 = 0,05
𝛼
e consequentemente 𝛼/2 = 0,025. Com isso 1 − 2 = 0,9750. Seguindo os passos (ii) e (iii)
Figura 6.2
■
No caso de populações finitas com (𝑁) realizações, o intervalo passa a ter a seguinte
estruturação
𝑁−𝑛 𝑁−𝑛
𝑋̅ − 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ ⋅ √ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ ⋅ √ (6.7)
𝑁−1 𝑁−1
𝑁−𝑛 𝑁−𝑛
com isso, 𝑃 (𝑋̅ − 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ∙ √ 𝑁−1 ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ∙ √𝑁−1) = 1 − 𝛼. É claro que ao se
Uma análise mais detalhada seria necessária, mas nos restringiremos a não fazê-la nestas
notas.
𝑋̅ − 𝜇
(6.9)
𝑆𝑋̅
𝑆
sendo 𝑆𝑋̅ = .É sabido pelo Teorema 5.5que
√𝑛
𝑋̅ − 𝜇
𝑡= (6.10)
𝑆𝑋̅
é uma variável aleatória com distribuição t de Student com 𝑣 = 𝑛 − 1 graus de liberdade. Neste
caso, fixando um nível de confiança 1 − 𝛼 temos
Figura 6.3
Com isso o intervalo de confiança é
com isso, 𝑃(𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ) = 1 − 𝛼onde a variável t possui (𝑛 − 1)
graus de liberdade. Para essa distribuição, consulte a tabela II.
Exemplo 6.2 A amostra {𝟗, 𝟖, 𝟏𝟐, 𝟕, 𝟗, 𝟔, 𝟏𝟏, 𝟔, 𝟏𝟎, 𝟗} foi extraída de uma população normal.
Construir um intervalo de confiança para a média ao nível de 95%.
Solução: No enunciado não foi fornecido a média nem o desvio padrão amostral. Deve-se obtê-
𝛼
los. Assim, 𝑋̅ = 8,7 e 𝑆 = 2. Como 1 − 𝛼 = 0,95 temos 𝛼 = 0,05 e = 0,025. Veja que
2
Figura 6.4
■
𝑁−𝑛 𝑁−𝑛
𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ (6.12)
𝑁−1 𝑁−1
𝑁−𝑛 𝑁−𝑛
com isso, 𝑃 (𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √𝑁−1 ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ 𝑁−1) = 1 − 𝛼.
(𝑛 − 1)𝑆 2
(6.13)
𝜎2
2
(𝑛 − 1)𝑆 2
𝜒𝑛−1 = (6.14)
𝜎2
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
2
≤ 𝜎 ≤ 2 (6.15)
𝜒sup 𝜒inf
(𝑛−1)∙𝑆 2 (𝑛−1)∙𝑆 2
com isso, 𝑃 ( ≤ 𝜎2 ≤ ) = 1 − 𝛼. Graficamente temos
2sup 2inf
Figura 6.5
Exemplo 6.3 Admita que o pesquisador esteja interessado em avaliar o ganho de peso de seus
peixes. Para isso, ele coleta uma amostra com 𝒏 = 𝟏𝟎 peixes e obtém 𝑺𝟐 = 𝟒 (𝒌𝒈)𝟐. Construir
um Intervalo de confiança para a verdadeira variância com nível de 90%.
Solução: Do enunciado tiramos 𝑛 = 10, 𝑆 2 = 4, 𝛼 = 0,10 e 𝑣 = 9 (10-1). Consultando a
Tabela II (do Qui-quadrado) para esses valores obtemos 2sup = 16,9 e 2inf = 3,33. Dessa
forma, temos
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
𝑃( ≤ 𝜎 ≤ ) = 1−𝛼
sup
2 2 inf
9∙4 9∙4
𝑃( ≤ 𝜎2 ≤ ) = 0,90
16,9 3,33
𝑃(2,13 ≤ 𝜎 2 ≤ 10,81) = 0,90
Com isso, concluímos que o intervalo (2,13 ; 10,81) contém a verdadeira variância em um
nível de 90% de confiança
■
(𝑛 − 1) (𝑛 − 1)
𝑆⋅√ 2
≤𝜎 ≤𝑆⋅√ 2 (6.16)
𝜒sup 𝜒inf
representa o intervalo de confiança para o desvio padrão com 1 − 𝛼 nível de confiança, ou seja,
(𝑛−1) (𝑛−1)
𝑃 (𝑆 ∙ √ 2 ≤𝜎 ≤𝑆∙√ )=1−𝛼
sup 2inf
𝑝⋅𝑞
𝑓~𝑁 (𝑝 , ) (população não finita) (6.17)
𝑛
𝑝⋅𝑞 𝑁−𝑛
𝑓~𝑁 (𝑝 , ( )) (população finita) (6.18)
𝑛 𝑁−1
𝑓−𝑝
𝑍=
𝑝⋅𝑞 (6.19)
√ 𝑛
Figura 6.6
−𝑍𝛼⁄2 ≤ 𝑍 ≤ 𝑍𝛼⁄2
𝑝⋅𝑞 𝑝⋅𝑞
𝑓 − 𝑍𝛼⁄2 ⋅ √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼⁄2 ⋅ √ (6.20)
𝑛 𝑛
Quando se tem amostras com grande número de realizações (𝑛 > 30) pode-se substituir
os valores de 𝑝 e de 𝑞 por 𝑓 e 1 − 𝑓, assim, o IC para a proporção𝑝segundo o estimador 𝑓será
𝑓 ⋅ (1 − 𝑓) 𝑓 ⋅ (1 − 𝑓)
𝑓 − 𝑍𝛼⁄2 ⋅ √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼⁄2 ⋅ √ (6.21)
𝑛 𝑛
𝑓(1−𝑓) 𝑓(1−𝑓)
com isso, 𝑃 (𝑓 − 𝑍𝛼⁄2 ∙ √ ≤ 𝑝 ≤ 𝑓 − 𝑍𝛼⁄2 ∙ √ ) = 1 − 𝛼. Quando o problema
𝑛 𝑛
𝑓(1 − 𝑓) 𝑁 − 𝑛 𝑓(1 − 𝑓) 𝑁 − 𝑛
𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅( ) ≤ 𝑝 ≤ 𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅( )
𝑛 𝑁−1 𝑛 𝑁−1
Exemplo 6.4 Examinadas 500 peças de uma grande produção encontrou-se 256 defeituosas. No
nível de 90% construir um IC para a verdadeira proporção de peças defeituosas.
Solução: Do enunciado: 𝑛 = 500, 𝑥 = 260, 1 − 𝛼 = 0,90 e 𝛼⁄2 = 0,05. Dessa forma teremos
𝑥 260
𝑓 = 𝑛 = 500 = 0,52 e 𝑍0,05 = 1,64 Usando (6.21) obtemos
1. Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre determinado produto,
e 60% delas preferiram a marca A. Construir um intervalo de confiança para a proporção
𝑝 ao nível de 95% R. (0,551 ≤ 𝑝 ≤ 9,649)
2. Calcule o intervalo de confiança para a média de uma 𝑁(𝜇, 𝜎 2 ) em cada um dos casos
Média Tamanho da Desvio padrão da Coeficiente de
amostral amostra População confiança
170 cm 100 15 cm 95%
165 cm 184 30 cm 85%
180 cm 225 30 cm 70%
R. 𝛾 = 0,85: (161,81 ≤ 𝜇 ≤ 168,19); 𝛾 = 0,70: (177,92 ≤ 𝜇 ≤ 182,08)
3. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da
média amostral para a média da população, em valor absoluto, seja menor que 1, com
coeficiente de confiança igual a:
a) 95% R. 𝑛 = 385 b)99% R.666
4. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvulas,
e obtém-se a vida média de 800 horas e desvio padrão de 100 horas.
a) Qual o intervalo de confiança de 99% para a vida média da população. R.
b) Com que confiança dir-se-ia que a vida média é 800 ± 0,98?
c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 ±
7,84?
5. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de
detergente. Construir um intervalo de confiança para
𝑝: proporção de donas de casa que preferem A com coeficiente de confiança 𝛾 = 0,9. R.
(0,67 ≤ 𝑝 ≤ 0,73)
6. Antes de uma eleição, um determinado partido está interessado em estimar a proporção 𝑝
de eleitores ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos
eleitores eram favoráveis ao candidato em questão.
a) Determine o tamanho da amostra necessário para que o erro cometido da estimativa
seja, no máximo, 0,01 com probabilidade de 80% R. 𝑛 = 3.933
b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos
eleitores eram favoráveis ao candidato em questão, construa um intervalo de confiança
para a proporção 𝑝. Utilize 𝛾 = 0,95 R. (0,535 ; 0,566)
7. De experiências passadas, sabe-se que o desvio padrão da altura de crianças de 5ª série do
1º graus é 5 cm.
a) Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. Qual o
intervalo de confiança de 95% para a média populacional? R. (148,37; 151,63)
b) Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 tenha 95% de
confiabilidade? R. 𝑛 = 100
8. Estime o salário médio dos empregados de uma indústria têxtil, considerando uma
confiabilidade de 95%, sabendo que uma amostra de 100 indivíduos apresentou os
seguintes resultados
Salário Frequência
150 |-- 250 8
250 |-- 350 22
350 |-- 450 38
450 |-- 550 28
550 |-- 650 2
650 |--750 2
9. Colhida uma amostra de 30 peças, forneceu os seguintes pesos
250 265 267 269 271 275 277 281 283 284 287 289 291 293 2993
298 301 303 306 307 307 309 311 315 319 322 324 328 335 339
Por meio da construção do IC, responder se esta amostra satisfaz a especificação pela qual
o peso médio deve ser 300 g em 95% dos casos.
10. A concentração média de zinco recuperado de uma amostra de medições desse material em
36 locações diferentes é 2,6 gamas por mililitro. Assumindo que o desvio padrão da
população seja de 0,3, determine:
a) O intervalo de confiança de 99% para a média de concentração de zinco. R.
(2,47 ≤ 𝜇 ≤ 2,73)
b) Qual deve ser o tamanho da amostra necessário, se quisermos estar 95% confiantes de
que nossa estimativa de 𝜇 está distante por menos de 0,05?. R. 𝑛 = 139
11. Elabore argumentos e cálculos para mostrar que sendo 𝑋 ~ 𝑁(𝜇, 𝜎 2 ) e 𝑋̅ um estimador de
𝜇, podemos estar 100(1 − 𝛼)% confiantes de que o erro não excederá um valor específico
𝑒 quando o tamanho da amostra for
𝑍𝛼⁄2 ∙ 𝜎 2
𝑛=( )
𝑒
Nos exemplos citados é possível que tais premissas não sejam verdadeiras. Diante dessa
possibilidade é que se realiza o Teste de Hipótese, que a grosso modo é uma regra de decisão
para aceitar ou rejeitar a hipótese estatística com base nos elementos amostrais. É comum, em
testes de hipóteses, termos situações distintas, ou seja, termos tipos de hipóteses diferentes.
Comumente designa-se por 𝐻0 , o que chamamos hipótese nula, a qual indica a premissa a ser
testada, podendo ela ser aceita ou rejeitada, e, por 𝐻1 a hipótese alternativa. No caso de rejeição
da hipótese nula, é imediato a aceitação da hipótese alternativa. Não é regra, mas geralmente a
hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma
desigualdade. O exemplo (i) acima fica
Tabela 7.1
Realidade
𝑯𝟎 Verdadeira 𝑯𝟎 Falsa
Aceitar 𝐻0 Decisão correta 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝛽
Decisão
Rejeitar 𝐻0 𝑃(𝑒𝑟𝑟𝑜 𝑇𝑖𝑜 𝐼) = 𝛼 Decisão correta
obter uma amostra da população para a qual 𝐻0 seja verdadeira. Usualmente, o valor de 𝛼 é
fixado em 5%, 1% ou 0,1%.
Exemplo 7.1 Para exemplificar considere que uma indústria use, como um dos componentes
das máquinas que produz, um parafuso importado, que deve satisfazer a algumas exigências.
Uma delas é a resistência à tração. Esses parafusos são fabricados por alguns países, e as
especificações técnicas variam de país para país. O catálogo do país A afirma que a resistência
média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg. Já para o país B, a
média é de 155 kg com desvio padrão 20 kg. Um lote desses parafusos, de origem desconhecida,
será leiloado a um preço muito convidativo. Para que a indústria saiba se faz ou não uma oferta,
ela necessita saber qual país produziu os parafusos. O edital do leiloeiro afirma que, pouco
̅ de uma amostra de 25 parafusos do lote. Qual regra
antes, será divulgada a resistência média 𝒙
de decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B?
Solução: Uma possível resposta que ocorre naturalmente é a que considera como país de origem
dos parafusos aquele para o qual a média da amostra mais se aproximar da média da população.
Assim, um possível regra de decisão seria: Se a média da amostra for menor que ou igual ao
ponto médio entre 145 e 155, diremos que os parafusos são provenientes do país 𝑨, caso
contrário, diremos que os parafusos são proveniente do país B. Imagine se no dia do leilão a
̅ = 𝟏𝟒𝟖, pela nossa regra de decisão, diríamos que os
média da amostra informada fosse 𝒙
parafusos são provenientes do pais 𝑨. Podemos estar enganados nessa conclusão? Ou seja, é
̅ = 𝟏𝟒𝟖? Sim, é possível.
possível que uma amostra de 25 parafusos do país 𝑩 apresente média 𝒙
Caso isso ocorra, cometemos o erro tipo II.
■
Abaixo uma sequência que pode ser usada sistematicamente para qualquer teste de
hipóteses.
Passo 3. Fixe a probabilidade 𝛼 de cometer o erro tipo I e use este valor para construir a
região crítica (regra de decisão). Lembre-se que essa região é construída para a estatística
definida no passo 2, usando os valores do parâmetro hipotetizados por 𝐻0 .Dessa forma,
Tabela 7.2
(a): (teste bicaudal): 𝑅𝐶 = {θ̂ ∈ ℝ|θ̂ < θ̂𝐶1 ouθ̂𝑐2 < θ̂}
θ̂𝑐1 ≤ θ̂ ≤ θ̂𝑐2 não se pode rejeitar 𝐻0
θ̂ < θ̂𝑐1 𝑜𝑢 θ̂𝑐2 < 𝑍 rejeita-se 𝐻0
(b): (teste unicaudal à diretia): 𝑅𝐶 = {θ̂ ∈ ℝ |θ̂𝑐 < θ̂}
θ̂ ≤ θ̂𝑐 não se pode rejeitar 𝐻0
θ̂𝑐 < θ̂ rejeita-se 𝐻0
(c) (teste unicaudal à esquerda): 𝑅𝐶 = {θ̂ ∈ ℝ|θ̂ < θ̂𝑐 }
θ̂𝑐 ≤ θ̂ não se pode rejeitar 𝐻0
θ̂ < θ̂𝑐 rejeita-se 𝐻0
graficamente temos
Neste caso, usaremos a distribuição normal padrão 𝑍 ~ 𝑁(0, 1) (tabela I) juntamente com
a equação transcrita abaixo.
𝑋̅ − 𝜇
𝑍= (7.1)
𝜎⁄√𝑛
Destacarei este tópico com um exemplo, onde aplicaremos os cinco passos listados
anteriormente, para testar a hipótese de que a média de uma população (𝜇) seja igual a um
número fixado (𝜇0 ), supondo conhecida a variância dessa população. Esta situação não é muito
realista: conhecer a variância da população. Mais adiante trataremos o caso mais geral, da média
e variância desconhecidas.
Exemplo 7.2 Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média 𝝁 e variância sempre igual a 𝟒𝟎𝟎 𝒈𝟐 . A máquina foi regulada
para 𝝁 = 𝟓𝟎𝟎 𝒈. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se
a produção esta sob controle, isto é, se 𝝁 = 𝟓𝟎𝟎 𝒈 ou não. Se uma dessas amostras apresentasse
̅ = 𝟒𝟗𝟐 𝒈, você pararia ou não a produção para regular a máquina?
uma média 𝑿
Solução: Vejamos os passos acima listados.
Passo 1. Indiquemos por 𝑋 o peso de cada pacote; então, 𝑋 ~ 𝑁(𝜇, 400). E as hipóteses que
nos interessam são:
𝐻0 : 𝜇 = 500 𝑔
𝐻1 : 𝜇 ≠ 500 𝑔
visto que a máquina pode se desregular para mais ou para menos.
Passo 2. Pela afirmação do problema, 𝜎 2 = 400 será sempre a mesma; logo, para todo 𝜇, a
400
média 𝑋̅ de 16 pacotes terá distribuição 𝑁 (𝜇, 16 ), de modo que o desvio padrão (ou erro
𝜎
padrão) de 𝑋̅ é = 5. Em particular, se 𝐻0 for verdadeira, 𝑋̅ ~ 𝑁(500, 25).
√𝑛
Passo 3..Vamos fixar 𝛼 = 1% ou seja, 𝛼 = 0,01; pela hipótese alternativa, vemos que𝐻0 deve
ser rejeitada quando 𝑋̅ for muito pequena ou muito grande (dizemos que temos um teste
bilateral). Portanto, nossa região será 𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −𝑍𝛼⁄2 𝑜𝑢 𝑍𝛼⁄2 < 𝑍}. Pela Tabela I
temos 𝑍𝛼⁄2 = 𝑍0,005 = 2,575. Assim𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −2,575 ou 2,575 < 𝑍}. Usando (7.1)
𝑋̅ −𝜇 492−500
temos𝑍 = 𝜎⁄ ⟶⇢ 𝑍 = = −1,6
√𝑛 5
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular equivale
a𝑍 = −1,6, e, 𝑍 ∉ 𝑅𝐶.
Passo 5. Como 𝑍 não pertence à região crítica, nossa conclusão será não rejeitar 𝐻0 . Ou seja, o
desvio da média da amostra para a média proposta por 𝐻0 pode ser considerada como devido
apenas ao sorteio aleatório dos pacotes.
■
Outra forma de resolver:
Podemos resolver este problema obtendo os limites toleráveis para a v.a. 𝑋̅, ou seja, descobrir
os valores de 𝑥̅𝑐1 e 𝑥̅𝑐2 tais que 𝑅𝐶 = {𝑋̅ ∈ ℝ|𝑋̅ < 𝑥̅𝑐1 𝑜𝑢 𝑥̅𝑐2 < 𝑋̅}. Veja Figura 7.2. Usando a
equação (7.1) e o valor obtido para 𝑍𝛼⁄2 = 2,58 teremos
1 𝑥̅ 𝑐1 −𝜇 𝑥̅ 𝑐1 −500 1
𝑍0,5% = ⟶⇢ −2,58 = ⟶⇢ 𝑥̅𝑐1 = 487,1 (𝑍0,5% é negativo. Está à esquerda)
𝜎⁄√𝑛 5
2 𝑥̅ 𝑐2 −𝜇 𝑥̅ 𝑐2 −500 2
𝑍0,5% = ⟶⇢ 2,58 = ⟶⇢ 𝑥̅𝑐2 = 512,9 (𝑍0,5% é positivo. Está à direita)
𝜎⁄√𝑛 5
Logo, 𝑅𝐶 = {𝑋̅ ∈ ℝ|𝑋̅ < 487,1 ou 512,9 < 𝑋̅}. Como a média amostral dada é 𝑋̅ = 492,
segue a conclusão acima.
Exemplo 7.3 Uma amostra aleatória de cem registros de mortes no estado de Goiás durante o
ano passado mostrou uma expectativa de vida de 71,8 anos. Assumindo um desvio padrão de
8,9 anos, isso parece indicar que a média da expectativa de vida hoje é maior que 70 anos? Use
uma significância de 5%.
Solução: Vejamos os passos acima listados.
Passo 1. Indiquemos por 𝑋 a expectativa de vida; então, 𝑋 ~ 𝑁(𝜇; 79,21). E as hipótese que
nos interessam são:
𝐻0 : 𝜇 = 70 𝑎𝑛𝑜𝑠
𝐻1 : 𝜇 > 70 𝑎𝑛𝑜𝑠
Passo 2. Pela afirmação do problema, 𝑛 = 100, 𝑥̅ = 71,8 e 𝜎 = 8,9 será sempre a mesma;
79,21
logo, para todo 𝜇, a média 𝑋̅ de 100 pacotes terá distribuição 𝑁 (70; 100 ), de modo que o
𝜎
desvio padrão (ou erro padrão) de 𝑋̅ é = 0,89.
√𝑛
Passo 3..Vamos fixar 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve
ser rejeitada quando 𝑋̅ for muito grande (teste unilateral à direita). Portanto, nossa região será
𝑅𝐶 = {𝑍5% < 𝑍}. Como 𝑍5% = 1,645 então 𝑅𝐶 = {𝑍 ∈ ℝ|1,645 ≤ 𝑍}. Usando(7.1)
𝑋̅ −𝜇 71,8−70
temos𝑍 = 𝜎⁄ ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = 2,02. segue que 𝑍 ∈ 𝑅𝐶.
√𝑛 0,89
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular equivale
a𝑍 = 2,02.
Passo 5. Como 𝑍 pertence à região crítica, nossa conclusão, com nível de risco de 5%, será
rejeitar 𝐻0 , e, concluir que a média da expectativa de vida é maior que 70 anos.
■
Iremos supor que a variável aleatória 𝑋, com distribuição normal, com média 𝜇 e
variância 𝜎 2 desconhecidas. Neste caso, utilizaremos a distribuição t de Student. Para isso,
tomemos a estatística 𝑇 assim definida
𝑋̅ − 𝜇
𝑇= (7.2)
𝑆⁄√𝑛
Como vimos, 𝑇 assim definida é uma variável aleatória com distribuição “t” de Student
com 𝑣 = 𝑛 − 1 graus de liberdade. Fixando o valor de 𝛼, podemos usar a Tabela III e encontrar
o valor 𝑡𝑐 tal que 𝑃(|𝑇| < 𝑡𝑐 ) = 1 − 𝛼. Colhida a amostra de (𝑛) indivíduos, calculamos os
valores das estatísticas 𝑋̅ e 𝑆 2 respectivamente, e depois o valor de
Prof. Me. Erivelton Vitor
256 Probabilidade e Estatística
𝑋̅ − 𝜇
𝑡0 = (7.3)
𝑆⁄√𝑛
Agora analisemos o valor da estatística 𝑡0 com a Região Crítica (RC) obtida, e rejeitamos
ou não rejeitamos a hipótese 𝐻0 mediante 𝑡0 não estar ou estar em RC respectivamente.
Exemplo 7.4 Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina.
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. No nível de
5%, os dados refutam ou não a afirmação do fabricante?
Solução: Vejamos os passos acima listados.
Passo 1. As hipótese que nos interessam são:
𝐻0 : 𝜇 = 30 𝑚𝑔
𝐻1 : 𝜇 > 30 𝑚𝑔
Passo 2. Sendo a quantidade de nicotina por cigarro, com distribuição normal 𝑁(𝜇, 𝜎 2 ), a
estatística
𝑋̅ − 30
𝑡=
𝑆⁄√25
terá distribuição 𝑡 com 24 graus de liberdade.
Passo 3..Fixado 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve ser
rejeitada quando 𝑋̅ for muito grande (teste unilateral à direita). Para descobrir o valor de 𝑡𝑐 tal
que 𝑃(𝑡𝑐 < 𝑡) = 0,05 usamos a tabela III. Assim, obtemos 𝑡𝑐 = 1,711, logo, 𝑅𝐶 =
{𝑡 ∈ ℝ|1,711 < 𝑡}
Passo 4. A informação pertinente da amostra é a estatística dada por(7.3)
31,5 − 30
𝑡0 = ⟶⇢ 𝑡0 = 2,5
3⁄√25
Passo 5. Como 𝑡0 pertence à região crítica, nossa conclusão será rejeitar 𝐻0 , e, concluir que há
evidências de que os cigarros contenham mas de 30 mg de nicotina.
■
O problema fornece informações sobre a alternativa, que pode ter uma das três formas
abaixo:
(i) 𝐻1 : 𝜎 2 ≠ 𝜎02 (teste bilateral)
(ii) 𝐻1 : 𝜎 2 > 𝜎02 (teste unilateral à direita)
(iii) 𝐻1 : 𝜎 2 < 𝜎02 (teste unilateral à esquerda)
Para isso, consideremos que 𝑆 2 seja um estimador amostrar de 𝜎 2 baseado numa amostra de
tamanho (𝑛), e, fixando o nível de confiança 1 − 𝛼. Como vimos no Teorema 5.4, a variável
aleatória expressa por
(𝑛 − 1)𝑆 2
(7.4)
𝜎2
2
(𝑛 − 1)𝑆 2
𝜒cal = (7.5)
𝜎02
onde (𝑛) é o tamanho da amostra, 𝑆 2 é a variância amostral e 𝜎02 é o valor de 𝜎 2 dado pela
hipótese nula.Se 𝐻0 for verdadeira, 2cal é um valor da distribuição qui-quadrado com 𝑣 = 𝑛 −
1 graus de liberdade. As regiões críticas, então serão
2
2
𝑅𝐶 = {𝜒𝑐𝑎𝑙 < 𝜒1−𝛼 ⁄2 } 𝑜𝑢 2
𝑅𝐶 = {𝜒𝑐𝑎𝑙 > 𝜒𝛼2⁄2 } (7.6)
2 2 }
𝑅𝐶 = {𝜒𝑐𝑎𝑙 < 𝜒1−𝛼 (7.7)
2 2 }
𝑅𝐶 = {𝜒𝑐𝑎𝑙 > 𝜒1−𝛼 (7.8)
Exemplo 7.5 Um criador de gado quer testar a hipótese de que a variância relativa ao ganho de
peso de seu rebanho é de 25 (𝒌𝒈)𝟐. Seu veterinário afirma que ela é menor. Para testar essa
hipótese ele pesou 25 cabeças de gado de seu rebanho e obteve uma variância amostral de 18,3
(𝒌𝒈)𝟐. No nível de 10%, os dados refutam ou não a afirmação do fazendeiro?
Solução: Do enunciado temos 𝐻0 : 𝜎 2 = 25 e 𝐻1 : 𝜎 2 < 25. Considerando 𝛼 = 0,10, e
usando(7.5) obtemos 2cal = 17,56. Consultando a Tabela II para 𝑣 = 24 e 𝛼 = 10% (teste
unilateral à esquerda) encontramos 2inf = 15,7. Assim nossa 𝑅𝐶 = {2 < 15,7}. Como 2cal =
17,56 ∉ 𝑅𝐶 não podemos rejeitar a afirmação do fazendeiro. Graficamente temos:
Figura 7.3
■
Aqui temos uma população e uma hipótese sobre a proporção 𝑝 de indivíduos portadores
de certa característica. Está hipótese afirma que essa proporção é igual a certo valor 𝑝0 , então
𝐻0 : 𝑝 = 𝑝0
O problema fornece informações sobre a alternativa, que pode ter uma das três formas
abaixo:
(i) 𝐻1 : 𝑝 ≠ 𝑝0 (teste bilateral)
(ii) 𝐻1 : 𝑝 > 𝑝0 (teste unilateral à direita)
(iii) 𝐻1 : 𝑝 < 𝑝0 (teste unilateral à esquerda)
𝑝⋅𝑞
𝑓~𝑁 (𝑝 ; ) (7.9)
𝑛
𝑓−𝑝
𝑍𝑐𝑎𝑙 =
𝑝⋅𝑞 (7.10)
√ 𝑛
com isso podemos obtemos os valores limites da RC, como mostrados na Figura 7.1.
Exemplo 7.6 Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu
programa especial de segunda-feira. Uma rede competidora deseja contestar essa afirmação e
decide usar uma amostra de 200 famílias para um teste, no qual constata que 104 estavam
assistindo a tal programa. Qual deve ser o procedimento adotado para avaliar a veracidade da
afirmação da estação de TV, com uma confiabilidade de 5%?
Solução: Vejamos os passos acima listados.
Passo 1. Vamos colocar à prova a afirmação da estação de TV, ou seja, 𝑝 = 0,60, assim
𝐻0 : 𝑝 = 0,60
Note que se 𝐻0 não for verdadeira, espera-se uma proporção menor, nunca maior. A estação de
TV divulgaria sempre o máximo possível. Assim, a hipótese alternativa é
𝐻1 : 𝑝 < 0,60
𝑥 104
Passo 2. Pela afirmação do problema, 𝑥 = 104, 𝑛 = 200, 𝑓 = 𝑛 = 200 = 0,52. Logo, para todo
0,24
𝜇, a média 𝑋̅ das pessoas assistindo ao programa terá distribuição 𝑓 ~ 𝑁 (0,60; 200 ),
Passo 3..Fixado 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve ser
rejeitada quando 𝑋̅ for muito pequeno (teste unilateral à esquerda). Como 𝑍5% = 1,645 teremos
que a 𝑅𝐶 = {𝑍 < −1,645}. Para descobrir o valor de 𝑍 usamos a equação(7.10)e a Tabela I.
Assim,
𝑓−𝑝 0,52 − 0,60
𝑍= ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = −2,309
𝑝∙𝑞 0,24
√ 𝑛
√
200
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular é 𝑍 =
−2,309
Passo 5. Como 𝑍 pertence à região crítica, nossa conclusão será rejeitar 𝐻0 , e, concluir que a
hipótese que 60% das famílias estavam assistindo ao programa é falsa; a proporção de famílias
assistindo a tal programa é menor que 60%.
■
Nesta seção estudaremos o caso onde temos duas amostras independentes 𝑋𝑖 e 𝑌𝑗 com
1 ≤ 𝑖 ≤ 𝑛 e 1 ≤ 𝑗 ≤ 𝑚 de duas populações 𝑃1 e 𝑃2 respectivamente. Nosso interesse aqui é
comparar as médias dessas populações, verificando se elas podem ser consideradas iguais ou
não.
𝐻0 : 𝜇1 = 𝜇2 ou 𝐻0 : 𝜇1 − 𝜇2 = 𝑑
com 𝑑 ≥ 0 é uma diferença admitida entre as médias. Supondo as variâncias iguais, temos
como hipótese alternativa adequada
𝐻1 : 𝜇1 ≠ 𝜇2 ou 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑
𝐻0 : 𝜇1 = 𝜇2 e 𝐻1 : 𝜇1 ≠ 𝜇2
tenha uma distribuição normal padrão. É claro que se as populações são normais, é imediato
que a variável (7.11) terá distribuição normal padrão. Agora, considerando a hipótese
(𝑋̅1 − 𝑋̅2 ) − 𝑑
𝑍=
2 2 (7.12)
√𝜎1 + 𝜎2
𝑛 𝑚
que tem distribuição normal padrão sob a hipótese nula 𝐻0 e pode ser usada para testar 𝐻0
contra 𝐻1 , num, dos casos acima. Sendo 𝛼 a probabilidade de se cometer o erro tipo I, temos as
conclusões da Tabela 7.2, ou seja, não rejeitaremos a hipótese nula 𝐻0 se −𝑧𝛼⁄2 ≤ 𝑍𝑐𝑎𝑙 ≤ 𝑍𝛼⁄2 ,
e rejeita-se 𝐻0 se 𝑍𝑐𝑎𝑙 < −𝑧𝛼⁄2 ou 𝑍𝑐𝑎𝑙 > 𝑧𝛼⁄2 .
Exemplo 7.7 Um fabricante de pneus faz dois tipos. Para o tipo A, ele garante um desvio padrão
de 2.500 milhas, e para o tipo B garante o desvio padrão de 3.000 milhas. Um taxista testou 50
pneus de tipo A e 40 do tipo B, obtendo 24.000 milhas e 26.000 milhas de duração média dos
respectivos tipos. Adotando-se um risco de 4%, testar a hipótese de que a vida média dos dois
tipos de pneus é a mesma.
Solução: Vamos colocar à prova a afirmação de igualdade da vida dos pneus𝐻0 : 𝜇1 = 𝜇2 .
Assim, a hipótese alternativa é𝐻1 : 𝜇1 ≠ 𝜇2 . Ou seja, um teste bilateral. Pela afirmação do
problema, 𝜎12 = (2.500)2 e 𝜎22 = (3.000)2 , 𝑋̅1 = 24.000 e 𝑋̅2 = 30.000. Fixado 𝛼 = 4% ou
seja, 𝛼 = 0,04, obtemos com o uso da tabela I o valor de 𝑍𝛼⁄2 = 2,055. Segue, então que 𝑅𝐶 =
{𝑍 ∈ ℝ|𝑍 < −2,055 ou 2,055 < 𝑍}. Agora, usemos a fórmula (7.12) para obter valor de 𝑍𝑐𝑎𝑙
𝑋̅ − 𝑌̅ 24.000 − 26.000
𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍𝑐𝑎𝑙 = −3,38
𝜎12 𝜎22 (2.500)2 (3.000)2
√ + √ +
𝑛 𝑚 50 40
Como 𝑍 pertence à região crítica,𝑍𝑐𝑎𝑙 ∈ 𝑅𝐶, nossa conclusão será rejeitar 𝐻0 , e, com um risco
de 4%, concluir as médias dos pneus são diferentes.
■
Suponha que, ao testar a hipótese de igualdade de variâncias, esta não seja rejeitada, isto
é, 𝜎12 = 𝜎22 = 𝜎 2 , porém essa variância comum é desconhecida. Como 𝑆12 e 𝑆22 são dois
estimadores não viesados de 𝜎 2 , podemos combiná-los para obter um estimador comum
(𝑛 − 1)𝑆12 + (𝑚 − 1)𝑆22
𝑆𝑝2 = (7.13)
𝑛+𝑚−2
que também é um estimador não viesado de 𝜎 2 . Dessa forma, definimos a variável aleatória𝑡
como abaixo
𝑋̅ − 𝑌̅ − 𝑑
𝑡𝑐𝑎𝑙 =
1 1 (7.14)
𝑆𝑝 ⋅ √𝑛 + 𝑚
Com 𝑆𝑝 dada em (7.13). Neste caso, a variável aleatória 𝑡𝑐𝑎𝑙 , dada em (7.14) terá distribuição t
de Student com (𝑣 = 𝑛 + 𝑚 − 2) graus de liberdade.Sendo 𝛼 a probabilidade de se cometer o
erro tipo I, obteremos o valor 𝑡𝛼⁄2 temos as conclusões da Tabela 7.2. ou seja, a distribuição 𝑡 é
usada e a hipótese bilateral nula, no caso, não é rejeitada quando ocorrer −𝑡𝛼⁄2,𝑛+𝑚−2 ≤ 𝑡𝑐𝑎𝑙 ≤
𝑡𝛼⁄2,𝑛+𝑚−2 , e rejeita-se a hipótese nula quando 𝑡𝑐𝑎𝑙 < −𝑡(𝛼⁄2,𝑛+𝑚−2) ou 𝑡𝑐𝑎𝑙 > 𝑡(𝛼⁄2,𝑛+𝑚−2) .
Exemplo 7.8 Dois tipos de tinta foram testados, sob as mesmas condições meteorológicas, para
verificar sua qualidade de impermeabilização. O tipo A registrou uma média de 80 𝒖. 𝒎. com
desvio de 5 𝒖. 𝒎. em 5 aplicações. O tipo B, uma média de 83 𝒖. 𝒎. com desvio de 4 𝒖. 𝒎. em
6 aplicações. Adotando uma significância de 5%, testar a hipótese das médias serem iguais.
Solução: Vejamos, nossa tese é 𝐻0 : 𝜇𝐴 = 𝜇𝐵 com hipótese alternativa sendo𝐻1 : 𝜇𝐴 ≠ 𝜇𝐵
ou seja, um teste bilateral. Pela afirmação do problema, 𝑋̅ = 80, 𝑌̅ = 83, 𝑛 = 5 e 𝑚 = 6.
Fixado 𝛼 = 5% concluímos que a variável 𝑡 dada em(7.14) tem 𝑣 = 5 + 6 − 2 = 9 graus de
liberdade. Assim, usando a Tabela III obtemos 𝑡(5%,9) = 2,262. Com isso a região crítica será
𝑅𝐶 = {𝑡 ∈ ℝ|𝑡 < −2,262 ou 𝑡 > 2,262}.
Agora, usemos a fórmula (7.13) e (7.14) para obter valor de 𝑡
𝑋̅ − 𝑌̅ − 𝑑 80 − 83 − 0
𝑡𝑐𝑎𝑙 = ⟶⇢ 𝑡𝑐𝑎𝑙 = ⟶⇢ 𝑡𝑐𝑎𝑙 = −1,11
𝑆𝑝 ∙ √1⁄𝑛 + 1⁄𝑚 1
4,47 ∙ √5 + 6
1
como 𝑇 não pertence à região crítica, 𝑡 ∉ 𝑅𝐶, nossa conclusão será não rejeitar 𝐻0 , e, com esse
nível de significância.
■
𝐻0 : 𝜎12 = 𝜎22
𝑆12 ⁄𝜎12
𝐹= 2 2 (7.15)
𝑆2 ⁄𝜎2
• para a alternativa unilateral à esquerda 𝜎12 < 𝜎22 , a região crítica será
Baseado na Tabela IV (anexo deste material) podemos obter a RC para 𝐹cal e proceder a
análise como antes.
Aqui, supomos que duas populações sejam normalmente distribuídas segundo uma
𝑝1 ∙𝑞1 𝑝2 ∙𝑞2
proporção 𝑝, ou seja, que tenhamos 𝑃1 ∼ 𝑁 (𝑝1 , ) e 𝑃2 ~ 𝑁 (𝑝2 , ). Nosso interesse é
𝑛 𝑚
𝐻0 : 𝑝1 = 𝑝2
contra uma das hipóteses alternativas,
𝐻1 : 𝑝1 ≠ 𝑝2 ou 𝐻1 : 𝑝1 < 𝑝2 ou 𝐻1 : 𝑝1 > 𝑝2
ou seja, queremos testar 𝑝1 = 𝑝2 contra uma das alternativas 𝑝1 ≠ 𝑝2, 𝑝1 < 𝑝2 ou 𝑝1 > 𝑝2 . Isso
equivale a testar a hipótese 𝑝1 − 𝑝2 = 0 contra umas das alternativas 𝑝1 − 𝑝2 ≠ 0, 𝑝1 − 𝑝2 <
0 ou 𝑝1 − 𝑝2 > 0 Esta decisão será baseada na estatística obtida pela variável aleatória 𝑓1 −
𝑓2 . (aqui 𝑓 é o estimador para a proporção 𝑝). Ao construir o intervalo de confiança para 𝑝1 e
𝑝2 nota-se que, para (𝑛) e (𝑚) grandes suficientemente, o estimador pontual (𝑓1 − 𝑓2 ) tem
distribuição aproximadamente normal com média
𝜇𝑓1−𝑓2 = 𝑝1 − 𝑝2 (7.20)
e variância
𝑝1 ⋅ 𝑞1 𝑝2 ⋅ 𝑞2
𝜎𝑓21 −𝑓2 = + (7.21)
𝑛 𝑚
Dessa forma, nossas regiões críticas podem ser estabelecidas usando a variável normal
padrão considerando a mudança de variável expressa em (4.24). Dessa forma temos a variável
𝑍 como abaixo
(𝑓1 − 𝑓2 ) − (𝑝1 − 𝑝2 )
𝑍=
𝑝1 ⋅𝑞1 𝑝2 ⋅𝑞2 (7.22)
√ +
𝑛 𝑚
𝑓1 − 𝑓2
𝑍=
1 1 (7.23)
√𝑝 ⋅ 𝑞 ⋅ ( + )
𝑛 𝑚
Contudo, precisamos estimar os parâmetros 𝑝 unindo os dados de ambas as amostras. Para isso,
vamos fazer uma estimação combinada para a proporção 𝑝 como em
𝑥𝑛 + 𝑥𝑚
𝑝̂ = (7.24)
𝑛+𝑚
𝑓1 − 𝑓2
𝑍𝑐𝑎𝑙 =
1 1 (7.25)
√𝑝̂ ⋅ (1 − 𝑝̂ ) ⋅ ( + )
𝑛 𝑚
Quando não for solicitado o nível de significância do teste, usa-se 𝛼 = 5%. Claro que
novamente consideraremos as regiões descritas na Tabela 7.2.
Exemplo 7.10 Uma pesquisa realizada com 200 pessoas adultas na cidade de Uruaçu tem por
objetivo verificar a proporção de homens e mulheres que leem jornais e se lembram de
determinada notícia. Os resultados da pesquisa apontam que 70 homens que leem jornal se
lembram de determinada notícia e 50 mulheres que leem jornal se lembram de determinada
notícia. Diante desses resultados, pode-se afirmar que essas proporções são iguais, se
considerarmos um nível de significância de 10%?
Solução: Vejamos, nossa tese é.
𝐻0 : 𝑝𝐻 = 𝑝𝑀
com hipótese alternativa sendo
𝐻1 : 𝑝𝐻 ≠ 𝑝𝑀
ou seja, um teste bilateral. Pela afirmação do problema temos 𝑛 = 𝑚 = 200, 𝑥𝑛 = 70, 𝑥𝑚 =
70 50
50, 𝑓1 = 200 = 0,35 e 𝑓2 = 200 = 0,25. Fixado 𝛼 = 10% da Tabela I temos 𝑍𝛼⁄2 = 𝑍5% =
1,645. Com isso a região crítica será 𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −1,645 ou 1,645 < 𝑍}. Usando
(7.24) obtemos 𝑝̂ = 0,3. Agora é só usar a fórmula(7.25) para obter valor de 𝑍𝑐𝑎𝑙
𝑓1 − 𝑓2 0,35 − 0,25
𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = 2,1821
1 1 1 1
√𝑝̂ (1 − 𝑝̂ ) ( + ) √0,3 ∙ 0,7 ∙ ( + 200)
𝑛 𝑚 200
Como 𝑍 pertence à região crítica, 𝑍 ∈ 𝑅𝐶, nossa conclusão será rejeitar 𝐻0 , e, com risco de
10% concluir que as proporções são diferentes.
15. Uma pessoa gaba-se de adivinhar qual será o resultado do lance de uma moeda, mas é
preciso que os parentes não o perturbem com pensamentos duvidosos. Para testar tal
capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador acertou 5. Qual seria
sua conclusão? R. 𝛼̂ = 0,11; logo, não rejeitamos 𝐻0 : 𝑝 = 0,5
16. Os produtores de um programa de televisão pretendem modificá-lo se for assistido
regularmente por menos de um quarto dos possuidores de televisão. Uma pesquisa
encomendada a uma empresa especializada mostrou que, de 400 famílias entrevistadas, 80
assistem ao programa regularmente. Com base nos dados, qual deve ser a decisão dos
produtores? R. Como 𝛼 = 0,010, rejeitamos 𝐻0 : = 𝑝 = 1/4 e o programa deve ser modificado.
17. Uma amostra de 500 eleitores selecionados ao acaso dá 52% ao Partido Democrático.
Poderia esta amostra ter sido retirada de uma população que tivesse 50% de eleitores
democratas? Admita uma significância de 5%. R. 𝑍𝑜𝑏𝑠 = 0,89. Não se pode rejeitar a hipótese de
que a proporção de eleitores democratas é 50% ao nível de 5% de significância
18. Considere que numa pesquisa entre pessoas que fumam, foram obtidos os dados da tabela
abaixo
Cigarros sem Cigarros com
Não fumam Total
filtro filtro
Homens 12 64 14 90
Mulheres 8 26 16 50
Total 20 90 30 140
29. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos
consecutivos, com duas amostras independentes de 400 donas de casa em cada uma delas.
A preferência pela marca em questão foi de 33% e 29%, respectivamente. Os resultados
trazem alguma evidência de mudança na preferência? Use 𝛼 = 5%. R. Faça 𝐻0 : 𝑝1 = 𝑝2 . A
𝑅𝐶 = (−∞; −1,96) ∪ (1,96; +∞) e o valor observado 𝑍0 = 1,223. Temos 𝑍0 não pertence à região crítica,
logo, não rejeitamos 𝐻0 .
30. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida BLUE entre as demais
similares. Na região norte, a proporção é de 40 entre 225 entrevistados. Baseando no
resultado dessa amostra, você diria que a proporção de todos os moradores nas duas regiões
é a mesma? Use 𝛼 = 5%. R. Não há evidências de que as proporções nas duas regiões são diferentes.
Bussab cap. 12 ex. 30
31. Numa pesquisa sobre possuidores de TVs, encontram-se 120 das 200 casas pesquisadas
numa comunidade indígena no noroeste do estado do Pará, e 240 das 500 residências de
outra comunidade indígena ao sudoeste do mesmo estado. Discuta se há diferença entre a
proporção de possuidores de TV nas duas comunidades. Considere um nível de
significância de 10%. R. O valor 𝑍𝑜𝑏𝑠 = −2,86, logo rejeita-se 𝐻0 , concluindo-se com um risco de 10%
que as proporções são diferentes.
32. As amostras (𝑋1 , 𝑋2 , ⋯ , 𝑋10 ) e (𝑌1 , 𝑌2 , ⋯ , 𝑌10 ) de duas populações normais com média 𝜇1
e 𝜇2 e mesma variância 𝜎 2 forneceram as estatísticas
𝑋̅ = 80, 𝑆12 = 16 e𝑌̅ = 83 , 𝑆22 = 18
Teste, no nível de significância de 5%, a hipótese 𝐻0 : 𝜇1 = 𝜇2 contra a alternativa 𝐻1 : 𝜇1 <
𝜇2 . R. Para 𝛼 = 0,05 temos 𝑅𝐶 = (−∞; −1,7040). O valor observado 𝑡0 = −1,627. Como 𝑡0 não pertence
à região crítica, não há evidências para rejeitar 𝐻0
0,52 − 0,60
= 𝑃 𝑍< (aqui usamos (𝟕. 𝟏𝟎))
0,24
√
( 200 )
= 𝑃(𝑍 < −2,30)(analisando a Tabela I)
= 0,0107
Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a
probabilidade de encontramos uma amostra de 200 famílias com 52% ou menos de audiência é
de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então
a hipótese formulada não é aceitável. Nesse caso, somos levados considerar que a hipótese nula
𝐻0 deve ser rejeitada.
■
Exemplo 7.12 Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota
para servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma
que a duração das viagens pode ser considerada uma v.a. normal, com média igual a 300
minutos e desvio padrão 30 minutos. As dez primeiras viagens realizadas nessa nova rota
apresentaram média igual a 314 minutos. Esse resultado comprova ou não o tempo médio
determinado nos estudos preliminares?
Solução: Indicando por 𝑋 a duração média de cada viagem e por 𝜇 = 𝐸[𝑋], queremos testar as
hipótese
𝐻0 : 𝜇 = 300
𝐻1 : 𝜇 ≠ 300
𝜎 2
As amostras de dez viagens terão média 𝑋̅ ~ 𝑁 (𝜇, 𝑛 ). Note que 𝑛 = 10, e, sob a hipótese de
900
que 𝐻0 é verdadeira, e pelo fato de 𝜎 2 ser conhecido (𝜎 = 30) teremos 𝑋̅ ~ 𝑁 (300, 10 ).
Com o valor observado 𝑥̅0 = 314, podemos encontrar a probabilidade de ocorrerem amostras
com valores de 𝑋̅ mais extremos do que esse: Denotando o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 à esquerda por 𝑝𝑒
teremos,
314 − 300
𝑝𝑒 = 𝑃(314 < 𝑋̅ 𝑞𝑢𝑎𝑛𝑑𝑜 𝜇 = 300) = 𝑃 ( < 𝑍) = 𝑃(1,48 < 𝑍) = 0,07
9,49
Como a distribuição é normal e simétrica, teremos 𝑝 = 2 ∙ 𝑝𝑒 ou 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,14. Como esse
valor não é muito pequeno, parece não haver muitas evidências para rejeitar 𝐻0 . Assim os
estudos preliminares parecem estar corretos. (sugiro o leitor resolver este problema usando o
teste de hipótese visto acima, e comparar os resultados.)
■
Ao procedimento acima, de dobrar a probabilidade, é preferível anunciar o valor do 𝑝 −
𝑣𝑎𝑙𝑜𝑟 unilateral e a direção segundo a qual a observação afasta-se de 𝐻0 . No exemplo acima,
o resultado indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314
é de 7%, que é um valor ainda pequeno. De forma mais geral, quanto menor for o valor de 𝑝 −
𝑣𝑎𝑙𝑜𝑟, maior serão as evidências de que a hipótese 𝐻0 deve ser rejeitada. A Tabela 7.3 abaixo
ilustra a escala usada por Fisher, contra 𝐻0 (ou a favor de 𝐻1 )
1. Suponha que queiramos testar 𝐻0 : 𝜇 = 50 contra 𝐻1 : 𝜇 > 50, onde 𝜇 é a média de uma
normal 𝑁(𝜇, 900). Extraída uma amostra de 𝑛 = 36 elementos da população, obtemos 𝑥̅ =
52. Calcule a probabilidade de significância (𝑝 − 𝑣𝑎𝑙𝑜𝑟) do teste. R. 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,345
2. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo 𝑋
(em horas) de aprendizado é anotado. Observou-se que 𝑋 segue de perto a distribuição
𝑁(25, 100). Uma nova técnica de ensino, que deve melhorar o tempo de aprendizado, foi
testada em 16 novos empregados, os quais apresentaram 20,5 horas como tempo médio de
aprendizado. Usando o 𝑝 − 𝑣𝑎𝑙𝑜𝑟, você diria que a nova técnica é melhor que a anterior?
R. 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝑋̅ < 20,5) = 𝑃(𝑍 = −1,8) = 0,036. Rejeitamos 𝐻0 para qualquer nível de significância
maior que 𝑝 − 𝑣𝑎𝑙𝑜𝑟.
3. Sendo 𝑋 o número esperado de sucessos em 𝑛 = 10 provas de Bernoulli, queremos testar
𝐻0 : 𝑝 = 0,6.
a) Se o teste for unilateral e rejeitamos 𝐻0 para valores pequenos de 𝑋, determine 𝑝 −
𝑣𝑎𝑙𝑜𝑟 se o valor observado de 𝑋 for 3. R. 𝑋 ~ 𝑏(10; 𝑝) e 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃((𝑋 ≤
3|𝑋~ 𝑏(10; 0,6)) = 0,055
usualmente usado, pode-se dizer que a teoria do pesquisador não foi confirmada. Assim, o teste não consegue
discriminar qual é o melhor grupo. Como 𝐻0 não é rejeitada, é possível que o pesquisador não usou 𝑛
suficientemente grande (poder de adequado) e por isso não conseguiu discriminar os grupos.
8. Um pesquisador obtém 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,002 para um experimento. Outro pesquisador, na
tentativa de repelir o trabalho, obtém-se 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,2. Dê uma explicação para esta
discrepância, levando em consideração apenas os conceitos fundamentais de teste de
hipóteses. Quais são as informações necessárias para melhor identificar a origem do
problema? R. Verificar quais foram as hipótese nula (𝐻0 ) e a alternativa (𝐻1 ); verificar qual foi o nível de
significância fixado para o teste; verificar qual foi i tipo de teste utilizado; verificar qual foi a região crítica
determinada no teste; verificar qual foi o 𝑛 utilizado em ambos os testes.
Nas seções anteriores foi apresentado testes para verificar a igualdade entre duas médias,
duas variância dentre outras técnicas para testar uma hipótese prévia. Nesta seção discutiremos
um método estatístico, desenvolvido por Fischer, que através de testes de igualdades das
médias, verifica se determinado(s) fator(es) produz(em) mudanças sistemáticas no
comportamento da variável em estudo (de interesse). Os fatores propostos podem ser variáveis
quantitativas ou qualitativas, enquanto a variável dependente deve ser quantitativa intervalar e
é observada dentro das classes dos fatores, aqui chamados tratamentos. Para entendimento,
suponha que o pesquisador queira analisar se o consumo de combustível dos veículos
automotores sofre alguma influência de fatores como marca, idade e potência. Por meio da
Análise da Variância (ANOVA) é possível verificar se os fatores marcas, idade e potência ou
uma combinação destes produzem efeitos apreciáveis sobre o consumo, ou se concluir que tais
fatores não têm influência sobre o consumo. Nestas notas é apresentado os fundamentos desse
método. Para estudos mais aprofundados sugiro ao leitos consultar livros que tratam
exclusivamente desse assunto.
Hipótese do Modelo
Caso estas hipótese não sejam satisfeitas, não se garante a confiabilidade das análises
feitas por este método.
Neste caso é considerado um único fator (visto como variável independente) que é
dividido em tratamentos ou níveis do fator. Basicamente divide a variabilidade em
variabilidade Entre Grupos e variabilidade Dentro de Grupos, e compara as duas. Dessa forma,
quanto maior for a primeira comparada à segunda, maior é a evidência de que existe
variabilidade entre grupos, ou seja, médias diferentes. A variável de estudo é definida através
de 𝑛 amostras de cada tratamento. A configuração para esse caso é apresentada na Tabela 7.4:
Tabela 7.4
Tratamentos ( níveis do fator ou grupos) (𝑖)
𝑛𝑖
1
𝑥̅𝑖 = ∑ 𝑥𝑖𝑗 , 𝑐𝑜𝑚 𝑖 = 1, 2, 3, ⋯ , 𝑘 (7.27)
𝑛𝑖
𝑗=1
𝑘 𝑛𝑖
1 𝑋⋅⋅
𝑥̅ = ∑ ∑ 𝑥𝑖𝑗 𝑜𝑢 𝑥̅ = (7.28)
𝑁 𝑁
𝑖=1 𝑗=1
em que 𝑁 = total de observações. Perceba que aqui existem 𝑘 níveis de tratamento (níveis do
fator ou grupos) e cada um possui uma variância amostral. Denotando por 𝜇1 , 𝜇2 , 𝜇3 , ⋯ , 𝜇𝑘 as
médias de cada um desses grupos, o pesquisador pode desejar testar a hipótese de que todos os
tratamentos tenham médias iguais, isto é, testar a hipótese nula 𝐻0 dada abaixo
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑘
𝐻1 : 𝜇𝑟 ≠ 𝜇𝑠 para 𝑟 ≠ 𝑠
𝑘 𝑛𝑖 𝑘 𝑛𝑖
2 2 (𝑋∙∙ )2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ ) = ∑ ∑(𝑥𝑖𝑗 ) − (Soma de Quadrados Total)
𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑘 𝑘
(𝑋𝑖∙ )2 (𝑋∙∙ )2
𝑆𝑄𝐸 = ∑ 𝑛𝑖 (𝑥̅𝑖∙ − 𝑥̅ )2 = ∑ − (Soma de Quadrados Entre Grupos)
𝑛𝑖 𝑁
𝑖=1 𝑖=1
𝑘 𝑛𝑖
2
𝑆𝑄𝑅 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖∙ ) = 𝑆𝑄𝑇 − 𝑆𝑄𝐸 (Soma de Quadrados Residual)
𝑖=1 𝑗=1
estimador 𝑆𝑒2 leva-se em consideração as médias dos 𝑘 tratamentos e a média geral 𝑥̅ . Então, se
𝐻0 for verdadeira teremos para cada média
2 (𝑥̅
𝜎2
𝐸[𝑥̅𝑖 ] = 𝜇 e𝜎 𝑖) = (7.29)
𝑛𝑖
𝜎2
𝑥̅𝑗 ~𝑁 (𝜇; ) (7.30)
𝑛𝑖
então
𝑘
2
1
𝑆 = ∑(𝑥̅𝑖⋅ − 𝑥̅ )2 (7.31)
𝑘−1
𝑖=1
𝜎2
será um estimador justo (não viesado) para e 𝑆𝑒2 para 𝜎 2 , com 𝐸[𝑆𝑒2 ] = 𝜎 2 . por outro lado,
𝑛𝑖
se 𝐻0 não for verdadeira, 𝑆𝑒2 irá superestimar 𝜎 2 .Para o estimador 𝑆𝑟2 leva-se em consideração
cada um dos 𝑘 tratamentos. Com isso tem-se
𝑛𝑖
1 2
𝑆𝑖2 = ∑(𝑥𝑖𝑗 − 𝑥̅𝑖⋅ ) (7.32)
𝑛𝑖 − 1
𝑗=1
com 𝑖 = 1, 2, 3, ⋯ , 𝑘. O estimador da variância comum será dado pela média aritmética de 𝑆𝑖2
ponderadas pelos respectivos graus de liberdade 𝑣𝑖 = 𝑛𝑖 − 1, como em (7.33)
Neste caso, tem-se 𝐸[𝑆𝑟2 ] = 𝜎 2 sendo 𝐻0 ser verdadeira ou não, isto é, 𝑆𝑟2 é um estimador
justo da variância comum independente de 𝐻0 ser ou não ser verdadeira. Fisher mostrou que os
resultados 𝑆𝑄𝑇, 𝑆𝑄𝐸 e 𝑆𝑄𝑅 acima são aproximados por uma distribuição 2 com 𝑁 − 1; 𝑘 −
1 e 𝑁 − 𝑘 graus de liberdade respectivamente, isto é,
2 2 2
𝜒𝑁−1 = 𝜒𝑘−1 + 𝜒𝑁−𝑘 (7.34)
2
𝜒𝑘−1 𝑆𝑄𝐸
𝑘−1 𝑘−1 𝑆𝑒2
𝐹𝑐𝑎𝑙 = 2 = 𝑆𝑄𝑅 = 2 (7.35)
𝜒𝑁−𝑘 𝑆𝑟
𝑁−𝑘 𝑁−𝑘
i. Se 𝐹cal ≤ 𝐹tab , então aceita-se 𝐻0 e conclui-se com risco 𝛼 que o fator considerado
não causa efeito sobre a variável em estudo.
ii. Se 𝐹cal > 𝐹tab , então rejeita-se 𝐻0 admitindo-se a diferença ente as médias, e,
consequentemente a influência que o fator considerado exerce sobre a variável em
estudo.
Exemplo 7.13 O resultado das vendas efetuadas por 3 vendedores de uma indústria durante uma
semana é dado a seguir. Deseja-se saber, ao nível de significância de 5%, se há diferença entre
os desempenhos dos vendedores.
Vendedores
A B C
29 27 30
27 27 30
31 30 31
29 28 27
32 29
30
Solução: Vamos ampliar esta tabela de forma a obtermos os elementos necessários aos cálculos
de forma facilitada. Vejamos abaixo,
Vendedores
A B C Soma A2 B2 C2 Soma
29 27 30 841 729 900
27 27 30 729 729 900
31 30 31 961 900 961
29 28 27 841 784 729
32 29 1.024 841
30 900
Somas 178 112 147 437 5.296 3.142 4.331 12.769
Nesta tabela temos 𝑘 = 3; 𝑁 = 15. Agora calculemos os valores abaixo, considerando a tabela
acima
𝑘 𝑛𝑖
2 (𝑋∙∙ )2 (437)2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 ) − = 12.769 − = 37,73
𝑁 15
𝑖=1 𝑗=1
𝑘
(𝑋𝑖∙ )2 (𝑋∙∙ )2 (178)2 (112)2 (147)2 (437)2
𝑆𝑄𝐸 = ∑ − = + + − = 7,20
𝑛𝑖 𝑁 6 4 5 15
𝑖=1
𝑆𝑄𝑅 = 𝑆𝑄𝑇 – 𝑆𝑄𝐸 = 37,73 − 7,20 = 30,53
Como 𝐹cal = 1,41 ≤ 𝐹tab = 3,89, então aceita-se 𝐻0 e conclui-se com risco 5%de que
não há diferença entre o desempenho dos vendedores.
■
Sem repetição
Muitas vezes, ao estudarmos um processo, produto ou serviço, temos diversos fatores que
podem influenciar na característica de interesse. O termo fator é usado em um sentido geral
para denotar qualquer característica do experimento, como temperatura, tempo ou pressão, que
pode variar de uma tentativa para outra. Definimos os níveis de um fator para serem os valores
reais usados no experimento. Como antes, usaremos a técnica da ANOVA para avaliar o
impacto que estes fatores provocam na característica de interesse, ou seja, o interesse do
pesquisador é verificar que influências os fatores podem exercer na variável de estudos. Para
isto, considere um experimento com dois fatores, denominados 𝐴 e 𝐵, no qual o fator 𝐴 tem 𝑙
níveis e o fator 𝐵 tem 𝑘 níveis. Para cada um desses casos, é importante determinar não apenas
se cada um dos dois fatores influencia a resposta, mas também se há uma interação significativa
entre os dois fatores. A interação entre os fatores está associada à mudança de comportamento
de um fator nos diferentes níveis do outro fator, com relação à característica de interesse. Neste
caso, a variável dependente (a estudada) é observada em cada casela, combinação dos
tratamentos do fator B e dos blocos do fator A. Dessa forma teremos uma tabela com 𝑘 colunas
e 𝑙 linhas, ou seja, 𝑘 ∙ 𝑙 = 𝑁 observações.
Tabela 7.5
1 2 3 ⋯ 𝑘 Soma Médias
1 𝑥11 𝑥21 𝑥31 ⋯ 𝑥𝑘1 𝐿∙1 𝑥̅∙1
(linhas) (𝑗) 2 𝑥12 𝑥22 𝑥32 ⋯ 𝑥𝑘2 𝐿∙2 𝑥̅∙2
Fator A
Aqui usaremos as notações 𝑥̅𝑖 ∙ para designar a média de uma coluna 𝑖 qualquer bem como
𝑥̅∙𝑗 e 𝑥̅ para as médias de uma linha qualquer 𝑗 e a média global. Assim, considerando que 𝑖 =
1, 2, 3, ⋯ , 𝑘 e 𝑗 = 1, 2, 3, ⋯ , 𝑙e que 𝑁 = total de elementos, então fica fácil ver que
𝑙 𝑘 𝑘 𝑙
1 1 1
𝑥̅𝑖⋅ = ∑ 𝑥𝑖𝑗 𝑥̅⋅𝑗 = ∑ 𝑥𝑖𝑗 𝑥̅ = ∑ ∑ 𝑥𝑖𝑗 (7.36)
𝑙 𝑘 𝑁
𝑗=1 𝑖=1 𝑖=1 𝑗=1
para qualquer 𝑗 = 1, 2, 3, ⋯ , 𝑙.
Nossa decisão é, agora, baseada no método estatístico ANOVA com dois fatores sem
repetição. Usaremos, como antes, estimadores da variância comum 𝜎 2 só que aqui será feito
para as colunas, para as linhas e um misto entre elas. Considerando os seguintes resultados
baseados nos elementos da Tabela 7.5
𝑘 𝑙 𝑘 𝑙
2 2 (𝑋∙∙ )2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ ) = ∑ ∑(𝑥𝑖𝑗 ) −
𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑘 𝑘
(𝐶𝑖∙ )2 (𝑋∙∙ )2
𝑆𝑄𝐸𝑐 = 𝑙 ∑(𝑥̅𝑖∙ − 𝑥̅ )2 = ∑ −
𝑙 𝑁
𝑖=1 𝑖=1
𝑘 𝑘 2
2 (𝐿∙𝑗 ) (𝑋∙∙ )2
𝑆𝑄𝐸𝑙 = 𝑘 ∑(𝑥̅∙𝑗 − 𝑥̅ ) = ∑ −
𝑘 𝑁
𝑖=1 𝑗=1
𝑘 𝑙
2
𝑆𝑄𝑅 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖∙ − 𝑥̅∙𝑗 + 𝑥̅ ) = 𝑆𝑄𝑇 – 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙
𝑖=1 𝑗=1
Por outro lado, uma vez que 𝑆𝑄𝑇 = 𝑆𝑄𝐸𝑐 + 𝑆𝑄𝐸𝑙 + 𝑆𝑄𝑅temos
2 2 2 2
𝜎 2 𝜒𝑁−1 = 𝜎 2 𝜒𝑘−1 + 𝜎 2 𝜒𝑙−1 + 𝜎 2 𝜒(𝑘−1)(𝑙−1) (7.37)
ou simplesmente
2 2 2 2
𝜒𝑁−1 = 𝜒𝑘−1 + 𝜒𝑙−1 + 𝜒(𝑘−1)(𝑙−1) (7.38)
𝑁 − 1 = (𝑘 − 1) + (𝑙 − 1) + (𝑘 − 1)(𝑙 − 1) (7.39)
logo 2𝑘−1 ; 2𝑙−1 e 2(𝑘−1)(𝑙−1) são variáveis aleatórias independentes. Usando novamente o
Teorema 5.7 podemos testar a hipótese nula das médias segundo as colunas/linhas mediante as
razões.
𝑐
𝑆𝑐2
𝑝𝑎𝑟𝑎 𝑐𝑜𝑙𝑢𝑛𝑎𝑠: 𝐹𝑐𝑎𝑙 =
𝑆𝑟2
(7.40)
𝑙
𝑆𝑙2
𝑝𝑎𝑟𝑎 𝑙𝑖𝑛ℎ𝑎𝑠: 𝐹𝑐𝑎𝑙 = 2
𝑆𝑟
É importante dizer ao leitor que o fato de 𝐻0𝑐 não ser verdadeira não exclui a análise de
𝐻0𝑙 , e vice-versa. Todo este procedimento fica resumido na tabela Tabela ANOVA para dois
fatores sem repetição.
𝑆𝑄𝐸𝑐 𝑙 𝑆𝑙2
Fator A (Linhas) 𝑆𝑄𝐸𝑙 𝑙−1 𝑆𝑙2 = 𝐹cal = 𝐹𝛼 (𝑙 − 1, (𝑘 − 1)(𝑙 − 1))
𝑙−1 𝑆𝑟2
𝑆𝑄𝐸𝑐 𝑐 𝑆𝑐2
Fator B (colunas) 𝑆𝑄𝐸𝑐 𝑘−1 𝑆𝑐2 = 𝐹cal = 𝐹𝛼 (𝑘 − 1, (𝑘 − 1)(𝑙 − 1))
𝑘−1 𝑆𝑟2
𝑆𝑄𝑅
Residual (Erro) 𝑆𝑄𝑅 (𝑘 − 1)(𝑙 − 1) 𝑆𝑟2 =
(𝑘 − 1)(𝑙 − 1)
Total 𝑆𝑄𝑇 𝑁− 1
Como antes, testaremos a hipótese nula fixando certo nível 𝛼 de significância. Com isso,
𝑙
i. Se 𝐹cal ≤ 𝐹𝛼 (𝑙 − 1; (𝑘 − 1)(𝑙 − 1)), então aceita-se 𝐻0𝑙 : 𝜇𝑗 = 𝜇para qualquer 𝑗 =
1, 2, 3, ⋯ 𝑙, e conclui-se, com risco 𝛼, que o fator A não causa efeito na variável em
𝑙
estudo. Por outro lado, se 𝐹cal > 𝐹𝛼 (𝑙 − 1; (𝑘 − 1)(𝑙 − 1))rejeita-se 𝐻0𝑙 concluindo-se
pela diferença entre as médias das linhas e consequentemente influência do fator sobre
a variável em estudo.
𝑐
ii. Se 𝐹cal ≤ 𝐹𝛼 (𝑘 − 1; (𝑘 − 1)(𝑙 − 1)), então aceita-se 𝐻0𝑐 : 𝜇𝑖 = 𝜇para qualquer 𝑖 =
1, 2, 3, ⋯ 𝑘, e conclui-se, com risco 𝛼, que o fator B não causa efeito na variável em
𝑐
estudo. Por outro lado, se 𝐹cal > 𝐹𝛼 (𝑘 − 1; (𝑘 − 1)(𝑙 − 1))rejeita-se 𝐻0𝑐 concluindo-se
A presença de interação, bem como seu impacto científico, pode ser interpretada de
maneira agradável através do uso de gráficos de interação. Os gráficos claramente fornecem
uma visão pictórica da tendência nos dados de mostrar o efeito de mudar um fator à medida que
se move de um nível para outro de um segundo fator. A Figura 7.4 ilustra a elevação do fator B
pela interação do fator A em apenas uma circunstância. A interação é revelada em linhas não
paralelas.
Figura 7.4
Gráficos de interação como este dão ao cientista uma interpretação rápida e significativa
da interação que está presente. Deve ficar claro que o paralelismo nos gráficos sinaliza uma
ausência de interação. A interação entre os fatores corresponde a diferença de comportamento
de um fator nos diferentes níveis do outro fator com respeito a característica de interesse. A
interação entre os fatores está associada à mudança de comportamento de um fator nos
diferentes níveis do outro fator, com relação à característica de interesse.
Exemplo 7.14 Em uma experiência agrícola, foram usados cinco diferentes fertilizantes em duas
variedades de trigo. A produção está indicada a seguir. Verificar ao nível de 5% se (a) há
diferença na produção devido ao fertilizante; (b) há diferença na safra devido à variedade do
trigo.
Fertilizante
A B C D E
Variedade 1 54 38 46 50 44
Trigo
Variedade 2 57 42 45 53 50
Fator B
𝐴 𝐵 𝐶 𝐷 𝐸 Soma (𝐴)2 (𝐵)2 (𝐶)2 (𝐷)2 (𝐸)2 Soma
v1 54 38 46 50 44 232 2.916 1.444 2.116 2.500 1.936
Fator
A v2 57 42 45 53 50 247 3.249 1.764 2.025 2.809 2.500
Somas 111 80 91 103 94 479 6.165 3.208 4.141 5.309 4.436 23.259
𝑙
Conclusão: Para o fator A (variedade de trigo) obtivemos 𝐹cal = 6,92 < 𝐹5% (1; 4) =
7,71, portanto aceita-se 𝐻0𝑙 , ou seja, a variedade de trigo não altera a produção. Já para fator
𝑐
B(fertilizantes) obtivemos 𝐹cal = 21,49 > 𝐹5% (4; 4) = 6,39, portanto rejeita-se 𝐻0𝑐 , ou seja, a
o tipo de fertilizantes usado apresenta influência na produção de trigo.
■
Com repetição
A diferença desta seção para a anterior está no formato da tabela de distribuição dos
valores observados. Neste caso teremos dois fatores: fator B colunas 𝒊 com 𝑏 elementos, ou
seja, 𝑖 = 1, 2, 3, ⋯ , 𝑏; o fator A linhas 𝒋 distribuído em 𝑎 blocos, ou seja, 𝑗 = 1, 2, 3, ⋯ , 𝑎, e
cada bloco terá, cada um,(𝑛) linhas. Dessa forma, um elemento da tabela, indicado por 𝑥𝑖𝑗𝑘 ,
estará no bloco 𝑖 na, na coluna 𝑗 e na linha 𝑘. Neste caso, o essencial é que os blocos reúnem
unidades com características equivalentes (similares) e que haja certa variabilidade entre eles.
Não teria sentido organizar esses blocos se não houvesse variabilidade entre eles. Quem vai
decidir se a variabilidade entre as unidades justifica ou não a formação de blocos é o
pesquisador, não o estatístico.
Tabela 7.6
Fator B (colunas (𝑖) )
1 2 3 ⋯ b Soma Média
1 𝑥111 𝑥121 𝑥131 𝑥1𝑏1 𝐿1∙1 𝑥̅1∙1
⋯
(blocos (𝑗) )
Bloco 1 ⋯
⋮ ⋮ ⋮ ⋮ ⋮
⋯
𝑛 𝑥11𝑛 𝑥12𝑛 𝑥13𝑛 𝑥1𝑏𝑛 𝐿1∙𝑛 𝑥̅1∙𝑛
É fácil ver que esta tabela possui um total de 𝑁 = 𝑎𝑏𝑛 observações. É importante
salientar que neste caso haverá mais de um valor correspondente a um tratamento e um bloco.
Aqui usaremos as notações 𝑥̅∙𝑖∙ para designar a média de uma coluna 𝑖 bem como 𝑥̅𝑗∙𝑘 a média
de uma linha 𝑘 dentro do bloco 𝑎, 𝑥̅𝑗𝑖∙ (não aparece na Tabela 7.6) indica a média da coluna 𝑖
dentro do bloco 𝑗, e, 𝑥̅ indica a média global. Para não escrevermos toda a teoria aqui, vamos
dizer que os valores abaixo atendem a todos os requisitos necessários para se usar a distribuição
𝐹 de Snedecor segundo o Teorema 5.7.
𝑏 𝑎 𝑛 𝑏 𝑎 𝑛
2 (𝑋∙∙∙ )2 2
𝑆𝑄𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 − 𝑥̅ ) = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 ) −
𝑁
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1 𝑘=1
𝑎 𝑎 2
2 (∑𝑛𝑘=1 𝐿𝑗∙𝑘 ) (𝑋∙∙∙ )2
𝑆𝑄𝐸𝑙 = 𝑏𝑛 ∑(𝑥̅𝑗∙𝑘 − 𝑥̅ ) = ∑ −
𝑏𝑛 𝑁
𝑗=1 𝑗=1
𝑏 𝑏
(𝐶∙𝑖∙ )2 (𝑋∙∙∙ )2
𝑆𝑄𝐸𝑐 = 𝑎𝑛 ∑(𝑥̅∙𝑖∙ − 𝑥̅ )2 = ∑ −
𝑎𝑛 𝑁
𝑖=1 𝑖=1
𝑏
(∑𝑛𝑘=1 𝑥𝑖∙𝑘 )2 (𝑋∙∙∙ )2 (∑𝑛𝑘=1 𝑥𝑖∙𝑘 )2 indica a soma de cada
𝑆𝑄𝑆𝑢𝑏 = ∑ −
𝑛 𝑁 coluna, dentro do bloco 𝑖, ao quadrado.
𝑖=1
𝑏 𝑎 𝑛
2
𝑆𝑄𝐼𝑡 = ∑ ∑ ∑(𝑥̅𝑖𝑗∙ − 𝑥̅∙𝑖∙ − 𝑥̅𝑗∙𝑘 + 𝑥̅ ) = 𝑆𝑄𝑆𝑢𝑏 – 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙
𝑖=1 𝑗=1 𝑘=1
𝑏 𝑎 𝑛
2
𝑆𝑄𝑅 = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 − 𝑥̅ 𝑖𝑗∙ ) = 𝑆𝑄𝑇 − 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙 − 𝑆𝑄𝐼𝑡
𝑖=1 𝑗=1 𝑘=1
Após a construção desta tabela, fazer a comparativa entre os 𝐹cal com os 𝐹tab e decidir
sobre a aceitação ou não da hipótese nula em cada caso.
Exemplo 7.15 Em um experimento conduzido para determinar qual de três sistemas de mísseis
é preferível, foi medida a taxa de queima de propelentes para 24 lançamentos estáticos. Quatro
tipos diferentes de propelentes foram usados. O experimento rendeu observações duplicadas
das taxas de queima em cada combinação de tratamentos. Os dados, depois de codificados, são
fornecidos na tabela abaixo.
Tipos de propelentes
𝑝1 𝑝2 𝑝3 𝑝4
𝑚1 34,0 30,1 29,8 29,0
32,7 32,8 26,7 28,9
Sistema de 𝑚2 32,0 30,2 28,7 27,6
mísseis 33,2 29,8 28,1 27,8
𝑚3 28,4 27,3 29,7 28,8
29,3 28,9 27,3 29,1
𝐼𝑡
Interação (𝑓1 𝑓2) 22,16 6 𝑆𝐼𝑡2 = 3,69 𝐹cal = 2,97 𝐹5% (6; 12) = 3,00
Dentro dos grupos 14,91 12 𝑆𝑟2 = 1,24
Total 91,68 23
baseando-se nos resultados apresentados na tabela ANOVA – dois fatores com repetição
conclui-se que;
𝑙
a) 𝐻0′ deve ser rejeitada, pois 𝐹cal = 5,84 > 𝐹5% (2; 12) = 3,89. Ou seja, diferentes
sistemas de mísseis resultam em diferentes médias de taxa de queima de propelentes.
𝑐
b) 𝐻0′′ deve ser rejeitada, pois 𝐹cal = 10,75 > 𝐹5% (3; 12) = 3,49. Ou seja, a média das
taxas de queima do propelente não é a mesma para os quatro tipos de propelentes.
𝐼𝑡
c) 𝐻0′′′ deve ser aceita, pois 𝐹cal = 2,97 < 𝐹5% (6; 12) = 3,00. Ou seja, a interação é
quase insignificante no nível de 5%. Porém a interação deve ser levada, visto que a
diferença foi bem pequena.
■
81 87 93
Há alguma diferença significativa na média das vendas diárias dessa marca de comida para
cachorro com base na altura das prateleiras? Faça sua análise considerando um nível de
significância de 2,5%. R. 𝐹cal = 14,52 e concluir que há sim uma diferença significativa na média das
vendas diárias com base na altura das prateleiras.
4. Planta-se quatro tipos diferentes de sementes de café em cinco tipos diferentes de solo,
distribuídos em blocos. Cada bloco é dividido em quatro lotes, pelos quais se distribuem,
então, aleatoriamente, os quatro tipos de sementes. Ao nível de significância de 0,05, teste
se a produção, indicada na tabela abaixo, varia significativamente
𝑙
a) Devido ao solo (isto é os cinco blocos) R. 𝐹cal = 0,65. Não há diferença devido ao solo
𝑐
b) Devido à variedade de sementes de café usadas. R. 𝐹cal = 5,83. Há diferença devido à variedade
de café.
Tipos de Tipos de café
solo T1 T2 T3 T4
A 15 12 10 14
B 19 15 12 11
C 18 14 15 12
D 16 11 12 16
E 17 16 11 14
5. Os dados s seguir representam, em segundos, o tempo gasto pó cinco operários para realizar
certa tarefa, usando três máquinas diferentes. Considerando um nível de significância de 5%,
verifique se há diferenças entre máquinas e entre os operários.
Máquinas
Operário
A B C
1 40 59 42
2 39 55 51
3 47 55 45
4 45 50 40
5 52 52 41
6. São feitas cinco misturas da mesma liga metálica e para cada mistura serão efetuadas seis
determinações de densidade. Os resultados são:
Densidade
Mistura A 3,6 3,5 3,7 3,1 3,1 3,2
Mistura B 3,3 3,5 3,4 3,2 3,4 3,4
Mistura C 3,5 3,3 3,4 3,4 3,3 3,2
Mistura D 3,5 3,4 3,0 3,3 3,3 3,8
Mistura E 3,7 3,4 3,6 3,5 3,6 3,4
Há evidências de que certas misturas tenham densidade média maior do que outra?
Considere um nível de significância de 5%.
7. Um experimento foi conduzido para estudar o efeito da temperatura e do tipo do forno na
vida útil de certo componente. Quatro tipos de fornos e três níveis de temperatura foram
usados no experimento. Vinte e quatro peças foram atribuídas aleatoriamente duas para cada
combinação de tratamentos, e os resultados foram registrados a seguir
Temperatura Fornos
(Graus) O-1 O-2 O-3 O-4
500 227 214 225 260
221 259 236 229
550 187 181 232 246
208 179 198 273
600 174 198 178 206
202 194 213 219
11 103 32 47 7 46
Anodizado 123 9 30 13 38 40
53 21 6 39 13 32
13 148 25 87 58 52
Conversão 84 52 10 75 40 75
159 75 84 57 84 52
Faça uma análise da variância, com 𝛼 = 0,05, para testar os efeitos principais e os efeitos
de interação.
9. Um experimento foi conduzido para aumentar a adesão de produtos de borracha. Dezesseis
produtos foram feitos com um novo aditivo e 16 produtos sem ele. A adesão observada foi
registrada a seguir.
Temperatura (oC)
50 60 70 80
2,3 3,4 3,8 3,9
2,9 3,7 3,9 3,2
Sem aditivos
31, 3,6 4,1 3,0
3,2 3,2 3,8 2,7
4,3 3,8 3,9 3,5
3,9 3,8 4,0 3,6
Com aditivos
3,9 3,9 3,7 3,8
4,2 3,5 3,6 3,9
Faça uma análise de variância para testar se os efeitos principais e os efeitos de interação são
significantes.
10. Um engenheiro elétrico está investigando um processo de corrosão de plasma usado na
fabricação de semicondutores. O interesse é estudar o efeito de dois fatores, a taxa de fluxo
do gás 𝐶2 𝐹6 (A) e a força aplicada no catodo (B). A resposta é o índice de corrosão. Cada
fator é executado em três níveis e duas execuções experimentais, na taxa de corrosão, são
feitas para cada uma das nove combinações. A estrutura é a de um delineamento
completamente aleatorizado. Os dados são fornecidos na tabela abaixo. A taxa de corrosão
está em 𝐴𝑜 \min.
Taxa de Fluxo Força fornecida
de 𝐶2 𝐹6 . 1 2 3
Mostre uma tabela de análise de variância e cheque a conclusão de que não há uma forte
interação ente os dois fatores. R. 𝐹cal = 1,02. Logo, não se pode concluir que haja uma interação
significante.
Tabela 8.1
Variável
Indivíduo
𝑋1 𝑋2 ⋯ 𝑋𝑗 ⋯ 𝑋𝑚
𝐴1 𝑥11 𝑥12 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑚
𝐴2 𝑥21 𝑥22 ⋯ 𝑥2𝑗 ⋯ 𝑥2𝑚
⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝑖 𝑥𝑖1 𝑥𝑖2 ⋯ 𝑥𝑖𝑗 ⋯ 𝑥𝑖𝑚
⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝑛 𝑥𝑛1 𝑥𝑛2 ⋯ 𝑥𝑛𝑗 ⋯ 𝑥𝑛𝑚
Em algumas situações, podemos ter dois (ou mais) conjuntos e dados provenientes da
observação da mesma variável. Por exemplo, podemos ter um conjunto de dados
{𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 }, que indicam as temperaturas da cidade A, durante 𝑛 meses, e outro conjunto de
dados {𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 } que são as temperaturas da cidade B, nos mesmos meses. Para efeito de
análise, podemos considerar que o primeiro conjunto são observações da variável𝑋:
Temperatura da cidade A, enquanto o segundo conjunto são observações da variável 𝑌:
Temperatura da cidade B. Quando consideramos duas variáveis (ou dois conjuntos de dados),
podemos ter três situações:
(a) as duas variáveis são qualitativas;
(b) as duas variáveis são quantitativas; e
(c) uma variável é qualitativa e outra quantitativa.
As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são
qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de contingência), onde
aparecerão as frequências absolutas ou contagem de indivíduos que pertencem
simultaneamente a categorias de uma e outra variável. Quando as duas variáveis são
quantitativas, as observações são provenientes de mensurações, e técnicas como gráficos de
dispersão são apropriadas. Quando temos uma variável qualitativa e outra quantitativa, em geral
analisamos o que acontece com a variável quantitativa quando os dados são categorizados de
acordo com os diversos atributos da variável qualitativa. Contudo, em todas as situações, o
objetivo é encontrar as possíveis relações ou associações entre as duas variáveis. Essas relações
podem ser detectadas por meio de métodos gráficos ou medidas numéricas. De uma forma geral,
a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes
de contingência, de correlação ou de associação. O primeiro é para variáveis qualitativas. Essas
são medidas que descrevem, por meio de um único número, a associação (ou dependência)
entre duas variáveis. Esses coeficientes usualmente variam entre 0 e 1, ou entre −1 e +1 (caso
do segundo coeficiente), e a proximidade de zero indica falta de associação.
Exemplo 8.1 Suponha que queiramos analisar o comportamento conjunto das variáveis 𝒀: grau
de instrução e 𝑽: região de procedência, cujas observações estão contidas na Tabela 8.2 abaixo
Tabela 8.2 Distribuição conjunta das frequências das variáveis: grau de instrução (Y) e região
de procedência (V)
Y Ensino
Ensino Médio Superior Total
V Fundamental
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais
fornece a distribuição V. As distribuições assim obtidas são chamadas tecnicamente de
distribuições marginais, enquanto a Tabela 8.1 constitui a distribuição conjunta de Y e V. Em
De acordo com o objetivo do problema em estudo, uma delas será mais conveniente. A
Tabela 8.3 abaixo apresenta a distribuição conjunta das frequências relativas, expressa como
proporção do total geral, com aproximação de uma casa decimal.
Tabela 8.3 Distribuição conjunta das frequências das variáveis: grau de instrução (Y) e região
de procedência (V) em relação ao total
Ensino
Ensino Médio Superior Total
Fundamental
Capital 11,1% 13,9% 5,6% 30,6%
Interior 8,3% 19,4% 5,6% 33,3%
Outra 13,9% 16,7% 5,6% 36,1%
Total 33,3% 50,0% 16,5% 100,0%
Podemos, então, afirmar que 11,1% dos empregados vêm da capital e têm ensino
fundamental. Os totais nas margens fornecem as distribuições unidimensionais de cada uma das
variáveis. Por exemplo, 33,3% dos indivíduos têm ensino fundamental, 30,6% dos indivíduos
vêm da capital, e assim por diante. A Tabela 8.4 apresenta a distribuição das proporções em
relação ao total das colunas. Podemos dizer que, entre os empregados com instrução até o
ensino fundamental, 33,3% vêm da capital, ao passo que 27,8% vêm da capital. Esse tipo de
tabela é muito útil quando se deseja comparar a distribuição de procedência dos indivíduos
conforme o grau de instrução. O leitor mais atento certamente já relacionou a ideia de
analisarmos os totais da linhas ou colunas com as distribuições marginais estudadas na Seção
3.3 do Capítulo 3. Certamente as duas ideias são equivalentes e tratam do mesmo conceito.
Tabela 8.4 Distribuição conjunta das frequências das variáveis grau de instrução (Y) e região
de procedência (V) em relação as colunas
Ensino
Ensino Médio Superior Total
Fundamental
Capital 33,3% 27,8% 33,3% 30,6%
Podemos ainda comparar as duas variáveis utilizando uma representação gráfica. Uma
possível representação gráfica da Tabela 8.4 é dada na Figura 8.1
Figura 8.1
Tabela 8.5 Distribuição conjunta dos alunos segundo o sexo (X) e o curso escolhido (Y)
Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à
diferença entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas
ou as colunas para podermos fazer comparações. Usaremos os mesmos conceitos vistos na
Seção 3.3 do Capítulo 3 onde discutimos a dependência entre variáveis aleatórias. Aqui tratarei
o assunto de forma mais dedutiva. A Tabela 8.6 possui a distribuição das porcentagens
considerando o total geral como 100%.
Tabela 8.6 Distribuição conjunta dos alunos segundo o sexo (X) e o curso escolhido (Y)
Masculino Feminino Total
Economia 42,5% 17,5% 60%
Administração 27,5% 12,5% 40%
Total 70% 30% 100%
A partir dessa tabela podemos observar que independentemente do sexo, 60% das pessoas
preferem Economia contra 40% que preferem Administração (observe na coluna de total). Não
havendo dependência entre as variáveis, esperaríamos que as proporções em cada casela
(célula) seja exatamente o produto das proporções marginais correspondentes, isto é, na casela
Economia - Masculino, por exemplo, seria esperado (0,70) ⋅ (0,60) = 0,42 ou 42%. Note que
este resultado esperado é muito próximo do valor de fato observado. Realizando todas as
verificações observamos que as proporções de todas as caselas são muito próximas do produto
das respectivas proporções marginais. Esses resultados parecem indicar não haver dependência
entre as duas variáveis, para o conjunto de alunos considerado. Concluímos então, neste caso,
que as variáveis sexo e escolha do curso parecem ser não associadas.
Para entendermos melhor essas ideias, vamos analisar um exemplo semelhante, mas
envolvendo alunos de Física e Ciências Sociais, cuja distribuição está na Tabela 8.7. Digamos
que há fortes suspeitas que a escolha do curso superior sofre influência do sexo do candidato.
Tabela 8.7 Distribuição conjunta das frequências e proporções (em porcentagem), segundo o
sexo (X) e o curso escolhido (Y)
Pela leitura inicial da tabela não é possível decidir sobre tal questão. Uma forma de
sabermos sobre essa possível influência é comparar as proporções, em cada uma das caselas,
com o produto das proporções marginais correspondentes. Assim é possível observamos se há
uma disparidade ou não entre os resultados observados e os valores esperados. De fato, foram
observados que 50% dos alunos são do sexo masculino e cursam Física. Calculando o produto
140 120 42
das porcentagens marginais correspondentes obtemos (200) ⋅ (200) = 100 = 42% que
corresponde à proporção esperada caso não houvesse associação entre as variáveis. Perceba que
o valor observado é maior que o valor esperado, confirmando a hipótese de que possivelmente
há alguma dependência entre as variáveis sexo e curso escolhido. Isto pode ser percebido mais
claramente usando o coeficiente de contingência, que veremos mais adiante. A priori note que
é maior a concentração de homens no curso de Física do que de mulheres no mesmo curso,
portanto, neste caso, as variáveis sexo e curso escolhido parecem ser associadas. Estes mesmos
resultados são obtidos calculando as proporções, mantendo constantes os totais nas linhas, e/ou
colunas. É possível quantificar a associação entre variáveis qualitativas com o chamando
coeficiente de contingência, devido a K. Pearson que por motivos didáticos não será discutido
aqui. Nestas notas, usaremos o teste do Qui-quadrado para testar a hipótese de associação entre
as variáveis analisadas.
De modo geral, supondo que duas variáveis qualitativas 𝑋 e 𝑌, estejam presentes num
experimento estatístico, classificadas em duas categorias segundo uma tabela com (𝑛)
categorias 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 para 𝑋 e (𝑚) categorias 𝐵1 , 𝐵2 , ⋯ , 𝐵𝑚 para 𝑌. A Tabela 8.8 descreve
como melhor distribuir as categorias das variáveis 𝑋 e 𝑌 envolvidas. É importante o leitor ficar
atento por que o copo da tabela mostra os valores conjuntos das variáveis envolvidas e não as
probabilidades, como foi discutido no Capítulo 3.
Na tabela pomos 𝑜𝑖𝑗 para indicar o elemento pertencente à 𝑖 − é𝑠𝑖𝑚𝑎 linha e 𝑗 − é𝑠𝑖𝑚𝑎
coluna. Também explicitamos
ℓ
para 𝑖 = 1, 2, ⋯ e 𝑗 = 1, 2, ⋯.
𝑛⋅𝑗 ⋅ 𝑛𝑖⋅
𝑒𝑖𝑗 = (8.1)
𝑛
Definimos como resíduo ou desvio como a diferença entre o valor observado e o valor
esperado em cada casela, isto é, (𝑜𝑖𝑗 − 𝑒𝑖𝑗 ). Dessa forma, o desvio pode ser positivo ou
negativo, conforme o valor observado seja maior ou menor que o valor esperado
respectivamente, o que dificulta nossa interpretação sobre qual casela possui maior ou menor
desvio. É possível mostrar que a soma de todos os resíduos produzidos é nula, mesmo na
hipótese de haver alguma dependência entre as variáveis 𝑋 e 𝑌. Por causa disto, uma forma de
compara os desvios é, então, considerar, para cada casela, o valor
2
(𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
(8.2)
𝑒𝑖𝑗
Usando (8.2) é possível dizer, de forma simples, qual casela possui maior desvio. Uma
medida do afastamento global pode, então, ser calculada considerando a soma de todas as
medidas (8.2). O valor dessa soma estabelece ou quantifica o grau de associação entre as
variáveis 𝑋 e 𝑌. É possível mostrar que a soma de todos os resultados de (8.2) tem distribuição
Qui-Quadrado -𝜒 2 com 𝑣 = (ℓ − 1) ⋅ (𝒸 − 1) graus de liberdade, sendo ℓ o número de linhas
e 𝒸 o de colunas da tabela de contingência. De forma resumida temos a estatística calculada
𝑙 𝑐 2
2
(𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒cal = ∑∑ (8.3)
𝑒𝑖𝑗
𝑖=1 𝑗=1
Sendo verdadeira a hipótese de não associação, o valor obtido em (8.3) deve estar próximo
de 0 (zero). Se as variáveis tiverem alguma associação, o valor de 2cal tende a ser grande,
conforme for a força dessa associação. Uma forma de avaliar essa associação é usar o teste Qui-
Quadrado sob as hipóteses 𝐻0 e 𝐻1 como enunciadas
Para decidirmos se (8.3) é um valor grande ou ocorreu por mero acaso, devemos recorrer
à distribuição de probabilidade de 𝜒 2 sob 𝐻0 (hipótese nula) mediante certo grau de
confiabilidade (1 − 𝛼). Aqui, o valor 𝛼 é chamado de nível de significância. Os valores pouco
prováveis de ocorrência de 𝜒 2 formam uma Região de Rejeição (RR) da hipótese de associação.
2
Perceba que devemos obter duas estatísticas, a saber, 𝜒cal , obtido diretamente dos dados das
2
amostras, e, 𝜒(𝑣,𝛼) observado na tabela II que depende do número de graus de liberdade e do
2 2 2 2
nível de significância adotado. Assim se tivermos 𝜒cal ≥ 𝜒(𝑣,𝛼) , rejeita-se 𝐻𝑜 ;se 𝜒cal < 𝜒(𝑣,𝛼) ,
aceita-se 𝐻𝑜 . Dessa forma a Região de Rejeição do teste Qui-Quadrado segundo 𝐻0 é
2
𝑅𝑅 = {𝜒𝑣2 ∶ 𝜒𝑣2 > 𝜒(𝑣,𝛼) } (8.4)
2
Sendo 𝜒(𝑣,𝛼) obtido por meio da tabela II. A figura Figura 8.2 ilustra essa situação.
Figura 8.2
O teste do Qui-Quadrado é, essencialmente, um mecanismo pelo qual os desvios de uma
proporção hipotética são reduzidos a um único valor, que permite determinar uma probabilidade
a respeito da casualidade ou não dos desvios entre as proporções observadas e esperadas.
Quando se usa o teste Qui-Quadrado determina-se intuitivamente uma probabilidade (𝑝) de
2
ocorrência de um determinado acontecimentoà direita do valor calculado 𝜒cal , mediante a
aceitação da hipótese nula, a qual chamamos de 𝑝 − 𝑣𝑎𝑙𝑜𝑟,obtido como em (8.5).
2
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝜒𝑣2 > 𝜒cal | 𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎) (8.5)
Figura 8.3
2
Uma vez que 𝜒cal se baseia nas diferenças entre valores observados e esperados, uma
concordância (associação entre as variáveis) entre valores observados e esperados levará a um
2
pequeno valor de 𝜒cal e a um grande valor 𝑝 − 𝑣𝑎𝑙𝑜𝑟, enquanto que uma discrepância (não
associação entre as variáveis) entre valores observados e esperados levará a um grande valor de
2
𝜒cal e a um pequeno valor 𝑝 − 𝑣𝑎𝑙𝑜𝑟. O valor crítico e a região crítica se localizam no extremo
direito da distribuição (unilateral à direita).
Exemplo 8.2 Suponha que queremos investigar se a criação de determinado tipo de cooperativa
está associado com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 8.9.
Baseados nesses dados, discuta a existência de tal associação.
Tabela 8.9 Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras
São Paulo 214 237 78 119
Paraná 51 102 126 22
Rio G. do Sul 111 304 139 48
Solução: Primeira coisa a ser feita, refazer a Tabela 8.9 destacando os percentuais de cada casela.
O resultado está na Tabela 8.10
Tabela 8.10 Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras Total
São Paulo 214 (13,8%) 237 (15,3%) 78 (5%) 119 (7,7%) 648 (41,8%)
Uma análise simples da Tabela 8.10 revela existência de certa relação entre as variáveis,
pois a porcentagem em cada casela não necessariamente é o produto das porcentagens
marginais correspondentes. Caso não haja relação entre as variáveis, os valores observados e
os esperados se coincidem. Pelos dados apresentados, esperaríamos que no estado de São Paulo
tivéssemos 10,13% de cooperativas de consumidores, 17,32% de cooperativas de produtores,
9,23% de escolas e 5,09% de outros tipos. Para exemplificar, na casela São Paulo-Consumidor
376 648
o produto das porcentagens marginais é (1551) ⋅ (1551) = 0,1013 que corresponde exatamente
ao valor esperado para tal casela. A Tabela 8.11 descreve os valores observados e dentro dos
parênteses os valores esperados calculados segundo (8.1).
Tabela 8.11 Valores observados e esperados na Tabela 8.9 assumindo a independência entre as
variáveis
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras Total
São Paulo 214 (157) 237 (269) 78 (143) 119 (79) 648 (41,8%)
Paraná 51 (73) 102 (125) 126 (67) 22 (37) 301 (19,4%)
Rio G. do Sul 111 (146) 304 (249) 139 (133) 48 (73) 602 (38,8%)
Total 376 (24,2%) 643 (41,5%) 343 (22,1%) 189 (12,2%) 1.551 (100%)
leitor testar com as demais caselas. Agora vamos calcular os desvios entre o valor observado e
o valor esperado, em cada casela, obtendo assim a Tabela 8.12
Para calcular a contribuição que cada casela produz para o Qui-quadrado, usa-se (8.2) em
(78−143)2
cada casela. Por exemplo em São Paulo-Escola obtemos = 29,54 e para a casela
143
(126−67)2
Paraná-Escola obtemos = 51,95, o que é uma indicação de que o desvio devido a essa
67
última casela é “maior” do que aquela da primeira. A Tabela 8.13 abaixo descreve todos os
valores de (8.2) em cada casela.
Tabela 8.13 Contribuição de cada casela ao Qui-quadrado - Valores obtidos usando (8.2)
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras
São Paulo 20,69 3,81 29,54 20,25
Paraná 6,63 4,23 51,95 6,08
Rio G. do Sul 8,38 12,15 0,27 8,56
2cal = 20,69 + 6,63 + 8,38 + 3,81 + 4,23 + 12,15 + 29,54 + 51,95 + 0,27 + 20,25 + 6,08 + 8,56
= 172,54
2
Considerando 𝛼 = 5% e 𝑣 = 6, obtemos 𝜒(6,5%) = 12,5916 usando a tabela II. Assim a
Região de Rejeição é 𝑅𝑅 = {𝜒62 ∶ 𝜒62 > 12,5916}. Como2cal = 172,54, é imediato que
pertence à Região de Rejeição, assim rejeita-se a hipótese de não associação. Logo, conclui-se
que há evidências de uma associação entre as variáveis, isto é, ao nível de 95% de confiança
pode-se dizer que a criação de determinado tipo de cooperativa está fortemente relacionada a
fatores regionais.(o valor de 𝑝 − 𝑣𝑎𝑙𝑜𝑟 é numericamente nulo neste exemplo).
Quando as variáveis envolvidas são ambas do tipo quantitativas, pose-se usar o mesmo
tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas.
De modo análogo, a distribuição conjunta pode ser resumida em tabelas de dupla entrada e, por
meio das distribuições marginais, é possível estudar a associação das variáveis. E, claro, além
desse tipo de análise, as variáveis quantitativas são passíveis de procedimentos analíticos e
gráficos mais refinados. Em alguns casos, para evitar um grande número de entradas,
agrupamos os dados marginais em intervalos de classes. Um recurso gráfico bastante útil para
se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados
quantitativos é o gráfico de dispersão, que veremos por meio de exemplos.
Tabela 8.14 Número de anos de serviços (X) por o número de clientes (Y).
Agente Anos de serviços (X) Número de clientes (Y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
Figura 8.4
Prof. Me. Erivelton Vitor
310 Probabilidade e Estatística
Exemplo 8.4 Outro exemplo é considerar um estudo sobre o gasto de um conjunto de famílias
com saúde. A Tabela 8.15 traz os resultados de uma amostra de dados, onde definimos as
variáveis X: renda bruta (expressa em número de salários mínimos) e Y: a porcentagem da
renda bruta anual gasta com assistência médica.
Tabela 8.15 Renda bruta mensal (X) e porcentagem da renda gasta em saúde (Y) para um
conjunto de famílias
Gastos com saúde
Família Renda bruta (X)
(% da renda bruta) (Y)
A 12 7,2
B 16 7,4
C 18 7,0
D 20 6,5
E 28 6,6
F 30 6,7
G 40 6,0
H 48 5,6
I 50 6,0
J 54 5,5
Figura 8.5
Prof. Me. Erivelton Vitor
Análise Conjunta de Variáveis 311
Uma observada mais atenta ao gráfico de dispersão nota-se que existe uma associação
“inversa” (decrescente), isto é, aumentando a renda bruta, diminui a porcentagem sobre o gasto
em assistência médica.
■
Exemplo 8.5 Considere um estudo para avaliar associação entre o conhecimento da língua
inglesa e o tempo, em minutos, necessários para operar uma determinada máquina. Os
resultados estão dispostos na Tabela 8.16
Tabela 8.16 Resultado de um teste (X) e tempo de operação de máquina (Y) para oito
indivíduos
Família Resultado mo Teste Tempo (minutos)
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375
Figura 8.6
Prof. Me. Erivelton Vitor
312 Probabilidade e Estatística
Definição 8.1 Dados (𝒏) pares de valores (𝒙𝟏 , 𝒚𝟏 ), (𝒙𝟐 , 𝒚𝟐 ), ⋯ , (𝒙𝒏 , 𝒚𝒏 ), chamaremos de
coeficiente de correlação linear entre as duas variáveis 𝑿 e 𝒀 a
𝑛
1 𝑥𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅
𝑐𝑜𝑟𝑟(𝑋, 𝑌) = ∑ [( )⋅( )] (8.6)
𝑛 𝑑𝑝(𝑋) 𝑑𝑝(𝑌)
𝑖=1
ou seja, a média dos produtos dos valores padronizados das variáveis. O leitor atento certamente
notou a semelhança entre esta definição e a Definição 3.17.
Da mesma forma, teremos que −1 ≤ 𝑐𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1 assim, é esperado que quanto mais
próximo de +1 exista uma forte associação crescente (positiva) entre as variáveis, e, quanto
mais próximo de −1 exista uma forte associação decrescente (negativa) entre as variáveis, e,
quanto mais próximo de 0 (zero) menos associação exista. A equação (8.6) pode ser
operacionalizada de modo mais conveniente pela seguinte fórmula
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
(8.7)
√(𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ) ⋅ (𝑛 ∑ 𝑦𝑖2 − (∑ 𝑦𝑖 )2 )
Numa análise meio grosseira, dizemos que 𝑝𝑟 = 𝑟 2 100% dos valores da variável
dependente são explicados (justificados) pelos valores da variável dependente.
Não é muito complexo mostrar que o numerador da expressão, que mede o total de
concentração dos pontos pelos quatro quadrantes, equivale à covariância definida em Definição
3.16. Assim, Dados (𝑛) pares de valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ , (𝑥𝑛 , 𝑦𝑛 ), a covariância entre X e Y
1
𝑐𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) (8.8)
𝑛
sendo ainda pensada como a média dos produtos dos valores centrados das variáveis. A
covariância é uma medida da natureza da associação entre as duas variáveis. Sendo assim, o
sinal da covariância indica se a associação é crescente (positiva) ou decrescente (negativa). Se
duas variáveis X e Y não estão associadas então a covariância será 0 (zero), o inverso,
entretanto, não é geralmente verdadeiro. Duas variáveis podem ter covariância nula a ainda
serem associadas.
Exemplo 8.6 Vamos calcular o coeficiente de correlação entre as variáveis dadas na tabela 8.12.
Para isso, vamos incrementar a tabela citada gerando a tabela abaixo
Anos Clientes
Agente 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖
(X) (Y)
A 2 48 4 2.304 96
B 3 50 9 2.500 150
C 4 56 16 3.136 224
D 5 52 25 2.704 260
E 4 43 16 1.849 172
F 6 60 36 3.600 360
G 7 62 49 3.844 434
H 8 58 64 3.364 464
I 8 64 64 4.096 512
J 10 72 100 5.184 720
∑ 57 565 383 32.581 3.392
Veja que 𝑝𝑟 = 76,88%, isso mostra que, em média, 76,88% das vezes o número de
cliente é explicado pelo tempo de serviço. Corroborando as conclusões feitas pelo diagrama de
dispersão, o coeficiente de correlação linear de Pearson teve resultado positivo, e próximo de
1, indicando forte correlação linear positiva entre as variáveis.
■
Exemplo 8.7 Obtenha o coeficiente de correlação linear para as variáveis contidas na Tabela
8.14. Resposta 𝒓 = −𝟎, 𝟗𝟒𝟎𝟒𝟔𝟐𝟓𝟐𝟖 e 𝒑𝒓 = 𝟖𝟖, 𝟒𝟓%
É comum nestes casos analisarmos o que acontece com a variável quantitativa dentro de
cada categoria da variável qualitativa. Essa análise pode ser conduzida por meio de medidas-
resumo, histogramas, Box Plots ou Ramo-e-Folhas. Para generalizar, considere uma variável
quantitativa 𝑋 e uma variável qualitativa 𝑌 subdividida em 𝑘 categorias. As medidas resumo
dessas variáveis são descritas na Tabela 8.17.
Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique o grau
de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias podem
ser usadas como insumos para construir essa medida. Se a variância dentro de cada categoria
for pequena e menor que a global, significa que a variável qualitativa melhor a capacidade de
previsão da quantitativa e, portanto existe relação entre as duas variáveis. Considerando usar a
média das variâncias, porém ponderada pelo número de observações em cada categoria,
estabelecemos
Usando a variância global e o valor obtido em (8.9) definimos o Grau de Associação entre as
duas variáveis como o ganho relativo na variância, obtido pela introdução da variável
qualitativa, explicitamente, temos
̅̅̅
𝜎 2 (𝑋)
𝐺𝑎 = 1 − (8.10)
𝜎 2 (𝑋)
Exemplo 8.8 Queremos analisar a variável salário, segundo o grau de instrução, dos 36
empregados da Companhia MB. A Tabela 8.18 contém as medidas resumo da variável 𝑺
(salário) para cada categoria 𝒀 (nível de instrução)
Tabela 8.18 Medidas-resumo para a variável salário, segundo o grau de instrução, dos 36
empregados da Companhia MB
Grau de
𝑛 𝑠̅ 𝜎(𝑆) 𝜎 2 (𝑆) 𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Instrução
Fundamental 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65
Médio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 19,40
Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30
Total 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30
A Figura 8.7apresenta uma representação gráfica da variável salário, por meio do Box
Plots, para cada categoria.
Figura 8.7
A leitura desses resultados sugere uma dependência dos salários em relação ao grau de
instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário
médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso superior
o salário médio passa a ser 16,48 (salários mínimos), enquanto funcionários com ensino
fundamental completo recebem, em média, 7,84 (salários mínimos).Usando(8.9)calculamos
11,96
𝐺𝑎 = 1 − = 0,415
20,46
daí, dizemos que 41,5% da variação do salário é explicada pela variável grau de instrução.
Linear [𝐿𝑖𝑛] 𝑦̂ = 𝐴 + 𝐵𝑥
Exponencial [𝐸𝑥𝑝] 𝑦̂ = 𝐴𝑒 𝐵𝑥
Quadrático [𝑄𝑢𝑎𝑑] 𝑦̂ = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2
Uma maneira, não tão eficiente, de deduzir qual o melhor modelo a ser usado é
analisando o diagrama de dispersão. A análise deste possibilita uma visão geométrica do
comportamento associativo entre as variáveis, nos dando, assim, uma ideia de qual modelo usar.
O leitor deve pensar: num mesmo problema posso usar qualquer um desses modelos? A resposta
é sim, porém, existe um que melhor se ajusta à nuvem de pontos do diagrama de dispersão. O
termo linear é usado para indicar que o modelo é linear nos parâmetros da regressão (𝐴, 𝐵, 𝐶, ⋯),
e, não porque 𝑦̂ (resposta) é função linear dos 𝑥, (regressores). Por exemplo, a expressão
quadrática da forma
𝑦̂ = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2 (8.11)
𝑦̂ = 𝐴𝑒 𝐵𝑥 (8.12)
ln 𝑦̂ = ln 𝐴 + 𝐵𝑥 →⇢ 𝑦̂ ′ = 𝐴′ + 𝐵𝑥 (8.13)
que é linear em 𝐴′ e 𝐵.Na prática é comum lidarmos com amostras e não com populações, por
isso, para manter uma notação coerente deveríamos escrever 𝑎, 𝑏, 𝑐, ⋯ para estimar os
verdadeiros valores de 𝐴, 𝐵, 𝐶, ⋯ (não o faremos nestas notas).
Como visto anteriormente o grau de associação entre duas variáveis quantitativas é dado
pelo coeficiente de correlação linear de Pearson (𝒓) dado em (8.7). O 𝑟 de Pearson reflete a
extensão em que cada sujeito mensurado dependente é explicado pela variável independente.
Só para lembrar, a correlação pode ser classificada, quanto ao sentido, em positiva ou negativa.
Uma correlação positiva e próxima de +1 ou uma correlação negativa e próxima de −1 indicam
que existe uma reta como em(8.14).
𝑦̂ = 𝐴 + 𝐵𝑥 (8.14)
que se ajusta à nuvem de pontos no diagrama de dispersão. Na prática sabe-se que não existe
ajuste perfeito, logo, os valores (𝑦̂) obtidos por (8.14) são aproximações dos valores reais (𝑦).
Para uma amostra de (𝑛) pares de valores (ou objetos) da forma (𝑥𝑖 , 𝑦𝑖 ) com 𝑖 = 1, ⋯ , 𝑛, que
devem satisfazer ao modelo (8.14), a diferença existente é chamada de erro de ajuste ou
resíduos e será indicado por
Graficamente temos,
Figura 8.8
Procurando minimizar os efeitos desse ajuste, vamos minimizar a soma dos quadrados dos
desvios. Assim, chamando de 𝑆𝑄(𝐴, 𝐵) a soma dos quadrados desses desvios, temos
2
𝑆𝑄(𝐴, 𝐵) = ∑ 𝑒̂𝑖2 = ∑(𝑦𝑖 − (𝐴 + 𝐵𝑥𝑖 )) (8.16)
Para cada valor de 𝐴 e 𝐵 teremos um resultado para essa soma de quadrados, e a solução
de mínimos quadrados (MQ) é aquela que torna essa soma mínima. Temos um problema de
minimizar a função 𝑆𝑄(𝐴, 𝐵). Usando algumas técnicas de cálculo, chegamos à solução do
sistema (8.16) nas variáveis 𝐴 e 𝐵, a saber,
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑦𝑖 − 𝐵 ∑ 𝑥𝑖
𝐵= e 𝐴= (8.17)
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 𝑛
Dessa forma, a reta de regressão dada em (8.14) se ajusta aos pontos do diagrama de
dispersão com erro mínimo. Uma utilidade dessa reta de regressão é que com ela é possível
fazermos previsões sobre futuros valores. Isso é possível porque assumimos a dependência
entre as variáveis. É aconselhável usar o máximo de dígitos decimais possíveis nos cálculos
usando (8.17).
Exemplo 8.9 Vamos obter a reta de regressão dos dados apresentados na Tabela 8.15.
Solução: Acrescentando as colunas (𝑥2𝑖 ), (𝑦2𝑖 ) e (𝑥𝑖 𝑦𝑖 ) obtemos a tabela abaixo
Usando (8.7) obtemos 𝑟 = −0,940462. Dessa forma 𝑟 2 100% nos diz que 88,45% dos gastos
com saúde são explicados (devidos) à renda. Como 𝑟 < 0 temos uma correlação linear
decrescente forte. Logo, a reta de regressão será decrescente.
Usando as equações obtidas em (8.17) obtemos, 𝐵 = −0,04 e 𝐴 = 7,7155. Dessa forma, a reta
dada em (8.14) fica 𝑦̂ = 7, 7155 − 0,04𝑥. Se quisermos estimar quanto será o gasto com saúde
numa família com renda igual a 78, basta fazer 𝑥 = 78 na equação obtida. Assim, 𝑦̂|𝑥=78 =
7,7155 − 0,04 ∙ 78 = 4,5955, ou seja, a família que ganha R$ 78.000,00 gasta 4,60%
aproximadamente saúde. Graficamente temos,
7,5
(% da renda bruta)
Gastos com saúde
6,5
5,5
5
11 21 31 41 51
Renda Bruta
■
É claro que resolver este sistema exige cálculos aritméticos conhecidos da álgebra
linear. A aplicação de uma dessas regras fornece a solução do sistema, ou seja, uma terna da
forma (𝐶, 𝐵, 𝐴) . Note que aparecem somatórios diferentes daqueles usuais, e, neste caso,
devemos ampliar a tabela original.
Exemplo 8.10 O gerente da loja BONS PREÇOS quer estimar o preço da mercadoria em relação
ao número de vendas. Para isso, ele fez um levantamento dos 5 últimos meses no qual obteve a
seguinte tabela:
Determine a curva que melhor se ajuste a esse problema, e, baseado nela, estime a o preço de
venda se a meta a estipulada é vender 75 unidades.
Solução: Inicialmente, vamos ter uma ideia do diagrama de dispersão. Usando uma escala
adequada e designando por 𝑋: quantidade Vendida e 𝑌: o preço de venda
250
Preço de Venda (em R$)
200
150
100
50
0
0 20 40 60 80 100 120
Quantidade Vendida (em unid.)
Analisando esse diagrama de dispersão, vemos que o modelo quadrático melhor se ajusta a
esses dados. Vamos ampliar a tabela dada como abaixo
Usando a regra de Cramer obtemos a solução do sistema formato, como em (8.18), a saber 𝐴 =
60,572, 𝐵 = 5,429 e 𝐶 = −0,047. Assim o modelo quadrático fica da forma 𝑦̂ = 60,572 +
5,429𝑥 − 0,047𝑥 2 .Graficamente temos
250
150
100
50
0
0 20 40 60 80 100 120
Quantidade Vendida (em unid.)
Neste caso, podemos usar todo o conhecimento adquirido até aqui para modelos lineares
do tipo (8.14), porém, é necessário fazer uma transformação de variáveis, como em (8.13). Dessa
forma, usaremos essa mudança de variável apenas para facilitar o cálculo dos valores 𝐴 e 𝐵 que
são usados em (8.12). Vejamos,
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑧𝑎𝑛𝑑𝑜
𝑦̂ = 𝐴𝑒 𝐵𝑥 → ln 𝑦̂ = ln 𝐴 + 𝐵𝑥𝑖 (8.19)
Com essa mudança de variável, o coeficiente de correlação linear de Pearson (𝑟) fica da
seguinte forma,
𝑛 ∑ 𝑥𝑖 ln 𝑦𝑖 − ∑ 𝑥𝑖 ∑ ln 𝑦𝑖
𝑟𝑒 =
(8.20)
√(𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ) ⋅ (𝑛 ∑(ln 𝑦𝑖 )2 − (∑ ln 𝑦𝑖 )2 )
𝑛 ∑ 𝑥𝑖 ln 𝑦𝑖 − ∑ 𝑥𝑖 ∑ ln 𝑦𝑖 ∑ ln 𝑦𝑖 −𝐵 ∑ 𝑥𝑖
𝐵= e 𝐴=𝑒 𝑛 (8.21)
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
Exemplo 8.11 Pedro postou um vídeo no YouTube. O vídeo fez tanto sucesso que Pedro deseja
obter um modelo de regressão, com ajuste exponencial, para o número de visualizações de seu
vídeo. Para tal, ele tabelou o número de visualizações por dia, conforme quaro abaixo.
Dias Número de
Online visualizações
1 12
2 25
3 76
4 275
5 1.008
6 4.319
7 16.355
8 65.389
9 265.772
10 1.048.997
Faça uma regressão, com ajuste exponencial, para o número de visualizações desse vídeo. Faça
uma estimativa para o número de visualizações no décimo quinto dia.
Solução: Vamos incrementar essa tabela com as colunas ln 𝑦, 𝑥 2 , (ln 𝑦)2, 𝑥 ln 𝑦. A nova tabela
fica como abaixo
Dias Número de
Online visualizações ln 𝑦 𝑥2 (ln 𝑦)2 𝑥 ln 𝑦
(X) (Y)
1 12 2,4849 1 6,1748 2,4849
2 25 3,2189 4 10,3612 6,4378
3 76 4,3301 9 18,7553 12,9922
4 275 5,6168 16 31,5481 22,4671
5 1.008 6,9157 25 47,8272 34,5786
6 4.319 8,3708 36 70,0700 50,2247
7 16.355 9,7023 49 94,1344 67,9160
8 65.389 11,0881 64 122,9462 88,7049
9 265.772 12,4903 81 156,0099 112,4135
10 1.048.997 13,8633 100 192,1923 138,6335
10 ∙ 536,853 − 55 ∙ 78,08
𝑟𝑒 = = 0,998138
√(10 ∙ 385 − (55)2 ) ∙ (10 ∙ 750,02 − (78,08)2 )
perceba que a correlação exponencial é muito forte. Assim, usaremos o modelo descrito em
(8.12). Para determinar os valores de 𝐴 e de 𝐵 para esse modelo usa-se (8.21). Assim,
10 ∙ 536,853 − 55 ∙ 78,08 78,08−𝐵∙55
B= = 1,30197 e 𝐴=𝑒 10 = 1,91012
10 ∙ 385 − (55)2
dessa forma o modelo exponencial pedido tem a forma descrita abaixo𝑦̂ = 1,91012𝑒 1,30197𝑥 .
Graficamente temos,
10000
Número de visualizações
8000
𝑦̂ = 1,91012𝑒 1,30197𝑥
6000
4000
2000
0
0 2 4 6 8 10 12
Dias online
Uma estimativa para o décimo quinto dia é fazer 𝑥 = 15 no modelo acima. Logo,
1. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens
e 1.000 mulheres) usam o hospital. Os resultados foram:
homens mulheres
Usam o hospital 100 150
Não usam o hospital 900 850
a) Calcule a proporção de homens entre os indivíduos que usam o hospital.
b) Calcule a proporção de homens entre os indivíduos que não usam o hospital.
c) O uso do hospital independe do sexo do segurado?
2. Querendo analisar a variável obesidade (usando o IMC) segundo a região de moradia em
uma pequena cidade, o prefeito encomendou um estudo estatístico. A tabela abaixo contém
as medidas resumo da variável 𝑋: Valor do IMC para cada localidade
Tabela –Medidas-resumo para a variável 𝑋 segundo a região de moradia de uma amostra
de 36 moradores dessa cidade
Local de
𝑛 𝑋̅ 𝜎(𝑋) 𝜎 2 (𝑋) 𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Moradia
Subúrbio 12 32,22 8,24 67,82 22,90 26,78 30,10 36,80 48,10
Centro 18 24,21 5,34 28,53 18,90 20,95 22,65 25,35 39,80
Zona Rural 6 20,03 1,98 3,92 16,90 19,03 20,70 20,95 22,40
Total 36 26,22 7,56 57,19 16,90 20,95 23,25 29,05 48,10
a) Construa os Box-plots, para cada região de moradia, usando um mesmo plano
cartesiano. Discuta os resultados obtidos
b) Considerando os dados da tabela, estime o grau de associação entre as variáveis.
Explique o resultado.
3. A companhia A de dedetização afirma que o processo por ela utilizado garante um efeito
mais prolongado do que aquele obtido por seus concorrentes mais diretos. Uma amostra de
vários ambientes dedetizados foi colhida e anotou-se a duração do efeito de dedetização.
Os resultados estão na tabela abaixo. Você acha que existe alguma evidência a favor ou
contra a afirmação feita pela companhia A?R. Não há diferença entre as três empresas
Duração do efeito de dedetização
Menos de 4 De 4 a 8 Mais de 8
Companhia
meses meses meses
A 64 120 16
B 104 175 21
C 27 48 5
1 1 6 21 2 4
2 3 2 22 3 2
3 2 4 23 4 1
4 3 1 24 1 5
5 2 4 25 2 4
6 2 1 26 3 2
7 3 3 27 4 1
8 1 5 28 1 5
9 2 2 29 4 4
10 3 2 30 3 3
11 2 5 31 2 2
12 3 2 32 1 1
13 1 6 33 4 1
14 2 6 34 2 6
15 3 2 35 4 2
16 4 2 36 3 1
17 1 5 37 1 4
18 2 5 38 3 2
19 2 1 39 2 3
20 2 1 40 2 5
a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, ara cada uma
das variáveis, e construa a distribuição de frequência conjunta das duas classificações
b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? R. 2,5%
c) Qual a porcentagem das pessoas que ganham pouco? R. 50%
d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganhas pouco? R.
12,5%
e) A informação adicional dada em (d) mudou a porcentagem observada em (c) o que isso
significa? R. Bastante modificada; a maioria das pessoas que ganham pouco têm alta rotatividade.
9. Abaixo estão os dados referentes à porcentagem da população economicamente ativa
empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões
metropolitanas brasileiras.
Regiões Metropolitanas Setor Primário Índice de analfabetismo
13. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a
classe social do respondente, mostrou o seguinte quadro?
Pretende Classe social
Total
continuar? Alta Média Baixa
200 220 380 800
Sim
200 280 720 1.200
Não
15. Os dados amostrais a seguir representa a procura por um produto (em milhares de unidades)
e seu preço (em centavos) cobrado em seus áreas de mercado diferentes.
Preço 18 10 14 11 16 13
Procura 9 125 57 90 22 79
Ajuste uma reta de mínimos quadrados com a qual possamos predizer a procura do produto
em termos de seu preço. R. 𝑦̂ = 257,1103 − 14,154𝑥.
16. A tabela seguinte refere-se ao lucro líquido de uma companhia durante os 6 primeiros anos
de operação:
Lucro Operacional
Ano
Líquido (em $1.000)
1 112
2 149
3 238
4 354
5 580
6 867
17. O gráfico de dispersão abaixo corresponde aos resultados de uma análise sobre a renda
familiar e seu gasto com alimentação (em unidades monetárias). Foi realizada com uma
amostra de 25 famílias.
18. Os dados a seguir referem-se ao tempo de secagem de um verniz de acordo com uma certa
quantidade de certo aditivo químico:
Quantidade de aditivo químico
1 2 3 4 5 6 7 8
em gramas
Tempo de secagem em horas 7,2 6,7 4,7 3,7 4,7 4,2 5,2 5,7
19. Os gastos com propaganda e o respectivo volume de vendas gerado são dados abaixo:
Apêndice
A. Resultados de Análise Combinatória
Exemplo: Eduardo vai montar um computador sozinho. Ele tem a opções de pedir chips de
duas marcas diferentes, o disco rígido de quatro, a memória de três e o grupo de acessórios
de cinco lojas locais. De quantas maneiras diferentes Eduardo pode pedir os equipamentos?
Solução: Aqui temos 𝑛1 = 2, 𝑛2 = 4, 𝑛3 = 3 e 𝑛4 = 5. Logo, 𝑛1 ⋅ 𝑛2 ⋅ 𝑛3 ∙ 𝑛4 ∙ 𝑛5 = 2 ∙ 4 ∙
3 ∙ 5 = 120 maneiras distintas de se pedir os equipamentos.
Exemplo: Anagrama é a ação de reorganizar as posições das letras de uma palavra, formando
outra palavra ou apenas uma sequência de letras sem sentido próprio. Quantos anagramas
têm a palavra CAJU?
Solução: CAJU tem 4 letras, logo, o número de anagramas é 4! = 4 ∙ 3 ∙ 2 ∙ 1 = 24
Exemplo: De quantas maneiras sete estudantes de graduação podem ser designados para um
dormitório triplo e dois duplos e um hotel durante uma conferência?
Solução: Temos 𝑛 = 7 objetos divididos em três tipos, sendo 𝑛1 = 3, 𝑛2 = 2 e 𝑛3 = 2. A
ordem dentro dos dormitórios não tem importância, assim,
7!
𝑃73,2,2 = = 210
3! ∙ 2! ∙ 2!
Exemplo: Um menino pede à sua mãe cinco cartuchos de Game BoyTM de sua coleção de
dez jogos de fliperama e cinco de jogos de esportes. Quantas maneiras possíveis existem
para que a mãe pegue três jogos de fliperama e dois de esportes, respectivamente?
Solução: O número de maneiras de selecionar três cartuchos entre os dez:
10 10!
( ) = 𝐶10,3 = = 120
3 3! (10 − 3)!
Linear [𝐿𝑖𝑛] 𝑦 = 𝐴 + 𝐵𝑥
Logarítmica [𝐿𝑜𝑔] 𝑦 = 𝐴 + 𝐵 ln 𝑥
Exponencial [𝐸𝑥𝑝] 𝑦 = 𝐴 𝑒 𝐵𝑥
Potência [𝑃𝑤𝑟] 𝑦 = 𝐴 𝑥 𝐵
𝐵
Inversa [𝐼𝑛𝑣] 𝑦 = 𝐴 +
𝑥
Quadrática [𝑄𝑢𝑎𝑑] 𝑦 = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2
Figura B.1
, , , ,
[𝑥1 ][ ][𝑦1 ][𝑀 +][𝑥2 ][ ][𝑦2 ][𝑀 +][𝑥3 ][ ][𝑦3 ][𝑀 +] ⋯ [𝑥𝑛 ][ ][𝑦𝑛 ][𝑀 +]
Cuidado! A calculadora faz a leitura dos pares na ordem em que são inseridos, sempre
o primeiro valor inserido é lido como variável (X) e o segundo valor como a variável (Y).
Caso o par (𝑥1 , 𝑦1 ) tenha frequência 𝑓1
4. Terminada a inserção dos dados, e escolhida a regressão, é possível obter os
seguintes valores relacionados às variáveis:
Figura B.2
Desvio padrão amostral : [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [𝑥𝜎𝑛 − 1](3) 𝒐𝒖 [][𝑦𝜎𝑛 − 1](3) [=]
Figura B.3
𝑛! 𝜆 𝑥 𝜆 𝑛 𝜆 −𝑥
= lim ( ) (1 − ) (1 − )
n→∞ 𝑥! (𝑛 − 𝑥)! 𝑛 𝑛 𝑛
= ⏞
𝑛(𝑛 − 1)(𝑛 − 2) ⋯ (𝑛 − (𝑥 − 1)) (𝜆)𝑥 𝜆 𝑛 𝜆 −𝑥
lim (1 − ) (1 − )
n→∞ 𝑛𝑥 𝑥! 𝑛 𝑛
1 2 (𝑥−1)
Aqui, pus 𝑛 em 𝑛 𝑥 (1 − 𝑛) (1 − 𝑛) ⋯ (1 − ) 𝜆 −𝑥 𝜆 𝑛 (𝜆)𝑥
𝑛
evidencia em cada fator = lim 𝑥 [ (1 − ) ] (1 − )
n→∞ 𝑛 1 𝑛 𝑛 𝑥!
do numerador
1 2 (𝑥−1)
(1 − 𝑛) (1 − 𝑛) ⋯ (1 − 𝑛
) 𝜆 −𝑥 𝜆 𝑛 (𝜆)𝑥
Aplicando o limite lim [ (1 − ) ] (1 − )
= n→∞ 1 𝑛 ⏟ 𝑛 𝑥!
temos ⏟ 𝑒 −𝜆
1
(𝜆)𝑥
= 𝑒 −𝜆
𝑥!
Dessa forma, fica demonstrado que
−𝜆𝑡
(𝜆𝑡)𝑥
lim 𝑏(𝑥; 𝑛, 𝑝) = 𝑒
n→∞ 𝑥!
C. Tabelas Estatísticas
Referências Bibliográficas
[1]. BUSSAB, Wilton de O. & MORETTIN, Pedro A., Estatística Básica, 5ª ed. – São
Paulo: Saraiva, 2004.
[2]. DEVORE, Jay L., Probability and statistics for engineering and the sciences;
[tradução Joaquim Pinheiro Nunes da Silva]. –– São Paulo: Cengage Learning, 2006
[3]. FERREIRA, Daniel Furtado, Estatística Básica, 2ª ed. rev. – Lavras: editora
UFLA, 2009.
[4]. FONSECA, Jairo Simon da & MARTINS, Gilberto de Andrade, Curso de
Estatística, 6ª ed. – São Paulo: Atlas, 1996.
[5]. LEVIN, Jack, Elementary Statistics in Social Research, [tradução: Sérgio
Francisco Costa]. – 2ª ed. – São Paulo, Harbra Ltda,
[6]. MONTGOMERY, Douglas C, & RUNGER, George C. Applied Statistics and
Probability for Engineers-5a ed. ISBN–13: 978-0-470-05304-1
[7]. PESTANA, D. & VELOSA, S. Introdução à Probabilidade e à Estatística,
Volume I, 4ª edição, Fundação Calouste Gulbenkian, 2010
[8]. ROSS, Sheldon M, A first course in probability, 6a ed. University of California,
Berkeley: Prentice Hall, 2002.
[9]. SILVA, Ermes Medeiros da ⋯ |et al.|, Estatística 2: para os cursos de economia
e ciências contábeis, 3ª ed. – São Paulo: Atlas, 2011
[10]. WALPOLE, Ronald E. ⋯|et al.|, Probability & Statistics for Engineers &
Scientists– 9ª ed. Pearson Prentice Hall, 2012
[11]. S
[12]. S