Você está na página 1de 109

Estatística

e
Probabilidade

Professores:
Daniela Carine Ramires de Oliveira
Marcos Santos de Oliveira
Índice
1. Introdução à Estatística 1

1.1. O que é Estatística? 1


1.2. Estatística na Prática 1
1.3. Um pouco da história da Estatística 2
1.4. Exercícios 2

2. Variáveis 3

2.1. Definição de Variável 3


2.2. Classificação das Variáveis 3
2.3. Exercícios 5

3. Amostragem 6

3.1. Por que fazer Amostragem? 6


3.2. Quando o uso de amostragem não é interessante? 6
3.3. Tipos de Amostragem 6
3.3.1. Amostragem Aleatória Simples (AAS) 6
3.3.2. Amostragem Sistemática (AS) 7
3.3.3. Amostragem Estratificada (AE) 8
3.3.4. Amostragem por Conglomerado (AC) 9
3.4. Exercícios 10

4. Tabulação de Variáveis 11

4.1. Variáveis Qualitativas Unidimensionais 11


4.2. Variáveis Quantitativas Unidimensionais 12
4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13
4.4. Exercícios 14

5. Medidas de Posição 15

5.1. Mínimo e Máximo 15


5.2. Moda 15
5.3. Média 15
5.4. Mediana 16
5.5. Exercícios 18

Prof. Daniela ii ____/____/____


6. Medidas de Dispersão 19

6.1. Motivação 19
6.2. Amplitude 19
6.3. Variância e Desvio Padrão 19
6.4. Intervalo Interquartil 21
6.5. Exercícios 21

7. Estatística Gráfica 22

7.1. Gráficos para as Variáveis Qualitativas 22


7.1.1. Gráfico em Barras 22
7.1.2. Gráfico de Composição em Setores (“Pizza”) 23
7.1.3. Gráfico de Pareto 23
7.2. Gráficos para as Variáveis Quantitativas 25
7.2.1. Gráfico em Barras 25
7.2.2. Gráfico de Pontos 26
7.2.3. Histograma 26
7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27
7.2.5. Ramo-e-Folhas 28
7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29
7.3 Exercícios 31

8. Correlação e Regressão 32

8.1. Estudo da relação entre variáveis 32


8.2. Diagrama de Dispersão 32
8.3. Coeficiente de Correlação 35
8.4. Regressão Linear Simples 37
8.5. Coeficiente de Determinação 39
8.6. Exercícios 40

Lista de Exercícios 1 41

9. Probabilidade 44

9.1. Processo ou Experimento Aleatório 44


9.2. Espaço Amostral (Ω) 44
9.3. Evento 45
9.4. Exercícios 46
9.5. Introdução à Probabilidade 47

Prof. Daniela iii ____/____/____


9.6. Definição Clássica 48
9.7. Definição Freqüentista 49
9.8. Definição Subjetiva 51
9.9. Definição Moderna 51
9.10. Probabilidade Condicional 52
9.11. Independência de Eventos 53
9.12. Regra da Probabilidade Total 54
9.13. Teorema de Bayes 54

10. Variável Aleatória Discreta 56

10.1. Introdução 56
10.2. Esperança Matemática (Média) 57
10.3. Variância 58
10.4. Exercício 58
10.5. Modelo Bernoulli 58
10.6. Modelo Binomial 59
10.7. Exercícios 60
10.8. Distribuição Hipergeométrica 60
10.9 Exercício 61
10.10. Distribuição Poisson 61
10.11. Exercícios 62

11. Variável Aleatória Contínua 63

11.1. Esperança e Variância 65


11.2. Distribuição Normal 66
11.3. Tabela da Distribuição Normal Padrão 69
11.4. Exercícios 73

Lista de Exercícios 2 74

12. Estimação 77

12.1. Inferência Estatística 77


12.2. Estimação Pontual e Intervalar para Proporção 77
12.3. Exercícios 79
12.4. Estimativa Pontual e Intervalar para a Média Populacional 79
12.5. Exercícios 81
12.6. Estimativa para a Média Populacional com Variância Desconhecida 81
12.7. Exercício 83

Prof. Daniela iv ____/____/____


13. Testes de Hipóteses 84

13.1. Introdução 84
13.2. Formulação das Hipóteses 84
13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84
13.4. Nível de Significância de um Teste de Hipótese (α) 85
13.5. Teste de Hipóteses para a Proporção 85
13.6. Exercícios 87
13.7. Teste de Hipóteses para Média com Variância Conhecida 88
13.8 Exercícios 90
13.9 Teste de Hipóteses para Média com Variância Desconhecida 91
13.10. Exercícios 93

Lista de Exercícios 3 94

Apêndice

A Gabarito da Lista de Exercícios 1 95


B Gabarito da Lista de Exercícios 2 101
C Gabarito da Lista de Exercícios 3 102
D Aula no Laboratório de Computação 104

Prof. Daniela v ____/____/____


1. INTRODUÇÃO À ESTATÍSTICA

1.1. O que é Estatística?

Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar
dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades
humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar
conclusões em situações de incerteza, a partir de informações numéricas.

1.2. Estatística na Prática

Técnicas de amostragem
População Amostra
(Características) Planejamento de Experimentos
Análise
descritiva
descritiva

Inferência Estatística
Conclusões Informações
sobre as contidas nos
características Cálculo de Probabilidades
dados
da população
População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na
terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo
no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma
faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc.

Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras.

Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas.

Amostra: é qualquer subconjunto da população.

Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de


tirarmos conclusões a respeito de características de interesse.

Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios.

Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados


(população), das informações e conclusões obtidas a partir de um subconjunto de valores
(amostra).

Oliveira, D. C. R. e Oliveira, M. S. 1 ____/____/____


1.3. Um pouco da história da Estatística

5000 AC Registros egípcios de presos de guerra;


2000 AC Censo Chinês;
695 Primeira utilização da média ponderada pelos árabes na contagem de moedas;
1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das
Probabilidades;
1763 Inferência Estatística (Reverendo Bayes);
1930 Controle de Qualidade nas indústrias;
1959 Estudo retrospectivo de doenças (Mantel & Haenszel);
1996 Profundidade da Regressão (Rousseeuw e Hubert);
1997 Modelos Fatoriais;
2001 100 anos da Biometrika.

Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm

1.4. Exercícios – Parte I – A1

1) Para as situações descritas a seguir, identifique a população e a amostra correspondente.

(a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de
recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo
Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos.
População:

Amostra:

(b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
População:

Amostra:

(c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por
telefone com relação ao canal em que estavam sintonizados.
População:

Amostra:

Oliveira, D. C. R. e Oliveira, M. S. 2 ____/____/____


2. VARIÁVEIS

2.1. Definição de Variável

Qualquer característica associada a uma população é chamada de variável.


Porque o nome variável? Porque ela “varia” de alguma forma.

Exemplos: Idade: pode variar de 0, 1 , 2, ... anos


Sexo: pode ser masculino ou feminino
Estado Civil: pode ser solteiro, casado, divorciado, etc.

2.2. Classificação das Variáveis

As variáveis podem ser classificadas como Qualitativas ou Quantitativas.


Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência,
apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo,
estas variáveis são chamadas de variáveis Qualitativas.
As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados
números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de
variáveis Quantitativas.

Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos


socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações
obtidas do departamento pessoal, ele elaborou a Tabela 2.1.

Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso
como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados
da seção de orçamentos de uma Empresa.
Idade
N° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência
1 Solteiro Fundamental ... 4,00 26 3 Interior
2 Casado Fundamental 1 4,56 32 10 Capital
... ... ... ... ... ... ... ...
35 Casado Médio 2 19,40 48 11 Capital
36 Casado Superior 3 23,30 42 2 Interior
Fonte: Bussab e Morettin (2002)

Observações sobre a Tabela 2.1.


De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou
mais de um) resultado correspondendo à realização de uma característica (ou características). Por
exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos
resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado,
divorciado, mas somente as duas mencionadas foram consideradas no estudo).

Oliveira, D. C. R. e Oliveira, M. S. 3 ____/____/____


Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos:

Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis
resultados.
Exemplo: Região de Procedência, etc.

Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados.
Exemplo: Grau de instrução, etc.

As variáveis Quantitativas também podem sofrer uma classificação dicotômica:

Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou


enumerável de números, e que resultam, freqüentemente, de uma contagem.
Exemplo: Nº de Filhos, etc.

Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números


reais e que resultam de uma mensuração.
Exemplo: Salário, etc.

Resumindo
Como as variáveis são classificadas e outros exemplos:

Nominal Sexo, Cor dos Olhos.


Qualitativa
Ordinal Estado Civil, Classe social.

Discreta Números de carros.


Quantitativa
Contínua Peso, altura.

Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos
dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os
dados de uma forma resumida.
Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou
atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa,
desde que o procedimento seja passível de interpretação.

Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada
variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente
chamadas de sucesso e fracasso.

Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.

Oliveira, D. C. R. e Oliveira, M. S. 4 ____/____/____


2.3. Exercícios – Parte I – A1

1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes
informações:
ID: Identificação do aluno;
Turma: Turma a que o aluno foi alocado (A ou B);
Sexo: Feminino (F) ou Masculino (M);
Idade: Idade;
Alt: Altura;
Peso: Peso;
Filh: Número de filhos na família;
Fuma: Hábito de fumar (sim ou não);
Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito;
Exer: Horas de atividade física, por semana;
Cine: Número de vezes que vai ao cinema por semana;
OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa
TV: Horas gastas assistindo TV, por semana
OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe.

Tabela 2.2: Informações do questionário estudantil.


ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV
1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R
2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R
... ... ... ... ... ... ... ... ... ... ... ... ... ...
49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R
50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B
Fonte: Magalhães e Lima (2004).

Classifique as variáveis da Tabela 2.2. como


Variável Qualitativa Nominal:

Variável Qualitativa Ordinal:

Variável Quantitativa Discreta:

Variável Quantitativa Contínua:

Oliveira, D. C. R. e Oliveira, M. S. 5 ____/____/____


3. AMOSTRAGEM

A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o
tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste
alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte
(amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento.

3.1. Por que fazer Amostragem?

Existem várias razões para o uso de amostragem em levantamento de grandes populações.


Algumas delas são:
ƒ Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte
da população.
ƒ Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo
suficiente para pesquisar toda a população de eleitores do país.
ƒ Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas
típicos nos grandes censos é o controle dos entrevistadores.

3.2. Quando o uso de amostragem não é interessante?

ƒ População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é
aconselhável realizar o censo (análise de toda a população).
ƒ Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a
variável que se quer observar é de tão fácil mensuração, que não compensa investir num
plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários
favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a
população no próprio local de trabalho. Esta atitude pode ser politicamente mais
recomendável.
ƒ Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico
para estudar diversas característica da população brasileira. Dentre estas características têm-
se o número total de habitantes, que é fundamental para o planejamento do país. Desta
forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se
pesquisa toda a população.

3.3. Tipos de Amostragem

3.3.1. Amostragem Aleatória Simples (AAS)

A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método


mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma
AAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem
consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de
todos os elementos da população ter igual probabilidade de serem escolhidos.

1
Censo: estudo de todos os elementos da população.
Oliveira, D. C. R. e Oliveira, M. S. 6 ____/____/____
ƒ Procedimento para o uso deste método:
1) Numerar todos os elementos da população (N elementos);
2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n).

Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum
software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®.

Tabela de Números Aleatórios

6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 2
9 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 9
5 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 8
5 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 5
8 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0

1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 0
3 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 0
8 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 1
0 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 0
9 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3

1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 2
2 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 9
5 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 9
9 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 4
6 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9

Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma


determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode
investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a
amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de
números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da
população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número
sorteado não existir, simplesmente não consideramos e prosseguimos o processo.
Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de
4 elementos: {09, 26, 29, 11}.

Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população
10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios.

3.3.2. Amostragem Sistemática (AS)

É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas
de cadastramento, produção de garrafas da cervejas, etc.
ƒ Procedimento para o uso deste método:

1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da


amostragem i = N/n (considera-se apenas a parte inteira do número).
Oliveira, D. C. R. e Oliveira, M. S. 7 ____/____/____
2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a
amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i).

Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para
verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar
essa amostra.
1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7;
2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a
primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será
composta dos elementos: {06, 13, 20, 27, 34}

Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população
10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios,
quando for necessário.

3.3.3. Amostragem Estratificada (AE)

A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda,
bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem
ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo.
Aqui, um conhecimento prévio sobre a população em estudo é fundamental.

Estrato 1 Subgrupo 1 da amostra


Estrato 2 Subgrupo 2 da amostra Amostra
... ... ... Estratificada
Estrato k Subgrupo k da amostra

A AE tem as seguintes características:


• dentro de cada estrato há uma grande homogeneidade (pequena variabilidade);
• entre os estratos há uma grande heterogeneidade (grande variabilidade).
Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da
amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato
corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra.

Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em
uma determinada universidade, realizaremos um levantamento por amostragem. A população é
composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que
identificaremos da seguinte forma:
População
Professores P001 P002 … P100
Servidores S001 S002 ... S100
Alunos A001 A002 ... A300

Oliveira, D. C. R. e Oliveira, M. S. 8 ____/____/____


Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo
dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria,
para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de
proporcionalidade.
Estrato Proporção na População Tamanho do subgrupo na amostra

Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2

Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2

Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6

Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números


Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da
tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os
servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da
tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra
{P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada
proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado
para se obter a opinião em relação à gestão atual da reitoria.

3.3.4. Amostragem por Conglomerado (AC)

A população é dividida em subpopulações (conglomerados) distintas (quarteirões,


residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e
todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente
que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é
adequado quando é possível dividir a população em um grande número de pequenas
subpopulações.
A AC tem as seguintes características:
• dentro de cada conglomerado há uma grande heterogeneidade (grande
variabilidade);
• entre os conglomerados há uma pequena variabilidade (grande homogeneidade).

Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a
técnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e,
em seguida, entrevistar todos os eleitores dessas zonas selecionadas
5

3
Zona 9
6 11
1

7 12
2
4 10

8
Entrevistar todos os
eleitores dessas zonas
Oliveira, D. C. R. e Oliveira, M. S. 9 ____/____/____
Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque
ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa
todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa
uma amostra de membros de todos os estratos.

Curiosidade

Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que


simplesmente usa resultados que sejam muito fáceis de obter.

Ei! Você é a favor


da pena de m orte?

3.4. Exercícios – Parte I – A1

1) Um administrador especialista em avaliar através de sistemas informatizados as ações da


BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus
clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em
venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se
verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações
serão selecionadas (Use a primeira linha da tabela de números aleatórios)?

2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira
transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na
amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de
amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a
primeira linha)

3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100
computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 =
60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito
alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12
computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores
serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a
primeira linha)

Oliveira, D. C. R. e Oliveira, M. S. 10 ____/____/____


4. TABULAÇÃO DE VARIÁVEIS

4.1. Variáveis Qualitativas Unidimensionais

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o


comportamento dessa variável, analisando a ocorrência de seus possíveis resultados.
A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos
dados da Tabela 2.1.

Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB segundo o grau de instrução.
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
Fundamental 12
Médio 18
Superior 6
Total n = 36 1,0000
Fonte: Bussab e Morettin (2002)

Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33%
tem nível fundamental, 50% nível médio e apenas 16,67% nível superior.
Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou
categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada
categoria, sendo o “n” o número total de observações.
As proporções são muito úteis quando se querem comparar resultados de duas pesquisas
distintas. O próximo exemplo ilustra este fato.

Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da
seção de orçamentos com a mesma variável para todos os empregados da Companhia MB.
Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela
abaixo:

Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau
de instrução.
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
Fundamental 650
Médio 1020 0,5100
Superior
Total n = 2000 1,0000
Fonte: Bussab e Morettin (2002)

Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas
das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n =
36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos
as freqüências relativas a um mesmo total.
Oliveira, D. C. R. e Oliveira, M. S. 11 ____/____/____
4.2. Variáveis Quantitativas Unidimensionais

A construção de tabelas de freqüências para variáveis quantitativas necessita de certos


cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1.,
usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo
menor, pois não existem observações iguais.

Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela
de Classes de Freqüências.

Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da


Companhia MB por faixas de salário:

Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB por faixas de salário.
Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
04 |-- 08 10 0,2778 27,78%
08 |-- 12 12
12 |-- 16 8
16 |-- 20 5
20 |-- 24 1
Total 36 1,0000

Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se
alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a
não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que
todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14.

Número de Classes

A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe
indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que,
com um número pequeno de classes, perde-se informação, e com um número grande de classes, o
objetivo de resumir os dados fica prejudicado.
Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude.
Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o
pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é
um número inteiro próximo de:

Regra 1: C = 1 + 3,2 x log n Regra 2: C= n


onde n é o número de elementos pesquisado.
As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que
crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida.

Oliveira, D. C. R. e Oliveira, M. S. 12 ____/____/____


4.3. Variáveis Qualitativas e Quantitativas Bidimensionais

As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de
associação, tabela de contingência ou distribuições conjuntas de freqüências.

Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o


conceito em Metodologia e a Seção a que pertence.
Seção Conceito em Metodologia Total por
A B C Seção
Dep. Pessoal 3 1 3 7
Séc. Técnica 0 4 3 7
Sec. Venda 4 3 4 11
Total por Conceito 7 8 10 25

Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no


Primeiro semestre de 2005.
Meses Vendas em 1000 R$ Total por
A B C Mês
Janeiro 40,0 25,2 8,1 73,3
Fevereiro 40,1 28,0 10,0 78,1
Março 35,1 28,0 15,4 78,5
Abril 28,2 20,2 22,3 70,7
Maio 14,1 25,6 28,1 67,8
Junho 5,0 30,0 35,2 70,2
Total por Produto 162,5 157,0 119,1 438,6
Fonte: Dados Hipotéticos.

Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas


notas em Matemática e Estatística.
Estatística Matemática Totais em
0 |- 4 4 |- 7 7 |- 10 Estatística
0 |- 4 32 25 5 62
4 |- 7 20 183 82 285
7 |- 10 7 27 19 53
Totais em 59 235 106 400
Matemática
Fonte: Dados Hipotéticos.

Oliveira, D. C. R. e Oliveira, M. S. 13 ____/____/____


4.4. Exercícios – Parte I – A1

Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio


Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia
1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5
2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0
3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5
4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5
5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0
6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5
7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0
8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5
9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0
10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5
11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5
12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0
13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5
14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5
15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0
16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5
17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5
18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5
19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5
20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5
21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0
22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0
23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0
24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0
25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5
(*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas.
Fonte: Bussab e Morettin (2002)

1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as


freqüências absoluta e relativa, as porcentagens, dê um título e interprete.

2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável
Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete.

3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da
Tabela 4.7.

4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela
4.7.

5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela
4.7.

Oliveira, D. C. R. e Oliveira, M. S. 14 ____/____/____


5. MEDIDAS DE POSIÇÃO

5.1. Mínimo e Máximo

O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior


observação.

Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo,


Min = __ e Max = __.

5.2. Moda

Valor ou atributo que ocorre com maior freqüência.


Exemplo (a): 2, 5, 2, 7, 8 Moda = __ .
Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _”
Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _”

Moda para dados agrupados em Tabelas de Freqüências

Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais
freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no
mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O
resultado foi:

Números de Ligações a Cobrar (xi) Número de Residências (ni)


0 2
1 5
2 15
3 8
Total 30

Moda = __.
Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência.

5.3. Média

Valor que representa o centro do conjunto de dados.


Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média
desse conjunto é obtida pela soma das n observações dividido por n, ou seja,
n

x1 + x 2 + x3 + L + x n ∑x
i
x= = i =1
(5.1)
n n
Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.
Oliveira, D. C. R. e Oliveira, M. S. 15 ____/____/____
Média para dados agrupados em Tabelas de Freqüências

Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse
seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe
alta da cidade de São Paulo no mês de março.

Números de Ligações a Cobrar (xi) Número de Residências (ni)


0 2
1 5
2 15
3 8
Total 30

Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável,
da seguinte forma:
v

∑x n i i
, x= i =1
(5.2)
n
onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima
classe. Assim, para o exemplo temos:
n

∑x n
0 x 2 + 1x5 + 2 x15 + 3x8
i i
x= i =1
= = ___.
n 30
Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da
cidade de São Paulo no mês de março é ___.

5.4. Mediana

É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e
metade será menor ou igual.
Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10.
De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de
valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana
é 9.

Método prático para o cálculo da Mediana para dados em Rol


1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o
máximo.
n +1
2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: p = .
2
3) O valor da mediana será:
(a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados
ordenados, isto é
Mediana = x(p)
Oliveira, D. C. R. e Oliveira, M. S. 16 ____/____/____
(b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p,
respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados
ordenados, ou seja,

x (P− ) + x (P+ )
Mediana =
2
Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5
1º ordenar a série: __, __, __, __, __, __, __, __, __.
n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada
será a mediana. Assim, mediana = __ .

Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6


1º ordenar a série: __, __, __, __, __, __, __, __, __, __.
n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º
elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela
definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja,
Mediana = (2+3)/2 = 2,5.

Notas:
1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana
com um dos elementos da série.
2) Quando o número de elementos da série estatística for par, a mediana será sempre a média
aritmética dos 2 elementos centrais da série.
3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma
diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores
extremos). Vejamos:
Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10;
Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10,
isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos
valores extremos, ao passo que a mediana permanece a mesma.

Mediana para dados agrupados em Tabelas de Freqüências

Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana.

Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o
número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da
cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados
referentes a freqüência acumulada.

Oliveira, D. C. R. e Oliveira, M. S. 17 ____/____/____


Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi)
0 2
1 5
2 15
3 8
Total 30

Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16.
Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é
a primeira freqüência acumulada que contém os elementos 15 e 16.

5.5. Exercícios – Parte I – A1

1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir.


5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60.
Calcule o mínimo, máximo, moda, média e mediana.

2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos
de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir.

Tabela 5.1: Dados Brutos (em horas)


Máquina # Tempo de Falha Máquina # Tempo de Falha
1 150 14 171
2 291 15 197
3 93 16 200
4 53 17 262
5 2 18 255
6 65 19 286
7 183 20 206
8 144 21 179
9 223 22 232
10 197 23 165
11 187 24 155
12 197 25 203
13 213

Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete
os resultados.

3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma


universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27,
28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e
mediana das idades organizadas nessa tabela.

Oliveira, D. C. R. e Oliveira, M. S. 18 ____/____/____


6. MEDIDAS DE DISPERSÃO

6.1. Motivação

Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos
a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos
destacaram-se com as notas descritas na tabela abaixo:

Tabela 6.1: Distribuição das Notas


Provas
Candidatos
1 2 3 4 5 6
A 7,0 7,5 8,0 8,0 8,5 9,0
B 6,0 7,0 8,0 8,0 9,0 10,0
C 7,5 8,0 8,0 8,0 8,0 8,5
Fonte: Dados Hipotéticos

Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média,
mas:
Candidatos A B C
Média
De modo análogo, nem adianta pensar em moda ou mediana, pois:
Candidatos A B C
Moda
Mediana
Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais
homogêneas, isto é, aquele que apresentou menor dispersão das notas.

6.2. Amplitude

A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de
dados, ou seja,
Amplitude = Máximo – Mínimo (6.1)
Exemplo: Para os três candidatos temos:
Candidatos A B C
Amplitude

6.3. Variância e Desvio Padrão

A variância mede a dispersão dos dados em torno de sua média.


n

( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + L + ( x n − x ) 2 ∑ (x i − x)2
s2 = 1 = i =1
(6.2)
n −1 n −1

Oliveira, D. C. R. e Oliveira, M. S. 19 ____/____/____


O desvio padrão é simplesmente a raiz quadrada positiva da variância
s = s2 (6.3)

Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos:

Notas Média
Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0

(7 − 8) 2 + (7,5 − 8) 2 + (8 − 8) 2 + (8 − 8) 2 + (8,5 − 8) 2 + (9 − 8) 2 2,5


s A2 = = = 0,5 s A = 0,5 ≅ 0,7
6 −1 5

Notas Média
Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0

s B2 = = = sB =
6 −1 5

Notas Média
Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0

sC2 = = = sC =
6 −1 5

Resumindo

Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos


Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão
A 8,0 8,0 8,0
B 8,0 8,0 8,0
C 8,0 8,0 8,0

Fórmula alternativa para o cálculo da variância

Podemos calcular a variância através da seguinte fórmula alternativa:


1 ⎡⎛ n 2 ⎞ 2⎤
s2 = ⎢⎜ ∑ xi ⎟ − n ( x ) ⎥ (6.4)
n − 1 ⎣⎝ i =1 ⎠ ⎦
.
A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta
tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao
quadrado da variável ∑ xi .
2
( )
Oliveira, D. C. R. e Oliveira, M. S. 20 ____/____/____
6.4. Intervalo Interquartil

O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1),
ou seja,
IQ = Q3 – Q1. (6.5)

Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de
dados ordenados.

6.5. Exercícios – Parte I – A1

1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular
a variância, sabendo que a média é 5,4.

2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada


um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego,
em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários
entrevistados foi:
Empresa A Empresa B Empresa C
5,5 4 5
6 5 6
6 6 6
6 6 6
6,5 9 7
Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa
para tomar sua decisão.

3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem
de sangue. Para isto o responsável pelas análises preparou uma substância de concentração
conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os
resultados obtidos em cada um deles foram os seguintes:
A 5 10 7 15 16 12 4 8 10 13
B 10 9 10 9 11 8 9 7 8 9
C 10 11 9 10 10 9 11 12 8 10
Em medidas clínicas três termos são utilizados freqüentemente:
Precisão: refere-se à dispersão dos resultados
Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao
“verdadeiro valor”
Exato: refere-se ao instrumento preciso e não-viciado
(a) Descreva os três instrumentos em termos das definições acima.
(b) Qual instrumento lhe parece recomendável? Justifique sua resposta.

Oliveira, D. C. R. e Oliveira, M. S. 21 ____/____/____


7. ESTATÍSTICA GRÁFICA

7.1. Gráficos para as Variáveis Qualitativas

A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e


concisamente, informar sobre sua variabilidade.
Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três
deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto.

7.1.1. Gráfico em Barras

O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões
é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas
as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou
verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de
Instrução.

Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB segundo o grau de instrução.
Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
Fundamental 12 0,3333 33,33%
Médio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total n = 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)

18
18
16

14

12

12
Freqüência (ni)

10

6
6
4

0
Fundamental Médio Superior
Grau de Instrução

Figura 7.1: Gráfico em Barras para a variável Grau de Instrução

Oliveira, D. C. R. e Oliveira, M. S. 22 ____/____/____


7.1.2. Gráfico de Composição em Setores (“Pizza”)

O gráfico de composição em setores (“pizza”), destina-se a representar a composição,


usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário,
representando o todo, dividido em setores, que correspondem às partes de maneira proporcional.
Para o exemplo anterior temos o seguinte gráfico:

50%

Fundamental

Médio
33%
Superior

17%

Figura 7.2: Gráfico em Setores para a variável Grau de Instrução

7.1.3. Gráfico de Pareto


O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um
gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a
porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver
Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de
ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior
freqüência, e assim por diante.

500 100

400 80
Porcentagem Acumulada
Frequencia Absoluta

300 60

200 40

100 20

0 0
Modelo-Aviões MD-737 MD-777 MD-757 MD-767 MD-717 MD-747 MD-11 MD-90
Count 281 55 45 44 32 25 4 3
Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6
Cum % 57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0

Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)
Oliveira, D. C. R. e Oliveira, M. S. 23 ____/____/____
A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da
Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular,
seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as
porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse
exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do
total dos aviões produzidos em 2000.

90

Porcentagem Acumulada
80 100
Número de Defeitos

70
80
60
50 60
40
30 40
30
21
20
20
10 6 6 5 5 4 4
0 0
Tipo de Defeito o as as ia as es as os
orn ad ur nc ad nt iv tr
n t r h ê c ie o u
co
a an qü ifi sa
l /g O
o l ap s/r se ubr s d as
d a l
m ro de ão ar
te en
o ra s fu ra n P s /f
F e e e
rt d Fo s lh
Pa lta a r te ta
n
Fa P E
Count 30 21 6 6 5 5 4 4
Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9
Cum % 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0

Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta.

Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de
produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários
tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de
uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos
que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte
importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia
concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados
esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou
eliminá-los.

Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo
Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%)
pertence à minoria da população (20%).

Oliveira, D. C. R. e Oliveira, M. S. 24 ____/____/____


7.2. Gráficos para as Variáveis Quantitativas

Para variáveis Quantitativas podemos considerar uma variedade maior de representações


gráficas.

7.2.1. Gráfico em Barras

O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das


variáveis qualitativas.
Como ilustração, considere a variável “Número de Filhos” dos empregados casados da
seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia


MB, segundo o número de filhos.
Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi)
0 4 20
1 5 25
2 7 35
3 3 15
4 0 0
5 1 5
Total n = 20 100
Fonte: Bussab e Morettin (2002)

Figura 7.5: Gráfico de Barras para a variável Números de Filhos

Oliveira, D. C. R. e Oliveira, M. S. 25 ____/____/____


7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem ser


representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e
grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também
conhecido como gráfico de pontos.

Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento,
viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

2 3 4 5 6 7 8 9 10
Figura 7.6: Gráfico de Dispersão – Dot Plot

7.2.3. Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de


barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo
proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai.
Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a
di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos
em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma
será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia


MB, temos os seguintes dados:

Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB, por faixas de salário
Classe de Freqüência Proporção Porcentagem Densidade de Freqüência
Salário (ni) (fi) (100 x fi) (di = fi/ai)
04 |-- 08 10 0,2778 27,78 0,0695
08 |-- 12 12 0,3333 33,33 0,0833
12 |-- 16 8 0,2222 22,22 0,0556
16 |-- 20 5 0,1389 13,89 0,0347
20 |-- 24 1 0,0278 2,78 0,0070
Total n = 36 1,0000 100,00

Oliveira, D. C. R. e Oliveira, M. S. 26 ____/____/____


0,09

0,08

0,07 0,0833
Densidade de Freqüência

0,06 0,0695

0,05
0,0556
0,04

0,03 0,0347

0,02

0,01 0,007

0
04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24
Classes de Salários

Figura 7.7: Histograma da variável Salário

7.2.4. Gráfico em Linhas (ou Gráfico Temporal)

É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos


iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries
temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.


Ano Dívida Ano Dívida Ano Dívida
1956 2736 1973 14857 1990 123439
1957 2491 1974 20032 1991 123910
1958 2870 1975 25115 1992 135949
1959 3160 1976 32145 1993 145726
1960 3738 1977 37951 1994 148295
1961 3291 1978 52187 1995 159256
1962 3533 1979 55803 1996 179935
1963 3612 1980 64259 1997 199998
1964 3294 1981 73963 1998 241644
1965 3823 1982 85487 1999 241468
1966 3771 1983 93745 2000 236156
1967 3440 1984 102127 2001 226067
1968 4092 1985 105171 2002 227689
1969 4635 1986 111203 2003 235414
1970 6240 1987 121188 2004 220182
1971 8284 1988 113511 2005 187987
1972 11464 1989 115506 2006 191999
Fonte: IPEADATA

Oliveira, D. C. R. e Oliveira, M. S. 27 ____/____/____


250000

200000
Dívida em Milhões de Dólares

150000

100000

50000

0
6

6
5

0
19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

20

20

20

20
Ano

Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006

7.2.5. Ramo-e-Folhas

Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista
em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi
em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que
consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos
(valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76
no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número
de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de
ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são
listadas todas as folhas que correspondem aos valores dos dados observados.

Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas
descartáveis de 1 litro de refrigerante.
176 221 242 253 261 265 271 278 286 301
187 223 243 254 262 265 272 278 287 307
197 228 245 254 263 267 274 280 290 308
200 231 246 257 263 267 274 280 293 317
205 231 248 258 264 268 274 280 294 318
208 234 248 258 264 268 274 280 296 321
210 235 250 260 265 269 275 281 298 328
214 235 250 260 265 269 276 281 299 334
215 235 250 260 265 270 276 283 299 337
220 242 251 260 265 271 277 283 300 346
Fonte: Hines et al. (2006), p. 157.

Oliveira, D. C. R. e Oliveira, M. S. 28 ____/____/____


1 17 6
2 18 7
3 19 7
6 20 058
9 21 045
13 22 0138
19 23 114555
26 24 2235688
36 25 0001344788
(22) 26 0000123344555555778899
42 27 01124444566788
28 28 0000113367
18 29 0346899
11 30 0178
7 31 78
5 32 18
3 33 47
1 34 6
Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5.
O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação
revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor
central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas
de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o
histograma, nos permite determinar rapidamente algumas características importantes dos dados que
não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os
números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas
podemos calcular qualquer medida de posição e dispersão.
7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot)
Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o
máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil
para o cálculo das linhas extremas.
* (Outlier ou Ponto Discrepante ou Ponto Aberrante)
Q 3 + 1,5 (Q 3 -Q 1)

“M áx im o ”

Q3
75%
M ed ian a
50%

Q1
25%

“M ín im o”
Q 1 -1 ,5 (Q 3 -Q 1 )

Figura 7.10: Desenho esquemático geral.

Oliveira, D. C. R. e Oliveira, M. S. 29 ____/____/____


O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou
mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que
representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em
uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três
misturas.

Tabela 7.6: Medidas de viscosidade para três misturas


Mistura 1 Mistura 2 Mistura 3
22,02 21,49 20,33
23,5 22,56 20,49
23,83 22,67 21,67
25,38 22,78 21,95
25,49 24,18 22,28
25,9 24,46 22,45
26,67 24,62 27,00

A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa


apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do
que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não
é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior
em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta,
em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais
misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados.

27 27
26,67

26 25,9

25,38
Viscosidade (centipoise)

25 24,62
24,46

24
23,5

23
22,78
22,45
22,56
22 22,02 21,95

21,49

21
20,49
20,33
20
Mistura 1 Mistura 2 Mistura 3

Figura 7.11: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6.

Oliveira, D. C. R. e Oliveira, M. S. 30 ____/____/____


7.3. Exercícios – Parte I – A1

1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na


Tabela 7.7.
Tabela 7.7: Defeitos em elementos estruturais da porta
Tipo de Defeito Frequência Absoluta
Partes Salientes 5
Fora do Contorno 30
Partes mal aparadas 25
Total 60

2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras,
colocando no eixo x, os meses (janeiro, ..., dezembro) e no eixo y, consumo de energia (em kWh).

3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de
incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo:
3,67 1,82 3,73 4,10 4,30
1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07

4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de
amplitude 1, de 0 a 10, isto é:

Taxas Freqüência Absoluta Proporção Densidade


[0, 1)
[1, 2)
[2, 3)
[3, 4)
[4, 5)
[5, 6)
[6, 7)
[7, 8)
[8, 9)
[9, 10]

em seguida, faça o histograma.

Oliveira, D. C. R. e Oliveira, M. S. 31 ____/____/____


8. CORRELAÇÃO E REGRESSÃO

8.1. Estudo da relação entre variáveis

O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista:

(a) Inspeção visual: diagrama de dispersão


(b) Quantificando a força dessa relação: coeficiente de correlação.
(c) Explicitando a forma dessa relação: ajuste de uma reta.

Exemplos: 1) Idade e altura das crianças;


2) Tempo de prática de esportes e ritmo cardíaco;
3) Tempo de estudo e nota na prova;
4) Taxa de desemprego e taxa de criminalidade;
5) Expectativa de vida e taxa de analfabetismo.

8.2. Diagrama de Dispersão

Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma
representação gráfica das duas variáveis.

Exemplo: Nota na Prova e Tempo de Estudo

X: tempo de estudo (em horas)


Y: nota obtida na prova

Tabela 8.1: Pares de observações (Xi, Yi)


Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3

Construção do Gráfico de Dispersão

No Excel podemos fazer:


Coluna A: Valores de X (Tempo)
Coluna B: Valores de Y (Notas)

Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de


“Dispersão (XY)”.

Oliveira, D. C. R. e Oliveira, M. S. 32 ____/____/____


10

6
Nota

0
0 2 4 6 8 10 12 14
Tempo

Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota

Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com
Assistência Médica.
Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários
mínimos mediram-se:

X: renda bruta mensal (em salários mínimos)


Y: porcentagem da renda bruta anual gasta com assistência médica

Tabela 8.2
X Y X Y
12 7,2 40 6,0
16 7,4 48 5,6
18 7,0 50 6,0
20 6,5 54 5,5
28 6,6 32 6,5
30 6,7

Oliveira, D. C. R. e Oliveira, M. S. 33 ____/____/____


Porcentagem da Renda Bruta Anual gasta com Assist. Médica 8

0
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos)

Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da
Renda Bruta Anual gasta com Assistência Médica.

Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y


(Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme
aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica
diminui. Nota-se também uma tendência linear decrescente.
Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que
ilustra com maior clareza essa tendência linear decrescente.

7,5
Porcentagem da Renda Bruta Anual gasta com Assist. Médica

6,5

5,5

5
0 10 20 30 40 50 60
Renda Bruta Mensal (em sal. mínimos)

Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da
Renda Bruta Anual gasta com Assistência Médica.
Oliveira, D. C. R. e Oliveira, M. S. 34 ____/____/____
8.3. Coeficiente de Correlação

O coeficiente de correlação linear é definido como:


n n

∑(X i − X )(Yi − Y ) ∑X Y i i − nXY


r= i =1
= i =1
(9.1)
(n − 1) S x S y (n − 1) S x S y
onde X e Y são as médias amostrais das variáveis X e Y , respectivamente.
S x e S y são os desvios padrão das variáveis X e Y , respectivamente
n n

∑(X i − X )2 ∑ (Y i − Y )2
Recordando: S x = i =1
e Sy = i =1

n −1 n −1

Propriedades do coeficiente de correlação linear

O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja,


−1 ≤ r ≤ 1

Classificação da correlação
1. r = 1 indica correlação linear positiva e perfeita;
2. r = −1 indica correlação linear negativa e perfeita;
3. r = 0 indica inexistência de correlação linear;
4. − 1 ≤ r ≤ 0 indica correlação linear negativa;
5. 0 ≤ r ≤ 1 indica correlação linear positiva.

Gráficos - Exemplos da classificação da correlação

r = 1 , correlação linear positiva e perfeita r = −1 , correlação linear negativa e perfeita

r ≅ 0 , inexistência de correlação linear


40

30
Y

20

10

10 20 30 40 50

Oliveira, D. C. R. e Oliveira, M. S. 35 ____/____/____


-1 ≤ r ≤ 0, correlação linear negativa 0 ≤ r ≤ 1, correlação linear positiva.

O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para
as duas figuras abaixo o valor do coeficiente de correlação é r = 0,46 .

Y
Z=Y/10+0,8

X X

O coeficiente de correlação linear mede apenas o grau de associação LINEAR.

r ≅ 0,01

O coeficiente de correlação linear é sensível a valores discrepantes.

r =0 r = 0.91

Oliveira, D. C. R. e Oliveira, M. S. 36 ____/____/____


Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual
gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2.
Medidas Descritivas com os dados da Tabela 8.2
Média X 31,63636
Média Y 6,454545
Desvio de X 14,63744
Desvio de Y 0,62348
n 11
Soma XY 2160,4

n
∑ X i Yi − nXY 2160,4 − 11.31,636363.6,454545
i =1
r= = = -0,9399564
(n − 1)S x S y 10.14,63744.0,62348
Podemos observar uma correlação negativa entre a renda bruta mensal e a
porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda
bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica.

8.4. Regressão Linear Simples

Objetivo: ajustar uma reta entre duas variáveis quantitativas.

Reta Ajustada
A reta ajustada de duas variáveis quantitativas Y e X é dado por
)
Y = a + bX

Definição de a e b

a: intercepto;
b: inclinação da reta.

Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b


unidades em Y.

Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os


valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios)
n n
SQ(a, b) = ∑ ei2 = ∑ {Yi − (a + bX i )}2
i =1 i =1

O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b.


Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer:

n
X i Yi − nXY
a = Y − bX b= i =1

(n − 1) S x2

Oliveira, D. C. R. e Oliveira, M. S. 37 ____/____/____


Reta Ajustada - Uso do Excel
Coluna A: variável Y;
Coluna B: variável X.
Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos:
=INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a);
=INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b).

Exemplo: Consumo de cerveja e temperatura


As variáveis foram observadas em nove localidades com as mesmas características
demográficas e sócio-econômicas.
Y: consumo de cerveja em um dia (em 100 litros)
X: temperatura máxima (em ºC)
Os dados amostrais estão dispostos na Tabela 8.3.

Tabela 8.3
Temperatura Consumo Temperatura Consumo
16 290 36 370
31 374 36 365
38 393 22 320
39 425 15 270
37 406
A correlação entre X e Y é:
n
X= Sx = Y= Sy = ∑X Y
i =1
i i =

A reta ajustada para este exemplo é:

450

430

410
y = 5,2194x + 200,42
390
Consumo de Cerveja

370

350

330

310

290

270

250
10 15 20 25 30 35 40 45
Temperatura Máxima

Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja,
juntamente com a Reta de Regressão
Oliveira, D. C. R. e Oliveira, M. S. 38 ____/____/____
(a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura?

(b) Qual o consumo previsto para uma temperatura de 25ºC?

8.5. Coeficiente de Determinação

A quantidade r2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de


determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão.
Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade
de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão.

Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta
com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os
dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 88,35%, isto é, 88,35% da
variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x.

7,5
porcentagem da renda bruta anual gasta com assistência médica

6,5

5,5

y = -0,04x + 7,7212
2
R = 0,8835

5
10 15 20 25 30 35 40 45 50 55 60
renda bruta mensal (em salários mínimos)

Oliveira, D. C. R. e Oliveira, M. S. 39 ____/____/____


8.6. Exercícios – Parte I – A1

1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo

X : tempo de estudo (em horas)


Y : nota obtida na prova

Tempo 3 7 2 1,5 12
Nota 4,5 6,5 3,7 4 9,3

(a) Faça o Gráfico de Dispersão.


(b) Obtenha o Coeficiente de Correlação.
(c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão.
(d) Obtenha o coeficiente de determinação.

Oliveira, D. C. R. e Oliveira, M. S. 40 ____/____/____


Lista de Exercícios 1

1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para


presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília.

2) Classifique as seguintes variáveis:


a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo);
b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste,
S:do Sul);
c) Número de sementes germinadas (0, 1, 2, 3, 4, 5);
d) Renda;

3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de


amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários
é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem
estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens.
(Utilize a primeira linha da tabela de números aleatórios, quando for necessário)

4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa
eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão
dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem
quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números
aleatórios, quando for necessário)

5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística


na Escola E.
Tabela 1: Dados Brutos
R : Ruim M : Médio B: Bom O : Ótimo
M R M M M R B B M M R B M M M M R B B R
B M R M B M R M R M B M R M R M B M B M
B B B B O M M M M M B B B B B B B O B O
a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e
relativa, porcentagens e interpretação.
b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1.

6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material
de construção.
Tabela 2: Dados Brutos (em m)
19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0
12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3
15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9

a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3.


b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil.
Oliveira, D. C. R. e Oliveira, M. S. 41 ____/____/____
c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título,
freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as
classes.
d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2.
e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2.

7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir:
Tabela 3: Medidas da pulsação
64 64 68 68 76 60 72 68
80 60 72 88 60 88 60
a) Calcule: Média, Mediana. Comente os resultados;
b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas;
c) Calcule: Variância e Desvio Padrão. Comente.
d) Construa o gráfico de barras para os dados de pulsação dos índios.

8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento


em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram
obtidos os valores (codificados) da tabela abaixo:
Tabela 4: Valores codificados do investimento em educação
Cidade A B C D E F G H I J
Investimento 20 16 14 7 19 15 14 16 19 18
a) Calcule a média e o desvio-padrão das observações;
b) Receberão um programa especial às cidades com valores de investimento inferiores à média
menos duas vezes o desvio padrão. Alguma cidade receberá o programa?
c) Será considerado como investimento básico a média das observações compreendidas entre a
média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o
investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada.

9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar
o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados
abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B,
C):
Tabela 5: Tempo (em dias) do completo fechamento em
cortes provenientes de cirurgia
A 13 14 15 13 15 14 15 15 14 14
B 14 12 13 13 14 14 13 14
C 12 12 13 13 12 13 11 11
Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente.

10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo
(em milhares) que circulam em seu habitat na Flórida-EUA.
Tabela 6: Dados Brutos
Barcos(X) 68 68 67 70 71 73 76 81 83 84
Mortes(Y) 53 38 35 49 42 60 54 67 82 78

Oliveira, D. C. R. e Oliveira, M. S. 42 ____/____/____


a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis.
b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)).
c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o
número de barcos como a variável independente.
d) Interprete o coeficiente de determinação (r2).

11) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em
cada uma delas a idade (X) e a massa muscular (Y).
Tabela 7: Dados Brutos
X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68
Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78
a) Faça o diagrama de dispersão dos dados.
b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o.
c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular
(dependente) e X: idade (independente) e interprete os coeficientes.

18 18 18 18
Alguns resultados: n = 18; ∑X
i =1
i = 1108 ; ∑X
i =1
i
2
= 70362 ; ∑Y
i =1
i = 1530 ; ∑Y
i =1
i
2
= 133300 e
18

∑X Y
i =1
i i = 91964 .

Observação: O gabarito da Lista de Exercícios 1 encontra-se no Apêndice A

Oliveira, D. C. R. e Oliveira, M. S. 43 ____/____/____


9. PROBABILIDADE

9.1. Processo ou Experimento Aleatório

Definição 1: Qualquer fenômeno que gere resultado incerto ou casual é chamado de Processo ou
Experimento Aleatório.

Exemplos:
1) Jogar uma moeda duas vezes e observar a seqüência obtida de caras e coroas;

2) Jogar um dado e observar o número mostrado na face superior;

3) Peso de Animais;

4) Número de filhos de um casal.

9.2. Espaço Amostral (Ω)

Definição 2: Espaço amostral (Ω) é o conjunto de todos os resultados possíveis de um experimento


aleatório.

Exemplos: Obtenha o espaço amostral dos seguintes experimentos:


1) Jogar um dado e observar o resultado: Ω = {1, 2, 3, 4, 5, 6}.

2) Lançar uma moeda duas vezes e observar as faces obtidas:

3) Uma urna contém 10 bolas azuis e 10 brancas. 3 bolas são retiradas ao acaso e as cores são
anotadas:

4) Dois dados são lançados simultaneamente e estamos interessados na soma das faces observadas:

5) Uma moeda é lançada consecutivamente até o aparecimento da 1ª cara:

6) Uma máquina produz 20 peças por hora. Ao final da primeira hora de produção, observa-se o nº
de defeituosas:

7) Medição do “tempo de vida” de uma lâmpada antes de se queimar:

Oliveira, D. C. R. e Oliveira, M. S. 44 ____/____/____


9.3. Evento

Definição 3: Evento é qualquer subconjunto do espaço amostral.

Exemplos:
(a) Alguns eventos do experimento 1: A = {5}, B = {2, 4, 6}, etc.

(b) Alguns eventos do experimento 2:

Existem dois eventos especiais: espaço todo (Ω) e o conjunto vazio (∅).

Operações com Eventos


Sejam A e B dois eventos de um mesmo espaço amostral:
• O evento interseção de A e B, denotado A∩B, é o evento em que A e B ocorrem
simultaneamente.
A B

• O evento união de A e B, denotado A∪B, é o evento em que A ocorre ou B ocorre (ou ambos).

A B

• O evento complementar de A, denotado Ac, é o evento em que A não ocorre.

A B

Exemplos: Operações com Eventos. Seja Ω1 = {1, 2, 3, 4, 5, 6} e considere os seguintes eventos


A = {2, 4, 6}, B = {4, 5, 6} e C = {1, 3, 5}.
Faça as seguintes operações:
A∩B= A∩C =
A∪B= A ∪ Bc =

Eventos Disjuntos
Definição 4: Dois eventos A e B são mutuamente exclusivos ou disjuntos se eles não podem
ocorrer simultaneamente (A ∩ B = ∅).
A B

Exemplo: A = o resultado do dado foi 4, e


B = o resultado do dado foi 5 ⇒ A ∩ B = ∅

Após essas quatro definições, estamos preparados para calcular probabilidades.

Oliveira, D. C. R. e Oliveira, M. S. 45 ____/____/____


9.4. Exercícios – Parte II – A2

1) Determine o espaço amostral dos seguintes experimentos:

(a) Lançar 2 dados e observar as faces superiores;

(b) Lançar 2 dados e observar a soma das faces superiores;

2) Considere o seuinte espaço amostral: Ω = = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}


Defina os eventos:
A = número par:
B = número ímpar:
C = múltiplo de 3:
D = maior ou igual a 6:
E = maior que 8:
F = menor que 5:
G = menor ou igual a 3:

Obtenha os seguintes eventos:

(a) A ∩ B = (e) C ∩ D =

(b) A ∪ B = (f) E ∪ F =

(c) (A ∩ B)c = (g) (A ∩ G)c =

(d) (A ∪ B)c = (h) (Ec ∪ B)c =

Oliveira, D. C. R. e Oliveira, M. S. 46 ____/____/____


9.5. Introdução à Probabilidade

A área de Probabilidade começou a ser desenvolvida no século XVII antes ainda da


formalização da área da Estatística, em questões propostas em jogos de azar.

1654 – Pierre de Fermat (1601-1665) e Blaise Pascal (1623-1662), na França, estabelecem os


Princípios do Cálculo das Probabilidades.

1656 - Huygens (1629-1695) publica o primeiro


Tratado de Probabilidade.

No entanto, é fácil perceber que o termo probabilidade já está enraizado no senso comum,
pois as pessoas vivem o cotidiano calculando implicitamente algumas probabilidades, tais como:
9 situações de sua vida pessoal;
9 organizando-se em relações a horários a cumprir, levando em conta as circunstâncias do
tráfego;
9 agasalhando-se ao sair de casa se a previsão do tempo indicar uma frente fria.

Em resumo, prevenindo-se em situações de risco.

Como podemos definir Probabilidade?

Probabilidade é uma medida que quantifica a sua incerteza frente a


um possível acontecimento futuro.

Há várias maneiras de se medir a incerteza e é costume se pensar na seguinte divisão:


1) Método Clássico 3) Método Subjetivo
2) Método Freqüentista 4) Método Moderno ou Axiomático

O primeiro é devido a Laplace e é o mais conhecido, pois relaciona eventos favoráveis com
eventos possíveis. O segundo consiste em repetir um experimento várias vezes. O terceiro é
baseado na opinião pessoal e o último é devido a Kolmogorov e baseia-se no princípio de que
qualquer experimento pode ser modelado.
Oliveira, D. C. R. e Oliveira, M. S. 47 ____/____/____
9.6. Definição Clássica

Definição 5 (Clássica): Dado um conjunto de N eventos equiprováveis, a probabilidade de


ocorrência de um determinado evento A, é dado pela razão
n
P ( A) =
N
onde n é o número de elementos em A e N é o número de elementos em Ω.

Exemplo: Considere o lançamento de uma moeda equilibrada, nesse caso o espaço amostral
associado é Ω = {Cara, Coroa}. Então, pela definição clássica, a probabilidade de ocorrência do
evento “cara” é P(cara) = .

Exemplo: População Residente em São João del Rei em 2006


Idade Menor 1 1a4 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais Total
Masculino 600 2592 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 40126
Feminino 572 2457 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 42826
Total 1172 5049 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 82952
Fonte: DATASUS (http://www.datasus.gov.br)

Ω = conjunto de 82.952 habitantes residentes em São João del Rei em 2006 por faixa etária.
Possíveis eventos de interesse:
M = Indivíduo sorteado é do sexo masculino F = Indivíduo sorteado é do sexo feminino
A = Indivíduo sorteado tem mais que 80 anos B = Indivíduo sorteado tem entre 15 e 29 anos
M ∩ A = Indivíduo sorteado é do sexo masculino e tem mais de 80 anos
F ∪ B = Indivíduo sorteado é do sexo feminino ou tem entre 15 e 29 anos

Distribuição da Faixa Etária da Cidade de São João del Rei em 2006, por Sexo
17,51

20,00
16,69

18,00
16,57

16,00
13,78
16,48

14,00
13,69

Masculino
12,00
9,41
Porcentagem

Feminino
8,50

8,70

10,00
8,22
9,09
6,46

8,00
8,62

5,54
8,13
7,61

6,79

6,00
2,70
5,74

4,00
4,16
1,50
1,34

0,99

2,00
1,78

0,00
Menos 1a4 5a9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 acima
que 1 de 80
Grupos de Idade

Oliveira, D. C. R. e Oliveira, M. S. 48 ____/____/____


Exercício – Parte II – A2: Suponha que um indivíduo é escolhido aleatoriamente na cidade de São
João del Rei em 2006. Determine a probabilidade de ocorrer cada um dos eventos definidos.

9.7. Definição Freqüentista

Definição 6 (Freqüentista): A probabilidade de ocorrência de um determinado evento é igual à


freqüência relativa de ocorrência de tal evento, quando o processo aleatório que o gerou for
repetido infinitas vezes.

Exemplo: Atividade Prática do lançamento da moeda.

Passo 1 – Agrupem-se 2 a 2 e peguem uma moeda – chamem o valor numérico da moeda de


COROA (K ) e a outra face de CARA (C). Suponham que haja interesse em saber se a sua moeda é
“honesta” (isto significa saber se a probabilidade de CARA de sua moeda é ½ ou, em termos
percentuais, se a probabilidade de sair Cara é 50%).

Passo 2 – Um membro do grupo vai lançar a moeda e o outro vai marcar os resultados na planilha
anexa, seguindo as seguintes instruções:
a) Jogar a moeda uma vez e anotar C ou K no espaço adequado (linha 2) da planilha.
b) Repetir este procedimento 30 vezes, preenchendo um a um todos os espaços da linha 2.

Passo 3 – Continuando com a planilha, trocar de lugar com o parceiro, voltar para os itens a) e b)
das instruções e continuar mais 30 jogadas – até perfazer 60.

Passo 4 – Voltar ao primeiro da dupla e, ainda com a planilha, seguir as instruções:


c) Depois do registro na linha 2 de todos os resultados como C ou K, passar para a linha 3: chamar
CARA de 1 e COROA de 0 e colocar estes valores na planilha, abaixo de cada resultado já obtido
na linha 2. Cada membro do grupo deve fazer metade – um faz a linha de cima e o outro a linha de
baixo.

d) Agora a linha 4 da planilha deve ser preenchida – em cada posição deve ser colocado o número
acumulado de CARAS, até aquela jogada (verifique que a jogada está explicitada na linha 1- que é
a linha n). Discutir com outro membro do grupo para ver se está claro – se não, pergunte! A linha
de baixo é continuação do acumulado da linha de cima.

e) Finalmente chegamos à última linha – linha 5: colocar a freqüência relativa (m/n) de CARAS em
cada momento – o que é isto? Discuta com o outro membro do grupo (desprezar as entradas
assinaladas com X).

Oliveira, D. C. R. e Oliveira, M. S. 49 ____/____/____


1) Jogada(n) 1 2 3 4 5 6 7 8 9 10 12 14 17 20 25 30
2) C ou K
3) 1 ou 0
4) Caras Acumuladas (m)
5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X

1) Jogada(n) 31 32 33 40 47 50 55 60
2) C ou K
3) 1 ou 0
4) Caras Acumuladas (m)
5) Frequência Relativa (m/n) X X X X X X X X X X X X X X X X X X X X X X X X X X X

Passo 5 – depois de completar a 1a parte da planilha, construir a seguinte tabela, usando as linhas 4
e 5 da planilha:

n 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60
m/n

Passo 6 – Completar o gráfico, usando os valores da tabela recém construída, do seguinte modo:
Eixo Y – valores m/n Eixo X – valores da linha 1: (n)

Gráfico da Atividade Prática - Parte II – A2


m/n
1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1
1 2 3 4 5 6 7 8 9 10 …… 20 30 40 50 60
n
Passo 7 – Comparar os resultados com os colegas e interpretar o resultado comentando sobre a
“honestidade” da sua moeda.

Conclusão: Com isto chegamos a uma possível “definição freqüentista” de probabilidade, ou seja,
probabilidade é o valor em que a freqüência relativa se estabiliza após um número muito grande de
ensaios.

Oliveira, D. C. R. e Oliveira, M. S. 50 ____/____/____


9.8. Definição Subjetiva

Definição 7 (Subjetiva): Cada indivíduo, baseado em informações anteriores e na sua opinião


pessoal a respeito de um evento em questão, pode ter uma resposta para a probabilidade desse
evento.

Exemplo: Um médico experiente consegue calcular uma probabilidade do indivíduo ter uma
determinada doença baseado nos sintomas que o indivíduo apresenta.

9.9. Definição Moderna

Definição 8 (Moderna): Probabilidade é uma função P(.), que associa a cada evento do espaço
amostral Ω, um número real, pertencente ao intervalo [0, 1], satisfazendo os seguintes axiomas:

(1) 0 ≤ P(A) ≤ 1.
(2) P(Ω) = 1.
(3) Se A e B são eventos mutuamente exclusivos: P(A∪B) = P(A) + P(B).

Exemplos:

Segue alguns exemplos de funções já descobertas na literatura para calcular


probabilidades, que serão discutidas em detalhes nos capítulos posteriores.

1) Distribuição Bernoulli
P(X = x ) = p x (1 − p )1− x , x = 0, 1.
2) Distribuição Binomial
⎛n⎞
P(X = x ) = ⎜⎜ ⎟⎟p x (1 − p ) , x = 0, 1, ..., n.
n−x

p
⎝ ⎠
3) Distribuição Hipergeométrica
⎛ r ⎞⎛ N − r ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟
⎝ x ⎠⎝ n − x ⎠ , 0 ≤ x ≤ mínimo(r, n).
P(X = x ) =
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠
4) Distribuição Poisson
e − λ λx
P(X = x ) = , x = 0, 1, ...
x!

5) Distribuição Normal
1
1 −
2
(x −µ ) 2
f (x) = e 2σ , - ∞ < x< + ∞
σ 2π

Oliveira, D. C. R. e Oliveira, M. S. 51 ____/____/____


6) Distribuição t de Student
−(k +1) / 2
Γ[(k + 1) / 2] ⎛⎜ x 2 ⎞

f (x) = 1+ , - ∞ < x< + ∞
Γ[k / 2] πk ⎜⎝ k ⎟

7) Distribuição Qui-Quadrado
k
−1 − x
1 2
f (x) = x e 2,x>0
k
[
Γ k/2 22 ]

Propriedades

P1: P(∅) = 0, onde ∅ é o conjunto vazio.


P2: Se Ac for o evento complementar de A, então P(Ac) = 1 – P(A).
P3: Se A e B forem dois eventos quaisquer, então P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
P4: Se A ⊂ B, então P(A) ≤ P(B).
Nos capítulos posteriores veremos algumas distribuições de probabilidade para
variáveis discretas e contínuas comumente utilizadas.

9.10. Probabilidade Condicional


A probabilidade condicional surge, por exemplo, quando se deseja calcular a probabilidade
de um evento A ocorrer sabendo que um evento B já ocorreu.
Sejam A e B dois eventos associados a um mesmo espaço amostral Ω. Denota-se por
P(A|B) a probabilidade condicionada do evento A, quando o evento B tiver ocorrido.
Sempre que calculamos P(A|B), estamos essencialmente calculando P(A) em relação ao
espaço amostral reduzido devido a B ter ocorrido, em lugar de fazê-lo em relação ao espaço
amostral original Ω.
Assim, uma definição mais formal de probabilidade condicional é dada pela definição 9.

Definição 9 (Probabilidade Condicional): Dados dois eventos A e B, a probabilidade condicional


de A dado que ocorreu B é representada por P(A | B) e definida por
P( A ∩ B)
P( A | B) = , P( B) > 0
P ( B)
Da definição de probabilidade condicional, obtemos a regra do produto de probabilidades.

P( A ∩ B) = P( B)P( A | B)
Exemplo: Voltando ao Exemplo da População Residente em São João del Rei em 2006, temos:

Idade Menor 1 1a4 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais Total


Masculino 600 2592 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 40126
Feminino 572 2457 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 42826
Total 1172 5049 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 82952
Fonte: DATASUS (http://www.datasus.gov.br)

Oliveira, D. C. R. e Oliveira, M. S. 52 ____/____/____


Se soubermos que um indivíduo sorteado é do sexo masculino, qual é a probabilidade de
que ele tenha idade entre 30 e 39 anos?
B = indivíduo é do sexo masculino e A = tem idade entre 30 e 39 anos
6699
P(A ∩ B) 82952 6699
P(A | B) = = = = 0,167
P(B) 40126 40126
82952

Exercício – Parte II – A2: Na Segunda Guerra Mundial, houve um esforço de pesquisa


operacional na Inglaterra direcionado a estabelecer padrões de busca de submarinos alemães pelas
patrulhas aéreas. Por algum tempo, houve uma tendência em concentrar os vôos em áreas próximas
à costa, uma vez que se acreditava que mais avistamentos tinham ocorrido ali. O grupo de pesquisa
estudou os registros de 1000 patrulhas, obtendo os seguintes resultados (os dados são fictícios):

Próximo à costa (B1) Alto-mar (B2) Total


Houve avistamento (A1) 80 20 100
Não houve avistamento (A2) 820 80 900
Total de Patrulhas 900 100 1000
(a) Dado que a patrulha estava próximo à costa, qual a probabilidade de que houve avistamento?
(b) Dado que a patrulha estava em alto-mar, qual a probabilidade de que houve avistamento?
(c) Os resultados de (a) e (b) indicam uma estratégia de busca contrária à prática anterior?

9.11. Independência de Eventos

Definição 10: Dois eventos A e B são independentes se a ocorrência de um não altera a


probabilidade de ocorrência do outro, isto é, P(A|B) = P(A) ou P(B|A) = P(B), ou ainda, a seguinte
forma equivalente:

P(A∩B) = P(A) P(B)

Exemplo: Joaninha tem probabilidade de 0,8 de passar no vestibular enquanto que Joãozinho tem
probabilidade de 0,6. Qual a probabilidade dos dois passarem no vestibular? Qual a suposição a ser
feita nesse caso para calcular a probabilidade?
Sejam os eventos: A: Joaninha passa no vestibular e B: Joãozinho passa no vestibular
P(A∩B) = 0,8.0,6 = 0,48

Exercício – Parte II – A2: O campo da Engenharia da confiabilidade se desenvolveu rapidamente


a partir do início da década de 1960. Um tipo de problema encontrado é o de se estimar a
confiabilidade de um sistema a partir das confiabilidades dos subsistemas. A confiabilidade é
definida, aqui, como a probabilidade do funcionamento apropriado durante um certo período de
tempo. Considere a estrutura de um sistema em série simples, como o da figura a seguir:

Sistema

Subsistema 1 Subsistema 2
Oliveira, D. C. R. e Oliveira, M. S. 53 ____/____/____
O sistema funciona se e somente se o subsistema 1 e o subsistema 2 funcionarem. Se os
subsistemas sobrevivem independentemente, a confiabilidade do subsistema 1 é de 0,90 e do
subsistema 2 é de 0,80, qual é a confiabilidade do sistema?

9.12. Regra da Probabilidade Total

Se A e B são eventos, temos duas maneiras de A ocorrer:


A e B ocorrem ⇒ (A ∩ B) ou A e Bc ocorrem ⇒ (A ∩ Bc)

Assim temos que: A = (A ∩ B) ∪ (A ∩ Bc)


pela Regra da Soma temos: P(A) = P(A ∩ B) + P(A ∩ Bc)
e finalmente pela Regra do Produto temos:

P(A) = P(B).P(A | B) + P(Bc).P(A | Bc)

Exemplo: O Cruzeiro ganha com probabilidade 0.7 se chove e 0.8 se não chove. Em maio a
probabilidade de chuva é de 0.3. Qual a probabilidade do Cruzeiro ganhar uma partida no mês de
maio?
A: Cruzeiro vencer; B: chove; Bc: Não chove
P(A) = P(B).P(A | B) + P(Bc).P(A | Bc) = 0,3.0,7 + 0,7.0,8 = 0,77

Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de


parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados:
Máquina Percentual de Produção Percentual de Defeituosos Produzidos
1 15 4
2 30 3
3 20 5
4 35 2
As máquinas 2 e 4 são mais novas e, assim, a maior parte da produção foi atribuída a elas.
Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso é
selecionado aleatoriamente do estoque, qual é a probabilidade de que seja defeituoso?

9.13. Teorema de Bayes

Finalmente, uma das relações mais importantes envolvendo probabilidades condicionais é


dada pelo Teorema de Bayes. Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser
revistas quando conhecemos algo mais sobre os dados. A versão mais simples desse teorema é
dada pela fórmula
P(A ∩ B) P(B | A) P(A)
P(A | B) = =
P(B) P(B)
A forma geral do Teorema de Bayes pode ser introduzida da seguinte forma:
Considere a seqüência {C1, C2, ..., Cn} como sendo uma partição do espaço amostral Ω, isto
é, Ci ∩ Cj = ∅ sempre que i ≠ j e C1 ∪ C2 ∪ ... ∪ Cn = Ω.
Considere um evento qualquer A em Ω. Suponha que sejam conhecidas as probabilidades
de cada partição (P(Ci)) e as probabilidades condicionais P(A|Ci).

Oliveira, D. C. R. e Oliveira, M. S. 54 ____/____/____


Logo, temos o seguinte teorema:
Teorema: A probabilidade de ocorrência do evento Ci, supondo a ocorrência do evento A, é dado
por
P(C i )(A | C i )
P (C i | A ) =
n
∑ P(C j )(A | C j )
j=1
para todo i = 1, 2, ..., n.

Curiosidade
O teorema de Bayes, que aparentemente poderia ser encarado como mais um resultado na teoria de
probabilidades, tem importância fundamental, pois fornece a base para uma abordagem da
inferência estatística conhecida como inferência bayesiana.
Como estamos falando do Thomas Bayes, não podemos deixar de fazer um breve
comentário sobre o que chamamos de probabilidades subjetivas, ou seja, cada indivíduo, baseado
em informações anteriores e na sua opinião pessoal a respeito de um evento em questão, pode ter
uma resposta para a probabilidade desse evento. A inferência Bayesiana toma como uma de suas
bases o fato de que todas as probabilidades são subjetivas. O teorema de Bayes tem um papel
importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de
opiniões, ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A.
As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas as
que foram mencionadas nesse texto.

Exemplo:
Níveis Históricos de Qualidade de Dois Fornecedores
% de Peças Boas % de Peças Ruins
Fornecedor 1 98 2
Fornecedor 2 95 5
Considere uma empresa fabricante que recebe embarques de peças de dois diferentes
fornecedores. Atualmente, 65% das peças compradas pela empresa são do fornecedor 1 e o
restante, 35%, são do fornecedor 2. Dado que uma peça selecionada seja defeituosa, qual a
probabilidade dela ter vindo do fornecedor 2?

P(D | F2) P(F2) P(D | F2) P(F2) 0,05.0,35 0,0175


P ( F2 | D ) = = = = ≅ 0,57
P ( D) P(D | F1) P(F1) + P(D | F2) P(F2) 0,02.0,65 + 0,05.0,35 0,0305

Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de


parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados:
Máquina Percentual de Produção Percentual de Defeituosos Produzidos
1 15 4
2 30 3
3 20 5
4 35 2
Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso
é selecionado aleatoriamente do estoque e ele é defeituoso, qual é a probabilidade de que seja da
máquina 2?
Oliveira, D. C. R. e Oliveira, M. S. 55 ____/____/____
10. VARIÁVEL ALEATÓRIA DISCRETA

Exemplos
1. Lança-se uma moeda 10 vezes e anota-se o número de caras. Este número pode ser 0, 1, 2 ...10.

2. Em uma pesquisa de mercado feita com 200 pessoas, perguntam-se estes compram um
determinado produto. O número de pessoas que compram o produto varia de 0 a 200.

3. Conta-se o nº de acidentes que ocorrem em uma rodovia num feriado prolongado. O número de
acidentes em questão pode ser: 0, 1, 2… Como não temos um valor que limite esse número,
supomos que o número de acidentes é qualquer inteiro não negativo.

4. Número de chamadas telefônicas que chegam a uma central em um intervalo de tempo.

10.1. Introdução
Vamos incorporar o conceito de probabilidade ao estudo de variáveis associadas a
características em uma população. Muitos experimentos produzem resultados não-numéricos.
Antes de analisá-los, é conveniente transformar seus resultados em números. Isto é feito através da
variável aleatória que é uma função que associa um valor numérico a cada ponto do espaço
amostral.
Para entender melhor o conceito, considere o seguinte exemplo.

Exemplo: Observa-se o sexo das crianças em famílias com três filhos. O espaço amostral é
Ω = {(MMM), (MMF), (MFM), (FMM), (MFF), (FMF), (FFM),(FFF)}
Uma variável aleatória de interesse é: X = {nº. de crianças do sexo masculino}. A cada evento
simples, ou ponto de Ω, associamos um número, que é o valor assumido pela variável aleatória X:

Evento MMM MMF MFM FMM MFF FMF FFM FFF


X 3 2 2 2 1 1 1 0

Poderíamos também ter considerado o nº. de crianças do sexo feminino. Os valores de X, na


mesma ordem, seriam então 0, 1, 1, 1, 2, 2, 2, 3.

Obs: A expressão “variável aleatória” será abreviada por “v.a.”.

Definição: uma v.a. é discreta quando o conjunto de valores possíveis for finito ou infinito
numerável.
Exemplos: Número de filhos, Número de bactérias numa lâmina, número de lâmpadas em uma
residência, etc.
O passo fundamental para entendermos uma v.a. discreta é associar a cada valor a sua
probabilidade, obtendo o que se chamamos de distribuição de probabilidade.

X x1 x2 ... xn
P(X=x) P(X=x1) P(X=x2) ... P(X=xn)
Oliveira, D. C. R. e Oliveira, M. S. 56 ____/____/____

n
A função de probabilidade (P(⋅)) deve satisfazer: 0 ≤ P(X=xi) ≤ 1 p/ ∀ xi e i =1
P ( X = xi ) = 1

Exemplo: Um certo departamento da UFSJ é formado por 35 professores, sendo 21 homens e 14


mulheres. Uma comissão de 3 professores será constituída, sorteando-se, ao acaso, três membros
do departamento. Qual a probabilidade da comissão ser formada por pelo menos duas mulheres?

Seja X = { nº. de mulheres na comissão}.

Espaço Amostral X Probabilidade


21 20 19 Distribuição de Probabilidade
HHH 0 x x = 0,203
35 34 33
21 20 14 X 0 1 2 3
HHM 1 x x = 0,150
35 34 33 P(X) 0,203 0,450 0,291 0,056
HMH 1

MHH 1 Assim, P(X ≥ 2) = P(X = 2) + P(X = 3)


21 14 13
HMM 2 x x = 0,097 = 0,291+ 0,056
35 34 33
MHM 2 = 0,347

MMH 2
14 13 12
MMM 3 x x = 0,056
35 34 33

10.2. Esperança Matemática (Média)


Assim como definimos a média de uma distribuição de freqüências como a soma dos
produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural
definirmos agora a média de uma v.a., ou de sua distribuição de probabilidade, como a soma dos
produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi).
A média de uma v.a. X é também chamada valor esperado ou esperança matemática, ou
simplesmente esperança de X. É representada por E(X) e se define como
n
E (X) = x 1 P(X = x 1 ) + x 2 P(X = x 2 ) + L + x n P(X = x n ) = ∑ x i P(X = x i )
i =1

É uma média ponderada dos xi, em que os pesos são as probabilidades associadas.

Exemplo: Um lojista mantém extensos registros das vendas diárias de certo aparelho. O quadro a
seguir dá o número xi de aparelhos vendidos em uma semana e a respectiva probabilidade:

Número xi 0 1 2 3 4 5
Probabilidade P(X = xi) 0,1 0,1 0,2 0,3 0,2 0,1
Se for de R$ 20,00 o lucro por unidade vendida, qual o lucro esperado nas vendas de uma semana?

Oliveira, D. C. R. e Oliveira, M. S. 57 ____/____/____


Solução: Calculemos inicialmente E(X), que é o número esperado de aparelhos vendidos em uma
semana:
E(X) = (0)(0,1) + (1)(0,1) + (2)(0,2) + (3)(0,3) + (4)(0,2) + (5)(0,1) = 2,70.
Para x unidades vendidas o lucro é 20x. Logo, o lucro esperado é de R$ 54,00.

10.3. Variância
Assim como a média é uma medida de posição de uma v.a., é natural que procuremos uma
medida de dispersão dessa variável em relação à média. Essa medida é a variância, a ser
representada por σ2 e definida por
n
σ 2 = Var (X) = ∑ ( x i − E (X)) 2 P(X = x i )
i =1

Desenvolvendo o termo quadrático do somatório, obtemos uma expressão mais fácil de calcular a
variância dada por:
σ 2 = Var (X) = E(X 2 ) − [E (X)]2
n
onde E(X 2 ) = ∑ x i2 P(X = x i ) .
i =1

Desvio Padrão
O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a
vantagem de exprimir a dispersão na mesma unidade de medida da v.a.:
σ = σ2

10.4. Exercício – Parte II – A2


1) A distribuição de X: nº de crianças por domicílio numa determinada região é dada pela tabela
abaixo:
X 0 1 2 3 4 5
P(X = x) 0,10 0,15 0,25 0,30 0,15 0,05
Calcule:
(a) O número médio de crianças por domicílio, µX.
(b) O desvio padrão de X, σX.
(c) A probabilidade P{µX - σX ≤ X ≤ µX + σX}.

10.5. Distribuição Bernoulli


Na prática existem muitos experimentos que admitem apenas dois resultados.
Exemplos:
1) Uma peça é classificada como boa ou defeituosa;
2) Um entrevistado concorda ou não com a afirmação feita;
3) O resultado de um exame médico para detecção de uma doença é positivo ou negativo;
4) No lançamento de um dado ocorre ou não a face 5.
Oliveira, D. C. R. e Oliveira, M. S. 58 ____/____/____
Situações com alternativas dicotômicas podem ser representadas genericamente por
respostas do tipo sucesso-fracasso.
Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma v.a. com
distribuição Bernoulli.

Variável Aleatória de Bernoulli


É uma v.a. X que assume apenas dois valores: 1 se ocorrer sucesso, e 0 se ocorrer fracasso,
e, sendo p a probabilidade de sucesso, 0 < p < 1.
Denotamos por X ~ Bernoulli (p) uma v. a. com distribuição de Bernoulli com parâmetro p.

1, se ocorrer “sucesso”
X=
0, se ocorrer “fracasso”

e função de probabilidade,
X 1 0
P(X=x) p 1-p

Segue-se que
E(X) = p e Var(X) = p(1-p)

Repetições independentes de um ensaio de Bernoulli dão origem ao modelo binomial.

10.6. Distribuição Binomial

Experimento Binomial: É o experimento


(a) que consiste em n ensaios de Bernoulli;
(b) cujos ensaios são independentes; e
(c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1.
A v.a. X, correspondente ao número de sucessos num experimento binomial, tem
distribuição binomial com parâmetros n e p, com função de probabilidade dada por:
⎛n⎞
P(X = x ) = ⎜⎜ ⎟⎟p x (1 − p) n − x , x = 0, 1, K , n
⎝x⎠
⎛n⎞ n!
onde ⎜⎜ ⎟⎟ = , n!= n (n − 1)(n − 2) L (2)(1) e 0!= 1 .
⎝ x ⎠ x! (n − x )!

Notação: X ~ B(n; p).

Média e Variância da Binomial

A Média e a Variância são dadas, respectivamente, por:

E(X) = np e Var(X) = np(1-p)

Oliveira, D. C. R. e Oliveira, M. S. 59 ____/____/____


Exemplo: Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10 pessoas
dessa população forem escolhidas ao acaso e com reposição, determine:
(a) O nº esperado de inadimplentes.
(b) A probabilidade de selecionar exatamente 3 pessoas inadimplentes.
(c) A probabilidade de selecionar no máximo 3 inadimplentes.

10.7. Exercícios – Parte II – A2

1) Nos Estados Unidos, 29% dos advogados e juízes são mulheres (Statistical Abstract of the
United States, 1997). Em uma jurisdição com 30 advogados e juízes, qual é o número esperado de
mulheres? Qual é a variância e o desvio padrão?

2) O maior número de reclamações dos proprietários de automóveis com dois anos de uso se
referem ao desempenho do sistema elétrico. Considere que um questionário anual, enviado aos
proprietários de mais de 300 marcas e modelos de automóveis, revelou que 10% dos proprietários
de automóveis com dois anos de uso encontraram pontos com problemas no sistema elétrico, que
incluíam o motor de arranque, o alternador, a bateria, controles diversos, luzes e radio. Qual a
probabilidade de que uma amostra de 12 proprietários de automóveis com dois anos ter
(a) exatamente dois proprietários com problemas no sistema elétrico
(b) pelo menos dois proprietários com problemas no sistema elétrico
(c) no máximo um proprietário com problemas no sistema elétrico.

10.8. Distribuição Hipergeométrica

A distribuição Hipergeométrica está restritamente relacionada com a distribuição binomial.


A diferença chave entre as duas distribuições de probabilidade é que com a distribuição
hipergeométrica os ensaios não são independentes e a probabilidade de sucesso muda de ensaio
para ensaio, pois as seleções dos elementos são feitas sem reposição, enquanto que na distribuição
binomial as seleções dos elementos são feitas com reposição.
Considere um conjunto de N objetos dos quais r são do tipo I e N - r são do tipo II. Um
sorteio de n objetos (n < N) é feito ao acaso e sem reposição.
Definição: A variável aleatória discreta X que é igual ao número de objetos do tipo I
selecionados nesse sorteio tem distribuição Hipergeométrica.
Os valores possíveis de X vão de 0 a min(r, n), uma vez que não podemos ter mais do que o
número de objetos existentes do tipo I, nem mais que o total de sorteados.
Sua função de probabilidade é dada por:
⎛ r ⎞⎛ N − r ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟
⎝ x ⎠⎝ n − x ⎠ , 0 ≤ x ≤ mínimo(r, n).
P(X = x ) =
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠
Notação: X ~ Hipergeométrica (N; n; r)
Esperança: E(X) = np
Variância: Var(X) = np(1-p)(N-n)/(N-1),
onde p = r/N.
Oliveira, D. C. R. e Oliveira, M. S. 60 ____/____/____
Exemplo: Uma fábrica produz peças que são embaladas em caixas com 40 unidades. Para aceitar o
lote de caixas enviado por essa fábrica, o controle de qualidade de uma empresa sorteia uma caixa
do lote e sorteia 10 peças, sem reposição, dessa mesma caixa. Se houver alguma peça defeituosa o
lote inteiro é devolvido. Se a caixa sorteada tiver 4 peças defeituosas, qual é a probabilidade do lote
não ser devolvido?
N = 40, n = 10 e r = 4
X: número de peças defeituosas
⎛ 4 ⎞⎛ 40 − 4 ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟
⎝ 0 ⎠⎝ 10 − 0 ⎟⎠
P(X = 0) = ≅ 0,3
⎛ 40 ⎞
⎜⎜ ⎟⎟
⎝ 10 ⎠
10.9. Exercício – Parte II – A2: Para fazer o controle de qualidade numa empresa, lotes com 100
peças são examinados. O número de peças com defeito no lote é 10. Após colher uma amostra de 5
peças sem reposição, calcule a probabilidade de que nessa amostra não haja nenhum item
defeituoso.

10.10. Distribuição Poisson


A distribuição de Poisson é empregada em experimentos nos quais não se está interessado
no número de sucessos obtido em n tentativas, como ocorre no caso da distribuição binomial, mas
sim no número de sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalo de
tempo, espaço, etc. Alguns exemplos de variáveis que podem ter a distribuição de Poisson são
(a) número de defeitos por centímetro quadrado;
(b) n° de acidentes por dia;
(c) n° de clientes por hora;
(d) n° de chamadas telefônicas recebidas por minuto;
(e) n° de falhas de um computador num dia de operação;
(f) n° de relatórios de acidentes enviados a uma companhia de seguros numa semana.

Note-se que a unidade de medida (tempo, área) é contínua, mas a variável aleatória de
interesse (número de ocorrência) é discreta. Além disso, as falhas não são contáveis. Não é
possível contar os acidentes que não ocorreram, nem o número de defeitos por centímetros
quadrados que não ocorreram.

O limite inferior do número de ocorrências, em todos as situações dos exemplos, é


________, enquanto que o limite superior é – ao menos teoricamente – infinito, muito embora, na
maioria dos exemplos acima, seja difícil imaginar um número infinito de ocorrências.
As probabilidades, calculadas agora para todos os números inteiros não negativos k = 0, 1,
2, ... são dadas da seguinte forma:
e −λ λx
P(X = x ) = , x = 0, 1, ...
x!
onde “X = números de sucessos em um intervalo” é a variável de interesse, λ > 0 é o número
médio de sucessos da variável X e “e” é a constante 2,7183 (base dos logaritmos naturais).

Notação: X ~ P(λ)
Esperança e Variância: E (X) = Var (X) = λ
Oliveira, D. C. R. e Oliveira, M. S. 61 ____/____/____
Exemplo: Um departamento de conserto de máquinas recebe uma média de cinco chamadas por
hora. Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de
que, em uma hora selecionada aleatoriamente, sejam recebidas exatamente três chamadas:

10.11. Exercícios – Parte II – A2

1) Numa central telefônica, o número de chamadas chega segundo uma distribuição Poisson, com a
média de oito chamadas por minuto. Determine qual a probabilidade de que num minuto se tenha:
(a) duas ou mais chamadas;

(b) menos que duas chamadas;

(c) entre sete (inclusive) e nove (exclusive) chamadas.

Oliveira, D. C. R. e Oliveira, M. S. 62 ____/____/____


11. VARIÁVEL ALEATÓRIA CONTÍNUA

Até aqui estudamos variáveis aleatórias discretas que são caracterizadas por ter uma
distribuição de probabilidade dada por uma tabela que associa a cada um de seus valores uma
probabilidade. Esta probabilidade é um número entre 0 e 1 cuja soma é igual a 1.

Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um intervalo
que possui infinitos valores, então diremos que X é uma variável aleatória contínua.

Exemplos:
1. Mede-se a altura de uma mulher em uma cidade. O valor encontrado é um número real. Aqui
também sabemos que esse número não passa de 3 metros, mas é conveniente considerar qualquer
nº real positivo.
2. Em um exame físico para selecionar um jogador de futebol é medido o peso de cada candidato;
aqui também consideramos que o resultado pode ser qualquer número real positivo.
3. Em campanhas preventivas de hipertensão arterial é comum de tempos em tempos medir-se o
nível de colesterol. O valor de cada medida pode ser um número real não negativo.
4. Para pacientes que se apresentam num hospital a primeira atitude é medir-se a temperatura; o
valor da temperatura é um número real que se pode considerar compreendido entre 35º e 42ºC.
5. Retira-se uma lâmpada da linha de produção e coloca-se a mesma em um soquete acendendo-a;
observa-se a mesma até que se queime. O tempo de duração da lâmpada é um nº real não negativo.
Nos exemplos de 1 a 5, o número observado no experimento aleatório é um número
real e resulta em geral de uma medição:
• altura das mulheres;
• peso do atleta;
• nível de colesterol;
• temperatura;
• tempo de duração da lâmpada.
Uma variável aleatória contínua assume seus valores em um intervalo.
Como são atribuídas probabilidades nesse caso?

Exemplo: Suponha que observamos o peso, em kg, de 1500 pessoas adultas selecionadas
aleatoriamente numa população. O histograma por densidade desses valores é apresentado abaixo.

Oliveira, D. C. R. e Oliveira, M. S. 63 ____/____/____


A análise do histograma indica que:
ƒ a distribuição dos valores da variável PESO é aproximadamente simétrica em torno de 70kg;
ƒ a maioria dos valores encontra-se no intervalo (55;85);
ƒ existe uma pequena proporção de valores abaixo de 48kg e acima de 92kg.

Seja X = {peso em kg} de uma pessoa adulta escolhida ao acaso da população.


Como se distribuem os valores da variável aleatória X, ou seja, qual a distribuição
de probabilidades de X?

Para as variáveis contínuas as probabilidades são atribuídas por meio de uma função
cuja área entre a mesma e o eixo das abscissas (X) é igual a um.

P(a ≤ X ≤ b) = área hachurada


Esta função f(x) é denominada função densidade de probabilidade da variável
aleatória contínua X.
A área sob uma curva delimitada por dois valores a e b, como mostra a figura, é
determinada calculando-se a integral definida entre a e b da densidade de probabilidade
representada pela função, isto é,
b

∫ f(x)dx = P(a ≤ x ≤ b)
a

Oliveira, D. C. R. e Oliveira, M. S. 64 ____/____/____


Exemplo: Um fabricante de televisão a cores oferece uma garantia de 1 ano para substituição
gratuita se o tubo de imagem falhar. Ele estima o tempo de falha (em unidades de anos), x, como
uma variável aleatória contínua com a seguinte fdp
1 −x
f (x) = e 4 , x > 0
4
= 0, caso contrário
Qual a probabilidade de você comprar a televisão e necessitar de uma substituição gratuita?
1 x
1 −
P( x ≤ 1) = ∫ e 4 dx = ≅ 0,2
0
4

Definição: Se X é uma v.a. contínua, a função densidade de probabilidade f(X), indicada


abreviadamente por fdp, é uma função que satisfaz às seguintes condições:
(a) f(X) ≥ 0, ∀ X;
(b) A área sob a função densidade de probabilidade é 1, isto é:
+∞
∫−∞
f ( x )dx = 1

(c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre os
pontos a e b, isto é:
b
P(a ≤ X ≤ b) = ∫ f ( x )dx
a

(d) P(X = x0) = 0, porque:


x0
P(X = x 0 ) = ∫ f ( x )dx = 0
x0
Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

Definição: Se X é uma v.a. contínua, a função de distribuição acumulada (fda) de X é definida


como:
x
F( x ) = P(X ≤ x ) = ∫ f (s)ds
−∞

Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) = 0,


fora desse intervalo. Obtenha a F(x) de X.
⎧ 0, x<0
⎪⎪ x x
F( x ) = ⎨∫ 2s =s 2 = x 2 , 0 ≤ x ≤ 1
⎪0 0
⎪⎩ 1, x >1
11.1. Esperança e Variância

Definição: Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X)


denotada por E(X) é definido como:

E(X) = ∫ x f (x ) dx
−∞

Oliveira, D. C. R. e Oliveira, M. S. 65 ____/____/____


Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então:
1 1
2 31 2
E (X) = ∫ x 2x dx = ∫ 2 x 2 dx = x 0=
0 0
3 3

Definição: A variância de uma variável aleatória contínua é definida por:



Var(X) = E(X2) – [E(X)]2, onde E(X2) = ∫x
2
f ( x ) dx
−∞

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então:

2 1 1
E(X) = 2 41 2
3 E (X 2 ) = ∫ x 2 2 x dx = ∫ 2 x 3 dx = x 0=
0 0
4 4
Logo, Var(X) = 2/4 – (2/3)2 =1/18 = 0,056
Também podemos obter o Desvio Padrão: 0,056 ≅ 0,23

Exercícios – Parte II – A2:


1) O diâmetro de um cabo elétrico é uma variável aleatória com fdp dada por:
f(x) = 6x(1-x) para 0 < x < 1 e f(x) = 0 fora desse intervalo. Qual a probabilidade do diâmetro ser:
(a) Igual a 0,5 cm?
(b) Entre 0,10 e 0,20?
(c) Maior que 0,5?
(d) Menor que 1?

2) A quantia gasta anualmente, em milhões de reais, na manutenção do asfalto de uma cidade do


interior é representada pela variável y modelada pela função:
f(y) = (8/9)y – (4/9), se 0,5 ≤ y ≤ 2 e
f(y) = 0, caso contrário.
Qual a probabilidade da quantia gasta ser inferior a 0,8 milhões de reais?

3) O tempo de sobrevivência de uma bateria (em anos) pode ser modelado pela função:
f(x) = e-x, se x ≥ 0 e f(x) = 0, caso contrário.
(a) Qual a probabilidade da bateria sobreviver mais que 2 anos?
(b) Qual é o tempo médio de sobrevivência da bateria?

4) O diâmetro de um cabo elétrico é uma v. a. com fdp dada por: f(x) = 6x(1-x) para 0 < x < 1 e
f(x) = 0 fora desse intervalo.
(a) Verifique se f(x) é uma fdp, através do item (b) da definição 2.
(b) Obtenha a F(x).

11.2. Distribuição Normal

A distribuição Normal é uma das mais importantes distribuições contínuas de


probabilidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia
pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por esse
motivo, acham que foi Gauss que a descobriu.

Oliveira, D. C. R. e Oliveira, M. S. 66 ____/____/____


Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribuição
com valores muito freqüentes em torno da média e diminuindo a freqüência à medida que nos
afastamos da média.
Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a
variável tempo de duração, em horas, de uma lâmpada de certa marca.
A experiência sugere que esta distribuição deve ser assimétrica com uma grande proporção
de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500 horas

Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial.

Função Densidade de Probabilidade da Distribuição Normal

2
1 ⎛ x −µ ⎞
1 − ⎜ ⎟
2⎝ σ ⎠
f ( x) = e , −∞< x<∞
2πσ 2

O gráfico da densidade normal


Propriedades:

ƒ A curva normal é simétrica em torno da média µ;


ƒ A moda e a mediana são iguais a µ;
ƒ Os pontos de inflexão são µ- σ e µ + σ;
ƒ A área sob a curva e acima do eixo horizontal é
igual a 1.

Parâmetros: µ : média ou valor esperado


σ2: variância

Notação : X ~ N(µ, σ2)

Oliveira, D. C. R. e Oliveira, M. S. 67 ____/____/____


A distribuição normal depende dos parâmetros µ e σ2

Curvas normais com


mesmo desvio padrão,
mas com médias
diferentes.

µ1 µ2

___N(µ, σ 12)
Curvas normais ___N(µ, σ 22)
com mesma média,
mas com desvios ___N(µ, σ 32)
padrão diferentes.
σ 12 < σ 22< σ 32

Cálculo de Probabilidades

P(a < X < b)

Área sob a curva e acima do eixo horizontal (x) entre a e b.

a µ b

Oliveira, D. C. R. e Oliveira, M. S. 68 ____/____/____


X−µ
Se X ~ N(µ ; σ2), definimos: Z = . Então, E(Z) = 0 e Var(Z) = 1.
σ

f(x)

f(z)

a µ b x

a–µ 0 b–µ z
σ σ

A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida.


Portanto,
⎛a−µ X −µ b−µ⎞ ⎛a−µ b−µ⎞
P (a < X < b) = P ⎜ < < ⎟ = P⎜ <Z< ⎟
⎝ σ σ σ ⎠ ⎝ σ σ ⎠

Dada a v.a. Z ~N (0;1) podemos obter a v.a. X ~ N (µ;σ2) através da transformação inversa

X = µ + Zσ

Oliveira, D. C. R. e Oliveira, M. S. 69 ____/____/____


11.3. Tabela da Distribuição Normal Padrão
Denotamos: A(z) = P(Z ≤ z), para z ≥ 0.

Probabilidades Acumuladas da Distribuição Normal (0, 1) A(z) = P(Z ≤ z) , z ≥ 0.


Segunda decimal de z
0 1 2 3 4 5 6 7 8 9
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
Parte inteira e primeira decimal de z

1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Oliveira, D. C. R. e Oliveira, M. S. 70 ____/____/____


Exemplos: Seja Z ~ N (0,1), calcular:
a) P(Z ≤ 1,71) = A(1,71) = 0,9564 b) P(0 < Z ≤ 1,71) =

c) P(1,32 < Z ≤ 1,79) d) P(Z ≥ 1,5)

e) P(Z ≤ -1,3) f) P(-1,5 ≤ Z ≤ 1,5)

g) P(-1,32 < Z < 0) h) P( -2,3 < Z ≤ -1,49)

i) P(-1 ≤ Z ≤ 2)

Oliveira, D. C. R. e Oliveira, M. S. 71 ____/____/____


Exemplo: Seja X o gasto com lanche semanal. Após estudar esta variável, vimos que X ~ N (20, 64),
então obtenha:
a) P(16 < X < 22) =

b) P(X < 18 ou X > 24) = P(X < 18) + P(X > 24) =

Como encontrar o valor z da distribuição N(0,1) tal que:


(i) P(Z ≤ z) = 0,975 z é tal que A(z) = 0,975. Pela tabela, z = 1,96.

(ii) P(0 < Z ≤ z) = 0,4975 (iii) P(Z ≥ z) = 0,3

(iv) P(Z ≥ z) = 0,975 (v) P(Z ≤ z) = 0,10

(vi) P(-z ≤ Z ≤ z) = 0,80

Oliveira, D. C. R. e Oliveira, M. S. 72 ____/____/____


Calcule:
a) k tal que P( X ≥ k) = 0,05

b) k tal que P( X ≤ k) = 0,025

Nota Importante: Para toda v.a. X ~ N(µ ; σ2) temos:

(i) P(µ − σ ≤ X ≤ µ + σ) = P(– 1 ≤ Z ≤ 1) = 0,6826.

(ii) P(µ – 2σ ≤ X ≤ µ + 2σ) = P(– 2 ≤ Z ≤ 2) = 0,955.

(iii) P(µ – 3σ ≤ X ≤ µ +3σ) = P(–3 ≤ Z ≤ 3) = 0,997.

11.4. Exercícios – Parte II – A2

1) O tempo gasto no exame vestibular de uma universidade tem distribuição Normal, com µ = 120
min e σ = 15 min.
(a) Sorteando-se um aluno ao acaso, qual é a probabilidade dele terminar o exame antes de 100
minutos?
(b) Qual deve ser o tempo de prova, de modo a permitir que 95% dos vestibulandos terminem no
prazo estipulado?
(c) Qual o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?

Oliveira, D. C. R. e Oliveira, M. S. 73 ____/____/____


Lista de Exercícios 2

Exercício 01
Sendo A e B dois eventos de um mesmo espaço amostral, “traduza” para a linguagem da teoria dos
conjuntos as seguintes situações:
(a) Pelo menos um dos eventos ocorre.
(b) Exatamente um dos eventos ocorre.
(c) Nenhum dos eventos ocorre.
(d) A ocorre, mas B não ocorre.

Exercício 02
Dois processadores, A e B, são colocados em teste por 50 mil horas. A probabilidade de um erro
acontecer em A é 2/60, em B é 1/80 e em ambos é 1/100. Calcule a probabilidade de que:
(a) Pelo menos um processador apresente erro.
(b) Nenhum apresente erro.
(c) Somente A apresente erro.

Exercício 03
A probabilidade de que um homem que possui veículo motorizado se acidente num período de um
ano é de 0,113 e uma mulher que tenha um veículo motorizado se acidente num período de um ano
é de 0,057. Suponha que 55% dos motoristas em Lucas Country sejam homens. No preenchimento
de um questionário de histórico sobre desempenho ao volante, uma pessoa de Lucas Country
indicou um envolvimento em acidente com veículo motorizado durante o último ano. Qual é a
probabilidade de essa pessoa ser uma mulher?

Exercício 04
Um pai leva o filho ao cinema e gasta R$15,00 nas duas entradas. O filho vai pedir para comer
pipoca com probabilidade 0,7 e pedir para comer bala com probabilidade 0,9. Os pedidos são
atendidos pelo pai com probabilidade 0,5 independentemente. Se a pipoca custa R$2,00 e a bala
R$3,00 estude a variável aleatória “despesa efetuada com a ida ao cinema” construindo sua
distribuição de probabilidade.

Exercício 05
Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2.
Se 4 itens são produzidos por esta máquina são selecionados ao acaso, qual a probabilidade de que
não mais do que um item defeituoso seja encontrado?

Exercício 06
Na manufatura de certo artigo, é sabido que a proporção de artigos defeituosos é de 0,1. Qual a
probabilidade de que uma amostra casual de tamanho 5 contenha:
(a) nenhum defeituoso:
(b) exatamente um defeituoso:
(c) não mais que 2 defeituosos:

Oliveira, D. C. R. e Oliveira, M. S. 74 ____/____/____


Exercício 07
De acordo com o Beverage Digest, a Coca Cola e a Pepsi se posicionaram como a número um e a
número dois em vendas em 1996 (The Wall Street Journal Almanac, 1998). Suponha que de um
grupo de 10 indivíduos, 6 prefiram a Coca Cola e 4 prefiram a Pepsi. Uma amostra aleatória sem
reposição de 3 desses indivíduos é selecionada.
(a) Qual a probabilidade de que exatamente dois prefiram a Coca Cola?
(b) Qual é a probabilidade de que a maioria (tanto dois como três) prefira Pepsi?

Exercício 08
Dos 25 estudantes (14 meninos e 11 meninas) na sala de aula de uma escola, 5 estudantes estavam
ausentes na quinta-feira.
(a) Qual é a probabilidade de que 2 dos ausentes fossem meninas?
(b) Qual é a probabilidade de que 2 dos ausentes fossem meninos?
(c) Qual é a probabilidade de que todos os ausentes fossem meninos?
(d) Qual é a probabilidade de que nenhum dos ausentes fosse um menino?

Exercício 09
Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 2000 pés.
Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha:
(a) nenhum corte;
(b) no máximo 3 cortes;
(c) pelo menos dois cortes.

Exercício 10
Os passageiros de uma linha aérea chegam às instalações de passageiros de um grande aeroporto
internacional a uma taxa média de 10 por minuto.
(a) Qual é a probabilidade de nenhuma chegada em 1 minuto?
(b) Qual é a probabilidade de que 3 passageiros ou menos cheguem em um período de 1
minuto?
(c) Qual é a probabilidade de nenhuma chegada em um período de 15 minutos?

Exercício 11
Depois de tomarmos várias amostras, decidiu-se adotar um modelo para as medidas do perímetro
do tórax de uma população de homens adultos com os parâmetros: média = 40 polegadas e desvio
padrão = 2 polegadas.
(a) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax
entre 40 e 43 polegadas?
(b) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax
maior ou igual a 43 polegadas?
(c) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax
menor que 35 polegadas?
(d) Qual é o valor do tórax que seria ultrapassado por 25% da população?

Oliveira, D. C. R. e Oliveira, M. S. 75 ____/____/____


Exercício 12
Considere a altura de 351 mulheres idosas como seguindo uma distribuição normal com média =
160 cm e desvio padrão = 6 cm. Sorteia-se uma mulher, qual a probabilidade de que ela tenha:
(a) Altura entre 160 cm e 165 cm?
(b) Altura menor do que 145 cm?
(c) Altura maior do que 170 cm?

Exercício 13
O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição Normal com
média = 0,6140 e variância = (0,0025)2. O lucro T de cada esfera depende de seu diâmetro, e:
T = 0,10 se a esfera é boa (0,6100 < X < 0,6180);
T = 0,05 se a esfera é recuperável (0,6080 < X < 0,6100 ou 0,6180 < X < 0,6200);
T = - 0,10 se a esfera é defeituosa (X < 0,6080 ou X > 0,62). Calcular:
(a) As probabilidades das esferas serem boas, recuperáveis e defeituosas.
(b) A esperança do lucro ( E(T) ).

Observação: O gabarito da Lista de Exercícios 2 encontra-se no Apêndice B

Oliveira, D. C. R. e Oliveira, M. S. 76 ____/____/____


12. ESTIMAÇÃO

12.1. Inferência Estatística

A tomada de decisões sobre a população com base em estudos feitos sobre os dados da
amostra constitui o problema central da Inferência Estatística. A tais decisões estão sempre
associados um grau de incerteza e, conseqüentemente, uma probabilidade de erro. A generalização
da amostra para a população é feita com o auxílio de um modelo estatístico para a situação em
estudo.

Conceitos Importantes
Parâmetro: qualquer função da população (θ).
Exemplos: P (proporção), µ (média), σ2 (variância).

Estatística ou Estimador: qualquer função da amostra ( θ̂ ).


Exemplos: P̂ (proporção), X (média), S2 (variância).

Estimativa: valor que a estatística (ou o estimador) assume em uma amostra (θ0).
Exemplos: p̂ (proporção), x (média), s2 (variância).

12.2. Estimação Pontual e Intervalar para Proporção

Objetivo
Estimar uma proporção p (desconhecida) de elementos de uma população, apresentando certa
característica de interesse, a partir da informação fornecida de uma amostra.

Exemplos
p: proporção de consumidores satisfeitos com os serviços prestados por uma empresa de telefonia;

p: proporção de eleitores de São João del-Rei que votariam em um determinado candidato, caso a
eleição para prefeito se realizasse hoje;

p: proporção de crianças de 2 a 6 anos, do estado de Minas Gerais, que não estão matriculadas em
escola de educação infantil.

Estimador Pontual
O estimador pontual para p (proporção amostral) é definido por:
X
P̂ =
n
sendo que X denota o número de elementos na amostra que apresentam a característica;
n denota o tamanho da amostra coletada.
O valor assumido por p̂ na amostra é denominado estimativa pontual para p.

Oliveira, D. C. R. e Oliveira, M. S. 77 ____/____/____


Exemplo: Sejam, p: proporção de alunos da UFSJ que foram ao cinema pelo menos uma vez no
último mês, e X: número de estudantes que respondem “sim” em uma pesquisa com n
entrevistados. Suponha que foram entrevistados n = 500 estudantes e que, desses, x = 100 teriam
afirmado que foram ao cinema pelo menos uma vez no último mês. A estimativa pontual
(proporção amostral) é dada por: p̂ = ( x / n ) = (100 / 500 ) = 0 , 20 , ou seja, 20% dos estudantes
entrevistados afirmaram que foram ao cinema pelo menos uma vez no último mês.
Note que, outra amostra de mesmo tamanho pode levar a uma outra estimativa pontual para
p.

Estimativa Intervalar
Idéia: Se selecionarmos várias amostras de uma população contendo n dados, observaremos que
cada amostra terá sua respectiva proporção. A fim de obtermos uma estimativa da proporção da
população em estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança,
que delimita essa proporção.
A estimativa por intervalo de p corresponde a um intervalo determinado da seguinte
maneira:
[ pˆ − ε ; pˆ + ε ] ,
sendo que ε representa o erro amostral ou margem de erro.

Na prática o intervalo de confiança com um coeficiente de confiança γ é dado por:


⎡ pˆ (1 − pˆ ) pˆ (1 − pˆ ) ⎤
IC (p,γ) = ⎢ pˆ − z ; pˆ + z ⎥
⎣ n n ⎦
pˆ (1 − pˆ )
Note que, ε = z . O valor de z é obtido da distribuição normal padrão. Assim, os valores
n
de z que limitam os níveis de confiança, onde z é tal que γ = P(-z ≤ Z ≤ z) na N (0,1) são:

γ 90% 95% 99%


z

Exemplos
1) No exemplo da UFSJ, considere agora, n = 500 e pˆ = 0,20 . Construa um intervalo de confiança
para p com coeficiente de confiança γ = 0,95.
Resolução: Como γ = 0,95 fornece z = 1,96, o intervalo é dado por:
⎡ pˆ (1 − pˆ ) pˆ (1 − pˆ ) ⎤ ⎡ 0,20 x0,80 0,20 x0,80 ⎤
⎢ pˆ − z ; pˆ + z ⎥ = ⎢0,20 − 1,96 ; 0,20 + 1,96 ⎥ = [0,165; 0,235]
⎣ n n ⎦ ⎣ 500 500 ⎦

Nesse intervalo (γ=0,95), a estimativa pontual para p é 0,20, com um erro amostral ε igual a
0,035.

Interpretação do IC com γ = 95%: Se sortearmos 100 amostras de tamanho n = 500 e


construirmos os respectivos 100 intervalos de confiança, com coeficiente de confiança de 95%,
esperamos que, aproximadamente, 95 destes intervalos contenham o verdadeiro valor de p.
Oliveira, D. C. R. e Oliveira, M. S. 78 ____/____/____
2) Ainda no exemplo da UFSJ, considere k = 100 e n = 500. Qual é a probabilidade da estimativa
pontual estar a uma distância de, no máximo, 0,03 da verdadeira proporção?

Dados do problema: n = 500; pˆ = 0,20; ε = 0,03 ⇒ γ = ?


Com esses dados podemos calcular o valor de z e, assim, obter γ, o nível de confiança do
intervalo.
Cálculo de z:
ε n 0,03 500
z= = = 1,68
pˆ (1 − pˆ ) 0,2 x0,8

Logo, obtemos: γ ≈ 2 A(z) – 1 = 2 A(1,68) – 1 = 2 x 0,953 – 1 = 0,906 (90,6 %).


Portanto a probabilidade da estimativa pontual estar a uma distância de no máximo 0,03 da
verdadeira proporção é de 90,6 %.

12.3. Exercícios – Parte III – A3

1) A gerente de uma empresa quer estimar a proporção p de clientes que gostaram da última
exposição de arte apresentada pela empresa. Numa amostra de 300 clientes, 270 afirmaram que
gostaram da exposição. Qual seria a estimativa pontual de p?

2) Numa eleição de segundo turno, um instituto de pesquisa de opinião obteve, num levantamento
de boca de urna, que 40% (p = 0,40) dos entrevistados votaram no candidato A.
(a) Construa intervalos de confiança para a verdadeira proporção p de eleitores que votaram no
candidato A com coeficientes de confiança de 90%, 95% e 99%. Compare os intervalos. Comente.
Admita aqui que o tamanho da amostra seja n = 150.

b) Construa intervalos de confiança para p admitindo que a estimativa p̂ = 0,40 foi obtida de
amostras de tamanho n = 100, n = 150 e n = 200. Compare os intervalos. Comente. Considere aqui
um coeficiente de confiança de 90%.

12.4. Estimativa Pontual e Intervalar para a Média Populacional

Objetivo
Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de
uma população, a partir de uma amostra.

Exemplos
µ: quantia média gasta por cliente;
µ: salário médio dos empregados de um a indústria;
µ: tempo médio gasto usando a Internet.
Estimativa Pontual
ƒ Vamos observar n elementos, extraídos ao acaso de uma população;
ƒ Para cada elemento selecionado, observamos o valor da variável X de interesse.

Oliveira, D. C. R. e Oliveira, M. S. 79 ____/____/____


Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn.
Uma estimador pontual para µ é dado pela média amostral,
X1 + X 2 + K + X n n
Xi
X=
n
= ∑
i =1 n
Estimativa Intervalar
Se selecionarmos várias amostras de uma população contendo n dados, observaremos que cada
amostra terá sua respectiva média. A fim de obtermos uma estimativa da média da população em
estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança, que delimita essa
média.
Uma estimador intervalar ou intervalo de confiança para µ tem a forma:
[X − ε ; X + ε ]
sendo ε o erro amostral (margem de erro).

Teorema Central do Limite


Se X1, ..., Xn representa uma amostra aleatória de uma variável X de média µ e desvio padrão σ,
então para n grande
⎛ σ2 ⎞
X ~ N ⎜⎜ µ , ⎟⎟
⎝ n ⎠
Portanto, para n grande a média amostral tem distribuição Normal de média µ e desvio padrão
σ/ n .

Na prática, temos que o intervalo de confiança para µ com um nível de confiança γ é dado
por:
⎡ σ σ ⎤
⎢x − z n ; x + z n ⎥
⎣ ⎦
onde x é a média amostral, σ é o desvio padrão populacional e n é o tamanho amostral. Sendo
σ
assim, temos que o erro é: ε = z .
n
Exemplo: Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se,
no entanto, que o desvio padrão do consumo de combustível de automóveis dessa marca é 10 km/l.
Na análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l.
Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro.
Adote um nível de confiança igual a 95%.

X: Consumo de combustível da marca T;


σ = 10 km/l n = 100 ⇒ x = 8 km/l
γ = 0,95 ⇒ z=1,96
⎡ σ σ ⎤ ⎡ 10 10 ⎤
⎢X − z ;X + z ⎥ = ⎢8 − 1,96 ;8 + 1,96 ⎥ = [8 − 1,96 ;8 + 1,96 ] = [6,04 ;9,96 ]
⎣ n n⎦ ⎣ 100 100 ⎦

Portanto, a estimativa intervalar de 95% de confiança é [6,04 ;9,96 ] .


Oliveira, D. C. R. e Oliveira, M. S. 80 ____/____/____
Exemplo: Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um
município. Sabe-se que o tempo de estudo tem distribuição normal com desvio padrão σ = 2,6
anos. Foram entrevistados n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de
estudo igual há 10,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo
populacional.

X: tempo de estudo, em anos X ~ N(µ, 2,62)


n = 25 ⇒ x = 10,5 anos γ = 0,90⇒ z=1,65
A estimativa intervalar com 90% de confiança é dada por:
⎡ σ σ ⎤ ⎡ 2 ,6 2 ,6 ⎤
⎢X − z ;X + z ⎥ = ⎢10 ,5 − 1,65 ;10 ,5 + 1,65 ⎥ = [9 ,64 ;11,36 ]
⎣ n n⎦ ⎣ 25 25 ⎦

12.5. Exercícios – Parte III – A3


1) Estabeleça um intervalo de confiança para a média populacional, sendo que o desvio padrão
populacional é 4, o tamanho amostral é n = 36 e a média amostral igual a 30. Utilize um nível de
confiança de 95% para a média.

2) Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média


25,4, sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90%
para a média.

12.6. Estimativa para Média Populacional com Variância Desconhecida


Na prática, a variância populacional σ2 é desconhecida e é substituída por sua estimativa:
1 n
S2 = ∑
( n − 1) i =1
( X i − X )2

Lembrar que a estimativa amostral do desvio padrão σ é s = s2

Oliveira, D. C. R. e Oliveira, M. S. 81 ____/____/____


Distribuição t – Student: Valores tc tais que P(-tc ≤ t ≤ tc) = 1 - p
Graus de Liberdade

Graus de Liberdade
p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 15,894 31,821 63,657 1
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 4,849 6,965 9,925 2
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 3,482 4,541 5,841 3
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 2,998 3,747 4,604 4
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 2,756 3,365 4,032 5

6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 2,612 3,143 3,707 6
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,517 2,998 3,499 7
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,449 2,896 3,355 8
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,398 2,821 3,250 9
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 0,359 2,764 3,169 10

11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,328 2,718 3,106 11
12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,303 2,681 3,055 12
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,282 2,650 3,012 13
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,264 2,624 2,977 14
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,248 2,602 2,947 15

16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,235 2,583 2,921 16
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,224 2,567 2,898 17
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,214 2,552 2,878 18
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,205 2,539 2,861 19
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,197 2,528 2,845 20

21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,189 2,518 2,831 21
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,183 2,508 2,819 22
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,177 2,500 2,807 23
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,172 2,492 2,797 24
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,166 2,485 2,787 25

26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,162 2,479 2,779 26
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,158 2,473 2,771 27
28 0,127 0,256 0,389 0,530 0,684 0,855 1,056 1,313 1,701 2,048 2,154 2,467 2,763 28
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,150 2,462 2,756 29
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,147 2,457 2,750 30

35 0,126 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 2,030 2,133 2,438 2,724 35
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,123 2,423 2,704 40
50 0,126 0,254 0,387 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,109 2,403 2,678 50
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,099 2,390 2,660 60
120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,076 2,358 2,617 120
Graus de Liberdade

Graus de Liberdade

p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%

Exemplo:
1) Para n = 11 e p = 10%, temos t = 2) Para n = 11 e p = 5%, temos t =
3) Para n = 11 e p = 1%, temos t = 4) Para n = 20 e p = 15%, temos t =

Nessa situação, para calcularmos o intervalo de confiança substituímos a variável z por t,


onde t possui distribuição t de Student com n-1 graus de liberdade. Assim, uma estimativa
intervalar para a média populacional µ, quando σ é desconhecido, é
⎡ s s ⎤
⎢x − t n ; x + t n ⎥
⎣ ⎦
A variável t é bem próxima da normal padrão z quando a amostra é maior ou igual a 25,
Oliveira, D. C. R. e Oliveira, M. S. 82 ____/____/____
porém para amostras menores que esse valor essa variável vai se afastando de z e, quanto menor
for o valor de n, maior é o afastamento existente entre a variável t e z.
A tabela que fornece os valores de t, contém na 1a. linha, a área locada nas caudas da curva,
à esquerda de –t e à direita de t. Na 1a. coluna, está os graus de liberdade (n-1). Na interseção dos
valores considerados, temos os valores de t correspondente.

Exemplo: Qual o intervalo de confiança para a média, no nível de 95%, sendo que uma amostra de
tamanho 20 forneceu média 38 e desvio padrão 5?
Solução:
x = 38 , n = 20, s = 5. No nível de 95%, obtemos o valor de t cruzando na tabela da t – Student: p =
5% e gl = n-1 = 20-1 = 19 → t = 2,093. Assim:
⎡ s s ⎤ ⎡ 5 5 ⎤
IC[µ, 95%] = ⎢ x − t , x+t ⎥ = ⎢38 − 2,093 , 38 + 2,093 ⎥ = [35.66 , 40.34]
⎣ n n⎦ ⎣ 20 20 ⎦

Exemplo: Estabeleça limites de confiança para a média, no nível de 90%, sendo que uma amostra
de tamanho 16 forneceu média 70 e desvio padrão 6,8?
Solução:
Temos que x = 70 , n = 16, s = 6,8 e para um nível de 90%, obtemos o valor de t cruzando na
tabela da t – Student: p = 10% e gl = n-1 = 16-1 = 15 → t = 1,753. Assim:
⎡ s s ⎤ ⎡ 6,8 6,8 ⎤
IC[ µ , 90%] = ⎢ x − t , x +t ⎥ = ⎢70 − 1,753 , 70 + 1,753 ⎥ = [ 67.02 , 72.98]
⎣ n n⎦ ⎣ 16 16 ⎦

12.7. Exercício – Parte III – A3


Determine o intervalo de confiança de 99% para a média, sendo que uma amostra de
tamanho n = 9 forneceu média 75 e desvio padrão 7.

Oliveira, D. C. R. e Oliveira, M. S. 83 ____/____/____


13. TESTES DE HIPÓTESES

Estimação versus Teste de Hipóteses


Qual é a probabilidade de "cara" A moeda é honesta ou é
no lançamento de uma moeda? desequilibrada?
Qual é a proporção de eleitores O candidato A tem até 50% das
favoráveis ao candidato A? intenções de voto ou tem mais?
Qual é a proporção de Pelo menos 2% dos motoristas
motoristas que tiveram sua habilitados de SP tiveram suas
carteira apreendida após a carteiras apreendidas após a entrada
vigência da nova lei de trânsito? da nova lei do trânsito ou não?

13.1. Introdução
Quando colhemos uma amostra de uma determinada população, nosso objetivo é tirar
conclusões sobre os parâmetros dessa população. Assim, a partir das informações amostrais
estimamos os parâmetros da população.
Entretanto, se existe algum referencial sobre valores que os parâmetros de uma população
devem assumir, podemos testar hipóteses, formuladas sobre esses parâmetros, de conformidade
com as informações obtidas da amostra. Igualmente, pode-se testar a hipótese de que uma amostra
pertence a uma população de parâmetros dados ou ainda, se duas populações têm parâmetros
iguais.

13.2. Formulação das Hipóteses


Para testarmos parâmetros de uma população, formulamos hipóteses a respeito desses
parâmetros. Essas hipóteses são denominadas:
H0: Hipótese nula Ha: Hipótese alternativa
Testar hipóteses formuladas consiste em decidir se aceita ou se rejeita a hipótese nula (H0).
Quando se rejeita a hipótese nula, automaticamente está sendo aceita a hipótese alternativa (Ha).

Exemplo: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4
defeituosas. A proporção de peças defeituosas é p =0,05?

Testes de Hipóteses possíveis:


a) H0: p = 0,05 b) H0: p = 0,05 c) H0: p = 0,05
Ha: p ≠ 0,05 Ha: p > 0,05 Ha: p < 0,05
Teste Bilateral Teste unilateral à direita Teste unilateral à esquerda

13.3. Tipos de Erros possíveis nos Testes de Hipóteses

Erro tipo I: (α) – Rejeitar a hipótese H0 quando na realidade ela é verdadeira. (α é chamado de
nível de significância do teste)

Oliveira, D. C. R. e Oliveira, M. S. 84 ____/____/____


Erro tipo II (β) – Aceitar a hipótese H0 quando na realidade ela é falsa.

(a) Os valores de α e β são as probabilidades de cada um dos erros tipo I e tipo II ocorrerem,
respectivamente, ou seja,

α = P(erro tipo I) = P(rejeitar Ho dado que Ho é verdadeira)


β = P(erro tipo II) = P(aceitar Ho dado que Ho é falsa)

13.4. Nível de Significância de um Teste de Hipótese (α)


É a probabilidade máxima que aceitamos cometer o erro do tipo I (α):
Os níveis de significância usualmente adotados são 0,10 (10%), 0,05 (5%) e 0,01 (1%).
Quando se deseja testar hipóteses, o primeiro passo é fixar o nível de significância, antes
mesmo de se colher uma amostra.
Geralmente, quanto menor for à probabilidade de se cometer o erro tipo I, maior será a
probabilidade de se cometer o erro do tipo II. A única forma de se reduzir às probabilidades
relativas aos dois tipos de erros é aumentando o tamanho da amostra, pois quanto maior for à
amostra, maior será a precisão das estimativas dos parâmetros.

13.5. Teste de Hipóteses para a Proporção

Exemplo 1: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4
defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças
defeituosas é p = 0,03 ou é maior.
Solução:
Hipóteses: H0: p = 0,03
Ha: p > 0,03 (curva unilateral à direita )
Para um nível de significância de 5% temos da Tabela da distribuição Normal Padrão que o z que
fornece a área cinza de 0,05, representada na figura, é z = 1,64.
Fórmula para obter o z observado na amostra:
p̂ − p 0,04 − 0,03 0,01
zobs = = = ≅ 0,5103
p(1 − p) 0,03(1 − 0,03) 0,0384
n 100 100

Região de
Aceitação
Região Crítica

Conclusão do Teste de Hipóteses: Como zobs = 0,5103 < z = 1,64, não conseguimos rejeitar H0,
isto é, aceita-se a hipótese de que a proporção de peças defeituosas é igual a 0,03.
Oliveira, D. C. R. e Oliveira, M. S. 85 ____/____/____
Exemplo 2: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 3
defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças
defeituosas é p = 0,08 ou é menor.
Solução:
Hipóteses: H0: p = 0,08
Há: p < 0,08 (curva unilateral à esquerda)

Regra de decisão para Nível de Significância α = 0,05:

Região de
0,05 Aceitação
Região Crítica

Para um nível de significância de 0,05 temos que z = - 1,64. O valor de z observado na amostra é:
p̂ − p 0,03 − 0,08 − 0,05
zobs = = = ≅ −1,84
p(1 − p) 0,08(1 − 0,08) 0,0736
n 100 100
Conclusão do Teste de Hipóteses: Como zobs = -1,84 < z = -1,64, então rejeito H0, ou seja, há
indícios de que a proporção de peças defeituosas é menor que 0,08.

Exemplo 3: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4
defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças
defeituosas é p = 0,05 ou é diferente.
Solução:
Hipóteses: H0: p = 0,05
Ha: p ≠ 0,05 (teste bilateral)
Regra de decisão para Nível de Significância α = 0,05:

0,025
0,025 Região de Aceitação

Regiões Críticas

Considerando o nível de significância de 5%, temos que os z’s que fornecem as áreas cinza
representada na figura acima, é z = - 1,96 e z= 1,96. O valor de z observado na amostra é:
Oliveira, D. C. R. e Oliveira, M. S. 86 ____/____/____
p̂ − p 0,04 − 0,05 − 0,01
zobs = = = ≅ −0,46
p(1 − p) 0,05(1 − 0,05) 0,05 . 0,95
n 100 100
Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = -0,46 < z = 1,96, então não rejeitamos
H0, isto é, aceito a hipótese de que a proporção de peças defeituosas é igual a 0,05.

13.6. Exercícios – Parte III – A3


1) Uma nova série de televisão precisa provar que tem mais do que 25% de audiência de
telespectadores depois das 13 primeiras semanas de exibição para ser julgada bem-sucedida.
Considere que uma amostra de 400 famílias, 112 estavam vendo a nova série. Com um nível de
significância de 10%, a série pode ser julgada bem-sucedida com base na informação da amostra?
Qual a sua conclusão do teste de hipótese?

2) Um contador acredita que os problemas de fluxo de caixa de uma empresa são o resultado direto
do lento recebimento das contas a receber. O contador afirma que pelo menos 70% das atuais
contas a receber têm mais de dois meses de idade. Uma amostra de 120 contas a receber mostrou
que 78 têm mais do que dois meses de idade. Teste a afirmação do contador a um nível de
significância de 5%.

Oliveira, D. C. R. e Oliveira, M. S. 87 ____/____/____


13.7. Teste de Hipóteses para Média com Variância Conhecida

Estimação Versus Teste de Hipóteses


Qual a quantidade média de leite As caixinhas de leite da marca A têm em
das caixinhas de leite da marca A? média 1 litro de leite ou mais?
Qual o peso médio das mulheres O peso médio das mulheres que estão no
que estudam na UFSJ e estão no quarto período de Administração na
quarto período de Administração? UFSJ é igual a 60 kg ou é diferente?

Formulação das hipóteses


Exemplo: Um comerciante atacadista de cereal admite uma média de impureza de 0,5 kg nas sacas
de 60 kg desse cereal. Ao se tomar uma amostra de certo número de sacas de um novo fornecedor,
obtém-se um valor para a média e o desvio padrão, que permitirão, com certa probabilidade de
êxito, decidir se a média de impurezas por saca do novo fornecedor é igual a 0,5 kg, ou se é maior
ou menor que 0,5 kg.

Testes de Hipóteses possíveis:


a) H0: µ = 0,5 b) H0: µ = 0,5 c) H0: µ = 0,5
Ha: µ ≠ 0,5 Ha: µ > 0,5 Ha: µ < 0,5

Teste da média com variância conhecida


Exemplo 1: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu
média x = 42,3. Sabendo que a desvio padrão populacional σ = 5,2, teste ao nível de significância
de 5%, a hipótese de que a média é maior que 40.
Solução:
Hipóteses: H0: µ = 40
Ha: µ > 40 (curva unilateral à direita )

Nível de significância = 5% ⇒ z = 1,64.


x−µ 42,3 − 40 42,3 − 40 2,3 . 6
Valor de z observado na amostra: Zobs = = = = = 2,65
σ 5,2 5,2 5,2
n 36 6

Região de
Aceitação
Região Crítica

Conclusão do Teste de Hipóteses: Como zobs = 2,65 > z = 1,64, então rejeito H0, isto é, aceito a
hipótese de que a média da população é maior que 40.

Oliveira, D. C. R. e Oliveira, M. S. 88 ____/____/____


Exemplo 2: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu
média x = 42. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância
de 5%, a hipótese de que a média é menor que 44.
Solução:
Hipóteses: H0: µ = 44
Ha: µ < 44 (curva unilateral à esquerda )
Nível de significância = 5% ⇒ z = 1,64.
x−µ 42 − 44 42 − 44 − 2
Valor de z observado na amostra: zobs = = = = = −1
σ 12 12 2
n 36 6

Região de
Aceitação
0,05
Região Crítica

Conclusão do Teste de Hipóteses: Como zobs = -1 > z = -1,64, então aceito H0, isto é, aceito a
hipótese de que a média da população é igual a 44.

Exemplo 3: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu


média x = 40. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância
de 5%, a hipótese de que a média é diferente de 40.

Hipóteses: H0: µ = 40
Ha: µ ≠ 40 (teste bilateral)
Nível de significância = 5% ⇒ z = -1,96 e z = 1,96.
x − µ 40 − 40 40 − 40 0
Valor de z observado na amostra: zobs = = = = =0
σ 12 12 2
n 36 6

0,025
0,025 Região de Aceitação

Regiões Críticas

Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = 0 < z = 1,96, então aceito H0, isto é,
aceito a hipótese de que a média da população é igual a 40.
Oliveira, D. C. R. e Oliveira, M. S. 89 ____/____/____
13.8. Exercícios – Parte III – A3
1) Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal,
com média µ e variância (conhecida) 400 g2. A máquina foi regulada para µ = 500g. Desejamos, de
meia em meia hora, colher uma amostra de 16 pacotes e verificar se a produção está sob controle,
isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma média x = 492g, você
pararia ou não a produção? Considere um nível de significância de 1%.

2) Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal,
com desvio padrão (conhecido) 2 kg. A diretoria de uma firma que fabrica esse produto resolveu
que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8
kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se
uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2. Construa um
teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na amostra
colhida, determine a decisão a ser tomada pela diretoria da firma.

Oliveira, D. C. R. e Oliveira, M. S. 90 ____/____/____


13.9. Teste de Hipóteses para Média com Variância Desconhecida

Exemplo 1: Foi testada uma amostra de 9 cigarros de uma certa marca, com relação ao nível de
nicotina, fornecendo média x = 42 mg e desvio padrão s = 6 mg. Testar ao nível de significância de
5%, a hipótese de que a média é maior que 40 mg.
Solução:
Hipóteses: H0: µ = 40
Ha: µ > 40 (curva unilateral à direita)
Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05,
representada na figura.
Graus de liberdade: n – 1 = 9 – 1 = 8.
Se o teste tiver cauda unilateral à direita: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,860.
x − µ 42 − 40 2 2
Valor de t observado na amostra: tobs = = = = =1
s 6 6 2
n 9 3

Conclusão do Teste de Hipóteses: Como tobs = 1 < t = 1,860, então aceito H0, isto é, aceito a
hipótese de que a média da população é igual a 40.

Exemplo 2: Uma nova amostra de 16 cigarros da mesma marca forneceu média x = 40 mg e


desvio padrão s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é menor
que 44 mg.
Solução:
Hipóteses: H0: µ = 44
Ha: µ < 44 (curva unilateral à esquerda)

Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05,
representada na figura.
Graus de liberdade: n – 1 = 16 – 1 = 15.
Se o teste tiver cauda unilateral à esquerda: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,753.
x − µ 40 − 44 − 4 − 4
Valor de t observado na amostra: tobs = = = = = −4
s 4 4 1
n 16 4

Oliveira, D. C. R. e Oliveira, M. S. 91 ____/____/____


Conclusão do Teste de Hipóteses: Como tobs = -4 < t = -1,860, então rejeito H0, isto é, aceito a
hipótese de que a média da população é menor que 44.
Exemplo 3: Outra amostra de 16 cigarros forneceu média x = 42 mg e desvio padrão s = 4 mg.
Testar ao nível de significância de 5%, a hipótese de que a média é diferente de 40.
Hipóteses: H0: µ = 40
Ha: µ ≠ 40 (teste bilateral)
Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05,
representada na figura.
Graus de liberdade: n – 1 = 16 – 1 = 15.
Se o teste tiver cauda bilateral: p = α = 0,05 = 5%. Então: t = -2,131 e t = 2,131.
x − µ 42 − 40 2 2
Valor de t observado na amostra: tobs = = = = =2
s 4 4 1
n 16 4

Região de Aceitação

Região de Rejeição

Conclusão do Teste de Hipóteses: Como t = -2,131 < tobs = 2 < t = 2,131, então aceito H0, isto é,
aceito a hipótese de que a média da população é igual a 40.

Oliveira, D. C. R. e Oliveira, M. S. 92 ____/____/____


13.10. Exercícios – Parte III – A3
1) A experiência de muitos anos de uso de um dispositivo eletrônico, da marca A, tem mostrado
que sua vida média é de µ = 286 horas. Uma amostra de n = 16 dispositivos de uma nova marca B
deu uma vida média de x = 290 horas com desvio padrão de s = 8 horas. Testar, ao nível de
significância de 10%, se os dispositivos das duas marcas têm a mesma vida média ou se a vida
média do B é maior que a do A.

2) A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado que sua vida
média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu uma vida
média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de significância de 10%,
se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média da B é menor que a da
A.

3) Uma amostra de 16 empregados de uma empresa forneceu os seguintes resultados com relação
às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que a
média da população é igual ou diferente 175cm.

Oliveira, D. C. R. e Oliveira, M. S. 93 ____/____/____


Lista de Exercícios 3
Exercício 01
Examinando 100 peças produzidas por uma máquina, foram encontradas 3 defeituosas. Obter a
estimativa intervalar, no nível de 95%, para a proporção de peças defeituosas dessa máquina.

Exercício 02
Uma amostra de 50 estudantes de uma Universidade mostrou que 8 destes apresentam problemas
visuais. Obter a estimativa intervalar, no nível de 90%, para a verdadeira percentagem dos
estudantes com problemas visuais.

Exercício 03
Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média 25,4,
sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a
média.

Exercício 04
Determine o intervalo de confiança de 99% para a média do ponto de fusão de uma substância
química, sendo que uma amostra de tamanho n = 9 pontos de fusão desta mesma substância
forneceu uma média 75 e um desvio padrão amostral igual a 7.

Exercício 05: Uma moeda é lançada 100 vezes, obteve-se 42 caras. Testar com um nível de
significância de 10% a hipótese de que essa moeda é viciada.
Exercício 06: Uma amostra de 50 alunos de uma escola de 1o grau apresentou 3 canhotos. Testar,
ao nível de significância 10%, a hipótese de que a percentagem de alunos canhotos dessa escola é
diferente de 0,05.

Exercício 07: Sabe-se que o consumo mensal per capita de um determinado produto tem
distribuição normal, com desvio padrão 2 kg. A diretoria de uma firma que fabrica esse produto
resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse
menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado,
tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2.
Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na
amostra colhida, determine a decisão a ser tomada pela diretoria.

Exercício 08: A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado
que sua vida média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu
uma vida média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de
significância de 10%, se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média
da B é menor que a da A.

Exercício 09: Uma amostra de 16 empregados de uma empresa deu os seguintes resultados com
relação às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que
a média da população é igual ou diferente 175cm.
Observação: O gabarito da Lista de Exercícios 3 encontra-se no Apêndice C

Oliveira, D. C. R. e Oliveira, M. S. 94 ____/____/____


APÊNDICE A
Gabarito da Lista de Exercícios 1

1) População: eleitores brasileiros. Amostra: 122 pessoas entrevistadas em Brasília.

2) (a) Qualitativa Ordinal; (b) Qualitativa Nominal; (c) Quantitativa Discreta; (d) Quantitativa Contínua.

3) Aleatória Simples: 61, 09, 26, 29, 11, 77, 79, 04, 57, 59.
Sistemática:N/n = 80/10 = 8; x = 6; Amostra: 6, 14, 22, 30, 38, 46, 54, 62, 70, 78.
Estratificada: Mulheres (4): 09, 26, 29, 11. Homens (6): 09, 26, 29, 11, 04, 02.

4) Zonas: 045, 020, 099, 033, 197, 166, 040, 005, 038, 115, 041, 173, 030, 025, 123.

5) (a)
Tabela: Conceitos obtidos de 60 alunos na disciplina de Estatística na Escola E
Conceitos Freqüência Absoluta Proporção Porcentagem
Ótimo 03 0,05 05,0
Bom 22 0,367 36,7
Médio 25 0,417 41,7
Ruim 10 0,166 16,6
Total 60 1 100
Interpretação: Podemos observar na Tabela acima que a maior proporção dos alunos da Escola E obtiveram conceito
Médio na disciplina Estatística (42%) e apenas 5% conquistaram o conceito Ótimo. Além disso, 37% concluíram com
conceito Bom e 16% com conceito Ruim.

(b)

25
25
22

20
Frequência Absoluta

15

10
10

5
3

0
Ótim o Bom Médio Ruim
Conce it o

Figura: Gráfico de Barras para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Oliveira, D. C. R. e Oliveira, M. S. 95 ____/____/____


R
16,7%

B
O 36,7%
5,0%

M
41,7%

Figura: Gráfico de Composição em Setores para os Conceitos obtidos na disciplina de Estatística de 60 alunos da
Escola E. (O : Ótimo; B : Bom; M : Médio; R : Ruim)

60 100

50

Porcentagem Acumulada
80
Freqüência Absoluta

40
60
30
40
20

20
10

0 0
Conceitos Médio Bom Ruim Ótimo
Count 25 22 10 3
Percent 41,7 36,7 16,7 5,0
Cum % 41,7 78,3 95,0 100,0

Figura: Gráfico de Pareto para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Oliveira, D. C. R. e Oliveira, M. S. 96 ____/____/____


6) (a) mínimo = 10; máximo = 22; média = 16,913; moda = 14.1, 16, 16.9, 19.5, 22; mediana = 16,9; Q1 = 15,0; Q3 = 19,5.
(b) amplitude = 12; variância = 8,296; desvio-padrão = 2,88; intervalo-interquartil = 4,5.
(c)
Tabela: Comprimento de 31 canos PVC vendidos em uma loja de material de construção
Comprimento Freqüência Absoluta Proporção Porcentagem Densidade
[10, 12) 1 0,0322581 3,2 0,0161290
[12, 14) 3 0,0967742 9,7 0,0483871
[14, 16) 6 0,1935480 19,4 0,0967742
[16, 18) 10 0,3225810 32,2 0,1612900
[18, 20) 6 0, 1935480 19,4 0,0967742
[20, 22] 5 0,1612907 16,1 0,0806452
Total 31 1 100 ------
Interpretação: A maior parte dos canos tem comprimento entre 16 e 18m (32,2%), ....(descrever a coluna da
porcentagem)

(d)

0,18
0,16129
0,16

0,14

0,12
Densidade

0,0967742 0,0967742
0,10
0,0806452
0,08

0,06
0,0483871

0,04

0,016129
0,02

0,00
10 12 14 16 18 20 22
Comprimento

Figura: Histograma do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

(e)

10 11 12 13 14 15 16 17 18 19 20 21 22
Compriment o
Figura: Diagrama de dispersão unidimensional do comprimento de 31 canos PVC vendidos em uma loja de material de
construção.

Oliveira, D. C. R. e Oliveira, M. S. 97 ____/____/____


22

20

18
Comprimento

16

14

12

10

Figura: Box-plot do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

1 10 0
1 11
3 12 35
4 13 8
7 14 117
10 15 035
(7) 16 0013799
14 17 049
11 18 28
9 19 3557
5 20 035
2 21
2 22 00
Figura: Ramo-e-folhas do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

7) a) Média = 69,87 e Mediana = 68. A média e a mediana foram bem diferentes. Embora 50% dos índios tenham
pulsação abaixo de 68, os índios com maior pulsação, fez com que o valor médio da pulsação fosse maior, isto é,
aproximadamente 70. Quando os valores são distintos da média e mediana, implica que os dados são assimétricos.
(conforme mostra o gráfico da alternativa (d) desse exercício)
b) Mínimo = 60, Q1 = 60, Q3 = 76 e Máximo = 88.A menor e a maior pulsação foram 60 e 88, respectivamente. 25%
dos índios tiveram pulsação inferior a 60 e 25% superior a 76. 50% obtiveram entre 60 e 76.
c) Variância = 91,12 e Desvio Padrão = 9,55. A variabilidade das pulsações foi de 9,55 em torno do valor médio da
pulsação.
d)

3
Freqüência Absoluta

0
60 64 68 72 76 80 88
P u ls aç ão

Figura: Gráfico de barras das medidas da pulsação de 15 índios nativos dos Alpes Peruanos.

Oliveira, D. C. R. e Oliveira, M. S. 98 ____/____/____


8) (a) Média = 15,8; Desvio Padrão ≅ 3,8.
(b) Média – 2*Desvio ≅ 8,3. Sim, a cidade D.
(c) Fazer a média dos investimentos das cidades que tiver 8,3 ≤ Investimento ≤ 23,3. Ivestimento Básico ≅ 16,8.
O valor no item (a) era menor em 1 unidade, pois a cidade D foi retirada do cálculo, por não ter o investimento dentro
do intervalo pré-estabelecido. A média no item (a) foi menor, porque a cidade D é um possível outlier e o valor da
média é sensível aos valores discrepantes, isto é, o seu valor é influenciado por valores pequenos ou grandes.

9)

Medicamentos Nº Mínimo Máximo Média Mediana Q1 Q3 Amplitude Variância Desvio IQ


De Padrão
Cobaias
A 10 13 15 14,2 14 13,5 15 2 0,622 0,789 1,5
B 8 12 14 13,375 13,5 13 14 2 0,554 0,744 1
C 8 11 13 12,125 12 11,5 13 2 0,696 0,835 1,5

Embora as medidas de dispersão, em geral, mostram que o medicamento C tem maior variabilidade dos dados, as
medidas de posição mostraram que o medicamento C é o que fornece menor tempo de cicatrização do completo
fechamento dos cortes provenientes de cirurgia.

10) (a)

80

70

60
Mortes

50

40

30
65 70 75 80 85
Barcos

Figura: Gráfico de Dispersão do número de peixes-boi mortos versus o número de barcos de turismo (em milhares) que
circulam em seu habitat na Flórida-EUA.

Podemos observar visualmente que há uma relação linear positiva entre o número de peixes-boi mortos com o número
de barcos de turismo (em milhares), isto é, quanto mais barcos passar no habitat dos peixes-boi, maior será o número
de mortes.
(b) r ≅ 0,922. Podemos notar através de r, que a correlação positiva entre X e Y é significativa.
(c) Mortes = 2,27*Barcos – 113

Oliveira, D. C. R. e Oliveira, M. S. 99 ____/____/____


d) r2 = 84,9%. 84,9% da variação do número de peixes mortos é explicado pelo número de barcos (em milhares) que
passam no seu habitat. 15,1% é devido a outros fatores que não foram estudados, tais como, substâncias químicas
eliminadas no habitat dos peixe-boi, pescadores, etc.

11) (a)

120

110

100
Massa

90

80

70

60
40 50 60 70 80
Idade

Figura: Gráfico de Dispersão da idade versus a massa muscular de 18 mulheres com idade entre 40 e 79 anos.

(b) r = – 0,837. O valor do coeficiente de correlação indica que as variáveis idade e massa muscular estão relacionadas
linearmente de forma negativa, ou seja, quanto maior a idade menor é a massa muscular.

(c) Y = 148,197 – 1,027 X. O coeficiente a = 148,197 (intercepto) não pode ser interpretado, porque a variação de X
não contém o valor 0. O coeficiente b = - 1,027 (inclinação) indica que a cada aumento de um ano na idade, espera um
decréscimo de aproximadamente 1 da massa muscular.

Oliveira, D. C. R. e Oliveira, M. S. 100 ____/____/____


APÊNDICE B

Gabarito da Lista de Exercícios 2

1) (a) (A ∪ B) b) (A ∩ Bc) ∪ (Ac ∩ B) c) (A ∪ B)c d) (A ∩ Bc)


2) a) P(A∪B) ≅ 0,0358 b) P((A ∪ B)c) ≅ 0,9641 c) P((A ∩ Bc)) ≅ 0,023
3) P(M|A) = 0,292
4)
X 15 17 18 20 E[X] =
P(X) 0,3575 0,1925 0,2925 0,1575 17,05
5) 0,8192
6) (a) 0,59049 (b) 0,32805 (c) 0,99144
7) (a) 0,5 (b) 0,33333
8) (a) 0,376812 (b) 0,282609 (c) 0,0376812 (d) 0,0086957
9) (a) 0,367879 (b) 0,981011 (c) 0,264242
10) (a) 0,0000454(b) 0,0103361 (c) ≅ 0
11) (a) 0,4332 (b) 0,0668 (c) 0,0062 (d) ≅ 41,34
12) (a) 0,2967 (b) 0,0062 (c) 0,0475
13) (a) boas: 0,8904 recuperáveis: 0,0932 defeituosas: 0,0164 (b) E[T] ≅ 0,09

Oliveira, D. C. R. e Oliveira, M. S. 101 ____/____/____


APÊNDICE C

Gabarito da Lista de Exercícios 3

⎡ 0,03.0,97 0,03.0,97 ⎤
1) IC[P ; 95%] = ⎢0,03 − 1,96 ; 0,03 + 1,96 ⎥ = [0 ; 0,0634]
⎣ 100 100 ⎦
⎡ 0,16.0,84 0,16.0,84 ⎤
2) IC[P ; 90%] = ⎢0,16 − 1,645 ; 0,16 + 1,645 ⎥ = [0,075 ; 0,245]
⎣ 50 50 ⎦
⎡ 5,2 5,2 ⎤
3) IC[µ ; 90%] = ⎢25,4 − 1,645 ; 25,4 + 1,645 ⎥ = [24.3 ; 26.5]
⎣ 64 64 ⎦
⎡ 7 7 ⎤
4) IC[µ ; 99%] = ⎢75 − 3,355 ; 75 + 3,355 ⎥ = [67.2 ; 82.8]
⎣ 9 9⎦
5) Hipóteses: Ho: p = 0,5
Ha: p ≠ 0,5
Nível de Significância: α = 0,10
Proporção Amostral: pˆ = 0,42
0,42 − 0,5
Estatística do Teste: z observado = = −1.6
0,5.0,5
100
Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância:
RC = (-∞ , -1.645] ∪ [1.645 , +∞)
RA = (-1.645 , 1.645)
Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, não podemos
afirmar que a moeda é viciada.

6) Hipóteses: Ho: p = 0,05


Ha: p ≠ 0,05
Nível de Significância: α = 0,10
ˆ = 0,06
Proporção Amostral: p
0,06 − 0,05
Estatística do Teste: z observado = ≅ 0.32
0,05.0,95
50
Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância:
RC = (-∞ , -1.645] ∪ [1.645 , +∞)
RA = (-1.645 , 1.645)
Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos
afirmar que 5% dos alunos dessa escola de 1º grau são canhotos.

7) Hipóteses: Ho: µ = 8 kg
Ha: µ < 8 kg
Nível de Significância: α = 0,05

Oliveira, D. C. R. e Oliveira, M. S. 102 ____/____/____


7,2 − 8
Estatística do Teste: z observado = = −2
2
25
Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância:
RC = (-∞ , -1.645]
RA = (-1.645 , +∞)
Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 5%, ou seja, a média de
consumo per capita é menor que 8 kg.

8) Hipóteses: Ho: µ = 300


Ha: µ < 300
Nível de Significância: α = 0,10
290 − 300
Estatística do Teste: t observado = = −5
6
9
Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 8 e p = 20%, Ha e nível de significância:
RC = (-∞ , -1.397]
RA = (-1.397 , +∞)
Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 10%, ou seja, a vida média de
B é menor que a de A.

9) Hipóteses: Ho: µ = 175


Ha: µ ≠ 175
Nível de Significância: α = 0,10
173 − 175
Estatística do Teste: t observado = = −0,5
16
16
Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 15 e p = 10%, Ha e nível de significância:
RC = (-∞ , -1.753] ∪ [1.753 , +∞)
RA = (-1.753 , 1.753)
Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos
afirmar que a altura média é de 175 cm.

Oliveira, D. C. R. e Oliveira, M. S. 103 ____/____/____


APÊNDICE D - Aula no Laboratório de Computação
1) Em certa localidade, obtiveram-se os seguintes dados sobre precipitação pluviométrica anual, X (cm) e à
colheita de algodão, Y (kg/are) para um período de 7 anos:
Ano 1 2 3 4 5 6 7
X 1,0 158,85 118,65 114,80 75,0 127,15 111,15
Y 520 190 208 213 310 194 160
a) Obtenha a média, mediana, Quartil 1, Quartil 3 e desvio-padrão de X e Y.

b) Quantos pontos aberrantes você encontrou em cada Box-plot de X e Y?

c) Construa o Dot-Plot de X no MINITAB e escreva em qual intervalo de valores de X estão a maior parte
dos dados.

d) Construa o Ramo-e-Folhas de Y no MINITAB e escreva em qual intervalo de valores de X estão a maior


parte dos dados.

e) Construa o diagrama de dispersão entre X e Y no MINITAB. Qual a relação entre X e Y visualmente?

f) Obtenha o valor da correlação e a reta de regressão entre X e Y.

g) Faça o teste-t para testar, com um nível de significância de 5% se: Ho: µ = 50 contra Ha: µ ≠ 50.
X X

h) Sabendo que o desvio de Y é igual a 10, teste com um nível de significância de 10% as hipóteses: Ho: µ
Y
= 256 contra Ha: µ > 256.
Y

2) Se entrevistamos 1500 pessoas e 1050 são a favor de um candidato, teste com um nível de significância
de 1% se ele vencerá as eleições.

3) Quando uma máquina nova está funcionando adequadamente, somente 3% dos itens produzidos
apresentam defeitos. Suponha que 5 itens são selecionadas aleatoriamente.
(a) Qual a probabilidade de encontrarmos 2 defeituosos?

(b) Qual a probabilidade de encontrarmos 3 ou mais defeituosos?

4) Para fazer o controle de qualidade numa empresa, lotes com 100 peças são examinados. Todo lote é
composto por 10 peças defeituosas. Após coletar uma amostra de 5 peças sem reposição, calcule a
probabilidade de que nessa amostra não haja nenhum item defeituoso?

5) Durante o período de tempo em que reservas por telefone estão sendo feitas na universidade local, as
chamadas chegam à razão de uma a cada dois minutos.
(a) Qual é a probabilidade de 3 chamadas em 2 minutos?

(b) Qual é a probabilidade de 2 ou mais chamadas em um período de 4 minutos?

Oliveira, D. C. R. e Oliveira, M. S. 104 ____/____/____