P. 1
Apostila_Estatistica_2009_Mec

Apostila_Estatistica_2009_Mec

5.0

|Views: 4.891|Likes:
Publicado porcatardivo
otima apostila de estatistica completa
otima apostila de estatistica completa

More info:

Published by: catardivo on Nov 06, 2009
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/12/2013

pdf

text

original

Estatística e Probabilidade

Professores: Daniela Carine Ramires de Oliveira Marcos Santos de Oliveira

Índice
1. Introdução à Estatística 1.1. 1.2. 1.3. 1.4. 2. O que é Estatística? Estatística na Prática Um pouco da história da Estatística Exercícios 1 1 1 2 2 3 3 3 5 6 6 6 6 6 7 8 9 10 11 11 12 13 14 15 15 15 15 16 18
ii
____/____/____

Variáveis 2.1. 2.2. 2.3. Definição de Variável Classificação das Variáveis Exercícios

3.

Amostragem 3.1. 3.2. 3.3. Por que fazer Amostragem? Quando o uso de amostragem não é interessante? Tipos de Amostragem 3.3.1. Amostragem Aleatória Simples (AAS) 3.3.2. Amostragem Sistemática (AS) 3.3.3. Amostragem Estratificada (AE) 3.3.4. Amostragem por Conglomerado (AC) Exercícios

3.4. 4.

Tabulação de Variáveis 4.1. 4.2. 4.3. 4.4. Variáveis Qualitativas Unidimensionais Variáveis Quantitativas Unidimensionais Variáveis Qualitativas e Quantitativas Bidimensionais Exercícios

5.

Medidas de Posição 5.1. 5.2. 5.3. 5.4. 5.5. Mínimo e Máximo Moda Média Mediana Exercícios

Prof. Daniela

6.

Medidas de Dispersão 6.1. 6.2. 6.3. 6.4. 6.5. Motivação Amplitude Variância e Desvio Padrão Intervalo Interquartil Exercícios

19 19 19 19 21 21 22 22 22 23 23 25 25 26 26 27 28 29 31 32 32 32 35 37 39 40 41 44 44 44 45 46 47
____/____/____

7.

Estatística Gráfica 7.1. Gráficos para as Variáveis Qualitativas 7.1.1. Gráfico em Barras 7.1.2. Gráfico de Composição em Setores (“Pizza”) 7.1.3. Gráfico de Pareto Gráficos para as Variáveis Quantitativas 7.2.1. Gráfico em Barras 7.2.2. Gráfico de Pontos 7.2.3. Histograma 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 7.2.5. Ramo-e-Folhas 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) Exercícios

7.2.

7.3 8.

Correlação e Regressão 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. Estudo da relação entre variáveis Diagrama de Dispersão Coeficiente de Correlação Regressão Linear Simples Coeficiente de Determinação Exercícios

Lista de Exercícios 1 9. Probabilidade 9.1. 9.2. 9.3. 9.4. 9.5.
Prof. Daniela

Processo ou Experimento Aleatório Espaço Amostral (Ω) Evento Exercícios Introdução à Probabilidade
iii

9.6. 9.7. 9.8. 9.9. 9.10. 9.11. 9.12. 9.13. 10.

Definição Clássica Definição Freqüentista Definição Subjetiva Definição Moderna Probabilidade Condicional Independência de Eventos Regra da Probabilidade Total Teorema de Bayes

48 49 51 51 52 53 54 54 56 56 57 58 58 58 59 60 60 61 61 62 63 65 66 69 73 74 77 77 77 79 79 81 81 83

Variável Aleatória Discreta 10.1. 10.2. 10.3. 10.4. 10.5. 10.6. 10.7. 10.8. 10.9 10.10. 10.11. Introdução Esperança Matemática (Média) Variância Exercício Modelo Bernoulli Modelo Binomial Exercícios Distribuição Hipergeométrica Exercício Distribuição Poisson Exercícios

11.

Variável Aleatória Contínua 11.1. 11.2. 11.3. 11.4. Esperança e Variância Distribuição Normal Tabela da Distribuição Normal Padrão Exercícios

Lista de Exercícios 2 12. Estimação 12.1. 12.2. 12.3. 12.4. 12.5. 12.6. 12.7. Inferência Estatística Estimação Pontual e Intervalar para Proporção Exercícios Estimativa Pontual e Intervalar para a Média Populacional Exercícios Estimativa para a Média Populacional com Variância Desconhecida Exercício

Prof. Daniela

iv

____/____/____

13.

Testes de Hipóteses 13.1. 13.2. 13.3. 13.4. 13.5. 13.6. 13.7. 13.8 13.9 13.10. Introdução Formulação das Hipóteses Tipos de Erros possíveis nos Testes de Hipóteses Nível de Significância de um Teste de Hipótese (α) Teste de Hipóteses para a Proporção Exercícios Teste de Hipóteses para Média com Variância Conhecida Exercícios Teste de Hipóteses para Média com Variância Desconhecida Exercícios

84 84 84 84 85 85 87 88 90 91 93 94

Lista de Exercícios 3 Apêndice A B C D Gabarito da Lista de Exercícios 1 Gabarito da Lista de Exercícios 2 Gabarito da Lista de Exercícios 3 Aula no Laboratório de Computação

95 101 102 104

Prof. Daniela

v

____/____/____

1. INTRODUÇÃO À ESTATÍSTICA
1.1. O que é Estatística? Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas. 1.2. Estatística na Prática
Técnicas de amostragem

População (Características)

Amostra
Planejamento de Experimentos Análise descritiva descritiva

Conclusões sobre as características da população

Inferência Estatística

Cálculo de Probabilidades

Informações contidas nos dados

População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc. Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras. Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas. Amostra: é qualquer subconjunto da população. Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de tirarmos conclusões a respeito de características de interesse. Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios. Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de um subconjunto de valores (amostra).
Oliveira, D. C. R. e Oliveira, M. S.

1

____/____/____

1.3. Um pouco da história da Estatística 5000 AC 2000 AC 695 1654 1763 1930 1959 1996 1997 2001 Registros egípcios de presos de guerra; Censo Chinês; Primeira utilização da média ponderada pelos árabes na contagem de moedas; Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades; Inferência Estatística (Reverendo Bayes); Controle de Qualidade nas indústrias; Estudo retrospectivo de doenças (Mantel & Haenszel); Profundidade da Regressão (Rousseeuw e Hubert); Modelos Fatoriais; 100 anos da Biometrika.

Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm 1.4. Exercícios – Parte I – A1 1) Para as situações descritas a seguir, identifique a população e a amostra correspondente. (a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos. População: Amostra: (b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. População: Amostra: (c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. População: Amostra:

Oliveira, D. C. R. e Oliveira, M. S.

2

____/____/____

2. VARIÁVEIS
2.1. Definição de Variável Qualquer característica associada a uma população é chamada de variável. Porque o nome variável? Porque ela “varia” de alguma forma. Exemplos: Idade: pode variar de 0, 1 , 2, ... anos Sexo: pode ser masculino ou feminino Estado Civil: pode ser solteiro, casado, divorciado, etc. 2.2. Classificação das Variáveis As variáveis podem ser classificadas como Qualitativas ou Quantitativas. Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência, apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis Qualitativas. As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de variáveis Quantitativas. Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1. Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa.
Idade
N° 1 2 ... 35 36 Estado Civil Solteiro Casado ... Casado Casado Grau de Instrução Fundamental Fundamental ... Médio Superior N° de Filhos ... 1 ... 2 3 Salário 4,00 4,56 ... 19,40 23,30 Anos 26 32 ... 48 42 Meses 3 10 ... 11 2 Região de Procedência Interior Capital ... Capital Interior

Fonte: Bussab e Morettin (2002) Observações sobre a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo).

Oliveira, D. C. R. e Oliveira, M. S.

3

____/____/____

Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos: Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis resultados. Exemplo: Região de Procedência, etc. Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados. Exemplo: Grau de instrução, etc. As variáveis Quantitativas também podem sofrer uma classificação dicotômica: Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplo: Nº de Filhos, etc. Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração. Exemplo: Salário, etc. Resumindo Como as variáveis são classificadas e outros exemplos: Qualitativa Nominal Ordinal Discreta Contínua Sexo, Cor dos Olhos. Estado Civil, Classe social. Números de carros. Peso, altura.

Quantitativa

Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso. Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.

Oliveira, D. C. R. e Oliveira, M. S.

4

____/____/____

2.3. Exercícios – Parte I – A1 1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: ID: Identificação do aluno; Turma: Turma a que o aluno foi alocado (A ou B); Sexo: Feminino (F) ou Masculino (M); Idade: Idade; Alt: Altura; Peso: Peso; Filh: Número de filhos na família; Fuma: Hábito de fumar (sim ou não); Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; Exer: Horas de atividade física, por semana; Cine: Número de vezes que vai ao cinema por semana; OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa TV: Horas gastas assistindo TV, por semana OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. Tabela 2.2: Informações do questionário estudantil. ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv 1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 ... ... ... ... ... ... ... ... ... ... ... ... ... 49 B M 17 1,80 71,0 1 Não P 7 0 M 14 50 B M 18 1,83 86,0 1 Não P 7 7 M 20 Fonte: Magalhães e Lima (2004). Classifique as variáveis da Tabela 2.2. como Variável Qualitativa Nominal:

OpTV R R ... R B

Variável Qualitativa Ordinal:

Variável Quantitativa Discreta:

Variável Quantitativa Contínua:

Oliveira, D. C. R. e Oliveira, M. S.

5

____/____/____

3. AMOSTRAGEM
A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte (amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento. 3.1. Por que fazer Amostragem? Existem várias razões para o uso de amostragem em levantamento de grandes populações. Algumas delas são: Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população. Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país. Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores. 3.2. Quando o uso de amostragem não é interessante? População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo (análise de toda a população). Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável. Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico para estudar diversas característica da população brasileira. Dentre estas características têmse o número total de habitantes, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população. 3.3. Tipos de Amostragem 3.3.1. Amostragem Aleatória Simples (AAS) A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma AAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de todos os elementos da população ter igual probabilidade de serem escolhidos.
1

Censo: estudo de todos os elementos da população. 6
____/____/____

Oliveira, D. C. R. e Oliveira, M. S.

Procedimento para o uso deste método: 1) Numerar todos os elementos da população (N elementos); 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n). Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®. Tabela de Números Aleatórios
6 9 5 5 8 1 3 8 0 9 1 2 5 9 6 1 4 0 8 0 2 1 5 8 0 9 7 6 2 3 0 4 4 9 4 8 4 1 5 1 1 9 1 5 3 9 7 0 3 8 7 5 8 8 2 5 1 9 1 1 2 4 5 4 9 5 8 9 9 5 8 2 4 2 2 6 0 0 2 6 6 7 6 6 9 9 3 5 3 5 2 9 5 7 3 3 6 5 3 0 6 5 9 5 8 9 9 5 0 2 2 9 4 2 3 3 8 6 8 7 8 9 7 1 5 1 3 7 1 6 2 9 3 9 0 5 3 9 5 8 0 2 3 4 8 1 6 2 4 3 1 8 0 2 1 8 0 1 5 2 7 0 1 3 9 1 2 0 8 2 5 1 0 2 0 8 1 4 2 4 9 1 5 9 5 6 4 2 5 3 9 5 7 1 7 5 3 8 6 8 4 5 5 8 5 6 4 8 4 8 7 2 1 2 7 9 6 8 9 8 5 2 9 7 4 7 2 7 4 4 7 9 9 6 4 2 0 6 0 1 7 4 2 7 6 3 8 6 3 6 0 3 3 2 0 9 0 6 5 3 2 7 3 2 1 3 6 0 3 1 0 3 3 0 2 1 4 2 1 3 2 9 1 0 3 4 3 0 3 1 0 5 0 4 0 5 8 5 0 6 5 1 3 0 4 5 9 4 8 5 9 2 1 4 8 7 9 8 0 8 9 8 7 5 8 6 5 4 5 7 0 7 1 4 9 4 7 8 2 7 3 8 5 6 4 0 2 1 5 6 7 4 9 3 9 2 0 8 3 1 9 5 5 8 5 6 5 6 0 6 0 2 9 0 2 1 5 4 6 4 4 6 3 2 3 1 1 6 0 3 2 6 8 6 1 1 3 2 5 2 5 4 3 1 0 9 9 9 8 2 2 2 0 7 0 8 8 2 4 2 5 8 0 7 3 3 1 1 4 1 9 0 1 5 5 9 2 4 9 2 3 5 4 0 8 6 9 4 2 8 8 1 1 0 0 0 9 8 8 9 2 5 0 9 6 3 6 3 2 1 1 4 2 5 6 1 2 2 3 1 5 9 6 5 4 2 5 3 6 3 5 0 1 0 0 3 4 9 8 5 5 6 6 3 2 4 3 3 2 2 8 2 1 9 2 8 0 8 1 5 7 2 6 5 5 7 1 7 6 3 9 2 9 2 8 9 1 5 8 4 0 6 3 2 6 7 5 5 5 4 9 2 4 9 6 2 6 5 4 9 4 8 2 2 1 4 4 7 2 7 0 3 4 8 8 1 0 0 3 0 0 8 8 6 8 2 9 8 5 0 0 0 1 0 3 2 9 9 4 9

Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número sorteado não existir, simplesmente não consideramos e prosseguimos o processo. Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de 4 elementos: {09, 26, 29, 11}. Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios. 3.3.2. Amostragem Sistemática (AS) É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas de cadastramento, produção de garrafas da cervejas, etc. Procedimento para o uso deste método: 1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da amostragem i = N/n (considera-se apenas a parte inteira do número).
Oliveira, D. C. R. e Oliveira, M. S.

7

____/____/____

2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i). Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar essa amostra. 1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7; 2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será composta dos elementos: {06, 13, 20, 27, 34} Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios, quando for necessário. 3.3.3. Amostragem Estratificada (AE) A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda, bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Aqui, um conhecimento prévio sobre a população em estudo é fundamental. Estrato 1 Estrato 2 ... Estrato k Subgrupo 1 da amostra Subgrupo 2 da amostra ... Subgrupo k da amostra

...

Amostra Estratificada

A AE tem as seguintes características: • dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); • entre os estratos há uma grande heterogeneidade (grande variabilidade). Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em uma determinada universidade, realizaremos um levantamento por amostragem. A população é composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que identificaremos da seguinte forma: População Professores Servidores Alunos P001 P002 … P100 S001 S002 ... S100 A001 A002 ... A300

Oliveira, D. C. R. e Oliveira, M. S.

8

____/____/____

Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria, para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de proporcionalidade. Estrato Proporção na População Tamanho do subgrupo na amostra np = ( 0,20)*10 = 2 ns = ( 0,20)*10 = 2 na = ( 0,60)*10 = 6

Professores 100/500 = 0,20 (ou 20%) Servidores 100/500 = 0,20 (ou 20%) Alunos 300/500 = 0,60 (ou 60%)

Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra {P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado para se obter a opinião em relação à gestão atual da reitoria. 3.3.4. Amostragem por Conglomerado (AC) A população é dividida em subpopulações (conglomerados) distintas (quarteirões, residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é adequado quando é possível dividir a população em um grande número de pequenas subpopulações. A AC tem as seguintes características: • dentro de cada conglomerado há uma grande heterogeneidade (grande variabilidade); • entre os conglomerados há uma pequena variabilidade (grande homogeneidade). Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a técnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e, em seguida, entrevistar todos os eleitores dessas zonas selecionadas
5 3 Zona 1 6 7 4 8 10 9 11

2

12

Entrevistar todos os eleitores dessas zonas
Oliveira, D. C. R. e Oliveira, M. S.

9

____/____/____

Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa uma amostra de membros de todos os estratos. Curiosidade Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que simplesmente usa resultados que sejam muito fáceis de obter.
Ei! Você é a favor da pena de m orte?

3.4. Exercícios – Parte I – A1 1) Um administrador especialista em avaliar através de sistemas informatizados as ações da BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações serão selecionadas (Use a primeira linha da tabela de números aleatórios)? 2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) 3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 = 60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12 computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha)

Oliveira, D. C. R. e Oliveira, M. S.

10

____/____/____

4. TABULAÇÃO DE VARIÁVEIS
4.1. Variáveis Qualitativas Unidimensionais Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de seus possíveis resultados. A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos dados da Tabela 2.1. Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 Médio 18 Superior 6 n = 36 1,0000 Total Fonte: Bussab e Morettin (2002) Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% tem nível fundamental, 50% nível médio e apenas 16,67% nível superior. Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada categoria, sendo o “n” o número total de observações. As proporções são muito úteis quando se querem comparar resultados de duas pesquisas distintas. O próximo exemplo ilustra este fato. Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela abaixo: Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 650 Médio 1020 0,5100 Superior n = 2000 1,0000 Total Fonte: Bussab e Morettin (2002) Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos as freqüências relativas a um mesmo total.
Oliveira, D. C. R. e Oliveira, M. S.

11

____/____/____

4.2. Variáveis Quantitativas Unidimensionais A construção de tabelas de freqüências para variáveis quantitativas necessita de certos cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1., usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela de Classes de Freqüências. Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário: Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário. Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 04 |-- 08 10 0,2778 27,78% 08 |-- 12 12 12 |-- 16 8 16 |-- 20 5 20 |-- 24 1 36 1,0000 Total Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. Número de Classes A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um número pequeno de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude. Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é um número inteiro próximo de: Regra 1:
C = 1 + 3,2 x log n

Regra 2:

C= n

onde n é o número de elementos pesquisado. As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida.
Oliveira, D. C. R. e Oliveira, M. S.

12

____/____/____

4.3. Variáveis Qualitativas e Quantitativas Bidimensionais

As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de associação, tabela de contingência ou distribuições conjuntas de freqüências.
Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence. Seção Conceito em Metodologia Total por Seção A B C Dep. Pessoal 3 1 3 7 Séc. Técnica 0 4 3 7 Sec. Venda 4 3 4 11 7 8 10 25 Total por Conceito

Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no Primeiro semestre de 2005. Meses Vendas em 1000 R$ Total por Mês A B C Janeiro 40,0 25,2 8,1 73,3 Fevereiro 40,1 28,0 10,0 78,1 Março 35,1 28,0 15,4 78,5 Abril 28,2 20,2 22,3 70,7 Maio 14,1 25,6 28,1 67,8 Junho 5,0 30,0 35,2 70,2 162,5 157,0 119,1 438,6 Total por Produto Fonte: Dados Hipotéticos.

Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística. Estatística Matemática Totais em Estatística 0 |- 4 4 |- 7 7 |- 10 0 |- 4 32 25 5 62 4 |- 7 20 183 82 285 7 |- 10 7 27 19 53 59 235 106 400 Totais em Matemática Fonte: Dados Hipotéticos.

Oliveira, D. C. R. e Oliveira, M. S.

13

____/____/____

4.4. Exercícios – Parte I – A1 Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio
Admin. Direito Redação Estat. Inglês Metodologia Política 8,0 9,0 8,6 9,0 B A 9,0 8,0 9,0 7,0 9,0 B C 6,5 8,0 9,0 8,0 8,0 D B 9,0 6,0 9,0 8,6 8,0 D C 6,0 8,0 9,0 8,0 9,0 A A 6,5 8,0 9,0 8,5 10,0 B A 6,5 8,0 9,0 8,2 8,0 D C 9,0 10,0 9,0 7,5 8,0 B C 6,0 8,0 9,0 9,4 9,0 B B 10,0 10,0 9,0 7,9 8,0 B C 9,0 8,0 9,0 8,6 10,0 C B 10,0 8,0 9,0 8,3 7,0 D B 6,5 6,0 9,0 7,0 7,0 B C 6,0 10,0 9,0 8,6 9,0 A B 10,0 8,0 9,0 8,6 9,0 C B 10,0 8,0 9,0 9,5 7,0 A A 9,0 8,0 9,0 6,3 8,0 D C 10,0 6,0 9,0 7,6 9,0 C C 6,0 6,0 9,0 6,8 4,0 D C 6,0 6,0 9,0 7,5 7,0 C B 6,0 8,0 9,0 7,7 7,0 D B 6,5 6,0 9,0 8,7 8,0 C A 6,0 8,0 9,0 7,3 10,0 C C 9,0 8,0 9,0 8,5 9,0 A A 6,5 8,0 9,0 7,0 9,0 B A 9,0 (*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. Fonte: Bussab e Morettin (2002) Func. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Seção* P P P P P P P T T T T T T T V V V V V V V V V V V Economia 8,5 8,0 8,5 8,5 9,0 9,5 7,0 8,5 8,0 7,5 8,5 8,0 8,5 7,5 7,0 7,5 7,5 8,5 9,5 8,5 8,0 9,0 7,0 9,0 8,5

1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da Tabela 4.7. 4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 4.7. 5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 4.7.

Oliveira, D. C. R. e Oliveira, M. S.

14

____/____/____

5. MEDIDAS DE POSIÇÃO
5.1. Mínimo e Máximo

O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior observação.
Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo, Min = __ e Max = __. 5.2. Moda

Valor ou atributo que ocorre com maior freqüência. Exemplo (a): 2, 5, 2, 7, 8 Moda = __ . Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem
Moda para dados agrupados em Tabelas de Freqüências

“Conjunto _ _ _ _ _ _ _” “Conjunto _ _ _ _ _ _”

Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O resultado foi:

Números de Ligações a Cobrar (xi) 0 1 2 3 Total

Número de Residências (ni) 2 5 15 8 30

Moda = __. Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência.
5.3. Média

Valor que representa o centro do conjunto de dados. Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média desse conjunto é obtida pela soma das n observações dividido por n, ou seja,
i x1 + x 2 + x3 + L + x n i =1 = x= n n Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.

∑x

n

(5.1)

Oliveira, D. C. R. e Oliveira, M. S.

15

____/____/____

Média para dados agrupados em Tabelas de Freqüências Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março.

Números de Ligações a Cobrar (xi) 0 1 2 3 Total

Número de Residências (ni) 2 5 15 8 30

Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável, da seguinte forma: , (5.2) n onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima classe. Assim, para o exemplo temos: 0 x 2 + 1x5 + 2 x15 + 3x8 = ___. n 30 Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março é ___.
x=
i =1 i i

x=

∑x n
i =1 i

v

i

∑x n

n

=

5.4. Mediana

É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e metade será menor ou igual. Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9.
Método prático para o cálculo da Mediana para dados em Rol 1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o máximo. n +1 . 2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: p = 2 3) O valor da mediana será: (a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados ordenados, isto é Mediana = x(p)
Oliveira, D. C. R. e Oliveira, M. S.

16

____/____/____

(b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p, respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados ordenados, ou seja,

Mediana =

x (P− ) + x (P+ ) 2

Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5 1º ordenar a série: __, __, __, __, __, __, __, __, __. n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada será a mediana. Assim, mediana = __ . Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 1º ordenar a série: __, __, __, __, __, __, __, __, __, __. n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja, Mediana = (2+3)/2 = 2,5. Notas: 1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. 2) Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2 elementos centrais da série. 3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. 4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos: Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10, isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma.

Mediana para dados agrupados em Tabelas de Freqüências

Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana.
Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a freqüência acumulada.
Oliveira, D. C. R. e Oliveira, M. S.

17

____/____/____

Números de Ligações a Cobrar (xi) 0 1 2 3 Total

Número de Residências (ni) 2 5 15 8 30

Freqüência Acumulada (Fi)

Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é a primeira freqüência acumulada que contém os elementos 15 e 16.

5.5. Exercícios – Parte I – A1

1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. Calcule o mínimo, máximo, moda, média e mediana. 2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir. Máquina # 1 2 3 4 5 6 7 8 9 10 11 12 13
Tabela 5.1: Dados Brutos (em horas) Tempo de Falha Máquina # Tempo de Falha 150 14 171 291 15 197 93 16 200 53 17 262 2 18 255 65 19 286 183 20 206 144 21 179 223 22 232 197 23 165 187 24 155 197 25 203 213

Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete os resultados. 3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela.

Oliveira, D. C. R. e Oliveira, M. S.

18

____/____/____

6. MEDIDAS DE DISPERSÃO
6.1. Motivação

Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas na tabela abaixo:
Tabela 6.1: Distribuição das Notas Provas Candidatos 1 2 3 4 5 A 7,0 7,5 8,0 8,0 8,5 B 6,0 7,0 8,0 8,0 9,0 C 7,5 8,0 8,0 8,0 8,0 Fonte: Dados Hipotéticos

6 9,0 10,0 8,5

Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas: Candidatos A B C Média De modo análogo, nem adianta pensar em moda ou mediana, pois: Candidatos A B C Moda Mediana Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas, isto é, aquele que apresentou menor dispersão das notas.
6.2. Amplitude

A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja, Amplitude = Máximo – Mínimo (6.1) Exemplo: Para os três candidatos temos: Candidatos A B C Amplitude
6.3. Variância e Desvio Padrão

A variância mede a dispersão dos dados em torno de sua média. ( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + L + ( x n − x ) 2 = s2 = 1 n −1
Oliveira, D. C. R. e Oliveira, M. S.

∑ (x
i =1

n

i

− x)2 (6.2)
____/____/____

n −1

19

O desvio padrão é simplesmente a raiz quadrada positiva da variância
s = s2

(6.3)

Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos:

Candidato A
2 sA =

7,0

7,5

Notas 8,0 8,0

8,5

9,0

Média 8,0
s A = 0,5 ≅ 0,7

(7 − 8) 2 + (7,5 − 8) 2 + (8 − 8) 2 + (8 − 8) 2 + (8,5 − 8) 2 + (9 − 8) 2 2,5 = = 0,5 6 −1 5
Notas 8,0 8,0 Média 8,0

Candidato B
2 sB =

6,0

7,0

9,0

10,0

6 −1
Notas 8,0 8,0

=

5

=

sB =

Candidato C
2 sC =

7,5

8,0

8,0

8,5 =

Média 8,0 =

6 −1

5

sC =

Resumindo Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão A 8,0 8,0 8,0 B 8,0 8,0 8,0 C 8,0 8,0 8,0 Fórmula alternativa para o cálculo da variância
Podemos calcular a variância através da seguinte fórmula alternativa:

s2 =

1 ⎡⎛ n 2 ⎞ 2⎤ ⎢⎜ ∑ xi ⎟ − n ( x ) ⎥ n − 1 ⎣⎝ i =1 ⎠ ⎦

(6.4)

. A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao 2 quadrado da variável ∑ xi .

(

)

Oliveira, D. C. R. e Oliveira, M. S.

20

____/____/____

6.4. Intervalo Interquartil
O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja, (6.5) IQ = Q3 – Q1. Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de dados ordenados.

6.5. Exercícios – Parte I – A1
1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular a variância, sabendo que a média é 5,4. 2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi: Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6 6,5 9 7 Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua decisão. 3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foram os seguintes: A 5 10 7 15 16 12 4 8 10 13 B 10 9 10 9 11 8 9 7 8 9 C 10 11 9 10 10 9 11 12 8 10 Em medidas clínicas três termos são utilizados freqüentemente: Precisão: refere-se à dispersão dos resultados Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor” Exato: refere-se ao instrumento preciso e não-viciado (a) Descreva os três instrumentos em termos das definições acima. (b) Qual instrumento lhe parece recomendável? Justifique sua resposta.

Oliveira, D. C. R. e Oliveira, M. S.

21

____/____/____

7. ESTATÍSTICA GRÁFICA
7.1. Gráficos para as Variáveis Qualitativas
A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto.

7.1.1. Gráfico em Barras
O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução.

Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% n = 36 1,0000 100,00% Total Fonte: Bussab e Morettin (2002)

18

18
16 14 12 Freqüência (ni)

12
10 8 6 4 2 0 Fundamental Médio Grau de Instrução Superior

6

Figura 7.1: Gráfico em Barras para a variável Grau de Instrução
Oliveira, D. C. R. e Oliveira, M. S.

22

____/____/____

7.1.2. Gráfico de Composição em Setores (“Pizza”)
O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico:
50%
Fundamental Médio

33%
Superior

17%

Figura 7.2: Gráfico em Setores para a variável Grau de Instrução 7.1.3. Gráfico de Pareto O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior freqüência, e assim por diante.

500

100

300

60

200

40

100

20

Modelo-Aviões Count Percent Cum %

0

MD-737 MD-777 MD-757 MD-767 MD-717 MD-747 281 55 45 44 32 25 57,5 11,2 9,2 9,0 6,5 5,1 57,5 68,7 77,9 86,9 93,5 98,6

MD-11 4 0,8 99,4

MD-90 3 0,6 100,0

0

Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)
Oliveira, D. C. R. e Oliveira, M. S.

23

____/____/____

Porcentagem Acumulada

400 Frequencia Absoluta

80

A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do total dos aviões produzidos em 2000.

Número de Defeitos

80 70 60 50 40 30 20 10 0
30 21 6 6 5 5 4 4

100 80 60 40 20 0

Tipo de Defeito

s s s s s a es ci ra ro da va da nt ên oi to ut ra hu ca ie l g n O n qü ifi s/ pa ra sa co br se s da la o s/ lu n a d ro de o rte m fe a fu nã Pa s/ ra or es e F s d he rt Fo te al Pa lta ar nt P E Fa Count 30 21 6 6 5 5 4 4 Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9 Cum % 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0 o rn

Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta.

Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou eliminá-los.

Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) pertence à minoria da população (20%).

Oliveira, D. C. R. e Oliveira, M. S.

24

____/____/____

Porcentagem Acumulada

90

7.2. Gráficos para as Variáveis Quantitativas
Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas.

7.2.1. Gráfico em Barras
O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos. Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total n = 20 100 Fonte: Bussab e Morettin (2002)

Figura 7.5: Gráfico de Barras para a variável Números de Filhos

Oliveira, D. C. R. e Oliveira, M. S.

25

____/____/____

7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot)
Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos.

Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

2

3

4 5 6 7 8 Figura 7.6: Gráfico de Dispersão – Dot Plot

9

10

7.2.3. Histograma
O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados: Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário Classe de Freqüência Proporção Porcentagem Densidade de Freqüência Salário (ni) (fi) (100 x fi) (di = fi/ai) 04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070 n = 36 1,0000 100,00 Total

Oliveira, D. C. R. e Oliveira, M. S.

26

____/____/____

0,09 0,08

D ensidade de Freqüência

0,07 0,06 0,05 0,04 0,03 0,02 0,01 0

0,0833 0,0695 0,0556

0,0347

0,007

04 |-- 08

08 |-- 12

12 |-- 16 Classes de Salários

16 |-- 20

20 |-- 24

Figura 7.7: Histograma da variável Salário 7.2.4. Gráfico em Linhas (ou Gráfico Temporal)
É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. Ano Dívida Ano Dívida Ano Dívida
1956 2736 1957 2491 1958 2870 1959 3160 1960 3738 1961 3291 1962 3533 1963 3612 1964 3294 1965 3823 1966 3771 1967 3440 1968 4092 1969 4635 1970 6240 1971 8284 1972 11464 Fonte: IPEADATA
Oliveira, D. C. R. e Oliveira, M. S.

1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989

14857 20032 25115 32145 37951 52187 55803 64259 73963 85487 93745 102127 105171 111203 121188 113511 115506

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

123439 123910 135949 145726 148295 159256 179935 199998 241644 241468 236156 226067 227689 235414 220182 187987 191999

27

____/____/____

250000

200000

Dívida em Milhões de Dólares

150000

100000

50000

0

4

6

8

6

4

0

8

6

6

8

8

0

2

0

2

0

2

4

4

6

8

2

4

0

20 0

2

19 9

19 7

19 7

19 9

19 7

19 6

19 9

19 5

19 6

19 7

19 5

19 8

19 8

19 6

19 8

19 6

Ano

Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006 7.2.5. Ramo-e-Folhas
Suponha que os dados sejam representados por x1, x2, ..., xn, e que cada número xi consista em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos (valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76 no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são listadas todas as folhas que correspondem aos valores dos dados observados.

Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas descartáveis de 1 litro de refrigerante. 176 221 242 253 261 265 271 278 286 301 187 223 243 254 262 265 272 278 287 307 197 228 245 254 263 267 274 280 290 308 200 231 246 257 263 267 274 280 293 317 205 231 248 258 264 268 274 280 294 318 208 234 248 258 264 268 274 280 296 321 210 235 250 260 265 269 275 281 298 328 214 235 250 260 265 269 276 281 299 334 215 235 250 260 265 270 276 283 299 337 220 242 251 260 265 271 277 283 300 346
Fonte: Hines et al. (2006), p. 157.
Oliveira, D. C. R. e Oliveira, M. S. ____/____/____

28

19 8

19 8

19 6

19 7

19 9

19 9

20 0

20 0

20 0

6

1 17 6 2 18 7 3 19 7 6 20 058 9 21 045 13 22 0138 19 23 114555 26 24 2235688 36 25 0001344788 (22) 26 0000123344555555778899 42 27 01124444566788 28 28 0000113367 18 29 0346899 11 30 0178 7 31 78 5 32 18 3 33 47 1 34 6 Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5. O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o histograma, nos permite determinar rapidamente algumas características importantes dos dados que não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas podemos calcular qualquer medida de posição e dispersão.

7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot)
Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil para o cálculo das linhas extremas. * (Outlier ou Ponto Discrepante ou Ponto Aberrante)
Q 3 + 1,5 (Q 3 -Q 1)

“M áx im o ”

Q3 M ed ian a 75% 50%

Q1 “M ín im o”

25%

Q 1 -1 ,5 (Q 3 -Q 1 )

Figura 7.10: Desenho esquemático geral.
Oliveira, D. C. R. e Oliveira, M. S.

29

____/____/____

O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três misturas.

Tabela 7.6: Medidas de viscosidade para três misturas Mistura 1 Mistura 2 Mistura 3 22,02 21,49 20,33 23,5 22,56 20,49 23,83 22,67 21,67 25,38 22,78 21,95 25,49 24,18 22,28 25,9 24,46 22,45 26,67 24,62 27,00
A Figura 7.11 a seguir apresenta os box-plot para os dados da viscosidade. Essa apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados.
27
26,67 27

26

25,9 25,38

Viscosidade (centipoise)

25 24
23,5

24,62 24,46

23 22 21
22,02 21,49

22,78 22,56

22,45 21,95

20,49

20 Mistura 1 Mistura 2

20,33

Mistura 3

Figura 7.11: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6.

Oliveira, D. C. R. e Oliveira, M. S.

30

____/____/____

7.3. Exercícios – Parte I – A1
1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na Tabela 7.7. Tabela 7.7: Defeitos em elementos estruturais da porta Tipo de Defeito Frequência Absoluta Partes Salientes 5 Fora do Contorno 30 Partes mal aparadas 25 Total 60 2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras, colocando no eixo x, os meses (janeiro, ..., dezembro) e no eixo y, consumo de energia (em kWh). 3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo: 3,67 1,82 3,73 4,10 4,30 1,28 8,14 2,43 4,17 5,36 3,96 6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65 1,88 2,12 4,26 2,78 5,54 0,90 5,09 4,07 4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de amplitude 1, de 0 a 10, isto é: Taxas [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10] Freqüência Absoluta Proporção Densidade

em seguida, faça o histograma.

Oliveira, D. C. R. e Oliveira, M. S.

31

____/____/____

8. CORRELAÇÃO E REGRESSÃO
8.1. Estudo da relação entre variáveis
O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista: (a) Inspeção visual: diagrama de dispersão (b) Quantificando a força dessa relação: coeficiente de correlação. (c) Explicitando a forma dessa relação: ajuste de uma reta.

Exemplos: 1) Idade e altura das crianças; 2) Tempo de prática de esportes e ritmo cardíaco; 3) Tempo de estudo e nota na prova; 4) Taxa de desemprego e taxa de criminalidade; 5) Expectativa de vida e taxa de analfabetismo. 8.2. Diagrama de Dispersão
Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma representação gráfica das duas variáveis.

Exemplo: Nota na Prova e Tempo de Estudo
X: tempo de estudo (em horas) Y: nota obtida na prova

Tabela 8.1: Pares de observações (Xi, Yi) Tempo Nota 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 Construção do Gráfico de Dispersão
No Excel podemos fazer: Coluna A: Valores de X (Tempo) Coluna B: Valores de Y (Notas) Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de “Dispersão (XY)”.
Oliveira, D. C. R. e Oliveira, M. S.

32

____/____/____

10 9 8 7 6

Nota

5 4 3 2 1 0

0

2

4

6
Tempo

8

10

12

14

Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota

Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Numa pesquisa feita com 11 famílias com renda bruta mensal entre 10 e 60 salários mínimos mediram-se: X: renda bruta mensal (em salários mínimos) Y: porcentagem da renda bruta anual gasta com assistência médica

Tabela 8.2
X 12 16 18 20 28 30 Y 7,2 7,4 7,0 6,5 6,6 6,7 X 40 48 50 54 32 Y 6,0 5,6 6,0 5,5 6,5

Oliveira, D. C. R. e Oliveira, M. S.

33

____/____/____

8

Porcentagem da Renda Bruta Anual gasta com Assist. Médica

7

6

5

4

3

2

1

0

0

10

20

30 Renda Bruta Mensal (em sal. mínimos)

40

50

60

Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica.
Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y (Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica diminui. Nota-se também uma tendência linear decrescente. Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que ilustra com maior clareza essa tendência linear decrescente.
7,5

Porcentagem da Renda Bruta Anual gasta com Assist. Médica

7

6,5

6

5,5

5

0

10

20

30 Renda Bruta Mensal (em sal. mínimos)

40

50

60

Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica.
Oliveira, D. C. R. e Oliveira, M. S.

34

____/____/____

8.3. Coeficiente de Correlação
O coeficiente de correlação linear é definido como:
r=

∑(X
i =1

n

i

− X )(Yi − Y )

(n − 1) S x S y

=

∑X Y
i =1

n

i i

− nXY (9.1)

(n − 1) S x S y

onde

X e Y são as médias amostrais das variáveis X e Y , respectivamente. S x e S y são os desvios padrão das variáveis X e Y , respectivamente

Recordando: S x =

∑(X
i =1

n

i

− X )2 e Sy =

∑ (Y
i =1

n

i

− Y )2

n −1

n −1

Propriedades do coeficiente de correlação linear

O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja, −1 ≤ r ≤ 1
Classificação da correlação 1. r = 1 indica correlação linear positiva e perfeita; indica correlação linear negativa e perfeita; 2. r = −1 3. r = 0 indica inexistência de correlação linear; 4. − 1 ≤ r ≤ 0 indica correlação linear negativa; 5. 0 ≤ r ≤ 1 indica correlação linear positiva. Gráficos - Exemplos da classificação da correlação

r = 1 , correlação linear positiva e perfeita

r = −1 , correlação linear negativa e perfeita

r ≅ 0 , inexistência de correlação linear
40

30

Y
20 10 10 20 30 40 50

Oliveira, D. C. R. e Oliveira, M. S.

35

____/____/____

-1 ≤ r ≤ 0, correlação linear negativa

0 ≤ r ≤ 1, correlação linear positiva.

O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para as duas figuras abaixo o valor do coeficiente de correlação é r = 0,46 .
Y

Z=Y/10+0,8

X

X

O coeficiente de correlação linear mede apenas o grau de associação LINEAR.
Y

X

r ≅ 0,01
O coeficiente de correlação linear é sensível a valores discrepantes.

r =0

r = 0.91

Oliveira, D. C. R. e Oliveira, M. S.

36

____/____/____

Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2. Medidas Descritivas com os dados da Tabela 8.2 Média X 31,63636 Média Y 6,454545 Desvio de X 14,63744 Desvio de Y 0,62348 n 11 Soma XY 2160,4

r=

i =1

∑ X i Yi − nXY (n − 1)S x S y

n

=

2160,4 − 11.31,636363.6,454545 = -0,9399564 10.14,63744.0,62348

Podemos observar uma correlação negativa entre a renda bruta mensal e a porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica.
8.4. Regressão Linear Simples

Objetivo: ajustar uma reta entre duas variáveis quantitativas.
Reta Ajustada A reta ajustada de duas variáveis quantitativas Y e X é dado por
) Y = a + bX

Definição de a e b a: intercepto; b: inclinação da reta. Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b unidades em Y.

Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios)

SQ(a, b) = ∑ ei2 = ∑ {Yi − (a + bX i )}2
i =1 i =1

n

n

O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer:
a = Y − bX
Oliveira, D. C. R. e Oliveira, M. S.

∑ b=
37

n

i =1

X i Yi − nXY

(n − 1) S x2
____/____/____

Reta Ajustada - Uso do Excel Coluna A: variável Y; Coluna B: variável X. Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos: =INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a); =INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b). Exemplo: Consumo de cerveja e temperatura As variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas. Y: consumo de cerveja em um dia (em 100 litros) X: temperatura máxima (em ºC) Os dados amostrais estão dispostos na Tabela 8.3. Tabela 8.3 Consumo Temperatura 290 36 374 36 393 22 425 15 406

Temperatura 16 31 38 39 37 A correlação entre X e Y é: X= Sx =

Consumo 370 365 320 270

Y=

Sy =

∑X Y
i =1

n

i i

=

A reta ajustada para este exemplo é:
450 430 410 y = 5,2194x + 200,42 390 Consumo de Cerveja 370 350 330 310 290 270 250 10 15 20 25 30 35 40 45 Temperatura Máxima

Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja, juntamente com a Reta de Regressão
Oliveira, D. C. R. e Oliveira, M. S.

38

____/____/____

(a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura?

(b) Qual o consumo previsto para uma temperatura de 25ºC?
8.5. Coeficiente de Determinação

A quantidade r2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão. Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão.
Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 88,35%, isto é, 88,35% da variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x.
7,5

porcentagem da renda bruta anual gasta com assistência médica

7

6,5

6

5,5 y = -0,04x + 7,7212 2 R = 0,8835 5 10 15 20 25 30 35 40 45 50 55 60 renda bruta mensal (em salários mínimos)

Oliveira, D. C. R. e Oliveira, M. S.

39

____/____/____

8.6. Exercícios – Parte I – A1

1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo
X : tempo de estudo (em horas) Y : nota obtida na prova

Tempo Nota

3 4,5

7 6,5

2 3,7

1,5 4

12 9,3

(a) Faça o Gráfico de Dispersão. (b) Obtenha o Coeficiente de Correlação. (c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão. (d) Obtenha o coeficiente de determinação.

Oliveira, D. C. R. e Oliveira, M. S.

40

____/____/____

Lista de Exercícios 1 1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 2) Classifique as seguintes variáveis: a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); d) Renda; 3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário) 5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística na Escola E. Tabela 1: Dados Brutos R : Ruim M : Médio B: Bom O : Ótimo M R M M M R B B M M R B M M M M R B B R B M R M B M R M R M B M R M R M B M B M B B B B O M M M M M B B B B B B B O B O a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e relativa, porcentagens e interpretação. b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1. 6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material de construção. Tabela 2: Dados Brutos (em m) 19,5 20,0 14,1 16,1 10,0 16,0 22,0 20,5 15,0 16,7 22,0 12,5 16,3 15,3 16,0 13,8 19,7 17,0 14,1 18,8 12,3 15,5 14,7 20,3 17,4 19,5 17,9 18,2 16,9 19,3 16,9

a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3. b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil.
Oliveira, D. C. R. e Oliveira, M. S.

41

____/____/____

c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título, freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as classes. d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2. e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2.
7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir: Tabela 3: Medidas da pulsação 64 64 68 68 76 60 72 68 80 60 72 88 60 88 60 a) Calcule: Média, Mediana. Comente os resultados; b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas; c) Calcule: Variância e Desvio Padrão. Comente. d) Construa o gráfico de barras para os dados de pulsação dos índios. 8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: Tabela 4: Valores codificados do investimento em educação A B C D E F G H I J Cidade 7 19 15 14 16 19 18 Investimento 20 16 14 a) Calcule a média e o desvio-padrão das observações; b) Receberão um programa especial às cidades com valores de investimento inferiores à média menos duas vezes o desvio padrão. Alguma cidade receberá o programa? c) Será considerado como investimento básico a média das observações compreendidas entre a média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada. 9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B, C): Tabela 5: Tempo (em dias) do completo fechamento em cortes provenientes de cirurgia A 13 14 15 13 15 14 15 15 14 14 B 14 12 13 13 14 14 13 14 C 12 12 13 13 12 13 11 11 Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente. 10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo (em milhares) que circulam em seu habitat na Flórida-EUA. Tabela 6: Dados Brutos Barcos(X) 68 68 67 70 71 73 76 81 83 84 Mortes(Y) 53 38 35 49 42 60 54 67 82 78
Oliveira, D. C. R. e Oliveira, M. S.

42

____/____/____

a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis. b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)). c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o número de barcos como a variável independente. d) Interprete o coeficiente de determinação (r2).
11) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Tabela 7: Dados Brutos X 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78 73 68 Y 82 91 100 68 87 73 78 80 65 84 116 76 97 100 105 77 73 78 a) Faça o diagrama de dispersão dos dados. b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o. c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular (dependente) e X: idade (independente) e interprete os coeficientes.

Alguns resultados: n = 18;

∑X
i =1

18

i

= 1108 ;

∑X
i =1

18

2 i

= 70362 ;

∑Y
i =1

18

i

= 1530 ;

∑Y
i =1

18

2

i

= 133300 e

∑X Y
i =1

18

i i

= 91964 .

Observação: O gabarito da Lista de Exercícios 1 encontra-se no Apêndice A

Oliveira, D. C. R. e Oliveira, M. S.

43

____/____/____

9. PROBABILIDADE
9.1. Processo ou Experimento Aleatório Definição 1: Qualquer fenômeno que gere resultado incerto ou casual é chamado de Processo ou Experimento Aleatório. Exemplos: 1) Jogar uma moeda duas vezes e observar a seqüência obtida de caras e coroas;

2) Jogar um dado e observar o número mostrado na face superior;

3) Peso de Animais;

4) Número de filhos de um casal.

9.2. Espaço Amostral (Ω) Definição 2: Espaço amostral (Ω) é o conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: Obtenha o espaço amostral dos seguintes experimentos: 1) Jogar um dado e observar o resultado: Ω = {1, 2, 3, 4, 5, 6}.
2) Lançar uma moeda duas vezes e observar as faces obtidas: 3) Uma urna contém 10 bolas azuis e 10 brancas. 3 bolas são retiradas ao acaso e as cores são anotadas: 4) Dois dados são lançados simultaneamente e estamos interessados na soma das faces observadas: 5) Uma moeda é lançada consecutivamente até o aparecimento da 1ª cara: 6) Uma máquina produz 20 peças por hora. Ao final da primeira hora de produção, observa-se o nº de defeituosas: 7) Medição do “tempo de vida” de uma lâmpada antes de se queimar:

Oliveira, D. C. R. e Oliveira, M. S.

44

____/____/____

9.3. Evento Definição 3: Evento é qualquer subconjunto do espaço amostral. Exemplos: (a) Alguns eventos do experimento 1: A = {5}, B = {2, 4, 6}, etc.
(b) Alguns eventos do experimento 2: Existem dois eventos especiais: espaço todo (Ω) e o conjunto vazio (∅).

Operações com Eventos Sejam A e B dois eventos de um mesmo espaço amostral: • O evento interseção de A e B, denotado A∩B, é o evento em que A e B ocorrem simultaneamente.
A B

O evento união de A e B, denotado A∪B, é o evento em que A ocorre ou B ocorre (ou ambos).
A B

O evento complementar de A, denotado Ac, é o evento em que A não ocorre.
A B

Exemplos: Operações com Eventos. Seja Ω1 = {1, 2, 3, 4, 5, 6} e considere os seguintes eventos A = {2, 4, 6}, B = {4, 5, 6} e C = {1, 3, 5}. Faça as seguintes operações: A∩B= A∩C = A∪B= A ∪ Bc = Eventos Disjuntos Definição 4: Dois eventos A e B são mutuamente exclusivos ou disjuntos se eles não podem ocorrer simultaneamente (A ∩ B = ∅).
A B

Exemplo:

A = o resultado do dado foi 4, e B = o resultado do dado foi 5 ⇒ A ∩ B = ∅

Após essas quatro definições, estamos preparados para calcular probabilidades.

Oliveira, D. C. R. e Oliveira, M. S.

45

____/____/____

9.4. Exercícios – Parte II – A2
1) Determine o espaço amostral dos seguintes experimentos: (a) Lançar 2 dados e observar as faces superiores;

(b) Lançar 2 dados e observar a soma das faces superiores;

2) Considere o seuinte espaço amostral: Ω = = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Defina os eventos: A = número par: B = número ímpar: C = múltiplo de 3: D = maior ou igual a 6: E = maior que 8: F = menor que 5: G = menor ou igual a 3: Obtenha os seguintes eventos: (a) A ∩ B = (b) A ∪ B = (c) (A ∩ B)c = (d) (A ∪ B)c = (e) C ∩ D = (f) E ∪ F = (g) (A ∩ G)c = (h) (Ec ∪ B)c =

Oliveira, D. C. R. e Oliveira, M. S.

46

____/____/____

9.5. Introdução à Probabilidade
A área de Probabilidade começou a ser desenvolvida no século XVII antes ainda da formalização da área da Estatística, em questões propostas em jogos de azar.

1654 – Pierre de Fermat (1601-1665) e Blaise Pascal (1623-1662), na França, estabelecem os Princípios do Cálculo das Probabilidades.

1656 - Huygens (1629-1695) publica o primeiro Tratado de Probabilidade.

No entanto, é fácil perceber que o termo probabilidade já está enraizado no senso comum, pois as pessoas vivem o cotidiano calculando implicitamente algumas probabilidades, tais como: situações de sua vida pessoal; organizando-se em relações a horários a cumprir, levando em conta as circunstâncias do tráfego; agasalhando-se ao sair de casa se a previsão do tempo indicar uma frente fria. Em resumo, prevenindo-se em situações de risco. Como podemos definir Probabilidade?

Probabilidade é uma medida que quantifica a sua incerteza frente a um possível acontecimento futuro.
Há várias maneiras de se medir a incerteza e é costume se pensar na seguinte divisão: 1) Método Clássico 3) Método Subjetivo 2) Método Freqüentista 4) Método Moderno ou Axiomático O primeiro é devido a Laplace e é o mais conhecido, pois relaciona eventos favoráveis com eventos possíveis. O segundo consiste em repetir um experimento várias vezes. O terceiro é baseado na opinião pessoal e o último é devido a Kolmogorov e baseia-se no princípio de que qualquer experimento pode ser modelado.
Oliveira, D. C. R. e Oliveira, M. S.

47

____/____/____

9.6. Definição Clássica Definição 5 (Clássica): Dado um conjunto de N eventos equiprováveis, a probabilidade de ocorrência de um determinado evento A, é dado pela razão n P ( A) = N onde n é o número de elementos em A e N é o número de elementos em Ω.

Exemplo: Considere o lançamento de uma moeda equilibrada, nesse caso o espaço amostral associado é Ω = {Cara, Coroa}. Então, pela definição clássica, a probabilidade de ocorrência do evento “cara” é P(cara) = . Exemplo: População Residente em São João del Rei em 2006
Idade Menor 1 Masculino 600 572 Feminino Total 1172 1a4 2592 2457 5049 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 Total 40126 42826 82952

Fonte: DATASUS (http://www.datasus.gov.br)

Ω = conjunto de 82.952 habitantes residentes em São João del Rei em 2006 por faixa etária. Possíveis eventos de interesse: M = Indivíduo sorteado é do sexo masculino F = Indivíduo sorteado é do sexo feminino A = Indivíduo sorteado tem mais que 80 anos B = Indivíduo sorteado tem entre 15 e 29 anos M ∩ A = Indivíduo sorteado é do sexo masculino e tem mais de 80 anos F ∪ B = Indivíduo sorteado é do sexo feminino ou tem entre 15 e 29 anos

Distribuição da Faixa Etária da Cidade de São João del Rei em 2006, por Sexo
16,69 16,57 20,00 17,51

18,00

14,00 13,69 Masculino Feminino 8,22 8,62 9,09

Porcentagem

8,50

10,00 6,46

7,61

8,13

5,54 6,79

8,00

1,50 1,34

4,16

4,00

5,74

2,70

6,00

8,70

9,41

12,00

16,48

13,78

16,00

0,00 Menos que 1 1a4 5a9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 Grupos de Idade acima de 80

Oliveira, D. C. R. e Oliveira, M. S.

1,78

2,00

0,99

48

____/____/____

Exercício – Parte II – A2: Suponha que um indivíduo é escolhido aleatoriamente na cidade de São João del Rei em 2006. Determine a probabilidade de ocorrer cada um dos eventos definidos.

9.7. Definição Freqüentista Definição 6 (Freqüentista): A probabilidade de ocorrência de um determinado evento é igual à freqüência relativa de ocorrência de tal evento, quando o processo aleatório que o gerou for repetido infinitas vezes. Exemplo: Atividade Prática do lançamento da moeda. Passo 1 – Agrupem-se 2 a 2 e peguem uma moeda – chamem o valor numérico da moeda de COROA (K ) e a outra face de CARA (C). Suponham que haja interesse em saber se a sua moeda é “honesta” (isto significa saber se a probabilidade de CARA de sua moeda é ½ ou, em termos percentuais, se a probabilidade de sair Cara é 50%). Passo 2 – Um membro do grupo vai lançar a moeda e o outro vai marcar os resultados na planilha anexa, seguindo as seguintes instruções: a) Jogar a moeda uma vez e anotar C ou K no espaço adequado (linha 2) da planilha. b) Repetir este procedimento 30 vezes, preenchendo um a um todos os espaços da linha 2. Passo 3 – Continuando com a planilha, trocar de lugar com o parceiro, voltar para os itens a) e b) das instruções e continuar mais 30 jogadas – até perfazer 60. Passo 4 – Voltar ao primeiro da dupla e, ainda com a planilha, seguir as instruções: c) Depois do registro na linha 2 de todos os resultados como C ou K, passar para a linha 3: chamar CARA de 1 e COROA de 0 e colocar estes valores na planilha, abaixo de cada resultado já obtido na linha 2. Cada membro do grupo deve fazer metade – um faz a linha de cima e o outro a linha de baixo.
d) Agora a linha 4 da planilha deve ser preenchida – em cada posição deve ser colocado o número acumulado de CARAS, até aquela jogada (verifique que a jogada está explicitada na linha 1- que é a linha n). Discutir com outro membro do grupo para ver se está claro – se não, pergunte! A linha de baixo é continuação do acumulado da linha de cima. e) Finalmente chegamos à última linha – linha 5: colocar a freqüência relativa (m/n) de CARAS em cada momento – o que é isto? Discuta com o outro membro do grupo (desprezar as entradas assinaladas com X).

Oliveira, D. C. R. e Oliveira, M. S.

49

____/____/____

1) 2) 3) 4) 5)

Jogada(n) C ou K 1 ou 0 Caras Acumuladas (m) Frequência Relativa (m/n)

1

2

3

4

5

6

7

8

9

10

12

14

17

20

25

30

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

1) 2) 3) 4) 5)

Jogada(n) C ou K 1 ou 0 Caras Acumuladas (m) Frequência Relativa (m/n)

31 32 33

40

47

50

55

60

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

Passo 5 – depois de completar a 1a parte da planilha, construir a seguinte tabela, usando as linhas 4 e 5 da planilha:
n m/n 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60

Passo 6 – Completar o gráfico, usando os valores da tabela recém construída, do seguinte modo: Eixo Y – valores m/n Eixo X – valores da linha 1: (n)

m/n 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1

Gráfico da Atividade Prática - Parte II – A2

1 2 3 4 5 6 7 8 9 10 …… 20 n

30

40

50

60

Passo 7 – Comparar os resultados com os colegas e interpretar o resultado comentando sobre a “honestidade” da sua moeda. Conclusão: Com isto chegamos a uma possível “definição freqüentista” de probabilidade, ou seja, probabilidade é o valor em que a freqüência relativa se estabiliza após um número muito grande de ensaios.
Oliveira, D. C. R. e Oliveira, M. S.

50

____/____/____

9.8. Definição Subjetiva Definição 7 (Subjetiva): Cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito de um evento em questão, pode ter uma resposta para a probabilidade desse evento. Exemplo: Um médico experiente consegue calcular uma probabilidade do indivíduo ter uma determinada doença baseado nos sintomas que o indivíduo apresenta. 9.9. Definição Moderna Definição 8 (Moderna): Probabilidade é uma função P(.), que associa a cada evento do espaço amostral Ω, um número real, pertencente ao intervalo [0, 1], satisfazendo os seguintes axiomas:
(1) 0 ≤ P(A) ≤ 1. (2) P(Ω) = 1. (3) Se A e B são eventos mutuamente exclusivos: P(A∪B) = P(A) + P(B).

Exemplos:
Segue alguns exemplos de funções já descobertas na literatura para calcular probabilidades, que serão discutidas em detalhes nos capítulos posteriores. 1) Distribuição Bernoulli

P(X = x ) = p x (1 − p )1− x , x = 0, 1. 2) Distribuição Binomial ⎛n⎞ n−x P(X = x ) = ⎜ ⎟p x (1 − p ) , x = 0, 1, ..., n. ⎜p⎟ ⎝ ⎠ 3) Distribuição Hipergeométrica ⎛ r ⎞⎛ N − r ⎞ ⎜ ⎟⎜ ⎜ x ⎟⎜ n − x ⎟ ⎟ ⎝ ⎠⎝ ⎠ , 0 ≤ x ≤ mínimo(r, n). P(X = x ) = ⎛ N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ 4) Distribuição Poisson

P(X = x ) = 5) Distribuição Normal

e − λ λx , x = 0, 1, ... x!

(x −µ ) − 1 2 f (x) = e 2σ , - ∞ < x< + ∞ σ 2π
2
Oliveira, D. C. R. e Oliveira, M. S.

1

51

____/____/____

6) Distribuição t de Student

Γ[(k + 1) / 2] ⎛ x 2 ⎜1 + f (x) = k Γ[k / 2] πk ⎜ ⎝ 7) Distribuição Qui-Quadrado
f (x) = 1
k Γ k/2 22

⎞ ⎟ ⎟ ⎠

−(k +1) / 2

, - ∞ < x< + ∞

x

k −1 − x 2

e 2,x>0

[

]

Propriedades P1: P(∅) = 0, onde ∅ é o conjunto vazio. P2: Se Ac for o evento complementar de A, então P(Ac) = 1 – P(A). P3: Se A e B forem dois eventos quaisquer, então P(A ∪ B) = P(A) + P(B) – P(A ∩ B). P4: Se A ⊂ B, então P(A) ≤ P(B). Nos capítulos posteriores veremos algumas distribuições de probabilidade para variáveis discretas e contínuas comumente utilizadas. 9.10. Probabilidade Condicional A probabilidade condicional surge, por exemplo, quando se deseja calcular a probabilidade de um evento A ocorrer sabendo que um evento B já ocorreu. Sejam A e B dois eventos associados a um mesmo espaço amostral Ω. Denota-se por P(A|B) a probabilidade condicionada do evento A, quando o evento B tiver ocorrido. Sempre que calculamos P(A|B), estamos essencialmente calculando P(A) em relação ao espaço amostral reduzido devido a B ter ocorrido, em lugar de fazê-lo em relação ao espaço amostral original Ω. Assim, uma definição mais formal de probabilidade condicional é dada pela definição 9. Definição 9 (Probabilidade Condicional): Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é representada por P(A | B) e definida por P( A ∩ B) P( A | B) = , P( B) > 0 P ( B) Da definição de probabilidade condicional, obtemos a regra do produto de probabilidades.

P( A ∩ B) = P( B)P( A | B)
Exemplo: Voltando ao Exemplo da População Residente em São João del Rei em 2006, temos:
Idade Menor 1 Masculino 600 Feminino 572 Total 1172 1a4 2592 2457 5049 5 a 9 10 a 14 15 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 e mais 3411 3491 3774 7027 6699 5528 3300 2222 1085 397 3257 3482 3692 7059 7096 5863 3894 2910 1781 763 6668 6973 7466 14086 13795 11391 7194 5132 2866 1160 Total 40126 42826 82952

Fonte: DATASUS (http://www.datasus.gov.br)
Oliveira, D. C. R. e Oliveira, M. S.

52

____/____/____

Se soubermos que um indivíduo sorteado é do sexo masculino, qual é a probabilidade de que ele tenha idade entre 30 e 39 anos? B = indivíduo é do sexo masculino e A = tem idade entre 30 e 39 anos 6699 P(A ∩ B) 82952 6699 P(A | B) = = = = 0,167 40126 40126 P(B) 82952

Exercício – Parte II – A2: Na Segunda Guerra Mundial, houve um esforço de pesquisa operacional na Inglaterra direcionado a estabelecer padrões de busca de submarinos alemães pelas patrulhas aéreas. Por algum tempo, houve uma tendência em concentrar os vôos em áreas próximas à costa, uma vez que se acreditava que mais avistamentos tinham ocorrido ali. O grupo de pesquisa estudou os registros de 1000 patrulhas, obtendo os seguintes resultados (os dados são fictícios):
Próximo à costa (B1) Alto-mar (B2) Total Houve avistamento (A1) 80 20 100 Não houve avistamento (A2) 820 80 900 Total de Patrulhas 900 100 1000 (a) Dado que a patrulha estava próximo à costa, qual a probabilidade de que houve avistamento? (b) Dado que a patrulha estava em alto-mar, qual a probabilidade de que houve avistamento? (c) Os resultados de (a) e (b) indicam uma estratégia de busca contrária à prática anterior?

9.11. Independência de Eventos Definição 10: Dois eventos A e B são independentes se a ocorrência de um não altera a probabilidade de ocorrência do outro, isto é, P(A|B) = P(A) ou P(B|A) = P(B), ou ainda, a seguinte forma equivalente:
P(A∩B) = P(A) P(B)

Exemplo: Joaninha tem probabilidade de 0,8 de passar no vestibular enquanto que Joãozinho tem probabilidade de 0,6. Qual a probabilidade dos dois passarem no vestibular? Qual a suposição a ser feita nesse caso para calcular a probabilidade? Sejam os eventos: A: Joaninha passa no vestibular e B: Joãozinho passa no vestibular P(A∩B) = 0,8.0,6 = 0,48 Exercício – Parte II – A2: O campo da Engenharia da confiabilidade se desenvolveu rapidamente a partir do início da década de 1960. Um tipo de problema encontrado é o de se estimar a confiabilidade de um sistema a partir das confiabilidades dos subsistemas. A confiabilidade é definida, aqui, como a probabilidade do funcionamento apropriado durante um certo período de tempo. Considere a estrutura de um sistema em série simples, como o da figura a seguir: Sistema

Subsistema 1
Oliveira, D. C. R. e Oliveira, M. S.

Subsistema 2
53
____/____/____

O sistema funciona se e somente se o subsistema 1 e o subsistema 2 funcionarem. Se os subsistemas sobrevivem independentemente, a confiabilidade do subsistema 1 é de 0,90 e do subsistema 2 é de 0,80, qual é a confiabilidade do sistema?

9.12. Regra da Probabilidade Total
Se A e B são eventos, temos duas maneiras de A ocorrer: A e B ocorrem ⇒ (A ∩ B) ou A e Bc ocorrem ⇒ (A ∩ Bc) Assim temos que: A = (A ∩ B) ∪ (A ∩ Bc) pela Regra da Soma temos: P(A) = P(A ∩ B) + P(A ∩ Bc) e finalmente pela Regra do Produto temos:

P(A) = P(B).P(A | B) + P(Bc).P(A | Bc) Exemplo: O Cruzeiro ganha com probabilidade 0.7 se chove e 0.8 se não chove. Em maio a probabilidade de chuva é de 0.3. Qual a probabilidade do Cruzeiro ganhar uma partida no mês de maio? A: Cruzeiro vencer; B: chove; Bc: Não chove P(A) = P(B).P(A | B) + P(Bc).P(A | Bc) = 0,3.0,7 + 0,7.0,8 = 0,77 Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados: Máquina Percentual de Produção Percentual de Defeituosos Produzidos 1 15 4 2 30 3 3 20 5 4 35 2 As máquinas 2 e 4 são mais novas e, assim, a maior parte da produção foi atribuída a elas. Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso é selecionado aleatoriamente do estoque, qual é a probabilidade de que seja defeituoso? 9.13. Teorema de Bayes
Finalmente, uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes. Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser revistas quando conhecemos algo mais sobre os dados. A versão mais simples desse teorema é dada pela fórmula P(A ∩ B) P(B | A) P(A) P(A | B) = = P(B) P(B) A forma geral do Teorema de Bayes pode ser introduzida da seguinte forma: Considere a seqüência {C1, C2, ..., Cn} como sendo uma partição do espaço amostral Ω, isto é, Ci ∩ Cj = ∅ sempre que i ≠ j e C1 ∪ C2 ∪ ... ∪ Cn = Ω. Considere um evento qualquer A em Ω. Suponha que sejam conhecidas as probabilidades de cada partição (P(Ci)) e as probabilidades condicionais P(A|Ci).
Oliveira, D. C. R. e Oliveira, M. S.

54

____/____/____

Logo, temos o seguinte teorema: Teorema: A probabilidade de ocorrência do evento Ci, supondo a ocorrência do evento A, é dado por P(C i )(A | C i ) P (C i | A ) = n ∑ P(C j )(A | C j )
j=1

para todo i = 1, 2, ..., n.

Curiosidade O teorema de Bayes, que aparentemente poderia ser encarado como mais um resultado na teoria de probabilidades, tem importância fundamental, pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana. Como estamos falando do Thomas Bayes, não podemos deixar de fazer um breve comentário sobre o que chamamos de probabilidades subjetivas, ou seja, cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito de um evento em questão, pode ter uma resposta para a probabilidade desse evento. A inferência Bayesiana toma como uma de suas bases o fato de que todas as probabilidades são subjetivas. O teorema de Bayes tem um papel importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de opiniões, ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A. As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas as que foram mencionadas nesse texto. Exemplo:
Níveis Históricos de Qualidade de Dois Fornecedores

% de Peças Boas Fornecedor 1 Fornecedor 2 98 95

% de Peças Ruins 2 5

Considere uma empresa fabricante que recebe embarques de peças de dois diferentes fornecedores. Atualmente, 65% das peças compradas pela empresa são do fornecedor 1 e o restante, 35%, são do fornecedor 2. Dado que uma peça selecionada seja defeituosa, qual a probabilidade dela ter vindo do fornecedor 2? P ( F2 | D ) = P(D | F2) P(F2) P(D | F2) P(F2) 0,05.0,35 0,0175 = = = ≅ 0,57 P ( D) P(D | F1) P(F1) + P(D | F2) P(F2) 0,02.0,65 + 0,05.0,35 0,0305

Exercício – Parte II – A2: Em um centro de máquinas, há quatro máquinas automáticas de parafusos. Uma análise dos registros de inspeção passados fornece os seguintes dados: Máquina Percentual de Produção Percentual de Defeituosos Produzidos 1 15 4 2 30 3 3 20 5 4 35 2 Suponha que o estoque atual reflita as porcentagens de produção indicadas. Se um parafuso é selecionado aleatoriamente do estoque e ele é defeituoso, qual é a probabilidade de que seja da máquina 2?
Oliveira, D. C. R. e Oliveira, M. S.

55

____/____/____

10. VARIÁVEL ALEATÓRIA DISCRETA
Exemplos 1. Lança-se uma moeda 10 vezes e anota-se o número de caras. Este número pode ser 0, 1, 2 ...10.
2. Em uma pesquisa de mercado feita com 200 pessoas, perguntam-se estes compram um determinado produto. O número de pessoas que compram o produto varia de 0 a 200. 3. Conta-se o nº de acidentes que ocorrem em uma rodovia num feriado prolongado. O número de acidentes em questão pode ser: 0, 1, 2… Como não temos um valor que limite esse número, supomos que o número de acidentes é qualquer inteiro não negativo. 4. Número de chamadas telefônicas que chegam a uma central em um intervalo de tempo.

10.1. Introdução Vamos incorporar o conceito de probabilidade ao estudo de variáveis associadas a características em uma população. Muitos experimentos produzem resultados não-numéricos. Antes de analisá-los, é conveniente transformar seus resultados em números. Isto é feito através da variável aleatória que é uma função que associa um valor numérico a cada ponto do espaço amostral. Para entender melhor o conceito, considere o seguinte exemplo. Exemplo: Observa-se o sexo das crianças em famílias com três filhos. O espaço amostral é Ω = {(MMM), (MMF), (MFM), (FMM), (MFF), (FMF), (FFM),(FFF)} Uma variável aleatória de interesse é: X = {nº. de crianças do sexo masculino}. A cada evento simples, ou ponto de Ω, associamos um número, que é o valor assumido pela variável aleatória X:
Evento X MMM 3 MMF 2 MFM 2 FMM 2 MFF 1 FMF 1 FFM 1 FFF 0

Poderíamos também ter considerado o nº. de crianças do sexo feminino. Os valores de X, na mesma ordem, seriam então 0, 1, 1, 1, 2, 2, 2, 3.

Obs: A expressão “variável aleatória” será abreviada por “v.a.”. Definição: uma v.a. é discreta quando o conjunto de valores possíveis for finito ou infinito numerável. Exemplos: Número de filhos, Número de bactérias numa lâmina, número de lâmpadas em uma residência, etc. O passo fundamental para entendermos uma v.a. discreta é associar a cada valor a sua probabilidade, obtendo o que se chamamos de distribuição de probabilidade.
X P(X=x)
Oliveira, D. C. R. e Oliveira, M. S.

x1 P(X=x1)

x2 P(X=x2)
56

... ...

xn P(X=xn)
____/____/____

A função de probabilidade (P(⋅)) deve satisfazer: 0 ≤ P(X=xi) ≤ 1 p/ ∀ xi e

n i =1

P ( X = xi ) = 1

Exemplo: Um certo departamento da UFSJ é formado por 35 professores, sendo 21 homens e 14 mulheres. Uma comissão de 3 professores será constituída, sorteando-se, ao acaso, três membros do departamento. Qual a probabilidade da comissão ser formada por pelo menos duas mulheres?
Seja X = { nº. de mulheres na comissão}.

Espaço Amostral HHH HHM HMH MHH HMM MHM MMH MMM

X 0 1 1 1 2 2 2 3

Probabilidade 21 20 19 x x = 0,203 35 34 33 21 20 14 x x = 0,150 35 34 33

Distribuição de Probabilidade X P(X) 0 1 2 3 0,203 0,450 0,291 0,056

Assim, P(X ≥ 2) = P(X = 2) + P(X = 3) 21 14 13 x x = 0,097 35 34 33 = 0,291+ 0,056 = 0,347

14 13 12 x x = 0,056 35 34 33

10.2. Esperança Matemática (Média) Assim como definimos a média de uma distribuição de freqüências como a soma dos produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural definirmos agora a média de uma v.a., ou de sua distribuição de probabilidade, como a soma dos produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi). A média de uma v.a. X é também chamada valor esperado ou esperança matemática, ou simplesmente esperança de X. É representada por E(X) e se define como

E (X) = x 1 P(X = x 1 ) + x 2 P(X = x 2 ) + L + x n P(X = x n ) = ∑ x i P(X = x i )
i =1

n

É uma média ponderada dos xi, em que os pesos são as probabilidades associadas.
Exemplo: Um lojista mantém extensos registros das vendas diárias de certo aparelho. O quadro a seguir dá o número xi de aparelhos vendidos em uma semana e a respectiva probabilidade:

Número xi 0 1 2 3 4 5 Probabilidade P(X = xi) 0,1 0,1 0,2 0,3 0,2 0,1 Se for de R$ 20,00 o lucro por unidade vendida, qual o lucro esperado nas vendas de uma semana?
Oliveira, D. C. R. e Oliveira, M. S.

57

____/____/____

Solução: Calculemos inicialmente E(X), que é o número esperado de aparelhos vendidos em uma semana: E(X) = (0)(0,1) + (1)(0,1) + (2)(0,2) + (3)(0,3) + (4)(0,2) + (5)(0,1) = 2,70. Para x unidades vendidas o lucro é 20x. Logo, o lucro esperado é de R$ 54,00. 10.3. Variância Assim como a média é uma medida de posição de uma v.a., é natural que procuremos uma medida de dispersão dessa variável em relação à média. Essa medida é a variância, a ser representada por σ2 e definida por

σ 2 = Var (X) = ∑ ( x i − E (X)) 2 P(X = x i )
i =1

n

Desenvolvendo o termo quadrático do somatório, obtemos uma expressão mais fácil de calcular a variância dada por: σ 2 = Var (X) = E(X 2 ) − [E (X)]2 onde E(X 2 ) = ∑ x i2 P(X = x i ) .
i =1 n

Desvio Padrão O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a vantagem de exprimir a dispersão na mesma unidade de medida da v.a.:

σ = σ2
10.4. Exercício – Parte II – A2 1) A distribuição de X: nº de crianças por domicílio numa determinada região é dada pela tabela abaixo: X 0 1 2 3 4 5 P(X = x) 0,10 0,15 0,25 0,30 0,15 0,05 Calcule: (a) O número médio de crianças por domicílio, µX. (b) O desvio padrão de X, σX. (c) A probabilidade P{µX - σX ≤ X ≤ µX + σX}.

10.5. Distribuição Bernoulli Na prática existem muitos experimentos que admitem apenas dois resultados. Exemplos: 1) Uma peça é classificada como boa ou defeituosa; 2) Um entrevistado concorda ou não com a afirmação feita; 3) O resultado de um exame médico para detecção de uma doença é positivo ou negativo; 4) No lançamento de um dado ocorre ou não a face 5.
Oliveira, D. C. R. e Oliveira, M. S.

58

____/____/____

Situações com alternativas dicotômicas podem ser representadas genericamente por respostas do tipo sucesso-fracasso. Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma v.a. com distribuição Bernoulli.
Variável Aleatória de Bernoulli É uma v.a. X que assume apenas dois valores: 1 se ocorrer sucesso, e 0 se ocorrer fracasso, e, sendo p a probabilidade de sucesso, 0 < p < 1. Denotamos por X ~ Bernoulli (p) uma v. a. com distribuição de Bernoulli com parâmetro p.

1, se ocorrer “sucesso” X= 0, se ocorrer “fracasso” e função de probabilidade, X P(X=x) Segue-se que E(X) = p e Var(X) = p(1-p) Repetições independentes de um ensaio de Bernoulli dão origem ao modelo binomial.
10.6. Distribuição Binomial Experimento Binomial: É o experimento (a) que consiste em n ensaios de Bernoulli; (b) cujos ensaios são independentes; e (c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1. A v.a. X, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial com parâmetros n e p, com função de probabilidade dada por: ⎛n⎞ P(X = x ) = ⎜ ⎟p x (1 − p) n − x , x = 0, 1, K , n ⎜x⎟ ⎝ ⎠
⎛n⎞ n! onde ⎜ ⎟ = ⎜ x ⎟ x! (n − x )! , n!= n (n − 1)(n − 2) L (2)(1) e 0!= 1 . ⎝ ⎠

1 p

0 1-p

Notação: X ~ B(n; p). Média e Variância da Binomial
A Média e a Variância são dadas, respectivamente, por: E(X) = np
Oliveira, D. C. R. e Oliveira, M. S.

e
59

Var(X) = np(1-p)
____/____/____

Exemplo: Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10 pessoas dessa população forem escolhidas ao acaso e com reposição, determine: (a) O nº esperado de inadimplentes. (b) A probabilidade de selecionar exatamente 3 pessoas inadimplentes. (c) A probabilidade de selecionar no máximo 3 inadimplentes. 10.7. Exercícios – Parte II – A2
1) Nos Estados Unidos, 29% dos advogados e juízes são mulheres (Statistical Abstract of the United States, 1997). Em uma jurisdição com 30 advogados e juízes, qual é o número esperado de mulheres? Qual é a variância e o desvio padrão? 2) O maior número de reclamações dos proprietários de automóveis com dois anos de uso se referem ao desempenho do sistema elétrico. Considere que um questionário anual, enviado aos proprietários de mais de 300 marcas e modelos de automóveis, revelou que 10% dos proprietários de automóveis com dois anos de uso encontraram pontos com problemas no sistema elétrico, que incluíam o motor de arranque, o alternador, a bateria, controles diversos, luzes e radio. Qual a probabilidade de que uma amostra de 12 proprietários de automóveis com dois anos ter (a) exatamente dois proprietários com problemas no sistema elétrico (b) pelo menos dois proprietários com problemas no sistema elétrico (c) no máximo um proprietário com problemas no sistema elétrico.

10.8. Distribuição Hipergeométrica
A distribuição Hipergeométrica está restritamente relacionada com a distribuição binomial. A diferença chave entre as duas distribuições de probabilidade é que com a distribuição hipergeométrica os ensaios não são independentes e a probabilidade de sucesso muda de ensaio para ensaio, pois as seleções dos elementos são feitas sem reposição, enquanto que na distribuição binomial as seleções dos elementos são feitas com reposição. Considere um conjunto de N objetos dos quais r são do tipo I e N - r são do tipo II. Um sorteio de n objetos (n < N) é feito ao acaso e sem reposição. Definição: A variável aleatória discreta X que é igual ao número de objetos do tipo I selecionados nesse sorteio tem distribuição Hipergeométrica. Os valores possíveis de X vão de 0 a min(r, n), uma vez que não podemos ter mais do que o número de objetos existentes do tipo I, nem mais que o total de sorteados. Sua função de probabilidade é dada por: ⎛ r ⎞⎛ N − r ⎞ ⎜ ⎟⎜ ⎟ ⎜ x ⎟⎜ n − x ⎟ ⎠ , 0 ≤ x ≤ mínimo(r, n). ⎝ ⎠⎝ P(X = x ) = ⎛ N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ Notação: X ~ Hipergeométrica (N; n; r) Esperança: E(X) = np Variância: Var(X) = np(1-p)(N-n)/(N-1), onde p = r/N.
Oliveira, D. C. R. e Oliveira, M. S.

60

____/____/____

Exemplo: Uma fábrica produz peças que são embaladas em caixas com 40 unidades. Para aceitar o lote de caixas enviado por essa fábrica, o controle de qualidade de uma empresa sorteia uma caixa do lote e sorteia 10 peças, sem reposição, dessa mesma caixa. Se houver alguma peça defeituosa o lote inteiro é devolvido. Se a caixa sorteada tiver 4 peças defeituosas, qual é a probabilidade do lote não ser devolvido? N = 40, n = 10 e r = 4 X: número de peças defeituosas ⎛ 4 ⎞⎛ 40 − 4 ⎞ ⎜ ⎟⎜ ⎜ 0 ⎟⎜ 10 − 0 ⎟ ⎟ ⎠ ≅ 0,3 P(X = 0) = ⎝ ⎠⎝ 40 ⎞ ⎛ ⎜ ⎟ ⎜ 10 ⎟ ⎝ ⎠ 10.9. Exercício – Parte II – A2: Para fazer o controle de qualidade numa empresa, lotes com 100 peças são examinados. O número de peças com defeito no lote é 10. Após colher uma amostra de 5 peças sem reposição, calcule a probabilidade de que nessa amostra não haja nenhum item defeituoso.

10.10. Distribuição Poisson A distribuição de Poisson é empregada em experimentos nos quais não se está interessado no número de sucessos obtido em n tentativas, como ocorre no caso da distribuição binomial, mas sim no número de sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalo de tempo, espaço, etc. Alguns exemplos de variáveis que podem ter a distribuição de Poisson são (a) número de defeitos por centímetro quadrado; (b) n° de acidentes por dia; (c) n° de clientes por hora; (d) n° de chamadas telefônicas recebidas por minuto; (e) n° de falhas de um computador num dia de operação; (f) n° de relatórios de acidentes enviados a uma companhia de seguros numa semana.
Note-se que a unidade de medida (tempo, área) é contínua, mas a variável aleatória de interesse (número de ocorrência) é discreta. Além disso, as falhas não são contáveis. Não é possível contar os acidentes que não ocorreram, nem o número de defeitos por centímetros quadrados que não ocorreram. O limite inferior do número de ocorrências, em todos as situações dos exemplos, é ________, enquanto que o limite superior é – ao menos teoricamente – infinito, muito embora, na maioria dos exemplos acima, seja difícil imaginar um número infinito de ocorrências. As probabilidades, calculadas agora para todos os números inteiros não negativos k = 0, 1, 2, ... são dadas da seguinte forma: e −λ λx P(X = x ) = , x = 0, 1, ...

x!

onde “X = números de sucessos em um intervalo” é a variável de interesse, λ > 0 é o número médio de sucessos da variável X e “e” é a constante 2,7183 (base dos logaritmos naturais).

Notação: X ~ P(λ) Esperança e Variância:
Oliveira, D. C. R. e Oliveira, M. S.

E (X) = Var (X) = λ
61
____/____/____

Exemplo: Um departamento de conserto de máquinas recebe uma média de cinco chamadas por hora. Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que, em uma hora selecionada aleatoriamente, sejam recebidas exatamente três chamadas:

10.11. Exercícios – Parte II – A2 1) Numa central telefônica, o número de chamadas chega segundo uma distribuição Poisson, com a média de oito chamadas por minuto. Determine qual a probabilidade de que num minuto se tenha: (a) duas ou mais chamadas;

(b) menos que duas chamadas;

(c) entre sete (inclusive) e nove (exclusive) chamadas.

Oliveira, D. C. R. e Oliveira, M. S.

62

____/____/____

11. VARIÁVEL ALEATÓRIA CONTÍNUA
Até aqui estudamos variáveis aleatórias discretas que são caracterizadas por ter uma distribuição de probabilidade dada por uma tabela que associa a cada um de seus valores uma probabilidade. Esta probabilidade é um número entre 0 e 1 cuja soma é igual a 1.

Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um intervalo que possui infinitos valores, então diremos que X é uma variável aleatória contínua. Exemplos: 1. Mede-se a altura de uma mulher em uma cidade. O valor encontrado é um número real. Aqui também sabemos que esse número não passa de 3 metros, mas é conveniente considerar qualquer nº real positivo. 2. Em um exame físico para selecionar um jogador de futebol é medido o peso de cada candidato; aqui também consideramos que o resultado pode ser qualquer número real positivo. 3. Em campanhas preventivas de hipertensão arterial é comum de tempos em tempos medir-se o nível de colesterol. O valor de cada medida pode ser um número real não negativo. 4. Para pacientes que se apresentam num hospital a primeira atitude é medir-se a temperatura; o valor da temperatura é um número real que se pode considerar compreendido entre 35º e 42ºC. 5. Retira-se uma lâmpada da linha de produção e coloca-se a mesma em um soquete acendendo-a; observa-se a mesma até que se queime. O tempo de duração da lâmpada é um nº real não negativo. Nos exemplos de 1 a 5, o número observado no experimento aleatório é um número real e resulta em geral de uma medição: • altura das mulheres; • peso do atleta; • nível de colesterol; • temperatura; • tempo de duração da lâmpada. Uma variável aleatória contínua assume seus valores em um intervalo. Como são atribuídas probabilidades nesse caso? Exemplo: Suponha que observamos o peso, em kg, de 1500 pessoas adultas selecionadas aleatoriamente numa população. O histograma por densidade desses valores é apresentado abaixo.

Oliveira, D. C. R. e Oliveira, M. S.

63

____/____/____

A análise do histograma indica que: a distribuição dos valores da variável PESO é aproximadamente simétrica em torno de 70kg; a maioria dos valores encontra-se no intervalo (55;85); existe uma pequena proporção de valores abaixo de 48kg e acima de 92kg. Seja X = {peso em kg} de uma pessoa adulta escolhida ao acaso da população. Como se distribuem os valores da variável aleatória X, ou seja, qual a distribuição de probabilidades de X?

Para as variáveis contínuas as probabilidades são atribuídas por meio de uma função cuja área entre a mesma e o eixo das abscissas (X) é igual a um.

P(a ≤ X ≤ b) = área hachurada Esta função f(x) é denominada função densidade de probabilidade da variável aleatória contínua X. A área sob uma curva delimitada por dois valores a e b, como mostra a figura, é determinada calculando-se a integral definida entre a e b da densidade de probabilidade representada pela função, isto é,

∫ f(x)dx = P(a ≤ x ≤ b)
a
Oliveira, D. C. R. e Oliveira, M. S.

b

64

____/____/____

Exemplo: Um fabricante de televisão a cores oferece uma garantia de 1 ano para substituição gratuita se o tubo de imagem falhar. Ele estima o tempo de falha (em unidades de anos), x, como uma variável aleatória contínua com a seguinte fdp 1 −x f (x) = e 4 , x > 0 4 = 0, caso contrário Qual a probabilidade de você comprar a televisão e necessitar de uma substituição gratuita?
1 − P( x ≤ 1) = ∫ e 4 dx = 4 0
1 x

≅ 0,2

Definição: Se X é uma v.a. contínua, a função densidade de probabilidade f(X), indicada abreviadamente por fdp, é uma função que satisfaz às seguintes condições: (a) f(X) ≥ 0, ∀ X; (b) A área sob a função densidade de probabilidade é 1, isto é:

+∞

−∞

f ( x )dx = 1

(c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre os pontos a e b, isto é:

P(a ≤ X ≤ b) = ∫ f ( x )dx
a

b

(d) P(X = x0) = 0, porque:
P(X = x 0 ) = ∫ f ( x )dx = 0
x0 x0

Conseqüência:

P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

Definição: Se X é uma v.a. contínua, a função de distribuição acumulada (fda) de X é definida como:
F( x ) = P(X ≤ x ) = ∫ f (s)ds
−∞

x

Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) = 0, fora desse intervalo. Obtenha a F(x) de X. x<0 ⎧ 0, ⎪x x ⎪ F( x ) = ⎨∫ 2s =s 2 = x 2 , 0 ≤ x ≤ 1 0 ⎪0 ⎪ 1, x >1 ⎩ 11.1. Esperança e Variância Definição: Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) denotada por E(X) é definido como:

E(X) =

−∞

∫ x f (x ) dx
____/____/____

Oliveira, D. C. R. e Oliveira, M. S.

65

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então:
E (X) = ∫ x 2x dx = ∫ 2 x 2 dx =
0 0 1 1

2 31 2 x 0= 3 3

Definição: A variância de uma variável aleatória contínua é definida por:
Var(X) = E(X2) – [E(X)]2, onde E(X2) =

−∞

∫x

2

f ( x ) dx

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0<x<1, então:
E(X) = 2 3 E (X 2 ) = ∫ x 2 2 x dx = ∫ 2 x 3 dx =
0 0 1 1

2 41 2 x 0= 4 4

Logo, Var(X) = 2/4 – (2/3)2 =1/18 = 0,056 Também podemos obter o Desvio Padrão: 0,056 ≅ 0,23

Exercícios – Parte II – A2: 1) O diâmetro de um cabo elétrico é uma variável aleatória com fdp dada por: f(x) = 6x(1-x) para 0 < x < 1 e f(x) = 0 fora desse intervalo. Qual a probabilidade do diâmetro ser: (a) Igual a 0,5 cm? (b) Entre 0,10 e 0,20? (c) Maior que 0,5? (d) Menor que 1?
2) A quantia gasta anualmente, em milhões de reais, na manutenção do asfalto de uma cidade do interior é representada pela variável y modelada pela função: f(y) = (8/9)y – (4/9), se 0,5 ≤ y ≤ 2 e f(y) = 0, caso contrário. Qual a probabilidade da quantia gasta ser inferior a 0,8 milhões de reais? 3) O tempo de sobrevivência de uma bateria (em anos) pode ser modelado pela função: f(x) = e-x, se x ≥ 0 e f(x) = 0, caso contrário. (a) Qual a probabilidade da bateria sobreviver mais que 2 anos? (b) Qual é o tempo médio de sobrevivência da bateria? 4) O diâmetro de um cabo elétrico é uma v. a. com fdp dada por: f(x) = 6x(1-x) para 0 < x < 1 e f(x) = 0 fora desse intervalo. (a) Verifique se f(x) é uma fdp, através do item (b) da definição 2. (b) Obtenha a F(x).

11.2. Distribuição Normal
A distribuição Normal é uma das mais importantes distribuições contínuas de probabilidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por esse motivo, acham que foi Gauss que a descobriu.
Oliveira, D. C. R. e Oliveira, M. S.

66

____/____/____

Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribuição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida que nos afastamos da média. Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a variável tempo de duração, em horas, de uma lâmpada de certa marca. A experiência sugere que esta distribuição deve ser assimétrica com uma grande proporção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500 horas

Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial. Função Densidade de Probabilidade da Distribuição Normal
1 ⎛ x −µ ⎞ − ⎜ ⎟ 2⎝ σ ⎠
2

f ( x) =
O gráfico da densidade normal Propriedades:

1 2πσ
2

e

,

−∞< x<∞

A curva normal é simétrica em torno da média µ; A moda e a mediana são iguais a µ; Os pontos de inflexão são µ- σ e µ + σ; A área sob a curva e acima do eixo horizontal é igual a 1.

Parâmetros: µ : média ou valor esperado σ2: variância Notação : X ~ N(µ, σ2)

Oliveira, D. C. R. e Oliveira, M. S.

67

____/____/____

A distribuição normal depende dos parâmetros µ e σ2
Curvas normais com mesmo desvio padrão, mas com médias diferentes.

µ1

µ2

Curvas normais com mesma média, mas com desvios padrão diferentes.

___N(µ, σ 12) ___N(µ, σ 22) ___N(µ, σ 32) σ 12 < σ 22< σ 32

Cálculo de Probabilidades
P(a < X < b)

Área sob a curva e acima do eixo horizontal (x) entre a e b.

a

µ

b

Oliveira, D. C. R. e Oliveira, M. S.

68

____/____/____

Se X ~ N(µ ; σ2), definimos: Z =

X−µ . σ

Então, E(Z) = 0 e Var(Z) = 1.

f(x)

f(z) a
µ

b

x

a–µ σ

0 b–µ σ

z

A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida. Portanto, b−µ⎞ ⎛a−µ X −µ b−µ⎞ ⎛a−µ < < <Z< P (a < X < b) = P ⎜ ⎟ = P⎜ ⎟ σ σ ⎠ σ ⎠ ⎝ σ ⎝ σ Dada a v.a. Z ~N (0;1) podemos obter a v.a. X ~ N (µ;σ2) através da transformação inversa X = µ + Zσ

Oliveira, D. C. R. e Oliveira, M. S.

69

____/____/____

11.3. Tabela da Distribuição Normal Padrão Denotamos: A(z) = P(Z ≤ z), para z ≥ 0.

Probabilidades Acumuladas da Distribuição Normal (0, 1) Segunda decimal de z
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 0 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000 1 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000 2 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 3 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 4 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 5 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 6 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

A(z) = P(Z ≤ z) , z ≥ 0.
7 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 8 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 9 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000

Parte inteira e primeira decimal de z

Oliveira, D. C. R. e Oliveira, M. S.

70

____/____/____

Exemplos: Seja Z ~ N (0,1), calcular: a) P(Z ≤ 1,71) = A(1,71) = 0,9564

b) P(0 < Z ≤ 1,71) =

c) P(1,32 < Z ≤ 1,79)

d) P(Z ≥ 1,5)

e) P(Z ≤ -1,3)

f) P(-1,5 ≤ Z ≤ 1,5)

g) P(-1,32 < Z < 0)

h) P( -2,3 < Z ≤ -1,49)

i) P(-1 ≤ Z ≤ 2)

Oliveira, D. C. R. e Oliveira, M. S.

71

____/____/____

Exemplo: Seja X o gasto com lanche semanal. Após estudar esta variável, vimos que X ~ N (20, 64), então obtenha: a) P(16 < X < 22) =

b) P(X < 18 ou X > 24) = P(X < 18) + P(X > 24) =

Como encontrar o valor z da distribuição N(0,1) tal que: (i) P(Z ≤ z) = 0,975 z é tal que A(z) = 0,975. Pela tabela, z = 1,96.

(ii) P(0 < Z ≤ z) = 0,4975

(iii) P(Z ≥ z) = 0,3

(iv) P(Z ≥ z) = 0,975

(v) P(Z ≤ z) = 0,10

(vi) P(-z ≤ Z ≤ z) = 0,80

Oliveira, D. C. R. e Oliveira, M. S.

72

____/____/____

Calcule: a) k tal que P( X ≥ k) = 0,05

b) k tal que P( X ≤ k) = 0,025

Nota Importante: Para toda v.a. X ~ N(µ ; σ2) temos:
(i) P(µ − σ ≤ X ≤ µ + σ) = P(– 1 ≤ Z ≤ 1) = 0,6826. (ii) P(µ – 2σ ≤ X ≤ µ + 2σ) = P(– 2 ≤ Z ≤ 2) = 0,955. (iii) P(µ – 3σ ≤ X ≤ µ +3σ) = P(–3 ≤ Z ≤ 3) = 0,997.

11.4. Exercícios – Parte II – A2
1) O tempo gasto no exame vestibular de uma universidade tem distribuição Normal, com µ = 120 min e σ = 15 min. (a) Sorteando-se um aluno ao acaso, qual é a probabilidade dele terminar o exame antes de 100 minutos? (b) Qual deve ser o tempo de prova, de modo a permitir que 95% dos vestibulandos terminem no prazo estipulado? (c) Qual o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?
Oliveira, D. C. R. e Oliveira, M. S.

73

____/____/____

Lista de Exercícios 2 Exercício 01 Sendo A e B dois eventos de um mesmo espaço amostral, “traduza” para a linguagem da teoria dos conjuntos as seguintes situações: (a) Pelo menos um dos eventos ocorre. (b) Exatamente um dos eventos ocorre. (c) Nenhum dos eventos ocorre. (d) A ocorre, mas B não ocorre. Exercício 02 Dois processadores, A e B, são colocados em teste por 50 mil horas. A probabilidade de um erro acontecer em A é 2/60, em B é 1/80 e em ambos é 1/100. Calcule a probabilidade de que: (a) Pelo menos um processador apresente erro. (b) Nenhum apresente erro. (c) Somente A apresente erro. Exercício 03 A probabilidade de que um homem que possui veículo motorizado se acidente num período de um ano é de 0,113 e uma mulher que tenha um veículo motorizado se acidente num período de um ano é de 0,057. Suponha que 55% dos motoristas em Lucas Country sejam homens. No preenchimento de um questionário de histórico sobre desempenho ao volante, uma pessoa de Lucas Country indicou um envolvimento em acidente com veículo motorizado durante o último ano. Qual é a probabilidade de essa pessoa ser uma mulher? Exercício 04 Um pai leva o filho ao cinema e gasta R$15,00 nas duas entradas. O filho vai pedir para comer pipoca com probabilidade 0,7 e pedir para comer bala com probabilidade 0,9. Os pedidos são atendidos pelo pai com probabilidade 0,5 independentemente. Se a pipoca custa R$2,00 e a bala R$3,00 estude a variável aleatória “despesa efetuada com a ida ao cinema” construindo sua distribuição de probabilidade. Exercício 05 Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se 4 itens são produzidos por esta máquina são selecionados ao acaso, qual a probabilidade de que não mais do que um item defeituoso seja encontrado? Exercício 06 Na manufatura de certo artigo, é sabido que a proporção de artigos defeituosos é de 0,1. Qual a probabilidade de que uma amostra casual de tamanho 5 contenha: (a) nenhum defeituoso: (b) exatamente um defeituoso: (c) não mais que 2 defeituosos:

Oliveira, D. C. R. e Oliveira, M. S.

74

____/____/____

Exercício 07 De acordo com o Beverage Digest, a Coca Cola e a Pepsi se posicionaram como a número um e a número dois em vendas em 1996 (The Wall Street Journal Almanac, 1998). Suponha que de um grupo de 10 indivíduos, 6 prefiram a Coca Cola e 4 prefiram a Pepsi. Uma amostra aleatória sem reposição de 3 desses indivíduos é selecionada. (a) Qual a probabilidade de que exatamente dois prefiram a Coca Cola? (b) Qual é a probabilidade de que a maioria (tanto dois como três) prefira Pepsi? Exercício 08 Dos 25 estudantes (14 meninos e 11 meninas) na sala de aula de uma escola, 5 estudantes estavam ausentes na quinta-feira. (a) Qual é a probabilidade de que 2 dos ausentes fossem meninas? (b) Qual é a probabilidade de que 2 dos ausentes fossem meninos? (c) Qual é a probabilidade de que todos os ausentes fossem meninos? (d) Qual é a probabilidade de que nenhum dos ausentes fosse um menino? Exercício 09 Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um por 2000 pés. Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha: (a) nenhum corte; (b) no máximo 3 cortes; (c) pelo menos dois cortes. Exercício 10 Os passageiros de uma linha aérea chegam às instalações de passageiros de um grande aeroporto internacional a uma taxa média de 10 por minuto. (a) Qual é a probabilidade de nenhuma chegada em 1 minuto? (b) Qual é a probabilidade de que 3 passageiros ou menos cheguem em um período de 1 minuto? Qual é a probabilidade de nenhuma chegada em um período de 15 minutos? (c) Exercício 11 Depois de tomarmos várias amostras, decidiu-se adotar um modelo para as medidas do perímetro do tórax de uma população de homens adultos com os parâmetros: média = 40 polegadas e desvio padrão = 2 polegadas. (a) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax entre 40 e 43 polegadas? (b) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax maior ou igual a 43 polegadas? (c) Qual é a probabilidade de um indivíduo sorteado desta população ter um perímetro de tórax menor que 35 polegadas? (d) Qual é o valor do tórax que seria ultrapassado por 25% da população?

Oliveira, D. C. R. e Oliveira, M. S.

75

____/____/____

Exercício 12 Considere a altura de 351 mulheres idosas como seguindo uma distribuição normal com média = 160 cm e desvio padrão = 6 cm. Sorteia-se uma mulher, qual a probabilidade de que ela tenha: (a) Altura entre 160 cm e 165 cm? (b) Altura menor do que 145 cm? (c) Altura maior do que 170 cm? Exercício 13 O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição Normal com média = 0,6140 e variância = (0,0025)2. O lucro T de cada esfera depende de seu diâmetro, e: T = 0,10 se a esfera é boa (0,6100 < X < 0,6180); T = 0,05 se a esfera é recuperável (0,6080 < X < 0,6100 ou 0,6180 < X < 0,6200); T = - 0,10 se a esfera é defeituosa (X < 0,6080 ou X > 0,62). Calcular: (a) As probabilidades das esferas serem boas, recuperáveis e defeituosas. (b) A esperança do lucro ( E(T) ).

Observação: O gabarito da Lista de Exercícios 2 encontra-se no Apêndice B

Oliveira, D. C. R. e Oliveira, M. S.

76

____/____/____

12. ESTIMAÇÃO
12.1. Inferência Estatística
A tomada de decisões sobre a população com base em estudos feitos sobre os dados da amostra constitui o problema central da Inferência Estatística. A tais decisões estão sempre associados um grau de incerteza e, conseqüentemente, uma probabilidade de erro. A generalização da amostra para a população é feita com o auxílio de um modelo estatístico para a situação em estudo.

Parâmetro: Exemplos: Estatística ou Estimador:
Exemplos:

Conceitos Importantes qualquer função da população (θ). P (proporção), µ (média), σ2 (variância).
ˆ qualquer função da amostra ( θ ). ˆ P (proporção), X (média), S2 (variância). valor que a estatística (ou o estimador) assume em uma amostra (θ0). ˆ p (proporção), x (média), s2 (variância).

Estimativa: Exemplos:

12.2. Estimação Pontual e Intervalar para Proporção Objetivo Estimar uma proporção p (desconhecida) de elementos de uma população, apresentando certa característica de interesse, a partir da informação fornecida de uma amostra. Exemplos p: proporção de consumidores satisfeitos com os serviços prestados por uma empresa de telefonia;
p: proporção de eleitores de São João del-Rei que votariam em um determinado candidato, caso a eleição para prefeito se realizasse hoje; p: proporção de crianças de 2 a 6 anos, do estado de Minas Gerais, que não estão matriculadas em escola de educação infantil.

Estimador Pontual O estimador pontual para p (proporção amostral) é definido por: ˆ X P= n sendo que X denota o número de elementos na amostra que apresentam a característica; n denota o tamanho da amostra coletada. ˆ O valor assumido por p na amostra é denominado estimativa pontual para p.
Oliveira, D. C. R. e Oliveira, M. S.

77

____/____/____

Exemplo: Sejam, p: proporção de alunos da UFSJ que foram ao cinema pelo menos uma vez no último mês, e X: número de estudantes que respondem “sim” em uma pesquisa com n entrevistados. Suponha que foram entrevistados n = 500 estudantes e que, desses, x = 100 teriam afirmado que foram ao cinema pelo menos uma vez no último mês. A estimativa pontual ˆ (proporção amostral) é dada por: p = ( x / n ) = (100 / 500 ) = 0 , 20 , ou seja, 20% dos estudantes entrevistados afirmaram que foram ao cinema pelo menos uma vez no último mês. Note que, outra amostra de mesmo tamanho pode levar a uma outra estimativa pontual para p. Estimativa Intervalar Idéia: Se selecionarmos várias amostras de uma população contendo n dados, observaremos que cada amostra terá sua respectiva proporção. A fim de obtermos uma estimativa da proporção da população em estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança, que delimita essa proporção. A estimativa por intervalo de p corresponde a um intervalo determinado da seguinte maneira:

ˆ [p − ε

ˆ ; p + ε ],

sendo que ε representa o erro amostral ou margem de erro. Na prática o intervalo de confiança com um coeficiente de confiança γ é dado por:
⎡ ˆ ˆ ˆ ˆ p (1 − p ) ⎤ p (1 − p ) ˆ ˆ ;p+z IC (p,γ) = ⎢ p − z ⎥ n n ⎣ ⎦

ˆ ˆ p (1 − p ) . O valor de z é obtido da distribuição normal padrão. Assim, os valores n de z que limitam os níveis de confiança, onde z é tal que γ = P(-z ≤ Z ≤ z) na N (0,1) são: Note que, ε = z
γ z

90%

95%

99%

Exemplos ˆ 1) No exemplo da UFSJ, considere agora, n = 500 e p = 0,20 . Construa um intervalo de confiança para p com coeficiente de confiança γ = 0,95. Resolução: Como γ = 0,95 fornece z = 1,96, o intervalo é dado por:
⎡ ˆ ˆ ˆ ˆ 0,20 x0,80 0,20 x0,80 ⎤ p (1 − p ) ⎤ ⎡ p (1 − p ) ˆ ˆ ;p+z ; 0,20 + 1,96 ⎢p − z ⎥ = ⎢0,20 − 1,96 ⎥ = [0,165; 0,235] n 500 500 ⎦ n ⎣ ⎦ ⎣

Nesse intervalo (γ=0,95), a estimativa pontual para p é 0,20, com um erro amostral ε igual a 0,035.

Interpretação do IC com γ = 95%: Se sortearmos 100 amostras de tamanho n = 500 e construirmos os respectivos 100 intervalos de confiança, com coeficiente de confiança de 95%, esperamos que, aproximadamente, 95 destes intervalos contenham o verdadeiro valor de p.
Oliveira, D. C. R. e Oliveira, M. S.

78

____/____/____

2) Ainda no exemplo da UFSJ, considere k = 100 e n = 500. Qual é a probabilidade da estimativa pontual estar a uma distância de, no máximo, 0,03 da verdadeira proporção?
ˆ Dados do problema: n = 500; p = 0,20; ε = 0,03 ⇒ γ = ? Com esses dados podemos calcular o valor de z e, assim, obter γ, o nível de confiança do intervalo. Cálculo de z: z=

ε n
ˆ ˆ p (1 − p )

=

0,03 500 0,2 x0,8

= 1,68

Logo, obtemos: γ ≈ 2 A(z) – 1 = 2 A(1,68) – 1 = 2 x 0,953 – 1 = 0,906 (90,6 %). Portanto a probabilidade da estimativa pontual estar a uma distância de no máximo 0,03 da verdadeira proporção é de 90,6 %.

12.3. Exercícios – Parte III – A3 1) A gerente de uma empresa quer estimar a proporção p de clientes que gostaram da última exposição de arte apresentada pela empresa. Numa amostra de 300 clientes, 270 afirmaram que gostaram da exposição. Qual seria a estimativa pontual de p? 2) Numa eleição de segundo turno, um instituto de pesquisa de opinião obteve, num levantamento de boca de urna, que 40% (p = 0,40) dos entrevistados votaram no candidato A. (a) Construa intervalos de confiança para a verdadeira proporção p de eleitores que votaram no candidato A com coeficientes de confiança de 90%, 95% e 99%. Compare os intervalos. Comente. Admita aqui que o tamanho da amostra seja n = 150.
ˆ b) Construa intervalos de confiança para p admitindo que a estimativa p = 0,40 foi obtida de amostras de tamanho n = 100, n = 150 e n = 200. Compare os intervalos. Comente. Considere aqui um coeficiente de confiança de 90%.

12.4. Estimativa Pontual e Intervalar para a Média Populacional Objetivo Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra. Exemplos µ: quantia média gasta por cliente; µ: salário médio dos empregados de um a indústria; µ: tempo médio gasto usando a Internet. Estimativa Pontual Vamos observar n elementos, extraídos ao acaso de uma população; Para cada elemento selecionado, observamos o valor da variável X de interesse.
Oliveira, D. C. R. e Oliveira, M. S.

79

____/____/____

Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn. Uma estimador pontual para µ é dado pela média amostral,

X=

X1 + X 2 + K + X n = n


i =1

n

Xi n

Estimativa Intervalar Se selecionarmos várias amostras de uma população contendo n dados, observaremos que cada amostra terá sua respectiva média. A fim de obtermos uma estimativa da média da população em estudo com certo grau de confiabilidade, recorremos a um intervalo de confiança, que delimita essa média. Uma estimador intervalar ou intervalo de confiança para µ tem a forma:

[X − ε ; X + ε ]

sendo ε o erro amostral (margem de erro). Teorema Central do Limite Se X1, ..., Xn representa uma amostra aleatória de uma variável X de média µ e desvio padrão σ, então para n grande

⎛ σ2 X ~ N ⎜ µ, ⎜ n ⎝

⎞ ⎟ ⎟ ⎠

Portanto, para n grande a média amostral tem distribuição Normal de média µ e desvio padrão

σ/ n

.

Na prática, temos que o intervalo de confiança para µ com um nível de confiança γ é dado por:

σ σ ⎤ ⎡ ⎢x − z n ; x + z n ⎥ ⎣ ⎦
onde x é a média amostral, σ é o desvio padrão populacional e n é o tamanho amostral. Sendo σ assim, temos que o erro é: ε = z . n Exemplo: Não se conhece o consumo médio de combustível de automóveis da marca T. Sabe-se, no entanto, que o desvio padrão do consumo de combustível de automóveis dessa marca é 10 km/l. Na análise de 100 automóveis da marca T, obteve-se consumo médio de combustível de 8 km/l. Encontre um intervalo de confiança para o consumo médio de combustível dessa marca de carro. Adote um nível de confiança igual a 95%.
X: Consumo de combustível da marca T; σ = 10 km/l n = 100 ⇒ x = 8 km/l γ = 0,95 ⇒ z=1,96

⎡ 10 10 ⎤ σ σ ⎤ ⎡ ;X + z ;8 + 1,96 ⎢X − z ⎥ = ⎢8 − 1,96 ⎥ = [8 − 1,96 ;8 + 1,96 ] = [6,04 ;9,96 ] n n⎦ ⎣ 100 100 ⎦ ⎣
Portanto, a estimativa intervalar de 95% de confiança é [6,04 ;9,96 ] .
Oliveira, D. C. R. e Oliveira, M. S.

80

____/____/____

Exemplo: Deseja-se estimar o tempo médio de estudo (em anos) da população adulta de um município. Sabe-se que o tempo de estudo tem distribuição normal com desvio padrão σ = 2,6 anos. Foram entrevistados n = 25 indivíduos, obtendo-se para essa amostra, um tempo médio de estudo igual há 10,5 anos. Obter um intervalo de 90% de confiança para o tempo médio de estudo populacional.
X: tempo de estudo, em anos X ~ N(µ, 2,62) n = 25 ⇒ x = 10,5 anos γ = 0,90⇒ z=1,65 A estimativa intervalar com 90% de confiança é dada por:

σ σ ⎤ ⎡ ⎡ 2 ,6 2 ,6 ⎤ ;X + z ;10 ,5 + 1,65 ⎢X − z ⎥ = ⎢10 ,5 − 1,65 ⎥ = [9 ,64 ;11,36 ] n n⎦ ⎣ 25 25 ⎦ ⎣

12.5. Exercícios – Parte III – A3 1) Estabeleça um intervalo de confiança para a média populacional, sendo que o desvio padrão populacional é 4, o tamanho amostral é n = 36 e a média amostral igual a 30. Utilize um nível de confiança de 95% para a média.

2) Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média 25,4, sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a média.

12.6. Estimativa para Média Populacional com Variância Desconhecida Na prática, a variância populacional σ2 é desconhecida e é substituída por sua estimativa:

S2 =

n 1 ∑ ( X i − X )2 ( n − 1) i =1

Lembrar que a estimativa amostral do desvio padrão σ é s =

s2

Oliveira, D. C. R. e Oliveira, M. S.

81

____/____/____

Distribuição t – Student: Valores tc tais que P(-tc ≤ t ≤ tc) = 1 - p
Graus de Liberdade Graus de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 50 60 120 Graus de Liberdade

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 50 60 120 Graus de Liberdade

p = 90% 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126 0,126 p = 90%

80% 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,255 0,254 0,254 0,254 80%

70% 0,510 0,445 0,424 0,414 0,408 0,404 0,402 0,399 0,398 0,397 0,396 0,395 0,394 0,393 0,393 0,392 0,392 0,392 0,391 0,391 0,391 0,390 0,390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0,388 0,388 0,387 0,387 0,386 70%

60% 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,529 0,528 0,527 0,526 60%

50% 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,684 0,683 0,683 0,682 0,681 0,679 0,679 0,677 50%

40% 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,852 0,851 0,849 0,848 0,845 40%

30% 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,052 1,050 1,047 1,045 1,041 30%

20% 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,299 1,296 1,289 20%

10% 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,676 1,671 1,658 10%

5% 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,030 2,021 2,009 2,000 1,980 5%

4% 15,894 4,849 3,482 2,998 2,756 2,612 2,517 2,449 2,398 0,359 2,328 2,303 2,282 2,264 2,248 2,235 2,224 2,214 2,205 2,197 2,189 2,183 2,177 2,172 2,166 2,162 2,158 2,154 2,150 2,147 2,133 2,123 2,109 2,099 2,076 4%

2% 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,438 2,423 2,403 2,390 2,358 2%

1% 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,724 2,704 2,678 2,660 2,617 1%

Exemplo: 1) Para n = 11 e p = 10%, 3) Para n = 11 e p = 1%,

temos t = temos t =

2) Para n = 11 e p = 5%, 4) Para n = 20 e p = 15%,

temos t = temos t =

Nessa situação, para calcularmos o intervalo de confiança substituímos a variável z por t, onde t possui distribuição t de Student com n-1 graus de liberdade. Assim, uma estimativa intervalar para a média populacional µ, quando σ é desconhecido, é

s s ⎤ ⎡ ⎢x − t n ; x + t n ⎥ ⎣ ⎦
A variável t é bem próxima da normal padrão z quando a amostra é maior ou igual a 25,
Oliveira, D. C. R. e Oliveira, M. S.

82

____/____/____

porém para amostras menores que esse valor essa variável vai se afastando de z e, quanto menor for o valor de n, maior é o afastamento existente entre a variável t e z. A tabela que fornece os valores de t, contém na 1a. linha, a área locada nas caudas da curva, à esquerda de –t e à direita de t. Na 1a. coluna, está os graus de liberdade (n-1). Na interseção dos valores considerados, temos os valores de t correspondente.

Exemplo: Qual o intervalo de confiança para a média, no nível de 95%, sendo que uma amostra de tamanho 20 forneceu média 38 e desvio padrão 5? Solução: x = 38 , n = 20, s = 5. No nível de 95%, obtemos o valor de t cruzando na tabela da t – Student: p = 5% e gl = n-1 = 20-1 = 19 → t = 2,093. Assim:
s s ⎤ ⎡ 5 5 ⎤ ⎡ IC[µ, 95%] = ⎢ x − t , x+t , 38 + 2,093 ⎥ = [35.66 , 40.34] ⎥ = ⎢38 − 2,093 n n⎦ ⎣ 20 20 ⎦ ⎣

Exemplo: Estabeleça limites de confiança para a média, no nível de 90%, sendo que uma amostra de tamanho 16 forneceu média 70 e desvio padrão 6,8? Solução: Temos que x = 70 , n = 16, s = 6,8 e para um nível de 90%, obtemos o valor de t cruzando na tabela da t – Student: p = 10% e gl = n-1 = 16-1 = 15 → t = 1,753. Assim:
6,8 6,8 ⎤ ⎡ s s ⎤ ⎡ , x +t , 70 + 1,753 IC[ µ , 90%] = ⎢ x − t ⎥ = ⎢70 − 1,753 ⎥ = [ 67.02 , 72.98] 16 16 ⎦ n n⎦ ⎣ ⎣

12.7. Exercício – Parte III – A3 Determine o intervalo de confiança de 99% para a média, sendo que uma amostra de tamanho n = 9 forneceu média 75 e desvio padrão 7.

Oliveira, D. C. R. e Oliveira, M. S.

83

____/____/____

13. TESTES DE HIPÓTESES
Estimação Qual é a probabilidade de "cara" no lançamento de uma moeda?
Qual é a proporção de eleitores favoráveis ao candidato A? Qual é a proporção de motoristas que tiveram sua carteira apreendida após a vigência da nova lei de trânsito?

versus

Teste de Hipóteses A moeda é honesta ou é desequilibrada?
O candidato A tem até 50% das intenções de voto ou tem mais? Pelo menos 2% dos motoristas habilitados de SP tiveram suas carteiras apreendidas após a entrada da nova lei do trânsito ou não?

13.1. Introdução Quando colhemos uma amostra de uma determinada população, nosso objetivo é tirar conclusões sobre os parâmetros dessa população. Assim, a partir das informações amostrais estimamos os parâmetros da população. Entretanto, se existe algum referencial sobre valores que os parâmetros de uma população devem assumir, podemos testar hipóteses, formuladas sobre esses parâmetros, de conformidade com as informações obtidas da amostra. Igualmente, pode-se testar a hipótese de que uma amostra pertence a uma população de parâmetros dados ou ainda, se duas populações têm parâmetros iguais. 13.2. Formulação das Hipóteses Para testarmos parâmetros de uma população, formulamos hipóteses a respeito desses parâmetros. Essas hipóteses são denominadas: H0: Hipótese nula Ha: Hipótese alternativa Testar hipóteses formuladas consiste em decidir se aceita ou se rejeita a hipótese nula (H0). Quando se rejeita a hipótese nula, automaticamente está sendo aceita a hipótese alternativa (Ha). Exemplo: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. A proporção de peças defeituosas é p =0,05?
Testes de Hipóteses possíveis: a) H0: p = 0,05 Ha: p ≠ 0,05 Teste Bilateral

b) H0: p = 0,05 Ha: p > 0,05 Teste unilateral à direita

c) H0: p = 0,05 Ha: p < 0,05 Teste unilateral à esquerda

13.3. Tipos de Erros possíveis nos Testes de Hipóteses
Erro tipo I: (α) – Rejeitar a hipótese H0 quando na realidade ela é verdadeira. (α é chamado de nível de significância do teste)

Oliveira, D. C. R. e Oliveira, M. S.

84

____/____/____

Erro tipo II (β) – Aceitar a hipótese H0 quando na realidade ela é falsa. (a) Os valores de α e β são as probabilidades de cada um dos erros tipo I e tipo II ocorrerem, respectivamente, ou seja,

α = P(erro tipo I) = P(rejeitar Ho dado que Ho é verdadeira) β = P(erro tipo II) = P(aceitar Ho dado que Ho é falsa)

13.4. Nível de Significância de um Teste de Hipótese (α) É a probabilidade máxima que aceitamos cometer o erro do tipo I (α): Os níveis de significância usualmente adotados são 0,10 (10%), 0,05 (5%) e 0,01 (1%). Quando se deseja testar hipóteses, o primeiro passo é fixar o nível de significância, antes mesmo de se colher uma amostra. Geralmente, quanto menor for à probabilidade de se cometer o erro tipo I, maior será a probabilidade de se cometer o erro do tipo II. A única forma de se reduzir às probabilidades relativas aos dois tipos de erros é aumentando o tamanho da amostra, pois quanto maior for à amostra, maior será a precisão das estimativas dos parâmetros. 13.5. Teste de Hipóteses para a Proporção Exemplo 1: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,03 ou é maior. Solução: Hipóteses: H0: p = 0,03 Ha: p > 0,03 (curva unilateral à direita ) Para um nível de significância de 5% temos da Tabela da distribuição Normal Padrão que o z que fornece a área cinza de 0,05, representada na figura, é z = 1,64. Fórmula para obter o z observado na amostra: ˆ 0,01 0,04 − 0,03 p−p = = ≅ 0,5103 zobs = 0,0384 0,03(1 − 0,03) p(1 − p) 100 100 n

Região de Aceitação

Região Crítica

Conclusão do Teste de Hipóteses: Como zobs = 0,5103 < z = 1,64, não conseguimos rejeitar H0, isto é, aceita-se a hipótese de que a proporção de peças defeituosas é igual a 0,03.
Oliveira, D. C. R. e Oliveira, M. S.

85

____/____/____

Exemplo 2: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 3 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,08 ou é menor. Solução: Hipóteses: H0: p = 0,08 Há: p < 0,08 (curva unilateral à esquerda)
Regra de decisão para Nível de Significância α = 0,05:

0,05 Região Crítica

Região de Aceitação

Para um nível de significância de 0,05 temos que z = - 1,64. O valor de z observado na amostra é: ˆ − 0,05 p−p 0,03 − 0,08 zobs = = = ≅ −1,84 p(1 − p) 0,08(1 − 0,08) 0,0736 n 100 100 Conclusão do Teste de Hipóteses: Como zobs = -1,84 < z = -1,64, então rejeito H0, ou seja, há indícios de que a proporção de peças defeituosas é menor que 0,08.

Exemplo 3: Numa amostra de 100 peças produzidas por uma máquina foram encontradas 4 defeituosas. Testar ao nível de significância de 5%, a hipótese de que a proporção de peças defeituosas é p = 0,05 ou é diferente. Solução: Hipóteses: H0: p = 0,05 Ha: p ≠ 0,05 (teste bilateral)
Regra de decisão para Nível de Significância α = 0,05:

0,025 0,025 Região de Aceitação

Regiões Críticas

Considerando o nível de significância de 5%, temos que os z’s que fornecem as áreas cinza representada na figura acima, é z = - 1,96 e z= 1,96. O valor de z observado na amostra é:
Oliveira, D. C. R. e Oliveira, M. S.

86

____/____/____

ˆ − 0,01 0,04 − 0,05 p−p = = ≅ −0,46 0,05 . 0,95 0,05(1 − 0,05) p(1 − p) 100 100 n Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = -0,46 < z = 1,96, então não rejeitamos H0, isto é, aceito a hipótese de que a proporção de peças defeituosas é igual a 0,05. zobs =

13.6. Exercícios – Parte III – A3 1) Uma nova série de televisão precisa provar que tem mais do que 25% de audiência de telespectadores depois das 13 primeiras semanas de exibição para ser julgada bem-sucedida. Considere que uma amostra de 400 famílias, 112 estavam vendo a nova série. Com um nível de significância de 10%, a série pode ser julgada bem-sucedida com base na informação da amostra? Qual a sua conclusão do teste de hipótese?

2) Um contador acredita que os problemas de fluxo de caixa de uma empresa são o resultado direto do lento recebimento das contas a receber. O contador afirma que pelo menos 70% das atuais contas a receber têm mais de dois meses de idade. Uma amostra de 120 contas a receber mostrou que 78 têm mais do que dois meses de idade. Teste a afirmação do contador a um nível de significância de 5%.

Oliveira, D. C. R. e Oliveira, M. S.

87

____/____/____

13.7. Teste de Hipóteses para Média com Variância Conhecida Estimação
Qual a quantidade média de leite das caixinhas de leite da marca A? Qual o peso médio das mulheres que estudam na UFSJ e estão no quarto período de Administração?

Versus

Teste de Hipóteses
As caixinhas de leite da marca A têm em média 1 litro de leite ou mais? O peso médio das mulheres que estão no quarto período de Administração na UFSJ é igual a 60 kg ou é diferente?

Formulação das hipóteses Exemplo: Um comerciante atacadista de cereal admite uma média de impureza de 0,5 kg nas sacas de 60 kg desse cereal. Ao se tomar uma amostra de certo número de sacas de um novo fornecedor, obtém-se um valor para a média e o desvio padrão, que permitirão, com certa probabilidade de êxito, decidir se a média de impurezas por saca do novo fornecedor é igual a 0,5 kg, ou se é maior ou menor que 0,5 kg.
Testes de Hipóteses possíveis: a) H0: µ = 0,5 Ha: µ ≠ 0,5

b) H0: µ = 0,5 Ha: µ > 0,5

c) H0: µ = 0,5 Ha: µ < 0,5

Teste da média com variância conhecida Exemplo 1: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 42,3. Sabendo que a desvio padrão populacional σ = 5,2, teste ao nível de significância de 5%, a hipótese de que a média é maior que 40. Solução: Hipóteses: H0: µ = 40 Ha: µ > 40 (curva unilateral à direita )
Nível de significância = 5% ⇒ z = 1,64. Valor de z observado na amostra:
Zobs

=

x−µ

σ
n

=

42,3 − 40 42,3 − 40 2,3 . 6 = = = 2,65 5,2 5,2 5,2 6 36

Região de Aceitação

Região Crítica

Conclusão do Teste de Hipóteses: Como zobs = 2,65 > z = 1,64, então rejeito H0, isto é, aceito a hipótese de que a média da população é maior que 40.
Oliveira, D. C. R. e Oliveira, M. S.

88

____/____/____

Exemplo 2: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 42. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância de 5%, a hipótese de que a média é menor que 44. Solução: Hipóteses: H0: µ = 44 Ha: µ < 44 (curva unilateral à esquerda )
Nível de significância = 5% ⇒ z = 1,64. Valor de z observado na amostra: zobs = x−µ = 42 − 44 42 − 44 − 2 = = = −1 12 12 2 6 36

σ
n

0,05
Região Crítica

Região de Aceitação

Conclusão do Teste de Hipóteses: Como zobs = -1 > z = -1,64, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 44. Exemplo 3: Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu média x = 40. Sabendo que o desvio padrão populacional é σ = 12. Testar ao nível de significância de 5%, a hipótese de que a média é diferente de 40.
Hipóteses: H0: µ = 40 Ha: µ ≠ 40 (teste bilateral)

Nível de significância = 5% ⇒ z = -1,96 e z = 1,96. x − µ 40 − 40 40 − 40 0 Valor de z observado na amostra: zobs = = = = =0 σ 12 12 2 6 n 36
0,025 0,025
Região de Aceitação

Regiões Críticas

Conclusão do Teste de Hipóteses: Como z = -1,96 < zobs = 0 < z = 1,96, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40.
Oliveira, D. C. R. e Oliveira, M. S.

89

____/____/____

13.8. Exercícios – Parte III – A3 1) Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal, com média µ e variância (conhecida) 400 g2. A máquina foi regulada para µ = 500g. Desejamos, de meia em meia hora, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma média x = 492g, você pararia ou não a produção? Considere um nível de significância de 1%.

2) Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão (conhecido) 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2. Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na amostra colhida, determine a decisão a ser tomada pela diretoria da firma.

Oliveira, D. C. R. e Oliveira, M. S.

90

____/____/____

13.9. Teste de Hipóteses para Média com Variância Desconhecida Exemplo 1: Foi testada uma amostra de 9 cigarros de uma certa marca, com relação ao nível de nicotina, fornecendo média x = 42 mg e desvio padrão s = 6 mg. Testar ao nível de significância de 5%, a hipótese de que a média é maior que 40 mg. Solução: Hipóteses: H0: µ = 40 Ha: µ > 40 (curva unilateral à direita) Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 9 – 1 = 8. Se o teste tiver cauda unilateral à direita: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,860. x − µ 42 − 40 2 2 = = =1 Valor de t observado na amostra: tobs = = s 6 6 2 3 n 9

Conclusão do Teste de Hipóteses: Como tobs = 1 < t = 1,860, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40. Exemplo 2: Uma nova amostra de 16 cigarros da mesma marca forneceu média x = 40 mg e desvio padrão s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é menor que 44 mg. Solução: Hipóteses: H0: µ = 44 Ha: µ < 44 (curva unilateral à esquerda)
Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 16 – 1 = 15. Se o teste tiver cauda unilateral à esquerda: p = 2 x α = 2 x 0,05 = 0,10 = 10%. Então: t = 1,753. x − µ 40 − 44 − 4 − 4 Valor de t observado na amostra: tobs = = = = = −4 s 4 4 1 4 n 16
Oliveira, D. C. R. e Oliveira, M. S.

91

____/____/____

Conclusão do Teste de Hipóteses: Como tobs = -4 < t = -1,860, então rejeito H0, isto é, aceito a hipótese de que a média da população é menor que 44. Exemplo 3: Outra amostra de 16 cigarros forneceu média x = 42 mg e desvio padrão s = 4 mg. Testar ao nível de significância de 5%, a hipótese de que a média é diferente de 40. Hipóteses: H0: µ = 40 Ha: µ ≠ 40 (teste bilateral) Nível de significância de 5%, obtemos na Tabela da t-Student o t que fornece a área cinza de 0,05, representada na figura. Graus de liberdade: n – 1 = 16 – 1 = 15. Se o teste tiver cauda bilateral: p = α = 0,05 = 5%. Então: t = -2,131 e t = 2,131. x − µ 42 − 40 2 2 Valor de t observado na amostra: tobs = = = = =2 s 4 4 1 4 n 16
Região de Aceitação

Região de Rejeição

Conclusão do Teste de Hipóteses: Como t = -2,131 < tobs = 2 < t = 2,131, então aceito H0, isto é, aceito a hipótese de que a média da população é igual a 40.

Oliveira, D. C. R. e Oliveira, M. S.

92

____/____/____

13.10. Exercícios – Parte III – A3 1) A experiência de muitos anos de uso de um dispositivo eletrônico, da marca A, tem mostrado que sua vida média é de µ = 286 horas. Uma amostra de n = 16 dispositivos de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 8 horas. Testar, ao nível de significância de 10%, se os dispositivos das duas marcas têm a mesma vida média ou se a vida média do B é maior que a do A.

2) A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado que sua vida média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de significância de 10%, se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média da B é menor que a da A.

3) Uma amostra de 16 empregados de uma empresa forneceu os seguintes resultados com relação às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que a média da população é igual ou diferente 175cm.

Oliveira, D. C. R. e Oliveira, M. S.

93

____/____/____

Lista de Exercícios 3 Exercício 01 Examinando 100 peças produzidas por uma máquina, foram encontradas 3 defeituosas. Obter a estimativa intervalar, no nível de 95%, para a proporção de peças defeituosas dessa máquina. Exercício 02 Uma amostra de 50 estudantes de uma Universidade mostrou que 8 destes apresentam problemas visuais. Obter a estimativa intervalar, no nível de 90%, para a verdadeira percentagem dos estudantes com problemas visuais. Exercício 03 Uma amostra de n = 64 elementos de uma variável normalmente distribuída forneceu média 25,4, sendo que o desvio padrão populacional é 5,2. Determine o intervalo de confiança de 90% para a média. Exercício 04 Determine o intervalo de confiança de 99% para a média do ponto de fusão de uma substância química, sendo que uma amostra de tamanho n = 9 pontos de fusão desta mesma substância forneceu uma média 75 e um desvio padrão amostral igual a 7. Exercício 05: Uma moeda é lançada 100 vezes, obteve-se 42 caras. Testar com um nível de significância de 10% a hipótese de que essa moeda é viciada. Exercício 06: Uma amostra de 50 alunos de uma escola de 1o grau apresentou 3 canhotos. Testar, ao nível de significância 10%, a hipótese de que a percentagem de alunos canhotos dessa escola é diferente de 0,05. Exercício 07: Sabe-se que o consumo mensal per capita de um determinado produto tem distribuição normal, com desvio padrão 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg. Caso contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos, e verificou-se um consumo mensal médio de x = 7,2. Construa um teste de hipótese adequado, utilizando um nível de significância de 5%, e com base na amostra colhida, determine a decisão a ser tomada pela diretoria. Exercício 08: A experiência de muitos anos de uso de uma lâmpada, da marca A, tem mostrado que sua vida média é de µ = 300 horas. Uma amostra de n = 9 lâmpadas de uma nova marca B deu uma vida média de x = 290 horas com desvio padrão de s = 6 horas. Testar, ao nível de significância de 10%, se as lâmpadas das duas marcas têm a mesma vida média ou se a vida média da B é menor que a da A. Exercício 09: Uma amostra de 16 empregados de uma empresa deu os seguintes resultados com relação às alturas: média 173 cm e desvio padrão 16 cm. Testar ao nível de 10% as hipóteses de que a média da população é igual ou diferente 175cm. Observação: O gabarito da Lista de Exercícios 3 encontra-se no Apêndice C

Oliveira, D. C. R. e Oliveira, M. S.

94

____/____/____

APÊNDICE A
Gabarito da Lista de Exercícios 1
1) População: eleitores brasileiros. Amostra: 122 pessoas entrevistadas em Brasília.

2) (a) Qualitativa Ordinal; (b) Qualitativa Nominal; (c) Quantitativa Discreta; (d) Quantitativa Contínua. 3) Aleatória Simples: 61, 09, 26, 29, 11, 77, 79, 04, 57, 59. Sistemática:N/n = 80/10 = 8; x = 6; Amostra: 6, 14, 22, 30, 38, 46, 54, 62, 70, 78. Estratificada: Mulheres (4): 09, 26, 29, 11. Homens (6): 09, 26, 29, 11, 04, 02. 4) Zonas: 045, 020, 099, 033, 197, 166, 040, 005, 038, 115, 041, 173, 030, 025, 123. 5) (a) Tabela: Conceitos obtidos de 60 alunos na disciplina de Estatística na Escola E Conceitos Freqüência Absoluta Proporção Porcentagem Ótimo 03 0,05 05,0 Bom 22 0,367 36,7 Médio 25 0,417 41,7 Ruim 10 0,166 16,6 Total 60 1 100 Interpretação: Podemos observar na Tabela acima que a maior proporção dos alunos da Escola E obtiveram conceito Médio na disciplina Estatística (42%) e apenas 5% conquistaram o conceito Ótimo. Além disso, 37% concluíram com conceito Bom e 16% com conceito Ruim. (b)
25
22 25

20 Frequência Absoluta

15

10

10

5

3

0

Ótim o

Bom Conce it o

Médio

Ruim

Figura: Gráfico de Barras para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Oliveira, D. C. R. e Oliveira, M. S.

95

____/____/____

R 16,7%

O 5,0%

B 36,7%

M 41,7%

Figura: Gráfico de Composição em Setores para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E. (O : Ótimo; B : Bom; M : Médio; R : Ruim)

60 50 Freqüência Absoluta 40

100

80

60 30 40 20 10 0 Conceitos Count Percent Cum % 20

Médio 25 41,7 41,7

Bom 22 36,7 78,3

Ruim 10 16,7 95,0

Ótimo 3 5,0 100,0

0

Figura: Gráfico de Pareto para os Conceitos obtidos na disciplina de Estatística de 60 alunos da Escola E.

Oliveira, D. C. R. e Oliveira, M. S.

96

____/____/____

Porcentagem Acumulada

6) (a) mínimo = 10; máximo = 22; média = 16,913; moda = 14.1, 16, 16.9, 19.5, 22; mediana = 16,9; Q1 = 15,0; Q3 = 19,5. (b) amplitude = 12; variância = 8,296; desvio-padrão = 2,88; intervalo-interquartil = 4,5. (c) Tabela: Comprimento de 31 canos PVC vendidos em uma loja de material de construção Comprimento Freqüência Absoluta Proporção Porcentagem Densidade [10, 12) 1 0,0322581 3,2 0,0161290 [12, 14) 3 0,0967742 9,7 0,0483871 [14, 16) 6 0,1935480 19,4 0,0967742 [16, 18) 10 0,3225810 32,2 0,1612900 [18, 20) 6 0, 1935480 19,4 0,0967742 [20, 22] 5 0,1612907 16,1 0,0806452 Total 31 1 100 -----Interpretação: A maior parte dos canos tem comprimento entre 16 e 18m (32,2%), ....(descrever a coluna da porcentagem) (d)
0,18 0,16 0,14 0,12 Densidade 0,10 0,08 0,06 0,04 0,02 0,00 10
0,016129 0,0483871 0,0967742 0,0967742 0,0806452 0,16129

12

14

16 Comprimento

18

20

22

Figura: Histograma do comprimento de 31 canos PVC vendidos em uma loja de material de construção.

(e)

10

11

12

13

14

15 16 17 Compriment o

18

19

20

21

22

Figura: Diagrama de dispersão unidimensional do comprimento de 31 canos PVC vendidos em uma loja de material de construção.
Oliveira, D. C. R. e Oliveira, M. S.

97

____/____/____

22

20

18 Comprimento
4 Freqüência Absoluta 3 2 1 0

16

14

12

10

Figura: Box-plot do comprimento de 31 canos PVC vendidos em uma loja de material de construção. 1 10 0 1 11 3 12 35 4 13 8 7 14 117 10 15 035 (7) 16 0013799 14 17 049 11 18 28 9 19 3557 5 20 035 2 21 2 22 00 Figura: Ramo-e-folhas do comprimento de 31 canos PVC vendidos em uma loja de material de construção. 7) a) Média = 69,87 e Mediana = 68. A média e a mediana foram bem diferentes. Embora 50% dos índios tenham pulsação abaixo de 68, os índios com maior pulsação, fez com que o valor médio da pulsação fosse maior, isto é, aproximadamente 70. Quando os valores são distintos da média e mediana, implica que os dados são assimétricos. (conforme mostra o gráfico da alternativa (d) desse exercício) b) Mínimo = 60, Q1 = 60, Q3 = 76 e Máximo = 88.A menor e a maior pulsação foram 60 e 88, respectivamente. 25% dos índios tiveram pulsação inferior a 60 e 25% superior a 76. 50% obtiveram entre 60 e 76. c) Variância = 91,12 e Desvio Padrão = 9,55. A variabilidade das pulsações foi de 9,55 em torno do valor médio da pulsação. d)

60

64

68

72 P u ls aç ão

76

80

88

Figura: Gráfico de barras das medidas da pulsação de 15 índios nativos dos Alpes Peruanos.
Oliveira, D. C. R. e Oliveira, M. S.

98

____/____/____

8) (a) Média = 15,8; Desvio Padrão ≅ 3,8. (b) Média – 2*Desvio ≅ 8,3. Sim, a cidade D. (c) Fazer a média dos investimentos das cidades que tiver 8,3 ≤ Investimento ≤ 23,3. Ivestimento Básico ≅ 16,8. O valor no item (a) era menor em 1 unidade, pois a cidade D foi retirada do cálculo, por não ter o investimento dentro do intervalo pré-estabelecido. A média no item (a) foi menor, porque a cidade D é um possível outlier e o valor da média é sensível aos valores discrepantes, isto é, o seu valor é influenciado por valores pequenos ou grandes. 9) Medicamentos Nº De Cobaias 10 8 8 Mínimo Máximo Média Mediana Q1 Q3 Amplitude Variância Desvio Padrão 0,789 0,744 0,835 IQ

A B C

13 12 11

15 14 13

14,2 13,375 12,125

14 13,5 12

13,5 13 11,5

15 14 13

2 2 2

0,622 0,554 0,696

1,5 1 1,5

Embora as medidas de dispersão, em geral, mostram que o medicamento C tem maior variabilidade dos dados, as medidas de posição mostraram que o medicamento C é o que fornece menor tempo de cicatrização do completo fechamento dos cortes provenientes de cirurgia. 10) (a)

80

70

Mortes

60

50

40

30 65 70 75 Barcos 80 85

Figura: Gráfico de Dispersão do número de peixes-boi mortos versus o número de barcos de turismo (em milhares) que circulam em seu habitat na Flórida-EUA. Podemos observar visualmente que há uma relação linear positiva entre o número de peixes-boi mortos com o número de barcos de turismo (em milhares), isto é, quanto mais barcos passar no habitat dos peixes-boi, maior será o número de mortes. (b) r ≅ 0,922. Podemos notar através de r, que a correlação positiva entre X e Y é significativa. (c) Mortes = 2,27*Barcos – 113
Oliveira, D. C. R. e Oliveira, M. S.

99

____/____/____

d) r2 = 84,9%. 84,9% da variação do número de peixes mortos é explicado pelo número de barcos (em milhares) que passam no seu habitat. 15,1% é devido a outros fatores que não foram estudados, tais como, substâncias químicas eliminadas no habitat dos peixe-boi, pescadores, etc. 11) (a)
120

110

100 Massa 90

80

70

60 40 50 60 Idade 70 80

Figura: Gráfico de Dispersão da idade versus a massa muscular de 18 mulheres com idade entre 40 e 79 anos. (b) r = – 0,837. O valor do coeficiente de correlação indica que as variáveis idade e massa muscular estão relacionadas linearmente de forma negativa, ou seja, quanto maior a idade menor é a massa muscular. (c) Y = 148,197 – 1,027 X. O coeficiente a = 148,197 (intercepto) não pode ser interpretado, porque a variação de X não contém o valor 0. O coeficiente b = - 1,027 (inclinação) indica que a cada aumento de um ano na idade, espera um decréscimo de aproximadamente 1 da massa muscular.

Oliveira, D. C. R. e Oliveira, M. S.

100

____/____/____

APÊNDICE B
Gabarito da Lista de Exercícios 2
1) (a) (A ∪ B) b) (A ∩ Bc) ∪ (Ac ∩ B) c) (A ∪ B)c d) (A ∩ Bc) 2) a) P(A∪B) ≅ 0,0358 b) P((A ∪ B)c) ≅ 0,9641 c) P((A ∩ Bc)) ≅ 0,023 3) P(M|A) = 0,292 4) X 15 17 18 20 E[X] = P(X) 0,3575 0,1925 0,2925 0,1575 17,05 5) 0,8192 6) (a) 0,59049 (b) 0,32805 (c) 0,99144 7) (a) 0,5 (b) 0,33333 8) (a) 0,376812 (b) 0,282609 (c) 0,0376812 (d) 0,0086957 9) (a) 0,367879 (b) 0,981011 (c) 0,264242 10) (a) 0,0000454(b) 0,0103361 (c) ≅ 0 11) (a) 0,4332 (b) 0,0668 (c) 0,0062 (d) ≅ 41,34 12) (a) 0,2967 (b) 0,0062 (c) 0,0475 13) (a) boas: 0,8904 recuperáveis: 0,0932 defeituosas: 0,0164 (b) E[T] ≅ 0,09

Oliveira, D. C. R. e Oliveira, M. S.

101

____/____/____

APÊNDICE C
Gabarito da Lista de Exercícios 3

1) IC[P ; 95%] = ⎢0,03 − 1,96

⎡ ⎣

0,03.0,97 0,03.0,97 ⎤ ; 0,03 + 1,96 ⎥ = [0 ; 0,0634] 100 100 ⎦ 0,16.0,84 0,16.0,84 ⎤ ; 0,16 + 1,645 ⎥ = [0,075 ; 0,245] 50 50 ⎦ 5,2 64 9 ; 25,4 + 1,645 5,2 ⎤ ⎥ = [24.3 ; 26.5] 64 ⎦

2) IC[P ; 90%] = ⎢0,16 − 1,645

⎡ ⎣

3) IC[µ ; 90%] = ⎢25,4 − 1,645

⎡ ⎣

4) IC[µ ; 99%] = ⎢75 − 3,355

⎡ ⎣

7

; 75 + 3,355

7 ⎤ ⎥ = [67.2 ; 82.8] 9⎦

5) Hipóteses: Ho: p = 0,5 Ha: p ≠ 0,5 Nível de Significância: α = 0,10 Proporção Amostral:

ˆ p = 0,42
0,42 − 0,5 0,5.0,5 100 = −1.6

Estatística do Teste: z observado =

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] ∪ [1.645 , +∞) RA = (-1.645 , 1.645) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, não podemos afirmar que a moeda é viciada. 6) Hipóteses: Ho: p = 0,05 Ha: p ≠ 0,05 Nível de Significância: α = 0,10

ˆ Proporção Amostral: p = 0,06
Estatística do Teste:

z observado =

0,06 − 0,05 0,05.0,95 50

≅ 0.32

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] ∪ [1.645 , +∞) RA = (-1.645 , 1.645) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos afirmar que 5% dos alunos dessa escola de 1º grau são canhotos. 7) Hipóteses: Ho: µ = 8 kg Ha: µ < 8 kg Nível de Significância: α = 0,05

Oliveira, D. C. R. e Oliveira, M. S.

102

____/____/____

Estatística do Teste:

z observado =

7,2 − 8 = −2 2 25

Regra de Decisão: Pela tabela da distribuição normal, Ha e nível de significância: RC = (-∞ , -1.645] RA = (-1.645 , +∞) Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 5%, ou seja, a média de consumo per capita é menor que 8 kg. 8) Hipóteses: Ho: µ = 300 Ha: µ < 300 Nível de Significância: α = 0,10 Estatística do Teste: t observado

=

290 − 300 = −5 6 9

Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 8 e p = 20%, Ha e nível de significância: RC = (-∞ , -1.397] RA = (-1.397 , +∞) Conclusão: Como zobservado ∈ RC, então rejeito Ho com um nível de significância de 10%, ou seja, a vida média de B é menor que a de A. 9) Hipóteses: Ho: µ = 175 Ha: µ ≠ 175 Nível de Significância: α = 0,10 Estatística do Teste: t observado

=

173 − 175 = −0,5 16 16

Regra de Decisão: Pela tabela da t de Student com Graus de Liberdade = 15 e p = 10%, Ha e nível de significância: RC = (-∞ , -1.753] ∪ [1.753 , +∞) RA = (-1.753 , 1.753) Conclusão: Como zobservado ∈ RA, então não rejeito Ho com um nível de significância de 10%, ou seja, podemos afirmar que a altura média é de 175 cm.

Oliveira, D. C. R. e Oliveira, M. S.

103

____/____/____

APÊNDICE D - Aula no Laboratório de Computação
1) Em certa localidade, obtiveram-se os seguintes dados sobre precipitação pluviométrica anual, X (cm) e à colheita de algodão, Y (kg/are) para um período de 7 anos: Ano 1 2 3 4 5 6 7 X 1,0 158,85 118,65 114,80 75,0 127,15 111,15 Y 520 190 208 213 310 194 160 a) Obtenha a média, mediana, Quartil 1, Quartil 3 e desvio-padrão de X e Y. b) Quantos pontos aberrantes você encontrou em cada Box-plot de X e Y? c) Construa o Dot-Plot de X no MINITAB e escreva em qual intervalo de valores de X estão a maior parte dos dados. d) Construa o Ramo-e-Folhas de Y no MINITAB e escreva em qual intervalo de valores de X estão a maior parte dos dados. e) Construa o diagrama de dispersão entre X e Y no MINITAB. Qual a relação entre X e Y visualmente? f) Obtenha o valor da correlação e a reta de regressão entre X e Y. g) Faça o teste-t para testar, com um nível de significância de 5% se: Ho: µ = 50 contra Ha: µ ≠ 50.
X X

h) Sabendo que o desvio de Y é igual a 10, teste com um nível de significância de 10% as hipóteses: Ho: µ = 256 contra Ha: µ > 256.
Y

Y

2) Se entrevistamos 1500 pessoas e 1050 são a favor de um candidato, teste com um nível de significância de 1% se ele vencerá as eleições.

3) Quando uma máquina nova está funcionando adequadamente, somente 3% dos itens produzidos apresentam defeitos. Suponha que 5 itens são selecionadas aleatoriamente. (a) Qual a probabilidade de encontrarmos 2 defeituosos? (b) Qual a probabilidade de encontrarmos 3 ou mais defeituosos? 4) Para fazer o controle de qualidade numa empresa, lotes com 100 peças são examinados. Todo lote é composto por 10 peças defeituosas. Após coletar uma amostra de 5 peças sem reposição, calcule a probabilidade de que nessa amostra não haja nenhum item defeituoso? 5) Durante o período de tempo em que reservas por telefone estão sendo feitas na universidade local, as chamadas chegam à razão de uma a cada dois minutos. (a) Qual é a probabilidade de 3 chamadas em 2 minutos? (b) Qual é a probabilidade de 2 ou mais chamadas em um período de 4 minutos?

Oliveira, D. C. R. e Oliveira, M. S.

104

____/____/____

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->