Você está na página 1de 70

Apostila de Estatística

Laboratório de EAA
DME – Departamento de Matemática da PUC Minas

2º semestre de 2006
© DME /2006-2 2 de 70

LABORATÓRIO DE ESTATÍSTICA – AULA 1


** Síntese Tabular, Gráfica e Numérica de Dados Qualitativos**.

1.1. Introdução
O Minitab 14 para Windows é um sistema computacional para análise estatística de dados.
Caracteriza-se pela simplicidade de uso e pela correção com que as técnicas estatísticas foram
programadas. Este pacote é um dos mais utilizados no ensino da disciplina.

Iniciando o Software

Iniciar → Programas → MINITAB FOR WINDOWS → Minitab

Após este procedimento o Minitab apresentará duas janelas visíveis:


• Session: onde serão impressas as opções solicitadas e a maioria dos resultados obtidos.
Pode-se também digitar os comandos desejados.
• Worksheet : planilha para armazenagem de dados e de resultados.
• A janela Project Manager normalmente permanece minimizada, mas pode ser maximizada a
qualquer momento para obter-se informações sobre o projeto que está sendo trabalhado.

A alternação entre as janelas pode ser feita:


• Clicando com o mouse sobre a janela desejada, ou.
• Usando as teclas de atalho: Ctrl+D - janela de Dados e Ctrl+M - janela da Seção

O menu principal encontra-se no topo da janela contendo, na primeira linha, grupos de funções (File,
Edit, Data, ...) e, na segunda linha, alguns atalhos (imprimir, salvar...):

Grupo de Funções

• File: funções de manipulação de arquivos: abrir e fechar projetos (Project), planilhas de dados
(worksheet); salvar; imprimir e etc...
• Edit: funções de manipulação de células da planilha e edições de preferências;
• Data: manipulações da planilha de dados: recodificação; ordenação; atribuição de postos
(ranking), cópia, empilhamento de colunas; etc...
• Calc: funções que envolvem cálculos matemáticos ou probabilísticos em células, linhas ou
colunas;
• Stat: funções estatísticas envolvendo variáveis do banco de dados;
• Graph: funções gráficas;
• Editor: movimentações com colunas; busca e substituição de valores; etc...
• Tools: algumas ferramentas disponíveis e complementares como, por exemplo, abertura do
Notepad; Calculadoras, etc...
• Windows: opções de apresentação das janelas de trabalho; apresentação das janelas
utilizadas no projeto facilitando sua exposição; etc...
• Help: Ajuda aos recursos, às funções, às definições das funções e aos procedimentos do
Minitab.
© DME /2006-2 3 de 70

1.2. Os Dados – Elementos e Variáveis


EXERCÍCIO 1.1 (adaptado de Morettin & Bussab, Cap. 4, pág.98)
O departamento de vendas da companhia X foi formado há um ano com a admissão de vendedores. Foi
selecionada uma amostra aleatória de 15 vendedores. Naquela época, foram observados os valores de
três variáveis para cada vendedor.
Teste: resultado (número de acertos) em um teste apropriado para vendedores contendo 10
questões de múltipla escolha;
Experiência: nº de anos de experiência em vendas;
Conceito do gerente: conceito do gerente de vendas quanto ao currículo do candidato.
O diretor da companhia resolveu ampliar o quadro de vendedores e pede a sua colaboração para
resolver algumas perguntas. Para isso, ele te dá informações adicionais sobre duas variáveis:
Vendas: volume médio mensal de vendas em milhares de unidades monetárias;
Zona: zona da capital na qual o vendedor trabalhou durante o ano.

Considere a Tabela abaixo com o Conjunto de Dados (banco de dados). Esta tabela contém as
informações sobre uma amostra aleatória de 15 vendedores

Tabela 1.1: Informações sobre vendedores da Cia X


Conceito do
Vendedor Teste Experiência Vendas Zona
gerente
1 8 5 Excelente 54 Norte
2 9 2 Excelente 50 Sul
3 7 2 Regular 48 Sul
4 8 1 Regular 32 Oeste
5 6 4 Bom 30 Sul
6 8 4 Bom 30 Oeste
7 5 3 Bom 29 Norte
8 5 3 Bom 27 Norte
9 6 1 Regular 24 Oeste
10 7 3 Regular 24 Oeste
11 4 4 Bom 24 Sul
12 7 2 Regular 23 Norte
13 3 3 Regular 21 Sul
14 5 1 Regular 21 Oeste
15 3 2 Bom 16 Norte
Fonte: Dados hipotéticos

Dados: “São fatos e números coletados, analisados e sintetizados para


apresentação e interpretação” (ANDERSON, 2003).

Nesta tabela temos 15 Elementos e 5 Variáveis


a) Complete:
O vendedor 5 acertou _______ questões no teste de múltipla escolha apropriado para vendedores.
O vendedor 3 tem ______ anos de experiência em vendas.
O vendedor 9, na análise do currículo, foi classificado como _________ pelo gerente de vendas.
O vendedor 2 vendeu ______ mil unidades monetárias, em média, e foi designado para a zona
________ da capital.
O vendedor 12 teve seu currículo classificado pelo gerente como _______ e foi designado para a zona
______. Ele acertou _____ questões no teste, tem ______ anos de experiência e tem uma média de
vendas mensais de _____ mil unidades monetárias.
© DME /2006-2 4 de 70

Classificação das variáveis

Para cada tipo de variável existem técnicas mais apropriadas para resumir as informações; daí a
importância de classificar corretamente cada variável. Uma classificação muito usada é:

Nominal
Qualitativa
Ordinal
Discreta
Quantitativa
Continua

b) Classifique as variáveis em qualitativas (nominais ou ordinais) ou quantitativas (discretas ou


contínuas).
Teste: ________________________ ________________
Experiência: ___________________ ________________
Conceito do gerente: _______________ _____________
Vendas: ________________________ ______________
Zona: ___________________ _____________________

Entrando e Salvando Dados no Minitab

c) Crie o arquivo de dados.


Observação: as informações (números ou categorias) e os respectivos títulos de cada Variável
serão digitados nas colunas;

c1) Preencha os títulos de cada coluna

A planilha de dados é denominada Worksheet. Cada coluna corresponde a uma variável. As


colunas são designadas por C1, C2,... . O nome de cada variável é digitado no espaço apropriado
antes da numeração das linhas da planilha.

c2) Preencha as informações de cada variável

Para simplificar a digitação criamos a seguinte codificação para as variáveis:


─ Conceito do gerente: Excelente = 3, Bom = 2 e Regular = 1;
─ Zona: Norte = 1, Sul = 2 e Oeste = 3;
Digite a planilha (verifique se apareceu a letra T ao lado de C1, C2.).

(Caso tenha aparecido, apague e refaça a digitação dos dados).


© DME /2006-2 5 de 70

d) Salve o arquivo de dados seguindo a orientação do seu professor.

File → Save Current Worksheet As → C → Temp → Nome do Arquivo (Escolha Um Nome)

e) Recodifique as variáveis “Conceito do gerente” e “Zona”. Salve novamente o arquivo.

1. Escolha na barra de ferramentas a opção Data;


2. Selecione Code;
3. Dentre as alternativas apresentadas, escolha a 2ª opção: Numeric to text;
4. Posicione o cursor em: (Code data from columns);
(1)
5. Clique duas vezes no nome da variável Conceito do gerente, para informar qual variável
está sendo codificada;
6. Posicione o cursor em: (Into columns);
7. Clique novamente duas vezes no nome da variável Conceito do gerente para informar em
que coluna será armazenada a informação;
8. Preencha as informações:
Original values New
3 Excelente
2 Bom
1 Regular
9. Clique Ok;
10. Repita o procedimento para Zona;
11. Salve as alterações no arquivo de dados: FILE → SAVE CURRENT WORKSHEET.
(1) Na maioria dos procedimentos temos que informar a variável que será utilizada. Primeiro
posicionar o cursor no quadro variables Depois podemos proceder de uma das três maneiras:
• Clicar duas vezes no nome da variável que aparece no retângulo à esquerda com o botão
esquerdo do mouse.
• Clicar uma vez no nome da variável e uma vez em select.
• Digitar C e o número correspondente da coluna que contem os dados da variável. Por
exemplo, no caso da variável Conceito do gerente, digite C3.

Sintetizando os Dados

Alguns procedimentos adequados a cada tipo de variável:

Para as qualitativas nominais:


• Tabelas (Distribuição de freqüência, Tabulação cruzada, Distribuição de freqüência relativa
percentual);
• Gráficos: (setores, barras, Pareto, etc);
• Medidas (freqüências relativas e moda).

Para as qualitativas ordinais:


• Tabelas (Distribuição de freqüência, Tabulação cruzada, Distribuição de freqüência relativa
percentual, Distribuição de freqüência relativa acumulada e Distribuição de freqüência relativa
percentual acumulada);
• Gráficos: (setores, barras, Pareto, etc);
• Medidas: freqüências relativas e moda.

Para as quantitativas:
• Tabelas (Distribuição de freqüência, Distribuição de freqüência relativa percentual, Distribuição de
freqüência acumulada e Distribuição de freqüência relativa percentual acumulada);
• Gráficos (Gráfico de pontos, Ramo e folhas, Gráfico em caixas, Histograma, Diagrama de dispersão);
• Medidas: (Média aritmética, Mediana, Quartil Inferior e Superior, Variância, Desvio padrão, Coeficiente
de variação, Coeficiente de correlação etc.)
© DME /2006-2 6 de 70

f) Sintetize as variáveis qualitativas através de freqüências e porcentagens (tabelas simples).

1. Escolha na barra de ferramentas Stat;


2. Escolha o comando Tables;
3. Escolha a opção Tally Individual Variables;
4. Escolha a variável qualitativa para as quais se deseja construir a distribuição de freqüências:
Conceito do Gerente e Zona;
5. Escolha as opções de saída (Display): frequências (Counts), porcentagens (Percents) para
a variável Zona, frequências acumuladas (Cumulative counts) ou ainda porcentagens
acumuladas (Cumulative percents);
6. Clique Ok e analise as tabelas apresentadas.

Complete:
f1) Na amostra temos ________ vendedores regulares e _______% de bons.
f2) ______ % são bons ou excelentes vendedores.
f3) _______ % dos vendedores foram alocados na zona sul, que corresponde a _______
pessoas.

Observação: A variável quantitativa discreta Teste também pode ser sintetizada da mesma
maneira uma vez que assume poucos valores e é discreta.
Complete:
f4) ______ vendedores acertaram 5 questões no teste de múltipla escolha, que corresponde a
_____%.
f5) ______ vendedores acertaram menos de 5 questões no teste de múltipla escolha.
f6) ______ % dos vendedores acertaram menos de 5 questões no teste de múltipla escolha.
f7) ______ % dos vendedores acertaram 5 ou menos questões no teste de múltipla escolha.

g) Construa um gráfico de barras para a variável Conceito do Gerente.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Bar Chart (Gráfico de Barras);
3. Clique Ok;
4. Passe a variável Conceito do Gerente para o quadro Categorical variables,
5. Escolha a opção Labels. Esta opção permite escrever um título apropriado para o gráfico
(Titles/Footnotes) e apresentar as freqüências de cada categoria selecionando Data labels
e Use Y-value labels em Label type;
6. Clique Ok..

h) Construa um gráfico de setores para a variável Zona.

1. Escolha na barra de ferramentas Graph;


2. Selecione Pie Chart (Gráfico de Setores);
3. Selecione Chart raw data;
4. Passe a variável Zona para o quadro Categorical variables;
5. Escolha a opção Labels. Esta opção é usada tanto para escolher um título apropriado para o
gráfico (Titles/Footnotes), como para apresentar o nome, a freqüência e a porcentagem de
cada categoria (Slice Labels);
6. Clique Ok.
© DME /2006-2 7 de 70

1.3. Análise Bidimensional (variáveis qualitativas)


Os dados podem ser sintetizados simultaneamente em uma tabulação cruzada, a fim de revelar a relação
entre duas (ou mais) variáveis. Podemos sintetizar simultaneamente os dados de duas variáveis em uma
tabela de dupla entrada. Para isso:

a) Faça o cruzamento entre as variáveis: Conceito e Zona e responda as perguntas a seguir:

1. Escolha na barra de ferramentas Stat;


2. Escolha o comando Tables;
3. Escolha a opção Cross Tabulation and Chi Square;
4. Agora, escolha para o quadro Categorical variables as variáveis Conceito no quadro
correspondente a For rows: e Zona no quadro correspondente a For columns: . Entre as
opções de saída (Display), escolha: frequências (Counts)
5. Clique Ok.

Complete a tabela 1.2:

Tabela 1.2: Tabulação cruzada para o Conceito do Gerente e divisão por Zonas de Vendas

Conceito do Zona
gerente Norte Sul Oeste Total
Regular
Bom
Excelente
Total

Responda:

a1) Considerando os 15 vendedores, qual é a porcentagem de vendedores que obtiveram o conceito


Regular e foram alocados na zona Oeste? ___________
a2) Entre os vendedores que tiveram o conceito Bom, qual é a porcentagem de vendedores que foi
alocada na zona Norte? ___________
a3) Qual é a porcentagem de vendedores classificados como regulares?__________
a4) Entre os vendedores alocados na zona Oeste, qual é a porcentagem de vendedores que obtiveram
conceito Regular? _________________
a5) Entre os vendedores alocados na zona Norte, qual é a porcentagem de vendedores que obtiveram
conceito Regular? _________________
a6) Entre os vendedores alocados na zona Sul, qual é a porcentagem de vendedores que obtiveram
conceito Regular? _________________

Se quisermos comparar as zonas em relação à classificação do vendedor devemos calcular as


porcentagens relativas aos totais de coluna na tabela anterior. Isto pode ser feito diretamente no Minitab
repetindo os passos de 1 a 4 e escolhendo entre as opções de saída as porcentagens relativas ao total
das colunas (Column Percents). Em seguida, clique em ok.

b) Complete a tabela 1.3:

Tabela 1.3: Distribuição conjunta das proporções (em porcentagens) da classificação do Conceito do
gerente de acordo com a Zona

Conceito do Zona
gerente Norte Sul Oeste Total
Regular
Bom
Excelente
Total 100 100 100 100
© DME /2006-2 8 de 70

O minitab permite construir uma tabela de dupla entrada colocando em cada célula todas as informações
possíveis, ou seja:
Freqüência;
Percentagem em relação ao total da linha;
Percentagem em relação ao total da coluna;
Percentagem em relação ao total da amostra;

Para isso, siga os passos:

1. Escolha na barra de ferramentas Stat;


2. Escolha o comando Tables;
3. Escolha a opção Cross Tabulation and Chi Square;
4. Agora, escolha para o quadro Categorical variables as variáveis Conceito no quadro
correspondente a For rows: e Zona no quadro correspondente a For columns: . Em
seguida, escolha as opções de saída (Display): frequências (Counts), porcentagens
relativas ao total das linhas (Row Percents),. porcentagens relativas ao total das colunas
(Column Percents) e porcentagens relativas ao total geral (Total Percents);
5. Clique Ok.

c) Represente o cruzamento entre as variáveis Conceito do Gerente e Zona através de um gráfico de


barras.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Bar Chart;
3. Escolha o tipo Stack ou Cluster e deixe a opção default ‘counts of unique values’ para Bar
represents: e clique Ok ;
4. Para o quadro Categorical variables, selecione as variáveis Zona e Conceito;
(2)
5. Selecione Labels → Data Label → Use y-values labels em Label Type → Ok ;
6. Clique Ok.
(2) Caso tenha esquecido de mandar mostrar os valores acima de cada coluna isto pode ser feito
depois do gráfico pronto. Para isso clique com o botão direito do mouse em cima do gráfico
→Add → Data Label → Label Type → Use y-values labels → Ok.

Bibliografia
ANDERSON, D. R.; SEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia.
2. ed. São Paulo: Pioneira Thomson Learning, 2002.

BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003.
© DME /2006-2 9 de 70

LABORATÓRIO DE ESTATÍSTICA – AULA 2


** Síntese Tabular, Gráfica e Numérica de Variáveis Quantitativas**.
**Análise Bidimensional**

2.1 Abrindo arquivos (planilha de trabalho)


Abra o arquivo de dados que você salvou na aula passada.

File → Open Worksheet → C → Temp → Nome do Arquivo

2.2 Síntese numérica de variáveis quantitativas


Sintetize as variáveis quantitativas calculando as medidas usuais: média aritmética, mediana, desvio
padrão o primeiro quartil (Q1), terceiro quartil (Q3), o mínimo e o máximo.

1. Escolha a opção Stat na barra de ferramentas;


2. Escolha a opção Basic Statistics;
3. Selecione a opção Display Descriptive Statistics;
4. Passe para o quadro Variables as variáveis Teste, Experiência e Vendas.
5. Selecione Ok.

Observação:
Como não usamos a opção Statistics o Minitab forneceu sua escolha padrão:
N = número de dados; N* = número de dados omissos;
Mean = média aritmética;
SE Mean = erro padrão da média, que é o desvio padrão dividido pela raiz quadrada do tamanho
da amostra. Esta medida é utilizada na inferência sobre a média populacional e será estudada
posteriormente;
StDev = desvio padrão; Minimum = mínimo; Q1 = primeiro quartil;
Median = mediana; Q3 = terceiro quartil; Maximun = máximo.

Poderíamos ter escolhido as medidas desejadas dentre uma lista de estatísticas disponíveis
usando a opção Statistics.

a) Complete:

Quadro 2.1: Síntese numérica para as variáveis quantitativas


Variáveis
Teste (número de Experiência (anos) Vendas (1000
Medidas questões certas) unidades
monetárias)
Menor valor
Primeiro quartil
Segundo quartil
Terceiro quartil
Maior valor
Média aritmética
Desvio padrão

b) O desvio padrão da variável vendas é de ________ mil unidades monetárias.


c) Suponha que um vendedor seja considerado excepcional se seu volume médio de vendas for
maior que dois desvios padrão acima da média geral. Quanto ele deve vender para ser
considerado excepcional?___________________________. Quais são os vendedores
excepcionais
____________________________________________________________________
d) Cinquenta por cento venderam, em média, menos de _________ mil unidades monetárias.
© DME /2006-2 10 de 70

e) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo
o
volume médio de vendas for inferior ao 1 quartil da distribuição. Qual é o volume mínimo de
vendas que um vendedor deve realizar para não ser transferido?
____________________________________________.
f) A menor nota no teste foi _______ e a maior _______. Setenta e cinco por cento acertaram
_____ ou mais questões.
g) Vinte e cinco por cento dos vendedores têm _______ ou mais anos de experiência.
h) Em média, os vendedores têm _____ anos de experiência.

2.3 Gráfico de pontos


Construa um gráfico de pontos para a variável Vendas.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Dot Plot (Gráfico de Pontos);
3. Escolha a opção Simple de One Y;
4. Selecione para o quadro Variables a variável Vendas;
5. Clique Ok.

Complete:

O valor máximo de vendas foi de _______ mil unidades monetárias. ______ vendedores tiveram um
volume médio mensal de 24000 unidades monetárias. No intervalo de 36 a 48 mil, temos _____
vendedores.

2.4 Gráfico de Ramo-e-folhas


Construa um Ramo-e-folhas para a variável Vendas.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Stem-and-leaf;
3. Selecione para o quadro Variables a variável Vendas;
4. Digite 5 no quadro correspondente ao Incremento;
5. Clique Ok.

Stem-and-Leaf Display: Vendas

Stem-and-leaf of Vendas N = 15
Leaf Unit = 1,0

1 1 6
7 2 113444
(2) 2 79
6 3 002
3 3
3 4
3 4 8
2 5 04

Complete:
_________ venderam 24 000 unidades monetárias ou menos.
_________ venderam de 27 a 29 000 unidades monetárias.
_________ venderam 48 000 unidades monetárias ou mais.
_________ venderam 30 000 unidades monetárias ou mais.

A forma da distribuição dos valores da variável Vendas é _____________________________.


Compare os valores da média aritmética e da mediana. A média está localizada no _______ ramo e
a mediana no _______ ramo.
© DME /2006-2 11 de 70

Complete:

Tabela 2.1: Vendas, em unidades monetárias.


Faixas de vendas Freqüências
10 000 ≤ x < 20 000
20 000 ≤ x < 30 000
30 000 ≤ x < 40 000
40 000 ≤ x < 50 000
50 000 ≤ x < 60 000
Total

2.5 Gráfico de Caixas (Boxplot)


Faça um Boxplot para a variável Vendas.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Boxplot;
3. Escolha a 1ª opção de gráfico Simple;
4. Clique Ok;
5. Passe a variável Vendas para o quadro Graph variables
6. Selecione Labels e escreva um título para o gráfico;
7. Clique Ok.

2.6 Análise Bidimensional I (uma variável quantitativa e outra qualitativa)


Os vendedores argumentam ao diretor que o critério de ser transferido devido às vendas menores
que o primeiro quartil não é justo, pois há zona de vendas menos privilegiada. A quem você daria
razão?

Para você responder este item, é necessário seguir os seguintes passos:

a) Calcule as medidas descritivas, para a variável Venda, de acordo com a variável Zona.
Analise os resultados, levando em conta as medidas de posição e de variabilidade. Não
esqueça de calcular os coeficientes de variação.

1. Escolha a opção Stat na barra de ferramentas;


2. Escolha a opção Basic Statistics;
3. Selecione a opção Display Descriptive Statistics;
4. Passe para o quadro Variables a variável Vendas;
5. Passe a variável Zona para o quadro By variable;
6. Clique em Statistics e selecione as estatísticas: Mean (Média), Standard Deviation (Desvio
padrão), Coefficient of variation (coeficiente de variação), Minimum (Mínimo), Maximum
(Máximo), First quartile (1º Quartil), Median (Mediana), Third quartile (3º Quartil);
7. Selecione Ok;
8. Selecione Ok.
© DME /2006-2 12 de 70

Complete:

Quadro 2.2: Sumário da variável Vendas, de acordo com a Zona para a qual o
vendedor foi designado.
Medidas Zona
Norte Sul Oeste
Menor valor
1º Quartil
Segundo quartil
3º Quartil
Maior valor
Média aritmética
Desvio padrão
Coeficiente de
variação

Responda:

Em média a zona pior para vendas é a _____________.


Os valores observados foram mais homogêneos em torno da respectiva média na zona
__________.

b) Faça o gráfico de caixas para a variável Vendas, de acordo com a variável Zona.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Boxplot;
3. Escolha With Groups na opção One Y e clique Ok;
4. Selecione para o quadro Graph Variables a variável Vendas;
5. Clique no quadro correspondente a Categorical variables for grouping e escolha a variável
Zona;
6. Clique Ok.

Analise o gráfico observando o que ocorreu com a zona oeste, em comparação com as outras.
______________________________________________________________________________
______________________________________________________________________________
________________

Complete:
os valores das amplitudes interquartílicas são: _______, ______ e ______ para as zonas norte,
sul e oeste, respectivamente.

2.7 Análise Bidimensional II (variáveis quantitativas)


Qual das variáveis, Teste ou Experiência observada na admissão, é mais importante para julgar um
futuro candidato ao emprego?

1) Faça um gráfico de dispersão para as variáveis: Teste e Vendas.

1. Escolha na barra de ferramentas Graph;


2. Escolha a opção Scatterplot;
3. Selecione o tipo Simple e clique Ok;
4. Escolha para Y a variável Vendas e para X a variável Teste;
5. Clique Ok.
© DME /2006-2 13 de 70

2) Calcule o coeficiente de correlação linear entre as variáveis: Teste e Vendas.

1. escolha a opção Stat na barra de ferramentas;


2. escolha a opção Basic Statistics;
3. selecione a opção Correlation;
4. passe para o quadro Variables as variáveis Vendas e Teste;
5. clique Ok.

c) Refaça os itens (a) e (b) para as variáveis Experiência e Vendas.

Bibliografia
ANDERSON, D. R.; SEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia.
2. ed. São Paulo: Pioneira Thomson Learning, 2002.

BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003.
© DME /2006-2 14 de 70

LABORATÓRIO DE ESTATÍSTICA - AULA 3


** Histograma **
3.1 Construção de Histograma
EXERCÍCIO 3.1 (Adaptado de Werkema, cap. 6, pág. 167). Uma fábrica de azulejos recentemente
começou a receber reclamações de seus clientes. A maioria das reclamações era relativa aos seguintes
problemas:
1. os azulejos, ao serem manuseados, quebravam-se facilmente.
2. o assentamento dos azulejos não produzia um resultado uniforme em relação ao nível da parede.
Em vista dessa situação, o gerente de vendas da indústria decidiu formar um grupo de trabalho para
estudar estes problemas. Na primeira fase do estudo, o grupo de trabalho concluiu que a produção de
azulejos com espessura inadequada poderia ser a causa dos problemas relatados pelos clientes. Esta
conclusão resultou do conhecimento dos seguintes fatos:
1. azulejos com espessura muito fina quebram-se facilmente.
2. a falta de uniformidade na espessura dos azulejos provoca dificuldades durante o seu
assentamento.
Sabe-se que os limites de especificação para a espessura dos azulejos são 5,0 ± 1.5 mm, ou seja, a
espessura dos azulejos deve variar entre 3.5 a 6.5 mm, sendo o valor nominal de especificação igual a
5.0 mm. Para avaliar se estavam ocorrendo problemas com a espessura dos azulejos produzidos, o
grupo decidiu retirar uma amostra aleatória dos azulejos fabricados pela empresa, medir a espessura
destes azulejos e comparar os resultados obtidos com as especificações. Como a indústria emprega
duas turmas de trabalho (turmas A e B) e pode haver diferença na qualidade dos azulejos produzidos por
cada turma, foi utilizada uma estratificação, sendo então retirada uma amostra de 80 azulejos produzidos
pela turma A e 80 fabricados pela turma B. Os dados coletados estão apresentados na Tabela 3.1 a
seguir e digitados no arquivo aula3ex1.mtw.

Tabela 3.1 - Medidas de espessura (em mm) de 160 azulejos produzidos pela fábrica separados por
turma de trabalho
Espessura dos azulejos (em mm)
Turma A Turma B
4.2 2.6 4.3 3.5 5.3 5.8 6.0 5.7
3.0 5.4 3.3 3.1 5.9 5.5 6.9 5.3
3.5 3.3 3.6 4.0 6.5 6.3 5.3 5.1
3.7 4.6 3.6 4.0 5.7 5.7 6.2 5.5
4.3 4.7 5.6 3.4 6.4 6.0 5.7 6.1
5.6 2.8 3.9 2.4 6.4 5.8 6.7 5.7
5.4 3.9 4.5 3.4 5.7 6.0 5.9 5.9
3.8 3.9 2.9 3.8 6.1 5.7 5.6 5.8
4.9 4.7 4.5 4.1 6.3 7.0 5.3 5.7
4.1 2.8 5.9 4.0 5.9 5.7 6.6 5.8
3.0 5.5 3.5 3.7 6.7 5.9 6.1 5.8
4.1 2.9 3.1 2.3 5.7 5.7 6.5 5.6
4.9 4.0 4.5 2.9 5.8 6.1 5.4 6.4
3.8 2.4 4.5 3.1 6.4 6.7 6.3 6.8
4.3 3.7 3.0 4.0 6.0 5.8 6.2 5.0
4.4 3.1 3.5 4.6 6.5 4.9 5.4 5.4
4.2 3.7 2.4 4.5 5.4 4.9 5.7 5.7
3.1 3.5 2.7 4.4 5.6 5.8 5.3 5.1
2.8 2.7 3.5 5.2 6.1 6.2 5.9 6.5
5.7 4.2 5.1 3.1 5.1 5.3 6.2 5.4

a) Responda:
Quais as reclamações dos Clientes?
____________________________________________________________________________________
____________________________________________________________
Os azulejos aceitáveis devem ter uma espessura de ______ a ______ mm.
© DME /2006-2 15 de 70

Os azulejos são fabricados por ___ turmas de trabalho.


O plano amostral utilizado foi: _________________ _______________.

b) Abra o arquivo aula3ex1.mtw.

File → Open Worksheet → ...... → aula3ex1.mtw

A primeira coluna (C1) contem todas as medidas de espessura. A coluna seguinte (C2) serve para indicar
qual turma produziu cada azulejo.

c) Calcule as medidas descritivas utilizando todos os dados de espessura.

Complete:
Média aritmética: _______ mm; Desvio padrão: _______ mm;
Menor valor: _______ mm; Primeiro quartil: _______ mm;
Mediana: _______ mm; Terceiro quartil: _______ mm;
Maior valor: _______ mm; Tamanho da amostra: ______ azulejos.

d) Construa um gráfico de pontos utilizando todos os dados e responda:


d1) Qual é a forma da distribuição das medidas de espessura dos azulejos produzidos pela
fábrica? ___________________________________________________________
d2) Qual é a moda (o valor de espessura mais freqüente)? _________mm.

e) Construa um histograma utilizando os dados de espessura dos 160 azulejos. Mostre as freqüências
acima de cada coluna e exiba no gráfico os limites de especificação. Para isso, siga os passos:

1. Selecione Graph;.
2. Selecione Histogram;
3. Escolha a opção Simple;
4. Selecione a variável Espessura para o quadro Graph variables.

... Dando um título ao histograma...


1. Selecione Labels;
2. Digite no quadro Title um título apropriado para o seu gráfico.

... Mostrando a frequência absoluta de cada classe...


1. Selecione Data Labels ainda na opção Labels;
2. Assinale Use y-values labels em Label Type;
3. Selecione Ok..

... Traçando os limites de especificação...


1. Selecione Scale;
2. Selecione Reference Lines...;
3. Digite 3,5 6,5 na caixa referente à Show references lines at X position;
4. Selecione Ok.

... Finalizando a primeira parte ...


5. Selecione Ok.

Responda:
e1) O histograma possui _____ classes;
e2) O ponto médio da primeira classe é de _____ mm;
e3) O ponto médio da última classe é de _____ mm;
e4) A largura da classe (diferença entre dois pontos médios consecutivos) é de ___ mm.
© DME /2006-2 16 de 70

f) O histograma não ficou da maneira desejada. Serão necessárias algumas modificações para que ele
apresente um formato mais útil para a análise dos dados. Essas modificações serão feitas
diretamente no gráfico.

Vamos modificar o histograma fazendo exibir os limites de classe em vez dos pontos médios.
Inicie a primeira classe com o limite de 2 mm e faça a última classe exibir o limite superior de 7,5
mm, com a largura de cada classe de 0,5 mm. Para isso, siga os passos:

... Definindo os limites de classe ...


1. Clique duas vezes nos valores do eixo X. Irá ser abrir uma caixa de diálogo Edit Scale;
2. Selecione Scale, e em Major Tick Positions selecione Positions of Ticks e digite 2:7,5/0,5 no
quadro correspondente;
3. Selecione Binning,
4. Selecione Cutpoint.em Interval Type e dentre as opções de Intervals Definition, selecione
Midpoint/cutpoint positions e digite 2:7,5/0,5 no quadro correspondente;
5. Selecione Ok.

... Nomeando os limites de especificação (limite inferior e limite superior de


especificação)...
1. Clique duas vezes em cima da referência 3,5. Irá abrir a caixa de diálogo: Edit Reference Lines;
2. Selecione Text e digite LIE no quadro correspondente ao 3,5;
3. Selecione Alignment; custom em Positions e escolha a opção Below, to the right na seta de
rolagem do quadro habilitado;
4. Repita os processos acima para a referência 6,5 e digite LSE no quadro correspondente ao 6,5 e
coloque-o na mesma posição em Alignment;
5. Selecione Ok.

Responda:
f1) O histograma possui agora _______ classes no lugar de 20 classes.
f2) A classe com maior número de azulejos possui o limite inferior de ____ mm e o superior de ____
mm.
f3) A primeira classe possui os limites: ______ e ______, enquanto que a última possui _____ e
_____ mm.
f4) Abaixo do limite inferior de especificação (LIE) temos _____ azulejos e acima do limite superior
de especificação (LSE) temos _____.
f5) A proporção de azulejos abaixo do limite inferior de especificação é de ____ % e a proporção de
azulejos acima do limite superior de especificação é de ____ %.
f6) A proporção de azulejos fora da especificação é de ____ %.
f7) A proporção de azulejos fabricados de acordo com a especificação é de ____ %.
f8) Você considera que a “espessura não adequada dos azulejos” pode ser considerada como uma
causa influente dos problemas detectados? _____.
f9) Justifique sua resposta.
______________________________________________________________________________
________________________________________________________________

g) Separe as medidas de espessura que estão na coluna 1 (Espessura) de acordo com a turma, ou
seja, coloque na coluna C3 os dados produzidos pela turma A e na coluna C4 os da turma B. Para
isso, siga os passos:

Criação das colunas C3 e C4 com os dados das Turmas A e B, respectivamente.


1. Selecione Data na barra de ferramentas;
2. Selecione Unstack Columns;
3. Para o quadro Unstack the data in, selecione C1 (Espessura);
4. Para o quadro Using subscripts, selecione C2 (Turma);
5. Assinale a opção: After last column in use em Store unstacked data;
6. Selecione Ok.
© DME /2006-2 17 de 70

h) Calcule as medidas descritivas usuais para a espessura dos azulejos de cada turma.

1. Selecione Stat;
2. Selecione Basic Statistics;
3. Selecione Display Descriptive Statistics;
(3)
4. Selecione as variáveis Espessura_A e Espessura_B para o quadro Variables ;
5. Selecione Statistics e escolha: Mean (Média), Standard deviation (Desvio-padrão), Coefficient
of variation (coeficiente de variação), First quartile (primeiro quartil), Median (Mediana), Third
quartile (terceiro quartil), Minimum (mínimo), Maximum (máximo), N nonmissing (no. válidos
de observações);.
6. Selecione Ok, duas vezes.
(3) Podemos também selecionar C1 em Variables e C2 em By Variables(optional)

Complete o quadro abaixo:

Quadro 3.1 Sumário das medidas de espessura para as turmas A e B


Turmas
Medidas A B
Número de observações
Menor valor
Quartil Inferior
Segundo quartil
Quartil Superior
Maior valor
Média aritmética
Desvio padrão
Coeficiente de variação

Qual turma produz azulejos mais homogêneos em torno da respectiva média? _______

i) Construa dois histogramas, para a Turma A e B separadamente.

1. Selecione Graph;
2. Selecione Histogram;
3. Selecione as variáveis C3 (Turma A) e C4 (Turma B) para o quadro Graph variables;
4. Selecione Ok.
5. Refaça os processos para ‘definir os limites das classes’ e nomear ‘os limites de especificação’.

Com base em tudo que foi feito, responda:


i1) Compare a espessura dos azulejos produzidos pelas duas turmas levando em consideração a
proporção de azulejos fora de especificação produzidos por cada turma. A turma A produz ____%
abaixo do limite inferior de especificação e a turma B produz ____% acima do limite superior de
especificação.

i2) Você considera que as duas turmas trabalham do mesmo modo ou existe diferença entre a
qualidade dos azulejos produzidos pelas duas turmas? Justifique sua resposta.
________________________________________________________________________________
__________________________________________________________________

i3) O problema de quebra dos azulejos parece ser comum aos azulejos produzidos por ambas as
turmas de trabalho da empresa ou parece estar associado a uma turma específica? Por quê?
_______________________________________________________
© DME /2006-2 18 de 70

3.2 Exercitando o que você aprendeu


EXERCÍCIO 3.2. Apresentamos a seguir as notas finas de uma turma de Estatística, do semestre
passado, com 60 alunos. Os dados estão digitados no arquivo aula3ex2.mtw.

68 63 51 60 65 73 60 60 67 60
62 49 60 52 61 79 41 60 60 64
27 47 60 85 68 72 75 60 49 26
65 68 70 65 60 75 49 29 74 61
65 38 39 80 42 82 65 38 52 57
53 70 82 76 82 97 31 96 77 75

a) Abra o arquivo aula3ex2.mtw que contém os dados s sintetize as notas finais desta turma calculando
as medidas descritivas usuais.

Complete:
A s notas finais dos ____ alunos variaram de ____ a ____, com média de ____, mediana de _____ e
desvio padrão de ___ pontos. Os 25% melhores alunos ficaram com nota maior ou igual _____ e os 25%
piores ficaram com nota menor ou igual a ____ pontos.

b) Construa um gráfico de pontos. Comente.


____________________________________________________________________________________
____________________________________________________________________

c) Construa um gráfico Ramo-e-folhas com um incremento de 10 pontos.

Responda:
c1) A mediana está localizada no __________ ramo e a média no ____ ramo;
c2) ______ alunos ficaram com 57 pontos ou menos;
c3) ______ alunos ficaram com 70 pontos ou mais;
d4) ______ alunos ficaram com nota de 60 a 68 pontos;
c5 ) ______ alunos ficaram com 39 pontos ou menos;
c6) A forma da distribuição das notas é: ________________.

Stem-and-Leaf Display: Notas

Stem-and-leaf of Notas N = 60
Leaf Unit = 1,0
3 2 679
7 3 1889
13 4 127999
18 5 12237
(24) 6 000000000011234555557888
18 7 00234555679
7 8 02225
2 9 67

d) Construa um histograma com o limite inferior da primeira classe igual a 20, o limite superior da última
igual a 100 e a amplitude da classe igual a 10 pontos. Considerando que a nota mínima de
aprovação é 60, coloque este limite de especificação no gráfico e calcule a porcentagem de alunos
reprovados nessa disciplina de Estatística (Caso você tenha concluído o histograma sem usar a
opção Data Labels dentro de Labels, você pode clicar na barra de ferramentas em: Editor → Add →
Data Labels → Ok).

Bibliografia
WERKEMA, M. C. C. As ferramentas estatísticas básicas para o gerenciamento de processos.
Belo Horizonte: UFMG: Fundação Christiano Ottoni, 1995. (Ferramentas de Qualidade, 2).
© DME /2006-2 19 de 70

LABORATÓRIO DE ESTATÍSTICA - AULA 4


** Diagrama de Causa-e-Efeito e Gráfico de Pareto **
4.1 Diagrama de Causa e Efeito
“O Diagrama de Causa e Efeito é uma ferramenta utilizada para apresentar a relação existente entre um
resultado de um processo (efeito) e os fatores (causas) do processo que, por razões técnicas, possam
afetar o resultado considerado” (Werkema, 1995).

O diagrama é utilizado para sumarizar e apresentar as possíveis causas do problema considerado,


atuando como um guia para a identificação da causa fundamental deste problema e para a determinação
das medidas corretivas que deverão ser adotadas. O diagrama, por lembrar, o esqueleto de um peixe é
também denominado de Diagrama de Espinha de Peixe, ou Diagrama de Ishikawa (em homenagem ao
1
professor Kaoru Ishikawa ).

EXERCÍCIO 4.1 (WERKEMA, 1995, p. 97):Uma indústria automobilística verificou que, nos últimos
meses, ocorreu um aumento do número de reclamações sobre a ocorrência de defeitos no suporte da
lanterna traseira de um modelo de automóvel por ela fabricado. A empresa desejava eliminar esta
situação indesejável. Na etapa de identificação do problema, os técnicos da indústria fizeram uma
reunião com as pessoas envolvidas no processo, com o objetivo de levantar as possíveis causas de
defeito no suporte da lanterna (brainstorming). Os principais tipos de defeitos sugeridos foram: moldagem
solta, solda quebrada, centro da moldagem deslocado, lateral da moldagem deslocada, moldagem
arranhada, moldagem dentada, plástico arranhado, limpeza incompleta, orifício deslocado e pino
deslocado.

Os defeitos foram classificados, no quadro abaixo, de acordo com sua causa. Por exemplo, o defeito
Moldagem solta foi considerado como devido à Causa Humana.

Quadro 4.1 - Principais tipos de defeitos levantados de acordo com suas causas
Causas Tipos de defeitos
Causa Humana Moldagem solta.
Causa de Máquina Solda quebrada.
Causa de Material Plástico arranhado.
Causa do Método Centro da moldagem deslocado; Lateral da moldagem deslocada;
Moldagem arranhada; Moldagem dentada.
Causa da Medida Orifício deslocado; Pino deslocado.
Causa do Ambiente Limpeza incompleta.

a) Com os dados do quadro 4.1, veja a maneira de construir a planilha de trabalho.

1. Inicie o Minitab e abra a pasta de trabalho (worksheet) aula4ex1.mtw;


2. Observe que as causas: Humana, Máquina, Material, Método, Medida e Ambiente foram
digitadas nos locais apropriados das colunas de C1 a C6, respectivamente;
3. Em cada coluna, foram digitados os tipos de defeitos, um em cada linha, de acordo com sua
causa.

1
O professor Kaoru Ishikawa construiu o primeiro diagrama de causa e efeito para explicar a alguns engenheiros de uma indústria
japonesa como vários fatores de um processo estavam interrelacionados.
© DME /2006-2 20 de 70

b) Com os dados da planilha, construa um Diagrama de Causa e Efeito (Gráfico de Espinha de


Peixe).

Para isso, siga os passos:

1) Selecione Stat > Quality Tools > Cause-and-Effect


2) Em Causes, selecione as colunas C1 a C6, respectivamente, nas seis primeiras linhas;
3) Em Label, é preferível traduzir as identificações das causas. Digite Humana, Máquina, Material,
Método, Medida e Ambiente, respectivamente, nas seis primeiras linhas;
4) Em Effect digite Defeitos no suporte da lanterna traseira. Em Titlle digite Diagrama de Causa e
efeito para os Defeitos no suporte da lanterna traseira.
5) Clique Ok.

4.2 Gráfico de Pareto


Este gráfico é usado nas aplicações de controle da qualidade para identificar a maioria das causas
importantes de problemas. É um gráfico de colunas arranjadas em ordem descendente de altura, com a
categoria que ocorre com maior freqüência aparecendo em primeiro lugar.

O princípio de Pareto estabelece que um problema pode ser atribuído a um pequeno número de causas
vitais. Logo, se forem identificadas as poucas causas vitais dos poucos problemas vitais enfrentados pela
empresa, será possível eliminar quase todas as perdas por meio de um pequeno número de ações. Ou
seja, em um primeiro momento, devemos concentrar nossa atenção sobre os poucos vitais, deixando de
lado os muitos triviais, para que os problemas possam ser resolvidos da forma mais eficiente possível.

O princípio de Pareto foi inicialmente estabelecido por J. M. Juran, que adaptou aos
problemas da qualidade a teoria para modelar a distribuição de renda desenvolvida pelo
sociólogo e economista italiano Vilfredo Pareto (1843-1923). Pareto mostrou, em 1897, que
a distribuição de renda era muito desigual, com a maior parte da riqueza pertencendo a
muito poucas pessoas. Juran foi o primeiro a notar que esta mesma idéia se aplicava aos
problemas da qualidade – a distribuição dos problemas e de suas causas é desigual e,
portanto as melhorias mais significativas poderão ser obtidas se nossa atenção for
concentrada, primeiramente, na direção dos poucos problemas vitais e logo a seguir na
direção das poucas causas vitais destes problemas.

O Gráfico de Pareto dispõe a informação de forma a permitir a concentração dos


esforços para melhoria nas áreas onde os maiores ganhos podem ser obtidos.
(WERKEMA, 1995, p. 76)
© DME /2006-2 21 de 70

EXERCÍCIO 4.2: Voltando ao exercício 4.1. Depois de criado o Diagrama de Causa e Efeito, os técnicos
da indústria contaram o total de peças defeituosas encontradas em uma amostra de peças produzidas
durante uma semana de trabalho, de acordo com os tipos de defeito que foram detectados. Os dados
estão na tabela abaixo e se encontram no arquivo aula4ex2.mtw.

Note que nesta tabela a segunda coluna representa a freqüência de ocorrência de cada tipo de defeito e
a terceira coluna representa o prejuízo resultante da ocorrência de um defeito do tipo correspondente
(prejuízo unitário).

Quantidade de Prejuízo
Tipo de defeito
Defeitos Unitário (US$)
Moldagem solta 14 0,25
Solda quebrada 01 0,10
Centro da moldagem deslocado 04 0,15
Lateral da moldagem deslocada 24 0,10
Moldagem arranhada 01 0,10
Moldagem dentada 44 0,75
Plástico arranhado 07 5,25
Limpeza incompleta 79 0,30
Orifício deslocado 01 0,10
Pino deslocado 05 0,35

a) Abra o arquivo aula4ex2.mtw.


b) Crie uma coluna com os prejuízos totais correspondente a cada tipo de defeito. Para isso
siga os passos:

1. Selecione Calc > Calculator.


2. No quadro Store result in variable, digite C4 e no quadro Expression, digite C3*C2.
3. Clique em Ok
4. Na planilha, digite um título apropriado para C4 (por exemplo: Prejuízo Total).

Responda:
b1) Qual o tipo de defeito que possui o maior prejuízo unitário? ____________
b2) Qual o tipo de defeito que possui o maior prejuízo total? ____________

c) Construa um Gráfico de Pareto onde o eixo vertical represente a quantidade de defeitos. Siga
os passos:

1. Selecione Stat > Quality Tools > Pareto Chart.


2. Escolha Chart defects table (na segunda parte do quadro).
3. Para o quadro Labels in selecione a coluna C1 e para o quadro Frequencies in selecione a
coluna C2.
4. Digite um título apropriado para o gráfico no quadro Title (por exemplo: Quantidade de defeitos).
5. Clique Ok.

Responda:
c1) Você tem na coluna 1 da planilha____ categorias de defeitos e no gráfico foram destacadas
____ categorias.

c2) Quantas categorias de defeitos foram agrupadas na coluna “outros” do gráfico? ______. A
categoria “outros” corresponde a ___ % do total de defeitos.
© DME /2006-2 22 de 70

c3) Agrupe as categorias menos freqüentes criando uma nova categoria “outros” que englobe até
10% do total de defeitos. Para isso, siga os passos 1 a 3 do quadro acima e modifique 95 para 90
em:
Combine defects after the first ______ % into one

No novo gráfico:
Quantas categorias de defeitos foram agrupadas na categoria “outros”? ______.
A categoria “outros” corresponde a ___ % do total de defeitos.

c4) Qual o principal defeito no suporte da lanterna? ________________. Quantas vezes este
defeito ocorreu? _____________. Este defeito corresponde a ___ % do total de defeitos.

c5) Os dois defeitos mais freqüentes contribuem com ___ % do total dos defeitos. Identifique os
tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro lugar, com o objetivo
de melhorar os resultados que vinham sendo obtidos pela indústria. Justifique sua resposta.
______________________________________________________________________________
______________________________________________________________________________

d) Construa um Gráfico de Pareto onde o eixo vertical represente o prejuízo total associado a
cada tipo de defeito.
Siga os passos:

1. Selecione Stat > Quality Tools > Pareto Chart.


2. Escolha Chart defects table (na segunda parte do quadro).
3. Para o quadro Labels in selecione a coluna C1 e para o quadro Frequencies in selecione a
coluna C4.
4. Digite um título apropriado para o gráfico no quadro Title (por exemplo: Prejuízo Total).
5. Clique Ok.

d1) Qual categoria de defeito responde pelo maior prejuízo total? _______________. O prejuízo
em dólares para este tipo de defeito é de ___________, que corresponde a ____ % do prejuízo
total.

d2) Quantas colunas há no gráfico? Foram aglomerados _____ categorias de prejuízo total na
categoria “outros”.

d3) Identifique os dois tipos de defeitos que os técnicos da empresa deveriam “atacar” em
primeiro lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria.
Justifique sua resposta. _________________________
____________________________________________________________________

d4) Calcule a quantia em dólares que poderia ser economizada pela indústria, caso estes dois
defeitos fossem eliminados (obs: posicione o cursor no segundo ponto da ogiva).
© DME /2006-2 23 de 70

EXERCÍCIO 4.3 (WERKEMA, 1995, p. 77): Uma indústria fabricante de lentes classificou uma amostra
retirada da produção de uma semana, de acordo com os tipos de defeitos detectados. Os resultados
estão abaixo.

Tipo de defeito Quantidade


Arranhão 12
Trinca 41
Revestimento inadequado 55
Espessura inadequada 11
Não acabada 5
Outros 3

a) Abra o arquivo aula4ex3.mtw.

b) Construa o Gráfico de Pareto onde o eixo vertical representa a quantidade de defeitos inicial
(colunas C1 e C2).

c) Identifique os dois tipos de defeitos que você "atacaria" em primeiro lugar, com o objetivo de
melhorar os resultados que vêm sendo obtidos pela indústria. Justifique a sua resposta.
_________________________________________________________________________________
_________________________________________________________________________________

d) Após a adoção das medidas corretivas propostas pelos funcionários, a indústria coletou uma
nova amostra, constituída de 1200 lentes, obtendo os resultados apresentados na tabela a
seguir.

Quantidade após adoção de


Tipo de defeito
medidas corretivas
Arranhão 14
Trinca 6
Revestimento inadequado 8
Espessura inadequada 12
Não acabada 7
Outros 4

d1) Construa o Gráfico de Pareto onde o eixo vertical representa a quantidade de defeitos após a
implantação das melhorias (colunas C1 e C3).

d2) Quais são os dois principais problemas agora? _______________ e ___________?


Eles representam ____% do total de defeitos.

e) Calcule a Melhoria Total usando a seguinte fórmula:

TDA - TDD
MT = × 100%
TDA
onde:
MT = Melhoria Total; TDA = Total de Defeitos Antes e TDD = Total de Defeitos Depois.
© DME /2006-2 24 de 70

4.3 Desdobramento de Gráficos de Pareto

O desdobramento de gráficos de Pareto consiste em tomar as categorias identificadas como prioritárias


(“poucos vitais”) em um primeiro gráfico como novos problemas a serem analisados por meio de novos
gráficos de Pareto. O desdobramento continua até que o nível de detalhamento desejado seja obtido.

EXERCÍCIO 4.4: (WERKEMA,1995 p. 94). Uma indústria automobilística registrou a ocorrência de 161
defeitos em automóveis de um certo modelo. Os dados da tabela abaixo e os desdobramentos dos dois
principais defeitos estão no projeto do Minitab projAula4ex4.mpj .

Quantidade de
Tipo de defeito
defeitos
Motor 20
Sistema elétrico 11
Carroceria 80
Acessórios 45
Outros 5

Defeitos em Carroceria Defeitos em Acessórios


Quantidade Quantidade
Tipo de
de Tipo de defeito de
defeito
defeitos defeitos
Pintura 45 Ar-condicionado 25
Pára-Brisa 20 Limp. pára-brisa 12
Estofamento 10 Rádio 5
Outros 5 Outros 3

Defeitos em Pintura Defeitos em Ar-condicionado


Quantidade Quantidade
Tipo de Tipo de
de de
defeito defeito
defeitos defeitos
Bolha 11 Muito quente 6
Mancha 4 Não funciona 14
Arranhão 28 Muito frio 3
Outros 2 Outros 2
a) Abra o arquivo:
File → Open project →....→ projAula4ex4.mpj

b) Construa os gráficos de Pareto para as tabelas acima. Selecione, usando o menu Window, cada
uma das pastas de trabalho (worksheets)
b1) Abra a planilha “defeitos nos automóveis”, construa o gráfico de Pareto e responda:
Os defeitos mais frequentes são: ______________ e ______________. Eles respondem por ____ e
____% dos defeitos respectivamente. Juntos respondem por ___% dos defeitos.
b2) Abra a planilha “defeitos na carroceria”, construa o gráfico de Pareto e responda:
Os defeitos mais frequentes são: ______________ e ______________. Eles respondem por ____ e
____% dos defeitos respectivamente. Juntos respondem por ___% dos defeitos.
b3) Abra a planilha “defeitos na pintura” , construa o gráfico de Pareto e responda:
A categoria arranhão corresponde a ____% dos defeitos na pintura.
b4) Abra a planilha “defeitos nos acessórios”, construa o gráfico de Pareto e responda:
Os defeitos no ar condicionado respondem por ____% dos defeitos nos acessórios
© DME /2006-2 25 de 70

b5) Abra a planilha “defeitos no ar condicionado”, construa o gráfico de Pareto e responda:


O que mais causa reclamação é que o ar não funciona, correspondendo a ____% das reclamações.

4.4 Estratificação de Gráficos de Pareto

A comparação de gráficos de Pareto construídos considerando diferentes níveis de fatores de


estratificação de interesse pode ser muito útil para a identificação das causas fundamentais de um
problema. A estratificação consiste agrupar os dados de acordo com fatores de forma a possibilitar uma
melhor avaliação do problema. Os fatores de estratificação usuais são: região, turno, tempo (dia, semana,
mês), operador, lote de matéria prima e máquina (tipo, fabricante).

EXERCÍCIO 4.5: Uma companhia de seguros colocou como meta reduzir a ocorrências de erros no
preenchimento de formulários de apólice de seguro. Nesta empresa, existiam dois modelos distintos de
formulários (I e II), quatro operadores (Júnia, Júlia, Jorge e José) trabalhavam no preenchimento das
apólices e cinco tipos de erros (A, B, C , D e E) poderiam ocorrer. Durante uma semana de trabalho
foram registrados 557 erros de preenchimentos nos formulários. Os dados estão digitados no arquivo
aula4ex5.mtw. (adaptado de WERKEMA,1995, p. 100).

a) Construa um gráfico de Pareto para os Tipos de erro;


1. Abra o arquivo aula4ex5.mtw;
2. No menu, selecione Stat > Quality Tools > Pareto Chart;
3. Escolha Chart defects data in e selecione C1 (Tipo de erro). Clique em Ok.

Observação: Note que estamos trabalhando com os dados brutos, ou seja, cada linha do
arquivo corresponde a um erro de preenchimento do formulário. Por isto é que usamos
“Chart defects data in” em vez de “Chart defects table”. Este último é usado quando já
temos uma tabela já pronta com os tipo de erros e a freqüência de cada um.

b) Repetir os passos do item a) para Operador, Dia da semana e Formulário. Quais são as suas
conclusões?

Complete:

O tipo de erro mais freqüente no preenchimento das apólices é o tipo ____, que corresponde a _____ %
do total de erros. O operador que mais comete erros é __________, que responde por ___% do total de
erros dos operadores. O dia da semana não é um causador de problemas, pois a Quinta, a Terça, a
Quarta, a Sexta e a Segunda feira respondem por _____, _____, _____, _____e _____% dos erros,
respectivamente. Também não há grande diferença entre a quantidade de erros nos dois tipos de
formulário, onde o formulário I responde por ___%dos preenchidos com erro e o do tipo II com o restante.

c) Construa um gráfico de Pareto para os tipos de erros considerando: Operador, Dia da semana e
Formulário. Analise os resultados.

Siga os passos:
1. No menu, selecione Stat > Quality Tools > Pareto Chart;
2. Escolha Chart defects data in e selecione C1 (Tipo de erro);
3. Em BY variable in, selecione C2 (ou C3 ou C4). Clique em Ok
4. Deixe a opcao padrão: Default (all on one graph, same ordering of bars).

Bibliografia

WERKEMA, M. C. C. As ferramentas básicas para o gerenciamento de processos. Belo Horizonte:


UFMG: Fundação Christiano Ottoni, 1995 (Ferramentas da Qualidade, 2). cap 4 e 5.
© DME /2006-2 26 de 70

LABORATÓRIO DE ESTATÍSTICA - Aula 5


** Correlação **
EXERCÍCIO 5.1 (Bussab & Morettin, cap. 4, pag. 96) Numa amostra de cinco operários de uma empresa
foram observadas duas variáveis: anos de experiência num dado cargo e tempo, em minutos, gasto na
execução de uma certa tarefa relacionada com esse cargo. Os dados estão digitados no arquivo
aula5ex1.mtw.

Experiência 1 2 4 4 5
Tempo 7 8 3 2 2
a) Abra o arquivo.
b) Calcule a média e o desvio padrão de cada variável. Preencha o quadro abaixo.

Estatísticas Experiência Tempo

Média

Desvio padrão

c) Escolha adequadamente X (variável explicativa) e Y (variável resposta).


X = ________________________________ Y = ________________________________

d) Construa o diagrama de dispersão.

1. escolha a opção Graph na barra de ferramentas;


2. escolha a opção Scatterplot;
3. escolha a opção Simple e selecione Ok;
4. em Y variables entre com a variável Tempo e em X variables entre com a variável Experiência;
5. selecione Ok.

e) Algumas linhas de referência podem ser incluídas no gráfico para auxiliar na interpretação. Inclua no
diagrama de dispersão as linhas de referência nas posições: 4,4 minutos ( y = 4,4) e 3,2 anos
( x = 3,2). Analise o gráfico.

1. selecione o gráfico clicando sobre ele com o mouse;


2. escolha a opção Editor na barra de ferramentas (ou use o botão direito do mouse);
3. escolha a opção Add e depois Reference Lines;
4. em Show reference lines for Y positions digite 4,4;
5. em Show reference lines for X positions digite 3,2.
6. selecione Ok.

f) Calcule a covariância entre as variáveis X e Y.

1. escolha a opção Stat na barra de ferramentas;


2. escolha a opção Basic Statistics;
3. selecione a opção Covariance;
4. em Variables, entre com as variáveis Experiência e Tempo;
5. selecione Ok.
© DME /2006-2 27 de 70

g) Calcule e interprete o coeficiente de correlação linear de Pearson.

1. escolha a opção Stat na barra de ferramentas;


2. escolha a opção Basic Statistics;
3. selecione a opção Correlation;
4. em Variables, entre com as variáveis X e Y e desmarque a seleção Display p-values;
5. selecione Ok.

Para melhor entendimento a respeito do coeficiente de correlação abra o projeto projAula5ex1.mpj


com alguns gráficos exibindo diversas formas de correlação.

File → Open project → .... → projAula5ex1.mpj

EXERCÍCIO 5.2 (Bussab & Morettin, cap. 4, pag. 81) Dados o tempo de serviço em anos de 10
funcionários de uma companhia de seguros e a quantidade de clientes que cada um possui, verifique se
existe uma associação entre essas variáveis. Os dados estão digitados no arquivo aula5ex2.mtw.

Tempo de serviço 2 3 4 5 4 6 7 8 8 10
Quantidade de clientes 48 50 56 52 43 60 62 58 64 72

a) Escolha adequadamente X e Y.
b) Construa o diagrama de dispersão e descreva a relação que existe entre as variáveis.
c) Calcule a média das duas variáveis e inclua no gráfico as linhas de referência
d) Calcule e interprete o coeficiente de correlação linear de Pearson.

EXERCÍCIO 5.3 (Bussab & Morettin, cap. 4, pag. 82) Numa pesquisa feita com 10 famílias com renda
bruta mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis: Renda: renda bruta
mensal (expressa em números de salários mínimos) e %R_Saúde: porcentagem da renda bruta anual
gasta com assistência médica. Os dados estão digitados no arquivo aula5ex3.mtw.

Renda 12 16 18 20 28 30 40 48 50 54
%R_Saúde 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5

a) Escolha adequadamente X e Y.
b) Construa o diagrama de dispersão;
c) Calcule e interprete o coeficiente de correlação linear de Pearson.

EXERCÍCIO 5.4 (Farias et al, cap 13, pág. 232) Os quatro conjuntos de dados a seguir foram preparados
pelo estatístico F. J. Anscombe e são usados com freqüência em aulas sobre correlação. Os dados estão
digitados no arquivo aula5ex4.mtw.

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4


X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
© DME /2006-2 28 de 70

a) Calcule a média e o desvio padrão das variáveis X1, X 2 , X 3 e X 4 .


b) Calcule a média e o desvio padrão das variáveis Y1 , Y2 , Y3 eY4 .
c) Calcule o coeficiente de correlação linear de Pearson para cada conjunto de dados.
d) Construa o diagrama de dispersão para cada conjunto de dados.

1. escolha a opção Graph na barra de ferramentas;


2. escolha a opção Scatterplot;
3. escolha a opção Simple e selecione Ok;
4. preencha o quadro:

Y variables X variables
1 Y1 X1
2 Y2 X2
3 Y3 X3
4 Y4 X4

5. selecione a opção Múltiple graphs;


6. escolha a opção In separate panels of the same graph;
7. selecione Ok duas vezes.

e) Analise os resultados.

EXERCÍCIO 5.5 (Barbetta, cap. 13, p.275). Considere as variáveis nota na prova do vestibular de
matemática e nota final na disciplina de cálculo. Estas variáveis foram observadas para 20 alunos, ao
final do primeiro período letivo de um curso de engenharia. Os dados são apresentados logo abaixo e
estão digitados no arquivo aula5ex5.mtw.

Matemática 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32 65 47 28 67

Cálculo 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58 88 71 52 88

a) Escolha adequadamente X e Y.
b) Construa um diagrama de dispersão e verifique se existe correlação entre os dados observados
das duas variáveis.
c) Calcule coeficiente de correlação entre a nota no vestibular de matemática e a nota na disciplina
de cálculo.
d) Existe algum aluno que foge ao comportamento geral dos demais (ponto discrepante)?
e) Retire o valor discrepante detectado e calcule novamente o coeficiente de correlação. Interprete.

EXERCÍCIO 5.6 (Bussab & Morettin, cap.4, p. 96) Muitas vezes a determinação da capacidade de
produção instalada para certo tipo de indústria em certas regiões é um processo difícil e caro. Como
alternativa, pode-se estimar a capacidade de produção através da escolha de uma outra variável de
medida mais fácil e que esteja linearmente relacionada com ela.

Suponha que foram observados os valores para as variáveis: capacidade de produção instalada (em
2
toneladas), potência instalada (em 1000 kw) e área construída (em 100 m ). Com base em um critério
estatístico qual das variáveis você escolheria para estimar a capacidade de produção instalada. Os
dados estão digitados no arquivo aula5ex6.mtw.

Cap. Prod. Inst. 4 5 4 5 8 9 10 11 12 12


Potência Inst. 1 1 2 3 3 5 5 6 6 6
Área construída 6 7 10 10 11 9 12 10 11 14
© DME /2006-2 29 de 70

a) Construa o diagrama de dispersão da capacidade de produção instalada com cada uma das
possíveis variáveis explicativas. Qual variável parece estar mais correlacionada com a
capacidade de produção instalada?
b) Calcule o coeficiente de correlação nos dois casos. O coeficiente confirma a impressão visual dos
diagramas?

EXERCÍCIO 5.7 No arquivo aula5ex7.mtw são apresentados os dados de 100 profissionais da área
gerencial referentes às seguintes variáveis: tempo de conclusão do curso de graduação, salário (em
número de salários mínimos) e instituição em que se formou.

a) Abra o arquivo de dados;


b) Escolha adequadamente X e Y;
c) Construa o diagrama de dispersão e calcule o coeficiente de correlação;
d) Construa o diagrama de dispersão levando em consideração a instituição em que o aluno se
formou;

1. escolha a opção Graph na barra de ferramentas;


2. escolha a opção Scatterplot;
3. escolha a opção With groups e selecione Ok;
4. em Y variables entre com a variável Salário e em X variables entre com a variável Tempo;
5. em Categorical variables entre com a variável Instituição;
6. selecione Ok.
e) Separe os dados dos profissionais por instituição.
7. Selecione Data na barra de ferramentas;
8. Selecione Unstack Columns;
9. Para o quadro Unstack the data in, selecione C1 (Tempo) e C2 (Salário);
10. Para o quadro Using subscripts, selecione C3 (Instituição);
11. Assinale a opção: After last column in use em Store unstacked data;
12. Selecione Ok.
f) Recalcule os coeficientes de correlação por instituição.

BIBLIOGRAFIA

BARBETTA, P. A. Estatística aplicada às ciências sociais. 5.ed. rev. Florianópolis: Ed. da UFSC, 2002.
BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. 5. ed. rev. São Paulo: Saraiva, 2003.
STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harper & Row do Brasil, 1981.
SOARES, J. F., FARIAS, A. A, CESAR, C. C. Introdução à estatística. 2. ed. Rio de Janeiro: LTC, 2003.
© DME /2006-2 30 de 70

ESTATÍSTICA LABORATÓRIO - AULA 6


** Regressão Linear **
6.1 INTRODUÇÃO

Após a análise do diagrama de dispersão e do coeficiente de correlação, se concluirmos que existe uma
correlação linear significativa entre duas variáveis, o próximo passo será tentar estimar uma equação que
melhor descreva a relação entre essas variáveis. A relação mais simples que conhecemos é aquela
descrita pela equação de uma reta.
Considere que certo banco esteja interessado em estabelecer um critério objetivo para avaliar a eficiência
de seus gerentes e para isso, levantou dados à respeito do depósito médio mensal por agência e a
quantidade de estabelecimentos comerciais para uma amostra de 9 subdistritos onde o banco
possuía agência. Pelo diagrama de dispersão mostrado na figura 1a fica evidente que o valor do depósito
depende da quantidade de comércios e pela disposição dos pontos vemos que uma reta seria a melhor
descrição. Na figura b1, é exibida a reta que melhor ajusta aos pontos e a equação que gerou a reta.

Diagrama de dispersão Diagrama de dispersão

500 500
Depósito médio mensal (y)

Depósito médio mensal (y)

450 450

400 400 Y = 207,7 + 0,8321 X

350 350

300 300

250 250

200 200

0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
Quantidade de estabelecimentos comerciais (x) Quantidade de estabelecimentos comerciais (x)

(a) (b)
Figura 1 – Relação observada entre depósito médio mensal nas agências bancárias e a quantidade de
estabelecimentos comerciais

A reta ajustada na figura 1b é denominada de reta de regressão e sua equação é denominada de


equação de regressão. O termo regressão originou de um trabalho de Sir Francis Galton (1822-1911)
sobre fenômeno de hereditariedade.

Modelo de regressão linear simples


Uma vez que assumimos uma relação linear entre as variáveis o modelo linear proposto será:
y = β 0 + β1 x + ε
Onde
Y = Variável dependente (ou resposta) - é a variável que imaginamos depender de X
X = Variável independente (ou preditora ou explanatória)
β0 = parâmetro que representa o coeficiente linear (ou intercepto) da reta
β1 = Parâmetros que representa o coeficiente angular (ou inclinação) da reta
ε = Erro aleatório (vindo de erros de medidas e/ou de ausência de outras variáveis independentes (x)
também consideradas importante para explicar a a variável resposta (y) )
© DME /2006-2 31 de 70

6.2 Suposições para o modelo linear

Mesmo que y = β 0 + β1x + ε seja um modelo simples, ainda assim devemos fazer algumas suposições à
respeito do erro aleatório ε. As suposições são necessárias para que possamos fazer inferências sobre
alguma previsão e parâmetros do modelo (teste de hipóteses e construção de intervalo de confiança).

Suposições
2
1) Os erros se distribuem normalmente com média zero e variância constante σ
2) Os erros não são correlacionados. Ou seja, o fato de um erro ser maior não tende a elevar o
valor de um outro erro.

6.3 Critério dos Mínimos Quadrados Ordinais para ajustar a reta

Usando apenas os dados amostrais não podemos obter os valores exatos dos parâmetros β0 e β1. Esses
parâmetros deverão ser estimados com base nos dados amostrais. A equação de regressão com os
parâmetros estimados é representada por
Ŷ = b 0 + b1 X
b 0 é uma estimativa do β 0 e representa o coeficiente linear (ou intercepto) da reta estimada
b1 é uma estimativa do β1 e representa o coeficiente angular (ou inclinação) da reta estimada

Como é impossível a reta passar por todos os pontos, sempre haverá diferença entre algum valor
observado y i e o valor ajustado pela reta ŷ i para o i-ésimo ponto. Essa diferença y i − ŷ i é denominada
de resíduo (ou erro de estimação) .

O Método dos Mínimos Quadrados é um critério que utiliza os dados da amostra para obter os valores de
b0 e b1. O método procura os valores de b0 e b1 que minimiza a soma dos quadrados dos resíduos
L(b 0 , b 1 ) . Com essas estimativas conseguimos tornar os resíduos tão menores quanto possível e ajustar
a reta que chamamos de reta de regressão (ou reta ótima, ou reta de melhor ajuste ou reta de mínimos
quadrados).

n n
L( b 0 , b 1 ) = ∑i =1
( y i − ŷ i ) 2 = ∑ (y
i =1
i − b o − b1 x ) 2

O critério de mínimos quadrados procura nas seguintes estimativas:

n (∑ x y )− (∑ x )⋅ (∑ y )
i i i i
• b1 = coeficiente angular ou inclinação da reta
n (∑ x )− (∑ x )
2 2
i i

• b 0 = y − b1 x coeficiente linear ou intercepto da reta

6.4 Erro-padrão da estimativa s e

O erro-padrão da estimativa ( s e ) representa uma estimativa da medida de dispersão dos pontos em torno
da reta ajustada. Da mesma forma que desvio-padrão mede a variabilidade dos dados em torna da meda
amostral, o erro-padrão da estimativa mede a variabilidade dos pontos em torno da reta ajustada.

∑ (y i − ŷ) 2 (∑ y )− b (∑ y )− b (∑ x y )
2
i 0 i 1 i i
se = =
n−2 n−2
© DME /2006-2 32 de 70

6.5 Intervalo de confiança e Intervalo de previsão

• Estimativa pontual de Y quando X = x0


ŷ 0 = b 0 + b 1 x 0

• Intervalo de confiança para µ Y|X = x 0 = média de Y quando X = xo

1 n ⋅ (x 0 − x) 2
ŷ 0 ± t α 2 ⋅ s e ⋅ +
n n⋅ (∑ ) (∑ )
x i2 − xi
2

• Intervalo de confiança para YX = x 0 = valor individual de Y quando X = xo

1 n ⋅ (x 0 − x) 2
ŷ 0 ± t α 2 ⋅ s e ⋅ 1 + +
n n⋅ (∑ ) (∑ )
x i2 − xi
2

6.7 Coeficiente de Determinação (R2)


2
O coeficiente de determinação (R ) mede a proporção da variação em Y que é explicada pela equação de
2
regressão estimada. Quanto maior for o valor de R , maior será a proporção da variação em Y explicada
pela equação estimada. É freqüentemente usada para julgar a adequação de um modelo de regressão.

Variação Explicada pelo


2
R =
VE modelo de regressão estimado
= =
∑ (ŷ i − y) 2
Note que: 0% ≤ R2 ≤ 100%
VT Variação Total ∑ (y i − y) 2

EXERCÍCIO 6.1 (Bussab & Morettin, cap. 4, pag. 81) Um gerente de uma companhia de seguros
selecionou uma amostra 10 funcionários e registrou para cada um deles o tempo de serviço (em anos) e
a quantidade de clientes que cada um possui. O interesse do gerente é estabelecer um modelo para
prever a quantidade de clientes de um funcionário com base no tempo de serviço. Os dados estão na
tabela abaixo e digitados no arquivo aula6ex1.mtw.

Quantidade
Func. Tempo a) Estabeleça inicialmente a variável independente X e
de clientes
variável dependente Y.
Beto 2 48
Nivia 3 50 b) Construa o diagrama de dispersão e determine o
coeficiente de correlação. Escreva uma frase
Bina 4 56
descrevendo o tipo da relação entre as variáveis.
Bob 5 52
João 4 43 c) Assumindo uma relação linear entre as variáveis,
estime a equação de regressão que melhor descreve
Manoel 6 60 essa relação. Interprete os coeficientes de regressão b0
Pedro 7 62 e b1.
José 8 58 d) Faça uma previsão da quantidade de clientes para um
Rui 8 64 funcionário com 8 anos de casa.
Lucas 10 72 2
e) Calcule e interprete o coeficiente de determinação (R ).
© DME /2006-2 33 de 70

SOLUÇÃO

a) Variável Dependente (Y) =

Variável Independente (X) =

b) Com o arquivo aula6ex1.mtw já aberto

Diagrama de dispersão
• Graph > Scatterplot > Simple > Ok;
• Clientes em Y variables e Tempo em X variables > Ok.

Coeficiente de correlação
• Stat > Basics Statistics > Correlation;
• Clientes e Tempo em Variables; desmarque a seleção Display p-values > Ok

Descrição da relação entre as variáveis


Pelo diagrama de dispersão e pelo coeficiente de correlação (rxy = 0,877) há evidência de uma
‘forte’ (rxy > 0,70) correlação positiva entre as variáveis Tempo e Clientes, indicando que
funcionários com maior tempo de serviço tendem a ter uma maior quantidade de clientes.

c) Ajustar a equação de regressão ŷ = b o + b 1 ⋅ x (veja GRÁFICO 1)


• Stat > Regression > Fitted Line plot (gráfico com linha ajustada);
• Clientes em Response (Y) e Tempo em Predictor (X); Type of Regression Model: Linear >
Ok.

Equação de regressão estimada: Clientes = 39,67 + 2,952 Tempo onde,

b0 = 39,67 é o coeficiente linear ou intercepto da reta (valor de y para x = 0). Para funcionários
iniciando hoje (tempo zero) ele teria cerca de 40 funcionários (39,67 arredondado). Isso tem
sentido?. Note que a unidade de b0 é a mesma do y.

b1 = 2,952 é o coeficiente angular ou inclinação da reta. Significa um acréscimo de quase de 3


clientes (2,952 arredondado) para cada uma ano a mais de tempo de serviço. Note que, para
estes dados, uma unidade no X representa exatamente um ano e serviço.

d) Clientes = 39,67 + 2,952 * (8) = 63,286 ≈ 63 clientes (quantidade prevista de clientes para um
funcionário com 8 anos de casa)

Note que devemos dar muita atenção às unidades das variáveis. Por exemplo, qual seria a previsão
da quantidade de clientes para um funcionário com 60 meses de casa?
2
e) Coeficiente de Determinação R = (Variação Explicada) / (Variação Total) = 76,9%

76,9% da variação total nos números de clientes pode ser explicada pela variação no tempo de
serviço através da equação de regressão estimada. Os outros 23,1% restantes são explicados
por outros fatores além do tempo de serviço e que não foram incluídos no modelo.
© DME /2006-2 34 de 70

Fitted Line Plot


Clientes = 39,67 + 2,952 Tempo
75

70

65

Clientes
60

55

50

45 S 4,36270
R-Sq 76,9%
R-Sq(adj) 74,0%
40
1 2 3 4 5 6 7 8 9 10
Tempo

GRÁFICO 1 – Ajuste do Número de clientes em função do


Tempo de serviços

Continuando com o exemplo 1, a previsão feita na letra “d” do número de clientes para funcionário com 8
anos de casa é apenas uma estimativa pontual. Podemos melhorar essa estimativa incorporando a ela
alguma medida de precisão e conseguimos isto ao construir uma estimativa de intervalo de confiança
(para estimar a média populacional de Y) e de intervalo de predição (para estimar um valor individual
de Y) .

f) Construa o intervalo de confiança de 95% para o número médio de clientes dos [todos]
funcionários com 8 anos de tempo de serviço.
Queremos um intervalo de confiança IC para a média µ Y|X = x 0 = µ Y0 = número médio
de clientes dos [todos] funcionários com x0 = 8 anos de tempo de serviço.

g) Construa o intervalo de previsão de 95% para o número de clientes para um único funcionário com
8 anos de tempo de serviço.
Queremos um intervalo de previsão IP para a previsão YX = x 0 = Y0 = previsão do
número de clientes de um único funcionário com x0 = 8 anos de tempo de serviço.

Estimar a equação de regressão, fazer previões da variável Y (Número de clientes) com base na
variável X (Tempo de serviço) e construir intervalos de confiança e predição
• Stat > Regression > Regression
• Clientes em Response e Tempo em Predictors.
• Entre em Options
em prediction intervals for new observations digite 8 (valor de X para o qual você quer fazer
previsão)
em Confidence level, escolha o nível de confiança para o intervalo de confiança e intervalo de
predição
© DME /2006-2 35 de 70

Os resultados estão na janela Session


The regression equation is
Clientes = 39,7 + 2,95 Tempo
... (resultados omitidos)
Predicted Values for New Observations µ Y0 Y0

New
Obs Fit SE Fit 95% CI 95% PI
1 63,29 1,91 (58,89; 67,69) (52,31; 74,27)

Values of Predictors for New Observations


New
Obs Tempo
1 8,00

(Resposta da letra f) Estamos 95% confiantes de que µ Y0 , número médio de clientes dos funcionários
com 8 anos de tempo de serviço, está dentro do intervalo de 58,89 a 67,69 clientes (arredondando
para 59 a 68 clientes)

(Resposta da letra g) Estamos 95% confiantes de que Y0 , número de clientes de um único funcionários
com 8 anos de tempo de serviço, está dentro do intervalo de 52,31 a 74,27 clientes (arredondando para
52 a 74 clientes)

EXERCÍCIO 6.2 Suponha os seguintes dados na tabela abaixo. Os dados estão digitados no arquivo
aula6ex2.mtw.

Despesas com Vendas de Certo


a) Estabeleça inicialmente a variável independente X e
Propaganda Produto
variável dependente Y.
(milhão de (mil unidades)
reais) b) Construa o diagrama de dispersão e determine o
2,5 120 coeficiente de correlação. Escreva uma frase
6,5 190 descrevendo o tipo da relação entre as variáveis.
11,0 240 c) Assumindo uma relação linear entre as variáveis,
4,0 140 estime a equação de regressão que melhor descreve
8,5 180 essa relação. Interprete os coeficientes de regressão
14,0 280 b0 e b1.
6,0 150
5,0 115 d) Faça uma previsão das vendas do produto, para uma
10,0 215 despesa com propaganda de 12 milhões de reais.
13,5 220 e) Qual o acréscimo nas vendas para cada milhão a
16,0 320 mais de despesas com propaganda?
© DME /2006-2 36 de 70

EXERCÍCIO 6.3 (Toledo e Ovalle, 1995) A tabela abaixo fornece os resultados de uma pesquisa com 10
famílias de determinada região. Os dados estão digitados no arquivo aula6ex3.mtw.

Famílias Renda Poupança Número Média de anos de


(mil reais) de estudo da família
Filhos
A 1,0 40 8 3
B 1,5 70 6 4
C 1,2 50 5 5
D 7,0 200 1 12
E 8,0 200 2 16
F 10,0 300 2 18
G 2,0 80 3 8
H 3,0 80 2 8
I 1,0 30 6 4
J 6,0 150 1 8

a) Calcule o coeficiente de correlação entre as variáveis: renda, poupança, número de filhos e


média de anos de estudo. Escreva as suas conclusões.
b) Ajuste um modelo linear utilizando as variáveis renda (X) e poupança (Y). Estime o valor poupado
para uma família com renda de R$ 2.000,00.
c) Construa uma estimativa do intervalo de confiança de 95% da média do valor poupado para
todas as famílias com renda de R$ 2.000,00.
Queremos um intervalo de confiança IC para a média µ Y|X = x 0 = µ Y0 = média do
valor poupado para [todas] as famílias com renda x0 = 2 mil reais

d) Construa uma estimativa do intervalo de previsão de 95% do valor poupado para uma única
família com R$ 2.000,00.
Queremos um intervalo de previsão IP para a previsão YX = x 0 = Y0 = previsão do
valor poupado para uma única família com renda x0 = 2 mil reais

EXERCÍCIO 6.4 Barbetta (2001, p.308). Com o objetivo de verificar se numa certa região existe
correlação entre o nível de escolaridade médio dos pais e o nível de escolaridade dos filhos, observou-se
uma amostra aleatória de 8 indivíduos adultos, verificando o número de anos que estes freqüentaram (e
tiveram aprovação) em escolas regulares (Y) e o número médio de anos que os seus pais freqüentaram
(e tiveram aprovação) em escolas regulares (X). Os resultados são apresentados na tabela abaixo e
estão digitados no arquivo aula6ex4.mtw.

X 0 0 2 3 4 4 5 7
Y 2 3 2 5 9 8 8 15

a) Calcule o coeficiente de correlação de Pearson.


b) Em termos do resultado do item ‘a’, o que se pode dizer sobre a correlação entre o número de
anos que os 8 indivíduos freqüentaram escolas regulares (Y) e o número médio de anos que os
seus pais freqüentaram escolas regulares (X)?
c) Assumindo uma relação linear entre as variáveis, estime a equação de regressão que melhor
descreve essa relação. Interprete o coeficiente de regressão b1.
© DME /2006-2 37 de 70

EXERCÍCIO 6.5 A administração de um banco deseja estabelecer um critério objetivo para avaliar a
eficiência de seus gerentes. A princípio, o banco gostaria de prever o depósito médio em suas agências
com base na quantidade de estabelecimentos comerciais. Nove subdistritos foram selecionados e
registrados o depósito médio mensal por agência e a quantidade de estabelecimentos comerciais
existentes nesses subdistritos. Os dados obtidos estão na tabela abaixo e estão digitados no arquivo
aula6ex5.mtw.

Quantidade Depósito a) Estabeleça inicialmente a variável


Subdistritos de Médio independente X e variável dependente Y.
Comércios (mil reais)
b) Construa o diagrama de dispersão e
Nossa Senhora 16 140 determine o coeficiente de correlação.
Casa verde 30 160 Escreva uma frase descrevendo o tipo da
Vila Formosa 35 190 relação entre as variáveis.
Santana 70 300
Barra Funda 90 310 c) Assumindo uma relação linear entre as
Jardim Paulista 120 330 variáveis, estime a equação de regressão que
Santo Amaro 160 350 melhor descreve essa relação. Interprete os
Lapa 237 430 coeficientes de regressão b0 e b1.
Pinheiros 378 500 d) Faça uma previsão do depósito médio para
um subdistrito com 100 estabelecimentos
comerciais.
e) Calcule e interprete o coeficiente de
determinação.

EXERCÍCIO 6.6 Barbetta (2001, p.308). A tabela a seguir relaciona os pesos (em centenas de kg) e as
taxas de consumo de combustível em rodovia (km/litro) numa amostra de 10 carros de passeio novos. Os
dados estão digitados no arquivo aula6ex6.mtw.

Peso (100 kg) 12 13 14 14 16 18 19 22 24 26


Consumo (km/litro) 16 14 14 13 11 12 9 9 8 6

a) Calcule o coeficiente de correlação de Pearson. Como você avalia o relacionamento entre o peso
e o consumo, na amostra observada?
b) Para estabelecer uma reta de regressão, qual deve ser a variável dependente e qual deve ser a
variável independente? Considerando a resposta, estabeleça a equação de regressão entre Y e
X.
c) Você considera adequado o ajuste do modelo de regressão do item ‘c’? Dê uma medida desta
adequação interpretando-a.
d) Qual o consumo esperado para um carro de 2.000 kg? Lembrete: os dados de consumo na
tabela estão em centenas de kg.
e) Você considera seu estudo capaz de predizer o consumo esperado para um carro de 7000 kg?
Justifique sua resposta.
© DME /2006-2 38 de 70

EXERCÍCIO 6.7 Use as observações de poupança agregada e renda (em bilhões de reais) em um país
XYZ no período de 1990 a 1999 (dados fictícios), para estimar a influência do nível de renda sobre a
poupança. Os dados estão digitados no arquivo aula6ex7.mtw.

Poupança e Renda no país XYZ


(em bilhões de reais) 1990-1999 a) Estabeleça inicialmente a variável independente X e variável
Ano Poupança Renda dependente Y. Escreva uma frase descrevendo o tipo da
1990 25 350 relação entre as variáveis (para ist você deverá construir o
1991 29 364 diagrama de dispersão e calcular o coeficiente de correlação)
1992 30 385 b) Assumindo uma relação linear entre as variáveis, estime a
1993 30 405
equação de regressão que melhor descreve essa relação.
1994 37 438
1995 40 473 Interprete os coeficientes de regressão b0 e b1.
1996 46 512 c) Diga qual é o acréscimo na poupança agregada para cada
1997 55 547 bilhão a mais na renda.
1998 53 590 d) Estime a poupança para uma renda de
1999 54 630
R$469.400.000.000,00 (quatrocentos sessenta e nove bilhões
e quatrocentos milhões de reais). Quanto também seria o
consumo agregado das famílias?
Obs: consumo + poupança = renda
2
e) Calcule e interprete o coeficiente de determinação (R ).
f) Construa o diagrama de dispersão considerando o consumo
como variável resposta e a renda como variável explicativa
(preditora). Estime a reta de regressão e compare o resultado
com o item ‘a’.

RESPOSTAS (com o arquivo já aula6ex7.mtw aberto)


a) Variável Dependente (Y) =

Variável Independente (X) =

Com o arquivo aula5ex5.mtw já aberto

Diagrama de dispersão
• Graph > Scatterplot > Simple > Ok;
• Poupança em Y variables e Renda em X variables > Ok.

Coeficiente de correlação
• Stat > Basics Statistics > Correlation;
• Poupança e Renda em Variables; desmarque a seleção Display p-values > Ok

Descrição da relação entre as variáveis


Coeficiente de correlação linear de Pearson: rxy = 0,970
Existe uma ‘forte’ (rxy > 0,70) correlação positiva entre as variáveis renda e poupança, indicando
que valores baixos de renda se associam com valores baixos de poupança e valores altos de
renda se associam com valores altos de poupança.

b) Ajustar a equação de regressão ŷ = b o + b 1 ⋅ x (veja Figura 2)


• Stat > Regression > Fitted Line plot (gráfico com linha ajustada);
• Poupança em Response (Y) e Renda em Predictor (X); Type of Regression Model: Linear >
Ok.
© DME /2006-2 39 de 70

Equação de regressão estimada: Poupança = - 13,54 + 0,1138 Renda onde,


bo = -13,54 é o coeficiente linear ou intercepto da reta (valor de y para x = 0). Essa é a parte da
poupança que independe da renda..
b1 = 0,1138 é o coeficiente angular, significando o acréscimo na poupança (y) para cada unidade a
mais na renda (x). Para estes dados, é denominada de propensão marginal a poupar (PMgS).

c) Para cada bilhão a mais na renda o acréscimo na poupança agregada será de 0,1138 bilhão de
reais.

d) Poupança = -13,54 + 0,1138 * 469,4 = 39,8777 bilhões de reais


(Obs: R$469.400.000.000,00 = 469,4 bilhões)
Consumo = 469,4 - 39,8777 = 429,5222 bilhões de reais (Lembre-se: consumo + poupança = renda)
2
e) Coeficiente de Determinação R = VE (Variação Explicada) / VT (Variação Total) = 94,2%
94,2% das variações verificadas na variável poupança são explicadas pela variável renda pela
equação estimada.

f) Inicialmente devemos criar variável Consumo (Consumo = Renda – Poupança )


• Calc > Calculator;
• Digite Consumo em Store result in variable; Renda – Poupança em Expression.

Ajuste da equação de regressão do Consumo em função da Renda

Consumo = 13,54 + 0,8862 Renda (veja Figura 2)


0,8862 é a propensão marginal a consumir (PMgC = 1 – PMgS). É o acréscimo no consumo
devido à uma unidade (1 bilhão) a mais na renda.

Fitted Line Plot Fitted Line Plot


Poupança = - 13,54 + 0,1138 Renda consumo = 13,54 + 0,8862 Renda
60 600

55
550

50
500
Poupança

consumo

45
450
40

35 400

30 S 2,93404 350 S 2,93404


R-Sq 94,2% R-Sq 99,9%
25 R-Sq(adj) 93,4% R-Sq(adj) 99,9%
300
350 400 450 500 550 600 650 350 400 450 500 550 600 650
Renda Renda

Figura 2 - Ajuste da Poupança vs Renda e Consumo vs Renda

Bibliografia

 LEVINE, David M.; STEPHAN, David; KREHBIEL, Timothy C.; BERENSON, Mark L.. Estatística:
Teoria e Aplicações usando Microsoft Excel em português. 3 ed.. Rio de Janeiro - RJ: LTC - Livros
Técnicos e Científicos. 2005.
 TRIOLA, Mario F. Introdução à estatística. Rio de Janeiro: LTC - Livros Técnicos e Científicos, c2005.
656p.
 VIEIRA, S. Princípios de Estatística, São Paulo: Pioneira, 1999.
© DME /2006-2 40 de 70

LABORATÓRIO DE ESTATÍSTICA - AULA 7


** DISTRIBUIÇÃO BINOMIAL **
7.1 Introdução
A distribuição Binomial é uma distribuição de probabilidade de uma variável aleatória discreta X = número
de sucessos em n realizações de um experimento.
A função de probabilidade da variável aleatória X é:
n n− x
f ( x) = p ( x ) = P( X = x) =   p x (1 − p ) , para x = 0, 1, ..., n,
x
onde:
“n” é o número de vezes que o experimento é realizado (n ensaios independentes);
“x” é o número de sucessos nas n tentativas;
n
  é igual ao número de maneiras de obter x sucessos em n ensaios;
x
“p” é a probabilidade de ocorrer sucesso em cada ensaio.

Podemos escrever resumidamente que uma variável aleatória X tem distribuição Binomial com
parâmetros n e p do seguinte modo: X ~ B(n; p).

No Minitab:

1. Na barra de ferramentas, escolha Calc;


2. Selecione Probability distributions;
3. Selecione Binomial

Aparecerá o seguinte quadro:


onde:

Na PRIMEIRA PARTE da tela, assinale o que


deseja calcular:
• Probability: probabilidade no ponto, ou
seja, f(x) = p(x) = P(X = x);
• Cumulative probability: probabilidade
acumulada, F(x) = P(X ≤ x);
• Inverse cumulative probability: inverso da
probabilidade acumulada, ou seja, x tal que
P(X ≤ x) = pac.

Na SEGUNDA PARTE da tela, informe os


parâmetros do modelo Binomial:
• Number of trials: número de ensaios: n;
• Probability of success: probabilidade de
sucesso: p.

A TERCEIRA PARTE corresponde à entrada de dados, ou seja, se você assinalou Probability ou


Cumulative probability, você deve fornecer o valor de x em Input constant, ou os valores de x em
Input column. Neste último caso, a coluna contendo os valores de x já deve estar pronta. Se você
assinalou Inverse cumulative probability, você deve informar o valor da probabilidade acumulada
- pac (Input constant ) ou os valores de pac (Input column). Caso haja interesse, é possível
guardar os resultados assinalando Optional storage e indicando onde os mesmos devem ser
armazenados.
© DME /2006-2 41 de 70

7.2 Construindo a distribuição de probabilidade e a distribuição de probabilidade


acumulada
Considere o seguinte exercício:

EXERCÍCIO 7.1 A experiência indica que 10% das pessoas que entram em uma loja de computadores
fazem compras. Se 10 pessoas entram na loja::
a) Calcule o número esperado de pessoas que compram. ____________
b) Determine a distribuição de probabilidade da variável aleatória X: número de pessoas que
compram entre as 10 que entram na loja.

Para isso:

1. Digite na coluna 1 os valores de zero a dez (um em cada linha). Digite o título para a coluna no
local apropriado: x
2. Na barra de ferramentas, escolha Calc;
3. Selecione Probability distributions;
4. Selecione Binomial
5. Selecione Probability
6. Digite 10 na caixa Number of trials
7. Digite 0,1 na caixa Probability of success
8. Digite C1 na caixa Input column
9. Digite C2 na caixa Optional storage
10. Selecione Ok para produzir as probabilidades
11. Coloque f(x) como título na coluna C2.

c) Determine a distribuição de probabilidade acumulada da variável aleatória X: número de pessoas


que compram entre as 10 que entram na loja.

Para isso:

1. Na barra de ferramentas, escolha Calc;


2. Selecione Probability distributions;
3. Selecione Binomial
4. Selecione Cumulative Probability
5. Digite 10 na caixa Number of trials
6. Digite 0,1 na caixa Probability of success
7. Digite C1 na caixa Input column
8. Digite C3 na caixa Optional storage
9. Selecione Ok para produzir as probabilidades
10. Coloque F(x) como título na coluna C3.

d) Com as duas distribuições, calcule as probabilidades para as próximas 10 pessoas que entram
na loja:
d1) Exatamente uma faça compras: f(1) = 38,74%
d2) X= média: f(1) = 38,74%
d3) Exatamente nove não comprem: f(1) = 38,74%
d4) Ninguém compre: f(0) = 34,87%
d5) Ao menos uma faça compras: 1 – f(0) = 65,13%
d6) Três ou menos pessoas façam compras: F(3) = 98,72%
d7) Menos de cinco pessoas façam compras: F(4) = 99,84%
d8) Cinco pessoas ou mais façam compras: 1- F(4) = 0,16%
d9) De 3 a 5 pessoas façam compras: F(5) – F(2) = 7%;
d10) Entre 2 a 6 pessoas façam compras: F(5) – F(2) = 7%

e) Faça os gráficos da distribuição de probabilidade de X e da função de distribuição acumulada


© DME /2006-2 42 de 70

7.3 Criando o gráfico para a distribuição de probabilidade

1. escolha na barra de ferramentas Graph;


2. escolha a opção Bar-Chart;
3. Escolha a opção Values from a table em: Bars represent
4. Selecione o primeiro tipo: Simple
5. Cliique Ok.
6. Em Graph variables, digite C2
7. Em Categorical variable, digite C1
8. Selecione Labels → Data Labels → Use y-value labels
9. Cliique Ok.
10. Cliique Ok.

Qual a forma do gráfico? _______________________

Repita os passos para a construção do gráfico para a distribuição acumulada, trocando C2 por C3
no item 6

7.4 Usando a opção Input constant


No exercício (1) foi necessário digitar os valores de x e guardar os resultados das probabilidades em
uma coluna para a posterior construção dos gráficos. Os resultados são impressos na Session
quando não se usa a opção Optional storage. A vantagem desse procedimento é que você pode
conferir se digitou e selecionou certo todas as informações para a solução do exercício.

Como só vamos calcular uma probabilidade, usaremos a opção Input constant no lugar de Input
column.

Resolva o exercício:

EXERCÍCIO 7.2 Uma pesquisa de opinião pública revelou que 1/4 da população de determinada cidade
assiste regularmente televisão. Colocando-se 300 pesquisadores, sendo que cada um possa entrevistar
10 pessoas diariamente, fazer uma estimativa de quantos desses pesquisadores informarão que até 50%
das pessoas entrevistadas são realmente telespectadores habituais? Resp: 294 pesquisadores

Siga os passos:

1. Na barra de ferramentas, escolha Calc;


2. Selecione Probability distributions;
3. Selecione Binomial
4. Selecione Cumulative Probability
5. Digite 10 na caixa Number of trials
6. Digite 0,25 na caixa Probability of success
7. Digite 5 na caixa Input constant
8. Selecione Ok para produzir a probabilidade
9. Calcule o valor esperado, multiplicando a probalidade pelo número de pesquisadores.
© DME /2006-2 43 de 70

7.5 Verificando o que você aprendeu


Resolva os exercícios:

EXERCÍCIO 7.3 Sabe-se que a probabilidade de um estudante que entra na Universidade se formar é
0,3. Determine a probabilidade de que dentre 6 estudantes escolhidos aleatoriamente:
a) Nenhum se forme; 11,765%
b) Pelo menos 2 se formem; 57.98%
c) A média e o desvio padrão dos que se formam. µ = 1,8 ≅ 2 σ = 1,12 ≅ 1

EXERCÍCIO 7.4 A probabilidade de uma peça ser defeituosa em uma linha de produção é de 0,05. Para
quinze peças escolhidas aleatoriamente, determine:
a) A probabilidade de se encontrar menos que duas peças defeituosas; 82,905%
b) Mais que doze peças perfeitas; 96,38%
c) Entre dez e treze peças perfeitas; 3,56%
d) De dez a treze peças perfeitas; 17,09%
e) Mais que três peças defeituosas; 0,55%

EXERCÍCIO 7.5 Sabe-se que uma lâmpada comum tem uma probabilidade de 0,90 de durar mais de seis
meses. Se uma pessoa instalou 20 dessas lâmpadas, determine a probabilidade dela ter que substituir:
a) No máximo 2 lâmpadas antes de seis meses; 67,69%
b) Mais que duas lâmpadas antes de seis meses; 32,31%
c) De duas e quatro lâmpadas antes de seis meses; 56,39%
d) Nenhuma lâmpada antes de seis meses; 12,16%;
e) Para cada lote de 50 lâmpadas, qual o número médio de lâmpadas que deverão ser substituídas
depois de seis meses de uso? 45

EXERCÍCIO 7.6 Apenas 10% das empresas de exportação de matéria prima, que atuam em Minas
Gerais, não reduziram pessoal no ano de 2002. Sorteando-se aleatoriamente quinze destas empresas,
determine as seguintes probabilidades:
a) Apenas duas empresas não terem reduzido seu quadro de funcionários; 26,69%
b) Ao menos uma não ter reduzido seu quadro de funcionários; 79,41%
c) Mais que duas empresas tenham reduzido o quadro de funcionários. 100%

EXERCÍCIO 7.7 Abra o projeto: projAula7ex7.mpj.

Analise os gráficos das distribuições de probabilidade quanto à simetria e calcule os respectivos valores
esperados. Verifique a forma das distribuições de probabilidades acumuladas.

B(10; 0,5) _________________ B(10; 0,25) _________________ B(10; 0,75) _________________


Média = ________ Média = ________ Média = ________

EXERCÍCIO 7.8 Uma prova de múltipla escolha, que vale 10 pontos, tem 50 questões e 5 alternativas por
questão. Apenas uma das alternativas é a correta. Se um aluno resolve a prova respondendo a esmo as
questões, qual a probabilidade de tirar nota 5? Calcule E(X) e o Desvio-padrão σ .
1
Resp: p = = 0,20 P ( X = 25) = 0 E ( X ) = 10 questões σ = 2,828 questões
5
EXERCÍCIO 7.9 Abra o projeto: projAula7ex9.mpj.

Analise os gráficos e calcule a média de sucessos e de falhas para cada caso.

B(50; 0,5) _________________ B(50; 0,25) _________________ B(50; 0,75) _________________


Média de sucessos = ________ Média de sucessos = ________ Média de sucessos = ________
Média de fracassos = ________ Média de fracassos = ________ Média de fracassos = ________
© DME /2006-2 44 de 70

LABORATÓRIO ESTATÍSTICA – AULA 8


** DISTRIBUIÇÃO NORMAL **
8.1. A Distribuição Normal
A função densidade de probabilidade de uma variável aleatória Normal ou Gaussiana é dada por:

2
1  x−µ 
−  
1 σ 
f ( x) = e 2 para − ∞ < x < ∞
2π σ

onde:
e = 2,71828182;
π = 3,14159265;
µ = média da população;
σ = desvio padrão da população;
x = qualquer valor da variável aleatória.

Podemos escrever resumidamente que uma variável aleatória X tem distribuição Normal com parâmetros
µ e σ do seguinte modo: X ~ Normal(µ; σ).

EXERCÍCIO 8.1 Considere a seguinte distribuição de probabilidade:

2
1 x − 550 
− 
1 2 120 

f ( x) = e para − ∞ < x < ∞
2π 120

Escreva resumidamente: X ~ Normal(____; ____).

8.2. Fazendo o gráfico da distribuição Normal Padrão

Quando µ = 0 e σ =1, temos a distribuição Normal Padrão que tem a seguinte função densidade de
probabilidade:

1
1 − z2
f (z) = e 2 para − ∞ < z < ∞

EXERCÍCIO 8.2 Construa do gráfico da distribuição normal padrão.

Siga os passos:

1. Abra o Minitab;
2. Digite z como título da coluna C1;
3. Digite f(z) como título da coluna C2;
4. Na linha 1 da coluna C1, digite o valor –4 e na linha 2 da mesma coluna digite o valor –3,99. Selecione
os dois valores usando o botão esquerdo do mouse e arraste até a linha 801;
5. Na barra de ferramentas, selecione Calc→Probability Distributions→Normal
6. Selecione Probability density;
7. Digite 0 na caixa Mean;
8. Digite 1 na caixa Standart deviation;
9. Selecione: Input column;
10. Digite C1 na caixa Input column;
11. Digite C2 na caixa Optional storage;
© DME /2006-2 45 de 70

12. Selecione Ok;


13. Escolha a opção Graph na barra de ferramentas;
14. Escolha a opção Scatterplot;
15. Escolha a opção Simple e selecione Ok;
16. Em Y variables selecione f(z) e em X variables selecione z;
17. Selecione Ok.

8.3. Cálculo de probabilidades


Considere o exemplo:

EXERCÍCIO 8.3 O total de pontos obtidos no vestibular de uma universidade é uma variável aleatória
normal com média 550 e desvio padrão 120.

a) Determine a probabilidade de um candidato obter mais de 700 pontos.

Siga os passos:

1. Selecione Calc→Probability Distributions→Normal;


2. Selecione: Cumulative probability;
3. Digite 550 na caixa Mean;
4. Digite 120 na caixa Standart deviation;
5. Digite 700 na caixa Input Constant;
6. Selecione Ok.

Teremos o resultado:

Cumulative Distribution Function

Normal with mean = 550,000 and standard deviation = 120,000

x P( X <= x)
700,0000 0,8944

Então, para calcular a probabilidade solicitada, faça na calculadora:

P (X > 700) = 1 – P (X ≤ 700) = 1 – 0,8944 = 0,1056

b) menos de 200 pontos;


c) entre 200 e 700 pontos.

Siga os passos:

1. Digite 200 na linha 1 e 700 na linha 2 da coluna C3;


2. Selecione Calc→Probability Distributions→Normal;
3. Selecione Cumulative probability;
4. Mantenha Mean: 550 e Standart deviation: 120;
5. Selecione Input column;
6. Digite C3 em Input column;
7. Selecione Ok.

Então, para calcular aa probabilidade solicitada, faça na calculadora:

P (200 < X < 700) = P (X < 700) - (X ≤ 200) = 0,8944 - __________= 0,8926
© DME /2006-2 46 de 70

8.4. Encontrando os valores da variável aleatória X correspondentes a


probabilidades acumuladas conhecidas
EXERCÍCIO 8.4 O total de pontos obtidos no vestibular de uma universidade é uma variável aleatória
normal com média 550 e desvio padrão 120.

a) Determine a pontuação acima da qual encontram-se os 5% melhores candidatos (percentil 95).

0,95 0,05 1. Selecione Calc→Probability Distributions→Normal;


2. Selecione Inverse cumulative probability;
3. Mantenha: Mean: 550 e Standart deviation: 120;
4. Digite 0,95 em Input Constant;
5. Selecione Ok.
550 748,38 x

Teremos o resultado:
Inverse Cumulative Distribution Function

Normal with mean = 550,000 and standard deviation = 120,000

P( X <= x) x
0,9500 747,3824

b) Determine uma faixa de pontuação, simétrica em torno da média, que contenha aproximadamente
85% dos candidatos. Resp.: 377,26 pts a 722,74 pts

8.5. Verificando o que você aprendeu


Resolva os exercícios

EXERCÍCIO 8.5 Abra o projeto projAula8ex5.mpj

a) Compare o gráfico da distribuição Normal Padrão com o gráfico das outras distribuições
Normais;
b) Usando os valores de x (coluna C1) do projeto, calcule f(x) de uma Normal(1; 2) e guarde os
resultados na coluna C6. Nomeie a coluna C6 como ‘f(x) Normal(1; 2)’;
c) Acrescente o gráfico da distribuição N(1; 2) no mesmo gráfico seguindo os seguintes passos:

1. Selecione Graph → Scatterplot → Simple → Ok;


2. Complete o quadro:
Y variables X variables
1 ´f(x) N(0;1)´ x
2 ´f(x) N(0;0,5)´ x
3 ´f(x) N(0;2)´ x
4 ´f(x) N(-2;1)´ x
5 ´f(x) N(1;2)´ x

3. Verifique se em Multiple Graphs está selecionada a opção Overlaid on the same graph;
4. Selecione Ok.

EXERCÍCIO 8.6 Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo uma
distribuição normal com média 130 kg e desvio padrão 20 kg. Para efeito de determinar o tratamento
mais adequado, os 25% pacientes de menor peso são classificados de “magros”, enquanto os 25% de
maior peso de “obesos”. Determine os valores que delimitam cada uma dessas classificações.
Resp.: magros: 116,51 kg; obesos: 143,49 kg
© DME /2006-2 47 de 70

EXERCÍCIO 8.7 Um teste de aptidão feito pelos pilotos de aeronaves em treinamento inicial requer que
uma série de operações seja realizada em uma rápida sucessão. Suponha que o tempo necessário para
completar o teste seja distribuído normalmente com média de 90 minutos e desvio padrão 20 minutos.

a) Para passar no teste, o candidato deve completá-lo em menos de 80 minutos. Considerando 65


candidatos, quantos são esperados passar?
b) Se os 5% melhores candidatos serão alocados em aeronaves maiores, em no máximo quantos
minutos um candidato deve concluir o teste de aptidão para obter esta posição.
Resp.: a) 20 candidatos b) 57,10 minutos

EXERCÍCIO 8.8 (Barbetta, 2001, p.156) Suponha que numa universidade, a altura dos estudantes do
sexo masculino tenha distribuição normal com µ=170 cm e σ=10 cm. Calcule:

a) P(X>190);
b) P(150<X<190);
c) P(X<160);
d) A percentagem esperada de estudantes com altura entre 150 e 190 cm.
Resp.: a) 0,0228 b) 0,9545 c) 0,1587 d) 95,45%

EXERCÍCIO 8.9 (Barbetta, 2001, p.165) Calculou-se em 70 minutos o tempo médio para o vestibular de
2
uma universidade, com variância de 144 minutos . Quanto deve ser a duração da prova, de modo a
permitir tempo suficiente para que 90% dos vestibulandos terminem a prova? Admita distribuição normal
para o tempo de duração da prova. Resp.: 85,38 minutos

EXERCÍCIO 8.10 Em um processo industrial, as peças com mais de 22 kg ou menos de 18 kg são


consideradas defeituosas. O processo atual produz 30% de peças defeituosas. Foi proposta a troca por
um processo em que o peso das peças tem distribuição Normal com média 21 kg e desvio padrão 0,9 kg.
Qual a proporção de peças defeituosas produzidas pelo novo processo? Deve ser feita a troca?
Resp.: 13,37% Sim

A distribuição Normal como aproximação das distribuições discretas

EXERCÍCIO 8.11 (Freund & Simon, cap. 9, pág. 176)

a) Com o auxílio da distribuição normal, obtenha uma aproximação da probabilidade de que, no


máximo 12 de 50 pacientes venham a ter dor de cabeça em conseqüência da ingestão de um
certo remédio, se a probabilidade de um tal evento é igual a 0,22 (não esqueça da correção de
continuidade).
b) Calcule a probabilidade pedida no item (a) usando o modelo binomial e determine o erro
percentual da aproximação.
Resp.: a) 0,6957 b)0,7037 erro = 1,14%

EXERCÍCIO 8.12 Um estudo do Sindicato dos Bancários indica que cerca de 30% dos funcionários de
banco têm problemas de estresse provenientes das condições de trabalho. Numa amostra de 200
bancários, qual é a probabilidade de pelo menos 50 com essa doença? (calcule aproximando pela
normal). Resp.: 0,9474

EXERCÍCIO 8.13 Barbetta, 2001, p.165) Numa amostra aleatória de 3000 eleitores, qual a probabilidade
de a maioria se declarar favorável a um certo candidato, se na população existem 52% de favoráveis a
este candidato? (aproxime pela normal) Resp.: 0,9852

EXERCÍCIO 8.14 (Freund & Simon, cap.9, pag. 76) Uma companhia aérea sabe que o número de malas
que ela perde semanalmente em certa rota é uma variável aleatória que tem distribuição
aproximadamente Normal com média 26,2 e desvio padrão 5,8. Determine as probabilidades de que, em
uma semana, a companhia aérea perca nesta rota:
a) exatamente 22 malas;
b) no máximo 22 malas;
c) no mínimo 22 malas. Resp.: a) 0,0529 b) 0,2618 c) 0,7911
© DME /2006-2 48 de 70

LABORATÓRIO DE ESTATÍSTICA – AULA 9


** Inferência sobre a média e a proporção populacional **
** (Estimativa por intervalo) **

9.1 Estimativa por intervalo da média populacional µ, quando o desvio padrão


populacional σ é conhecido.
σ σ
x ± zα / 2 , onde: é o erro padrão da média;
n n
σ
zα / 2 é a margem de erro.
n

9.1.1 Construindo o intervalo a partir dos dados amostrais

EXERCÍCIO 9.1 Um investidor planeja abrir uma agência de viagens e deseja estimar o faturamento
médio mensal em dólares. Suponha que os faturamentos mensais de uma agência de viagens, do porte
que o investidor pretende abrir, se distribuam normalmente com um desvio padrão σ = US$130. Durante
nove meses, o investidor anotou o faturamento líquido mensal de uma agência de viagem do mesmo
porte. Os dados estão digitados no arquivo aula9ex1.mtw.

3810 3690 3350 3400 3320 3250 3430 3600 3670

a) Qual é o parâmetro que o investidor deseja estimar?


___________________________________________________________________

b) Qual é o tamanho da amostra? _________

c) Construa e interprete um intervalo de 95% de confiança para o faturamento médio mensal de uma
agência de viagem desse porte.

1. Selecione Stat → Basic Statistics → 1-Sample Z;


2. Para o quadro: Samples in columns, selecione C1 (Faturamento);
3. Preencha o quadro com o valor de sigma Standard deviation: 130;
4. Selecione Options → Preencha o quadro com o nível de confiança Confidence level: 95,0 e
selecione Alternative: not equal;
5. Ok → Ok.

Obtemos o resultado:
One-sample Z: Faturamento
The assumed standard deviation = 130

Variable N Mean StDev SE Mean 95,0 % CI


C1 9 3502,22 194,73 43,33 ( 3417,29; 3587,15)

Interpretação do intervalo: O investidor pode afirmar com 95% de confiança que o faturamento médio
mensal de uma agência de viagens desse porte está entre 3417,29 e 3587,15 dólares.

d) Com base nessa amostra, qual é a estimativa pontual do faturamento médio mensal de uma
agência de viagem desse porte? ____________dólares

e) Qual é o erro padrão da média? __________ dólares

f) Com base no intervalo de confiança calculado, qual é a margem de erro? ________dólares


© DME /2006-2 49 de 70

9.1.2 Construindo o intervalo a partir da síntese numérica dos dados amostrais

EXERCÍCIO 9.2 (Larson & Farber, cap. 6, pág.214). O diretor do comitê de admissão de uma
universidade deseja estimar a idade média de todos os estudantes aprovados no momento. Em uma
amostra aleatória de 20 estudantes, a idade média encontrada foi de 22,9 anos. A partir de estudos
passados, sabe-se que o desvio padrão é de 1,5 ano e que a população está normalmente distribuída.

a) Qual é o parâmetro que o diretor do comitê de admissão de uma universidade deseja estimar?
___________________________________________________

b) Qual é o tamanho da amostra? _________

c) Construa um intervalo de 90% de confiança para a idade média da população.

1. Selecione Stat → Basic Statistics → 1-Sample Z;


2. Selecione Summarized data;
3. Preencha o quadro com o valor do tamanho da amostra Sample size: 20;
4. Preencha o quadro com o valor da média da amostra Mean: 22,9;
5. Preencha o quadro com o valor do desvio padrão populacional Standard deviation: 1,5;
6. Selecione Options → Preencha o quadro com o nível de confiança Confidence level: 90,0 e
selecione Alternative: not equal;
7. Ok → Ok.

Obtemos o resultado:
One-sample Z
The assumed standard deviation = 1,5
N Mean SE Mean 90% CI
20 22,9 0,3354 (22,3483; 23,4517)

d) Com base nessa amostra, qual é a estimativa pontual da idade média dos estudantes aprovados?
____________anos

e) Qual é o erro padrão da média? __________ anos

f) Com base no intervalo de confiança calculado, qual é a margem de erro? ________anos


© DME /2006-2 50 de 70

9.2 Estimativa por intervalo da média populacional µ, quando o desvio padrão


populacional σ é desconhecido.

s s
x ± tα / 2 , onde: é o erro padrão estimado da média;
n n
s
tα / 2 é a margem de erro.
n

9.2.1 Construindo o intervalo a partir dos dados amostrais

EXERCÍCIO 9.3 O tempo médio necessário para os operários completarem determinada montagem tem
sido igual a 55 minutos. Suponha que a distribuição do tempo de execução da montagem tenha
distribuição normal. Para avaliar se atualmente o tempo médio de execução da montagem continua
sendo igual a 55 minutos, o supervisor decide registrar, em um determinado dia, os tempos de execução
para uma amostra de 16 operários, obtendo os resultados abaixo que estão digitados no arquivo
aula9ex3.mtw.

63,9 77,3 61,2 62,2 58,5 58,5 53,8 61,6


57,9 53,2 56,4 62,2 57,3 63,1 70,3 67,6

a) Qual é o parâmetro que o supervisor deseja estimar?


_____________________________________________________________________

b) Qual é o tamanho da amostra? _________

c) Construa um intervalo de 95% de confiança para o tempo médio de execução da montagem.

1. Selecione Stat → Basic Statistics → 1-Sample t


2. Para o quadro: Samples in columns, selecione C1 (Tempo)
3. Selecione Options → Preencha o quadro com o nível de confiança Confidence level: 95,0 e
selecione Alternative: not equal
4. Ok → Ok.

Obtemos o resultado:
One-sample T: Tempo
Variable N Mean StDev SE Mean 95,0 % CI
C2 16 61,5625 6,1990 1,5498 (58,2593; 64,8657)

d) Com base nessa amostra, qual é a estimativa pontual do tempo médio de execução da
montagem atualmente? ____________minutos

e) Qual é o erro padrão estimado da média? __________ minutos

f) Com base no intervalo de confiança calculado, qual é a margem de erro? ________minutos

g) Com base no intervalo de confiança calculado, o tempo médio de execução da montagem


continua sendo igual a 55 minutos? Justifique a sua resposta.
______________________________________________________________________________
______________________________________________________
© DME /2006-2 51 de 70

9.2.2 Construindo o intervalo a partir da síntese numérica dos dados amostrais

EXERCÍCIO 9.4 Em uma pesquisa de orçamento familiar desenvolvida pelo Instituto ZX no período t,
solicitou-se a 16 domicílios de certa região que anotassem suas despesas com alimentação durante uma
semana. O resultado foi uma despesa média de R$330,00 com um desvio padrão de R$40,00.

a) Construa um intervalo com 98% de confiança para a verdadeira despesa média com alimentação
por domicílio de toda a região. (Suponha que a população tenha uma distribuição
aproximadamente normal).

1. Selecione Stat → Basic Statistics → 1-Sample t;


2. Selecione Summarized data;
3. Preencha o quadro com o valor do tamanho da amostra Sample size: 16;
4. Preencha o quadro com o valor da média da amostra Mean: 330;
5. Preencha o quadro com o valor do desvio padrão da amostra Standard deviation: 40;
6. Selecione Options → Preencha o quadro com o nível de confiança Confidence level: 98,0 e
selecione Alternative: not equal;
7. Ok → Ok.

Obtemos o resultado:
One-sample T
N Mean StDev SE Mean 98% CI
16 330,00 40,00 10,00 (303,975; 356,025)

b) Interprete o intervalo de confiança.


______________________________________________________________________________
______________________________________________________________________________
© DME /2006-2 52 de 70

9.3 Estimativa por intervalo da proporção populacional p, baseado na distribuição


normal

pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ ± zα / 2 , onde: é o erro padrão da proporção;
n n
pˆ (1 − pˆ )
zα / 2 é a margem de erro.
n

9.3.1 Construindo o intervalo a partir dos dados amostrais

EXERCÍCIO 9.5 (Magalhães & Lima, cap. 7, pág.240) Uma amostra de 30 dias do número de ocorrências
policiais em certo bairro de Belo Horizonte, apresentou os resultados abaixo que estão digitados no
arquivo aula9ex5.mtw.

7 11 8 9 10 14 6 8 8 7 8 10 10 14 12
14 12 9 11 13 13 8 6 8 13 10 14 5 14 10

a) Definindo dia violento como dia com pelo menos 12 ocorrências policiais, crie a variável “Dia
violento” na coluna C2 com as categorias “Sim” e “Não”.

1. Selecione Data → Code → Numeric to Text → Ok;


2. Complete: Code data from columns: C1
Into columns: C2
Original Values New
0:11 Não
12:14 Sim
3. Ok.

b) Construa um intervalo de 88% de confiança para a proporção de dias violentos nesse bairro.

1. Selecione Stat → Basic Statistics → 1-Proportion;


2. Para o quadro: Samples in columns, selecione C2 (Dia violento);
3. Selecione Options, preencha Confidence level: 88 e escolha Alternative: not equal;
4. Assinale: Use test and interval based on normal distribution;
5. Ok.

Temos o resultado:
Variable X N Sample p 88% CI
Dia violento 10 30 0,333333 (0,199520; 0,467147)

c) Quais são as suposições necessárias para a construção do intervalo de confiança do item b?


__________________________________________________________________

d) Em um ano (360 dias) e com a mesma confiança de 88%, qual seria a estimativa do número de
dias violentos nesse bairro? ________________________________
© DME /2006-2 53 de 70

9.3.2 Construindo o intervalo a partir da síntese numérica dos dados amostrais

EXERCÍCIO 9.6 Em um levantamento, solicitou-se a 200 pessoas que identificassem sua maior fonte de
informação; 110 delas afirmaram que suas maiores fontes eram as notícias de televisão.

a) Construa um intervalo de confiança de 94% para a proporção de pessoas na população que


consideram a televisão sua maior fonte de informação.

1. Selecione Stat → Basic Statistics → 1-Proportion;


2. Selecione Summarized data;
3. Complete: Number of trials: 200 Number of events: 110;
4. Selecione Options, preencha Confidence level: 94 e selecione em Alternative: not equal;
5. Assinale: Use test and interval based on normal distribution;
6. Ok.

Temos o resultado:
Sample X N Sample p 94,0 % CI
1 110 200 0,55 (0,483837; 0,616163

a) Qual é a estimativa pontual da proporção de pessoas que identificam as notícias de televisão como
sua maior fonte de informação? _________

b) Com base no intervalo de confiança calculado, qual é a margem de erro? _____________

c) Construa um intervalo de confiança de 99% para a proporção de pessoas na população que


consideram a televisão sua maior fonte de informação. ________________________________

d) Compare as margens de erro dos intervalos calculados.


_____________________________________________________________________

9.4 Verificando o que você aprendeu


Resolva os exercícios

EXERCÍCIO 9.7 (Magalhães & Lima, cap 7, pág. 239) O consumo de combustível é uma variável
aleatória com parâmetros dependendo do tipo de veículo. Suponha que, para certo automóvel, o desvio
padrão do consumo seja conhecido e igual a 2 km/l, porém precisamos informações sobre o consumo
médio. Para tal, foi observado o consumo para uma amostra de 40 automóveis desse modelo e
encontrado um consumo médio de 9,3 km/l.

a) Escreva com palavras o parâmetro que está sendo estimado.


b) Com base na amostra, qual é a estimativa do parâmetro?
c) Construa e interprete um intervalo de 94% de confiança para o parâmetro.
© DME /2006-2 54 de 70

EXERCÍCIO 9.8 Para saber a situação do trabalhador em relação ao vale transporte, foi feita uma
pesquisa com 500 trabalhadores da região metropolitana de Belo Horizonte. Os dados coletados estão
digitados no arquivo aula9ex8.mtw.

a) Sintetize os dados da pesquisa e complete a seguinte tabela:

Vale transporte Quantidade Porcentagem

b) Determine e interprete um intervalo de 95% de confiança para a proporção de trabalhadores da


região metropolitana de Belo Horizonte que não recebem vale transporte.
c) Determine um intervalo de 95% de confiança para a proporção de trabalhadores da região
metropolitana de Belo Horizonte que recebem vale transporte em cartão.
d) Complete o quadro:

Vale transporte Estimativa Margem de erro

EXERCÍCIO 9.9 Usando os dados do exemplo 9.5 que estão no arquivo aula9ex5.mtw,

a) Estime o número médio de ocorrências policiais por dia.


b) Construa e interprete um intervalo de 90% de confiança para o número médio de ocorrências
policiais por dia.
© DME /2006-2 55 de 70

9.5 Distribuição Amostral da Média


Esta tarefa tem o objetivo de fixar os conceitos envolvidos em um problema de estimação da média
quando uma Amostra Aleatória Simples é utilizada. Para cada item, recomendamos que você associe o
que se pede com os conceitos desenvolvidos na parte teórica da disciplina. Compare os resultados de
cada item após a resolução de todos eles e medite sobre as relações envolvendo os conceitos
subjacentes a cada item.

EXERCÍCIO 9.8 - Simular uma distribuição amaostral para a média de uma amostra

1ª parte: Considere uma população fictícia de uma turma de 10 alunos de um curso de Laboratório de
Estatística. Seja Yi o número de acessos de cada aluno à Internet em uma aula em que a
Internet foi disponibilizada.

Ordem Cadastral População População Matriz


1 ARI (Y1) y1 = 1
2 BIA (Y2) y2 = 2
3 CID (Y3) y3 = 3
4 DIC (Y 4) y4 = 4
5 EMA (Y 5) y5 = 5
6 FIO (Y 6) y6 = 6
7 GIL (Y7) y7 = 7
8 ILO (Y8) y8 = 8
9 LEO (Y 9) y9 = 9
10 MIN (Y10) y10 = 10

Abra o arquivo aula9ex8.mtw. Na coluna C1, está digitado o número de acessos de cada aluno da
turma.

C1
Nº de acessos
1
2
3
4
5
6
7
8
9
10

a) Construa um histograma para esta variável. Qual e a forma deste histograma?


b) Calcule as estatísticas descritivas deste conjunto de dados. Complete: o número de acessos à Internet
variou de ________ a _________ acessos, com média de __________ acessos, variância de
2
_____________ (acessos) e desvio padrão de _________ acessos.
© DME /2006-2 56 de 70

2ª parte: Vamos agora estudar a distribuição das médias de acesso. Dentro deste conceito, vamos
considerar todas as possíveis amostras (sem reposição) de tamanho 2 para a população do
2
número de acessos à Internet. Calculando C10 temos um total de 45 amostras. As possíveis
amostras de tamanho 2 são:
a a a a a a
1 2 1 2 1 2
seleção seleção seleção seleção seleção seleção
1 2 2 9 5 6
1 3 2 10 5 7
1 4 3 4 5 8
1 5 3 5 5 9
1 6 3 6 5 10
1 7 3 7 6 7
1 8 3 8 6 8
1 9 3 9 6 9
1 10 3 10 6 10
2 3 4 5 7 8
2 4 4 6 7 9
2 5 4 7 7 10
2 6 4 8 8 9
2 7 4 9 8 10
2 8 4 10 9 10

Nas colunas C2 e C3, estão digitados os pares amostrais da quantidade de acesso.

a) Calcule na coluna C4 a média de acesso dos pares selecionados, ou seja, a média de cada amostra
de tamanho 2.

1. Selecione Calc → Calculator;


2. Selecione a coluna C4 para o quadro Store result in variable;
3. Digite a expressão (C2+C3)/2 no quadro Expression;
4. Ok.

b) Nomeie a coluna C4 como “Média”. Construa um histograma para esta variável. Qual e a forma deste
histograma? Compare com o histograma obtido no item a da 1ª parte do exemplo.

c) Calcule as estatísticas descritivas para este conjunto de dados. Complete: A variável média assumiu
valores de _______ a ________ acessos, com média igual a ________ acessos, variância
2
__________ (acessos) e desvio padrão ________ acessos.

d) Compare com as estatísticas descritivas obtidas no item b da 1ª parte do exemplo. Que conclusões
você pode tirar desta análise?
© DME /2006-2 57 de 70

9.6 Interpretação de Intervalos de Confiança


Para esclarecer o significado do termo confiança, vamos gerar 20 amostras de tamanho 25 de uma
distribuição Normal com média 5 e desvio padrão 3, determinar os 20 intervalos de 95% de confiança
para a média populacional e contar quantos intervalos contém a média populacional que é igual a 5.
i) Geramos 500 valores de uma normal com média 5 e desvio padrão 3:
Calc → Random data → Normal
Generate 500 rows of data
Store in column C1
Mean 5 St. dev. 3
Ok
ii) Vamos criar uma coluna C2, com o objetivo de identificar cada amostra, ou seja, os primeiros 25
valores em C1 correspondem à amostra nº 1; os 25 seguintes à amostra nº 2, os 25 seguintes à
amostra nº 3, ..., os 25 últimos valores em C1 à amostra nº 20. Assim C2 deve ter 25 valores iguais a
1, 25 valores iguais a 2, ..., 25 valores iguais a 20. Em primeiro lugar, é necessário clicar em
Window, em seguida clicar em Editor e selecionar Enable Commands. Em seguida, digite:

MTB> set c2 enter


DATA> (1:20)25 enter
DATA> end enter
iii) Nomeie a coluna C2 como Amostra.
iv) Selecione Graph → Interval Plot → One Y → With groups → Ok → selecione C1 para Graph
Variables e C2 para Categorical Variables for Grouping → selecione Scale → Reference Lines
→ em Show reference lines at Y (value scale) positions digite o valor da média 5 → Ok (duas
vezes).
© DME /2006-2 58 de 70

LABORATÓRIO DE ESTATÍSTICA – AULA 10


** Inferência sobre a média e a proporção populacional **
** Teste de Hipóteses **
10.1 Teste de hipóteses para a média populacional µ quando o desvio
populacional σ é conhecido
As etapas para fazer um teste de hipóteses são:
1. Escreva as hipóteses nula e alternativa:
H 0 :µ = µ0 Ha : ?
2. Especifique o nível de significância:
α= ?
3. Calcule o valor observado da estatística do teste:
x − µ0 σ
z= onde σ X =
σX n
4. Obtenha o valor p
4.1 Se H a : µ < µ 0 (teste unilateral esquerdo)

O valor p é a área
à esquerda de z

z z
-3 -2 -1 0 1 2 3
4.2 Se H a : µ > µ0 (teste unilateral direito)

O valor p é a área
à direita de z

-3 z z
-2 -1 0 1 2 3

4.3 Se H a : µ ≠ µ 0 (teste bilateral)


Se o valor de z < 0 Se o valor de z > 0

O valor p é o dobro da O valor p é o dobro da


área à esquerda do valor área à direita do valor
negativo de z. positivo de z.

-3 -z z
-2 -1 0 1 2 3

5. Utilize o seguinte critério de decisão:


O valor p é menor que o nível de significância do teste?

Sim Não

Rejeitar H0 Não rejeitar H0


6. Interprete a decisão de acordo com o contexto.
© DME /2006-2 59 de 70

10.1.1 Testando hipóteses a partir dos dados amostrais

EXERCÍCIO 10.1 (Adaptado do Provão-ECO-2002) Uma rede de postos de gasolina afirma que, em seus
estabelecimentos, não se vende gasolina adulterada. Sabe-se que, de acordo com os padrões de
qualidade, a gasolina não pode conter mais que 240 ml de álcool por litro. Um órgão de fiscalização
colheu 25 medições da quantidade de álcool na gasolina em ml/l nos postos dessa rede. A amostra se
encontra abaixo. Admita que a quantidade de álcool presente na gasolina tem uma distribuição normal
com desvio padrão de 2,5 ml/litro. Os dados estão digitados no arquivo aula10ex1.mtw.

243 239 242 237 239 239 245 241 243


240 244 239 239 240 245 240 242 245
240 242 244 241 244 240 238

a) Qual o desvio padrão da população? ________ ml/litro.

b) Qual o tamanho da amostra? _______ medições.

c) Construa e interprete um intervalo de 95% de confiança para a quantidade média de álcool


presente na gasolina nos postos dessa rede.
______________________________________________________________________________
_____________________________________________________________________________

d) Qual é a estimativa pontual da quantidade média de álcool presente na gasolina dos postos da
rede? ________________ ml/litro

e) Com base no intervalo de confiança calculado, qual é o erro máximo cometido na estimação da
verdadeira quantidade média de álcool presente na gasolina dos postos da rede? ____________
ml/litro

f) Analise, com um nível de significância de 5%, se a gasolina é ou não adulterada.

f1) Qual é o parâmetro que está sendo testado?


______________________________________________________________

f2) Enuncie as hipóteses (escreva as formulações verbal e matemática).

Formulação verbal de H0: ___________________________________________


Formulação matemática de H0: _______ _________

Formulação verbal de Ha: __________________________________________


Formulação matemática de Ha: _______ _________

f3) Faça o teste estatístico seguindo os passos:

1. Selecione Stat > Basic Statistics > 1-Sample Z


2. Selecione C1 (Quant_álcool) para o quadro: Samples in columns: C1
3. Preencha o quadro com o valor de sigma Standard deviation: 2,5
4. Preencha o quadro com o valor da hipótese nula Test mean: 240
5. Selecione Options → (selecione a opção de acordo com sua hipótese alternativa)
Alternative(1): greater than
6. Ok.
(1)
Alternative: greater than, quando Ha: µ > µ0 (teste unilateral direito);
Alternative: less than, quando Ha: µ < µ0 (teste unilateral esquerdo);
Alternative: not equal, quando Ha: µ ≠ µ0 (teste bilateral).
© DME /2006-2 60 de 70

Obtemos o resultado:
One-sample Z: Quant_álcool
Test of mu = 240 vs > 240
The assumed Standard deviation = 2,5

Variable N Mean StDev SE Mean Z P


C1 25 241,24 2,368 0,500 2,48 0,007

f4) Qual é o erro padrão da média? _______________ ml álcool/l gasolina.

f5) Qual o valor observado da estatística do teste? ___________

f6) Qual o valor p? ________________

f7) Qual é o nível de significância especificado no exemplo? ____________

f8) Compare o valor p com o nível de significância e marque a opção verdadeira:


__H0 é rejeitada;
__H0 não é rejeitada.

f9) Conclua de acordo com o contexto.

Conclusão: A hipótese nula é rejeitada ao nível de 5% de significância, ou seja, o órgão de


fiscalização pode concluir que os postos de gasolina desta rede vendem gasolina adulterada.
A chance de errar ao afirmar que a gasolina é adulterada, com base na amostra observada, é
de 0,7% .

10.1.2 Testando hipóteses a partir da síntese numérica dos dados amostrais

EXERCÍCIO 10.2 Um fabricante de lâmpadas garante que a vida média de um determinado tipo de
lâmpada é de pelo menos 750 horas. Se uma amostra ao acaso com 26 lâmpadas tiver uma vida média
de 745 horas, você tem evidência suficiente para rejeitar a alegação do fabricante? Use α = 0,02.
Suponha que o desvio padrão da população seja conhecido (por experiências passadas) e igual a 60
horas.

a) Qual é o parâmetro que está sendo testado?


_________________________________________________________________

b) Enuncie as hipóteses (escreva as formulações verbal e matemática).

Formulação verbal de H0:_________________________________________


Formulação matemática de H0: _______ _________

Formulação verbal de Ha: ________________________________________


Formulação matemática de Ha: _______ _________

c) Qual o desvio padrão da população? ________ horas.

d) Faça o teste estatístico seguindo os passos:

1. Selecione Stat > Basic Statistics > 1-Sample Z


2. Selecione Summarized data
3. Preencha o quadro com o valor do tamanho da amostra Sample size: 26
4. Preencha o quadro com o valor da média da amostra Mean: 745
5. Preencha o quadro com o valor de sigma Standard deviation: 60
6. Preencha o quadro com o valor da hipótese nula Test mean: 750
7. Selecione Options > Alternative: selecione: less than
8. Ok.
© DME /2006-2 61 de 70

Obtemos o resultado:
One-sample Z
Test of mu = 750 vs < 750
The assumed Standard deviation = 60

N Mean SE Mean Z P
26 745 11,767 -0,42 0,335

e) Qual é o erro padrão da média? _______________ horas.

f) Qual o valor observado da estatística do teste? ___________

g) Qual o valor p? ________________.

h) Qual o nível de significância fornecido no exercício? _________

i) Compare o valor p com o nível de significância e marque a opção verdadeira:


__ H0 é rejeitada;
__ H0 não é rejeitada.

j) Conclua de acordo com o contexto.


_______________________________________________________________________________
_______________________________________________________________________________
_______________________________________________________________________________

10.2 Teste de Hipóteses para a média populacional µ, quando o desvio padrão


populacional σ não é conhecido.

Considere a hipótese nula: H 0 : µ = µ 0 . A estatística do teste passa a ser:

x − µ0 s
t= onde σˆ X =
σˆ X n

10.2.1 Testando hipóteses a partir dos dados amostrais

EXERCÍCIO 10.3 Um produto alimentar é preparado para o consumo em latas, que comportam um peso
médio líquido de 1 Kg. O enchimento das latas é automático e o produtor deseja saber se as máquinas
estão trabalhando regularmente (controle de qualidade). Para isso, examina uma amostra de 6 latas e
encontra os seguintes pesos líquidos; 0,999, 0,999, 1,000; 1,011; 1,009; e 0,995 Kg. Qual a conclusão
em relação ao trabalho das máquinas ao nível α = 0,01? Considere que o peso líquido tem distribuição
normal.

a) Qual é o tamanho da amostra? ________ latas

b) Com 99% de confiança, o peso médio líquido das latas está entre _______ e ______ kg.

c) Enuncie as hipóteses (escreva as formulações verbal e matemática).

Formulação verbal de H0:_________________________________________


Formulação matemática de H0: _______ _________

Formulação verbal de Ha: ________________________________________


Formulação matemática de Ha: _______ _________
© DME /2006-2 62 de 70

Faça o teste estatístico seguindo os passos:

1. Digite os dados da amostra em uma coluna vazia;


2. Escreva o nome da coluna no local apropriado: ´Peso líquido`;
3. Selecione Stat > Basic Statistics > 1-Sample t
4. Selecione a coluna ´Peso líquido` para o quadro: Samples in columns
5. Preencha o quadro com o valor da hipótese nula Test mean: 1
6. Selecione Options > Alternative: not equal
7. Ok

Temos o resultado:
One-sample T: Tempo
Test of mu = 1 vs mu not = 1

Variable N Mean StDev SE Mean 99% CI T P


C2 6 1,00217 0,00634 0,00259 (0,99173; 1,01260) 0,84 0,441

e) Qual é o erro padrão da média? _______________ kg.

f) Qual o valor observado da estatística do teste? ___________

g) Qual o valor p? ________________.

h) Interprete o valor p.
__________________________________________________________________
__________________________________________________________________

i) Qual o nível de significância fornecido no exercício? _________

j) Compare o valor p com o nível de significância e marque a opção verdadeira:


__ H0 é rejeitada;
__ H0 não é rejeitada.

k) Conclua de acordo com o contexto.


_______________________________________________________________________________
_______________________________________________________________________________
_______________________________________________________________________________

10.2.2 Testando hipóteses a partir da síntese numérica dos dados amostrais

EXERCÍCIO 10.4 (Larson & Farber, cap. 7, pág. 273) Um agente de seguros afirma que o custo médio
para segurar um Ford F-150 Super Cab 1999 é de pelo menos 875 dólares. Uma amostra aleatória de 9
seguros similares tem custo médio de 825 dólares e desvio padrão de 62 dólares. Há evidência suficiente
para rejeitar a alegação do vendedor ao nível α = 0,01. Suponha que a população esteja normalmente
distribuída.

a) Escreva o parâmetro que está sendo estimado.


____________________________________________________________________

b) Estabeleça as hipóteses nula e alternativa.


Formulação verbal de H0:_________________________________________
Formulação matemática de H0: _______ _________

Formulação verbal de Ha: ________________________________________


Formulação matemática de Ha: _______ _________
© DME /2006-2 63 de 70

Faça o teste estatístico seguindo os passos:

1. Selecione Stat > Basic Statistics > 1-Sample t


2. Selecione Summarized data
3. Preencha o quadro com o valor do tamanho da amostra Sample size: 9
4. Preencha o quadro com o valor da média da amostra Mean: 825
5. Preencha o quadro com o valor do desvio padrão da amostra Standard deviation: 62
6. Preencha o quadro com o valor da hipótese nula Test mean: 875
7. Selecione Options > Alternative: selecione: less than
8. Ok.

Obtemos o resultado:
One-sample T
Test of mu = 875 vs < 875

N Mean StDev SE Mean Z P


9 825,000 62,000 20,667 -2,42 0,021

d) Qual é o valor observado da estatística do teste? _________

e) Interprete o valor p.
_________________________________________________________________________________
_________________________________________________________________________________

f) Conclua de acordo com o contexto.


_________________________________________________________________________________
_________________________________________________________________________________

g) Qual é a estimativa do custo médio do seguro? _________ dólares

h) Construa e interprete um intervalo de 98% de confiança para o custo médio do seguro.


_________________________________________________________________________________
_________________________________________________________________________________

10.3 Teste de Hipóteses para a para a proporção populacional p, baseado na


distribuição normal (dados sumarizados)

Considere a hipótese nula: H 0 : p = p0 . A estatística do teste passa a ser:

pˆ − po po (1 − p0 )
z= onde σˆ pˆ =
σ pˆ n

10.3.1 Testando hipóteses a partir dos dados amostrais

EXERCÍCIO 10.5 (Bhattacharyya & Johnson, cap. 8, pág. 280) Uma indústria deseja avaliar se o
detergente líquido neutro e o limão são igualmente preferidos pelos consumidores. A preferência de 250
consumidores foi levantada e se encontra digitada no arquivo aula10ex5.mtw.

a) Ao nível de 5% de significância, os dados amostrais indicam que existe diferença entre a


preferência dos dois tipos de detergente líquido?
© DME /2006-2 64 de 70

a1) Estabeleça as hipóteses nula e alternativa.


Formulação verbal de H0:_________________________________________
Formulação matemática de H0: _______ _________

Formulação verbal de Ha: ________________________________________


Formulação matemática de Ha: _______ _________

a2) Faça o teste seguindo os seguintes passos:

1. Selecione Stat > Basic Statistics > 1-Proportion


2. Selecione C1 (Preferência) para o quadro: Samples in columns
3. Selecione Options > escreva a hipótese nula em Test proportion: 0,5 e escolha: Alternative: not
equal
4. Assinale: Use test and interval based on normal distribution
5. Ok.

Temos o resultado:
Event: neutro

Variable X N Sample p 95% CI Z-Value P-Value


Preferência 145 250 0,58 (0,5188190; 0,641181) 2,53 0,011

b) Qual é o valor observado da estatística do teste? _________

c) Interprete o valor p.
_______________________________________________________________________________
_______________________________________________________________________________

d) Conclua de acordo com o contexto.


_______________________________________________________________________________
_______________________________________________________________________________

e) Qual é a estimativa da proporção de consumidores que preferem o detergente líquido neutro?


_____ %

f) Com 95% de confiança, pode-se afirmar que a porcentagem de consumidores que preferem o
detergente líquido neutro está entre _____ e _____. Em outras palavras, 58% dos consumidores
preferem o detergente líquido neutro com um erro para mais ou para menos de ______ %.

10.3.2 Testando hipóteses a partir da síntese numérica dos dados amostrais

EXERCÍCIO 10.6 (Adaptado de Bhattacharyya & Johnson, cap. 8, pág. 263) Um censo de há dois anos
passados revelou que 20% das famílias de uma grande comunidade viviam abaixo do nível de pobreza.
Para determinar se essa porcentagem diminuiu, estudou-se uma amostra aleatória de 500 famílias,
encontrando-se 91 abaixo do nível de pobreza.

a) Ao nível de 5% de significância, o resultado amostral indica que a porcentagem atual é menor


que a porcentagem verificada há dois anos? (faça o teste baseado na distribuição normal)

a1) Estabeleça as hipóteses nula e alternativa.


Formulação verbal de H0:_________________________________________
Formulação matemática de H0: _______ _________

Formulação verbal de Ha: ________________________________________


Formulação matemática de Ha: _______ _________
© DME /2006-2 65 de 70

a2) Faça o teste de hipóteses seguindo os seguintes passos:

1. Selecione Stat > Basic Statistics >1-Proportion


2. Selecione: Summarized data
Number of trials: 500
Number of events: 91
3. Dentro de Options escolha:
Test proportion: 0,2
Alternative: selecione: less than
Assinale: Use test and interval basead on normal distribution
4. Ok.

Temos o resultado:
Test and CI for One Proportion
Test of p = 0,2 vs p < 0,2

Sample X N Sample p 95,0 % CI Z-Value P-Value


1 91 500 0,182000 (0,148180; 0,215820) -1,01 0,157

b) Qual é o valor observado da estatística do teste? _________

c) Interprete o valor p.
_______________________________________________________________________________
_______________________________________________________________________________

d) Qual é o menor valor de α para o qual a hipótese nula pode ser rejeitada? _______
e) Conclua de acordo com o contexto.
_______________________________________________________________________________
_______________________________________________________________________________

10.4 Verificando o que você aprendeu


EXERCÍCIO 10.7 Os produtores de um programa de televisão pretendem modificá-lo se for assistido
regularmente por menos de um quarto dos possuidores de televisão. Uma pesquisa encomendada a uma
empresa especializada mostrou que, de 400 famílias entrevistadas, 80 assistem ao programa
regularmente.

a) Com base nos dados, qual deve ser a decisão dos produtores, considerando um nível de
significância de 5%? Não esqueça de escrever as hipóteses (escreva as formulações verbal e
matemática), calcular a estatística do teste, calcular e interpretar o valor p e tirar a conclusão.
b) Construa e interprete um intervalo de 95% de confiança para a proporção de famílias que
assistem regularmente ao programa.
c) Qual é a estimativa da proporção de famílias que assiste regularmente ao programa atualmente?
d) Com base no intervalo de confiança calculado, qual é a margem de erro?

Resp.: a) Valor observado da estatística do teste z = -2,31 valor p = 0,01


Rejeita-se a hipótese nula ao nível de significância de 5%, ou seja, os produtores
devem modificar o programa.
b) (0,160801; 0,239199) c) 20% d) 3,9199%
© DME /2006-2 66 de 70

EXERCÍCIO 10.8 Um investidor, que planeja abrir uma agência de viagens, quer avaliar se faturará em
média mais que US$3400 por mês. Suponha que os faturamentos mensais de uma agência de viagens,
do porte que o investidor pretende abrir, se distribuam normalmente com um desvio padrão
σ = US$130. Durante 9 meses, o investidor anotou o faturamento líquido mensal de uma agência de
viagem do mesmo porte:

3810 3690 3350 3400 3320 3250 3430 3600 3670

Faça o teste estatístico adequado usando um nível de significância de 5%. Não esqueça de escrever as
hipóteses, calcular a estatística do teste, calcular e interpretar o valor p e tirar a conclusão. Os dados
estão digitados no arquivo aula10ex8.mtw.

Resp: Valor observado da estatística do teste z = 2,36 valor p = 0,009 Conclusão: Rejeita-se
a hipótese nula ao nível de 5% de significância, ou seja, o investidor pode concluir que
uma agência de viagens desse tipo faturará em média mais de US$3400 por mês. A
chance de errar ao rejeitar a hipótese nula, com base na amostra observada, é de 0,9%
.

EXERCÍCIO 10.9 O tempo médio necessário para os operários completarem determinada montagem tem
sido igual a 55 minutos. Suponha que a distribuição do tempo de execução da montagem tenha
distribuição normal. Para avaliar se atualmente o tempo médio de execução da montagem continua
sendo igual a 55 minutos, o supervisor decide registrar, em um determinado dia, os tempos de execução
para uma amostra de 16 operários, obtendo os seguintes dados:

63,9 77,3 61,2 62,2 58,5 58,5 53,8 61,6


57,9 53,2 56,4 62,2 57,3 63,1 70,3 67,6

Faça o teste estatístico adequado usando um nível de significância de 5%. Não esqueça de escrever
as hipóteses, calcular a estatística do teste, calcular e interpretar o valor p e tirar a conclusão. Os
dados estão digitados no arquivo aula10ex9.mtw.

Resp: Valor observado da estatística do teste t = 4,23 valor p = 0,001 Conclusão: Rejeita-se a
hipótese nula ao nível de 5% de significância, ou seja, o tempo médio de execução da
montagem é diferente de 55 minutos. Com base na amostra, a chance de errar ao
fazer esta afirmação é de 0,1%.
© DME /2006-2 67 de 70

LABORATÓRIO DE ESTATÍSTICA
** Exercícios de revisão para 1ª avaliação **
EXERCÍCIO 1.1 (adaptado de Morettin & Bussab, cap. 2, pág. 11): A tabela a seguir apresenta
informações sobre estado civil, grau de instrução, número de filhos, salário (em salários mínimos), idade
(medida em anos) e região de procedência (capital, interior do estado de Minas Gerais ou outro estado
do Brasil) de 36 funcionários da seção de orçamentos da Companhia Milsa e está digitada no arquivo
rev1ex1.mtw.

a) Abra o arquivo rev1ex1.mtw e classifique cada variável como quantitativa (discreta ou contínua) ou
qualitativa (nominal ou ordinal):
Estado Civil: _______________________ _________________________________
Grau de instrução:_____________________ _______________________________
Nº de filhos:___________________________ _______________________________
Salário: ______________________________ _______________________________
Idade: __________________________________ ____________________________
Procedência: ____________________________ ____________________________

b) Complete:
Dos 36 funcionários ________são casados, o que corresponde a ______%. Com relação ao grau
de instrução, ________ funcionários tem 1º ou 2º grau o que corresponde a _____% do total de
funcionários. Um total de ________funcionários não informaram o número de filhos. Um total de
________ (______%) tem menos de 3 filhos. Somente ______ (______%) tem 4 ou 5 filhos. Um
total de ______ (______%) funcionários são do estado.

c) Construa a distribuição de freqüência conjunta para as variáveis grau de instrução e região de


procedência e responda:
 Qual é a porcentagem de funcionários que têm o ensino médio? ________
 Qual é a porcentagem de funcionários que têm ensino médio e são do interior?_________
 Dentre os funcionários do interior, quantos por cento têm o ensino médio?____
 Qual é a porcentagem de funcionários que têm nível superior?_______
 Dentre os funcionários do interior, quantos por cento têm nível superior?_____
 Dentre os funcionários da capital, quantos por cento têm nível superior?_____

d) Faça a síntese numérica da idade dos funcionários e complete:


A idade dos funcionários varia de _________ a __________ anos, com média igual a
__________, mediana igual a __________e desvio padrão igual a ________ anos. Vinte e cinco
por cento dos funcionários tem no mínimo _______ anos.

e) Construa um Ramo-e-Folhas para a variável idade e responda:


 Qual é a forma da distribuição dos valores da idade? _____________________
 Quantos funcionários têm menos de 30 anos? ________
 Quantos funcionários têm no mínimo 40 anos? ________

f) Faça a síntese numérica e construa um gráfico de pontos para a variável salário. Faça um parágrafo
comentando as medidas e o gráfico.

g) Construa um histograma para os salários dos funcionários, com limite inferior da primeira classe igual
a 4 salários mínimos e amplitude de cada classe igual a 4 salários mínimos. Responda:
 Quais são os limites da classe de maior freqüência? __________ e _________
 Quantos funcionários estão nesta faixa salarial? ___________
 Qual é a forma da distribuição dos dados?_____________________________

h) Calcule as medidas descritivas da variável salário para cada categoria do grau de instrução. Não
esqueça de incluir o coeficiente de variação entre as estatísticas selecionadas. Complete o quadro a
seguir:
© DME /2006-2 68 de 70

Grau de n min média Desvio CV% Q1 mediana Q3 max


instrução padrão
Fundamental
Médio
Superior
Todos

Apresente duas conclusões a respeito dos salários dos funcionários uma em relação às medidas de
posição central e outra em relação às medidas de variabilidade.
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________

i) Construa e análise um Boxplot para a variável salário de acordo com a grau de instrução.
__________________________________________________________________________________
__________________________________________________________________________________

j) Estude a associação entre salário e idade construindo o gráfico adequado e calculando a medida de
associação correspondente.
__________________________________________________________________________
_________________________________________________________________________________

k) Estude a associação entre salário e idade, levando em consideração o grau de instrução, construa o
gráfico adequado e calcule as medidas de associação correspondentes.
_________________________________________________________________________________
_________________________________________________________________________________

EXERCÍCIO 1.2 Numa fábrica de refrigeradores foram apontados alguns problemas com a linha de
produção. Para melhor avaliação foi realizado um levantamento dos principais tipos de problemas,
obtendo-se os resultados na tabela abaixo e que estão digitados no arquivo rev1ex2.mtw.

Tipo de defeito Quantidade Custo Unitário (R$)


Vedação das portas 400 5,23
Motor 63 38,2
Prateleiras da Porta 27 5,2
Sistema de controle de
90 7,2
temperatura
Sistema temporizado do alarme 40 7,2

a) Abra o arquivo rev1ex2.mtw e construa um Gráfico de Pareto onde o eixo vertical é a


quantidade de cada tipo de defeito.
b) Complete: Qual é o defeito mais freqüente?______________________________
__________Quantas vezes este defeito ocorreu? _____Ele corresponde a ______% do total de
defeitos. Os dois defeitos mais freqüentes correspondem a _______% do total de defeitos e
totalizam ____________ ocorrências.
c) Construa um Gráfico de Pareto onde o eixo vertical é o custo total para cada tipo de defeito.
d) Quais são os dois tipos de defeito com maior custo total?___________________
_________________________________________________Qual é este custo e quanto ele
representa percentualmente do custo total?_____________________
_________________________________________________________________
e) Considerando os gráficos construídos, quais são, na sua opinião, os dois tipos de defeitos que
devem ser priorizados? _______________________________ e
___________________________________. Caso estes dois defeitos fossem completamente
eliminados, qual economia seria proporcionada à empresa (em % e em R$)?
_____________________ e _________________.
© DME /2006-2 69 de 70

LABORATÓRIO DE ESTATÍSTICA
** Exercícios de revisão para 2ª avaliação **
EXERCÍCIO 2.1 O tempo necessário para a troca do óleo de um carro em um posto de serviço é uma
variável aleatória que tem distribuição normal com µ = 9,2 minutos e σ = 90 segundos.

a) Determine a probabilidade de que uma troca de óleo leve:


i) no máximo 10,6 minutos;
__0,175324 __0,506206 __0,824676 __0,493794 __ 0,172052

ii) de 9,0 a 11,0 minutos;


__0,263608 __0,446965 __0,437965 __0,129457 __0,884930.

iii) mais de 12 minutos;


__0,969026 __0,005649 __0,030974 __0,516839 __0,994351.

b) Determine o tempo k abaixo do qual se realizam 90% das trocas de óleo do posto de serviço.
k = 11,1223
c) Determine um intervalo de tempo, simétrico em torno da média, que compreenda 65% das trocas
de óleo do posto. a = 7,7981 b = 10,6019

EXERCÍCIO 2.2 Um estudo mostra que 35% das famílias residentes em uma grande área metropolitana
têm mais de um carro. Considerando uma amostra de 7 famílias, reponda:

a) Determine a distribuição de probabilidade do número de famílias com mais de um carro

x 0 1 2 3 4 5 6 7
p(x)

b) A probabilidade de que:
a1) exatamente 3 famílias tenham mais de um carro; Resp: P(X = 3) = ?
a2) no máximo 5 famílias tenham mais de um carro; Resp: P(X ≤ 5) = ?
a3) de 3 a 5 famílias tenham ao mais de um carro. Resp: P(3 ≤ X ≤ 5) = ?.
c) O número de famílias com mais de um carro, tal que a probabilidade de observar no máximo
esse número de famílias com mais de um carro, em uma amostra aleatória de 7 famílias, seja no
máximo 95%.
Resp: k = ?, tal que P(X ≤ k) ≤ 0,95

EXERCÍCIO 2.3 (Larson & Farber, cap. 6, pág.214). O diretor do comitê de admissão de uma
universidade deseja estimar a idade média de todos os estudantes aprovados no momento. Em uma
amostra aleatória de 20 estudantes, a idade média encontrada foi de 22,9 anos. A partir de estudos
passados, sabe-se que o desvio padrão é de 1,5 ano e que a população está normalmente distribuída.

d) O parâmetro que o diretor do comitê de admissão de uma universidade deseja estimar é


___________________________________________________
e) Construa um intervalo de 90% de confiança para o parâmetro descrito em ‘a’. Para você o que
significa este intervalo construído? Resp: (22,32; 23,48) anos
g) Com base no intervalo de confiança construído, a estimativa pontual da idade média dos
estudantes aprovados é de ________anos com uma margem de erro de ________anos.
h) No último vestibular a idade média dos estudantes aprovados foi de 24 anos. Ao nível 3% de
significância, teste se a idade média dos estudantes aprovados no momento diminuiu em relação
ao do último vestibular. Ou seja, teste se a idade média atual é menor que 24 anos. Qual a sua
conclusão? Obs: Mostre as hipóteses, a estatística do teste e o valor-p. Resp: z = -3,28 valor-
p = 0,002 (0,2%)
© DME /2006-2 70 de 70

EXERCÍCIO 2.4 Um escritório de investimentos acredita que o rendimento médio das diversas ações que
movimenta é de 20 u.m com um desvio padrão de 5 u.m. Uma nova estratégia foi definida com o objetivo
de aumentar o rendimento médio das diversas ações que movimenta mantendo a uniformidade nos
rendimentos, ou seja, mantendo o desvio padrão em torno de 5 u.m. Para verificar esta hipótese,
tomaram-se 8 empresas ao acaso, obtendo-se os seguintes rendimentos: 23,6; 22,8; 25,7; 24,8; 26,4;
24,3; 23,9 e 25. obs: u.m = unidade de medida

a) Com base na amostra, qual é a estimativa pontual do rendimento médio das diversas ações após
a nova estratégia? Resp: 24,56 u.m
b) Construa um intervalo de 99% de confiança para o rendimento médio das diversas ações após a
nova estratégia. Calcule também a margem de erro. Resp: (20,01; 29,12) E = 4,56 u.m
c) Ao nível 1% de significância, teste se a nova estratégia foi eficiente em aumentar o rendimento
médio das diversas ações que movimenta. Qual sua conclusão. Obs: Mostre as hipóteses, a
estatística do teste e o valor-p. Resp: z = 2,58 valor-p = 0,005 (0,5%)

EXERCÍCIO 2.5 Uma indústria deseja avaliar se o detergente líquido neutro e o limão são igualmente
preferidos pelos consumidores. Em uma amostra de 250 consumidores, 145 expressaram sua
preferência pelo detergente líquido neutro, enquanto os 105 restantes preferem o detergente líquido
limão.

a) Com base na amostra, qual é a estimativa pontual da proporção de consumidores que preferem o
detergente líquido neutro? Resp: 0,58 (ou 58%)
b) Construa um intervalo de 95% de confiança para a proporção de consumidores que prefere o
detergente líquido neutro. Resp: ( 0,5188; 0,6412)
c) Com base no intervalo calculado, qual é o erro máximo cometido na estimação da verdadeira
proporção de consumidores que preferem o detergente líquido neutro? Resp: E = 0,0612 (ou
6,12%).
d) Os dados indicam que existe diferença significativa entre a popularidade dos dois tipos de
detergente líquido? Para responder a esta pergunta, vamos testar ao nível de significância de 5%
as hipóteses abaixo:
H 0 : p = 0,50 onde p = proporção de consumidores que preferem o
 detergente líquido neutro.
H 0 : p ≠ 0,50
Resp: z = 2,53 p = 0,011 (1,1%).

Você também pode gostar