Apostila Minitab

Inferência Estatística e Teste t
Objetivos
• Avaliar a diferença entre uma média (populacional) e um valor

alvo usando um teste t para 1 amostra e intervalos de con-
fiança;
• Avaliar o poder de um teste de hipóteses usando análise de
poder;
• Testar a diferença entre duas médias populacionais usando um
teste t para 2 amostras;
• Testar a diferença entre observações pareadas usando um teste
t pareado.
Copyright © - GLOBAL TECH
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Inferência Estatística e Teste t 3

Conteúdo
Exemplos e Exercícios Objetivos Página

Testes de Hipóteses e Intervalos de Con-
fiança
Exemplo 1: Avaliar a diferença entre uma média e um valor alvo usando um 5
Enchendo Caixas de Cereal teste t para 1 amostra.
Poder e Tamanho de Amostra
Exemplo 2: Avaliar o poder de um teste t. 19
Avaliando o Poder
Teste t para 1 Amostra
Exemplo 3: Demonstrar o efeito do tamanho de amostra no poder. 29
Aumentando o Poder
Exercício A: Determinar tamanhos de amostras e diferenças detectáveis em 36
Detectando Mudanças em Diâmetros de testes t. Avaliar a diferença entre uma média e um alvo.
Rolamentos
Exercício B: Determinar o poder de um teste t para um dado tamanho de 37
Investigando a Qualidade do Fornecedor amostra. Avaliar a diferença entre uma média e um alvo.
Poder e Tamanho de Amostra para Teste t
para 2 Amostras
Exemplo 4: Determinar o tamanho de amostra necessário em um teste t 38
Tamanho de Amostra para Comparação de para 2 amostras independentes.
Fornecedores
Exemplo 5: Avaliar a diferença entre médias usando um teste t para 2 44
Resistência de Plásticos amostras independentes.
Exercício C: Determinar o tamanho de amostra necessário em um teste t 55
Altura do Ânodo para 2 amostras independentes. Usar o teste para avaliar as
diferenças entre médias.
Teste t Pareado
Exemplo 6: Avaliar a diferença entre observações pareadas usando um tes- 56
Estacionando Carros te t pareado.
Exercício D: Avaliar a diferença entre observações pareadas usando um tes- 64
Comparando Instrumentos de Medição te t pareado. Determinar o poder de um teste t pareado.
4 Inferência Estatística e Teste t

Testes de Hipóteses e Intervalos de Confiança
Exemplo 1: Enchendo Caixas de Cereal

Problema
Um fabricante de cereais deseja determinar se o processo de enchimento das caixas encontra-se no alvo. O alvo para o peso das caixas
de cereais é 365 gramas.
Coleta de dados
Os engenheiros selecionaram 6 caixas de cereais aleatoriamente, pesaram, e usaram os dados amostrais para estimar a média popu-
lacional (a média do processo).
Ferramentas
• 1-Sample t
• Normality Test
Arquivo de dados
CEREAl.MPJ
Variável Descrição
Peso da caixa Peso da caixa de cereais (em gramas)

Teste de hipóteses
O que é um teste de hipóteses
Um teste de hipóteses utiliza dados amostrais para testar uma hipótese sobre a população da qual a amostra foi obtida. O teste t para
uma amostra é um dos muitos procedimentos disponíveis para teste de hipóteses no Minitab.
Por exemplo, suponha que desejamos testar se o comprimento médio de chapas de aço é igual ao comprimento desejado. O procedi-
mento envolve medir um determinado número de chapas e usar o comprimento médio dessas chapas amostradas para estimar o com-
primento médio da população de chapas. Isso é um exemplo de inferência estatística: o uso de informações sobre uma amostra para
fazer inferências sobre uma população.
Quando usar um teste de hipóteses

Use um teste de hipóteses para fazer inferências sobre uma ou mais populações quando os dados amostrais estiverem disponíveis.
Por que usar um teste de hipóteses

Testes de hipóteses podem ajudar a responder a perguntas tais como:
• O processo está corretamente centrado?

• O produto de um fornecedor é melhor do que o produto de outro?
• Existem diferenças entre grupos de tratamento no experimento?
Por exemplo:
• A largura média do jornal possui as desejadas 8,5 polegadas de largura?

• A queima do combustível de um fornecedor polui menos que a queima do combustível de outro fornecedor?
• Os clientes preferem uma fórmula de refrigerante em relação à outra?

Teste t para uma amostra
O que é um teste t para uma amostra
Use um teste t para uma amostra para a determinar se µ (a média da população) é igual a um valor hipotético (a média de teste, também
chamada de valor alvo).
O teste usa o desvio-padrão amostral para estimar s (o desvio padrão populacional). Se a diferença entre a média amostral e a média
hipotética é grande em relação à variabilidade dentro da amostra, então é improvável que µ seja igual à média de teste.
Quando usar um teste t para uma amostra

Usamos um teste t para uma amostra quando temos dados contínuos, vindos de uma única amostra aleatória.
O teste pressupõe que a população seja normalmente distribuída. Entretanto, ele é bastante robusto a pequenas violações desta supo-
sição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos
(veja Box, Hunter & Hunter [1978]. Statistics for Experimenters, John Wiley and Sons, Inc.)
Porque usar um teste t para uma amostra

Um teste t para uma amostra pode nos ajudar a responder a perguntas tais como:
• Um processo está dentro do valor nominal?

• O produto de um fornecedor atende às especificações?
Por exemplo:
• A largura média das lâminas de barbear está acima ou abaixo do valor alvo?
• A resistência média dos parafusos do fornecedor é inferior ao mínimo requerido?

Teste de Normalidade
O teste estatístico apropriado para os dados dos pesos das caixas de cereais é o teste t para uma amostra. Este teste pressupõe que a
população é normalmente distribuída.
Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.
1) Abra o projeto CEREAL.MPJ.

2) Selecione Stat > Basic Statistics > Normality Test.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
4) Clique em OK.

Interpretando os resultados
Use o gráfico de probabilidade normal para verificar se os dados não estão se desviando, de forma significativa, de uma distribuição
normal.
• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.
Teste de normalidade de Anderson-Darling

As hipóteses do teste de normalidade de Anderson-Darling são:
• H0: Os dados provêm de uma população normalmente distribuída

• H1: Os dados não provêm de uma população normalmente distribuída
O p-valor do teste de Anderson-Darling (0,599) avalia a probabilidade dos dados serem provenientes de uma população normalmente
distribuída. Usando um nível de significância 0,05, não há evidência suficiente para sugerir que os dados não vêm de uma população
normal.
Conclusão
Com base no gráfico e no teste, é razoável supor que os dados não se desviam de forma substancial de uma distribuição normal.
Próximo passo
Realize um teste t.

Testando a Hipótese Nula
Os fabricantes desejam determinar se o peso médio para o processo de embabalgem difere significativamente do peso alvo de 365
gramas. Em termos estatísticos, a média do processo é chamada de média populacional, ou µ (mi).
Hipóteses estatísticas
Existem duas possibilidades: ou µ é igual a 365 ou não é. Essas alternativas podem ser declaradas como duas hipóteses:
• A hipótese nula (H0): µ é igual a 365 gramas.

• A hipótese alternativa (H1): µ não é igual a 365 gramas.
Uma vez que não é viável medir cada pessoa adulta na população, nunca poderemos saber com certeza qual hipótese é correta.
Contudo, um teste de hipóteses apropriado pode nos ajudar a dar um palpite com um certo grau de certeza. Para esses dados, o teste
apropriado é o teste t para uma amostra.
1-Sample t
1) Selecione Stat > Basic Statistics > 1-Sample t.
2) Preencha a caixa de dialogo como mostra a figura abaixo.
3) Clique em OK.

A lógica do teste de hipóteses

Todos os testes de hipóteses seguem as mesmas etapas:
1. Pressupomos que Ho é verdadeira;

2. Determinamos quão diferente a amostra é do que esperaríamos, dado que Ho é verdadeira;
3. Se a amostra for suficientemente improvável, dado que Ho é verdadeira, rejeitamos Ho.
Por exemplo, os resultados indicam que a média da amostra é 366,705 gramas. Assim, o teste responderá a questão: “Se µ é igual a
365, qual a probabilidade de se obter uma amostra com uma média de 366,705 (ou até menor) ?” A resposta é dada como um Valor-P,
que para este teste é igual a 0,143.
One-Sample T: Peso da caixa
Test of mu = 365 vs not = 365
Variable N Mean StDev SE Mean 95% CI T P

Peso da caixa 6 366,705 2,403 0,981 (364,183; 369,226) 1,74 0,143

Tomando uma decisão

Para tomar uma decisão, precisamos escolher o nível de significância α (alfa), antes de executar o teste:
• Se o p-valor é menor ou igual a α, rejeitamos Ho.

• Se o p-valor é maior do que α, não rejeitamos Ho. (Tecnicamente, nunca aceitamos H0; simplesmente falhamos em rejeitá-la).
Um valor típico para α é 0,05, mas é possível escolher valores maiores ou menores dependendo da sensibilidade requerida para o teste
e das conseqüências de rejeitar incorretamente a hipótese nula. Assumindo que escolhemos um nível α de 0,05 para os dados de peso
da caixa de cereais, não haveria evidências suficientes para rejeitar Ho. Valor-P = 0,143 é maior do que α.
One-Sample T: Peso da caixa

Peso da caixa 6 366,705 2,403 0,981 (364,183; 369,226) 1,74 0,143

Intervalos de confiança
O que é um intervalo de confiança
Um intervalo de confiança é uma faixa de valores prováveis para um parâmetro de população (tal como µ) que se baseia em dados de
uma amostra. Por exemplo, num intervalo de 95% de confiança para µ, tem-se 95% de confiança de que o intervalo contém µ.
Quando usar um intervalo de confiança

Use um intervalo de confiança para fazer inferências sobre uma ou mais populações a partir dos dados de amostra ou para quantificar
a precisão da estimativa de µ.
Por que usar um intervalo de confiança

Intervalos de confiança podem ajudar a responder as mesmas questões que um teste de hipóteses:
• O valor de µ é o valor nominal?

• Quão elevado pode ser o erro da estimativa de µ?
• Quão maior ou menor µ pode ser?
Pode-se utilizar intervalos de confiança para se obter conclusões sobre um teste de hipóteses:
• O valor testado pertence ao IC: não rejeita-se Ho.

• O valor testado não pertence ao IC: rejeita-se Ho.

Usando o intervalo de confiança
Utilizamos um teste de hipóteses para determinar se a média do peso da caixa de cereais era diferente de 365 gramas. Pode-se usar
também um intervalo de confiança para avaliar essa diferença.
Os resultados da janela Session para 1-Sample t incluem valores para as extremidades do intervalo de 95% de confiança. Podemos obter
uma representação gráfica do intervalo selecionando Individual value plot na subcaixa de diálogo Graphs.
1-Sample t - Graphs
1) Selecione Stat > Basic Statistics > 1-Sample t, ou pressione Ctrl+E.
2) Clique em Graphs.
3) Complete a caixa de dialogo como mostra a figura abaixo:
4) Clique em OK em cada caixa de diálogo.

Intervalo de confiança
O intervalo de confiança é uma faixa de valores prováveis para µ. Ele é mostrado graficamente como uma linha azul abaixo do Individual
Value Plot.
Um intervalo de confiança é de 95% por que, se selecionarmos 100 amostras da mesma população, os intervalos para cerca de 95% das
amostras incluiriam µ. Assim, para qualquer amostra, podemos ter uma confiança de 95% de que o intervalo de confiança engloba µ .
OBSERVAÇÃO: Um intervalo de confiança não representa 95% dos dados; este é um erro conceitual comum.

Teste de hipóteses
O marco central representa a média da amostra e o ponto vermelho, denominado de Ho, representa a média do teste (365). Pode-se usar
o intervalo de confiança para testar a hipótese nula:
• Se Ho estiver fora do intervalo, o Valor-P para o teste de hipóteses será menor que 0,05. Pode-se rejeitar a hipótese nula ao nível
a de 0,05.
• Se Ho estiver dentro do intervalo, o Valor-P será maior que 0,05. Não se deve rejeitar a hipótese nula ao nível a de 0,05.
Uma vez que H0 cai dentro do intervalo de confiança, não se deve rejeitar a hipótese nula. Não há evidências suficientes para concluir
que µ não é 365 gramas, ao nível de significância de 0,05.

Considerações Finais
Resumo e conclusões
Com base nos dados da amostra, não se pode rejeitar a hipótese nula ao nível de 0,05. Não há evidências suficientes para sugerir que
o peso médio da caixa de cereais difere de 365 gramas.
Assim como o teste t, o intervalo de 95% de confiança não fornece evidência suficiente para rejeitar a hipótese nula de que a média dos
pesos das caixas é diferente de 365 gramas.
Considerações adicionais
Hipóteses:
Um teste de hipóteses sempre começa com duas hipóteses opostas:
A hipótese nula (Ho):
• Geralmente declara que alguma propriedade de uma população (como a média, por exemplo) não é diferente de um valor espe-
cificado, ou de outra população;
• É considerada verdadeira até que sejam coletadas evidências suficientes do contrário;
• Nunca é aceita, simplesmente fala-se em não rejeitá-la.
A hipótese alternativa (H1):
• Declara que a hipótese nula está incorreta;

• Também pode especificar a direção da diferença.
Nível de significância
Escolha o nível de significância antes de executar um teste:
• O aumento de a amplia as chances de detectar uma diferença (e assim, o poder); mas também aumenta as chances de rejeitar
H0 quando, de fato, ela é verdadeira (erro tipo I);
• A redução de a reduz as chances de cometer um erro tipo I, mas também reduz as chances de detectar uma diferença (reduz o
poder de teste).

Suposições
Cada teste de hipóteses baseia-se em uma ou mais suposições sobre os dados que estão sendo analisados. Se estas suposições não
forem satisfeitas, as conclusões podem não ser corretas.
Quando utilizamos um teste t para uma amostra:
• A amostra deve ser aleatória;

• Os dados da amostra devem ser contínuos;
• Os dados da amostra devem ser normalmente distribuídos.
O teste t é bastante robusto a pequenas violações da suposição de normalidade, desde que as observações tenham sido coletadas
aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos.
O intervalo de confiança é uma faixa de valores prováveis para µ (ou outro parâmetro populacional).
Pode-se executar um teste de hipóteses bilateral (a hipótese alternativa é µ) usando um intervalo de confiança. Por exemplo, se o valor
de teste não está contido no intervalo de 95% de confiança, deve-se rejeitar H0 para um nível de significância de 0,05. Da mesma forma,
se um intervalo de 90% de confiança for construído e ele não contém a média de teste, deve-se rejeitar H0 para um nível de significância
de 0,10.

Exemplo 2: Avaliando o Poder

Problema
Os engenheiros estão preocupados com os resultados da análise de pesos de enchimento, devido ao seu pequeno tamanho amostral.
Eles decidem conduzir uma análise de poder para determinar se coletaram amostras suficientes para detectar uma diferença.
Eles querem certificar-se de que a média do processo não difere do alvo de 365 gramas em mais de 2,5 gramas.
Coleta de dados
Os engenheiros baseiam a análise de poder nos resultados do teste t do Exemplo 1.
Ferramentas
• Power and Samplo Size - 1-Sample t
Arquivo de dados
Nenhum

Análise de poder
O que é analise de poder
O poder é a capacidade de um teste detectar um efeito quando este existir. Ao se executar um teste de hipóteses, existem quatro resul-
tados possíveis:
Hipótese nula
Decisão Verdadeira Falsa
Não rejeitar Decisão Correta (Confiança) Erro tipo II
p=1-α p=β
Rejeitar Erro tipo I Decisão Correta (Poder)
p=α p=1-β
O poder do teste é a probabilidade de que a rejeição da hipótese nula esteja correta, dado que a hipótese nula é falsa. Podemos usar
uma análise de poder para determinar quanto poder tem um teste existente ou para ajudar a projetar um novo teste, de modo que este
tenha o poder adequado.
Quando usar análise de poder

Use uma análise de poder quando estiver planejando um experimento ou após executar um teste de hipóteses. Não são necessários
quaisquer dados. Será preciso estimar σ (exceto para testes de proporção).
Por que usar análise de poder

Uma análise de poder pode ajudar a responder perguntas como:
• Qual tamanho de amostra devo coletar para a análise?

• O tamanho da amostra é grande o bastante?
• Qual o tamanho de diferença que o teste é capaz de detectar?
• Os resultados do teste são confiáveis?
Por exemplo:
• Quantas amostras precisamos coletar para determinar se o papel de um fornecedor é mais espesso do que o de outro em 0,0038
cm?
• Qual o tamanho da diferença que seria detectada entre as médias das resistências de vigas de aço e uma média histórica ba-
seada em 8 amostras?
• Podemos confiar nos resultados de um teste t que indique que as resistências de duas formulações de cola não se diferem?

Determinando as diferenças de parâmetros
Valores
Para estimar o poder, você deve especificar os valores para quaisquer dois dos parâmetros de teste a seguir. O Minitab calculará o
parâmetro que falta:
• Sample sizes (Tamanhos da amostra) - número de observações na amostra.

• Diferences (diferenças) - um deslocamento significativo em relação ao alvo que você está interessado em detectar com uma
probabilidade elevada.
• Power values (Valores de poder) - o poder (probabilidade de se rejeitar Ho quando esta for falsa) que você gostaria que o teste
tivesse.
Diferenças
Para determinar se uma diferença é significativa, determine o valor do deslocamento que será considerado inaceitável na medida do
parâmetro.
Neste exemplo, considere:
• Os dados são provenientes de uma população normalmente distribuída;

• Os limites de aceitação para a temperatura são 360 e 370.
O gráfico abaixo ilustra um deslocamento de 2,5 gramas à direita do alvo. Se tal deslocamento ocorrer, o número de defeitos acima do
limite superior de especificação de 370 seria inaceitável.

Determinando o poder
Usando a análise de poder, avalie o quanto você pode confiar nos resultados da análise de pesos de enchimento do exemplo anterior.
Valores
Se você digitar mais do que um valor para um parâmetro, o Minitab executará cálculos separados para cada valor dado.
Desvio padrão
Uma vez que o poder de um teste é parcialmente determinado pela variabilidade dos dados, é preciso fornecer uma estimativa do desvio-
padrão dos dados. Use uma estimativa histórica ou o desvio-padrão amostral.
Para os dados dos cereais, o desvio padrão (2,403) vem dos resultados do teste t.
Power and Sample Size for 1-Sample t

1) Selecione File > New, então selecione Minitab Project e clique em OK.
2) Selecione Stat > Power and Sample Size > 1-Sample t.
4) Clique em OK.

Com 6 observações, um desvio padrão de 2,403 e um nível de significância de 0,05, o poder é apenas 0,537662. Isso significa que se µ
estiver longe do valor alvo de 2,5 gramas, a chance de detectar isso com 6 amostras é de 53,77%.
Em outras palavras, há 46,23% de chance de não rejeitar Ho e concluir incorretamente que o valor 365 é realmente o peso médio de
enchimento das caixas de cereal.
Power and Sample Size
1-Sample t Test
Testing mean = null (versus not = null)

Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 2,403
Sample
Difference Size Power
-2,5 6 0,537662
2,5 6 0,537662

A curva de poder permite que você veja a probabilidade de detectar uma diferença (poder) para várias diferenças e opcionalmente para
vários tamanhos amostrais. As diferenças específicas digitadas na caixa de diálogo estão indicadas pelos pontos vermelhos.
Neste exemplo, a diferença representa um deslocamento na média do processo em relação ao alvo, em gramas. Quando a média do
processo é um grama acima ou abaixo do alvo, o poder de detectar a diferença com 6 amostras é muito baixo. Quando a média do pro-
cesso é dois gramas abaixo ou acima do alvo, o poder de detectar uma diferença com 6 amostras é próximo de 0,40. Mesmo o poder a
mais ou menos três gramas é inaceitável para a maioria dos padrões.
Uma forma de aumentar o poder e aumentar o tamanho da amostra.
Próximo passo
Determine o número de observações requeridas para atingir o poder adequado. Quantas observações você precisa para ter 80% de
chance de detectar um deslocamento de 2,5 gramas em relação ao alvo? Quantas observações você precisa para ter 85%, 90% ou 95%
de chance de detectar esta diferença?

Com 6 observações,o poder do teste foi apenas 0,5377. Para ter uma chance melhor de detectar uma diferença, aumente o poder do
teste para, pelo menos, 0,80 (como uma regra geral).
Calcule os tamanhos de amostra necessários para atingir níveis de poder de 0,80, 0,85, 0,90, 0,95.

1) Selecione Stat > Power and Sample Size > 1- Sample t.

Para ter um poder de pelo menos 0,80 (Target Power - Poder Alvo) de detectar uma diferença de 2,5 gramas ao nível α de 0,05, será
preciso um tamanho de amostra de 10.
Uma vez que o tamanho da amostra deve ser um número inteiro, o Actual Power (poder real) do teste com 10 observações (0,832695)
é ligeiramente maior do que o poder alvo.
Observações adicionais que lhe darão mais poder.
• Com 11 observações, o poder será de 0,873928;

• Com 12 observações, o poder será de 0,905836;
• Com 15 observações, o poder será de 0,962487.
Ao dobrar o tamanho da amostra de 6 para 12 caixas, o poder do teste aumenta e o teste é capaz de detectar menores deslocamentos
em relação à média.
Se o poder for muito elevado (por exemplo, 99%), o teste podemos detectar deslocamentos pequenos demais, que não tem importância
prática.
1-Sample t Test

Sample Target
Difference Size Power Actual Power
-2,5 10 0,80 0,832695
-2,5 11 0,85 0,873928
-2,5 12 0,90 0,905836
-2,5 15 0,95 0,962487
2,5 10 0,80 0,832695
2,5 11 0,85 0,873928
2,5 12 0,90 0,905836
2,5 15 0,95 0,962487

A curva de poder para os tamanhos amostrais maiores aumenta mais rapidamente à medida que a diferença se afasta de zero. O poder
é razoavelmente alto para detectar uma diferença de 2,5 gramas com tamanhos amostrais entre 10 e 15.

Considerações finais
É provável que o primeiro teste das caixas de cereal não tenha sido significativo simplesmente por que o poder era muito baixo. Com
base no número de observações (6), na diferença que desejava detectar (2,5) e na variabilidade dos dados, o teste tinha um poder de
apenas 0,537662.
O uso de uma amostra maior fornece mais poder, possibilitando detectar a diferença, caso ela exista.
Para garantir que um teste tenha poder suficiente, é aconselhável executar uma análise de poder antes de coletar os dados.
Para aumentar o poder de um teste:
• Aumente o tamanho amostral;

• Diminua a variabilidade quer não é atribuída ao efeito de interesse;
• Aumente o nível de significância (apesar disso aumentar a chance de um erro Tipo I).
Poderes mais altos indicam uma maior probabilidade de detectar uma diferença. Entretanto, isso também aumenta a chance de detectar
efeitos pequenos que podem não ser de interesse prático. Use o conhecimento sobre o processo para determinar a menor diferença
detectável e o nível ótimo de poder para um teste.
Nota: Um teste unilateral é mais poderoso que um teste bilateral, a menos que a diferença não seja na direção esperada. Por exemplo, um teste
unilateral com a hipótese alternativa H1: µ > 365 pode não detectar diferenças se a média amostral real é menor que 365..

Exemplo 3: Aumentando o Poder

Problema
Os resultados da análise de poder sugerem que uma amostra maior é necessária para se avaliar o processo. Com apenas 6 observa-
ções, houve muito pouco poder para detectar uma diferença de 2,5 gramas.
Coleta de dados
Engenheiros selecionaram aleatoriamente 12 caixas de cereais e pesaram.
Ferramentas
• 1-Sample t
• Normality Test
Arquivo de dados
CEREAl.MPJ
Mais Obs Peso das caixas em gramas

Testando a suposição de normalidade
O teste estatístico apropriado para os dados das caixas de cereal é o teste t para uma amostra. Este teste assume que a população seja
normalmente distribuída.
Use o teste de normalidade para determinar se a suposição de normalidade é válida para este processo.
Normality Test
1) Abra o projeto CEREAL.MPJ.
2) Selecione Window > Worsheet 2***.
5) Clique em OK.

Use o gráfico de probabilidade normal para verificar se os dados não estão se desviando de forma significativa do que é esperado quando
a amostra vem de uma distribuição normal.

As hipóteses do teste de normalidade de Anderson-Darling são:
• H0: Os dados provêm de uma população normalmente distribuída

• H1: Os dados não provêm de uma população normalmente distribuída
O Valor do teste de Anderson-Darling (0,545) avalia a probabilidade dos dados serem provenientes de uma população normalmente
distribuída. Usando um α de 0,05, não há evidência suficiente para sugerir que os dados não são de uma população normal.
Conclusão
Com base no gráfico e no teste, é razoável supor que os pesos das caixas de cereal são normalmente distribuídos e um teste t é apro-
priado para testar a média do estudo.
Próximo passo
Realize um teste t.

Testando a hipótese nula
Analisaremos os novos dados amostrais para determinar se a média do processo difere de 365 gramas.
1-Sample t
1) Selecione Stat > Basics Statistics > 1-Sample t.
4) Marque Boxplot of data.

O Boxplot ilustra os resultados do teste:
• O valor alvo (Ho) está fora do intervalo de confiança.

• A média da amostra (x) é mais baixa que o valor alvo.
Conclusão
A diferença entre a média do processo e o valor alvo (365 gramas) é significativa ao nível α de 0,05.

Use um nível a de 0,05 para o teste.
T
A estatística t (2,75) é calculada como:
t = (média amostral - média de teste)/ SE Mean
onde SE Mean é o erro padrão da média (uma medida de variabilidade). À medida que o valor de t aumenta, o Valor-P diminui.
P
O Valor-P é 0,019. Como este valor é menor que α (0,05), você deve rejeitar a hipótese nula.
O teste t indica que a diferença entre a média do processo e o alvo de 365 gramas é significativa ao nível α de 0,05:
• O Valor-P (0,019) é menor que α (0,05).

• O intervalo de 95% de confiança não inclui o valor de referência.
One-Sample T: Mais_Obs

Mais_Obs 12 366,636 2,060 0,595 (365,327; 367,945) 2,75 0,019

Com base na amostra de tamanho 12, α = 0,05 e p-valor de 0,019, rejeite Ho e conclua que a média do processo não é igual a 365.
O tamanho da amostra tem uma função importante na avaliação da média:
• Quando o tamanho da amostra foi 6, não foi encontrada diferença estatística entre a média do processo e o valor alvo;
• Quando o tamanho da amostra foi 12, uma diferença estatística foi encontrada a um nível de 95% de confiança.
Sempre que possível, examine o poder e o tamanho da amostra antes da coleta dos dados. Do contrário, se você descobrir depois da
coleta dos dados que o poder é inadequado, pode ter dificuldades para obter observações adicionais sob as mesmas condições da
amostra original.

Exercício A:
Detectando Mudanças em Diâmetros de Rolamentos
Problema
Um fabricante de rolamentos está preocupado com a possibilidade do diâmetro dos rolamentos ter se deslocado do alvo, que é de 5 mm.
Engenheiros consideram uma diferença de 0,1 mm importante o bastante para requerer um ajuste no equipamento.
Tipicamente, o desvio-padrão dos diâmetros é de 0,04 mm. Use um nível α de 0,05 para todos os testes.
Coleta de dados
Engenheiros selecionaram aleatoriamente 10 rolamentos e mediram seu diâmetro.
Instruções
1) Use Stat > Power and Sample Size > 1-Sample-t para calcular o tamanho amostral necessário para detectar uma diferença
de 0,1 mm com um poder de 0,85.
2) Calcule a diferença detectável com um poder de 0,90 ao coletar 5 e 10 observações.
3) Teste a normalidade da amostra.
4) Determine se o processo está atingindo o alvo. Execute um teste de hipóteses (H1: µ ≠ 5) e gere um boxplot dos dados.
Arquivo de dados
ROLAMENTOS.MTW
Diâmetro Diâmetro dos rolamentos (mm)

Exercício B: Investigando a Qualidade do Fornecedor
Problema
Um fabricante de queijos suspeita que um de seus fornecedores de leite esteja adicionando água em seu leite para aumentar o lucro.
Adicionar água ao leite aumenta sua temperatura de congelamento, que normalmente é de -0,545º C.
Coleta de dados
Analistas mediram a temperatura de congelamento para 10 lotes selecionados aleatoriamente do fornecedor de leite.
Instruções
1) Com um tamanho amostral de 10, determine o poder para detectar diferenças de 0,008, 0,010 e 0,012. Em Options, abaixo de
Alternative Hypothesis, escolha Greater than. Assuma um desvio padrão de 0,01.
2) Use um teste t para 1 amostra para determinar se a média é maior que -0,545. Em Options, abaixo de Alternative Hypothesis,
escolha Greater than.
3) Teste a normalidade dos dados.
4) Se todas as amostras vem de um lote de leite, isso modificaria a análise e a conclusão?
Arquivo de dados
QUEIJO.MTW
TempCong Temperatura de congelamento do leite (ºC)

Poder e Tamanho de Amostra no Teste t para 2 Amostras
Exemplo 4:
Tamanho de Amostra para Comparação de Fornecedores
Problema
Um fabricante de calculadoras está selecionando um fornecedor de plástico. A equipe de qualidade tem uma política para métricas críti-
cas de qualidade, que declara:
“Assumindo custos e variabilidade similares, as resistências médias com mais de um desvio padrão de diferença são um deslocamento
significativo.”
Determine o tamanho amostral necessário para detectar uma diferença de um desvio padrão entre dois fornecedores com variabilidade
similar. (O Minitab assume variabilidade igual no cálculo do tamanho da amostra.) O poder para detectar essa diferença deveria ser de
pelo menos 80%.
Ferramentas
• Power and Sample Size: 2-Sample t
Arquivo de dados
Nenhum

Poder e tamanho de amostra no teste t para duas amostras
O que é poder e tamanho de amostra em um teste t para duas amostras
Em um teste t para duas amostras:
• Poder é a probabilidade de que você detecte uma diferença entre as duas médias quando elas realmente diferem.
• Tamanho amostral é o número de amostras por grupo que você precisa para atingir um determinado poder.
Quando usar poder e tamanho de amostra em um teste t para duas amostras

Use a análise:
• Antes de coletar os dados, para determinar o tamanho amostral

• Após coletar os dados, para avaliar o poder de detectar uma diferença entre as médias
NOTA: É importante registrar o poder de um teste quando você detectar nenhuma diferença (não rejeitar H0).
Por que usar poder e tamanho de amostra em um teste t para duas amostras
Poder e tamanho de amostra pode determinar:
• O tamanho amostral por grupo que você precisa para detectar uma diferença entre as médias com um poder específico
• O poder de um teste para detectar uma diferença entre as médias com base em um tamanho amostral específico
• O tamanho de uma diferença detectável com um poder e tamanho de amostra específico.

Determinando o tamanho de amostra em testes t para 2 amostras
Tamanhos de amostra
Não entre com um tamanho de amostra quando você quiser determinar o tamanho amostral.
Valores da diferença e desvio padrão

O poder de um teste depende da diferença que você quer detectar em relação ao desvio padrão. Para detectar uma diferença de 1 desvio
padrão (ou 1 sigma), entre com uma diferença de -1 e 1, e um desvio padrão de 1.
Valores de poder
Entre com o(s) valor(es) de poder desejado(s). Valores de poder maiores que 0,80 são tipicamente considerados aceitáveis.

1) Selecione File > New, então selecione Minitab Project e clique em OK.
4) Clique em OK.

Tamanho amostral
Um tamanho amostral de 17 amostras de plástico por fornecedor dá um poder de 0,807037. Um tamanho amostral de 23 amostras de
plástico por fornecedor dá um poder de 0,912498.
Poder alvo versus poder real

O poder alvo é o valor de poder que você especifica na caixa de diálogo. Como o tamanho amostral precisa ser um número inteiro, você
raramente obterá o valor de poder exato.
O poder real é aproximado para o menor tamanho amostral resultante em um poder pelo menos tão grande quanto o poder alvo.
2-Sample t Test
Testing mean 1 = mean 2 (versus not =)

Calculating power for mean 1 = mean 2 + difference
Alpha = 0,05 Assumed standard deviation = 1
Sample Target
-1 17 0,8 0,807037
-1 23 0,9 0,912498
1 17 0,8 0,807037
1 23 0,9 0,912498
The sample size is for each group.

Curva de poder
Neste exemplo, a diferença representa o número de desvios padrão entre a média do processo do fornecedor A e a média do processo
do fornecedor B. O poder é razoavelmente bom ao detectar uma diferença de 1 desvio padrão com tamanhos amostrais entre 17 e 23.

• A empresa deve usar entre 17 e 23 amostras por fornecedor para detectar uma diferença de 1 desvio padrão (1σ) entre as médias
dos fornecedores com um poder razoavelmente alto.
• Quanto maior o tamanho amostral, maior o poder do teste. Colete observações suficientes para atingir o poder adequado, mas
não tantas, para que você não perca tempo e dinheiro com medições desnecessárias.
Ás vezes uma diferença e um desvio padrão não estão disponíveis ao calcular o poder. Como o cálculo do poder é baseado na razão da
diferença pelo desvio padrão, você não precisa especificá-los se estiver planejando aceitar a resposta em termos do número de desvios
padrão que separam as duas médias populacionais. Por exemplo, se a diferença é 2 e o desvio padrão é 2, o poder será o mesmo se a
diferença for 1 e o desvio padrão for 1, pois ambas são diferenças de 1 σ.
Como mostrado nesse exemplo, você pode especificar uma diferença de 1 σ configurando diferença e desvio padrão iguais. Da mesma
forma, você pode especificar uma diferença de 2 σ especificando uma diferença que seja duas vezes o desvio padrão.

Teste t para 2 Amostras
Exemplo 5: Resistência de Plásticos

Problema
Um fabricante de calculadoras está selecionando um fornecedor de plástico. Usando uma amostra de tamanho 20 para cada fornecedor,
o fabricante deve comparar a resistência das amostras dos dois fornecedores.
Coleta de dados
Uma máquina pressiona os grânulos plásticos de lotes selecionados aleatoriamente. Técnicos registram a resistência à quebra (em
Newtons) de cada grânulo.
Ferramentas
• 2-Sample t
• Normality Test
• 2 Variances
Arquivo de dados
PLÁSTICO.MTW
Fornecedor A Resistência à quebra dos grânulos plásticos do fornecedor A
Fornecedor B Resistência à quebra dos grânulos plásticos do fornecedor B

Teste t para 2 amostras independentes
O que é o teste t para 2 amostras independentes
Um teste t para 2 amostras independentes ajuda a determinar se duas médias populacionais são diferentes. O teste usa os desvios
padrão amostrais para estimar o σ (desvio-padrão) de cada população. Se a diferença entre as médias amostrais for grande em relação
à variabilidade estimada dentro das populações, é improvável que a média das populações seja a mesma.
Você também pode usar um teste t para 2 amostras independentes para avaliar se as médias de duas populações diferem de um valor
específico.
Quando usar o teste t para 2 amostras independentes

Use um teste t para 2 amostras independentes com dados contínuos que provêm de duas amostras aleatórias e independentes. As
amostras são independentes se as observações de uma amostra não estiverem relacionadas com as observações de outra amostra.
Neste exemplo, as resistências dos grânulos plásticos do fornecedor A não são influenciadas pelas resistências dos plásticos do forne-
cedor B; portanto, as amostras são independentes.
O teste também assume que os dados sejam provenientes de populações normalmente distribuídas. Entretanto, o teste é robusto a
violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razo-
avelmente simétricos.
Por que usar o teste t para 2 amostras independentes

Um teste t para 2 amostras independentes responde perguntas tais como:
• As médias da característica de um produto são comparáveis entre dois fornecedores?

• A formulação de um produto é melhor que a de outro, em média?
Por exemplo:
• A viscosidade média do óleo de dois fornecedores diferentes é similar?

• Uma fórmula de tinta é mais brilhante do que outra?

Testando a suposição de normalidade
O teste t para 2 amostras assume que os dados provêm de populações normalmente distribuídas.
Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.
Normality Test
1) Abra o arquivo PLÁSTICO.MTW.
2) Selecione Graph > Probability Plot > Multiple e clique em OK.
4) Clique em OK.

Use o gráfico de probabilidade normal para verificar se os dados não se desviam de forma significativa do que é esperado quando a
amostra vem de uma distribuição normal.
Os gráficos indicam que as distribuições são razoavelmente normais; todos os pontos se distribuem próximos às retas de referência.

Ambos os p-valores (0,718 para Fornecedor A e 0,193 para Fornecedor B) são maiores que o nível de significância α de 0,05.
Conclusão
Com base nos gráficos e no teste, você pode assumir que os dados provêm de populações com distribuição normal.

Comparando variâncias
O teste t para 2 amostras compara as médias de duas populações. Freqüentemente é de interesse saber se as variâncias (ou desvios
padrão) dos dois grupos são diferentes. Neste exemplo, pode ser importante saber se as resistências das amostras de um fornecedor
variam mais que as do outro, pois pode ser desejável escolher o fornecedor com menor variância.
2 Variances
1) Selecione Stat> Basic Statistics > 2 Variances.
3) Clique em OK.

Intervalos de confiança são úteis para comparar o σ de duas populações. Contudo, a decisão sobre a igualdade ou não de variâncias
deve ser baseada no teste de variâncias apropriado.
Teste de variâncias
Os resultados incluem dois testes de variâncias:
• Se os dados forem contínuos e normalmente distribuídos, use o teste F;

• Se os dados forem contínuos mas não normalmente distribuídos, use o teste de Levene.
Os dados do plástico parecem ser normalmente distribuídos, portanto use o teste F.
Conclusão
O p-valor do teste F (0,018) é menor que σ (0,05), portanto rejeite a hipótese nula de que as variâncias são iguais. Os resultados sugerem
que a variância dos plásticos do Fornecedor B é menor que a do Fornecedor A.
O cálculo do tamanho da amostra assumiu igualdade de variâncias. Como as variâncias não são iguais, o cálculo do tamanho amostral
não foi correto. Se uma diferença não for encontrada entre as médias dos fornecedores, considere aumentar o tamanho amostral para o
grupo com maior variação (Fornecedor A) para assegurar um poder de pelo menos 80%.

Na janela Session o Minitab mostra os mesmos intervalos de confiança e testes estatísticos incluídos na janela Graph.
Test for Equal Variances: Fornecedor A; Fornecedor B
95% Bonferroni confidence intervals for standard deviations
N Lower StDev Upper

Fornecedor A 20 4,14705 5,66051 8,76980
Fornecedor B 20 2,36389 3,22658 4,99893
F-Test (Normal Distribution)

Test statistic = 3,08; p-value = 0,018
Levene’s Test (Any Continuous Distribution)

Test statistic = 3,56; p-value = 0,067

Executando o teste t para 2 amostras
Um teste t para 2 amostras irá mostrar se as resistências médias dos plásticos dos dois fornecedores são diferentes.
As hipóteses para o teste são:
• H0: µA - µB = 0
• HA: µA - µB ≠ 0
Crie gráficos de valores individuais e boxplots para visualizar os dados.
Assumir igualdade de variâncias

O teste t será mais poderoso se você assumir que as variâncias das duas populações são iguais. Entretanto, assumir que as variâncias
são iguais quando não são pode fornecer resultados enganadores. Assim, se houver qualquer dúvida, é melhor não supor a igualdade.
Uma vez que o teste de igualdade de variâncias indicou que as variâncias das populações não são iguais, não marque ‘Assume equal
variances’.
2-Sample t
4) Marque Individual value plot e Boxplots of data.

O Boxplot e o Individual Value Plot ilustram dois pontos:
• O plástico do Fornecedor A é mais forte que o plástico do Fornecedor B;

• O plástico do Fornecedor A tem mais variabilidade na resistência que o do Fornecedor B.

Two-Sample T-Test and CI: Fornecedor A; Fornecedor B
Two-sample T for Fornecedor A vs Fornecedor B
N Mean StDev SE Mean

Fornecedor A 20 163,82 5,66 1,3
Fornecedor B 20 160,01 3,23 0,72
Difference = mu (Fornecedor A) - mu (Fornecedor B)

Estimate for difference: 3,80
95% CI for difference: (0,82; 6,78)
T-Test of difference = 0 (vs not =): T-Value = 2,61 P-Value = 0,014 DF = 30
O Minitab mostra a média da resistência à quebra (Mean) e duas medidas de variabilidade, o desvio padrão (StDev) e o erro padrão da
média (SE Mean), para cada fornecedor.
A diferença entre as médias das amostras (3,08) é uma estimativa da diferença entre as médias das populações (µ Fornecedor A - µ
Fornecedor B). O intervalo de confiança para a diferença é baseado na estimativa da variabilidade dentro das amostras.
Você pode ter 95% de confiança de que a média do Fornecedor A é maior que a média do Fornecedor B entre 0,82 a 6,78 Newtons.
Valor da estatística T e p-valor

O valor da estatística T para o teste é 2,61, e o p-valor associado é 0,014. O p-valor (0,014) é a probabilidade de se obter um valor de T
com uma magnitude de 2,61 ou maior se a hipótese nula de nenhuma diferença é verdadeira. Portanto, rejeite a hipótese nula ao nível α
0,05, e conclua que as resistências médias são diferentes.

O plástico do Fornecedor A é significativamente mais forte em média, mas é mais variável que o do Fornecedor B.
Se a média e a variância são igualmente importantes, considere comparar as estatísticas Cpk para os dois fornecedores. A estatística
Cpk é uma métrica de qualidade que considera tanto a média quanto a variância em relação aos limites de especificação.
Se as estatísticas Cpk forem próximas, a empresa pode preferir escolher o fornecedor com base no custo.
NOTA: Para aprender mais sobre o Cpk e outras métricas de capacidade de processos, veja o curso de Ferramentas Estatísticas da Qualida-
de.
Ao usar um teste t para 2 amostras:
• As amostras devem ser independentes e aleatórias;

• Os dados da amostra devem ser contínuos;
• Os dados da amostra devem ser normalmente distribuídos.
O procedimento do teste t é robusto a pequenas violações da suposição de normalidade, desde que as observações sejam coletadas

Exercício C: Altura do Ânodo
Problema
Um fabricante de eletrônicos precisa assegurar que o ânodo elétrico em cada capacitor está a uma certa distância acima da superfície
do corpo de cerâmica do capacitor. Recentemente, o fabricante produziu muitos capacitores com alturas de ânodos que violam o limite
inferior de especificação. Para corrigir esse problema, o engenheiro de produção quer implementar uma mudança no processo. Para
determinar se o novo processo aumenta a altura do ânodo, os engenheiros devem determinar quantos dados coletar, e então comparar
as medidas de altura antes e após a mudança no processo.
Coleta de dados
Amostras de processos de inserção de ânodos estão disponíveis, porém é dispendioso medi-las. Portanto, os engenheiros não podem
coletar mais amostras que o necessário. Historicamente, a variação nas medições tem um desvio padrão de 0,55 mm. Um aumento de
0,4 mm é considerado uma melhoria significativa.
Instruções
1) Use poder e tamanho de amostra para determinar o número de observações necessárias para detectar uma melhoria no pro-
cesso de pelo menos 0,4 mm com um poder de 0,85. Especifique um teste unilateral.
2) Verifique a normalidade de cada amostra.
3) Verifique a suposição de igualdade de variâncias das amostras.
4) Use um teste t para 2 amostras para determinar se a altura do ânodo melhorou após a mudança no processo. Especifique a
hipótese alternativa “greater than”, e crie um boxplot para comparar visualmente as duas amostras de dados.
5) Qual o tamanho amostral necessário se o teste t usar uma hipótese alternativa bilateral?
Arquivo de dados
ÂNODO.MTW
Altura do Ânodo A altura de um ânodo elétrico acima da superfície cerâmica
Mudança no processo Antes e após a mudança no processo

Teste t pareado
Exemplo 6: Estacionando Carros

Problema
Um grupo de consumidores quer determinar se dois carros populares diferem em relação à facilidade de manobra. Para medir a facilida-
de de manobra nos dois carros, o grupo compara o tempo que motoristas levam para estacionar cada carro em paralelo.
Coleta de dados
Vinte motoristas estacionaram ambos os carros em ordem aleatória e o tempo de estacionamento (em segundos) foi registrado.
Ferramentas
• Paired t
• Calculator
• Normality Test
Arquivo de dados
CARROS.MTW
Carro A Tempo de estacionamento do carro A (em segundos)
Carro B Tempo de estacionamento do carro B (em segundos)

Teste t pareado
O que é o teste t pareado
Um teste t pareado ajuda a determinar se a diferença média entre observações pareadas é significativa. Estatisticamente, o teste t pare-
ado é equivalente a se realizar um teste t para 1 amostra nas diferenças. Um teste t pareado também ajuda você a avaliar se a diferença
média é igual a um valor específico.
Observações pareadas estão relacionadas entre si. Exemplos incluem:
• Pesos de indivíduos registrados antes e após um programa de exercícios

• Medidas da mesma peça coletadas com dois dispositivos de medição diferentes.
Quando usar o teste t pareado

Use um teste t para uma amostra aleatória de observações pareadas.
O teste também assume que as diferenças pareadas sejam provenientes de uma população normalmente distribuída. Entretanto, o
teste é robusto a violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos,
unimodais e razoavelmente simétricos.
Por que usar o teste t pareado

Um teste t pareado responde perguntas tais como:
• Um novo tratamento resulta em uma diferença no produto?

• Dois instrumentos diferentes fornecem medidas similares da mesma amostra?
Por exemplo:
• Tratar a madeira com determinado produto químico aumenta seu tempo de vida? (Assuma que cada pedaço de madeira amostral
é cortado ao meio; uma metade é tratada com o produto químico enquanto a outra metade não é tratada.)
• Dois compassos medem peças idênticas da mesma maneira? (Assuma que as várias peças são medidas uma vez com cada
compasso.)

Verificando a normalidade
O teste t pareado é um teste t para 1 amostra nas diferenças pareadas. Portanto, as diferenças pareadas devem satisfazer as suposições
do teste t para 1 amostra, incluindo a normalidade. Antes de verificar a normalidade, armazene as diferenças pareadas na worksheet.
Normality Test
1) Abra o arquivo CARROS.MTW.
2) Selecione Calc > Calculator.
4) Clique em OK.
6) Em Variable, entre com Diferenças.
7) Clique em OK.

Com base no p-valor de 0,493, não há evidências suficientes para rejeitar a hipótese nula de normalidade. Portanto, a suposição de
normalidade do teste t para 1 amostra é apropriada.

Conduzindo um teste t pareado
O grupo de consumidores quer determinar se os motoristas conseguem estacionar um carro mais rápido que o outro. Como os dados são
pareados (cada indivíduo estacionou ambos os carros), use um teste t pareado para testar as seguintes hipóteses:
• H0: A diferença média entre observações pareadas na população é zero.

• HA: A diferença média entre observações pareadas na população não é zero.
Use o nível default de 95% para o intervalo de confiança. Construa gráficos de valores individuais e boxplots para ajudar a visualizar os
dados.
Paired t
1) Selecione Stat > Basic Statistics > Paired t.
4) Marque Individual value plot e Boxplot of differences;

O boxplot e o gráfico de valores individuais ilustram as diferenças entre as observações pareadas.
A diferença média observada (aproximadamente 2) é representada por . H0 representa a diferença populacional a ser testada
(zero).
O Minitab também plota o intervalo de confiança para a diferença média populacional. Se a hipótese nula fosse verdadeira, H0 provavel-
mente estaria contido neste intervalo.
Como o intervalo de confiança não inclui H0, você pode rejeitar a hipótese nula e concluir que o carro A leva mais tempo para ser esta-
cionado que o carro B.

Paired T-Test and CI: Carro A; Carro B
Paired T for Carro A - Carro B

Carro A 20 34,87 7,59 1,70
Carro B 20 32,90 7,27 1,63
Difference 20 1,965 3,836 0,858
95% CI for mean difference: (0,170; 3,760)

T-Test of mean difference = 0 (vs not = 0): T-Value = 2,29 P-Value = 0,034
Médias
Os tempos médios de estacionamento são 34,9 segundos para o carro A e 32,9 segundos para o carro B. A diferença média é de apro-
ximadamente 2 segundos.
Os limites do intervalo de 95% de confiança para a diferença média são 0,17 e 3,76.
Valor da estatística T e p-valor

O valor da estatística T para o teste é 2,29, e o p-valor associado é 0,034. Portanto, rejeite a hipótese nula ao nível α 0,05 e conclua que
o tempo necessário para estacionar o carro A é maior que o tempo necessário para estacionar o carro B.

Em média, os motoristas levam 2 segundos a mais para estacionar o carro A que o carro B. Essa diferença, embora pequena, é estatis-
ticamente significativa.
Uma diferença de 2 segundos tem alguma importância prática? Essa é uma decisão que você deve tomar. Se um leve aumento no tempo
de estacionamento aumenta a frustração do motorista, então 2 segundos podem ser importantes. Essa diferença também pode ser mais
importante para motoristas que estacionam freqüentemente em paralelo.
Ao usar um teste t pareado:
• As observações devem ser pareadas;

• Os dados devem ser contínuos;
• As diferenças pareadas devem ser normalmente distribuídas.
O procedimento do teste t é robusto a pequenas violações da suposição de normalidade, desde que as observações sejam coletadas
O uso de observações pareadas elimina a variabilidade causada pelas diferenças entre os indivíduos. Por exemplo, o motorista 1 levou
18,9 segundos para estacionar o carro A e 18,2 segundos para estacionar o carro B. Por outro lado, o motorista 18 levou 43,8 e 41,1
segundos para estacionar os mesmos carros. Analisar as diferenças para cada motorista elimina a variabilidade entre os motoristas dos
cálculos, aumentando o poder do teste.

Exercício D: Comparando Instrumentos de Medição
Problema
Uma empresa está avaliando a compra de dois instrumentos diferentes para medir rolamentos: um compasso de calibre da marca Easy-
Gage e outro da ToolIt. Compare as duas marcas para determinar se elas fornecem as mesmas medições, em média.
Use um nível α de 0,05 para todos os testes.
Coleta de dados
Analistas selecionaram aleatoriamente 12 rolamentos no processo. Um único operador mediu cada rolamento com o compasso Easy-
Gage e com o compasso ToolIt.
Instruções
1) Use um teste t pareado para determinar se as medições fornecidas pelos dois instrumentos são diferentes. Construa um gráfico
de valores individuais das diferenças entre as medições.
2) Usando o desvio padrão das diferenças amostrais como uma estimativa de σ, calcule o poder do teste para detectar uma dife-
rença média de 0,005 cm. (Dica: Conduzir um teste t pareado é a mesma coisa de se conduzir um teste t para 1 amostra nas
diferenças entre observações pareadas. Portanto, use Stat > Power and Sample Size > 1-Sample t para avaliar o poder de
um teste t pareado.)
3) Qual o poder do teste para detectar uma diferença média de 0,001 cm?
Arquivo de dados
COMPASSOS.MTW
Rolamento Identifica o rolamento medido
EasyGage Diâmetro do rolamento medido pelo compasso EasyGage (cm)
ToolIt Diâmetro do rolamento medido pelo compasso ToolIt (cm)
Diferença Diferença pareada entre os compassos em cada rolamento (cm)

Teste t

Testes de Proporção
Objetivos
• Determinar o tamanho amostral apropriado para um teste de 1

proporção;
• Determinar se uma taxa de defeituosos é diferente do alvo
usando o teste para 1 proporção;
• Determinar se taxas de defeituosos são diferentes entre si
usando o teste para 2 proporções.
Testes de Proporção 3
Conteúdo

Poder e Tamanho de Amostra para Testes
de Proporção
Exemplo 1: Determinar o tamanho amostral apropriado para um teste de 1 5
Tamanho de Amostra para Testes de Va- proporção.
zamentos em Filtros de Água
Teste de 1 Proporção
Exemplo 2: Avaliar a diferença entre uma proporção e um valor alvo usando 12
Testes de Vazamentos em Filtros de um teste para 1 proporção.
Água
Exercício E: Avaliar a diferença entre uma proporção e um valor alvo usando 17
Taxas de Consertos em Televisões um teste para 1 proporção.
Teste de 2 Proporções
Exemplo 3: Avaliar a diferença entre proporções usando o teste para 2 pro- 18
Testes de Vazamentos em Filtros de porções e o teste exato de Fisher.
Água
Exercício F: Avaliar a diferença entre proporções usando o teste para 2 pro- 23
Taxas de Sobrevivência em Passageiros porções
do Titanic
4 Testes de Proporção
Poder e Tamanho de Amostra para Testes de Proporção
Exemplo 1:
Tamanho de Amostra para Testes de Vazamentos em Filtros de Água
Problema
Uma empresa produz filtros de água para refrigeradores caseiros. Quando o processo de fabricação está ocorrendo conforme o espera-
do, engenheiros acreditam que a porcentagem de filtros com vazamentos seja de 2%. O orçamento planeja uma taxa de defeituosos de
2%; um aumento nas taxas de defeituosos para além de 2% aumenta o desperdício e os custos com garantia. Um aumento de até 4%
leva a desperdícios inaceitáveis, altos custos com garantia e muitos consumidores insatisfeitos.
A equipe de qualidade decide verificar a taxa de defeituosos semanalmente. Eles precisam determinar o tamanho amostral que irá
permiti-los detectar qualquer aumento na taxa de defeituosos para 4% ou mais.
Ferramentas
• Power and Sample Size - 1 Proportion
Arquivo de dados
Nenhum
Poder e tamanho de amostra para um teste de 1 proporção
O que é poder e tamanho de amostra para um teste de 1 proporção
Poder é a habilidade de detectar uma diferença, caso exista. Para um teste de 1 proporção, o poder é a habilidade de detectar uma mu-
dança em relação à proporção assumida sob a H0 para uma proporção sob HA que tem significado especial.
Tamanho amostral é o número de amostras necessárias para atingir um poder específico.
Quando usar poder e tamanho de amostra para um teste de 1 proporção

Use poder e tamanho de amostra:
• Antes de coletar os dados, para determinar o tamanho amostral necessário para comparar uma proporção com um valor espe-
cífico
• Após coletar os dados, para avaliar o poder de um teste.
Nota: É importante registrar o poder de um teste quando você não detectar uma diferença (não rejeitar H0).
Por que usar poder e tamanho de amostra para um teste de 1 proporção

Poder e tamanho de amostra responde perguntas tais como:
• Qual o tamanho amostral necessário para detectar uma mudança em uma proporção populacional com um poder específico?
• Qual o poder de um teste para detectar uma mudança em uma proporção populacional usando um tamanho amostral específi-
co?
• Qual a magnitude da mudança que você pode detectar com um poder e tamanho de amostra específico?
Determinando o tamanho amostral para um teste de 1 proporção
Valores
Para cálculos de poder e tamanho de amostra de testes de 1 proporção, especifique valores para dois dos três parâmetros; o Minitab
calcula o parâmetro restante.
• Sample sizes - O número de observações na amostra.

• Alternative values of p - Uma proporção alternativa significativa que você quer detectar com alta probabilidade.
• Power values - O poder (probabilidade de rejeitar H0 quando ela é falsa) que você quer que o teste tenha.
P hipotético
Digite a taxa de defeitos assumida sob a hipótese nula H0.
Power and Sample Size for 1 Proportion

1) Selecione File > New, selecione então Minitab Project e clique em OK.
2) Selecione Stat > Power and Sample Size > 1 Proportion.
4) Clique em Options.
5) Em Alternative Hypothesis, escolha Greater than.
7) No gráfico, clique duas vezes no eixo x e em Scale Range, em Maximum, digite 0,05.
8) Clique em OK.
Com um tamanho amostral de 391, o poder para detectar uma mudança na taxa de defeituosos para 4% ou maior é 0,800388. Com um
tamanho amostral de 580, o poder para detectar uma mudança na taxa de defeituosos para 4% ou mais é 0,900226.
Test for One Proportion
Testing proportion = 0,02 (versus > 0,02)

Alpha = 0,05
Alternative Sample Target

Proportion Size Power Actual Power
0,04 391 0,8 0,800388
0,04 580 0,9 0,900226
Nesse exemplo, a proporção alternativa representa a taxa de defeituosos que você quer detectar. Se a taxa de defeituosos verdadeira
for 0,04 (a proporção alternativa), então um poder de 0,80 indica que você tem 80% de chance de rejeitar a hipótese nula de que a taxa
de defeituosos é de 0,02.
O poder é razoavelmente bom para detectar um aumento na taxa de defeituosos para 0,04 com tamanhos amostrais entre 391 e 580.
A equipe escolhe um tamanho amostral de 500, para obter um poder entre 0,80 e 0,90.
Próximo passo
Calcule o poder exato para um tamanho amostral de 500.
Valores
Determine o poder para detectar uma taxa de defeituosos de 4% ou superior, com um tamanho amostral de 500.
Power and Sample Size for 1 Proportion

1) Selecione Stat > Power and Sample Size > 1 Proportion ou pressione Ctlr+E.
2) Complete a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
Com um tamanho amostral de 500, o poder do teste para detectar uma mudança na taxa de defeituosos de 2% para 4% ou maior é
0,865861. Se a taxa de defeituosos aumentar para 4%, o teste irá detectar o deslocamento em mais de 86% das vezes.
Test for One Proportion
Testing proportion = 0,02 (versus > 0,02)

Alpha = 0,05
Alternative Sample
Proportion Size Power
0,04 500 0,865861,
Usando um tamanho amostral de 500, a equipe de qualidade pode detectar um deslocamento na taxa de defeituosos de 2% para 4% (ou
maior) com um poder de 86,6%.
Como dados de sucesso/falha (ao contrário de medições contínuas) não capturam informações detalhadas sobre as peças amostrais,
normalmente os tamanhos de amostra são grandes. Se o tamanho amostral necessário é muito grande para ser praticável, considere
as seguintes opções:
• Encontre uma medida quantitativa que reflita a qualidade da peça e use uma distribuição contínua, tal como a normal, para pre-
dizer a proporção de defeituosos. Freqüentemente você pode obter um poder razoavelmente alto com poucas amostras, como
30.
• Aumente a taxa de erro tipo I (α). Isto tornará mais fácil detectar uma mudança na taxa de defeituosos do processo; entretanto,
isto também aumenta o número de alarmes falsos (o teste indicar que a taxa de defeituosos mudou quando na realidade não
mudou).
O Minitab assume que o tamanho da população é infinito para os cálculos de poder e tamanho de amostra. Se o Minitab recomendar um
tamanho amostral maior que 10% do tamanho da população, a suposição de um tamanho de população infinito não é válida e os cálculos
de poder e tamanho de amostra serão errados.
Testes de 1 Proporção
Exemplo 2: Testes de Vazamentos em Filtros de Água

Problema
Uma empresa produz filtros de água para refrigeradores caseiros. Quando o processo de fabricação está ocorrendo conforme o espera-
do, engenheiros acreditam que a porcentagem de filtros com vazamentos seja de 2%. A equipe de qualidade deseja executar um teste
para 1 proporção para ver se a taxa de defeituosos do processo é maior que 2%.
Coleta de dados
A equipe de qualidade realiza um teste de vazamento em 500 filtros de água selecionados aleatoriamente, fabricados na semana anterior.
Eles detectaram 18 filtros com vazamentos.
Ferramentas
• 1 Proportion
Arquivo de dados
Nenhum
Teste de 1 proporção
O que é um teste de 1 proporção
Um teste de 1 proporção determina se existe evidência suficiente de que a proporção de eventos (defeituosos) é diferente de um valor
hipotético.
Quando usar um teste de 1 proporção

Use um teste de 1 proporção para comparar uma única proporção de uma sequência Bernoulli selecionada aleatoriamente com um valor
alvo.
Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.
Por que usar um teste de 1 proporção

Um teste de 1 proporção responde perguntas tais como:
• A taxa de defeituosos é diferente de uma taxa alvo?

• A taxa de defeituosos é maior que uma quantidade aceitável?
Realizando um teste de 1 proporção
O teste de 1 proporção tem dois formatos possíveis:
• O formato ‘amostras em colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet.
As hipóteses para esse teste são:
• H0: Taxa de defeituosos = 2%

• HA: Taxa de defeituosos > 2%
Um teste unilateral fornece mais poder para detectar a diferença especificada que um teste bilateral. Entretanto, um teste unilateral não
consegue detectar uma diferença na direção oposta aquela especificada pela hipótese alternativa. Aqui, o teste unilateral não irá detectar
uma taxa de defeituosos que é significativamente menor que 2%.
1 Proportion
1) Selecione Stat > Basic Statistics > 1 Proportion.
2) Escolha Summarized data.
3) Em Number of events, digite 18.
4) Em Number of trials, digite 500.
5) Marque Perform hypothesized test.
6) Em Hypothesized proportion, digite 0,02.
Os resultados sugerem que a taxa de defeituosos é maior que 2%:
• O limite inferior de 95% de confiança para a taxa de defeituosos é 2,3395%, que é maior que 2%.
• O p-valor (0,013) é menor que α (0,05).
Test and CI for One Proportion
Test of p = 0,02 vs p > 0,02
95% Lower Exact

Sample X N Sample p Bound P-Value
1 18 500 0,036000 0,023395 0,013
Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.
Como a taxa de defeituosos é maior que a esperada, a equipe deve conduzir uma investigação para determinar as possíveis causas
para o aumento da taxa de defeituosos. Se eles não encontrarem qualquer causa, poderiam considerar reestruturar o filtro para reduzir
os vazamentos.
A amostra do processo de manufatura deve ser selecionada aleatoriamente. Se todos os 500 filtros vierem do mesmo lote ou tivessem
a mesma data de fabricação, o analista excluiria a variabilidade entre os lotes ou fontes de variação ao longo do tempo. Os resultados
poderiam estar viciados, especialmente se a amostra consistisse de um conjunto de peças excepcionalmente boas ou ruins.
Exercício E: Taxas de Consertos em Televisões
Problema
Um fabricante quer determinar se a proporção de aparelhos de televisão de 35 polegadas que precisam de reparos dentro de 4 anos de
uso é diferente da taxa divulgada pela indústria, de 6,8% (0,068).
Coleta de dados
A equipe de qualidade envia aproximadamente 100.000 pesquisas para clientes que compraram uma televisão de 35 polegadas. Dos
2.856 consumidores que responderam a pesquisa, 236 indicaram que suas televisões necessitaram de consertos dentro dos 4 primeiros
anos de uso.
Instruções
1) Usando o teste de 1 proporção, determine se a taxa de defeituosos dessa empresa é diferente de 0,068.
2) Cite algum vício que poderia surgir deste processo de coleta de dados.
Arquivo de dados
Nenhum
Teste de 2 Proporções
Exemplo 3: Testes de Vazamentos em Filtros de Água

Problema
Uma empresa produz filtros de água para refrigeradores caseiros. A atual proporção de filtros fabricados com vazamentos é muito alta.
Engenheiros acreditam que uma mudança no material de selamento irá reduzir ou eliminar o vazamento nos filtros. Compare a taxa de
vazamentos antes e após a mudança para verificar se o novo selamento é efetivo.
Coleta de dados
Em 500 filtros, 18 falharam no teste de vazamento antes da mudança no selamento. Uma equipe de qualidade testou os primeiros 100
filtros fabricados com o novo material de selamento , e nenhum falhou no teste de vazamento.
Ferramentas
• 2 Proportions
Arquivo de dados
Nenhum
Teste de 2 proporções
O que é um teste de 2 proporções
Um teste de 2 proporções determina se existe evidência suficiente de que duas proporções são diferentes entre si.
Quando usar um teste de 2 proporções

Use um teste de 2 proporções para comparar proporções de duas sequências Bernoulli independentes.
Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.
Por que usar um teste de 2 proporções

Um teste de 2 proporções responde perguntas tais como:
• As taxas de defeituosos são diferentes antes a após uma mudança no processo?

• As taxas de defeituosos são diferentes entre dois fornecedores, turnos, configurações do processo, ou tipos de material?
Formatos de dados para um teste de 2 proporções
O teste de 2 proporções tem três formatos de dados possíveis:
• O formato ‘amostras em uma coluna’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade e uma
segunda coluna indicando as duas categorias.
• O formato ‘amostras em diferentes colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade
na primeira categoria e uma segunda coluna listando os sucessos e as falhas na segunda categoria.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet. Em Events, você pode digitar o número de sucessos ou o número de falhas, depen-
dendo se você quer testar a taxa de sucessos ou a taxa de falhas.
• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.
2 Proportions
1) Selecione File > New, selecione Minitab Project, e clique em OK.
2) Selecione Stat > Basic Statistics > 2 Proportions.
5) Em Alternative, escolha greater than.
6) Clique em OK em cada caixa de diálogo:.
Aproximação Normal
O teste de 2 proporções e o intervalo de confiança usam uma aproximação normal. A aproximação pode não ser exata quando o número
de sucessos ou falhas em um ou ambos os grupos é menor que 5. Neste exemplo, o Minitab exibe uma mensagem de advertência na
janela Session, porque o segundo grupo tem 0 falhas.
O teste exato de Fisher é uma alternativa possível quando a aproximação normal não é apropriada.
Test and CI for Two Proportions
Sample X N Sample p
1 18 500 0,036000
2 0 100 0,000000
Difference = p (1) - p (2)

95% lower bound for difference: 0,0222965
Test for difference = 0 (vs > 0): Z = 4,32 P-Value = 0,000
Fisher’s exact test: P-Value = 0,036
Teste exato de Fisher

As hipóteses são:
• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.
Como o p-valor é 0,036, conclua que a taxa de defeituosos é menor com o novo selamento.
Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.
Devido ao baixo p-valor (0,036), a equipe de qualidade decide fabricar mais 400 filtros de água com o novo selamento. Eles esperam
um baixo p-valor com base no maior tamanho amostral e na capacidade do novo selamento de prevenir ou reduzir os vazamentos. Se o
p-valor for menor que 0,05, eles irão modificar o processo de produção para incluir o novo selamento.
A empresa fabricou 100 filtros de água com o novo selamento em um lote de pequena produção; esses filtros podem não representar a
população de filtros fabricados em um processo de produção de larga escala.
Exercício F: Taxas de Sobrevivência em Passageiros do Titanic
Problema
Usando os dados reais demográficos e de sobrevivência da viagem no Titanic, determine se as taxas de sobrevivência variam de acordo
com o sexo, classe, e idade.
Coleta de dados
Os dados estão disponíveis no web site da American Statistical Association (www.amstat.org).
A classe “Econômica” nesse conjunto de dados inclui a equipe de bordo, passageiros de segunda e terceira classe.
Instruções
Use o teste de 2 proporções para:
1) Comparar as taxas de sobrevivência para a primeira classe e a classe econômica. (Dica: Esses dados não são sumarizados.
As amostras estão na coluna Status; as identificações estão na coluna Classe.)
2) Comparar as taxas de sobrevivência para homens e mulheres.
3) Selecione Calc > Calculator, digite o nome da variável “Faixa etária”, e entre com a fórmula Idade >=18. Compare as taxas de
sobrevivência para adultos e crianças.
Nota: Se você quiser mais rótulos descritivos em sua saída, use Data > Code para converter os 0’s para Criança e 1’s para Adulto.
Arquivo de dados
TITANIC.MTW
Classe Fator - indica a classe da cabine do passageiro
Sexo Fator - indica o sexo do passageiro
Idade Covariável - idade do passageiro
Status Indica o status de sobrevivência
Nota: A regressão logística binária é uma ferramenta útil para essa análise. Use regressão logística binária para avaliar simultaneamente
todos os três fatores, considerar interações, e tratar a idade como um preditor numérico. (Para aprender mais sobre esse tópico, veja o trei-
namento de Regressão e ANOVA Avançada.)
Análise de Variância
Objetivos
• Avaliar o poder de uma análise de variância usando análise de

poder;
• Compara variâncias de grupos usando um teste de variâncias;
• Comparar médias para amostras coletadas em diferentes níveis
usando um modelo linear generalizado;
• Realizar ANOVA com mais de um fator;
• Interpretar gráficos de interação e comparações múltiplas.
Análise de Variância 3
Conteúdo

Poder e Tamanho de Amostra para One-
way ANOVA
Exemplo 1: Determinar o tamanho amostral para uma One-way ANOVA 5
Moldes de Tampas de Canetas com três grupos.
One-way ANOVA e Teste de Igualdade de
Variâncias
Exemplo 2: Testar a igualdade de médias e variâncias entre três grupos 10
Resistência de Tecidos para Bancos de usando o General Linear Model e um teste de igualdade de
Carros variâncias.
Exercício G: Testar a igualdade de médias e variâncias usando o General 27
Moldes de Tampas de Canetas Linear Model e um teste de igualdade de variâncias. Comparar
múltiplas médias com um alvo.
ANOVA - General Linear Model
Exemplo 3: Avaliar os efeitos de vários fatores e suas interações na respos- 28
Distância de Parada ta média usando o General Linear Model.
Exercício H: Avaliar os efeitos de vários fatores em uma resposta média 43
Degustação de Vinho usando o General Linear Model.
Exercício I: Avaliar os efeitos de vários fatores em uma resposta média 44
Desgaste de Tinta usando o General Linear Model.
4 Análise de Variância
Poder e Tamanho de Amostra para One-way ANOVA
Exemplo 1: Moldes de Tampas de Canetas

Problema
Uma empresa que fabrica canetas esferográficas usa um molde composto por 16 cavidades para fabricar tampas plásticas para as
canetas. O fabricante quer comparar as médias das espessuras das tampas em 16 cavidades. Uma diferença entre as médias de duas
cavidades de 0,05 mm ou mais é inaceitável. A partir de dados históricos do processo, o desvio padrão das espessuras de uma única
cavidade é aproximadamente 0,0315 mm.
Determine o tamanho amostral necessário para detectar uma diferença de 0,05 mm com 90% de poder.
Ferramentas
• Power and Sample Size - One-way ANOVA
Arquivo de dados
Nenhum
Poder e tamanho de amostra para One-way ANOVA
O que é poder e tamanho de amostra para One-way ANOVA
Em uma One-way ANOVA:
• Poder é a probabilidade de detectar uma diferença especificada entre quaisquer duas médias em um conjunto de médias de
tratamentos.
• Tamanho de amostra é o número de amostras por grupo que você precisa para atingir um poder específico.
Quando usar poder e tamanho de amostra para One-way ANOVA

Use essa análise:
• Antes da coleta de dados, para determinar o tamanho amostral.

• Após a coleta de dados, para avaliar o poder de detectar uma diferença especificada nas médias.
Por que usar poder e tamanho de amostra para One-way ANOVA

Poder e tamanho de amostra para One-way ANOVA responde perguntas tais como:
• Qual o tamanho amostral por grupo você precisa para detectar uma diferença especificada entre médias com um poder especí-
fico?
• Qual o poder de um teste detectar uma diferença especificada entre médias, baseado em um tamanho amostral específico?
• Qual a diferença detectável com um poder e um tamanho de amostra específicos?
Nota: Registre o poder de um teste quando você não detectar uma diferença (não rejeitar H0).
Determinando tamanho amostral para uma One-way ANOVA
Number of Levels
Entre com o número de níveis que o fator contém.
Sample size
Se você quiser determinar o tamanho amostral por nível, deixe em branco.
Values of the maximum difference between means

O poder de um teste depende da magnitude da diferença que você quer que o teste detecte. Em uma One-way ANOVA, especifique o
valor da diferença máxima entre todas as médias.
Power values
Digite o(s) valor(es) de poder desejado(s). Estatísticos tipicamente consideram valores de poder maiores que 0,80 aceitáveis, embora
você deva considerar as consequências do erro Tipo II. Um experimento com 80% de poder tem 20% de chance de não identificar o efeito
de interesse quando ele realmente existir.
Power and Sample Size for One-Way ANOVA

1) Selecione File > New > Minitab Project. Clique em OK.
2) Selecione Stat > Power and Sample Size > One-Way ANOVA.
4) Clique em OK.
Sample Size
Um tamanho amostral (Sample Size) de 20 tampas por cavidade fornece um poder de 0,909108 para detectar uma diferença máxima de
0,05 mm entre quaisquer duas cavidades.
Target Power e Actual Power

O poder alvo (Target Power) é o valor de poder que você especifica na caixa de diálogo. Como o tamanho amostral precisa ser um valor
inteiro, você raramente obterá exatamente o poder alvo.
O poder real (Actual Power) é o poder atingido com o tamanho amostral recomendado. Como o Minitab arredonda o tamanho amostral
calculado para o inteiro mais próximo, o poder real será sempre levemente maior que o poder alvo.
Power Curve
Neste exemplo, a diferença representa a diferença máxima nas médias entre as 16 cavidades. O poder é razoavelmente bom para de-
tectar a diferença máxima de 0,05 mm com 20 amostras por cavidade.
One-way ANOVA
Alpha = 0,05 Assumed standard deviation = 0,0315 Number of Levels = 16
Sample Target Maximum

SS Means Size Power Actual Power Difference
0,00125 20 0,9 0,909108 0,05
The sample size is for each level.
• Um tamanho amostral de 20 tampas de canetas por cavidade fornece um poder de 0,909108 para detectar uma diferença média
de 0,05 mm entre todas as cavidades.
• Quando maior o tamanho amostral, maior o poder do teste. Colete observações suficientes para atingir o poder adequado, mas
não tantas amostras, para que você não perca tempo e dinheiro coletanto amostras desnecessárias.
Em uma One-way ANOVA, os cálculos de poder e tamanho de amostra assumem que os tamanhos amostrais e variâncias são iguais
em todos os grupos.
One-way ANOVA e Teste de Igualdade de Variâncias
Exemplo 2: Resistência de Tecidos para Bancos de Carros

Problema
Três inspetores da qualidade, treinados para medir a resistência à ruptura de tecidos para bancos de carros, participam de um estudo de
medição. Eles querem testar a diferença entre os operadores e comparar as médias e as variâncias de suas medições.
Coleta de dados
Paulo, Ana e Marcos mediram a resistência à ruptura de 25 amostras de tecidos. Todas as 75 amostras vêm do mesmo lote de produto.
Ferramentas
• Individual Value Plot
• Probability Plot
• Test for Equal Variances
• General Linear Model
Arquivo de dados
tecidos.mtw
Operador O nome do operador que obteve a medição
Resistência Resistência à ruptura do tecido (kg)
One-way ANOVA
O que é One-way ANOVA
O procedimento One-way ANOVA (análise de variância) é uma generalização do teste t para amostras independentes. Diferente do teste
t, entretanto, a One-way ANOVA pode ser usada para analisar as médias de mais de dois grupos (amostras) ao mesmo tempo.
A idéia básica da ANOVA é que a variação dentro dos grupos é devida somente ao erro aleatório.
Se a variação entre os grupos for similar à variação

dentro dos grupos (gráfico à direita), é provável que
as médias dos grupos sejam diferentes devido ape-
nas ao erro aleatório.
Se a variação entre grupos for grande em relação à

variação dentro dos grupos (gráfico inferior), é pro-
vável que as diferenças entre as médias dos gru-
pos sejam causadas por diferenças nos níveis de
fatores.
One-way ANOVA
Quando usar One-way ANOVA
Use One-way ANOVA (também chamada de ANOVA para um fator) se você tiver dados de resposta contínuos para dois ou mais níveis
fixos de um único fator.
Antes de aceitar os resultados de uma ANOVA, verificar se as seguintes suposições sobre os resíduos são válidas para os dados. Eles
devem:
• Ser independentes (e, portanto, aleatórios);

• Não se desviar substancialmente de uma distribuição normal;
• Ter variância constante ao longo de todos os níveis dos fatores.
Por que usar One-way ANOVA
One-way ANOVA responde perguntas tais como:

• As médias de uma característica do produto diferem entre os fornecedores?
• As médias dos grupos de tratamentos são diferentes?
Por exemplo:
• As resistências médias das amostras de plástico de quatro fornecedores são diferentes?

• A combustão se torna mais eficiente quando se utiliza o aditivo A de combustível, o aditivo B, ou nenhum aditivo?
Visualizando os dados
Visualize os dados em um Individual Value Plot antes de analisá-los.
Individual Value Plot

1) Abra o arquivo TECIDOS.MTW.
2) Selecione Graph > Individual Value Plot.
3) Em One Y, selecione With Groups. Clique em OK.
5) Clique em Data View.

6) Marque Individual symbols, Mean symbol e Mean connect line.
A média das medidas de resistência à ruptura do Paulo parece ser inferior às médias da Ana e do Marcos. Use análise de variância para
determinar se a diferença entre as resistências médias dos operadores é estatisticamente significantiva.
Como esse gráfico exibe as medidas de resistência individuais de cada operador, você também pode visualizar quaisquer diferenças na
variabilidade entre os operadores. A variabilidade não parece ser diferente entre os operadores, mas você deve conduzir um teste de
igualdade de variâncias para se assegurar de que qualquer diferença na variabilidade não é significativa.
Próximo passo
Verifique as suposições de normalidade.
Verificando a normalidade
Antes de prosseguir com a análise, certifique-se de que as medidas de resistência de cada operador são uma amostra de observações
de uma população normalmente distribuída.
Probability Plot
1) Selecione Graph > Probability Plot > Multiple, e clique em OK.
3) Clique em OK.
Os p-valores do teste de normalidade de Anderson-Darling para Ana, Marcos e Paulo são 0,419, 0,371 e 0,975, respectivamente. Usando
um α de 0,05, não existe evidência suficiente para sugerir que os dados não seguem uma distribuição normal.
Próximo passo
Teste de igualdade de variâncias.
Teste de igualdade de variâncias:
variação dentro dos operadores
Validando a suposição de igualdade de variâncias
Antes de comparar as médias em uma ANOVA, verifique a igualdade de variâncias. Variâncias diferentes violam uma suposição da
ANOVA.
• H0: Todos os operadores têm a mesma variância.

• HA: Nem todos os operadores têm a mesma variância.
Avaliando a precisão dos operadores

A variabilidade dentro de um operador vêm do erro das medições e da variação peça-a-peça. Como as peças são atribuídas aleato-
riamente aos operadores, assuma que quaisquer diferenças significativas na variabilidade entre os operadores são devido ao erro de
medição, e não à variação peça-a-peça.
Test for Equal Variances

1) Selecione Stat > ANOVA > Test for Equal Variances;
3) Clique em OK.
Intervalos de confiança são úteis para comparar σ ao longo dos diferentes grupos e avaliar a precisão das estimativas. Entretanto, baseie
a decisão sobre a igualdade de variâncias no teste de variâncias apropriado.
Teste de variâncias
O Minitab oferece dois testes de variância:
• Teste de Bartlett, que assume uma distribuição normal;

• Teste de Levene, que permite distribuições simétricas não-normais.
Nota: Um teste F substitui o teste de Bartlett quando você tiver apenas dois níveis.
Implicações
Ambos os testes de Bartlett (p = 0,301) e de Levene (p = 0,400) indicam que as variâncias não são significativamente diferentes. Esse
resultado sugere que a diferença observada nos desvios-padrões amostrais entre os grupos é provavelmente devida somente à variação
aleatória da amostra. A suposição de igualdade de variâncias da ANOVA está verificada.
A variação dentro dos grupos neste experimento combina a repetibilidade e a variação dentro dos lotes. Como o teste é destrutivo, não
é possível estimar cada uma separadamente.
Próximo passo
Gere os resultados da One-way ANOVA.
One-way ANOVA: diferenças entre os operadores
Use o General Linear Model (GLM) para comparar as resistências médias dos três operadores. As hipóteses são:
• H0: Todas os operadores têm a mesma média (sem vício).

• HA: Nem todos os operadores têm a mesma média (vício).
Alternativas
A mesma análise está disponível nas rotas Stat > ANOVA > One-way e Stat > ANOVA > Balanced ANOVA.
General Linear Model

1) Selecione Stat > ANOVA > General Linear Model.
3) Clique em OK.
Análise de variância
A primeira linha de números na tabela Analysis of Variance (Análise de Variância) contém as estatísticas associadas com o fator , Ope-
rador. A linha seguinte contém as estatísticas associadas com o erro aleatório (Error).
Graus de liberdade
Os graus de liberdade (DF) relacionam-se ao número de valores usados para calcular a soma de quadrados (SS) para cada fonte de
variação.
Soma de quadrados
A soma de quadrados (SS) mede a variabilidade com a qual cada fonte de variação contribui para os dados. Observe que a variabilidade
total nos dados (Seq SS Total, 68,5163) é igual a Seq SS para Operador (6,6208) mais a Seq SS para Erro (61,8954).
Quadrado médio
O quadrado médio (Adj MS) para cada fonte é igual a Adj SS dividida por DF (graus de liberdade).
• Adj MS para o fator (Operador) é uma estimativa da variabilidade entre os grupos.

• Adj MS para erro é uma estimativa da variabilidade dentro dos grupos.
General Linear Model: Resistência versus Operador
Factor Type Levels Values

Operador fixed 3 Ana; Marcos; Paulo
Analysis of Variance for Resistência, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P

Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163
S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%
Unusual Observations for Resistência
Obs Resistência Fit SE Fit Residual St Resid

6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R
R denotes an observation with a large standardized residual.
Estatística F
F é a razão da variabilidade atribuída ao fator pela variabilidade atribuída ao erro.
• Se as diferenças entre as médias dos níveis do fator são similares à que você esperaria devido à variação aleatória, a razão F
será próxima de 1.
• Se a variabilidade entre as médias dos níveis do fator são maiores que a esperada devido à variação aleatória, a razão F será
maior que 1.
P-valor
O p-valor é a probabilidade de F ser tão grande (ou maior) quanto seria caso o fator não tivesse efeito. Um alto valor de F sugere que as
médias dos níveis dos fatores são mais diferentes do que seria esperado devido ao acaso; portanto o p-valor é pequeno.
Use o p-valor para testar as seguintes hipóteses:
• Ho : As médias dos níveis dos fatores são as mesmas.

• H1: Ao menos duas das médias dos níveis dos fatores são diferentes.


Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163
S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%

6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R
Observações não-usuais
O minitab identifica qualquer observação com resíduo maior que dois desvios padrão em relação a zero como uma observação não-
usual. Considere estudar essas observações posteriormente.
Nota: O Minitab identifica aproximadamente 5% das observações como não-usuais devido à variação aleatória. Com um tamanho amostral de
75, espere encontrar cerca de 4 observações não-usuais.
Conclusão
Como o p-valor = 0,026, conclua que ao menos dois dos operadores têm diferentes médias de resistência ao nível α = 0,05.
O valor R2 de 9,66% indica que os vícios das medições dos operadores explicam 9,66% da variação nas medidas de resistência.


Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163
S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%

6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R
Próximo passo
Construa os gráfico de resíduos e de efeitos principais.
Criando gráficos de resíduos e de efeitos principais
Para se assegurar de que os resultados são válidos, verifique se todas as suposições sobre os erros do modelo foram satisfeitas.
Selecione gráficos Four-in-one para exibir os quatro gráficos individuais de resíduos em uma única página, em quatro painéis diferen-
tes.
Resíduos
• Regular residuals - As diferenças entre os valores observados e preditos na mesma unidade de seus dados.
• Standardized residuals - Os resíduos regulares padronizados em unidades de desvios padrão.
• Deleted residuals - Para calcular o resíduo da i-ésima observação, primeiro remova a i-ésima observação do conjunto de dados,
estime a i-ésima observação e calcule a diferença entre o valor observado e o valor predito. E finalmente, divida a diferença por
seu desvio padrão.
Gráfico de efeitos principais

Use o gráfico de efeitos principais para exibir as médias de cada grupo, se a ANOVA detectar diferenças significativas entre as médias.

1) Selecione Stat > ANOVA > General Linear Model ou pressione Ctrl + E.
2) Clique em Graphs. Em Residual Plots, escolha Four in one.
3) Clique em OK.
4) Clique em Factor Plots.
Gráfico de resíduos Four-in-one
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores ajustados.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.
Gráfico de efeitos principais
Como a média das medidas do Paulo é bem menor que as médias da Ana e Marcos, existe vício de medição entre os operadores. Você
também pode ter vício de medição entre um operador e a medida real. Entretanto, você não pode avaliar esse tipo de vício com essa
análise, pois você não conhece o valor correto da medição (o padrão).
Como um gráfico de efeitos principais não indica quanta variabilidade existe dentro de cada grupo, você não pode usá-lo para exibir
significância estatística. Tenha cuidado ao interpretar um gráfico de fatores quando a ANOVA não indica uma diferença significativa.
• A análise não indica que os operadores têm variabilidade diferente ao medir a resistência dos tecidos de bancos de carros.
• A análise indica forte evidência de um vício entre pelo menos dois operadores.
• Desta análise, os inspetores da qualidade não podem avaliar quais operadores estão medindo corretamente, apenas que eles
estão medindo de forma diferente, em média.
• A aleatorização é extremamente importante neste exemplo. Sem aleatorização, um operador pode obter resistências significati-
vamente mais fortes ou fracas que outro operador. Se isso acontecer, você pode atribuir incorretamente a variação peça-a-peça
à variação do operador.
• Essa análise é um estudo de reprodutibilidade de sistema de medição para um teste destrutivo. A análise Stat > Quality Tools >
Gage Study requer um componente de repetibilidade, o que não era o foco deste estudo, e portanto, não foi medido.
• Comparar os três operadores em uma ANOVA é preferível a comparar dois operadores de cada vez com testes-t para 2 amostras.
Múltiplos testes aumentam o risco de um erro Tipo I (rejeitar H0 incorretamente).
• Muitas ferramentas estatísticas avaliam sistemas de medição. O Gage R&R não é sempre a maneira mais apropriada ou eficiente
de avaliar determinadas propriedades estatísticas de um sistema de medição
Exercício G: Moldes de Tampas de Canetas
Problema
Uma empresa que fabrica canetas esferográficas usa um molde composto por 16 cavidades para fabricar tampas plásticas para as cane-
tas. A espessura alvo para a tampa é de 10 mm. O fabricante quer comparar as médias e variâncias nas espessuras para as 16 cavidades
e determinar se algumas das médias das cavidades são diferentes do alvo de 10 mm.
Coleta de dados
A máquina armazena tampas de canetas para cada uma das 16 cavidades em 16 caixas separadas. Ao final de cada turno, inspetores
coletam uma amostra aleatória de 20 tampas de cada caixa e medem a espessura (em mm) de cada.
Instruções
1) Use Stat > Basic Statistics > Display Descriptive Statistics para construir boxplots para as 16 cavidades.
2) Use Stat > ANOVA > Test for Equal Variances para comparar as variâncias nas 16 cavidades.
3) Use Stat > ANOVA > General Linear Model para comparar as médias nas 16 cavidades. Selecione os gráficos de resíduos
para identificar quaisquer observações não-usuais.
4) Use Stat > ANOVA > Interval Plot para determinar se algumas das médias das cavidades são diferentes do alvo. Adicione uma
linha de referência no eixo-y clicando em Scale > Reference Lines. Quais cavidades você concluiria que não estão ajustadas
no alvo?
5) No Interval Plot, clique duas vezes no limite de um intervalo de confiança, então clique em Options e marque Bonferroni.
Quais cavidades estão fora do alvo?
Arquivo de dados
cavidades.MTW
Cavidade Número da cavidade
Espessura Espessura da abertura da tampa da caneta (mm)
Nota: Ao usar um único intervalo de 95% de confiança, o risco de concluir incorretamente que a média está fora do alvo é de 5%. Essa é a taxa
de erro Tipo I. Ao usar múltiplos intervalos de confiança, a taxa de erro Tipo I global aumenta à medida que o número de intervalos de confian-
ça aumenta. Intervalos de Bonferroni mantêm a taxa de erro Tipo I global em 5%, quando você gera múltiplos intervalos de confiança.
ANOVA - General Linear Model
Exemplo 3: Distância de Parada

Problema
Engenheiros desejam saber se os seguintes fatores afetam a distância necessária para parar um carro parar em um pavimento molha-
do:
• O modelo do pneu;
• A banda de rodagem do pneu;
• Se os freios antitravamento (freios ABS) estão habilitados.
Coleta de dados
Os engenheiros coletaram todos os dados usando o mesmo carro. Eles mediram a distância necessária para parar o carro a uma velo-
cidade de 60 km/h em um pavimento molhado para cada combinação dos fatores (Modelo, Profundidade e ABS). Eles executaram os
experimentos em ordem aleatória.
Ferramentas
• Descriptive Statistics
• General Linear Model
• Main Effects Plot
• Interactions Plot
Arquivo de dados
DISTÂNCIA.mtw
Modelo Fator - modelo do pneu (GT, LS e MX)
Banda de rodagem Fator - banda de rodagem (1,5 e 10 mm)
ABS Fator - indica a condição do freio ABS (habilitado, desabilitado)
Distância Resposta - distância para o veículo parar em um pavimento molhado (metros)
ANOVA - General Linear Model (GLM)
O que é o modelo linear generalizado
O modelo linear generalizado do Minitab avalia a análise de variância em várias situações, incluindo experimentos balanceados e não-
balanceados, análise de covariância, entre outras.
Quando usar o modelo linear generalizado

Use o GLM para realizar uma análise de variância quando você tiver respostas contínuas para níveis fixos de um ou mais fatores. O
procedimento GLM do Minitab trata:
• Fatores cruzados ou aninhados;

• Fatores fixos ou aleatórios;
• Modelos mistos;
• Experimentos balanceados e não-balanceados;
• Preditores contínuos como covariáveis.
Por que usar o modelo linear generalizado

O GLM responde perguntas tais como:
• Existem diferenças em seu produto devido a vários fatores identificados?

• Certas combinações dos níveis dos fatores levam a uma resposta ideal?
Por exemplo:
• A cor do plástico muda em função da temperatura, umidade ou pressão?

• A cor do plástico é geralmente melhor quando a pressão é alta, ou isso depende do nível de umidade?
Visualizando os dados em tabelas
Exiba os dados em tabelas para examinar possíveis diferenças entre as 12 combinações de tratamentos.
Descriptive Statistics
1) Abra o arquivo DISTÂNCIA.MTW.
2) Selecione Stat > Tables > Descriptive Statistics.
4) Clique em Categorical Variables.

5) Desmarque Counts e clique em OK.
6) Clique em Associated Variables.
7) Em Associated variables, entre com Distância.
8) Em Display, marque Means.
9) Clique em OK em cada caixa de diálogo..
Efeitos principais
A distância de parada média quando o ABS está desabilitado (27,63 m) é maior que a distância de parada média quando o ABS está
habilitado (22,79 m). Essa diferença é o efeito principal de ABS.
Efeitos de interação
Observe que:
• Quando ABS estava desabilitado, a banda de rodagem de 1,5 mm tinha uma distância de parada menor (média = 27,47 m) que
a banda de rodagem de 10 mm (média = 27,78 m).
• Quando ABS estava habilitado, a banda de rodagem de 10 mm tinha uma distância de parada menor (média = 22,50 m) que a
banda de rodagem de 1,5 mm (média = 23,08 m).
Esse efeito é a interação ABS*Banda de rodagem, onde o efeito da banda de rodagem depende do nível de ABS. (Entretanto, as diferen-
ças não são grandes. O teste apropriado provavelmente revelará que essa interação não é significativa.)
Tabulated statistics: Modelo; Banda de rodagem; ABS
Results for ABS = desabilitado

Rows: Modelo Columns: Banda de rodagem
1,5 10,0 All
GT 25,30 27,45 26,38

LS 29,40 27,55 28,48
MX 27,70 28,35 28,02
All 27,47 27,78 27,63
Cell Contents: Distância : Mean
Results for ABS = habilitado

Rows: Modelo Columns: Banda de rodagem
1,5 10,0 All
GT 20,90 20,40 20,65

LS 25,15 23,80 24,48
MX 23,20 23,30 23,25
All 23,08 22,50 22,79
Cell Contents: Distância : Mean
Analisando o modelo completo
Use a ferramenta General Linear Model para analisar o modelo completo, que contém todos os efeitos principais e interações possí-
veis.
Notação
Para indicar os termos de interação, ligue os nomes dos fatores com asteriscos. Assim, o modelo completo para os dados de distância
de parada irá conter os seguintes termos:
Efeitos principais Interações de segunda ordem Interações de terceira ordem

Modelo Modelo*Banda de rodagem Modelo*Banda de rodagem*ABS
Banda de rodagem Modelo*ABS
ABS Banda de rodagem*ABS
Para facilitar, você pode entrar com o modelo completo usando a notação da barra vertical:
Modelo | Banda de rodagem | ABS
Com as barras verticais, o Minitab considera todos os efeitos principais e interações entre os termos indicados.

3) Clique em OK.
Use os p-valores para testar a significância de cada termo. Neste modelo, os seguintes efeitos são significativos ao nível α de 0,05:
• Modelo (P = 0,003)
• ABS (P = 0,000)
Como ABS tem apenas dois níveis (habilitado e desabilitado), você sabe que a significância deste termo reflete uma diferença significa-
tiva entre os dois níveis.
Testes de comparação
Como Modelo tem três níveis, conduza comparações estatísticas para determinar quais níveis são diferentes entre si.
General Linear Model: Distância versus Modelo; Banda de rodagem; ABS

Modelo fixed 3 GT; LS; MX
Banda de rodagem fixed 2 1,5; 10,0
ABS fixed 2 desabilitado; habilitado
Analysis of Variance for Distancia, using Adjusted SS for Tests

Modelo 2 37,316 37,316 18,658 9,41 0,003
Banda de rodagem 1 0,107 0,107 0,107 0,05 0,821
ABS 1 140,167 140,167 140,167 70,67 0,000
Modelo*Banda de rodagem 2 6,656 6,656 3,328 1,68 0,228
Modelo*ABS 2 2,986 2,986 1,493 0,75 0,492
Banda de rodagem*ABS 1 1,215 1,215 1,215 0,61 0,449
Modelo*Banda de rodagem*ABS 2 2,573 2,573 1,286 0,65 0,540
Error 12 23,800 23,800 1,983
Total 23 214,818
S = 1,40831 R-Sq = 88,92% R-Sq(adj) = 78,77%
Unusual Observations for Distancia
Obs Distancia Fit SE Fit Residual St Resid

4 25,3000 23,3000 0,9958 2,0000 2,01 R
15 21,3000 23,3000 0,9958 -2,0000 -2,01 R
Próximo passo
Elimine os termos não significativos e verifique os resíduos.
Ajustando o modelo reduzido
Ajuste um modelo reduzido removendo os termos não significativos. Use General Linear Model para ajustar o modelo apenas com Mo-
delo e ABS.
Crie gráficos de resíduos para validar as suposições do teste.

4) Em Residuals Plots, marque Four in one.
Conforme esperado, tanto Modelo quanto ABS são significativos ao nível de significância de 0,05 no modelo reduzido.
General Linear Model: Distância versus Modelo; ABS

Modelo fixed 3 GT; LS; MX
ABS fixed 2 desabilitado; habilitado
Analysis of Variance for Distancia, using Adjusted SS for Tests

Modelo 2 37,316 37,316 18,658 9,99 0,001
ABS 1 140,167 140,167 140,167 75,08 0,000
Error 20 37,336 37,336 1,867
Total 23 214,818
S = 1,36631 R-Sq = 82,62% R-Sq(adj) = 80,01%
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
o tempo.
Próximo passo
Construa os gráficos de efeitos principais e interações.
Gráfico de efeitos principais e interações
Comparação gráfica de médias
Agora que você selecionou um modelo, visualize os resultados da análise usando gráficos de efeitos principais e interações.
Embora você não tenha incluído todos os termos no modelo final, você pode querer incluir todos os fatores nos gráficos, para visualizar
fatores significativos e não-significativos.
Main Effects Plot e Interactions Plot

1) Selecione Stat > ANOVA > Main Effects Plot;
2) Em Responses, entre com Distância;
3) Em Factors, entre com Modelo ‘Banda de rodagem’ ABS;
4) Clique em OK;
5) Selecione Stat > ANOVA > Interactions Plot;
6) Em Responses, entre com Distância;
7) Em Factors, entre com Modelo ‘Banda de rodagem’ ABS;
8) Clique em OK.
Os gráficos de efeitos principais revelam que Modelo e ABS tiveram os maiores efeitos observados na distância de parada. Esses gráfi-
cos também mostram que:
• O pneu com a menor distância de parada foi o GT

• A distância de parada foi menor com o sistema ABS habilitado que desabilitado
O gráfico de Banda de rodagem demonstra pouca inclinação, sugerindo que este efeito não é significativo. As duas bandas de rodagem
produziram distâncias de parada quase idênticas.
Os gráficos de interações ilustram todas as interações de segunda ordem. O gráfico exibe as médias das combinações dos níveis dos
fatores.
As linhas de cada gráfico são quase que paralelas, sugerindo que não existe interação entre quaisquer dos termos. Alguma evidência de
interação aparece entre Modelo e Banda de rodagem, mas a ANOVA indicou que esta não foi significativa.
Próximo passo
Use comparações múltiplas para comparar todos os níveis dos fatores e ver quais níveis diferem de forma significativa.
Executando comparações pareadas
Use comparações pareadas para testar as diferenças entre os níveis dos fatores singificativos. Os resultados da análise de variância
indicam apenas que pelo menos dois níveis diferem entre si. Use comparações múltiplas para comparar todos os níveis dos fatores para
descobrir quais diferem significativamente entre si.
Nesse exemplo, você pode concluir da ANOVA original que existe uma diferença significativa entre o modelo do pneu, com a maior dife-
rença média observada (GT e LS). Você não pode usar esses resultados para determinar se o pneu MX é significantemente diferente do
pneu GT ou do LS. Use comparações pareadas para concluir se os modelos do pneu diferem entre si.

2) Pressione F3 para restaurar as configurações originais.
3) Em Responses, entre com Distância.
4) Em Model, entre com Modelo ABS.
5) Clique em Comparisons.
A primeira tabela compara o pneu GT com os pneus LS e MX. Os resultados revelam que a distância de parada média obtida com o pneu
GT foi significativamente menor do que aquela obtida com os pneus LS (P = 0,0009) ou MX (P = 0,0146).
A segunda tabela compara os pneus LS e MX, que não se mostraram significativamente diferentes (P = 0,4522).
Tukey Simultaneous Tests

Response Variable Distancia
All Pairwise Comparisons among Levels of Modelo
Modelo = GT subtracted from:
Difference SE of Adjusted
Modelo of Means Difference T-Value P-Value
LS 2,962 0,6832 4,337 0,0009
MX 2,125 0,6832 3,111 0,0146
Modelo = LS subtracted from:
Modelo of Means Difference T-Value P-Value
MX -0,8375 0,6832 -1,226 0,4522
Em termos de distância de parada em um pavimento molhado:
• O melhor pneu é o GT
• É melhor ter o ABS habilitado
• A banda de rodagem (1,5 ou 10,0 mm) não influencia
O procedimento General Linear Model tem as seguintes vantagens:
• Você pode utilizá-lo com experimentos desbalanceados;

• Você pode avaliar diferenças entre as médias individuais dos níveis.
Valide as suposições dos resíduos antes de tirar quaisquer conclusões finais sobre os resultados da ANOVA.
Esta análise envolveu fatores fixos - os níveis incluídos eram de interesse direto e não podem ser generalizados para outros níveis. O
procedimento General Linear Model também pode ser usado com fatores aleatórios, que são fatores para os quais os níveis são sele-
cionados de forma aleatória para representar uma população maior de níveis possíveis. Estudos de medição R&R frequentemente usam
fatores aleatórios.
Todos os fatores nesta análise foram cruzados - cada nível de Modelo podia ser testado com cada nível de Profundidade. Os fatores são
considerados hierárquicos (ou aninhados) se todos os níveis de um fator ocorrem completamente dentro de um nível de outro fator.
Exercício H: Degustação de Vinho
Problema
Uma companhia quer determinar se existem diferenças significativas de qualidade entre três vinhos: Matador, Conquistador e Saeta.
Coleta de dados
Foram selecionados dez enólogos (juízes), e cada um degustou os três vinhos e os pontuou por qualidade geral. A ordem de degustação
foi aleatória, de modo que cada enólogo degustou os vinhos em ordem diferente.
Instruções
1) Use General Linear Model para analisar a Nota como uma função do Vinho e do Juiz.
2) Verifique os gráficos de resíduos.
3) Inclua comparações pareadas do fator Vinho para investigar diferenças entre os vinhos individuais.
4) Gere um gráfico de efeitos principais para Vinho.
Arquivo de dados
Vinho.mtw
Juiz Nome do juiz
Vinho Nome do vinho
Ensaio Ordem na qual cada juiz degustou o vinho
Ordem de degustação Ordem na qual cada juiz degustou o vinho dentro do ensaio
Nota Pontuação dada pelo juiz
Exercício I: Desgaste de Tinta
Problema
O Departamento de Transportes de Minas Gerais está estudando as características de desgaste de quatro tipos de tintas amarelas para
a pintura de rodovias.
Coleta de dados
Trabalhadores aplicaram faixas de teste de cada tinta em ruas de quatro municípios da região metropolitana de Belo Horizonte: Sabará,
Santa Luzia, Contagem e Vespasiano. Após longa exposição ao clima e ao tráfego, os trabalhadores mediram o desgaste da tinta em
cada um dos quatro municípios. Uma alta pontuação indica que menos tinta foi desgastada.
Instruções
1) Use General Linear Model para determinar se o desgaste médio dos quatro tipos de tinta foi igual.
2) Use General Linear Model para determinar se o desgaste médio foi diferente nas localidades e tipos de tinta.
3) Verifique os gráficos de resíduos.
4) Por que o tipo de tinta foi significativo na segunda análise, mas não na primeira?
5) Use comparações pareadas para determinar quais tintas são significativamente diferentes entre si. Mantenha a localidade no
modelo como uma variável de bloco.
Arquivo de dados
DESGASTE.mtw
Localidade Fator - localidade do teste
Tinta Fator - tipo de tinta testada
Desgaste Resposta - desgaste da tinta
Correlação e Regressão
Objetivos
• Medir o grau de associação linear entre duas ou mais variáveis

usando correlação;
• Modelar a relação entre uma variável resposta contínua e uma
variável preditora.
Correlação e Regressão 3
Conteúdo

Correlação
Exemplo 1: Medir o grau de associação linear entre duas variáveis usando 5
Comparando Sistemas de Medição correlação.
Correlação Entre Múltiplas Variáveis
Exemplo 2: Demonstrar a redução de variáveis usando correlação. 13
Controle de Qualidade de Tampas de Gar-
rafas
Regressão Simples
Exemplo 3: Avaliar e modelar a relação linear entre duas variáveis usando 22
Impurezas na Tinta um Fitted Line Plot. Verificar as suposições do modelo usando
gráficos de resíduos.
Regressão Polinomial
Exemplo 4: Avaliar e modelar a relação quadrática entre duas variáveis 36
Projeto de um Interruptor de Pressão usando um Fitted Line Plot. Verificar as suposições do modelo
usando gráficos de resíduos.
Exercício J: Avaliar e modelar a relação entre duas variáveis usando um 51
Escudos de Erosão Fitted Line Plot.
Exercício K: Avaliar e modelar a relação entre duas variáveis usando um 52
Escapamento de Diesel Fitted Line Plot.
4 Correlação e Regressão
Correlação
Exemplo 1: Comparando Sistemas de Medição

Problema
Engenheiros desenvolveram um sistema de medição online que eles acreditam que irá medir o pH com tanta exatidão quanto o atual
sistema em seu laboratório. O sistema online forneceria informações mais rápido, além de sua habilidade de ajustar o sistema em tempo
real. Eles querem saber se os dois sistemas produzem leituras similares de pH.
Coleta de dados
Engenheiros usaram ambos os sistemas para medir o pH de 20 lotes do produto selecionados aleatoriamente.
Ferramentas
• Scatterplot
• Correlation
Arquivo de dados
LABORATÓRIO.MTW
Lab Medidas do pH obtidas pelo sistema laboratorial
Online Medidas do pH obtidas pelo sistema online
Correlação
O que é correlação
O coeficiente de correlação amostral, r, mede o grau de associação linear entre duas variáveis (o grau no qual as mudanças em uma
variável acompanham as mudanças na outra).
Uma correlação positiva indica que ambas as variáveis tendem a crescer ou decrescer juntas. Uma correlação negativa indica que uma
variável cresce enquanto a outra decresce.
Quando usar correlação

Use a análise de correlação quando você tiver dados para duas variáveis contínuas e quiser determinar se elas têm uma relação linear.
A correlação não irá detectar se as variáveis estiverem associadas de forma não-linear.
Alguns estatísticos acreditam que você não deveria usar correlação se uma variável é uma resposta dependente da outra.
Por que usar correlação

A correlação responde perguntas tais como:
• Existe algum tipo de relação linear entre duas variáveis?

• Quão grande é esta relação?
Por exemplo:
• Existe uma relação entre a temperatura e viscosidade do óleo de cozinha?

• Quão forte é a relação entre a exposição aos raios ultravioleta e a redução da força do nylon?
Padrões típicos de associação
(Nota: Estes resultados não são iguais aos obtidos no exemplo)
De uma maneira geral, sempre que você traçar um diagrama de dispersão com o intuito de estudar a existência de relação entre duas
variáveis, o gráfico cairá em uma das quatro categorias de associação ilustradas abaixo:
Associação linear positiva

Em uma associação linear positiva,valores altos da variável X es-
tão associados com valores altos da variável Y, e vice-versa.
►
Associação linear negativa
◄ Em uma associação linear negativa, valores altos da variável X

estão associados com valores baixos da variável Y.
Associação não-linear
Em geral, uma associação não-linear é mais complexa de ser vi-
sualizada. Por exemplo, em uma relação quadrática, valores altos
e baixos da variável X estão associados com valores altos de Y
enquanto valores medianos de X estão associados com os valo-
res baixos da variável Y (veja figura). Além desta também pode-
►
mos observar outras associações tais como:
senoidais, exponenciais, logarítmicas, etc.
Ausência de associação
◄ As variáveis do exemplo ao lado não apresentam nenhuma espé-

cie de associação. Os valores da variável X não estão claramente
associados como nenhum valor particular da variável Y.
Plotando os dados
Construa um gráfico de dispersão matricial para ajudar a visualizar a relação entre as medidas obtidas pelos dois sistemas.
Variáveis gráficas
Plote as variáveis Lab e Online nos eixos x e y, respectivamente.
Scatterplot
1) Abra o arquivo LABORATÓRIO.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
5) Clique em OK.
6) Quando o Minitab exibir o gráfico, clique duas vezes no eixo x.
7) Marque Same scale range for Y and X.
8) Clique em OK.
O diagrama de dispersão das medidas laboratoriais versus online indica que:
• Os dois sistemas de medição são forntemente relacionados. Quando os valores para Lab mudam, o mesmo acontece para os
valores Online.
• Os dados seguem uma linha aproximadamente reta, sugerindo que a relação é linear.
• Valores altos do sistema online estão associados com valores altos do sistema laboratorial, indicando que a relação é positiva.
Próximo passo
Como a relação é linear, calcule o coeficiente de correlação para quantificar a força da associação.
Calculando a correlação
Calcule o coeficiente de correlação de Pearson para determinar a força da associação linear entre as medições laboratoriais e online.
Correlation
1) Selecione Stat > Basic Statistics > Correlation.
3) Clique em OK.
Correlação de Pearson
O coeficiente de correlação de Pearson (r) é um número entre -1 e 1, onde:
• 1 indica uma correlação positiva perfeita.

• 0 indica ausência de correlação.
• -1 indica correlação negativa perfeita.
P-valor
O p-valor testa as seguintes hipóteses:
• H0: O coeficiente de correlação ρ (ou rô) entre as populações é igual a zero.

• HA: ρ não é igual a zero.
Correlations: Lab; Online
Pearson correlation of Lab and Online = 0,959

P-Value = 0,000
Conclusão
O coeficiente de correlação (0,959) indica que as medições laboratoriais e online têm uma forte associação linear positiva. Além disso, o
p-valor (0,000) é menor que α (0,05), portanto rejeite a hipótese nula de que não existe relação linear.
As medidas obtidas com os sistemas laboratorial e online têm uma forte correlação positiva (0,959).
Entretanto, o sistema online fornece medidas consistentemente maiores que as do sistema laboratorial. Isso pode indicar a necessidade
de recalibração.
Os resultados desse experimento limitado indicam que o sistema de medição online, mais barato e fácil de usar, pode substituir adequa-
damente o sistema de medição laboratorial.
A correlação quantifica o grau de associação linear entre duas variáveis.
Uma forte correlação não implica em uma correlação de causa-e-efeito. Por exemplo, uma forte correlação entre duas variáveis pode ser
devido à influência de uma terceira variável que não esteja sendo considerada.
Um coeficiente de correlação próximo de zero não significa necessariamente falta de associação; ele poderia indicar que a associação
não é linear. Sempre plote os dados, para que você possa identificar relações lineares, caso estejam presentes.
Alguns estatísticos argumentam que a correlação não é apropriada se uma variável é uma resposta dependente da outra.
A correlação assume que os valores de ambas as variáveis estão livres para variarem. Você não pode usar a correlação se fixar os va-
lores de uma variável para estudar mudanças em outra.
Correlação entre Múltiplas Variáveis
Exemplo 2: Controle de Qualidade de Tampas de Garrafas

Problema
Um fabricante monitora atualmente o diâmetro de tampas de garrafas ao longo do tempo usando cartas de controle. Um molde com 8
cavidades produz as tampas das garrafas.
O departamento de qualidade gasta 8 horas por dia coletando amostras de tampas, medindo-as, e construindo as cartas de controle. Uma
equipe de melhoria da qualidade quer identificar cavidades altamente correlacionadas e reduzir o número e custo total das medições.
Coleta de dados
Técnicos selecionam aleatoriamente 5 tampas de garrafas a cada quatro horas, de cada cavidade. O conjunto de dados da semana
anterior, que contém 840 medições de cada cavidade, está disponível para análise.
Ferramentas
• Matrix Plot
• Correlation
• Xbar Chart
Arquivo de dados
Tampas.MTW
Cavidade 1 - Cavidade 8 Dimensões das tampas de garrafas para amostras
obtidas em cada uma das 8 cavidades
Correlação entre múltiplas variáveis
O que é correlação entre múltiplas variáveis
Uma matriz de correlação mostra as correlações pareadas para um conjunto de variáveis quantitativas.
Quando usar correlação entre múltiplas variáveis

Use correlação entre múltiplas variáveis para gerar todas as correlações pareadas para um conjunto de variáveis quantitativas. Para
identificar:
• Pares de variáveis que são altamente correlacionadas;

• Medições redundantes que podem ser eliminadas para simplificar a análise e reduzir o custo da coleta de dados;
• Variáveis preditoras que são altamente correlacionadas, antes de fazer uma análise de regressão.
Por que usar correlação entre múltiplas variáveis

Correlação entre múltiplas variáveis responde perguntas tais como:
• As variáveis são altamente correlacionadas?

• Você pode eliminar medições redundantes para simplificar uma análise e reduzir o custo de coleta de dados?
Construindo um Matrix Plot
Antes você realizar uma análise de correlação, construa um gráfico de dispersão matricial dos dados para verificar se:
• As relações são aproximadamente lineares;

• As variáveis são quantitativas;
• Não existem valores atípicos (outliers).
Exibição da matriz
Use as opções Lower left ou Upper right para exibir somente um gráfico de cada par de variáveis. Use a opção Full para exibir dois
gráficos para cada par de variáveis, com os eixos X e Y invertidos.
Alternativas
Se a matriz for muito grande ou estiver muito difícil de ser interpretada, plote diagramas de dispersão individuais.
Matrix Plot
1) Abra o arquivo TAMPAS.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots > Simple, então clique em OK.
4) Em Graph variables, entre com ‘Cavidade 1’ - ‘Cavidade 8’.
5) Clique em Matrix Options.
As relações lineares mais fortes são entre as cavidades 1 e 2, cavidades 2 e 3, e cavidades 6 e 7. Se você plotar essas variáveis juntas,
elas mostram o melhor ajuste em torno de uma linha.
Investigue quaisquer outliers usando a ferramenta Brushing (Editor > Brush).
Próximo passo
Gere as correlações.
Correlacionando múltiplas variáveis
Seleção
Para selecionar todas as oito colunas, destaque-as na lista de variáveis à esquerda e clique em Select.
P-valores
Desmarque a opção Display p-values. Se você incluir muitas variáveis na análise, os p-valores podem complicar desnecessariamente
a saída.
Correlation
3) Clique em OK.
Correlations: Cavidade 1; Cavidade 2; Cavidade 3; Cavidade 4; Cavidade 5; ...
Cavidade 1 Cavidade 2 Cavidade 3 Cavidade 4 Cavidade 5

Cavidade 2 0,858
Cavidade 3 0,650 0,869
Cavidade 4 0,459 0,698 0,604
Cavidade 5 0,193 0,490 0,471 0,778
Cavidade 6 -0,115 0,337 0,401 0,583 0,627
Cavidade 7 -0,037 0,344 0,399 0,327 0,417
Cavidade 8 0,343 0,685 0,601 0,629 0,627
Cavidade 6 Cavidade 7
Cavidade 7 0,847
Cavidade 8 0,747 0,542
Cell Contents: Pearson correlation
As cavidades 2 e 3 têm o maior coeficiente de correlação (0,869), as cavidades 1 e 2 o segundo maior (0,858), e as cavidades 6 e 7 o
terceiro maior (0,847). Todas as três correlações são fortes o suficiente para garantir a eliminação de medições.
Implicações
Elimine medições para as cavidades 1, 3 e 6 e ganhe tempo economizando 3 horas de coleta de dados por dia.
Próximo passo
Compare as cartas Xbar de todas as cavidades.
Cartas de controle Xbar
Construa cartas de controle Xbar para verificar se você consegue identificar condições fora de controle nas cavidades 1, 3 e 6 olhando
apenas as cartas Xbar das cavidades 2 e 7.
Tamanho de subgrupo
Os técnicos selecionaram cinco tampas de garrafas a cada hora; portanto, o subgrupo é de tamanho 5. Os pontos plotados na carta de
controle serão as médias para cada subgrupo.
Xbar
1) Selecione Stat > Control Charts > Variables Chart for Subgroups > Xbar.
3) Clique em Multiple Graphs. Marque Same Y.

5) Selecione Editor > Layout Tool.
6) Exiba as cavidades 1, 2, 3, 6 e 7 em uma tabela com 3 linhas e 2 colunas.
7) Clique em Finish.
As cavidades 1, 2 e 3 estão fora de controle no ponto 74, a cavidade 6 está fora de controle nos pontos 8 e 63, e a cavidade 7 está fora
de controle no ponto 63.
Implicações
Se a empresa de garrafas eliminar algumas das medições, eles podem não detectar um estado fora de controle. Entretanto, eles preci-
sam ponderar esse risco com as economias geradas pela redução do número de medições de 8 para 5.
A empresa de garrafas pode economizar 3 horas de coleta de dados a cada dia, reduzindo o número de medições de 8 para 5, porém
com um risco envolvido. Mesmo com as altas correlações encontradas nesse estudo, futuros sinais de falta de controle nas cavidades
1, 3 e 6 serão possivelmente perdidos.
O quão alta deve ser a correlação para justificar a eliminação de medições? Considere os seguintes aspectos ao tomar decisões:
• A importância de detectar um estado fora de controle em cada cavidade. Se a importância for alta, é necessária uma alta corre-
lação. Caso contrário, ajuste como critério uma relação mais fraca.
• A importância de eliminar um dado número de medições. Se o propósito da análise é eliminar três medições, independente das
correlações, então simplesmente olhe as três correlações mais altas.
Regressão Simples
Exemplo 3: Impurezas na Tinta

Problema
O aumento na taxa de mistura pode causar a coagulação dos pigmentos da tinta. Esse coágulos de pigmento (impurezas) afetam nega-
tivamente a performance da tinta. Um fabricante de tinta conduz um experimento para entender melhor a relação entre a taxa de mistura
e o nível de impureza.
Coleta de dados
Pesquisadores mediram a impureza para lotes de tinta misturados em taxas que variaram de 20 a 42 rpm (rotações por minuto).
Ferramentas
• Fitted Line Plot
Arquivo de dados
TINTA.MTW
Taxa de Mistura Preditor - taxa em que o lote de tinta foi misturado (rpm)
Impureza Resposta - nível de impureza medido em cada lote
Regressão Simples
O que é regressão simples

A regressão linear simples modela a relação existente entre uma variável resposta contínua (Y) e uma variável preditora (X). A equação
geral para um modelo de regressão linear simples é:
Y = β0 + β1X + ε
onde Y é a resposta; X é o preditor, β0 é o intercepto (o valor de Y quando X é igual a zero), β1 é o coeficiente angular e ε é o erro alea-
tório.
Quando usar regressão simples

Use regressão simples quando você tiver uma variável contínua Y e uma preditora, X. Além disso:
• A variável X pode ser ordinal ou contínua;

• Teoricamente, X deveria ser fixado em configurações experimentais pré-determinadas. Na prática, frequentemente, X varia.
• Qualquer incerteza na medição de X é negligenciável se comparada à amplitude dos valores medidos de X.
Os valores de Y obtidos em sua amostra serão diferentes daqueles preditos pelo modelo de regressão (a menos que todos os pontos
caiam em uma linha reta perfeita). Essas diferenças são chamadas de resíduos.
Para confirmar se os resultados da análise de regressão são válidos, verifique todas as suposições sobre o termo de erro do modelo. Use
gráficos de resíduos para verificar se os erros têm a seguinte característica:
• Normalmente distribuídos;
• Variância constante para todos os valores ajustados;
• Aleatórios ao longo do tempo.
Por que usar regressão simples
A regressão simples responde perguntas tais como:

• Quão importante é X na predição de Y?
• Qual valor pode ser esperado para Y quando X é 20?
• Quanto você espera ser a variação média de Y se você aumentar X em uma unidade?
Por exemplo,
• Como a temperatura do processo está relacionada com a dureza do aço?

• Qual o valor médio predito para a dureza do aço se o mesmo for processado a uma temperatura particular?
• Qual o aumento médio esperado na dureza se a temperatura aumentar em 10ºC?
Ajustando um modelo linear
Determine o efeito da taxa de mistura na quantidade de impurezas na tinta. Use um Fitted Line Plot para calcular e plotar a equação de
regressão.
Fitted Line Plot

1) Abra o arquivo TINTA.MTW.
2) Selecione Stat > Regression > Fitted Line Plot.
4) Clique em OK.
Equação de regressão
A equação de regressão relaciona o preditor (Taxa de Mistura) com a resposta (Impureza):
Impureza = -0,289+ 0,4566 Taxa de Mistura
O coeficiente angular da linha de regressão (0,4566), indica a mudança média na Impureza se a Taxa de Mistura aumentar em uma
unidade.
S
S é uma estimativa da variabilidade média sobre a linha de regressão. S é a raiz quadrada positiva do MSE (quadrado médio do erro).
Para um dado problema, a melhor equação para predizer a resposta será aquela que tiver o S mais baixo.
R2 (R-Sq)
R² é a proporção da variabilidade na resposta que é explicada pela equação. Neste caso, a relação linear com a Taxa de Mistura explica
93,4% da variabilidade na Impureza.
Valores aceitáveis para R² variam dependendo do estudo. Por exemplo, engenheiros estudando reações químicas podem requerer um
R² de 90% ou mais. Contudo, um estudo sobre o comportamento humano (que é mais variável) pode ser satisfeito com valores mais
baixos de R².
R2 adjusted (R-Sq(adj))
R² ajustado é sensível ao número de termos incluídos no modelo e é importante ao se comparar modelos com diferentes números de
termos.
O método dos mínimos quadrados
Os coeficientes da equação de regressão são escolhidos de forma a minimizar a soma das diferenças quadráticas entre os valores das
respostas observados na amostra, e as previsões feitas pela equação.
Em outras palavras, a linha de regressão de mínimos quadrados minimiza as distâncias verticais entre os pontos e a linha, como mos-
trado na figura abaixo.
Esteja alerto quanto à presença de outliers ao usar procedimentos de regressão. Alguns outliers (também chamados de pontos de alto
leverage) têm um grande efeito no cálculo da linha de regressão de mínimos quadrados. Em alguns casos, a linha pode não representar
a relação existente entre os dados corretamente.
Use os resultado da análise de variância (ANOVA) para avaliar se o modelo de regressão simples é útil. A ANOVA compara o modelo com
um modelo restrito que não usa Taxa de Mistura (X) para predizer a Impureza (Y):
• Modelo de regressão: Y = β0 + β1X + ε

• Modelo restrito: Y = β0 + ε
O modelo restrito declara que as mudanças que ocorrem em Y se devem exclusivamente ao erro aleatório ( ε ). Este modelo é equivalente
a um modelo de regressão simples com um coeficiente angular (β1) igual a zero. Assim, as hipóteses para a ANOVA são:
• H0: β1 é igual a zero.

• HA: β1 não é igual a zero.
Interprete o p-valor da seguinte maneira:
• Se o p-valor é menor que ou igual a α, rejeite H0. O modelo de regressão explica significativamente mais variabilidade na respos-
ta que o modelo restrito. β1 não é igual a zero.
• Se o p-valor é maior que α, você não pode rejeitar H0. β1 não é significativamente diferente de zero.
Regression Analysis: Impureza versus Taxa de Mistura

The regression equation is
Impureza = - 0,289 + 0,4566 Taxa de Mistura
S = 0,919316 R-Sq = 93,4% R-Sq(adj) = 92,7%
Analysis of Variance
Source DF SS MS F P
Regression 1 119,275 119,275 141,13 0,000
Error 10 8,451 0,845
Total 11 127,727
Conclusão
Usando um α de 0,05, rejeite o modelo restrito mais simples e conclua que a Taxa de Mistura tem um efeito linear significativo na Impu-
reza.
Adicionado intervalos de confiança e predição
Intervalos de confiança e predição
Intervalos de confiança estimam o alcance para a verdadeira média da resposta considerando um dado valor do preditor.
Intervalos de predição estimam o alcance no qual você pode esperar que uma nova observação caia para um dado valor do preditor.
Fitted Line Plot

1) Selecione Stat > Regression > Fitted Line Plot ou pressione “Ctrl+E” para retornar a caixa de dialogo Fitted Line Plot.
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.
Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.
Criando gráficos de resíduos
Resíduos
O resíduo para cada observação é a diferença entre o valor observado da resposta e o valor predito pelo modelo (o valor ajustado). Por
exemplo, se o valor observado da resposta é 12 e o modelo predizer 10, o resíduo é 2.
Suposições
Para confirmar que a análise é válida, verifique todas as suposições sobre o termo de erro do modelo. Use gráficos de resíduos para
verificar se os erros têm as seguintes características:
• Normalmente distribuídos
• Variância constante para todos os valores ajustados
• Aleatórios ao longo do tempo
Residual Plots
1) Selecione Stat > Regression > Fitted Line Plot ou pressione “Ctrl+E”.
Normal Probability Plot
No gráfico de probabilidade normal, os pontos devem descrever, aproximadamente, uma linha reta. Use este gráfico para verificar se os
resíduos não desviam de forma substancial de uma distribuição normal.
Este Padrão... Indica...

Pontos se desviando de uma linha reta Os resíduos não provêm de uma distribuição Normal
Curvatura (os resíduos provêm de uma distribuição Caudas muito pesadas ou leves na distribuição
assimétrica)
Alguns pontos afastados da linha reta Outliers existem
Mudança de inclinação Uma variável pode estar faltando no modelo
Com base no gráfico, você pode assumir que os resíduos para os dados não se desviam substancialmente de uma distribuição normal.
Nota: Um teste de normalidade (não mostrado) para esses dados forneceria um p-valor de 0,252.
Histogram
Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho de amostra razoavel-
mente grande, o histograma exibe informação compatível com o gráfico de probabilidade normal.
O histograma dos resíduos deve estar em forma aproximada de sino, sem valores não-usuais ou outliers. Use o histograma como uma
ferramenta exploratória para investigar as seguintes características dos dados:
• Valores típicos, dispersão ou variação, e forma

• Valores não-usuais nos dados
Se você concluir que os resíduos não vêm de uma população normal, o histograma pode sugerir a verdadeira distribuição do termo de
erro.
Resíduals versus fits
Use o gráfico de resíduos versus valores ajustados para verificar se os resíduos estão aleatoriamente distribuídos em torno de zero.

Curvilíneo Um termo quadrático pode ser necessário no modelo
Dispersão em funil ou desigual dos resíduos ao lon- Variância não-constante dos resíduos
go do diferentes valores ajustados
Alguns pontos muito afastados de zero em relação Outliers existem
aos outros pontos
O gráfico dos dados da tinta não revelam quaisquer padrões.
Resíduals versus order
O gráfico de resíduos versus ordem dos dados exibe os resíduos na ordem de coleta dos dados (desde que os dados tenham sido digi-
tados na mesma ordem na qual eles foram coletados).
Se a ordem de coleta de dados afeta os resultados, os resíduos próximos entre si podem estar correlacionados, e serem, portanto,
dependentes.

Resíduos distribuídos de forma não-aleatória em Os resíduos não são independentes ao longo do tempo
torno de zero
Resíduos distribuídos aleatoriamente em torno de Os resíduos são independentes
zero
Pontos muito afastados de zero em relação aos ou- Outliers existem
tros pontos
O gráfico não revela qualquer efeito da ordem de coleta dos dados.
A análise de regressão linear simples revelou que o aumento da taxa de mistura está associado ao aumento dos níveis de impureza na
tinta.
O coeficiente angular da equação de regressão indica que, quando você aumentar a taxa de mistura em 1 rpm, estima-se que o nível
médio de impureza aumente em 0,4566 unidades.
Ao usar procedimentos de regressão, esteja alerta para os outliers presentes em ambas as variáveis X e Y. Outliers na variável X (pontos
com alto leverage) podem ter uma grande influência nos coeficientes de regressão e p-valores. Neste caso, plote os resíduos deleta-
dos para detectar pontos com altos valores de leverage. Outliers na variável Y também podem influenciar fortemente os resultados. Se
outliers estiverem presentes, o modelo de pode não ajustar adequadamente os dados e não ser capaz de predizer futuras observações
com precisão.
Não utilize a analise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que os valores da
variável preditora tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores tiverem
variado de forma aleatória, outros fatores podem influenciar ambos os preditores e a resposta.
Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinado pela amostra.
Por exemplo, você não deve usar a equação de regressão obtida nesse exemplo para predizer níveis de impureza para uma taxa de
mistura de 100, pois a mais alta taxa de mistura envolvida na análise é 42. A relação entre Taxa de Mistura e Impureza pode ser muito
diferente para taxas de mistura acima de 42.
Esteja alerta para valores atípicos (outliers) quando usar procedimentos de regressão. Alguns outliers (pontos com altos leverages) têm
um grande efeito no cálculo da reta de regressão via Método de Mínimos Quadrados. Nesses casos, a reta pode não representar os
dados adequadamente.
Exemplo 4: Projeto de um Interruptor de Pressão

Problema
Nos estágios de protótipo de desenvolvimento de produtos, engenheiros descobrem que o projeto inicial de um interruptor de pressão
não está atingindo o set point de pressão alvo. Muitas variáveis de projeto podem ser utilizadas para centralizar o set point; entretanto,
os engenheiros decidem focar na espessura do diafragma, que é relativamente fácil de mudar. Eles executam um experimento para de-
terminar a relação entre a espessura do diafragma e o set point, para que eles possam especificar a espessura adequada para o projeto
final.
As especificações para o set point de pressão são 165+/-15 kilo Pascals (kPa).
Coleta de dados
Engenheiros construiram cinco interruptores com os componentes do protótipo de cada espessura em ordem aleatória. Eles variaram a
espessura do diafragma de 0,5 a 0,9 mm em incrementos de 0,1 mm.
Ferramentas
• Scatterplot
• Fitted Line Plot
Arquivo de dados
interruptor.MTW
Ordem de Montagem Ordem na qual as amostras de interruptores foram montadas
Ordem de Coleta Ordem na qual os dados de set point foram coletados
Espessura Preditor - espessura do diafragma (mm)
Set Point Resposta - pressão para abrir o interruptor (kPa)
O que é regressão polinomial
Assim como a regressão linear, a regressão polinomial examina a relação existente entre uma variável resposta continua (Y) e uma vari-
ável preditora (X). Entretanto, diferente da regressão simples, um modelo polinomial pode incluir termos para os expoentes de X:
Equação Tipo de Modelo

Y = β0 + β1X + ε Linear
Y = β0 + β1X + β2X2 + ε Polinomial quadrático
Y = β0 + β1X + β2X + β3X + ε
2 3
Polinomial cúbico
onde: Y é a variável resposta, X é a variável preditora, β0 o intercepto, β1 é o coeficiente para o termo linear, β2 é o coeficiente para o termo
quadrático, β3 é o coeficiente para o termo cúbico e ε é o erro aleatório.
Quando usar regressão polinomial

Use regressão polinomial se você tiver uma variável Y contínua e uma variável X preditora, e se evidências ou teorias sugerirem não-
lineariedade.
• X pode ser ordinal ou continuo;

• Teoricamente, X deve ser fixo. Na prática, contudo, é geralmente permitido que X varie;
• Quaisquer incertezas nas medidas de X podem ser consideradas sem importância se comparadas à amplitude em que X
é medido.
Antes de aceitar os resultados de uma análise de regressão, verifique se as seguintes suposições sobre os erros são válidas para os
dados:
• Eles são independentes (isto é, aleatórios);

• Eles são normalmente distribuídos;
• Eles possuem variância constante ao longo de todos os valores de X.
Por que usar regressão polinomial

A regressão polinomial responde perguntas tais como:
• Ao aumentar X, Y aumenta para alguns valores e diminui para outros?

• Qual valor você pode esperar para Y quando X é igual a 20?
Por exemplo,
• A adição de mais cobre faz com que a força de liga sempre fique mais forte ou ela decresce em maiores concentrações?
• Quão forte podemos esperar que seja a liga se a mesma é feita de 0,015 de cobre?
Plotando os dados
Para visualizar a relação entre espessura do diafragma e set point, use um diagrama de dispersão com a resposta (Set Point) no eixo-Y
e o preditor (Espessura) no eixo-X.
Scatterplot
1) Abra o arquivo INTERRUPTOR.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
5) Clique em OK.
O gráfico revela a existência de uma relação não linear entre a espessura e o set point. Observe que à medida que a espessura aumenta
nos níveis mais baixos, o set point não aumenta muito. Contudo, um aumento equivalente nos níveis altos de espessura tem um grande
efeito.
Ajustando um modelo linear
Use o Fitted Line Plot para avaliar o quão bem um modelo de regressão linear ajusta os dados.
Fitted Line Plot

4) Abaixo de Residual Plots, selecione Four in one.
Devido ao fato de existir uma curvatura na variável resposta Set Point, o modelo de regressão linear não ajustou bem os dados.
Alto R² - não indica necessariamente um bom ajuste

O R² ajustado para este modelo linear é alto (93,5%), embora o modelo não tenha ajustado bem os dados. Embora a interpretação de
grande parte da variação do set point ser explicada pela espessura do diafragma ser apropriada, não é correto dizer que o modelo
apresentou um bom ajuste baseando-se somente na análise do R².
Gráficos de resíduos
O gráfico de resíduos versus valores ajustados mostra um padrão curvilíneo. Isso sugere que a forma da equação de regressão está
incorreta.
Próximo passo
Ajuste um modelo quadrático aos dados para ver se há um ajuste melhor.
Ajustando um modelo quadrático
Use o Fitted Line Plot para ajustar um modelo de regressão quadrático e exibir os gráficos de resíduos.
Fitted Line Plot

1) Selecione Stat > Regression > Fitted Line Plot ou pressione Ctrl+E.
3) Clique em OK.
O modelo quadrático ajusta melhor os dados.
A equação de regressão quadrática que melhor descreve os dados é:
Set Point = 202,5 - 265,1 Espessura + 322,0 Espessura2
R2 (R-Sq) e R2 adjusted (R-Sq(adj))

O R² indica que o modelo quadrático explica 97,5% da variabilidade do Set Point. Esse valor é um pouco maior que o R² (93,5%) do
modelo linear.
O R² nunca diminui e geralmente aumenta à medida em que você adiciona mais preditores, mesmo se os preditores não melhorarem o
modelo. Use o R² ajustado (R² adj) - ajustado para o número de termos no modelo - ao comparar modelos com diferentes números de
preditores.
O R² ajustado do modelo quadrático (97,2%) é superior ao R² ajustado do modelo linear (93,3%), indicando que o termo quadrático adi-
cionado explica parte da variabilidade da resposta.
O p-valor para o modelo de regressão (0,000) é significativo, indicando a existência de relacionamento significativo entre a resposta (Set
Point) e o preditor (Espessura).
O p-valor para o termo quadrático (0,000) indica que este termo é significativo no modelo. Em outras palavras, o modelo quadrático ex-
plica uma quantidade significativa de variação na resposta que não é explicada pelo termo linear.
Polynomial Regression Analysis: Set Point versus Espessura

Set Point = 202,5 - 265,1 Espessura + 322,0 Espessura**2
S = 4,59672 R-Sq = 97,5% R-Sq(adj) = 97,2%
Source DF SS MS F P
Regression 2 17956,1 8978,05 424,90 0,000
Error 22 464,9 21,13
Total 24 18421,0
Sequential Analysis of Variance

Source DF SS F P
Linear 1 17230,5 332,90 0,000
Quadratic 1 725,6 34,34 0,000
Use os gráficos de resíduos para verificar suposições sobre a distribuição do erro.

o tempo.
Próximo passo
Os engenheiros registraram a ordem de montagem para cada interruptor. Verifique se quaisquer variáveis associadas com a ordem de
montagem tem efeito nos resultados.
Verificando efeito da ordem de montagem
Para verificar se a ordem de montagem tem efeito nos resultados, plote os resíduos versus a ordem de montagem.
Ordem de Montagem e Ordem de Coleta

Os pesquisadores tiveram o cuidado de impedir que quaisquer variáveis desconhecidas relacionadas com o tempo pudessem afetar os
dados.
Os engenheiros montaram os interruptores usando uma seleção aleatória de diafragma e peças dos componentes. Essa aleatorização
protege os resultados da influência do tempo durante a fabricação das peças. Eles monitoram a ordem na coluna Ordem de Montagem
da worksheet.
Os engenheiros também testaram os set points dos interruptores em ordem aleatória. Essa aleatorização evita que os resultados sejam
influenciados por efeitos desconhecidos do tempo que o sistema de medição poderia introduzir.
Fitted Line Plot

4) Clique em OK.
Como os resíduos parecem ser aleatórios em relação à ordem de montagem, os dados não parecem ter qualquer efeito pela ordem de
montagem.
Próximo passo
Construa um novo Fitted Line Plot incluindo os intervalos de confiança e predição.
Adicionando intervalos de confiança e predição
Construa intervalos de confiança e predição para uma melhor interpretação do modelo.
Fitted Line Plot

4) Clique em OK.
5) Clique em Graphs e delete ‘Ordem de Montagem’ de Residuals versus the variables;
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.
Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.
Nota: O Set Point médio deve estar no alvo de 165 kPa. Níveis de espessura do diafragma cujos intervalos de confiança contêm o valor 165
são boas escolhas para se atingir o alvo. Entretanto, use o modelo de regressão para obter a melhor escolha com base nos dados.
Um modelo quadrático aproxima melhor a relação entre a espessura do diafragma e o set point do interruptor.
Usando o modelo de regressão quadrático, a melhor escolha para a espessura do diafragma é aproximadamente 0,64 mm. Obtenha esse
resultado substituindo 165 para Set Point (Y) no modelo de regressão e resolvendo a equação para Espessura (X) usando a equação
quadrática.
Erro puro
Quando os mesmos valores dos preditores são observados em várias respostas, como nesse estudo (cada espessura é usada 5 vezes),
é possível obter uma estimativa do erro puro. O erro puro é a variabilidade na resposta em um valor X fixo. O Minitab usa o erro puro para
calcular a estatística lack-of-fit disponível no item no menu Regression..
Exercício J: Escudos de Erosão
Problema
Um produtor de energia deseja predizer o quão bem escudos protetores de erosão para turbinas de máquinas a vapor resistem à perda
pela abrasão. A medição direta da resistência à abrasão é difícil, cara e destrutiva. Portanto, o produtor deseja ser capaz de predizer a
resistência à abrasão usando a dureza do aço, que é mais conveniente e mais barata de ser medida.
Coleta de dados
Engenheiros medem a perda por abrasão e a dureza em 24 escudos de erosão selecionados aleatoriamente.
Instruções
1) Use o Fitted Line Plot para ajustar um modelo de regressão linear simples com Abrasão como resposta e Dureza como predi-
tora. Inclua intervalos de confiança e predição nos resultados.
2) Use gráficos de resíduos para validar as suposições necessárias.
Arquivo de dados
erosão.MTW
Dureza Preditor - dureza da turbina
Abrasão Resposta - perda por abrasão
Exercício K: Escapamento de Diesel
Problema
Pesquisadores querem investigar o efeito da taxa de umidade nas emissões de óxido de nitrogênio pelo escapamento de caminhões a
diesel.
Coleta de dados
Pesquisadores registram a umidade como uma razão, que é a quantidade de umidade por quantidade fixa de ar seco. A variável resposta,
óxido de nitrogênio emitido pelo escapamento, foi registrada como NOx.
Os dados foram extraídos de C.T. Hare (1977). “Light Duty Diesel Emission Correction Factors for Ambient Conditions,” Final Report to the
Environmental Protection Agency under Contract No. 68-02-1777. Southwest Research Institute, San Antonio, TX.
Instruções
1) Plote os dados para visualizar a relação entre as variáveis.
2) Use o Fitted Line Plot para ajustar um modelo de regressão apropriado.
3) Verifique as suposições necessárias com os gráficos de resíduos.
Arquivo de dados
diesel.MTW
NOx Resposta - emissão de óxido de nitrogênio
Umidade Preditor - taxa de umidade
Regressão Múltipla
(Opcional)
Objetivos
• Realizar análise de regressão com mais de um preditor;

• Lidar com multicolinearidade em uma análise de regressão.
Regressão Múltipla 3
Conteúdo

Eliminação de Preditores
Exemplo 1: Avaliar a relação linear entre uma resposta e múltiplas variáveis 5
Redução do Barulho dos Motores de entrada usando regressão. Verificar as suposições do mode-
lo usando gráficos de resíduos.
Regressão via Best Subsets
Exemplo 2: Selecionar um conjunto de variáveis a serem incluídas em um 17
Índice de Mortalidade em Grandes Cida- modelo de regressão múltipla usando Best Subsets.
des dos EUA
Exercício L: Avaliar a relação entre uma resposta e múltiplas variáveis de 26
Duração do Sono entrada usando regressão.
4 Regressão Múltipla
Eliminação de Preditores
Exemplo 1: Redução do Barulho dos Motores

Problema
Engenheiros da qualidade querem identificar as principais causas do barulho em motores. As seguintes variáveis estão sendo conside-
radas:
• Ponto de centelha da vela

• Razão ar-combustível
• Temperatura de entrada
• Temperatura de exaustão
Coleta de dados
Foram coletados dados de 13 motores selecionados aleatoriamente, todos funcionando com gasolina em um índice de octana de 87.
Ferramentas
• Matrix Plot
• Correlation
• Regression
Arquivo de dados
MOTORES.MTW
Centelha Preditora - Ponto de centelha da vela
RAC Preditora - Razão ar-combustível
Temp_Entrada Preditora - Temperatura de entrada (°C)
Temp_Exaustão Preditora - Temperatura de exaustão (°C)
Barulho Resposta - Barulho medido no motor
Regressão Múltipla
O que é regressão múltipla
A regressão múltipla examina a relação entre uma variável resposta contínua (Y) e mais de uma variável preditora (X). A equação geral
para um modelo de regressão múltipla é:
Y = β0 + β1X1 + β2X2 +β3X3 + . . . + ε
onde Y é a resposta, β0 é o intercepto, cada Xi é uma variável preditora com inclinação βi, e ε é o erro aleatório.
Quando usar regressão múltipla

Use regressão múltipla quando você tiver uma variável contínua Y e uma preditora, X. Além disso:
• A variável X pode ser ordinal ou contínua;

• Teoricamente, X deveria ser fixado em configurações experimentais pré-determinadas. Na prática, frequentemente, X varia.
• Qualquer incerteza na medição de X é negligenciável se comparada à amplitude dos valores medidos de X.
Antes de aceitar os resultados de uma análise de regressão, verifique se os resíduos do modelo:
• São independentes (e portanto, aleatórios)

• São normalmente distribuídos
• Possuem variância constante para todos os valores de X.
Por que usar regressão múltipla
A regressão múltipla responde perguntas tais como:

• Quão importantes são as variáveis X na predição de Y?
• Qual valor pode ser esperado para Y quando X1 é 20 e X2 é 3?
• Em quanto a média de Y irá mudar se X3 aumentar em uma unidade?
Por exemplo,
• Como a temperatura e a porosidade do processo estão relacionados com a dureza média do aço?
• Qual será a dureza do aço que foi processado em uma temperatura particular por uma certa quantidade de tempo?
• Quanto em média o aço endurecerá se a temperatura aumentar em 100ºC?
Criando um Matrix Plot
Use uma matriz de correlação para determinar se existe uma relação entre a variável resposta e as variáveis preditoras.
Variáveis gráficas
É mais fácil visualizar a relação entre a resposta e os preditores se você entrar com a variável resposta por último na caixa Graph va-
riables.
Matrix Plot
1) Abra o arquivo MOTORES.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots - Simple, então clique em OK.
5) Clique em Matrix Options.

6) Abaixo de Matrix Display, selecione Lower left.
O resultado inclui diagramas de dispersão para todas as combinações de variáveis. Observe a última linha para avaliar a relação exis-
tente entre a variável resposta Barulho e as demais variáveis preditoras.
Barulho e Centelha parecem ter uma correlação negativa, e Barulho parece ter uma correlação positiva com todas as variáveis preditoras
restantes.
Próximo passo
Use Correlation para avaliar a intensidade das relações lineares.
Calculando correlações múltiplas
Crie uma matriz de correlação para avaliar as associações existentes entre a variável resposta e as demais variáveis preditoras.
Correlation
3) Clique em OK.
Como sugerido na matriz, existe uma correlação negativa entre as variáveis Barulho e Centelha (R = - 0,699). Correlações positivas
existem entre a variável resposta Barulho e todas as preditoras restantes:
• RAC (R = 0,961)
• Temp_Entrada (R = 0,673)
• Temp_Exaustão (R = 0,682)
Correlations: Centelha; RAC; Temp_Entrada; Temp_Exaustão; Barulho
Centelha RAC Temp_Entrada Temp_Exaustão
RAC -0,580
0,038
Temp_Entrada -0,500 0,521
0,082 0,068
Temp_Exaustão -0,723 0,587 0,291
0,005 0,035 0,335
Barulho -0,699 0,961 0,673 0,682
0,008 0,000 0,012 0,010
Cell Contents: Pearson correlation
P-Value
Próximo passo
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.
Ajustando um modelo de regressão múltipla
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.
Regression
1) Selecione Stat > Regression > Regression.
3) Clique em Options. Em Display marque Variance inflation factors.

A equação que descreve a relação entre a variável resposta e as demais variáveis preditoras é:
Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão
Tabela de Coeficientes
Tenha cuidado ao interpretar os coeficientes da regressão múltipla. O p-valor de cada preditor indica a significância daquela variável
somente naquele modelo específico.
Por exemplo, se uma das variáveis preditoras não for significativa num determinado modelo, removendo uma segunda variável preditora
do modelo aquela pode passar a ser significativa. Este fato ocorre se existir correlação entre variáveis preditoras , ou seja, ambas expli-
carem a mesma parte da variabilidade da variável resposta.
Neste modelo, Centelha não é uma variável preditora significativa (p-valor = 0,363). Contudo, se você remover a variável Temp_Exaus-
tão, Centelha torna-se significativa. Este fato se deve à alta correlação entre Centelha e Temp_Exaustão (R = - 0,723). Essa multicoline-
aridade (correlação entre variáveis preditoras) pode ser analisada pela estatística VIF fornecida na saída da Session.
Regression Analysis: Barulho versus Centelha; RAC; ...
Predictor Coef SE Coef T P VIF
Constant 23,815 8,137 2,93 0,019
Centelha -0,2965 0,3072 -0,97 0,363 2,620
RAC 3,1918 0,2398 13,31 0,000 1,939
Temp_Entrada 0,35870 0,07848 4,57 0,002 1,585
Temp_Exaustão 0,013376 0,005421 2,47 0,039 2,440
VIF
É o chamado Fator de Inflação da Variância, que indica se a multicolinearidade (correlação entre variáveis preditoras) está presente
em um modelo de regressão. A multicolinearidade é um problema, pois pode aumentar a variabilidade dos coeficientes de regressão,
tornando-os instáveis e difíceis de interpretar.
Use as diretrizes seguintes para interpretar o VIF:
VIF = 1 - Preditoras não correlacionadas
1< VIF < 5 - Moderadamente correlacionadas
VIF > 5 a 10 - Altamente correlacionadas
Se VIF for maior que 10, a multicolinearidade pode estar influenciando indevidamente seus resultados de regressão. Neste caso, pode
ser necessário reduzir a multicolinearidade removendo preditoras do modelo.
No modelo ajustado, os valores de VIF para as variáveis Centelha e Temp_Exaustão são um pouco altos. Portanto, há evidências de
multicolinearidade entre essas duas variáveis, o que indica que as duas não podem permanecer no mesmo modelo.
Cuidado com a multicolinearidade

Quando as variáveis preditoras estão altamente correlacionadas, o coeficiente de regressão pode ser instável (ou seja, ele pode variar
drasticamente de acordo com a amostra coletada para a contrução do modelo).
Portanto, ao detectar a existência desse problema, devemos ajustar novamente um modelo de regressão, excluindo uma das variáveis
envolvidas na multicolinearidade. Neste caso, optaremos por rodar o modelo novamente excluindo a variável Centelha (essa decisão
deve ser baseada no conhecimento do processo - por exemplo, qual variável é mais importante para a utilização prática do modelo?).
Regression Analysis: Barulho versus Centelha; RAC; ...

Constant 23,815 8,137 2,93 0,019
Centelha -0,2965 0,3072 -0,97 0,363 2,620
RAC 3,1918 0,2398 13,31 0,000 1,939
Temp_Entrada 0,35870 0,07848 4,57 0,002 1,585
Temp_Exaustão 0,013376 0,005421 2,47 0,039 2,440
Próximo passo
Use Regression para analisar o modelo de regressão múltipla excluindo a variável Centelha.
Ajustando outro modelo de regressão múltipla
Use Regression para rodar novamente o modelo, excluindo a variável Centelha.
Regression
1) Selecione Stat > Regression > Regression (ou Ctrl+E).
3) Clique em OK.
R2 (R-Sq) e R2 ajustado (R-Sq(adj))
O modelo explica 98,6% da variabilidade total da variável resposta.
O R² nunca irá decrescer quando você adicionar variáveis preditoras a um modelo, mesmo se estas novas variáveis não servirem de fato
para melhorar o modelo. O R² ajustado (R-Sq(adj) = 98,2%) corrige este problema, pois é ajustado para o número de termos presentes no
modelo, devendo também ser usado quando desejamos comparar modelos para uma mesma variável resposta com diferentes números
de variáveis preditoras.
As hipóteses testadas em um modelo de regressão linear múltipla são:
H0: Todos os βi (exceto β0) são iguais a zero.
H1: Ao menos um βi (não incluindo β0) é diferente de zero.
No exemplo, rejeite a hipótese nula (p-valor = 0,000 < 0,05 = α) de que todos os βi (exceto β0) são iguais a zero. Logo conclua que o
modelo é significativo e que pelo menos uma variável preditora incluída no modelo é importante em explicar a variabilidade da variável
resposta.
Além disso, a tabela de coeficientes mostra os p-valores de todas as variáveis = 0,000, indicando que todas são significativas para o
modelo de regressão.
Regression Analysis: Barulho versus RAC; Temp_Entrada; Temp_Exaustão

Barulho = 16,5 + 3,21 RAC + 0,386 Temp_Entrada + 0,0166 Temp_Exaustão

Constant 16,488 2,918 5,65 0,000
RAC 3,2148 0,2377 13,52 0,000 1,919
Temp_Entrada 0,38637 0,07278 5,31 0,000 1,374
Temp_Exaustão 0,016576 0,004273 3,88 0,004 1,527
S = 0,508616 R-Sq = 98,6% R-Sq(adj) = 98,2%
Source DF SS MS F P
Regression 3 170,003 56,668 219,06 0,000
Residual Error 9 2,328 0,259
Total 12 172,331
Source DF Seq SS
RAC 1 159,048
Temp_Entrada 1 7,062
Temp_Exaustão 1 3,892
A equação de regressão para o modelo usando as variáveis RAC, Temp_Entrada e Temp_Exaustão para predizer a variável resposta Ba-
rulho é:
Barulho = 16,5 + 3,21 RAC + 0,386 Temp_Entrada + 0,0166 Temp_Exaustão
Este modelo é suficiente em explicar 98,6% de variabilidade total da variável Barulho.
Você não pode utilizar a análise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que
os valores dos preditores tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores
tiverem variado aleatoriamente durante a coleta de dados, outros fatores podem influenciar tanto os preditores quanto a resposta.
Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinados pela amos-
tra.
As mensurações devem ser efetuadas com o máximo de precisão possível, pois a falta de precisão agrega insegurança na estimativa
dos coeficientes associados a cada variável explicativa presente no modelo.
Não se esqueça de supervisionar os fatores potencialmente importantes ao conduzir um estudo de regressão.
Cuidado com a multicolinearidade (variáveis preditoras correlacionadas entre si). Quando variáveis preditoras são altamente correla-
cionadas:
• A estimação dos coeficientes de regressão pode ser instável, pois eles podem variar bruscamente de uma amostra para outra.
• Pode ser difícil avaliar a importância de termos individuais no modelo.
Cuidado ao remover mais de uma variável preditora ao mesmo tempo. Uma boa forma de escolher preditores para um modelo de
regressão múltipla é tentar todas as combinações em potencial usando um método de seleção automática de preditores, como Best
Subsets ou Stepwise.
Exemplo 2: Índice de Mortalidade em Grandes Cidades dos EUA

Problema
Determine quais das variáveis preditoras listadas na tabela são relacionadas ao índice de mortalidade por idade (número de mortes por
ano a cada 100.000 pessoas) nas 60 maiores cidades dos Estados Unidos.
Coleta de dados
Os dados foram adaptados do site:
http://lib.stat.cmu.edu/datasets/pollution.
Ferramentas
• Best Subsets
• Regression
Arquivo de dados
MORTALIDADE.MTW
Chuva Preditora: média anual de precipitação
ºC Janeiro Preditora: média da temperatura em Janeiro
ºC Julho Preditora: média da temperatura em Julho
Acima 65 Preditora: porcentagem da população com 65 anos ou mais
Tam Casa Preditora: média do tamanho do lar
Escolaridade Preditora: média de anos escolares para pessoas acima de 22 anos.
Infra-estrutura Preditora: porcentagem de casas que têm todo tipo de infra-estrutura
DensidPop Preditora: densidade populacional
Salário Baixo Preditora: porcentagem de famílias com baixos salários
Emprego Preditora: porcentagem de empregados em cargos de alto nível
Carbono Preditora: nível relativo de poluição de carbono
Ox-Nitrico Preditora: nível relativo de poluição de oxido nítrico
Diox-Sulf Preditora: nível relativo de poluição de dióxido sulfúrico
Umidade Preditora: média relativa anual de umidade
Índice Mortalidade Resposta: índice de mortalidade por 100.000
O que é Best Subsets
A ferramenta Best Subsets avalia todas as combinações possíveis de preditores para ajudar a determinar qual combinação fornece o
melhor modelo de regressão. O Minitab usa o critério de maior R2 para escolher o melhor modelo. Outro critério pode fornecer um modelo
diferente.
Mas lembre-se: não é apenas a análise do R2 que nos indica qual é o melhor modelo. Outros pontos devem ser considerados, tais como:
a verificação das suposições associadas ao modelo através da Análise de Resíduos, a análise do R2adj, etc. Sendo assim, após a obten-
ção de um “modelo ótimo” via Best Subsets, ainda é necessário proceder com a análise do modelo de Regressão como um todo.
Quando usar Best Subsets

Use o Best Subsets quando você tiver muitas variáveis preditoras em potencial, e portanto muitos modelos de regressão válidos para
serem escolhidos.
Por que usar o Best Subsets

O Best Subsets responde perguntas tais como:
• Qual combinação de fatores será a mais eficiente em explicar a variabilidade total da variável resposta?
• Qual é o melhor modelo de regressão possível de ser adotado usando apenas 5 de 20 variáveis preditoras?
Por exemplo,
• Um modelo com 10 variáveis para predizer a cremosidade do sorvete é melhor que um que usa apenas a temperatura e veloci-
dade de mistura?
Escolhendo um modelo apropriado
Use o Best Subsets para escolher um modelo de regressão múltipla para o Índice de Mortalidade, e assim evitar os seguintes proble-
mas:
• A obtenção de modelos complexos e ineficientes com muitas variáveis preditoras;

• Coeficientes instáveis resultantes de correlações entre as variáveis preditoras;
• Inadequada habilidade resultante da presença de poucas variáveis preditoras.
Preditores livres
Entre com todas as variáveis preditoras em Free predictors. O Minitab tenta todas as combinações possíveis dessas variáveis e registra
as estatísticas para os melhores modelos. (Caso você deseje que alguma variável necessariamente faça parte de todos os modelos
testados, inclua em Predictors in all models.)
Best Subsets
1) Abra o arquivo MORTALIDADE;MTW;
2) Selecione Stat > Regression > Best Subsets.
5) Em Models of each size to print, digite 1.
Variáveis
A coluna Vars indica o número de preditores no modelo. Os X’s à direita da tabela indicam os preditores incluídos em cada modelo.
R2 (R-Sq) e R2 ajustado (R-Sq(adj))

Ao comparar modelos:
• Se o número de preditores é o mesmo, escolha o modelo com o maior R2.

• Se o número de preditores é diferente, escolha o modelo com o maior R2 ajustado.
Mallow’s C-p
Prefira modelos em que o C-p é baixo e próximo do número de parâmetros no modelo. Por exemplo, para um modelo com 3 variáveis
preditoras e o intercepto, dê preferência a um modelo com um C-p mais próximo de 4. A formula para o C-p é dada por:
C-p = (SSEp/MSEm) - (n - 2p)
onde SSEp é a soma de quadrados do erro para o modelo com p parâmetros (incluído o intercepto), MSEm é o quadrado médio do erro
para o modelo com todos os m preditores, e n é o número de observações.
Variabilidade
S é uma estimativa da variabilidade média sobre a linha de regressão. Matematicamente, S é a raiz quadrada positiva de MSE. Deseja-se
que S seja o menor possível.
Conclusão
Com base neste critério, o modelo com as variáveis preditoras: Chuva,ºC Janeiro, Escolaridade, Salário Baixo e Diox-sulf é o melhor. O
modelo que contém seis variáveis preditoras apresenta uma estimativa para o S levemente menor além de R² ajustado maior. Mas pelo
princípio da parcimônia, é sábio escolhermos o modelo mais simples a um outro mais complicado, ou seja, adotamos sempre o modelo
mais claro e simples.
Best Subsets Regression: Índice Mortalida versus Chuva; ºC Janeiro; ...

Response is Índice Mortalidade
I
n
f S
E r a
s a l
º c - a O
C o e D r x D
º A T l s e i - i
J C c a a t n o E C N o U
a i m r r s m a i x m
C n J m i u i B p r t - i
h e u a C d t d a r b r S d
u i l a a u P i e o i u a
Mallows v r h 6 s d r o x g n c l d
Vars R-Sq R-Sq(adj) Cp S a o o 5 a e a p o o o o f e
1 41,4 40,4 56,1 48,011 X
2 56,3 54,7 29,7 41,852 X X
3 63,9 62,0 17,1 38,357 X X X
4 69,7 67,5 8,0 35,459 X X X X
5 71,7 69,1 6,2 34,597 X X X X X
6 73,5 70,5 4,7 33,797 X X X X X X
7 74,4 71,0 4,9 33,508 X X X X X X X
8 74,9 70,9 6,1 33,543 X X X X X X X X
9 75,8 71,4 6,4 33,274 X X X X X X X X X
10 76,3 71,4 7,5 33,265 X X X X X X X X X X
11 76,4 71,0 9,2 33,517 X X X X X X X X X X X
12 76,5 70,5 11,0 33,806 X X X X X X X X X X X X
13 76,5 69,8 13,0 34,166 X X X X X X X X X X X X X
14 76,5 69,2 15,0 34,539 X X X X X X X X X X X X X X
Próximo passo
Calcule a equação de regressão e verifique as suposições do modelo.
Avaliando o modelo final
Use a ferramenta Regression para avaliar o modelo final proposto pelo Best Subsets. Calcule a equação de regressão e proceda com a
Análise de Resíduos a fim de verificar todas as suposições sobre os erros.
Regression
2) Em Response, digite Índice Mortalidade.
3) Em Predictors, digite Chuva ‘ºC Janeiro’ Escolaridade ‘Salário Baixo’ ‘Diox-Sulf’.
A equação de regressão é:
Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf
Tabela de coeficientes
Os baixos p-valores (< 0,1) na tabela de coeficientes indicam que todos os termos incluídos no modelo devem ser mantidos no mesmo,
pois são importantes em explicar a variabilidade total da variável resposta Índice de Mortalidade.
Como P (0,000) é menor que α (0,05), rejeite a hipótese nula de que todos os βi , i =1,2,3 são iguais a zero. O modelo de regressão
que inclui Chuva, ºC Janeiro, Escolaridade, Salário Baixo e Diox-Sulf é significativamente melhor que o modelo restrito que não inclui
preditores.
Regression Analysis: Índice Mortalidade versus Chuva; ºC Janeiro; ...

Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade
+ 4,07 Salario Baixo + 0,284 Diox-Sulf
Predictor Coef SE Coef T P

Constant 964,49 86,28 11,18 0,000
Chuva 1,4883 0,5900 2,52 0,015
ºC Janeiro -2,9213 0,9367 -3,12 0,003
Escolaridade -12,764 6,568 -1,94 0,057
Salario Baixo 4,0661 0,6552 6,21 0,000
Diox-Sulf 0,28390 0,07915 3,59 0,001
S = 34,5967 R-Sq = 71,7% R-Sq(adj) = 69,1%
Source DF SS MS F P
Regression 5 163675 32735 27,35 0,000
Residual Error 54 64634 1197
Total 59 228310
Source DF Seq SS
Chuva 1 59267
ºC Janeiro 1 1365
Escolaridade 1 19240
Salario Baixo 1 68402
Diox-Sulf 1 15400
Os gráficos de resíduos verificam que todas as suposições sobre os erros foram verificadas. Os resíduos:
• Não se desviam substancialmente da normalidade

• Estão aleatoriamente distribuídos em torno de zero
• Possuem variância constante ao longo de todos os valores ajustados
• Não exibem qualquer padrão ao longo do tempo
O melhor modelo para predizer o índice de mortalidade é:
Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf
Antes de utilizar o Best Subsets para avaliar os diferentes modelos de regressão, certifique-se de que seus preditores e a resposta são
válidos, para que todos os modelos em potencial sejam modelos de regressão válidos na prática.
O Minitab também oferece o método de seleção de variáveis Stepwise, além do Best subsets.
Quando se utiliza Best subsets é possível obter informação de ajuste sobre todos os diferentes modelos possíveis, assim você pode
selecionar um modelo se baseando nas quatro estatísticas distintas dadas pela análise. A regressão Stepwise produz um único modelo
baseado em uma única estatística. Por causa dos diferentes critérios de seleção usados em cada caso, é possível que a regressão Best
Subsets e a regressão Stepwise apontem modelos diferentes. Em geral, escolhe-se o método de seleção da seguinte forma:
• Para grupos de dados com um número pequeno de variáveis preditoras, é preferível utilizar Best Subsets, pois se consegue
informação sobre mais modelos.
• Para grupos de dados com muitas variáveis preditoras (>32), é preferível usar Stepwise.
Você também pode escolher o método baseando-se no que é mais importante, p-valor dos preditores (Stepwise) ou R-sq(adj) (Best
Subsets).
Exercício L: Duração do Sono
Problema
Determine quais preditores listados na tabela abaixo estão relacionadas com a duração do sono nas 51 espécies sob investigação. O
índice de predação varia de 1 a 5, onde 1 indica o menor nível de predação e 5 indica predação máxima. O índice de exposição durante
o sono também varia de 1 a 5, onde 1 indica que o animal dorme totalmente protegido enquanto 5 indica que o animal sofre completa
exposição enquanto dorme.
Coleta de dados
Os dados foram tirados do Web site: http://lib.stat.cmu.edu/datasets/sleep
Instruções
1) Use Stat > Regression > Regression (ou Stat > Regression > Best Subsets) para determinar quais termos são significativos
considerando um nível de significância de 5% (α = 0,05). Inclua todos os termos com p-valores menores que 0,05.
2) Verifique as suposições sobre os resíduos do modelo.
Arquivo de dados
DURAÇÃO_SONO.MTW
Espécie Fator - indica a espécie do animal
Peso Preditor - peso do animal (Kg)
Expectativa Preditor - expectativa de vida (anos)
Gestação Preditor - período de gestação (dias)
Predação Preditor - índice para a probabilidade de sofrer predação
Exposição Preditor - índice para o nível de exposição durante o sono
Sono Resposta - horas por dia de sono de cada animal
Conteúdo
Exercícios Página
Inferência Estatística e Teste t
Exercício A: 3
Exercício B: 7
Investigando a Qualidade do Fornecedor
Exercício C: 10
Altura do Ânodo
Exercício D: 16
Comparando Instrumentos de Medição
Testes de Proporção
Exercício E: 19
Taxas de Consertos em Televisões
Exercício F: 20
Taxas de Sobrevivência em Passageiros do Titanic
Análise de Variância
Exercício G: 23
Moldes de Tampas de Canetas
Exercício H: 28
Degustação de Vinho
Exercício I: 31
Desgaste de Tinta
Correlação e Regressão
Exercício J: 35
Escudos de Erosão
Exercício K: 37
Escapamento de Diesel
Regressão Múltipla (Opcional)
Exercício L: 40
Duração do Sono
2 Soluções dos Exercícios

Exercício A:
Teste t para 1 amostra
Calcule o tamanho amostral necessário para detectar uma diferença de 0,1 mm com um poder de 0,85 ao nível α 0,05.

2) Em Differences, digite 0,1. Em Power value, digite 0,85. Em Standard deviation, digite 0,04.
3) Clique em OK.
1-Sample t Test

Sample Target
0,1 4 0,85 0,898606
Se a média do processo se deslocar de 0,1 mm, o teste t para 1 amostra irá detectar esta mudança 89,86% das vezes, com um tamanho
amostral de 4.
Soluções dos Exercícios 3

Calcule a diferença que pode ser detectada com um poder de 0,90 quando são usados tamanhos de amostra de 5 e 10.
1) Selecione Stat > Power and Sample Size > 1-Sample t ou pressione Ctrl + E.
2) Pressione F3 para limpar a caixa de diálogo. Em Sample sizes, digite 5 10. Em Power values, digite 0,90. Em Standard de-
viation, digite 0,04.
3) Clique em OK.
1-Sample t Test

Sample
Size Power Difference
5 0,9 0,0786356
10 0,9 0,0461826
Com um tamanho amostral de 5, o teste t para 1 amostra irá detectar uma mudança de 0,079 na média do processo em 90% das ve-
zes.
Com um tamanho amostral de 10, o teste t para 1 amostra irá detectar uma mudança de 0,046 na média do processo em 90% das ve-
zes.

Teste a normalidade da amostra.
1) Abra o arquivo ROLAMENTOS.MTW.

3) Em Variable, entre com Diâmetro.
4) Clique em OK.
O gráfico de probabilidade dos dez diâmetros dos rolamentos indica que você pode assumir a normalidade. Os pontos plotados caem ao
longo da linha reta e o p-valor (0,760) é maior que 0,05.

Determine se o processo está no alvo

2) Em Samples in columns, entre com Diâmetro.
3) Marque Perform hypotesis test.
4) Em Hypotesized mean, digite 5.
6) Marque Boxplot of data.
One-Sample T: Bearings

Diâmetro 10 5,0718 0,0414 0,0131 (5,0421; 5,1014) 5,48 0,000
O boxplot indica que a média do processo não está no valor alvo (o intervalo de 95% de confiança não contem Ho). O teste t para 1
amostra confirma que a média dos diâmetros dos rolamentos é significativamente maior que 5 mm, pois o p-valor é menor que 0,05.

Exercício B: Investigando a Qualidade do Fornecedor
Usando um tamanho amostral de 10, determine o poder para detectar diferenças de 0,008, 0,010 e 0,012.

2) Em Sample Sizes, digite 10. Em Differences, digite 0,008 0,010 0,012. Em Standard deviation, digite 0,01.
4) Em Alternative Hypothesis, escolha Greater than.
1-Sample t Test
Testing mean = null (versus > null)

Sample
0,008 10 0,754425
0,010 10 0,897517
0,012 10 0,967475
A probabilidade de você detectar deslocamentos de tamanho 0,008, 0,010 e 0,012 com um tamanho amostral de 10 é 0,754, 0,897 e
0,976, respectivamente.

Verifique a normalidade dos dados.
1) Abra o arquivo QUEIJOS.MTW.

3) Em Variable, entre com TempCong.
4) Clique em OK.
Os dados caem ao longo da linha reta no gráfico de probabilidade normal. Você pode assumir uma distribuição normal porque o p-valor
é 0,352.

Determine se é provável que as amostras venham de uma população com média maior que -0,545.

2) Em Samples in columns, entre com TempCong.
3) Marque Perform hypotesis test.
4) Em Hypotesized mean, digite -0,545.
6) Em Alternative, escolha greater than.
One-Sample T: TempCong
Test of mu = -0,545 vs > -0,545
95% Lower
Variable N Mean StDev SE Mean Bound T P
TempCong 10 -0,53937 0,00780 0,00247 -0,54389 2,28 0,024
Como o p-valor de 0,024 é menor que α = 0,05, você pode concluir que a média da temperatura de congelamento é maior que -0,545
graus Celsius.
Sim, a análise mudaria se todas as amostras viessem de um único lote de leite. Você não teria uma amostra aleatória de tamanho 10 da
população de leite do fornecedor. Portanto, suas conclusões seriam válidas apenas para a população daquele lote de leite específico.
Você não poderia tirar conclusões sobre toda a população de leite.

Exercício C: Altura do Ânodo
Poder e tamanho de amostra
Calcule o tamanho amostral necessário para detectar um acréscimo na altura do ânodo de pelo menos 0,4 mm com um poder de pelo
menos 0,85 ao nível de significância de 0,05.

2) Em Differences, digite 0,4. Em Power values, digite 0,85. Em Standard deviation, digite 0,55.
4) Em Alternative Hypothesis, escolha greater than.
2-Sample t Test
Testing mean 1 = mean 2 (versus >)

Sample Target
0,4 28 0,85 0,851295
Os resultados indicam que 28 observações em ambos os momentos (antes e após a mudança) são necessárias para detectar um acrés-
cimo de 0,4 mm na altura do ânodo com 85% de poder.

Teste a normalidade de ambas as amostras.

1) Abra o arquivo ÂNODO.MTW.
2) Selecione Graph > Probability Plot > Multiple.
3) Em Graph variables, entre com Altura do Ânodo.
4) Em Categorical variables for grouping, entre com Mudança no processo.
5) Clique em OK.
O teste de Anderson-Darling para os dados “Final” (p-valor=0,490) indica que não há evidências para rejeitar a hipótese nula de norma-
lidade para esses dados. O teste de Anderson-Darling para os dados “Início” (p-valor=0,442) também indica que não há evidências para
rejeitar a hipótese nula de normalidade para esses dados.

Teste de igualdade de variâncias
Compare as variâncias das amostras para determinar se os cálculos dos teste t para 2 amostras podem assumir que as duas popula-
ções têm a mesma variabilidade.
1) Selecione Stat > Basic Statistics > 2 Variances.
2) Marque Samples in one column.
3) Em Samples, entre com Altura do Ânodo. Em Subscripts, entre com Mudança no processo.
4) Clique em OK.
O teste F compara a variância das duas amostras para determinar se há evidências suficientes para se rejeitar a hipótese nula de que
as duas populações têm variâncias iguais. O alto p-valor (0,202) indica que não há evidências suficientes para rejeitar a hipótese nula de
igualdade de variâncias ao nível de significância de 0,05. O cálculo da estatística de teste para o teste t para 2 amostras pode assumir
igual variabilidade nas duas populações.

Teste t para 2 amostras
Os engenheiros mediram trinta amostras da altura dos ânodos antes e após a mudança. Determine se a altura média do ânodo é a mes-
ma antes e após a mudança no processo. As hipóteses a serem testadas são as seguintes:
H0: µFinal = µInício
HA: µFinal > µInício

2) Marque Samples in one column.
3) Em Samples, entre com Altura do Ânodo. Em Subscripts, entre com Mudança no processo.
4) Marque Assume equal variances.
5) Clique em Options. Em Alternative, escolha greater than.
6) Clique em OK.
7) Clique em Graphs. Marque Boxplots of data.
Two-Sample T-Test and CI: Altura do Ânodo; Mudança no processo

Two-sample T for Altura do Ânodo
Mudança no
processo N Mean StDev SE Mean
Final 30 6,280 0,564 0,10
Início 30 6,045 0,444 0,081
Difference = mu (Final) - mu (Início)

95% lower bound for difference: 0,016
T-Test of difference = 0 (vs >): T-Value = 1,80 P-Value = 0,039 DF = 58
Both use Pooled StDev = 0,5077

O boxplot comparativo indica que a altura média do ânodo pode ter aumentado. Os resultados do teste t confirmam que o aumento de
0,235 mm na altura do ânodo é estatisticamente significativa (p-valor=0,039). Entretanto, essa melhoria não é significativa com base no
aumento de 0,4 mm necessário para melhorar fisicamente os capacitores.

Poder e tamanho de amostra
A análise de poder e tamanho de amostra anterior determinou que um tamanho amostral de 28 era necessário para detectar um aumento
de 0,4 mm na altura do ânodo com 85% de poder e um teste unilateral. Agora, calcule o tamanho amostral para a hipótese alternativa
bilateral, que nesse caso seria:
HA: µFinal µInício

2) Em Differences, digite 0,4. Em Power Values, digite 0,85. Em Standard deviation, digite 0,55.
3) Clique em Options. Em Alternative Hypothesis, escolha Not equal.
2-Sample t Test
Testing mean 1 = mean 2 (versus not =)

Sample Target
0,4 35 0,85 0,850645
A análise de poder e tamanho de amostra indica que é necessário avaliar 35 capacitores antes da mudança, e 35 após para detectar uma
mudança de 0,4 mm na altura do ânodo em 85% das vezes. Em outras palavras, mais sete observações por grupo são necessárias se
a análise não utilizar a hipótese alternativa unilateral. Isso ilustra o poder atingido quando a hipótese alternativa unilateral é apropriada-
mente utilizada em sua análise, como nesse exemplo.

Exercício D: Comparando Instrumentos de Medição
Teste t pareado
Determine se as medições fornecidas pelos compassos são diferentes.
1) Abra o arquivo COMPASSOS.MTW.

2) Selecione Stat > Basic Statistics > Paired t.
3) Em First sample, entre com EasyGage. Em Second sample, entre com ToolIt.
5) Marque Individual value plot.
Paired T-Test and CI: EasyGage; ToolIt
Paired T for EasyGage - ToolIt

EasyGage 12 0,266275 0,001336 0,000386
ToolIt 12 0,265517 0,001876 0,000542
Difference 12 0,000758 0,001735 0,000501
95% CI for mean difference: (-0,000344; 0,001861)

T-Test of mean difference = 0 (vs not = 0): T-Value = 1,51 P-Value = 0,158
As diferentes ferramentas não fornecem medições significativamente diferentes. O intervalo de confiança inclui 0, e o p-valor é maior
que 0,05.

Calcule o poder do teste para detectar uma diferença média de 0,005 cm.

2) Em Sample sizes, digite 12. Em Differences, digite 0,005. Em Standard deviation, digite 0,001735.
3) Clique em OK.
1-Sample t Test

Sample
0,005 12 1,00000
O poder do teste para detectar uma diferença de 0,005 é 1,00. (O valor real é maior que 0,99995; o Minitab arredonda o valor até
1,00000.),

Calcule o poder do teste para detectar uma diferença média de 0,001 cm.

2) Em Differences, digite 0,001.
3) Clique em OK.
1-Sample t Test

Sample
0,001 12 0,445247
O poder do teste para detectar uma diferença de 0,001 é 0,445.

Exercício E: Taxas de Consertos em Televisões
1 Proporção
Determine se a taxa de defeituosos na empresa é diferente de 0,068.
1) Selecione Stat > Basic Statistics > 1 Proportion.

2) Escolha Summarized data.
3) Em Number of events, digite 236. Em Number of trials, digite 2856.
4) Marque Perform hypothesis test.
5) Em Hypothesized proportion, digite 0,068.
7) Em Alternative, escolha not equal.
Test and CI for One Proportion
Test of p = 0,068 vs p not = 0,068
Exact
Sample X N Sample p 95% CI P-Value
1 236 2856 0,082633 (0,072792; 0,093339) 0,003
Você pode concluir que a taxa de defeituosos é diferente de 0,068 porque:.
• O intervalo de confiança não inclui a taxa de defeituosos hipotética de 0,068. Você pode ter 95% de confiança de que a taxa de
defeituosos está entre 0,073 e 0,093.
• O p-valor (0,003) é menor que 0,05.
Os dados para esse teste de 1 proporção vêm de uma pesquisa. A amostra pode não representar exatamente a população porque muitos
consumidores não responderam a pesquisa. Geralmente, clientes insatisfeitos são mais prováveis de responderem as pesquisas e, como
resultado, viciarem os resultados da taxa de defeituosos, aumentando-a.

Exercício F: Taxas de Sobrevivência em Passageiros do Titanic
2 Proporções
Compare as taxas de sobrevivência para a primeira classe e a classe econômica.
1) Abra o arquivo TITANIC.MTW.

3) Escolha Samples in one column.
4) Em Samples, entre com Status. Em Subscripts, entre com Classe.
5) Clique em OK.
Test and CI for Two Proportions: Status; Classe
Event = Sobreviveu
Classe X N Sample p
Econômica 508 1876 0,270789
Primeira 203 325 0,624615
Difference = p (Econômica) - p (Primeira)

Estimate for difference: -0,353826
95% CI for difference: (-0,410180; -0,297473)
Test for difference = 0 (vs not = 0): Z = -12,31 P-Value = 0,000
Dos passageiros de primeira classe, 62,5% sobreviveram, enquanto apenas 27,1% dos passageiros da classe econômica sobreviveram.
Como o p-valor é menor que 0,05, a diferença é estatisticamente significativa.a.

2 Proporções
Compare as taxas de sobrevivência para homens e mulheres.

3) Em Samples, entre com Status. Em Subscripts, entre com Sexo.
4) Clique em OK.
Test and CI for Two Proportions: Status; Sexo
Event = Sobreviveu
Sexo X N Sample p
Feminino 344 470 0,731915
Masculino 367 1731 0,212016
Difference = p (Feminino) - p (Masculino)

Test for difference = 0 (vs not = 0): Z = 22,93 P-Value = 0,000
Das mulheres, 73,2% sobreviveram, enquanto apenas 21,2% dos homens sobreviveram. Como o p-valor é menor que 0,05, a diferença
é estatisticamente significativa.

2 Proporções
Compare as taxas de sobrevivência para adultos e crianças.
1) Selecione Calc > Calculator.

2) Em Store result in variable, digite Faixa etária. Em Expression, digite ‘Idade’ >=18.
3) Clique em OK.
6) Em Samples, entre com Status. Em Subscripts, entre com Faixa etária.
7) Clique em OK.
Test and CI for Two Proportions: Status; Faixa etária
Event = Sobreviveu
Faixa
etária X N Sample p
0 57 109 0,522936
1 654 2092 0,312620
Difference = p (0) - p (1)

Test for difference = 0 (vs not = 0): Z = 4,30 P-Value = 0,000
Das crianças, 52,3% sobreviveram, enquanto apenas 31,3% dos adultos sobreviveram. Essa diferença é estatisticamente significativa.

Exercício G: Moldes de Tampas de Canetas
Estatísticas Descritivas
Construa boxplots para as 16 cavidades.
1) Abra o arquivo CAVIDADES.MTW.

2) Selecione Stat > Basic Statistics > Display Descriptive Statistics.
3) Em Variables, entre com Espessura. Em By variables, entre com Cavidade.
4) Clique em Graphs e marque Boxplot of data.
O boxplot sugere que:
• Não existem outliers extremos (todos os dados caem em uma amplitude de 0,30 mm)
• As distribuições dentro de cada cavidade são aproximadamente simétricas (a mediana está próxima do centro da caixa).
Você não pode determinar por esse gráfico se as diferenças entre as cavidades são estatisticamente significativas.

Teste de Igualdade de Variâncias
Compare as variâncias nas 16 cavidades.
1) Selecione Stat > ANOVA > Test for Equal Variances.

2) Em Response, entre com Espessura; Em Factors, entre com Cavidade.
3) Clique em OK.
Com base nos p-valores altos para o Teste de Bartlett (assumindo normalidade) e o Teste de Levene (assumindo apenas simetria),
você não tem evidências suficientes para declarar uma diferença na variabilidade entre as 16 cavidades.

Compare as médias nas 16 cavidades e verifique as suposições do modelo.

2) Em Responses, entre com Espessura; Em Model, entre com Cavidade.
3) Clique em Graphs. Em Residual Plots, escolha Four in one.
General Linear Model: Espessura versus Cavidade

Cavidade fixed 16 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16
Analysis of Variance for Espessura, using Adjusted SS for Tests

Cavidade 15 0,141988 0,141988 0,009466 8,35 0,000
Error 304 0,344623 0,344623 0,001134
Total 319 0,486612
S = 0,0336694 R-Sq = 29,18% R-Sq(adj) = 25,68%
Pelo menos duas cavidades têm médias significativamente diferentes (P=0,000).
Os resíduos são aproximadamente normalmente distribuídos, com variância constante e nenhuma tendência ao longo do tempo.

Interval Plot
Determine se a média de alguma cavidade difere do alvo.
1) Selecione Stat > ANOVA > Interval Plot.

2) Em One Y, selecione With Groups e clique em OK.
3) Em Graph variables, entre com Espessura. Em Categorical variables for grouping, entre com Cavidade.
4) Clique em Scale e selecione a aba Reference lines.
5) Em Show reference lines at Y values, digite 10.
6) Clique em OK.
As cavidades 1, 3, 5, 7, 8, 9, 12, 15 e 16 são significativamente diferentes do valor alvo, pois os intervalos não contêm esse valor (10
mm). Entretanto, usar intervalos de Bonferroni para controlar o erro Tipo I é mais apropriado, pois com tantas cavidades, ao menos
uma das identificadas como diferentes provavelmente está no alvo.

Interval Plot
Mude para intervalos de confiança Bonferroni.
1) Dê dois cliques sobre a linha de algum intervalo de confiança, e clique em Options.

2) Em Confidence interval, marque Bonferroni.
3) Clique em OK.
As cavidades 3, 5, 7, 8, 9, 15 e 16 são significativamente diferentes do alvo. Você pode ter 95% de confiança de que essas cavidades
estão trabalhando fora do alvo.

Exercício H: Degustação de Vinhos
Analise a Nota em função do Juiz e do Vinho.
1) Abra o arquivo VINHO.MTW.

3) Em Responses, entre com Nota. Em Model, entre com Juiz Vinho Juiz*Vinho;
4) Clique em OK.
General Linear Model: Score versus Juiz; Vinho

Juiz fixed 10 Antonio; Ballardo; Carmen; Daniel; Esmeralda; Fernanda;
Gerardo; Hernan; Irma; Josefina
Vinho fixed 3 Conquistador; Matador; Saeta
Analysis of Variance for Nota, using Adjusted SS for Tests

Juiz 9 24,683 24,683 2,743 1,09 0,399
Vinho 2 39,433 39,433 19,717 7,83 0,002
Juiz*Vinho 18 58,567 58,567 3,254 1,29 0,260
Error 30 75,500 75,500 2,517
Total 59 198,183
S = 1,58640 R-Sq = 61,90% R-Sq(adj) = 25,08%
Há uma forte evidência de que há diferenças entre as pontuações médias (P = 0,002). Os enólogos não são significativamente diferentes
um do outro, e a interação Juiz*Vinho não é significativa. A não-significância do efeito do Juiz é boa, pois você quer que os enólogos
concordem entre si. Ajuste o modelo novamente retirando os termos não-significativos.

Construa os gráficos de resíduos. Inclua comparações pareadas e um gráfico de efeitos principais para Vinho.
1) Selecione Stat > ANOVA > General Linear Models ou pressione Ctrl + E.
2) Em Model, mantenha apenas Vinho.
3) Clique em Graphs. Em Residual plots, escolha Four in one e clique em OK.
4) Clique em Comparisons. Em Terms, entre com Vinho e clique em OK.
5) Clique em Factor Plots. Sob Main Effects Plot, entre com Vinho em Factors.

Response Variable Nota
All Pairwise Comparisons among Levels of Vinho
Vinho = Conquistador subtracted from:
Vinho of Means Difference T-Value P-Value
Matador -0,650 0,5277 -1,232 0,4397
Saeta -1,950 0,5277 -3,695 0,0014
Vinho = Matador subtracted from:
Vinho of Means Difference T-Value P-Value
Saeta -1,300 0,5277 -2,463 0,0437
Com base nos p-valores para as comparações em pareadas, o vinho Saeta é significativamente diferente de Conquistador (p-valor =
0,0014) e Matador (p-valor = 0,0437).

O gráfico de probabilidade normal indica um leve desvio da normalidade, pois a resposta não é uma medida contínua. Como não exis-
tem outliers extremos e os pontos de dados caem ao longo de uma linha reta, você pode assumir que a falta de normalidade não afeta
fortemente os resultados.
O gráfico de fatores mostra que o vinho Saeta recebeu a menor pontuação média e Conquistador a maior.

Exercício I: Desgaste de Tinta
Determine se o desgaste médio da tinta em todos os quatro tipos de tinta é igual.
1) Abra o arquivo DESGASTE.MTW.

3) Em Responses, entre com Desgaste. Em Model, entre com Tinta.
4) Clique em OK.
General Linear Model: Desgaste versus Tinta

Tinta fixed 4 Y-0242; Y-0314; Y-1424; Y-1723
Analysis of Variance for Desgaste, using Adjusted SS for Tests

Tinta 3 30,688 30,688 10,229 2,44 0,115
Error 12 50,250 50,250 4,188
Total 15 80,938
S = 2,04634 R-Sq = 37,92% R-Sq(adj) = 22,39%
Unusual Observations for Desgaste
Obs Desgaste Fit SE Fit Residual St Resid

14 8,0000 12,2500 1,0232 -4,2500 -2,40 R
Quando Tinta é o único fator no modelo, o resultado não mostra diferença significativa entre os quatro tipos de tinta (P > 0,05).

Determine se o desgaste médio da tinta é diferente nas localidades e tipos de tinta.

2) Em Responses, entre com Desgaste. Em Model, entre com Localidade Tinta.
3) Clique em OK.
General Linear Model: Desgaste versus Localidade; Tinta

Localidade fixed 4 Contagem; Sabará; Santa Luzia; Vespasiano
Tinta fixed 4 Y-0242; Y-0314; Y-1424; Y-1723
Analysis of Variance for Desgaste, using Adjusted SS for Tests

Localidade 3 38,688 38,687 12,896 10,04 0,003
Tinta 3 30,688 30,688 10,229 7,96 0,007
Error 9 11,562 11,562 1,285
Total 15 80,938
S = 1,13346 R-Sq = 85,71% R-Sq(adj) = 76,19%
Unusual Observations for Desgaste
Obs Desgaste Fit SE Fit Residual St Resid

14 8,0000 9,9375 0,7497 -1,9375 -2,28 R
Quando você adiciona Localidade ao modelo, o resultado mostra uma diferença estatística entre os quatro tipos de tinta (P = 0,007) e as
quatro localidades (P = 0,003).

Verifique as suposições do modelo.

3) Em Residual Plots, escolha Four in one.
Os gráficos de resíduos não indicam quaisquer observações não-usuais.
Quando Localidade é deixada fora do modelo, o termo de erro inclui o efeito da localidade. Esse efeito infla a quantidade de erro e torna
as diferenças entre os tipos de tinta menos estatisticamente significativas.
O termo de erro para testar as diferenças entre os tipos de tinta:
• = SS Localidade + SS Erro, se o modelo não incluir Localidade

• = SS Erro, se o modelo incluir Localidade.

Determine quais tipos de tinta são significativamente diferentes entre si.

2) Clique em Comparisons.
3) Em Terms, entre com Tinta.
4) Desmarque Confidence interval, with confidence level.

Response Variable Desgaste
All Pairwise Comparisons among Levels of Tinta
Tinta = Y-0242 subtracted from:
Tinta of Means Difference T-Value P-Value
Y-0314 -2,000 0,8015 -2,495 0,1274
Y-1424 -3,250 0,8015 -4,055 0,0125
Y-1723 -3,500 0,8015 -4,367 0,0080
Y-1424 -1,250 0,8015 -1,560 0,4452
Y-1723 -1,500 0,8015 -1,872 0,3041
Y-1723 -0,2500 0,8015 -0,3119 0,9888
A tabela mostra que o desgaste da tinta é significativamente diferente ao nível de significância de 0,05 entre os seguintes tipos de tinta:
• Y-0242 e Y-1424 (P = 0,0125)

• Y-0242 e Y-1723 (P = 0,0080)

Exercício J: Escudos de Erosão
Fitted Line Plot
Ajuste um modelo de regressão linear simples com Abrasão como a resposta e Dureza como o preditor.
1) Abra o arquivo EROSÃO.MTW.

3) Em Response (Y), entre com Abrasão. Em Predictor (X), entre com Dureza.
5) Marque Display confidence interval e Display predicition interval.
Regression Analysis: Abrasão versus Dureza

Abrasão = 2671 - 3,129 Dureza
S = 42,8514 R-Sq = 73,6% R-Sq(adj) = 72,5%
Source DF SS MS F P
Regression 1 112902 112902 61,49 0,000
Error 22 40397 1836
Total 23 153300
A equação de regressão indica que, à medida que a Dureza aumenta, a Abrasão diminui:
Abrasão = 2671 - 3,129 Dureza
O R2 indica que mudanças na Dureza explicam 73,6% da variação na Abrasão. Para a maioria dos estudos, um R2 alto para apenas um
preditor é muito bom. Variáveis adicionais podem ajudar a explicar um pouco dos 26,4% restantes da variação, mas alguma variação será
sempre atribuída ao erro (Residual Error).

Fitted Line Plot
Verifique as suposições sobre o modelo de regressão.

3) Escolha Four in one.
o tempo.

Exercício K: Escapamento de Diesel
Scatterplot
Plote os dados para visualizar a relação entre as variáveis.
1) Abra o arquivo DIESEL.MTW.

2) Selecione Graph > Scatterplot. Escolha Simple, e clique em OK.
3) Em Y variables, entre com NOx. Em X variables, entre com Umidade.
4) Clique em OK.
O gráfico de NOx versus Umidade sugere uma relação quadrática entre as duas variáveis. Portanto, você pode querer ajustar um modelo
de regressão quadrático.

Fitted Line Plot
Ajuste um modelo de regressão apropriado.

2) Em Response (Y), entre com NOx. Em Predictor (X), entre com Umidade.
3) Em Type of Regression Model, escolha Quadratic.
5) Marque Display confidence interval e Display prediction interval.
Regression Analysis: NOx versus Umidade

NOx = 1,360 - 0,01149 Umidade + 0,000058 Umidade**2
S = 0,0480050 R-Sq = 63,6% R-Sq(adj) = 59,3%
Source DF SS MS F P
Regression 2 0,068399 0,0341994 14,84 0,000
Error 17 0,039176 0,0023045
Total 19 0,107575
Sequential Analysis of Variance
Source DF SS F P
Linear 1 0,0174885 3,49 0,078
Quadratic 1 0,0509103 22,09 0,000

O R2 indica que o modelo explica 63,6% da variação nas emissões de óxido de nitrogênio. O baixo p-valor (0,000) para o termo quadrá-
tico indica que ele é necessário para o modelo. Se você ajustasse um modelo cúbico, descobriria que o termo cúbico não é significativo
ao nível de significância de 0,05 (P=0,474). Portanto, se você desejar um maior R2, precisaria identificar variáveis adicionais relacionadas
com as emissões de NOx.
No gráfico de regressão, o menor nível de emissões de NOx ocorre quando Umidade é cerca de 100.
Nota: Usando cálculo, você pode encontrar a primeira derivada do modelo quadrático, igualá-la a zero, e resolver para a Umidade. O resultado
(98,46) é o valor de Umidade que minimiza o NOx.

Exercício L: Duração do Sono
Regression
Determine quais termos são preditores significativos para a duração do sono.
1) Abra o arquivo DURAÇÃO_SONO.MTW.

3) Em Response, entre com Sono. Em Predictors, entre com c2-c6.
4) Clique em OK.
5) Repita, removendo um preditor de cada vez, até que todos os preditores restantes sejam significativos.
Regression Analysis: Sono versus Gestação; Predação

Sono = 16,4 - 0,0189 Gestação - 1,19 Predação
Predictor Coef SE Coef T P

Constant 16,426 1,045 15,71 0,000
Gestação -0,018909 0,003259 -5,80 0,000
Predação -1,1927 0,3120 -3,82 0,000
S = 3,25063 R-Sq = 53,7% R-Sq(adj) = 51,7%
Interpretanto os resultados
Após você remover os termos não-significativos do modelo um-a-um, a equação final tem dois preditores: Gestação e Predação. Você
pode interpretar esses coeficientes com base em seus sinais:
• Gestação: Quanto maior o período de gestação, menor a duração do sono da espécie.

• Predação: Quanto maior o nível de predação, menor a duração do sono.

Regression
Verifique as suposições do modelo.

2) Em Response, entre com Sono. Em Predictors, entre com Gestação Predação (isso já deve estar feito).
4) Em Residual Plots, escolha Four in one.
Os gráficos de resíduos não apontam a violação de qualquer suposição referente aos erros.
Você utilizou o procedimento de eliminação backwards. Obtenha os resultados utilizando outro procedimento, usando Stat > Regression
> Stepwise. Esse método também identifica Gestação e Predação como os preditores significativos.
Para o estudo de duração do sono, há duas observações atípicas (outliers) nos gráficos de resíduos. Utilizando o cursor para identificar
os pontos, você pode verificar que os dados dos elefantes africanos e asiáticos são observações com grande influência. Devido aos
outliers nos valores dos preditores (peso e gestação) para essas espécies, suas respostas podem ter uma grande influência nos coefi-
cientes de regressão e p-valores. Se você remover essas duas espécies e reanalisar os dados, as conclusões não irão mudar; portanto
essas observações não exercem uma influência comprometedora.

Apostila Minitab

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Minitab

Enviado por

Direitos autorais:

Formatos disponíveis

Inferência Estatística e Teste t

• Avaliar a diferença entre uma média (populacional) e um valor

Copyright © - GLOBAL TECH

Inferência Estatística e Teste t 3

Exemplos e Exercícios Objetivos Página

4 Inferência Estatística e Teste t

Exemplo 1: Enchendo Caixas de Cereal

Inferência Estatística e Teste t 5

Quando usar um teste de hipóteses

Por que usar um teste de hipóteses

• O processo está corretamente centrado?

• A largura média do jornal possui as desejadas 8,5 polegadas de largura?

6 Inferência Estatística e Teste t

Quando usar um teste t para uma amostra

Porque usar um teste t para uma amostra

• Um processo está dentro do valor nominal?

Inferência Estatística e Teste t 7

1) Abra o projeto CEREAL.MPJ.

8 Inferência Estatística e Teste t

Teste de normalidade de Anderson-Darling

• H0: Os dados provêm de uma população normalmente distribuída

Inferência Estatística e Teste t 9

• A hipótese nula (H0): µ é igual a 365 gramas.

10 Inferência Estatística e Teste t

A lógica do teste de hipóteses

1. Pressupomos que Ho é verdadeira;

One-Sample T: Peso da caixa

Test of mu = 365 vs not = 365

Variable N Mean StDev SE Mean 95% CI T P

Inferência Estatística e Teste t 11

Tomando uma decisão

• Se o p-valor é menor ou igual a α, rejeitamos Ho.

One-Sample T: Peso da caixa

Test of mu = 365 vs not = 365

Variable N Mean StDev SE Mean 95% CI T P

12 Inferência Estatística e Teste t

Quando usar um intervalo de confiança

Por que usar um intervalo de confiança

• O valor de µ é o valor nominal?

• O valor testado pertence ao IC: não rejeita-se Ho.

Inferência Estatística e Teste t 13

4) Clique em OK em cada caixa de diálogo.

14 Inferência Estatística e Teste t

Inferência Estatística e Teste t 15

16 Inferência Estatística e Teste t

Um teste de hipóteses sempre começa com duas hipóteses opostas:

A hipótese nula (Ho):

• Declara que a hipótese nula está incorreta;

Escolha o nível de significância antes de executar um teste:

Inferência Estatística e Teste t 17

Quando utilizamos um teste t para uma amostra:

• A amostra deve ser aleatória;

18 Inferência Estatística e Teste t

Exemplo 2: Avaliando o Poder

Inferência Estatística e Teste t 19

Quando usar análise de poder

Por que usar análise de poder

• Qual tamanho de amostra devo coletar para a análise?

20 Inferência Estatística e Teste t

• Sample sizes (Tamanhos da amostra) - número de observações na amostra.

Neste exemplo, considere:

• Os dados são provenientes de uma população normalmente distribuída;

Inferência Estatística e Teste t 21

Power and Sample Size for 1-Sample t