Você está na página 1de 254

Inferência Estatística e Teste t

Objetivos

• Avaliar a diferença entre uma média (populacional) e um valor


alvo usando um teste t para 1 amostra e intervalos de con-
fiança;
• Avaliar o poder de um teste de hipóteses usando análise de
poder;
• Testar a diferença entre duas médias populacionais usando um
teste t para 2 amostras;
• Testar a diferença entre observações pareadas usando um teste
t pareado.

Copyright © - GLOBAL TECH

O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br

Inferência Estatística e Teste t 3


Conteúdo

Exemplos e Exercícios Objetivos Página


Testes de Hipóteses e Intervalos de Con-
fiança
Exemplo 1: Avaliar a diferença entre uma média e um valor alvo usando um 5
Enchendo Caixas de Cereal teste t para 1 amostra.
Poder e Tamanho de Amostra
Exemplo 2: Avaliar o poder de um teste t. 19
Avaliando o Poder
Teste t para 1 Amostra
Exemplo 3: Demonstrar o efeito do tamanho de amostra no poder. 29
Aumentando o Poder
Exercício A: Determinar tamanhos de amostras e diferenças detectáveis em 36
Detectando Mudanças em Diâmetros de testes t. Avaliar a diferença entre uma média e um alvo.
Rolamentos
Exercício B: Determinar o poder de um teste t para um dado tamanho de 37
Investigando a Qualidade do Fornecedor amostra. Avaliar a diferença entre uma média e um alvo.
Poder e Tamanho de Amostra para Teste t
para 2 Amostras
Exemplo 4: Determinar o tamanho de amostra necessário em um teste t 38
Tamanho de Amostra para Comparação de para 2 amostras independentes.
Fornecedores
Exemplo 5: Avaliar a diferença entre médias usando um teste t para 2 44
Resistência de Plásticos amostras independentes.
Exercício C: Determinar o tamanho de amostra necessário em um teste t 55
Altura do Ânodo para 2 amostras independentes. Usar o teste para avaliar as
diferenças entre médias.
Teste t Pareado
Exemplo 6: Avaliar a diferença entre observações pareadas usando um tes- 56
Estacionando Carros te t pareado.
Exercício D: Avaliar a diferença entre observações pareadas usando um tes- 64
Comparando Instrumentos de Medição te t pareado. Determinar o poder de um teste t pareado.

4 Inferência Estatística e Teste t


Testes de Hipóteses e Intervalos de Confiança

Exemplo 1: Enchendo Caixas de Cereal


Problema
Um fabricante de cereais deseja determinar se o processo de enchimento das caixas encontra-se no alvo. O alvo para o peso das caixas
de cereais é 365 gramas.

Coleta de dados
Os engenheiros selecionaram 6 caixas de cereais aleatoriamente, pesaram, e usaram os dados amostrais para estimar a média popu-
lacional (a média do processo).

Ferramentas
• 1-Sample t
• Normality Test

Arquivo de dados
CEREAl.MPJ

Variável Descrição
Peso da caixa Peso da caixa de cereais (em gramas)

Inferência Estatística e Teste t 5


Teste de hipóteses
O que é um teste de hipóteses
Um teste de hipóteses utiliza dados amostrais para testar uma hipótese sobre a população da qual a amostra foi obtida. O teste t para
uma amostra é um dos muitos procedimentos disponíveis para teste de hipóteses no Minitab.

Por exemplo, suponha que desejamos testar se o comprimento médio de chapas de aço é igual ao comprimento desejado. O procedi-
mento envolve medir um determinado número de chapas e usar o comprimento médio dessas chapas amostradas para estimar o com-
primento médio da população de chapas. Isso é um exemplo de inferência estatística: o uso de informações sobre uma amostra para
fazer inferências sobre uma população.

Quando usar um teste de hipóteses


Use um teste de hipóteses para fazer inferências sobre uma ou mais populações quando os dados amostrais estiverem disponíveis.

Por que usar um teste de hipóteses


Testes de hipóteses podem ajudar a responder a perguntas tais como:

• O processo está corretamente centrado?


• O produto de um fornecedor é melhor do que o produto de outro?
• Existem diferenças entre grupos de tratamento no experimento?
Por exemplo:

• A largura média do jornal possui as desejadas 8,5 polegadas de largura?


• A queima do combustível de um fornecedor polui menos que a queima do combustível de outro fornecedor?
• Os clientes preferem uma fórmula de refrigerante em relação à outra?

6 Inferência Estatística e Teste t


Teste t para uma amostra
O que é um teste t para uma amostra
Use um teste t para uma amostra para a determinar se µ (a média da população) é igual a um valor hipotético (a média de teste, também
chamada de valor alvo).

O teste usa o desvio-padrão amostral para estimar s (o desvio padrão populacional). Se a diferença entre a média amostral e a média
hipotética é grande em relação à variabilidade dentro da amostra, então é improvável que µ seja igual à média de teste.

Quando usar um teste t para uma amostra


Usamos um teste t para uma amostra quando temos dados contínuos, vindos de uma única amostra aleatória.

O teste pressupõe que a população seja normalmente distribuída. Entretanto, ele é bastante robusto a pequenas violações desta supo-
sição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos
(veja Box, Hunter & Hunter [1978]. Statistics for Experimenters, John Wiley and Sons, Inc.)

Porque usar um teste t para uma amostra


Um teste t para uma amostra pode nos ajudar a responder a perguntas tais como:

• Um processo está dentro do valor nominal?


• O produto de um fornecedor atende às especificações?
Por exemplo:

• A largura média das lâminas de barbear está acima ou abaixo do valor alvo?
• A resistência média dos parafusos do fornecedor é inferior ao mínimo requerido?

Inferência Estatística e Teste t 7


Teste de Normalidade
O teste estatístico apropriado para os dados dos pesos das caixas de cereais é o teste t para uma amostra. Este teste pressupõe que a
população é normalmente distribuída.

Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.

1) Abra o projeto CEREAL.MPJ.


2) Selecione Stat > Basic Statistics > Normality Test.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

8 Inferência Estatística e Teste t


Interpretando os resultados
Use o gráfico de probabilidade normal para verificar se os dados não estão se desviando, de forma significativa, de uma distribuição
normal.

• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.

Teste de normalidade de Anderson-Darling


As hipóteses do teste de normalidade de Anderson-Darling são:

• H0: Os dados provêm de uma população normalmente distribuída


• H1: Os dados não provêm de uma população normalmente distribuída
O p-valor do teste de Anderson-Darling (0,599) avalia a probabilidade dos dados serem provenientes de uma população normalmente
distribuída. Usando um nível de significância 0,05, não há evidência suficiente para sugerir que os dados não vêm de uma população
normal.

Conclusão
Com base no gráfico e no teste, é razoável supor que os dados não se desviam de forma substancial de uma distribuição normal.

Próximo passo
Realize um teste t.

Inferência Estatística e Teste t 9


Testando a Hipótese Nula
Os fabricantes desejam determinar se o peso médio para o processo de embabalgem difere significativamente do peso alvo de 365
gramas. Em termos estatísticos, a média do processo é chamada de média populacional, ou µ (mi).

Hipóteses estatísticas
Existem duas possibilidades: ou µ é igual a 365 ou não é. Essas alternativas podem ser declaradas como duas hipóteses:

• A hipótese nula (H0): µ é igual a 365 gramas.


• A hipótese alternativa (H1): µ não é igual a 365 gramas.
Uma vez que não é viável medir cada pessoa adulta na população, nunca poderemos saber com certeza qual hipótese é correta.
Contudo, um teste de hipóteses apropriado pode nos ajudar a dar um palpite com um certo grau de certeza. Para esses dados, o teste
apropriado é o teste t para uma amostra.

1-Sample t
1) Selecione Stat > Basic Statistics > 1-Sample t.
2) Preencha a caixa de dialogo como mostra a figura abaixo.

3) Clique em OK.

10 Inferência Estatística e Teste t


Interpretando os resultados

A lógica do teste de hipóteses


Todos os testes de hipóteses seguem as mesmas etapas:

1. Pressupomos que Ho é verdadeira;


2. Determinamos quão diferente a amostra é do que esperaríamos, dado que Ho é verdadeira;
3. Se a amostra for suficientemente improvável, dado que Ho é verdadeira, rejeitamos Ho.
Por exemplo, os resultados indicam que a média da amostra é 366,705 gramas. Assim, o teste responderá a questão: “Se µ é igual a
365, qual a probabilidade de se obter uma amostra com uma média de 366,705 (ou até menor) ?” A resposta é dada como um Valor-P,
que para este teste é igual a 0,143.

One-Sample T: Peso da caixa

Test of mu = 365 vs not = 365

Variable N Mean StDev SE Mean 95% CI T P


Peso da caixa 6 366,705 2,403 0,981 (364,183; 369,226) 1,74 0,143

Inferência Estatística e Teste t 11


Interpretando os resultados

Tomando uma decisão


Para tomar uma decisão, precisamos escolher o nível de significância α (alfa), antes de executar o teste:

• Se o p-valor é menor ou igual a α, rejeitamos Ho.


• Se o p-valor é maior do que α, não rejeitamos Ho. (Tecnicamente, nunca aceitamos H0; simplesmente falhamos em rejeitá-la).
Um valor típico para α é 0,05, mas é possível escolher valores maiores ou menores dependendo da sensibilidade requerida para o teste
e das conseqüências de rejeitar incorretamente a hipótese nula. Assumindo que escolhemos um nível α de 0,05 para os dados de peso
da caixa de cereais, não haveria evidências suficientes para rejeitar Ho. Valor-P = 0,143 é maior do que α.

One-Sample T: Peso da caixa

Test of mu = 365 vs not = 365

Variable N Mean StDev SE Mean 95% CI T P


Peso da caixa 6 366,705 2,403 0,981 (364,183; 369,226) 1,74 0,143

12 Inferência Estatística e Teste t


Intervalos de confiança
O que é um intervalo de confiança
Um intervalo de confiança é uma faixa de valores prováveis para um parâmetro de população (tal como µ) que se baseia em dados de
uma amostra. Por exemplo, num intervalo de 95% de confiança para µ, tem-se 95% de confiança de que o intervalo contém µ.

Quando usar um intervalo de confiança


Use um intervalo de confiança para fazer inferências sobre uma ou mais populações a partir dos dados de amostra ou para quantificar
a precisão da estimativa de µ.

Por que usar um intervalo de confiança


Intervalos de confiança podem ajudar a responder as mesmas questões que um teste de hipóteses:

• O valor de µ é o valor nominal?


• Quão elevado pode ser o erro da estimativa de µ?
• Quão maior ou menor µ pode ser?

Pode-se utilizar intervalos de confiança para se obter conclusões sobre um teste de hipóteses:

• O valor testado pertence ao IC: não rejeita-se Ho.


• O valor testado não pertence ao IC: rejeita-se Ho.

Inferência Estatística e Teste t 13


Usando o intervalo de confiança
Utilizamos um teste de hipóteses para determinar se a média do peso da caixa de cereais era diferente de 365 gramas. Pode-se usar
também um intervalo de confiança para avaliar essa diferença.

Os resultados da janela Session para 1-Sample t incluem valores para as extremidades do intervalo de 95% de confiança. Podemos obter
uma representação gráfica do intervalo selecionando Individual value plot na subcaixa de diálogo Graphs.

1-Sample t - Graphs
1) Selecione Stat > Basic Statistics > 1-Sample t, ou pressione Ctrl+E.
2) Clique em Graphs.
3) Complete a caixa de dialogo como mostra a figura abaixo:

4) Clique em OK em cada caixa de diálogo.

14 Inferência Estatística e Teste t


Interpretando os resultados

Intervalo de confiança
O intervalo de confiança é uma faixa de valores prováveis para µ. Ele é mostrado graficamente como uma linha azul abaixo do Individual
Value Plot.

Um intervalo de confiança é de 95% por que, se selecionarmos 100 amostras da mesma população, os intervalos para cerca de 95% das
amostras incluiriam µ. Assim, para qualquer amostra, podemos ter uma confiança de 95% de que o intervalo de confiança engloba µ .

OBSERVAÇÃO: Um intervalo de confiança não representa 95% dos dados; este é um erro conceitual comum.

Inferência Estatística e Teste t 15


Interpretando os resultados

Teste de hipóteses
O marco central representa a média da amostra e o ponto vermelho, denominado de Ho, representa a média do teste (365). Pode-se usar
o intervalo de confiança para testar a hipótese nula:

• Se Ho estiver fora do intervalo, o Valor-P para o teste de hipóteses será menor que 0,05. Pode-se rejeitar a hipótese nula ao nível
a de 0,05.
• Se Ho estiver dentro do intervalo, o Valor-P será maior que 0,05. Não se deve rejeitar a hipótese nula ao nível a de 0,05.
Uma vez que H0 cai dentro do intervalo de confiança, não se deve rejeitar a hipótese nula. Não há evidências suficientes para concluir
que µ não é 365 gramas, ao nível de significância de 0,05.

16 Inferência Estatística e Teste t


Considerações Finais
Resumo e conclusões
Com base nos dados da amostra, não se pode rejeitar a hipótese nula ao nível de 0,05. Não há evidências suficientes para sugerir que
o peso médio da caixa de cereais difere de 365 gramas.

Assim como o teste t, o intervalo de 95% de confiança não fornece evidência suficiente para rejeitar a hipótese nula de que a média dos
pesos das caixas é diferente de 365 gramas.

Considerações adicionais
Hipóteses:

Um teste de hipóteses sempre começa com duas hipóteses opostas:

A hipótese nula (Ho):

• Geralmente declara que alguma propriedade de uma população (como a média, por exemplo) não é diferente de um valor espe-
cificado, ou de outra população;
• É considerada verdadeira até que sejam coletadas evidências suficientes do contrário;
• Nunca é aceita, simplesmente fala-se em não rejeitá-la.
A hipótese alternativa (H1):

• Declara que a hipótese nula está incorreta;


• Também pode especificar a direção da diferença.

Nível de significância

Escolha o nível de significância antes de executar um teste:

• O aumento de a amplia as chances de detectar uma diferença (e assim, o poder); mas também aumenta as chances de rejeitar
H0 quando, de fato, ela é verdadeira (erro tipo I);
• A redução de a reduz as chances de cometer um erro tipo I, mas também reduz as chances de detectar uma diferença (reduz o
poder de teste).

Inferência Estatística e Teste t 17


Considerações Finais
Considerações adicionais
Suposições

Cada teste de hipóteses baseia-se em uma ou mais suposições sobre os dados que estão sendo analisados. Se estas suposições não
forem satisfeitas, as conclusões podem não ser corretas.

Quando utilizamos um teste t para uma amostra:

• A amostra deve ser aleatória;


• Os dados da amostra devem ser contínuos;
• Os dados da amostra devem ser normalmente distribuídos.
O teste t é bastante robusto a pequenas violações da suposição de normalidade, desde que as observações tenham sido coletadas
aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos.

Intervalos de confiança

O intervalo de confiança é uma faixa de valores prováveis para µ (ou outro parâmetro populacional).

Pode-se executar um teste de hipóteses bilateral (a hipótese alternativa é µ) usando um intervalo de confiança. Por exemplo, se o valor
de teste não está contido no intervalo de 95% de confiança, deve-se rejeitar H0 para um nível de significância de 0,05. Da mesma forma,
se um intervalo de 90% de confiança for construído e ele não contém a média de teste, deve-se rejeitar H0 para um nível de significância
de 0,10.

18 Inferência Estatística e Teste t


Poder e Tamanho de Amostra

Exemplo 2: Avaliando o Poder


Problema
Os engenheiros estão preocupados com os resultados da análise de pesos de enchimento, devido ao seu pequeno tamanho amostral.
Eles decidem conduzir uma análise de poder para determinar se coletaram amostras suficientes para detectar uma diferença.

Eles querem certificar-se de que a média do processo não difere do alvo de 365 gramas em mais de 2,5 gramas.

Coleta de dados
Os engenheiros baseiam a análise de poder nos resultados do teste t do Exemplo 1.

Ferramentas
• Power and Samplo Size - 1-Sample t

Arquivo de dados
Nenhum

Inferência Estatística e Teste t 19


Análise de poder
O que é analise de poder
O poder é a capacidade de um teste detectar um efeito quando este existir. Ao se executar um teste de hipóteses, existem quatro resul-
tados possíveis:

Hipótese nula
Decisão Verdadeira Falsa
Não rejeitar Decisão Correta (Confiança) Erro tipo II

p=1-α p=β
Rejeitar Erro tipo I Decisão Correta (Poder)

p=α p=1-β

O poder do teste é a probabilidade de que a rejeição da hipótese nula esteja correta, dado que a hipótese nula é falsa. Podemos usar
uma análise de poder para determinar quanto poder tem um teste existente ou para ajudar a projetar um novo teste, de modo que este
tenha o poder adequado.

Quando usar análise de poder


Use uma análise de poder quando estiver planejando um experimento ou após executar um teste de hipóteses. Não são necessários
quaisquer dados. Será preciso estimar σ (exceto para testes de proporção).

Por que usar análise de poder


Uma análise de poder pode ajudar a responder perguntas como:

• Qual tamanho de amostra devo coletar para a análise?


• O tamanho da amostra é grande o bastante?
• Qual o tamanho de diferença que o teste é capaz de detectar?
• Os resultados do teste são confiáveis?
Por exemplo:

• Quantas amostras precisamos coletar para determinar se o papel de um fornecedor é mais espesso do que o de outro em 0,0038
cm?
• Qual o tamanho da diferença que seria detectada entre as médias das resistências de vigas de aço e uma média histórica ba-
seada em 8 amostras?
• Podemos confiar nos resultados de um teste t que indique que as resistências de duas formulações de cola não se diferem?

20 Inferência Estatística e Teste t


Determinando as diferenças de parâmetros
Valores
Para estimar o poder, você deve especificar os valores para quaisquer dois dos parâmetros de teste a seguir. O Minitab calculará o
parâmetro que falta:

• Sample sizes (Tamanhos da amostra) - número de observações na amostra.


• Diferences (diferenças) - um deslocamento significativo em relação ao alvo que você está interessado em detectar com uma
probabilidade elevada.
• Power values (Valores de poder) - o poder (probabilidade de se rejeitar Ho quando esta for falsa) que você gostaria que o teste
tivesse.

Diferenças
Para determinar se uma diferença é significativa, determine o valor do deslocamento que será considerado inaceitável na medida do
parâmetro.

Neste exemplo, considere:

• Os dados são provenientes de uma população normalmente distribuída;


• Os limites de aceitação para a temperatura são 360 e 370.
O gráfico abaixo ilustra um deslocamento de 2,5 gramas à direita do alvo. Se tal deslocamento ocorrer, o número de defeitos acima do
limite superior de especificação de 370 seria inaceitável.

Inferência Estatística e Teste t 21


Determinando o poder
Usando a análise de poder, avalie o quanto você pode confiar nos resultados da análise de pesos de enchimento do exemplo anterior.

Valores
Se você digitar mais do que um valor para um parâmetro, o Minitab executará cálculos separados para cada valor dado.

Desvio padrão
Uma vez que o poder de um teste é parcialmente determinado pela variabilidade dos dados, é preciso fornecer uma estimativa do desvio-
padrão dos dados. Use uma estimativa histórica ou o desvio-padrão amostral.

Para os dados dos cereais, o desvio padrão (2,403) vem dos resultados do teste t.

Power and Sample Size for 1-Sample t


1) Selecione File > New, então selecione Minitab Project e clique em OK.
2) Selecione Stat > Power and Sample Size > 1-Sample t.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

22 Inferência Estatística e Teste t


Interpretando os resultados
Com 6 observações, um desvio padrão de 2,403 e um nível de significância de 0,05, o poder é apenas 0,537662. Isso significa que se µ
estiver longe do valor alvo de 2,5 gramas, a chance de detectar isso com 6 amostras é de 53,77%.

Em outras palavras, há 46,23% de chance de não rejeitar Ho e concluir incorretamente que o valor 365 é realmente o peso médio de
enchimento das caixas de cereal.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 2,403
Sample
Difference Size Power
-2,5 6 0,537662
2,5 6 0,537662

Inferência Estatística e Teste t 23


Interpretando os resultados
A curva de poder permite que você veja a probabilidade de detectar uma diferença (poder) para várias diferenças e opcionalmente para
vários tamanhos amostrais. As diferenças específicas digitadas na caixa de diálogo estão indicadas pelos pontos vermelhos.

Neste exemplo, a diferença representa um deslocamento na média do processo em relação ao alvo, em gramas. Quando a média do
processo é um grama acima ou abaixo do alvo, o poder de detectar a diferença com 6 amostras é muito baixo. Quando a média do pro-
cesso é dois gramas abaixo ou acima do alvo, o poder de detectar uma diferença com 6 amostras é próximo de 0,40. Mesmo o poder a
mais ou menos três gramas é inaceitável para a maioria dos padrões.

Uma forma de aumentar o poder e aumentar o tamanho da amostra.

Próximo passo
Determine o número de observações requeridas para atingir o poder adequado. Quantas observações você precisa para ter 80% de
chance de detectar um deslocamento de 2,5 gramas em relação ao alvo? Quantas observações você precisa para ter 85%, 90% ou 95%
de chance de detectar esta diferença?

24 Inferência Estatística e Teste t


Determinando o poder
Com 6 observações,o poder do teste foi apenas 0,5377. Para ter uma chance melhor de detectar uma diferença, aumente o poder do
teste para, pelo menos, 0,80 (como uma regra geral).

Calcule os tamanhos de amostra necessários para atingir níveis de poder de 0,80, 0,85, 0,90, 0,95.

Power and Sample Size for 1-Sample t


1) Selecione Stat > Power and Sample Size > 1- Sample t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK em cada caixa de diálogo.

Inferência Estatística e Teste t 25


Interpretando os resultados
Para ter um poder de pelo menos 0,80 (Target Power - Poder Alvo) de detectar uma diferença de 2,5 gramas ao nível α de 0,05, será
preciso um tamanho de amostra de 10.

Uma vez que o tamanho da amostra deve ser um número inteiro, o Actual Power (poder real) do teste com 10 observações (0,832695)
é ligeiramente maior do que o poder alvo.

Observações adicionais que lhe darão mais poder.

• Com 11 observações, o poder será de 0,873928;


• Com 12 observações, o poder será de 0,905836;
• Com 15 observações, o poder será de 0,962487.
Ao dobrar o tamanho da amostra de 6 para 12 caixas, o poder do teste aumenta e o teste é capaz de detectar menores deslocamentos
em relação à média.

Se o poder for muito elevado (por exemplo, 99%), o teste podemos detectar deslocamentos pequenos demais, que não tem importância
prática.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,717
Sample Target
Difference Size Power Actual Power
-2,5 10 0,80 0,832695
-2,5 11 0,85 0,873928
-2,5 12 0,90 0,905836
-2,5 15 0,95 0,962487
2,5 10 0,80 0,832695
2,5 11 0,85 0,873928
2,5 12 0,90 0,905836
2,5 15 0,95 0,962487

26 Inferência Estatística e Teste t


Interpretando os resultados
A curva de poder para os tamanhos amostrais maiores aumenta mais rapidamente à medida que a diferença se afasta de zero. O poder
é razoavelmente alto para detectar uma diferença de 2,5 gramas com tamanhos amostrais entre 10 e 15.

Inferência Estatística e Teste t 27


Considerações finais
Resumo e conclusões
É provável que o primeiro teste das caixas de cereal não tenha sido significativo simplesmente por que o poder era muito baixo. Com
base no número de observações (6), na diferença que desejava detectar (2,5) e na variabilidade dos dados, o teste tinha um poder de
apenas 0,537662.

O uso de uma amostra maior fornece mais poder, possibilitando detectar a diferença, caso ela exista.

Considerações adicionais
Para garantir que um teste tenha poder suficiente, é aconselhável executar uma análise de poder antes de coletar os dados.

Para aumentar o poder de um teste:

• Aumente o tamanho amostral;


• Diminua a variabilidade quer não é atribuída ao efeito de interesse;
• Aumente o nível de significância (apesar disso aumentar a chance de um erro Tipo I).
Poderes mais altos indicam uma maior probabilidade de detectar uma diferença. Entretanto, isso também aumenta a chance de detectar
efeitos pequenos que podem não ser de interesse prático. Use o conhecimento sobre o processo para determinar a menor diferença
detectável e o nível ótimo de poder para um teste.

Nota: Um teste unilateral é mais poderoso que um teste bilateral, a menos que a diferença não seja na direção esperada. Por exemplo, um teste
unilateral com a hipótese alternativa H1: µ > 365 pode não detectar diferenças se a média amostral real é menor que 365..

28 Inferência Estatística e Teste t


Poder e Tamanho de Amostra

Exemplo 3: Aumentando o Poder


Problema
Os resultados da análise de poder sugerem que uma amostra maior é necessária para se avaliar o processo. Com apenas 6 observa-
ções, houve muito pouco poder para detectar uma diferença de 2,5 gramas.

Coleta de dados
Engenheiros selecionaram aleatoriamente 12 caixas de cereais e pesaram.

Ferramentas
• 1-Sample t
• Normality Test

Arquivo de dados
CEREAl.MPJ

Variável Descrição
Mais Obs Peso das caixas em gramas

Inferência Estatística e Teste t 29


Testando a suposição de normalidade
O teste estatístico apropriado para os dados das caixas de cereal é o teste t para uma amostra. Este teste assume que a população seja
normalmente distribuída.

Use o teste de normalidade para determinar se a suposição de normalidade é válida para este processo.

Normality Test
1) Abra o projeto CEREAL.MPJ.
2) Selecione Window > Worsheet 2***.
3) Selecione Stat > Basic Statistics > Normality Test.
4) Preencha a caixa de diálogo como mostra a figura abaixo:

5) Clique em OK.

30 Inferência Estatística e Teste t


Interpretando os resultados
Use o gráfico de probabilidade normal para verificar se os dados não estão se desviando de forma significativa do que é esperado quando
a amostra vem de uma distribuição normal.

• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.

Teste de normalidade de Anderson-Darling


As hipóteses do teste de normalidade de Anderson-Darling são:

• H0: Os dados provêm de uma população normalmente distribuída


• H1: Os dados não provêm de uma população normalmente distribuída
O Valor do teste de Anderson-Darling (0,545) avalia a probabilidade dos dados serem provenientes de uma população normalmente
distribuída. Usando um α de 0,05, não há evidência suficiente para sugerir que os dados não são de uma população normal.

Conclusão
Com base no gráfico e no teste, é razoável supor que os pesos das caixas de cereal são normalmente distribuídos e um teste t é apro-
priado para testar a média do estudo.

Próximo passo
Realize um teste t.

Inferência Estatística e Teste t 31


Testando a hipótese nula
Analisaremos os novos dados amostrais para determinar se a média do processo difere de 365 gramas.

1-Sample t
1) Selecione Stat > Basics Statistics > 1-Sample t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Graphs.
4) Marque Boxplot of data.
5) Clique em OK em cada caixa de diálogo.

32 Inferência Estatística e Teste t


Interpretando os resultados
O Boxplot ilustra os resultados do teste:

• O valor alvo (Ho) está fora do intervalo de confiança.


• A média da amostra (x) é mais baixa que o valor alvo.

Conclusão
A diferença entre a média do processo e o valor alvo (365 gramas) é significativa ao nível α de 0,05.

Inferência Estatística e Teste t 33


Interpretando os resultados
Use um nível a de 0,05 para o teste.

T
A estatística t (2,75) é calculada como:

t = (média amostral - média de teste)/ SE Mean

onde SE Mean é o erro padrão da média (uma medida de variabilidade). À medida que o valor de t aumenta, o Valor-P diminui.

P
O Valor-P é 0,019. Como este valor é menor que α (0,05), você deve rejeitar a hipótese nula.

O teste t indica que a diferença entre a média do processo e o alvo de 365 gramas é significativa ao nível α de 0,05:

• O Valor-P (0,019) é menor que α (0,05).


• O intervalo de 95% de confiança não inclui o valor de referência.

One-Sample T: Mais_Obs

Test of mu = 365 vs not = 365

Variable N Mean StDev SE Mean 95% CI T P


Mais_Obs 12 366,636 2,060 0,595 (365,327; 367,945) 2,75 0,019

34 Inferência Estatística e Teste t


Considerações Finais
Resumo e conclusões
Com base na amostra de tamanho 12, α = 0,05 e p-valor de 0,019, rejeite Ho e conclua que a média do processo não é igual a 365.

O tamanho da amostra tem uma função importante na avaliação da média:

• Quando o tamanho da amostra foi 6, não foi encontrada diferença estatística entre a média do processo e o valor alvo;
• Quando o tamanho da amostra foi 12, uma diferença estatística foi encontrada a um nível de 95% de confiança.

Considerações adicionais
Sempre que possível, examine o poder e o tamanho da amostra antes da coleta dos dados. Do contrário, se você descobrir depois da
coleta dos dados que o poder é inadequado, pode ter dificuldades para obter observações adicionais sob as mesmas condições da
amostra original.

Inferência Estatística e Teste t 35


Exercício A:
Detectando Mudanças em Diâmetros de Rolamentos
Problema
Um fabricante de rolamentos está preocupado com a possibilidade do diâmetro dos rolamentos ter se deslocado do alvo, que é de 5 mm.
Engenheiros consideram uma diferença de 0,1 mm importante o bastante para requerer um ajuste no equipamento.

Tipicamente, o desvio-padrão dos diâmetros é de 0,04 mm. Use um nível α de 0,05 para todos os testes.

Coleta de dados
Engenheiros selecionaram aleatoriamente 10 rolamentos e mediram seu diâmetro.

Instruções
1) Use Stat > Power and Sample Size > 1-Sample-t para calcular o tamanho amostral necessário para detectar uma diferença
de 0,1 mm com um poder de 0,85.
2) Calcule a diferença detectável com um poder de 0,90 ao coletar 5 e 10 observações.
3) Teste a normalidade da amostra.
4) Determine se o processo está atingindo o alvo. Execute um teste de hipóteses (H1: µ ≠ 5) e gere um boxplot dos dados.

Arquivo de dados
ROLAMENTOS.MTW

Variável Descrição
Diâmetro Diâmetro dos rolamentos (mm)

36 Inferência Estatística e Teste t


Exercício B: Investigando a Qualidade do Fornecedor
Problema
Um fabricante de queijos suspeita que um de seus fornecedores de leite esteja adicionando água em seu leite para aumentar o lucro.
Adicionar água ao leite aumenta sua temperatura de congelamento, que normalmente é de -0,545º C.

Coleta de dados
Analistas mediram a temperatura de congelamento para 10 lotes selecionados aleatoriamente do fornecedor de leite.

Instruções
1) Com um tamanho amostral de 10, determine o poder para detectar diferenças de 0,008, 0,010 e 0,012. Em Options, abaixo de
Alternative Hypothesis, escolha Greater than. Assuma um desvio padrão de 0,01.
2) Use um teste t para 1 amostra para determinar se a média é maior que -0,545. Em Options, abaixo de Alternative Hypothesis,
escolha Greater than.
3) Teste a normalidade dos dados.
4) Se todas as amostras vem de um lote de leite, isso modificaria a análise e a conclusão?

Arquivo de dados
QUEIJO.MTW

Variável Descrição
TempCong Temperatura de congelamento do leite (ºC)

Inferência Estatística e Teste t 37


Poder e Tamanho de Amostra no Teste t para 2 Amostras

Exemplo 4:
Tamanho de Amostra para Comparação de Fornecedores
Problema
Um fabricante de calculadoras está selecionando um fornecedor de plástico. A equipe de qualidade tem uma política para métricas críti-
cas de qualidade, que declara:

“Assumindo custos e variabilidade similares, as resistências médias com mais de um desvio padrão de diferença são um deslocamento
significativo.”

Determine o tamanho amostral necessário para detectar uma diferença de um desvio padrão entre dois fornecedores com variabilidade
similar. (O Minitab assume variabilidade igual no cálculo do tamanho da amostra.) O poder para detectar essa diferença deveria ser de
pelo menos 80%.

Ferramentas
• Power and Sample Size: 2-Sample t

Arquivo de dados
Nenhum

38 Inferência Estatística e Teste t


Poder e tamanho de amostra no teste t para duas amostras
O que é poder e tamanho de amostra em um teste t para duas amostras
Em um teste t para duas amostras:

• Poder é a probabilidade de que você detecte uma diferença entre as duas médias quando elas realmente diferem.
• Tamanho amostral é o número de amostras por grupo que você precisa para atingir um determinado poder.

Quando usar poder e tamanho de amostra em um teste t para duas amostras


Use a análise:

• Antes de coletar os dados, para determinar o tamanho amostral


• Após coletar os dados, para avaliar o poder de detectar uma diferença entre as médias

NOTA: É importante registrar o poder de um teste quando você detectar nenhuma diferença (não rejeitar H0).

Por que usar poder e tamanho de amostra em um teste t para duas amostras
Poder e tamanho de amostra pode determinar:

• O tamanho amostral por grupo que você precisa para detectar uma diferença entre as médias com um poder específico
• O poder de um teste para detectar uma diferença entre as médias com base em um tamanho amostral específico
• O tamanho de uma diferença detectável com um poder e tamanho de amostra específico.

Inferência Estatística e Teste t 39


Determinando o tamanho de amostra em testes t para 2 amostras
Tamanhos de amostra
Não entre com um tamanho de amostra quando você quiser determinar o tamanho amostral.

Valores da diferença e desvio padrão


O poder de um teste depende da diferença que você quer detectar em relação ao desvio padrão. Para detectar uma diferença de 1 desvio
padrão (ou 1 sigma), entre com uma diferença de -1 e 1, e um desvio padrão de 1.

Valores de poder
Entre com o(s) valor(es) de poder desejado(s). Valores de poder maiores que 0,80 são tipicamente considerados aceitáveis.

Power and Sample Size for 2-Sample t


1) Selecione File > New, então selecione Minitab Project e clique em OK.
2) Selecione Stat > Power and Sample Size > 2-Sample t.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

40 Inferência Estatística e Teste t


Interpretando os resultados
Tamanho amostral
Um tamanho amostral de 17 amostras de plástico por fornecedor dá um poder de 0,807037. Um tamanho amostral de 23 amostras de
plástico por fornecedor dá um poder de 0,912498.

Poder alvo versus poder real


O poder alvo é o valor de poder que você especifica na caixa de diálogo. Como o tamanho amostral precisa ser um número inteiro, você
raramente obterá o valor de poder exato.

O poder real é aproximado para o menor tamanho amostral resultante em um poder pelo menos tão grande quanto o poder alvo.

Power and Sample Size

2-Sample t Test

Testing mean 1 = mean 2 (versus not =)


Calculating power for mean 1 = mean 2 + difference
Alpha = 0,05 Assumed standard deviation = 1

Sample Target
Difference Size Power Actual Power
-1 17 0,8 0,807037
-1 23 0,9 0,912498
1 17 0,8 0,807037
1 23 0,9 0,912498

The sample size is for each group.

Inferência Estatística e Teste t 41


Interpretando os resultados
Curva de poder
Neste exemplo, a diferença representa o número de desvios padrão entre a média do processo do fornecedor A e a média do processo
do fornecedor B. O poder é razoavelmente bom ao detectar uma diferença de 1 desvio padrão com tamanhos amostrais entre 17 e 23.

42 Inferência Estatística e Teste t


Considerações Finais
Resumo e conclusões
• A empresa deve usar entre 17 e 23 amostras por fornecedor para detectar uma diferença de 1 desvio padrão (1σ) entre as médias
dos fornecedores com um poder razoavelmente alto.
• Quanto maior o tamanho amostral, maior o poder do teste. Colete observações suficientes para atingir o poder adequado, mas
não tantas, para que você não perca tempo e dinheiro com medições desnecessárias.

Considerações adicionais
Ás vezes uma diferença e um desvio padrão não estão disponíveis ao calcular o poder. Como o cálculo do poder é baseado na razão da
diferença pelo desvio padrão, você não precisa especificá-los se estiver planejando aceitar a resposta em termos do número de desvios
padrão que separam as duas médias populacionais. Por exemplo, se a diferença é 2 e o desvio padrão é 2, o poder será o mesmo se a
diferença for 1 e o desvio padrão for 1, pois ambas são diferenças de 1 σ.

Como mostrado nesse exemplo, você pode especificar uma diferença de 1 σ configurando diferença e desvio padrão iguais. Da mesma
forma, você pode especificar uma diferença de 2 σ especificando uma diferença que seja duas vezes o desvio padrão.

Inferência Estatística e Teste t 43


Teste t para 2 Amostras

Exemplo 5: Resistência de Plásticos


Problema
Um fabricante de calculadoras está selecionando um fornecedor de plástico. Usando uma amostra de tamanho 20 para cada fornecedor,
o fabricante deve comparar a resistência das amostras dos dois fornecedores.

Coleta de dados
Uma máquina pressiona os grânulos plásticos de lotes selecionados aleatoriamente. Técnicos registram a resistência à quebra (em
Newtons) de cada grânulo.

Ferramentas
• 2-Sample t
• Normality Test
• 2 Variances

Arquivo de dados
PLÁSTICO.MTW

Variável Descrição
Fornecedor A Resistência à quebra dos grânulos plásticos do fornecedor A
Fornecedor B Resistência à quebra dos grânulos plásticos do fornecedor B

44 Inferência Estatística e Teste t


Teste t para 2 amostras independentes
O que é o teste t para 2 amostras independentes
Um teste t para 2 amostras independentes ajuda a determinar se duas médias populacionais são diferentes. O teste usa os desvios
padrão amostrais para estimar o σ (desvio-padrão) de cada população. Se a diferença entre as médias amostrais for grande em relação
à variabilidade estimada dentro das populações, é improvável que a média das populações seja a mesma.

Você também pode usar um teste t para 2 amostras independentes para avaliar se as médias de duas populações diferem de um valor
específico.

Quando usar o teste t para 2 amostras independentes


Use um teste t para 2 amostras independentes com dados contínuos que provêm de duas amostras aleatórias e independentes. As
amostras são independentes se as observações de uma amostra não estiverem relacionadas com as observações de outra amostra.
Neste exemplo, as resistências dos grânulos plásticos do fornecedor A não são influenciadas pelas resistências dos plásticos do forne-
cedor B; portanto, as amostras são independentes.

O teste também assume que os dados sejam provenientes de populações normalmente distribuídas. Entretanto, o teste é robusto a
violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razo-
avelmente simétricos.

Por que usar o teste t para 2 amostras independentes


Um teste t para 2 amostras independentes responde perguntas tais como:

• As médias da característica de um produto são comparáveis entre dois fornecedores?


• A formulação de um produto é melhor que a de outro, em média?
Por exemplo:

• A viscosidade média do óleo de dois fornecedores diferentes é similar?


• Uma fórmula de tinta é mais brilhante do que outra?

Inferência Estatística e Teste t 45


Testando a suposição de normalidade
O teste t para 2 amostras assume que os dados provêm de populações normalmente distribuídas.

Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.

Normality Test
1) Abra o arquivo PLÁSTICO.MTW.
2) Selecione Graph > Probability Plot > Multiple e clique em OK.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

46 Inferência Estatística e Teste t


Interpretando os resultados
Use o gráfico de probabilidade normal para verificar se os dados não se desviam de forma significativa do que é esperado quando a
amostra vem de uma distribuição normal.

• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.
Os gráficos indicam que as distribuições são razoavelmente normais; todos os pontos se distribuem próximos às retas de referência.

Teste de normalidade de Anderson-Darling


Ambos os p-valores (0,718 para Fornecedor A e 0,193 para Fornecedor B) são maiores que o nível de significância α de 0,05.

Conclusão
Com base nos gráficos e no teste, você pode assumir que os dados provêm de populações com distribuição normal.

Inferência Estatística e Teste t 47


Comparando variâncias
O teste t para 2 amostras compara as médias de duas populações. Freqüentemente é de interesse saber se as variâncias (ou desvios
padrão) dos dois grupos são diferentes. Neste exemplo, pode ser importante saber se as resistências das amostras de um fornecedor
variam mais que as do outro, pois pode ser desejável escolher o fornecedor com menor variância.

2 Variances
1) Selecione Stat> Basic Statistics > 2 Variances.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

48 Inferência Estatística e Teste t


Interpretando os resultados
Intervalos de confiança
Intervalos de confiança são úteis para comparar o σ de duas populações. Contudo, a decisão sobre a igualdade ou não de variâncias
deve ser baseada no teste de variâncias apropriado.

Teste de variâncias
Os resultados incluem dois testes de variâncias:

• Se os dados forem contínuos e normalmente distribuídos, use o teste F;


• Se os dados forem contínuos mas não normalmente distribuídos, use o teste de Levene.
Os dados do plástico parecem ser normalmente distribuídos, portanto use o teste F.

Conclusão
O p-valor do teste F (0,018) é menor que σ (0,05), portanto rejeite a hipótese nula de que as variâncias são iguais. Os resultados sugerem
que a variância dos plásticos do Fornecedor B é menor que a do Fornecedor A.

O cálculo do tamanho da amostra assumiu igualdade de variâncias. Como as variâncias não são iguais, o cálculo do tamanho amostral
não foi correto. Se uma diferença não for encontrada entre as médias dos fornecedores, considere aumentar o tamanho amostral para o
grupo com maior variação (Fornecedor A) para assegurar um poder de pelo menos 80%.

Inferência Estatística e Teste t 49


Interpretando os resultados
Na janela Session o Minitab mostra os mesmos intervalos de confiança e testes estatísticos incluídos na janela Graph.

Test for Equal Variances: Fornecedor A; Fornecedor B

95% Bonferroni confidence intervals for standard deviations

N Lower StDev Upper


Fornecedor A 20 4,14705 5,66051 8,76980
Fornecedor B 20 2,36389 3,22658 4,99893

F-Test (Normal Distribution)


Test statistic = 3,08; p-value = 0,018

Levene’s Test (Any Continuous Distribution)


Test statistic = 3,56; p-value = 0,067

50 Inferência Estatística e Teste t


Executando o teste t para 2 amostras
Um teste t para 2 amostras irá mostrar se as resistências médias dos plásticos dos dois fornecedores são diferentes.

As hipóteses para o teste são:

• H0: µA - µB = 0
• HA: µA - µB ≠ 0
Crie gráficos de valores individuais e boxplots para visualizar os dados.

Assumir igualdade de variâncias


O teste t será mais poderoso se você assumir que as variâncias das duas populações são iguais. Entretanto, assumir que as variâncias
são iguais quando não são pode fornecer resultados enganadores. Assim, se houver qualquer dúvida, é melhor não supor a igualdade.

Uma vez que o teste de igualdade de variâncias indicou que as variâncias das populações não são iguais, não marque ‘Assume equal
variances’.

2-Sample t
1) Selecione Stat > Basic Statistics > 2-Sample t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Graphs.
4) Marque Individual value plot e Boxplots of data.
5) Clique em OK em cada caixa de diálogo.

Inferência Estatística e Teste t 51


Interpretando os resultados
O Boxplot e o Individual Value Plot ilustram dois pontos:

• O plástico do Fornecedor A é mais forte que o plástico do Fornecedor B;


• O plástico do Fornecedor A tem mais variabilidade na resistência que o do Fornecedor B.

52 Inferência Estatística e Teste t


Interpretando os resultados

Two-Sample T-Test and CI: Fornecedor A; Fornecedor B

Two-sample T for Fornecedor A vs Fornecedor B

N Mean StDev SE Mean


Fornecedor A 20 163,82 5,66 1,3
Fornecedor B 20 160,01 3,23 0,72

Difference = mu (Fornecedor A) - mu (Fornecedor B)


Estimate for difference: 3,80
95% CI for difference: (0,82; 6,78)
T-Test of difference = 0 (vs not =): T-Value = 2,61 P-Value = 0,014 DF = 30

O Minitab mostra a média da resistência à quebra (Mean) e duas medidas de variabilidade, o desvio padrão (StDev) e o erro padrão da
média (SE Mean), para cada fornecedor.

Intervalos de confiança
A diferença entre as médias das amostras (3,08) é uma estimativa da diferença entre as médias das populações (µ Fornecedor A - µ
Fornecedor B). O intervalo de confiança para a diferença é baseado na estimativa da variabilidade dentro das amostras.

Você pode ter 95% de confiança de que a média do Fornecedor A é maior que a média do Fornecedor B entre 0,82 a 6,78 Newtons.

Valor da estatística T e p-valor


O valor da estatística T para o teste é 2,61, e o p-valor associado é 0,014. O p-valor (0,014) é a probabilidade de se obter um valor de T
com uma magnitude de 2,61 ou maior se a hipótese nula de nenhuma diferença é verdadeira. Portanto, rejeite a hipótese nula ao nível α
0,05, e conclua que as resistências médias são diferentes.

Inferência Estatística e Teste t 53


Considerações Finais
Resumo e conclusões
O plástico do Fornecedor A é significativamente mais forte em média, mas é mais variável que o do Fornecedor B.

Se a média e a variância são igualmente importantes, considere comparar as estatísticas Cpk para os dois fornecedores. A estatística
Cpk é uma métrica de qualidade que considera tanto a média quanto a variância em relação aos limites de especificação.

Se as estatísticas Cpk forem próximas, a empresa pode preferir escolher o fornecedor com base no custo.

NOTA: Para aprender mais sobre o Cpk e outras métricas de capacidade de processos, veja o curso de Ferramentas Estatísticas da Qualida-
de.

Considerações adicionais
Ao usar um teste t para 2 amostras:

• As amostras devem ser independentes e aleatórias;


• Os dados da amostra devem ser contínuos;
• Os dados da amostra devem ser normalmente distribuídos.
O procedimento do teste t é robusto a pequenas violações da suposição de normalidade, desde que as observações sejam coletadas
aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos.

54 Inferência Estatística e Teste t


Exercício C: Altura do Ânodo
Problema
Um fabricante de eletrônicos precisa assegurar que o ânodo elétrico em cada capacitor está a uma certa distância acima da superfície
do corpo de cerâmica do capacitor. Recentemente, o fabricante produziu muitos capacitores com alturas de ânodos que violam o limite
inferior de especificação. Para corrigir esse problema, o engenheiro de produção quer implementar uma mudança no processo. Para
determinar se o novo processo aumenta a altura do ânodo, os engenheiros devem determinar quantos dados coletar, e então comparar
as medidas de altura antes e após a mudança no processo.

Coleta de dados
Amostras de processos de inserção de ânodos estão disponíveis, porém é dispendioso medi-las. Portanto, os engenheiros não podem
coletar mais amostras que o necessário. Historicamente, a variação nas medições tem um desvio padrão de 0,55 mm. Um aumento de
0,4 mm é considerado uma melhoria significativa.

Instruções
1) Use poder e tamanho de amostra para determinar o número de observações necessárias para detectar uma melhoria no pro-
cesso de pelo menos 0,4 mm com um poder de 0,85. Especifique um teste unilateral.
2) Verifique a normalidade de cada amostra.
3) Verifique a suposição de igualdade de variâncias das amostras.
4) Use um teste t para 2 amostras para determinar se a altura do ânodo melhorou após a mudança no processo. Especifique a
hipótese alternativa “greater than”, e crie um boxplot para comparar visualmente as duas amostras de dados.
5) Qual o tamanho amostral necessário se o teste t usar uma hipótese alternativa bilateral?

Arquivo de dados
ÂNODO.MTW

Variável Descrição
Altura do Ânodo A altura de um ânodo elétrico acima da superfície cerâmica
Mudança no processo Antes e após a mudança no processo

Inferência Estatística e Teste t 55


Teste t pareado

Exemplo 6: Estacionando Carros


Problema
Um grupo de consumidores quer determinar se dois carros populares diferem em relação à facilidade de manobra. Para medir a facilida-
de de manobra nos dois carros, o grupo compara o tempo que motoristas levam para estacionar cada carro em paralelo.

Coleta de dados
Vinte motoristas estacionaram ambos os carros em ordem aleatória e o tempo de estacionamento (em segundos) foi registrado.

Ferramentas
• Paired t
• Calculator
• Normality Test

Arquivo de dados
CARROS.MTW

Variável Descrição
Carro A Tempo de estacionamento do carro A (em segundos)
Carro B Tempo de estacionamento do carro B (em segundos)

56 Inferência Estatística e Teste t


Teste t pareado
O que é o teste t pareado
Um teste t pareado ajuda a determinar se a diferença média entre observações pareadas é significativa. Estatisticamente, o teste t pare-
ado é equivalente a se realizar um teste t para 1 amostra nas diferenças. Um teste t pareado também ajuda você a avaliar se a diferença
média é igual a um valor específico.

Observações pareadas estão relacionadas entre si. Exemplos incluem:

• Pesos de indivíduos registrados antes e após um programa de exercícios


• Medidas da mesma peça coletadas com dois dispositivos de medição diferentes.

Quando usar o teste t pareado


Use um teste t para uma amostra aleatória de observações pareadas.

O teste também assume que as diferenças pareadas sejam provenientes de uma população normalmente distribuída. Entretanto, o
teste é robusto a violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos,
unimodais e razoavelmente simétricos.

Por que usar o teste t pareado


Um teste t pareado responde perguntas tais como:

• Um novo tratamento resulta em uma diferença no produto?


• Dois instrumentos diferentes fornecem medidas similares da mesma amostra?
Por exemplo:

• Tratar a madeira com determinado produto químico aumenta seu tempo de vida? (Assuma que cada pedaço de madeira amostral
é cortado ao meio; uma metade é tratada com o produto químico enquanto a outra metade não é tratada.)
• Dois compassos medem peças idênticas da mesma maneira? (Assuma que as várias peças são medidas uma vez com cada
compasso.)

Inferência Estatística e Teste t 57


Verificando a normalidade
O teste t pareado é um teste t para 1 amostra nas diferenças pareadas. Portanto, as diferenças pareadas devem satisfazer as suposições
do teste t para 1 amostra, incluindo a normalidade. Antes de verificar a normalidade, armazene as diferenças pareadas na worksheet.

Normality Test
1) Abra o arquivo CARROS.MTW.
2) Selecione Calc > Calculator.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.
5) Selecione Stat > Basic Statistics > Normality Test.
6) Em Variable, entre com Diferenças.
7) Clique em OK.

58 Inferência Estatística e Teste t


Interpretando os resultados
Com base no p-valor de 0,493, não há evidências suficientes para rejeitar a hipótese nula de normalidade. Portanto, a suposição de
normalidade do teste t para 1 amostra é apropriada.

Inferência Estatística e Teste t 59


Conduzindo um teste t pareado
O grupo de consumidores quer determinar se os motoristas conseguem estacionar um carro mais rápido que o outro. Como os dados são
pareados (cada indivíduo estacionou ambos os carros), use um teste t pareado para testar as seguintes hipóteses:

• H0: A diferença média entre observações pareadas na população é zero.


• HA: A diferença média entre observações pareadas na população não é zero.
Use o nível default de 95% para o intervalo de confiança. Construa gráficos de valores individuais e boxplots para ajudar a visualizar os
dados.

Paired t
1) Selecione Stat > Basic Statistics > Paired t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Graphs.
4) Marque Individual value plot e Boxplot of differences;
5) Clique em OK em cada caixa de diálogo.

60 Inferência Estatística e Teste t


Interpretando os resultados
O boxplot e o gráfico de valores individuais ilustram as diferenças entre as observações pareadas.

A diferença média observada (aproximadamente 2) é representada por . H0 representa a diferença populacional a ser testada
(zero).

Intervalo de confiança
O Minitab também plota o intervalo de confiança para a diferença média populacional. Se a hipótese nula fosse verdadeira, H0 provavel-
mente estaria contido neste intervalo.

Como o intervalo de confiança não inclui H0, você pode rejeitar a hipótese nula e concluir que o carro A leva mais tempo para ser esta-
cionado que o carro B.

Inferência Estatística e Teste t 61


Interpretando os resultados

Paired T-Test and CI: Carro A; Carro B

Paired T for Carro A - Carro B

N Mean StDev SE Mean


Carro A 20 34,87 7,59 1,70
Carro B 20 32,90 7,27 1,63
Difference 20 1,965 3,836 0,858

95% CI for mean difference: (0,170; 3,760)


T-Test of mean difference = 0 (vs not = 0): T-Value = 2,29 P-Value = 0,034

Médias
Os tempos médios de estacionamento são 34,9 segundos para o carro A e 32,9 segundos para o carro B. A diferença média é de apro-
ximadamente 2 segundos.

Os limites do intervalo de 95% de confiança para a diferença média são 0,17 e 3,76.

Valor da estatística T e p-valor


O valor da estatística T para o teste é 2,29, e o p-valor associado é 0,034. Portanto, rejeite a hipótese nula ao nível α 0,05 e conclua que
o tempo necessário para estacionar o carro A é maior que o tempo necessário para estacionar o carro B.

62 Inferência Estatística e Teste t


Considerações Finais
Resumo e conclusões
Em média, os motoristas levam 2 segundos a mais para estacionar o carro A que o carro B. Essa diferença, embora pequena, é estatis-
ticamente significativa.

Uma diferença de 2 segundos tem alguma importância prática? Essa é uma decisão que você deve tomar. Se um leve aumento no tempo
de estacionamento aumenta a frustração do motorista, então 2 segundos podem ser importantes. Essa diferença também pode ser mais
importante para motoristas que estacionam freqüentemente em paralelo.

Considerações adicionais
Ao usar um teste t pareado:

• As observações devem ser pareadas;


• Os dados devem ser contínuos;
• As diferenças pareadas devem ser normalmente distribuídas.
O procedimento do teste t é robusto a pequenas violações da suposição de normalidade, desde que as observações sejam coletadas
aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos.

O uso de observações pareadas elimina a variabilidade causada pelas diferenças entre os indivíduos. Por exemplo, o motorista 1 levou
18,9 segundos para estacionar o carro A e 18,2 segundos para estacionar o carro B. Por outro lado, o motorista 18 levou 43,8 e 41,1
segundos para estacionar os mesmos carros. Analisar as diferenças para cada motorista elimina a variabilidade entre os motoristas dos
cálculos, aumentando o poder do teste.

Inferência Estatística e Teste t 63


Exercício D: Comparando Instrumentos de Medição
Problema
Uma empresa está avaliando a compra de dois instrumentos diferentes para medir rolamentos: um compasso de calibre da marca Easy-
Gage e outro da ToolIt. Compare as duas marcas para determinar se elas fornecem as mesmas medições, em média.

Use um nível α de 0,05 para todos os testes.

Coleta de dados
Analistas selecionaram aleatoriamente 12 rolamentos no processo. Um único operador mediu cada rolamento com o compasso Easy-
Gage e com o compasso ToolIt.

Instruções
1) Use um teste t pareado para determinar se as medições fornecidas pelos dois instrumentos são diferentes. Construa um gráfico
de valores individuais das diferenças entre as medições.
2) Usando o desvio padrão das diferenças amostrais como uma estimativa de σ, calcule o poder do teste para detectar uma dife-
rença média de 0,005 cm. (Dica: Conduzir um teste t pareado é a mesma coisa de se conduzir um teste t para 1 amostra nas
diferenças entre observações pareadas. Portanto, use Stat > Power and Sample Size > 1-Sample t para avaliar o poder de
um teste t pareado.)
3) Qual o poder do teste para detectar uma diferença média de 0,001 cm?

Arquivo de dados
COMPASSOS.MTW

Variável Descrição
Rolamento Identifica o rolamento medido
EasyGage Diâmetro do rolamento medido pelo compasso EasyGage (cm)
ToolIt Diâmetro do rolamento medido pelo compasso ToolIt (cm)
Diferença Diferença pareada entre os compassos em cada rolamento (cm)

64 Inferência Estatística e Teste t


Teste t

Inferência Estatística e Teste t 65


Testes de Proporção
Objetivos

• Determinar o tamanho amostral apropriado para um teste de 1


proporção;
• Determinar se uma taxa de defeituosos é diferente do alvo
usando o teste para 1 proporção;
• Determinar se taxas de defeituosos são diferentes entre si
usando o teste para 2 proporções.

Copyright © - GLOBAL TECH

O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br

Testes de Proporção 3
Conteúdo

Exemplos e Exercícios Objetivos Página


Poder e Tamanho de Amostra para Testes
de Proporção
Exemplo 1: Determinar o tamanho amostral apropriado para um teste de 1 5
Tamanho de Amostra para Testes de Va- proporção.
zamentos em Filtros de Água
Teste de 1 Proporção
Exemplo 2: Avaliar a diferença entre uma proporção e um valor alvo usando 12
Testes de Vazamentos em Filtros de um teste para 1 proporção.
Água
Exercício E: Avaliar a diferença entre uma proporção e um valor alvo usando 17
Taxas de Consertos em Televisões um teste para 1 proporção.
Teste de 2 Proporções
Exemplo 3: Avaliar a diferença entre proporções usando o teste para 2 pro- 18
Testes de Vazamentos em Filtros de porções e o teste exato de Fisher.
Água
Exercício F: Avaliar a diferença entre proporções usando o teste para 2 pro- 23
Taxas de Sobrevivência em Passageiros porções
do Titanic

4 Testes de Proporção
Poder e Tamanho de Amostra para Testes de Proporção

Exemplo 1:
Tamanho de Amostra para Testes de Vazamentos em Filtros de Água
Problema
Uma empresa produz filtros de água para refrigeradores caseiros. Quando o processo de fabricação está ocorrendo conforme o espera-
do, engenheiros acreditam que a porcentagem de filtros com vazamentos seja de 2%. O orçamento planeja uma taxa de defeituosos de
2%; um aumento nas taxas de defeituosos para além de 2% aumenta o desperdício e os custos com garantia. Um aumento de até 4%
leva a desperdícios inaceitáveis, altos custos com garantia e muitos consumidores insatisfeitos.

A equipe de qualidade decide verificar a taxa de defeituosos semanalmente. Eles precisam determinar o tamanho amostral que irá
permiti-los detectar qualquer aumento na taxa de defeituosos para 4% ou mais.

Ferramentas
• Power and Sample Size - 1 Proportion

Arquivo de dados
Nenhum

Testes de Proporção 5
Poder e tamanho de amostra para um teste de 1 proporção
O que é poder e tamanho de amostra para um teste de 1 proporção
Poder é a habilidade de detectar uma diferença, caso exista. Para um teste de 1 proporção, o poder é a habilidade de detectar uma mu-
dança em relação à proporção assumida sob a H0 para uma proporção sob HA que tem significado especial.

Tamanho amostral é o número de amostras necessárias para atingir um poder específico.

Quando usar poder e tamanho de amostra para um teste de 1 proporção


Use poder e tamanho de amostra:

• Antes de coletar os dados, para determinar o tamanho amostral necessário para comparar uma proporção com um valor espe-
cífico
• Após coletar os dados, para avaliar o poder de um teste.

Nota: É importante registrar o poder de um teste quando você não detectar uma diferença (não rejeitar H0).

Por que usar poder e tamanho de amostra para um teste de 1 proporção


Poder e tamanho de amostra responde perguntas tais como:

• Qual o tamanho amostral necessário para detectar uma mudança em uma proporção populacional com um poder específico?
• Qual o poder de um teste para detectar uma mudança em uma proporção populacional usando um tamanho amostral específi-
co?
• Qual a magnitude da mudança que você pode detectar com um poder e tamanho de amostra específico?

6 Testes de Proporção
Determinando o tamanho amostral para um teste de 1 proporção

Valores
Para cálculos de poder e tamanho de amostra de testes de 1 proporção, especifique valores para dois dos três parâmetros; o Minitab
calcula o parâmetro restante.

• Sample sizes - O número de observações na amostra.


• Alternative values of p - Uma proporção alternativa significativa que você quer detectar com alta probabilidade.
• Power values - O poder (probabilidade de rejeitar H0 quando ela é falsa) que você quer que o teste tenha.

P hipotético
Digite a taxa de defeitos assumida sob a hipótese nula H0.

Power and Sample Size for 1 Proportion


1) Selecione File > New, selecione então Minitab Project e clique em OK.
2) Selecione Stat > Power and Sample Size > 1 Proportion.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em Options.
5) Em Alternative Hypothesis, escolha Greater than.
6) Clique em OK em cada caixa de diálogo.
7) No gráfico, clique duas vezes no eixo x e em Scale Range, em Maximum, digite 0,05.
8) Clique em OK.

Testes de Proporção 7
Interpretando os resultados
Com um tamanho amostral de 391, o poder para detectar uma mudança na taxa de defeituosos para 4% ou maior é 0,800388. Com um
tamanho amostral de 580, o poder para detectar uma mudança na taxa de defeituosos para 4% ou mais é 0,900226.

Power and Sample Size

Test for One Proportion

Testing proportion = 0,02 (versus > 0,02)


Alpha = 0,05

Alternative Sample Target


Proportion Size Power Actual Power
0,04 391 0,8 0,800388
0,04 580 0,9 0,900226

Nesse exemplo, a proporção alternativa representa a taxa de defeituosos que você quer detectar. Se a taxa de defeituosos verdadeira
for 0,04 (a proporção alternativa), então um poder de 0,80 indica que você tem 80% de chance de rejeitar a hipótese nula de que a taxa
de defeituosos é de 0,02.

O poder é razoavelmente bom para detectar um aumento na taxa de defeituosos para 0,04 com tamanhos amostrais entre 391 e 580.

A equipe escolhe um tamanho amostral de 500, para obter um poder entre 0,80 e 0,90.

Próximo passo
Calcule o poder exato para um tamanho amostral de 500.

8 Testes de Proporção
Determinando o poder

Valores
Determine o poder para detectar uma taxa de defeituosos de 4% ou superior, com um tamanho amostral de 500.

Power and Sample Size for 1 Proportion


1) Selecione Stat > Power and Sample Size > 1 Proportion ou pressione Ctlr+E.
2) Complete a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Testes de Proporção 9
Interpretando os resultados
Com um tamanho amostral de 500, o poder do teste para detectar uma mudança na taxa de defeituosos de 2% para 4% ou maior é
0,865861. Se a taxa de defeituosos aumentar para 4%, o teste irá detectar o deslocamento em mais de 86% das vezes.

Power and Sample Size

Test for One Proportion

Testing proportion = 0,02 (versus > 0,02)


Alpha = 0,05

Alternative Sample
Proportion Size Power
0,04 500 0,865861,

10 Testes de Proporção
Considerações Finais
Resumo e conclusões
Usando um tamanho amostral de 500, a equipe de qualidade pode detectar um deslocamento na taxa de defeituosos de 2% para 4% (ou
maior) com um poder de 86,6%.

Considerações adicionais
Como dados de sucesso/falha (ao contrário de medições contínuas) não capturam informações detalhadas sobre as peças amostrais,
normalmente os tamanhos de amostra são grandes. Se o tamanho amostral necessário é muito grande para ser praticável, considere
as seguintes opções:

• Encontre uma medida quantitativa que reflita a qualidade da peça e use uma distribuição contínua, tal como a normal, para pre-
dizer a proporção de defeituosos. Freqüentemente você pode obter um poder razoavelmente alto com poucas amostras, como
30.
• Aumente a taxa de erro tipo I (α). Isto tornará mais fácil detectar uma mudança na taxa de defeituosos do processo; entretanto,
isto também aumenta o número de alarmes falsos (o teste indicar que a taxa de defeituosos mudou quando na realidade não
mudou).
O Minitab assume que o tamanho da população é infinito para os cálculos de poder e tamanho de amostra. Se o Minitab recomendar um
tamanho amostral maior que 10% do tamanho da população, a suposição de um tamanho de população infinito não é válida e os cálculos
de poder e tamanho de amostra serão errados.

Testes de Proporção 11
Testes de 1 Proporção

Exemplo 2: Testes de Vazamentos em Filtros de Água


Problema
Uma empresa produz filtros de água para refrigeradores caseiros. Quando o processo de fabricação está ocorrendo conforme o espera-
do, engenheiros acreditam que a porcentagem de filtros com vazamentos seja de 2%. A equipe de qualidade deseja executar um teste
para 1 proporção para ver se a taxa de defeituosos do processo é maior que 2%.

Coleta de dados
A equipe de qualidade realiza um teste de vazamento em 500 filtros de água selecionados aleatoriamente, fabricados na semana anterior.
Eles detectaram 18 filtros com vazamentos.

Ferramentas
• 1 Proportion

Arquivo de dados
Nenhum

12 Testes de Proporção
Teste de 1 proporção
O que é um teste de 1 proporção
Um teste de 1 proporção determina se existe evidência suficiente de que a proporção de eventos (defeituosos) é diferente de um valor
hipotético.

Quando usar um teste de 1 proporção


Use um teste de 1 proporção para comparar uma única proporção de uma sequência Bernoulli selecionada aleatoriamente com um valor
alvo.

Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.

Por que usar um teste de 1 proporção


Um teste de 1 proporção responde perguntas tais como:

• A taxa de defeituosos é diferente de uma taxa alvo?


• A taxa de defeituosos é maior que uma quantidade aceitável?

Testes de Proporção 13
Realizando um teste de 1 proporção
O teste de 1 proporção tem dois formatos possíveis:

• O formato ‘amostras em colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet.
As hipóteses para esse teste são:

• H0: Taxa de defeituosos = 2%


• HA: Taxa de defeituosos > 2%
Um teste unilateral fornece mais poder para detectar a diferença especificada que um teste bilateral. Entretanto, um teste unilateral não
consegue detectar uma diferença na direção oposta aquela especificada pela hipótese alternativa. Aqui, o teste unilateral não irá detectar
uma taxa de defeituosos que é significativamente menor que 2%.

1 Proportion
1) Selecione Stat > Basic Statistics > 1 Proportion.
2) Escolha Summarized data.
3) Em Number of events, digite 18.
4) Em Number of trials, digite 500.
5) Marque Perform hypothesized test.
6) Em Hypothesized proportion, digite 0,02.
7) Clique em Options.
8) Preencha a caixa de diálogo como mostra a figura abaixo:

9) Clique em OK em cada caixa de diálogo.

14 Testes de Proporção
Interpretando os resultados
Os resultados sugerem que a taxa de defeituosos é maior que 2%:

• O limite inferior de 95% de confiança para a taxa de defeituosos é 2,3395%, que é maior que 2%.
• O p-valor (0,013) é menor que α (0,05).

Test and CI for One Proportion

Test of p = 0,02 vs p > 0,02

95% Lower Exact


Sample X N Sample p Bound P-Value
1 18 500 0,036000 0,023395 0,013

Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.

Testes de Proporção 15
Considerações Finais
Resumo e conclusões
Como a taxa de defeituosos é maior que a esperada, a equipe deve conduzir uma investigação para determinar as possíveis causas
para o aumento da taxa de defeituosos. Se eles não encontrarem qualquer causa, poderiam considerar reestruturar o filtro para reduzir
os vazamentos.

Considerações adicionais
A amostra do processo de manufatura deve ser selecionada aleatoriamente. Se todos os 500 filtros vierem do mesmo lote ou tivessem
a mesma data de fabricação, o analista excluiria a variabilidade entre os lotes ou fontes de variação ao longo do tempo. Os resultados
poderiam estar viciados, especialmente se a amostra consistisse de um conjunto de peças excepcionalmente boas ou ruins.

16 Testes de Proporção
Exercício E: Taxas de Consertos em Televisões
Problema
Um fabricante quer determinar se a proporção de aparelhos de televisão de 35 polegadas que precisam de reparos dentro de 4 anos de
uso é diferente da taxa divulgada pela indústria, de 6,8% (0,068).

Coleta de dados
A equipe de qualidade envia aproximadamente 100.000 pesquisas para clientes que compraram uma televisão de 35 polegadas. Dos
2.856 consumidores que responderam a pesquisa, 236 indicaram que suas televisões necessitaram de consertos dentro dos 4 primeiros
anos de uso.

Instruções
1) Usando o teste de 1 proporção, determine se a taxa de defeituosos dessa empresa é diferente de 0,068.
2) Cite algum vício que poderia surgir deste processo de coleta de dados.

Arquivo de dados
Nenhum

Testes de Proporção 17
Teste de 2 Proporções

Exemplo 3: Testes de Vazamentos em Filtros de Água


Problema
Uma empresa produz filtros de água para refrigeradores caseiros. A atual proporção de filtros fabricados com vazamentos é muito alta.
Engenheiros acreditam que uma mudança no material de selamento irá reduzir ou eliminar o vazamento nos filtros. Compare a taxa de
vazamentos antes e após a mudança para verificar se o novo selamento é efetivo.

Coleta de dados
Em 500 filtros, 18 falharam no teste de vazamento antes da mudança no selamento. Uma equipe de qualidade testou os primeiros 100
filtros fabricados com o novo material de selamento , e nenhum falhou no teste de vazamento.

Ferramentas
• 2 Proportions

Arquivo de dados
Nenhum

18 Testes de Proporção
Teste de 2 proporções
O que é um teste de 2 proporções
Um teste de 2 proporções determina se existe evidência suficiente de que duas proporções são diferentes entre si.

Quando usar um teste de 2 proporções


Use um teste de 2 proporções para comparar proporções de duas sequências Bernoulli independentes.

Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.

Por que usar um teste de 2 proporções


Um teste de 2 proporções responde perguntas tais como:

• As taxas de defeituosos são diferentes antes a após uma mudança no processo?


• As taxas de defeituosos são diferentes entre dois fornecedores, turnos, configurações do processo, ou tipos de material?

Testes de Proporção 19
Formatos de dados para um teste de 2 proporções
O teste de 2 proporções tem três formatos de dados possíveis:

• O formato ‘amostras em uma coluna’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade e uma
segunda coluna indicando as duas categorias.
• O formato ‘amostras em diferentes colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade
na primeira categoria e uma segunda coluna listando os sucessos e as falhas na segunda categoria.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet. Em Events, você pode digitar o número de sucessos ou o número de falhas, depen-
dendo se você quer testar a taxa de sucessos ou a taxa de falhas.
As hipóteses para esse teste são:

• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.

2 Proportions
1) Selecione File > New, selecione Minitab Project, e clique em OK.
2) Selecione Stat > Basic Statistics > 2 Proportions.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em Options.
5) Em Alternative, escolha greater than.
6) Clique em OK em cada caixa de diálogo:.

20 Testes de Proporção
Interpretando os resultados
Aproximação Normal
O teste de 2 proporções e o intervalo de confiança usam uma aproximação normal. A aproximação pode não ser exata quando o número
de sucessos ou falhas em um ou ambos os grupos é menor que 5. Neste exemplo, o Minitab exibe uma mensagem de advertência na
janela Session, porque o segundo grupo tem 0 falhas.

O teste exato de Fisher é uma alternativa possível quando a aproximação normal não é apropriada.

Test and CI for Two Proportions

Sample X N Sample p
1 18 500 0,036000
2 0 100 0,000000

Difference = p (1) - p (2)


Estimate for difference: 0,036
95% lower bound for difference: 0,0222965
Test for difference = 0 (vs > 0): Z = 4,32 P-Value = 0,000

Fisher’s exact test: P-Value = 0,036

Teste exato de Fisher


As hipóteses são:

• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.
Como o p-valor é 0,036, conclua que a taxa de defeituosos é menor com o novo selamento.

Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.

Testes de Proporção 21
Considerações Finais
Resumo e conclusões
Devido ao baixo p-valor (0,036), a equipe de qualidade decide fabricar mais 400 filtros de água com o novo selamento. Eles esperam
um baixo p-valor com base no maior tamanho amostral e na capacidade do novo selamento de prevenir ou reduzir os vazamentos. Se o
p-valor for menor que 0,05, eles irão modificar o processo de produção para incluir o novo selamento.

Considerações adicionais
A empresa fabricou 100 filtros de água com o novo selamento em um lote de pequena produção; esses filtros podem não representar a
população de filtros fabricados em um processo de produção de larga escala.

22 Testes de Proporção
Exercício F: Taxas de Sobrevivência em Passageiros do Titanic
Problema
Usando os dados reais demográficos e de sobrevivência da viagem no Titanic, determine se as taxas de sobrevivência variam de acordo
com o sexo, classe, e idade.

Coleta de dados
Os dados estão disponíveis no web site da American Statistical Association (www.amstat.org).

A classe “Econômica” nesse conjunto de dados inclui a equipe de bordo, passageiros de segunda e terceira classe.

Instruções
Use o teste de 2 proporções para:

1) Comparar as taxas de sobrevivência para a primeira classe e a classe econômica. (Dica: Esses dados não são sumarizados.
As amostras estão na coluna Status; as identificações estão na coluna Classe.)
2) Comparar as taxas de sobrevivência para homens e mulheres.
3) Selecione Calc > Calculator, digite o nome da variável “Faixa etária”, e entre com a fórmula Idade >=18. Compare as taxas de
sobrevivência para adultos e crianças.

Nota: Se você quiser mais rótulos descritivos em sua saída, use Data > Code para converter os 0’s para Criança e 1’s para Adulto.

Arquivo de dados
TITANIC.MTW

Variável Descrição
Classe Fator - indica a classe da cabine do passageiro
Sexo Fator - indica o sexo do passageiro
Idade Covariável - idade do passageiro
Status Indica o status de sobrevivência

Nota: A regressão logística binária é uma ferramenta útil para essa análise. Use regressão logística binária para avaliar simultaneamente
todos os três fatores, considerar interações, e tratar a idade como um preditor numérico. (Para aprender mais sobre esse tópico, veja o trei-
namento de Regressão e ANOVA Avançada.)

Testes de Proporção 23
Análise de Variância
Objetivos

• Avaliar o poder de uma análise de variância usando análise de


poder;
• Compara variâncias de grupos usando um teste de variâncias;
• Comparar médias para amostras coletadas em diferentes níveis
usando um modelo linear generalizado;
• Realizar ANOVA com mais de um fator;
• Interpretar gráficos de interação e comparações múltiplas.

Copyright © - GLOBAL TECH

O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br

Análise de Variância 3
Conteúdo

Exemplos e Exercícios Objetivos Página


Poder e Tamanho de Amostra para One-
way ANOVA
Exemplo 1: Determinar o tamanho amostral para uma One-way ANOVA 5
Moldes de Tampas de Canetas com três grupos.
One-way ANOVA e Teste de Igualdade de
Variâncias
Exemplo 2: Testar a igualdade de médias e variâncias entre três grupos 10
Resistência de Tecidos para Bancos de usando o General Linear Model e um teste de igualdade de
Carros variâncias.
Exercício G: Testar a igualdade de médias e variâncias usando o General 27
Moldes de Tampas de Canetas Linear Model e um teste de igualdade de variâncias. Comparar
múltiplas médias com um alvo.
ANOVA - General Linear Model
Exemplo 3: Avaliar os efeitos de vários fatores e suas interações na respos- 28
Distância de Parada ta média usando o General Linear Model.
Exercício H: Avaliar os efeitos de vários fatores em uma resposta média 43
Degustação de Vinho usando o General Linear Model.
Exercício I: Avaliar os efeitos de vários fatores em uma resposta média 44
Desgaste de Tinta usando o General Linear Model.

4 Análise de Variância
Poder e Tamanho de Amostra para One-way ANOVA

Exemplo 1: Moldes de Tampas de Canetas


Problema
Uma empresa que fabrica canetas esferográficas usa um molde composto por 16 cavidades para fabricar tampas plásticas para as
canetas. O fabricante quer comparar as médias das espessuras das tampas em 16 cavidades. Uma diferença entre as médias de duas
cavidades de 0,05 mm ou mais é inaceitável. A partir de dados históricos do processo, o desvio padrão das espessuras de uma única
cavidade é aproximadamente 0,0315 mm.

Determine o tamanho amostral necessário para detectar uma diferença de 0,05 mm com 90% de poder.

Ferramentas
• Power and Sample Size - One-way ANOVA

Arquivo de dados
Nenhum

Análise de Variância 5
Poder e tamanho de amostra para One-way ANOVA
O que é poder e tamanho de amostra para One-way ANOVA
Em uma One-way ANOVA:

• Poder é a probabilidade de detectar uma diferença especificada entre quaisquer duas médias em um conjunto de médias de
tratamentos.
• Tamanho de amostra é o número de amostras por grupo que você precisa para atingir um poder específico.

Quando usar poder e tamanho de amostra para One-way ANOVA


Use essa análise:

• Antes da coleta de dados, para determinar o tamanho amostral.


• Após a coleta de dados, para avaliar o poder de detectar uma diferença especificada nas médias.

Por que usar poder e tamanho de amostra para One-way ANOVA


Poder e tamanho de amostra para One-way ANOVA responde perguntas tais como:

• Qual o tamanho amostral por grupo você precisa para detectar uma diferença especificada entre médias com um poder especí-
fico?
• Qual o poder de um teste detectar uma diferença especificada entre médias, baseado em um tamanho amostral específico?
• Qual a diferença detectável com um poder e um tamanho de amostra específicos?

Nota: Registre o poder de um teste quando você não detectar uma diferença (não rejeitar H0).

6 Análise de Variância
Determinando tamanho amostral para uma One-way ANOVA
Number of Levels
Entre com o número de níveis que o fator contém.

Sample size
Se você quiser determinar o tamanho amostral por nível, deixe em branco.

Values of the maximum difference between means


O poder de um teste depende da magnitude da diferença que você quer que o teste detecte. Em uma One-way ANOVA, especifique o
valor da diferença máxima entre todas as médias.

Power values
Digite o(s) valor(es) de poder desejado(s). Estatísticos tipicamente consideram valores de poder maiores que 0,80 aceitáveis, embora
você deva considerar as consequências do erro Tipo II. Um experimento com 80% de poder tem 20% de chance de não identificar o efeito
de interesse quando ele realmente existir.

Power and Sample Size for One-Way ANOVA


1) Selecione File > New > Minitab Project. Clique em OK.
2) Selecione Stat > Power and Sample Size > One-Way ANOVA.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

Análise de Variância 7
Interpretando os resultados
Sample Size
Um tamanho amostral (Sample Size) de 20 tampas por cavidade fornece um poder de 0,909108 para detectar uma diferença máxima de
0,05 mm entre quaisquer duas cavidades.

Target Power e Actual Power


O poder alvo (Target Power) é o valor de poder que você especifica na caixa de diálogo. Como o tamanho amostral precisa ser um valor
inteiro, você raramente obterá exatamente o poder alvo.

O poder real (Actual Power) é o poder atingido com o tamanho amostral recomendado. Como o Minitab arredonda o tamanho amostral
calculado para o inteiro mais próximo, o poder real será sempre levemente maior que o poder alvo.

Power Curve
Neste exemplo, a diferença representa a diferença máxima nas médias entre as 16 cavidades. O poder é razoavelmente bom para de-
tectar a diferença máxima de 0,05 mm com 20 amostras por cavidade.

Power and Sample Size

One-way ANOVA

Alpha = 0,05 Assumed standard deviation = 0,0315 Number of Levels = 16

Sample Target Maximum


SS Means Size Power Actual Power Difference
0,00125 20 0,9 0,909108 0,05

The sample size is for each level.

8 Análise de Variância
Considerações Finais
Resumo e conclusões
• Um tamanho amostral de 20 tampas de canetas por cavidade fornece um poder de 0,909108 para detectar uma diferença média
de 0,05 mm entre todas as cavidades.
• Quando maior o tamanho amostral, maior o poder do teste. Colete observações suficientes para atingir o poder adequado, mas
não tantas amostras, para que você não perca tempo e dinheiro coletanto amostras desnecessárias.

Considerações adicionais
Em uma One-way ANOVA, os cálculos de poder e tamanho de amostra assumem que os tamanhos amostrais e variâncias são iguais
em todos os grupos.

Análise de Variância 9
One-way ANOVA e Teste de Igualdade de Variâncias

Exemplo 2: Resistência de Tecidos para Bancos de Carros


Problema
Três inspetores da qualidade, treinados para medir a resistência à ruptura de tecidos para bancos de carros, participam de um estudo de
medição. Eles querem testar a diferença entre os operadores e comparar as médias e as variâncias de suas medições.

Coleta de dados
Paulo, Ana e Marcos mediram a resistência à ruptura de 25 amostras de tecidos. Todas as 75 amostras vêm do mesmo lote de produto.

Ferramentas
• Individual Value Plot
• Probability Plot
• Test for Equal Variances
• General Linear Model

Arquivo de dados
tecidos.mtw

Variável Descrição
Operador O nome do operador que obteve a medição
Resistência Resistência à ruptura do tecido (kg)

10 Análise de Variância
One-way ANOVA
O que é One-way ANOVA
O procedimento One-way ANOVA (análise de variância) é uma generalização do teste t para amostras independentes. Diferente do teste
t, entretanto, a One-way ANOVA pode ser usada para analisar as médias de mais de dois grupos (amostras) ao mesmo tempo.

A idéia básica da ANOVA é que a variação dentro dos grupos é devida somente ao erro aleatório.

Se a variação entre os grupos for similar à variação


dentro dos grupos (gráfico à direita), é provável que
as médias dos grupos sejam diferentes devido ape-
nas ao erro aleatório.

Se a variação entre grupos for grande em relação à


variação dentro dos grupos (gráfico inferior), é pro-
vável que as diferenças entre as médias dos gru-
pos sejam causadas por diferenças nos níveis de
fatores.

Análise de Variância 11
One-way ANOVA
Quando usar One-way ANOVA
Use One-way ANOVA (também chamada de ANOVA para um fator) se você tiver dados de resposta contínuos para dois ou mais níveis
fixos de um único fator.

Antes de aceitar os resultados de uma ANOVA, verificar se as seguintes suposições sobre os resíduos são válidas para os dados. Eles
devem:

• Ser independentes (e, portanto, aleatórios);


• Não se desviar substancialmente de uma distribuição normal;
• Ter variância constante ao longo de todos os níveis dos fatores.

Por que usar One-way ANOVA

One-way ANOVA responde perguntas tais como:


• As médias de uma característica do produto diferem entre os fornecedores?
• As médias dos grupos de tratamentos são diferentes?
Por exemplo:

• As resistências médias das amostras de plástico de quatro fornecedores são diferentes?


• A combustão se torna mais eficiente quando se utiliza o aditivo A de combustível, o aditivo B, ou nenhum aditivo?

12 Análise de Variância
Visualizando os dados
Visualize os dados em um Individual Value Plot antes de analisá-los.

Individual Value Plot


1) Abra o arquivo TECIDOS.MTW.
2) Selecione Graph > Individual Value Plot.
3) Em One Y, selecione With Groups. Clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:

5) Clique em Data View.


6) Marque Individual symbols, Mean symbol e Mean connect line.
7) Clique em OK em cada caixa de diálogo.

Análise de Variância 13
Interpretando os resultados
A média das medidas de resistência à ruptura do Paulo parece ser inferior às médias da Ana e do Marcos. Use análise de variância para
determinar se a diferença entre as resistências médias dos operadores é estatisticamente significantiva.

Como esse gráfico exibe as medidas de resistência individuais de cada operador, você também pode visualizar quaisquer diferenças na
variabilidade entre os operadores. A variabilidade não parece ser diferente entre os operadores, mas você deve conduzir um teste de
igualdade de variâncias para se assegurar de que qualquer diferença na variabilidade não é significativa.

Próximo passo
Verifique as suposições de normalidade.

14 Análise de Variância
Verificando a normalidade
Antes de prosseguir com a análise, certifique-se de que as medidas de resistência de cada operador são uma amostra de observações
de uma população normalmente distribuída.

Probability Plot
1) Selecione Graph > Probability Plot > Multiple, e clique em OK.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Análise de Variância 15
Interpretando os resultados
Os p-valores do teste de normalidade de Anderson-Darling para Ana, Marcos e Paulo são 0,419, 0,371 e 0,975, respectivamente. Usando
um α de 0,05, não existe evidência suficiente para sugerir que os dados não seguem uma distribuição normal.

Próximo passo
Teste de igualdade de variâncias.

16 Análise de Variância
Teste de igualdade de variâncias:
variação dentro dos operadores
Validando a suposição de igualdade de variâncias
Antes de comparar as médias em uma ANOVA, verifique a igualdade de variâncias. Variâncias diferentes violam uma suposição da
ANOVA.

As hipóteses para esse teste são:

• H0: Todos os operadores têm a mesma variância.


• HA: Nem todos os operadores têm a mesma variância.

Avaliando a precisão dos operadores


A variabilidade dentro de um operador vêm do erro das medições e da variação peça-a-peça. Como as peças são atribuídas aleato-
riamente aos operadores, assuma que quaisquer diferenças significativas na variabilidade entre os operadores são devido ao erro de
medição, e não à variação peça-a-peça.

Test for Equal Variances


1) Selecione Stat > ANOVA > Test for Equal Variances;
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Análise de Variância 17
Interpretando os resultados
Intervalos de confiança
Intervalos de confiança são úteis para comparar σ ao longo dos diferentes grupos e avaliar a precisão das estimativas. Entretanto, baseie
a decisão sobre a igualdade de variâncias no teste de variâncias apropriado.

Teste de variâncias
O Minitab oferece dois testes de variância:

• Teste de Bartlett, que assume uma distribuição normal;


• Teste de Levene, que permite distribuições simétricas não-normais.

Nota: Um teste F substitui o teste de Bartlett quando você tiver apenas dois níveis.

Implicações
Ambos os testes de Bartlett (p = 0,301) e de Levene (p = 0,400) indicam que as variâncias não são significativamente diferentes. Esse
resultado sugere que a diferença observada nos desvios-padrões amostrais entre os grupos é provavelmente devida somente à variação
aleatória da amostra. A suposição de igualdade de variâncias da ANOVA está verificada.

A variação dentro dos grupos neste experimento combina a repetibilidade e a variação dentro dos lotes. Como o teste é destrutivo, não
é possível estimar cada uma separadamente.

Próximo passo
Gere os resultados da One-way ANOVA.

18 Análise de Variância
One-way ANOVA: diferenças entre os operadores
Use o General Linear Model (GLM) para comparar as resistências médias dos três operadores. As hipóteses são:

• H0: Todas os operadores têm a mesma média (sem vício).


• HA: Nem todos os operadores têm a mesma média (vício).

Alternativas
A mesma análise está disponível nas rotas Stat > ANOVA > One-way e Stat > ANOVA > Balanced ANOVA.

General Linear Model


1) Selecione Stat > ANOVA > General Linear Model.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Análise de Variância 19
Interpretando os resultados
Análise de variância
A primeira linha de números na tabela Analysis of Variance (Análise de Variância) contém as estatísticas associadas com o fator , Ope-
rador. A linha seguinte contém as estatísticas associadas com o erro aleatório (Error).

Graus de liberdade
Os graus de liberdade (DF) relacionam-se ao número de valores usados para calcular a soma de quadrados (SS) para cada fonte de
variação.

Soma de quadrados
A soma de quadrados (SS) mede a variabilidade com a qual cada fonte de variação contribui para os dados. Observe que a variabilidade
total nos dados (Seq SS Total, 68,5163) é igual a Seq SS para Operador (6,6208) mais a Seq SS para Erro (61,8954).

Quadrado médio
O quadrado médio (Adj MS) para cada fonte é igual a Adj SS dividida por DF (graus de liberdade).

• Adj MS para o fator (Operador) é uma estimativa da variabilidade entre os grupos.


• Adj MS para erro é uma estimativa da variabilidade dentro dos grupos.

General Linear Model: Resistência versus Operador

Factor Type Levels Values


Operador fixed 3 Ana; Marcos; Paulo

Analysis of Variance for Resistência, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163

S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%

Unusual Observations for Resistência

Obs Resistência Fit SE Fit Residual St Resid


6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R

R denotes an observation with a large standardized residual.

20 Análise de Variância
Interpretando os resultados
Estatística F
F é a razão da variabilidade atribuída ao fator pela variabilidade atribuída ao erro.

• Se as diferenças entre as médias dos níveis do fator são similares à que você esperaria devido à variação aleatória, a razão F
será próxima de 1.
• Se a variabilidade entre as médias dos níveis do fator são maiores que a esperada devido à variação aleatória, a razão F será
maior que 1.

P-valor
O p-valor é a probabilidade de F ser tão grande (ou maior) quanto seria caso o fator não tivesse efeito. Um alto valor de F sugere que as
médias dos níveis dos fatores são mais diferentes do que seria esperado devido ao acaso; portanto o p-valor é pequeno.

Use o p-valor para testar as seguintes hipóteses:

• Ho : As médias dos níveis dos fatores são as mesmas.


• H1: Ao menos duas das médias dos níveis dos fatores são diferentes.

General Linear Model: Resistência versus Operador

Factor Type Levels Values


Operador fixed 3 Ana; Marcos; Paulo

Analysis of Variance for Resistência, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163

S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%

Unusual Observations for Resistência

Obs Resistência Fit SE Fit Residual St Resid


6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R

R denotes an observation with a large standardized residual.

Análise de Variância 21
Interpretando os resultados
Observações não-usuais
O minitab identifica qualquer observação com resíduo maior que dois desvios padrão em relação a zero como uma observação não-
usual. Considere estudar essas observações posteriormente.

Nota: O Minitab identifica aproximadamente 5% das observações como não-usuais devido à variação aleatória. Com um tamanho amostral de
75, espere encontrar cerca de 4 observações não-usuais.

Conclusão
Como o p-valor = 0,026, conclua que ao menos dois dos operadores têm diferentes médias de resistência ao nível α = 0,05.

O valor R2 de 9,66% indica que os vícios das medições dos operadores explicam 9,66% da variação nas medidas de resistência.

General Linear Model: Resistência versus Operador

Factor Type Levels Values


Operador fixed 3 Ana; Marcos; Paulo

Analysis of Variance for Resistência, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Operador 2 6,6208 6,6208 3,3104 3,85 0,026
Error 72 61,8954 61,8954 0,8597
Total 74 68,5163

S = 0,927178 R-Sq = 9,66% R-Sq(adj) = 7,15%

Unusual Observations for Resistência

Obs Resistência Fit SE Fit Residual St Resid


6 12,6400 10,2300 0,1854 2,4100 2,65 R
60 12,5400 10,4364 0,1854 2,1036 2,32 R
64 12,5200 10,4364 0,1854 2,0836 2,29 R
75 8,5300 10,4364 0,1854 -1,9064 -2,10 R

R denotes an observation with a large standardized residual.

Próximo passo
Construa os gráfico de resíduos e de efeitos principais.

22 Análise de Variância
Criando gráficos de resíduos e de efeitos principais
Para se assegurar de que os resultados são válidos, verifique se todas as suposições sobre os erros do modelo foram satisfeitas.

Selecione gráficos Four-in-one para exibir os quatro gráficos individuais de resíduos em uma única página, em quatro painéis diferen-
tes.

Resíduos
• Regular residuals - As diferenças entre os valores observados e preditos na mesma unidade de seus dados.
• Standardized residuals - Os resíduos regulares padronizados em unidades de desvios padrão.
• Deleted residuals - Para calcular o resíduo da i-ésima observação, primeiro remova a i-ésima observação do conjunto de dados,
estime a i-ésima observação e calcule a diferença entre o valor observado e o valor predito. E finalmente, divida a diferença por
seu desvio padrão.

Gráfico de efeitos principais


Use o gráfico de efeitos principais para exibir as médias de cada grupo, se a ANOVA detectar diferenças significativas entre as médias.

General Linear Model


1) Selecione Stat > ANOVA > General Linear Model ou pressione Ctrl + E.
2) Clique em Graphs. Em Residual Plots, escolha Four in one.
3) Clique em OK.
4) Clique em Factor Plots.
5) Preencha a caixa de diálogo como mostra a figura abaixo:

6) Clique em OK em cada caixa de diálogo.

Análise de Variância 23
Interpretando os resultados
Gráfico de resíduos Four-in-one
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores ajustados.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.

24 Análise de Variância
Interpretando os resultados
Gráfico de efeitos principais
Como a média das medidas do Paulo é bem menor que as médias da Ana e Marcos, existe vício de medição entre os operadores. Você
também pode ter vício de medição entre um operador e a medida real. Entretanto, você não pode avaliar esse tipo de vício com essa
análise, pois você não conhece o valor correto da medição (o padrão).

Como um gráfico de efeitos principais não indica quanta variabilidade existe dentro de cada grupo, você não pode usá-lo para exibir
significância estatística. Tenha cuidado ao interpretar um gráfico de fatores quando a ANOVA não indica uma diferença significativa.

Análise de Variância 25
Considerações Finais
Resumo e conclusões
• A análise não indica que os operadores têm variabilidade diferente ao medir a resistência dos tecidos de bancos de carros.
• A análise indica forte evidência de um vício entre pelo menos dois operadores.
• Desta análise, os inspetores da qualidade não podem avaliar quais operadores estão medindo corretamente, apenas que eles
estão medindo de forma diferente, em média.

Considerações adicionais
• A aleatorização é extremamente importante neste exemplo. Sem aleatorização, um operador pode obter resistências significati-
vamente mais fortes ou fracas que outro operador. Se isso acontecer, você pode atribuir incorretamente a variação peça-a-peça
à variação do operador.
• Essa análise é um estudo de reprodutibilidade de sistema de medição para um teste destrutivo. A análise Stat > Quality Tools >
Gage Study requer um componente de repetibilidade, o que não era o foco deste estudo, e portanto, não foi medido.
• Comparar os três operadores em uma ANOVA é preferível a comparar dois operadores de cada vez com testes-t para 2 amostras.
Múltiplos testes aumentam o risco de um erro Tipo I (rejeitar H0 incorretamente).
• Muitas ferramentas estatísticas avaliam sistemas de medição. O Gage R&R não é sempre a maneira mais apropriada ou eficiente
de avaliar determinadas propriedades estatísticas de um sistema de medição

26 Análise de Variância
Exercício G: Moldes de Tampas de Canetas
Problema
Uma empresa que fabrica canetas esferográficas usa um molde composto por 16 cavidades para fabricar tampas plásticas para as cane-
tas. A espessura alvo para a tampa é de 10 mm. O fabricante quer comparar as médias e variâncias nas espessuras para as 16 cavidades
e determinar se algumas das médias das cavidades são diferentes do alvo de 10 mm.

Coleta de dados
A máquina armazena tampas de canetas para cada uma das 16 cavidades em 16 caixas separadas. Ao final de cada turno, inspetores
coletam uma amostra aleatória de 20 tampas de cada caixa e medem a espessura (em mm) de cada.

Instruções
1) Use Stat > Basic Statistics > Display Descriptive Statistics para construir boxplots para as 16 cavidades.
2) Use Stat > ANOVA > Test for Equal Variances para comparar as variâncias nas 16 cavidades.
3) Use Stat > ANOVA > General Linear Model para comparar as médias nas 16 cavidades. Selecione os gráficos de resíduos
para identificar quaisquer observações não-usuais.
4) Use Stat > ANOVA > Interval Plot para determinar se algumas das médias das cavidades são diferentes do alvo. Adicione uma
linha de referência no eixo-y clicando em Scale > Reference Lines. Quais cavidades você concluiria que não estão ajustadas
no alvo?
5) No Interval Plot, clique duas vezes no limite de um intervalo de confiança, então clique em Options e marque Bonferroni.
Quais cavidades estão fora do alvo?

Arquivo de dados
cavidades.MTW

Variável Descrição
Cavidade Número da cavidade
Espessura Espessura da abertura da tampa da caneta (mm)

Nota: Ao usar um único intervalo de 95% de confiança, o risco de concluir incorretamente que a média está fora do alvo é de 5%. Essa é a taxa
de erro Tipo I. Ao usar múltiplos intervalos de confiança, a taxa de erro Tipo I global aumenta à medida que o número de intervalos de confian-
ça aumenta. Intervalos de Bonferroni mantêm a taxa de erro Tipo I global em 5%, quando você gera múltiplos intervalos de confiança.

Análise de Variância 27
ANOVA - General Linear Model

Exemplo 3: Distância de Parada


Problema
Engenheiros desejam saber se os seguintes fatores afetam a distância necessária para parar um carro parar em um pavimento molha-
do:

• O modelo do pneu;
• A banda de rodagem do pneu;
• Se os freios antitravamento (freios ABS) estão habilitados.

Coleta de dados
Os engenheiros coletaram todos os dados usando o mesmo carro. Eles mediram a distância necessária para parar o carro a uma velo-
cidade de 60 km/h em um pavimento molhado para cada combinação dos fatores (Modelo, Profundidade e ABS). Eles executaram os
experimentos em ordem aleatória.

Ferramentas
• Descriptive Statistics
• General Linear Model
• Main Effects Plot
• Interactions Plot

Arquivo de dados
DISTÂNCIA.mtw

Variável Descrição
Modelo Fator - modelo do pneu (GT, LS e MX)
Banda de rodagem Fator - banda de rodagem (1,5 e 10 mm)
ABS Fator - indica a condição do freio ABS (habilitado, desabilitado)
Distância Resposta - distância para o veículo parar em um pavimento molhado (metros)

28 Análise de Variância
ANOVA - General Linear Model (GLM)
O que é o modelo linear generalizado
O modelo linear generalizado do Minitab avalia a análise de variância em várias situações, incluindo experimentos balanceados e não-
balanceados, análise de covariância, entre outras.

Quando usar o modelo linear generalizado


Use o GLM para realizar uma análise de variância quando você tiver respostas contínuas para níveis fixos de um ou mais fatores. O
procedimento GLM do Minitab trata:

• Fatores cruzados ou aninhados;


• Fatores fixos ou aleatórios;
• Modelos mistos;
• Experimentos balanceados e não-balanceados;
• Preditores contínuos como covariáveis.

Por que usar o modelo linear generalizado


O GLM responde perguntas tais como:

• Existem diferenças em seu produto devido a vários fatores identificados?


• Certas combinações dos níveis dos fatores levam a uma resposta ideal?
Por exemplo:

• A cor do plástico muda em função da temperatura, umidade ou pressão?


• A cor do plástico é geralmente melhor quando a pressão é alta, ou isso depende do nível de umidade?

Análise de Variância 29
Visualizando os dados em tabelas
Exiba os dados em tabelas para examinar possíveis diferenças entre as 12 combinações de tratamentos.

Descriptive Statistics
1) Abra o arquivo DISTÂNCIA.MTW.
2) Selecione Stat > Tables > Descriptive Statistics.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em Categorical Variables.


5) Desmarque Counts e clique em OK.
6) Clique em Associated Variables.
7) Em Associated variables, entre com Distância.
8) Em Display, marque Means.
9) Clique em OK em cada caixa de diálogo..

30 Análise de Variância
Interpretando os resultados
Efeitos principais
A distância de parada média quando o ABS está desabilitado (27,63 m) é maior que a distância de parada média quando o ABS está
habilitado (22,79 m). Essa diferença é o efeito principal de ABS.

Efeitos de interação
Observe que:

• Quando ABS estava desabilitado, a banda de rodagem de 1,5 mm tinha uma distância de parada menor (média = 27,47 m) que
a banda de rodagem de 10 mm (média = 27,78 m).
• Quando ABS estava habilitado, a banda de rodagem de 10 mm tinha uma distância de parada menor (média = 22,50 m) que a
banda de rodagem de 1,5 mm (média = 23,08 m).
Esse efeito é a interação ABS*Banda de rodagem, onde o efeito da banda de rodagem depende do nível de ABS. (Entretanto, as diferen-
ças não são grandes. O teste apropriado provavelmente revelará que essa interação não é significativa.)

Tabulated statistics: Modelo; Banda de rodagem; ABS

Results for ABS = desabilitado


Rows: Modelo Columns: Banda de rodagem

1,5 10,0 All

GT 25,30 27,45 26,38


LS 29,40 27,55 28,48
MX 27,70 28,35 28,02
All 27,47 27,78 27,63

Cell Contents: Distância : Mean

Results for ABS = habilitado


Rows: Modelo Columns: Banda de rodagem

1,5 10,0 All

GT 20,90 20,40 20,65


LS 25,15 23,80 24,48
MX 23,20 23,30 23,25
All 23,08 22,50 22,79

Cell Contents: Distância : Mean

Análise de Variância 31
Analisando o modelo completo
Use a ferramenta General Linear Model para analisar o modelo completo, que contém todos os efeitos principais e interações possí-
veis.

Notação
Para indicar os termos de interação, ligue os nomes dos fatores com asteriscos. Assim, o modelo completo para os dados de distância
de parada irá conter os seguintes termos:

Efeitos principais Interações de segunda ordem Interações de terceira ordem


Modelo Modelo*Banda de rodagem Modelo*Banda de rodagem*ABS
Banda de rodagem Modelo*ABS
ABS Banda de rodagem*ABS

Para facilitar, você pode entrar com o modelo completo usando a notação da barra vertical:

Modelo | Banda de rodagem | ABS

Com as barras verticais, o Minitab considera todos os efeitos principais e interações entre os termos indicados.

General Linear Model


1) Selecione Stat > ANOVA > General Linear Model.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

32 Análise de Variância
Interpretando os resultados
Use os p-valores para testar a significância de cada termo. Neste modelo, os seguintes efeitos são significativos ao nível α de 0,05:

• Modelo (P = 0,003)
• ABS (P = 0,000)
Como ABS tem apenas dois níveis (habilitado e desabilitado), você sabe que a significância deste termo reflete uma diferença significa-
tiva entre os dois níveis.

Testes de comparação
Como Modelo tem três níveis, conduza comparações estatísticas para determinar quais níveis são diferentes entre si.

General Linear Model: Distância versus Modelo; Banda de rodagem; ABS


Factor Type Levels Values
Modelo fixed 3 GT; LS; MX
Banda de rodagem fixed 2 1,5; 10,0
ABS fixed 2 desabilitado; habilitado

Analysis of Variance for Distancia, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Modelo 2 37,316 37,316 18,658 9,41 0,003
Banda de rodagem 1 0,107 0,107 0,107 0,05 0,821
ABS 1 140,167 140,167 140,167 70,67 0,000
Modelo*Banda de rodagem 2 6,656 6,656 3,328 1,68 0,228
Modelo*ABS 2 2,986 2,986 1,493 0,75 0,492
Banda de rodagem*ABS 1 1,215 1,215 1,215 0,61 0,449
Modelo*Banda de rodagem*ABS 2 2,573 2,573 1,286 0,65 0,540
Error 12 23,800 23,800 1,983
Total 23 214,818

S = 1,40831 R-Sq = 88,92% R-Sq(adj) = 78,77%

Unusual Observations for Distancia

Obs Distancia Fit SE Fit Residual St Resid


4 25,3000 23,3000 0,9958 2,0000 2,01 R
15 21,3000 23,3000 0,9958 -2,0000 -2,01 R

R denotes an observation with a large standardized residual.

Próximo passo
Elimine os termos não significativos e verifique os resíduos.

Análise de Variância 33
Ajustando o modelo reduzido
Ajuste um modelo reduzido removendo os termos não significativos. Use General Linear Model para ajustar o modelo apenas com Mo-
delo e ABS.

Crie gráficos de resíduos para validar as suposições do teste.

General Linear Model


1) Selecione Stat > ANOVA > General Linear Model.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Graphs.
4) Em Residuals Plots, marque Four in one.
5) Clique em OK em cada caixa de diálogo.

34 Análise de Variância
Interpretando os resultados
Conforme esperado, tanto Modelo quanto ABS são significativos ao nível de significância de 0,05 no modelo reduzido.

General Linear Model: Distância versus Modelo; ABS


Factor Type Levels Values
Modelo fixed 3 GT; LS; MX
ABS fixed 2 desabilitado; habilitado

Analysis of Variance for Distancia, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Modelo 2 37,316 37,316 18,658 9,99 0,001
ABS 1 140,167 140,167 140,167 75,08 0,000
Error 20 37,336 37,336 1,867
Total 23 214,818

S = 1,36631 R-Sq = 82,62% R-Sq(adj) = 80,01%

Análise de Variância 35
Interpretando os resultados
Gráfico de resíduos Four-in-one
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.

Próximo passo
Construa os gráficos de efeitos principais e interações.

36 Análise de Variância
Gráfico de efeitos principais e interações
Comparação gráfica de médias
Agora que você selecionou um modelo, visualize os resultados da análise usando gráficos de efeitos principais e interações.

Embora você não tenha incluído todos os termos no modelo final, você pode querer incluir todos os fatores nos gráficos, para visualizar
fatores significativos e não-significativos.

Main Effects Plot e Interactions Plot


1) Selecione Stat > ANOVA > Main Effects Plot;
2) Em Responses, entre com Distância;
3) Em Factors, entre com Modelo ‘Banda de rodagem’ ABS;
4) Clique em OK;
5) Selecione Stat > ANOVA > Interactions Plot;
6) Em Responses, entre com Distância;
7) Em Factors, entre com Modelo ‘Banda de rodagem’ ABS;
8) Clique em OK.

Análise de Variância 37
Interpretando os resultados
Os gráficos de efeitos principais revelam que Modelo e ABS tiveram os maiores efeitos observados na distância de parada. Esses gráfi-
cos também mostram que:

• O pneu com a menor distância de parada foi o GT


• A distância de parada foi menor com o sistema ABS habilitado que desabilitado
O gráfico de Banda de rodagem demonstra pouca inclinação, sugerindo que este efeito não é significativo. As duas bandas de rodagem
produziram distâncias de parada quase idênticas.

38 Análise de Variância
Interpretando os resultados
Os gráficos de interações ilustram todas as interações de segunda ordem. O gráfico exibe as médias das combinações dos níveis dos
fatores.

As linhas de cada gráfico são quase que paralelas, sugerindo que não existe interação entre quaisquer dos termos. Alguma evidência de
interação aparece entre Modelo e Banda de rodagem, mas a ANOVA indicou que esta não foi significativa.

Próximo passo
Use comparações múltiplas para comparar todos os níveis dos fatores e ver quais níveis diferem de forma significativa.

Análise de Variância 39
Executando comparações pareadas
Use comparações pareadas para testar as diferenças entre os níveis dos fatores singificativos. Os resultados da análise de variância
indicam apenas que pelo menos dois níveis diferem entre si. Use comparações múltiplas para comparar todos os níveis dos fatores para
descobrir quais diferem significativamente entre si.

Nesse exemplo, você pode concluir da ANOVA original que existe uma diferença significativa entre o modelo do pneu, com a maior dife-
rença média observada (GT e LS). Você não pode usar esses resultados para determinar se o pneu MX é significantemente diferente do
pneu GT ou do LS. Use comparações pareadas para concluir se os modelos do pneu diferem entre si.

General Linear Model


1) Selecione Stat > ANOVA > General Linear Model.
2) Pressione F3 para restaurar as configurações originais.
3) Em Responses, entre com Distância.
4) Em Model, entre com Modelo ABS.
5) Clique em Comparisons.
6) Preencha a caixa de diálogo como mostra a figura abaixo:

7) Clique em OK em cada caixa de diálogo.

40 Análise de Variância
Interpretando os resultados
A primeira tabela compara o pneu GT com os pneus LS e MX. Os resultados revelam que a distância de parada média obtida com o pneu
GT foi significativamente menor do que aquela obtida com os pneus LS (P = 0,0009) ou MX (P = 0,0146).

A segunda tabela compara os pneus LS e MX, que não se mostraram significativamente diferentes (P = 0,4522).

Tukey Simultaneous Tests


Response Variable Distancia
All Pairwise Comparisons among Levels of Modelo
Modelo = GT subtracted from:

Difference SE of Adjusted
Modelo of Means Difference T-Value P-Value
LS 2,962 0,6832 4,337 0,0009
MX 2,125 0,6832 3,111 0,0146

Modelo = LS subtracted from:

Difference SE of Adjusted
Modelo of Means Difference T-Value P-Value
MX -0,8375 0,6832 -1,226 0,4522

Análise de Variância 41
Considerações finais
Resumo e conclusões
Em termos de distância de parada em um pavimento molhado:

• O melhor pneu é o GT
• É melhor ter o ABS habilitado
• A banda de rodagem (1,5 ou 10,0 mm) não influencia

Considerações adicionais
O procedimento General Linear Model tem as seguintes vantagens:

• Você pode utilizá-lo com experimentos desbalanceados;


• Você pode avaliar diferenças entre as médias individuais dos níveis.
Valide as suposições dos resíduos antes de tirar quaisquer conclusões finais sobre os resultados da ANOVA.

Esta análise envolveu fatores fixos - os níveis incluídos eram de interesse direto e não podem ser generalizados para outros níveis. O
procedimento General Linear Model também pode ser usado com fatores aleatórios, que são fatores para os quais os níveis são sele-
cionados de forma aleatória para representar uma população maior de níveis possíveis. Estudos de medição R&R frequentemente usam
fatores aleatórios.

Todos os fatores nesta análise foram cruzados - cada nível de Modelo podia ser testado com cada nível de Profundidade. Os fatores são
considerados hierárquicos (ou aninhados) se todos os níveis de um fator ocorrem completamente dentro de um nível de outro fator.

42 Análise de Variância
Exercício H: Degustação de Vinho
Problema
Uma companhia quer determinar se existem diferenças significativas de qualidade entre três vinhos: Matador, Conquistador e Saeta.

Coleta de dados
Foram selecionados dez enólogos (juízes), e cada um degustou os três vinhos e os pontuou por qualidade geral. A ordem de degustação
foi aleatória, de modo que cada enólogo degustou os vinhos em ordem diferente.

Instruções
1) Use General Linear Model para analisar a Nota como uma função do Vinho e do Juiz.
2) Verifique os gráficos de resíduos.
3) Inclua comparações pareadas do fator Vinho para investigar diferenças entre os vinhos individuais.
4) Gere um gráfico de efeitos principais para Vinho.

Arquivo de dados

Vinho.mtw

Variável Descrição
Juiz Nome do juiz
Vinho Nome do vinho
Ensaio Ordem na qual cada juiz degustou o vinho
Ordem de degustação Ordem na qual cada juiz degustou o vinho dentro do ensaio
Nota Pontuação dada pelo juiz

Análise de Variância 43
Exercício I: Desgaste de Tinta

Problema
O Departamento de Transportes de Minas Gerais está estudando as características de desgaste de quatro tipos de tintas amarelas para
a pintura de rodovias.

Coleta de dados
Trabalhadores aplicaram faixas de teste de cada tinta em ruas de quatro municípios da região metropolitana de Belo Horizonte: Sabará,
Santa Luzia, Contagem e Vespasiano. Após longa exposição ao clima e ao tráfego, os trabalhadores mediram o desgaste da tinta em
cada um dos quatro municípios. Uma alta pontuação indica que menos tinta foi desgastada.

Instruções
1) Use General Linear Model para determinar se o desgaste médio dos quatro tipos de tinta foi igual.
2) Use General Linear Model para determinar se o desgaste médio foi diferente nas localidades e tipos de tinta.
3) Verifique os gráficos de resíduos.
4) Por que o tipo de tinta foi significativo na segunda análise, mas não na primeira?
5) Use comparações pareadas para determinar quais tintas são significativamente diferentes entre si. Mantenha a localidade no
modelo como uma variável de bloco.

Arquivo de dados

DESGASTE.mtw

Variável Descrição
Localidade Fator - localidade do teste
Tinta Fator - tipo de tinta testada
Desgaste Resposta - desgaste da tinta

44 Análise de Variância
Correlação e Regressão
Objetivos

• Medir o grau de associação linear entre duas ou mais variáveis


usando correlação;
• Modelar a relação entre uma variável resposta contínua e uma
variável preditora.

Copyright © - GLOBAL TECH

O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br

Correlação e Regressão 3
Conteúdo

Exemplos e Exercícios Objetivos Página


Correlação
Exemplo 1: Medir o grau de associação linear entre duas variáveis usando 5
Comparando Sistemas de Medição correlação.
Correlação Entre Múltiplas Variáveis
Exemplo 2: Demonstrar a redução de variáveis usando correlação. 13
Controle de Qualidade de Tampas de Gar-
rafas
Regressão Simples
Exemplo 3: Avaliar e modelar a relação linear entre duas variáveis usando 22
Impurezas na Tinta um Fitted Line Plot. Verificar as suposições do modelo usando
gráficos de resíduos.
Regressão Polinomial
Exemplo 4: Avaliar e modelar a relação quadrática entre duas variáveis 36
Projeto de um Interruptor de Pressão usando um Fitted Line Plot. Verificar as suposições do modelo
usando gráficos de resíduos.
Exercício J: Avaliar e modelar a relação entre duas variáveis usando um 51
Escudos de Erosão Fitted Line Plot.
Exercício K: Avaliar e modelar a relação entre duas variáveis usando um 52
Escapamento de Diesel Fitted Line Plot.

4 Correlação e Regressão
Correlação

Exemplo 1: Comparando Sistemas de Medição


Problema
Engenheiros desenvolveram um sistema de medição online que eles acreditam que irá medir o pH com tanta exatidão quanto o atual
sistema em seu laboratório. O sistema online forneceria informações mais rápido, além de sua habilidade de ajustar o sistema em tempo
real. Eles querem saber se os dois sistemas produzem leituras similares de pH.

Coleta de dados
Engenheiros usaram ambos os sistemas para medir o pH de 20 lotes do produto selecionados aleatoriamente.

Ferramentas
• Scatterplot
• Correlation

Arquivo de dados
LABORATÓRIO.MTW

Variável Descrição
Lab Medidas do pH obtidas pelo sistema laboratorial
Online Medidas do pH obtidas pelo sistema online

Correlação e Regressão 5
Correlação
O que é correlação
O coeficiente de correlação amostral, r, mede o grau de associação linear entre duas variáveis (o grau no qual as mudanças em uma
variável acompanham as mudanças na outra).

Uma correlação positiva indica que ambas as variáveis tendem a crescer ou decrescer juntas. Uma correlação negativa indica que uma
variável cresce enquanto a outra decresce.

Quando usar correlação


Use a análise de correlação quando você tiver dados para duas variáveis contínuas e quiser determinar se elas têm uma relação linear.
A correlação não irá detectar se as variáveis estiverem associadas de forma não-linear.

Alguns estatísticos acreditam que você não deveria usar correlação se uma variável é uma resposta dependente da outra.

Por que usar correlação


A correlação responde perguntas tais como:

• Existe algum tipo de relação linear entre duas variáveis?


• Quão grande é esta relação?
Por exemplo:

• Existe uma relação entre a temperatura e viscosidade do óleo de cozinha?


• Quão forte é a relação entre a exposição aos raios ultravioleta e a redução da força do nylon?

6 Correlação e Regressão
Padrões típicos de associação
(Nota: Estes resultados não são iguais aos obtidos no exemplo)

De uma maneira geral, sempre que você traçar um diagrama de dispersão com o intuito de estudar a existência de relação entre duas
variáveis, o gráfico cairá em uma das quatro categorias de associação ilustradas abaixo:

Associação linear positiva


Em uma associação linear positiva,valores altos da variável X es-
tão associados com valores altos da variável Y, e vice-versa.

Associação linear negativa

◄ Em uma associação linear negativa, valores altos da variável X


estão associados com valores baixos da variável Y.

Associação não-linear
Em geral, uma associação não-linear é mais complexa de ser vi-
sualizada. Por exemplo, em uma relação quadrática, valores altos
e baixos da variável X estão associados com valores altos de Y
enquanto valores medianos de X estão associados com os valo-
res baixos da variável Y (veja figura). Além desta também pode-

mos observar outras associações tais como:

senoidais, exponenciais, logarítmicas, etc.

Ausência de associação

◄ As variáveis do exemplo ao lado não apresentam nenhuma espé-


cie de associação. Os valores da variável X não estão claramente
associados como nenhum valor particular da variável Y.

Correlação e Regressão 7
Plotando os dados
Construa um gráfico de dispersão matricial para ajudar a visualizar a relação entre as medidas obtidas pelos dois sistemas.

Variáveis gráficas
Plote as variáveis Lab e Online nos eixos x e y, respectivamente.

Scatterplot
1) Abra o arquivo LABORATÓRIO.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:

5) Clique em OK.
6) Quando o Minitab exibir o gráfico, clique duas vezes no eixo x.
7) Marque Same scale range for Y and X.
8) Clique em OK.

8 Correlação e Regressão
Interpretando os resultados
O diagrama de dispersão das medidas laboratoriais versus online indica que:

• Os dois sistemas de medição são forntemente relacionados. Quando os valores para Lab mudam, o mesmo acontece para os
valores Online.
• Os dados seguem uma linha aproximadamente reta, sugerindo que a relação é linear.
• Valores altos do sistema online estão associados com valores altos do sistema laboratorial, indicando que a relação é positiva.

Próximo passo
Como a relação é linear, calcule o coeficiente de correlação para quantificar a força da associação.

Correlação e Regressão 9
Calculando a correlação
Calcule o coeficiente de correlação de Pearson para determinar a força da associação linear entre as medições laboratoriais e online.

Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

10 Correlação e Regressão
Interpretando os resultados
Correlação de Pearson
O coeficiente de correlação de Pearson (r) é um número entre -1 e 1, onde:

• 1 indica uma correlação positiva perfeita.


• 0 indica ausência de correlação.
• -1 indica correlação negativa perfeita.

P-valor
O p-valor testa as seguintes hipóteses:

• H0: O coeficiente de correlação ρ (ou rô) entre as populações é igual a zero.


• HA: ρ não é igual a zero.

Correlations: Lab; Online

Pearson correlation of Lab and Online = 0,959


P-Value = 0,000

Conclusão
O coeficiente de correlação (0,959) indica que as medições laboratoriais e online têm uma forte associação linear positiva. Além disso, o
p-valor (0,000) é menor que α (0,05), portanto rejeite a hipótese nula de que não existe relação linear.

Correlação e Regressão 11
Considerações Finais
Resumo e conclusões
As medidas obtidas com os sistemas laboratorial e online têm uma forte correlação positiva (0,959).

Entretanto, o sistema online fornece medidas consistentemente maiores que as do sistema laboratorial. Isso pode indicar a necessidade
de recalibração.

Os resultados desse experimento limitado indicam que o sistema de medição online, mais barato e fácil de usar, pode substituir adequa-
damente o sistema de medição laboratorial.

Considerações adicionais
A correlação quantifica o grau de associação linear entre duas variáveis.

Uma forte correlação não implica em uma correlação de causa-e-efeito. Por exemplo, uma forte correlação entre duas variáveis pode ser
devido à influência de uma terceira variável que não esteja sendo considerada.

Um coeficiente de correlação próximo de zero não significa necessariamente falta de associação; ele poderia indicar que a associação
não é linear. Sempre plote os dados, para que você possa identificar relações lineares, caso estejam presentes.

Alguns estatísticos argumentam que a correlação não é apropriada se uma variável é uma resposta dependente da outra.

A correlação assume que os valores de ambas as variáveis estão livres para variarem. Você não pode usar a correlação se fixar os va-
lores de uma variável para estudar mudanças em outra.

12 Correlação e Regressão
Correlação entre Múltiplas Variáveis

Exemplo 2: Controle de Qualidade de Tampas de Garrafas


Problema
Um fabricante monitora atualmente o diâmetro de tampas de garrafas ao longo do tempo usando cartas de controle. Um molde com 8
cavidades produz as tampas das garrafas.

O departamento de qualidade gasta 8 horas por dia coletando amostras de tampas, medindo-as, e construindo as cartas de controle. Uma
equipe de melhoria da qualidade quer identificar cavidades altamente correlacionadas e reduzir o número e custo total das medições.

Coleta de dados
Técnicos selecionam aleatoriamente 5 tampas de garrafas a cada quatro horas, de cada cavidade. O conjunto de dados da semana
anterior, que contém 840 medições de cada cavidade, está disponível para análise.

Ferramentas
• Matrix Plot
• Correlation
• Xbar Chart

Arquivo de dados
Tampas.MTW

Variável Descrição
Cavidade 1 - Cavidade 8 Dimensões das tampas de garrafas para amostras
obtidas em cada uma das 8 cavidades

Correlação e Regressão 13
Correlação entre múltiplas variáveis
O que é correlação entre múltiplas variáveis
Uma matriz de correlação mostra as correlações pareadas para um conjunto de variáveis quantitativas.

Quando usar correlação entre múltiplas variáveis


Use correlação entre múltiplas variáveis para gerar todas as correlações pareadas para um conjunto de variáveis quantitativas. Para
identificar:

• Pares de variáveis que são altamente correlacionadas;


• Medições redundantes que podem ser eliminadas para simplificar a análise e reduzir o custo da coleta de dados;
• Variáveis preditoras que são altamente correlacionadas, antes de fazer uma análise de regressão.

Por que usar correlação entre múltiplas variáveis


Correlação entre múltiplas variáveis responde perguntas tais como:

• As variáveis são altamente correlacionadas?


• Você pode eliminar medições redundantes para simplificar uma análise e reduzir o custo de coleta de dados?

14 Correlação e Regressão
Construindo um Matrix Plot
Antes você realizar uma análise de correlação, construa um gráfico de dispersão matricial dos dados para verificar se:

• As relações são aproximadamente lineares;


• As variáveis são quantitativas;
• Não existem valores atípicos (outliers).

Exibição da matriz
Use as opções Lower left ou Upper right para exibir somente um gráfico de cada par de variáveis. Use a opção Full para exibir dois
gráficos para cada par de variáveis, com os eixos X e Y invertidos.

Alternativas
Se a matriz for muito grande ou estiver muito difícil de ser interpretada, plote diagramas de dispersão individuais.

Matrix Plot
1) Abra o arquivo TAMPAS.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots > Simple, então clique em OK.
4) Em Graph variables, entre com ‘Cavidade 1’ - ‘Cavidade 8’.
5) Clique em Matrix Options.
6) Preencha a caixa de diálogo como mostra a figura abaixo:

7) Clique em OK em cada caixa de diálogo.

Correlação e Regressão 15
Interpretando os resultados
As relações lineares mais fortes são entre as cavidades 1 e 2, cavidades 2 e 3, e cavidades 6 e 7. Se você plotar essas variáveis juntas,
elas mostram o melhor ajuste em torno de uma linha.

Investigue quaisquer outliers usando a ferramenta Brushing (Editor > Brush).

Próximo passo
Gere as correlações.

16 Correlação e Regressão
Correlacionando múltiplas variáveis
Seleção
Para selecionar todas as oito colunas, destaque-as na lista de variáveis à esquerda e clique em Select.

P-valores
Desmarque a opção Display p-values. Se você incluir muitas variáveis na análise, os p-valores podem complicar desnecessariamente
a saída.

Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Correlação e Regressão 17
Interpretando os resultados

Correlations: Cavidade 1; Cavidade 2; Cavidade 3; Cavidade 4; Cavidade 5; ...

Cavidade 1 Cavidade 2 Cavidade 3 Cavidade 4 Cavidade 5


Cavidade 2 0,858
Cavidade 3 0,650 0,869
Cavidade 4 0,459 0,698 0,604
Cavidade 5 0,193 0,490 0,471 0,778
Cavidade 6 -0,115 0,337 0,401 0,583 0,627
Cavidade 7 -0,037 0,344 0,399 0,327 0,417
Cavidade 8 0,343 0,685 0,601 0,629 0,627

Cavidade 6 Cavidade 7
Cavidade 7 0,847
Cavidade 8 0,747 0,542

Cell Contents: Pearson correlation

As cavidades 2 e 3 têm o maior coeficiente de correlação (0,869), as cavidades 1 e 2 o segundo maior (0,858), e as cavidades 6 e 7 o
terceiro maior (0,847). Todas as três correlações são fortes o suficiente para garantir a eliminação de medições.

Implicações
Elimine medições para as cavidades 1, 3 e 6 e ganhe tempo economizando 3 horas de coleta de dados por dia.

Próximo passo
Compare as cartas Xbar de todas as cavidades.

18 Correlação e Regressão
Cartas de controle Xbar
Construa cartas de controle Xbar para verificar se você consegue identificar condições fora de controle nas cavidades 1, 3 e 6 olhando
apenas as cartas Xbar das cavidades 2 e 7.

Tamanho de subgrupo
Os técnicos selecionaram cinco tampas de garrafas a cada hora; portanto, o subgrupo é de tamanho 5. Os pontos plotados na carta de
controle serão as médias para cada subgrupo.

Xbar
1) Selecione Stat > Control Charts > Variables Chart for Subgroups > Xbar.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Multiple Graphs. Marque Same Y.


4) Clique em OK em cada caixa de diálogo.
5) Selecione Editor > Layout Tool.
6) Exiba as cavidades 1, 2, 3, 6 e 7 em uma tabela com 3 linhas e 2 colunas.
7) Clique em Finish.

Correlação e Regressão 19
Interpretando os resultados
As cavidades 1, 2 e 3 estão fora de controle no ponto 74, a cavidade 6 está fora de controle nos pontos 8 e 63, e a cavidade 7 está fora
de controle no ponto 63.

Implicações
Se a empresa de garrafas eliminar algumas das medições, eles podem não detectar um estado fora de controle. Entretanto, eles preci-
sam ponderar esse risco com as economias geradas pela redução do número de medições de 8 para 5.

20 Correlação e Regressão
Considerações Finais
Resumo e conclusões
A empresa de garrafas pode economizar 3 horas de coleta de dados a cada dia, reduzindo o número de medições de 8 para 5, porém
com um risco envolvido. Mesmo com as altas correlações encontradas nesse estudo, futuros sinais de falta de controle nas cavidades
1, 3 e 6 serão possivelmente perdidos.

Considerações adicionais
O quão alta deve ser a correlação para justificar a eliminação de medições? Considere os seguintes aspectos ao tomar decisões:

• A importância de detectar um estado fora de controle em cada cavidade. Se a importância for alta, é necessária uma alta corre-
lação. Caso contrário, ajuste como critério uma relação mais fraca.
• A importância de eliminar um dado número de medições. Se o propósito da análise é eliminar três medições, independente das
correlações, então simplesmente olhe as três correlações mais altas.

Correlação e Regressão 21
Regressão Simples

Exemplo 3: Impurezas na Tinta


Problema
O aumento na taxa de mistura pode causar a coagulação dos pigmentos da tinta. Esse coágulos de pigmento (impurezas) afetam nega-
tivamente a performance da tinta. Um fabricante de tinta conduz um experimento para entender melhor a relação entre a taxa de mistura
e o nível de impureza.

Coleta de dados
Pesquisadores mediram a impureza para lotes de tinta misturados em taxas que variaram de 20 a 42 rpm (rotações por minuto).

Ferramentas
• Fitted Line Plot

Arquivo de dados
TINTA.MTW

Variável Descrição
Taxa de Mistura Preditor - taxa em que o lote de tinta foi misturado (rpm)
Impureza Resposta - nível de impureza medido em cada lote

22 Correlação e Regressão
Regressão Simples

O que é regressão simples


A regressão linear simples modela a relação existente entre uma variável resposta contínua (Y) e uma variável preditora (X). A equação
geral para um modelo de regressão linear simples é:

Y = β0 + β1X + ε

onde Y é a resposta; X é o preditor, β0 é o intercepto (o valor de Y quando X é igual a zero), β1 é o coeficiente angular e ε é o erro alea-
tório.

Quando usar regressão simples


Use regressão simples quando você tiver uma variável contínua Y e uma preditora, X. Além disso:

• A variável X pode ser ordinal ou contínua;


• Teoricamente, X deveria ser fixado em configurações experimentais pré-determinadas. Na prática, frequentemente, X varia.
• Qualquer incerteza na medição de X é negligenciável se comparada à amplitude dos valores medidos de X.
Os valores de Y obtidos em sua amostra serão diferentes daqueles preditos pelo modelo de regressão (a menos que todos os pontos
caiam em uma linha reta perfeita). Essas diferenças são chamadas de resíduos.

Para confirmar se os resultados da análise de regressão são válidos, verifique todas as suposições sobre o termo de erro do modelo. Use
gráficos de resíduos para verificar se os erros têm a seguinte característica:

• Normalmente distribuídos;
• Variância constante para todos os valores ajustados;
• Aleatórios ao longo do tempo.

Por que usar regressão simples

A regressão simples responde perguntas tais como:


• Quão importante é X na predição de Y?
• Qual valor pode ser esperado para Y quando X é 20?
• Quanto você espera ser a variação média de Y se você aumentar X em uma unidade?
Por exemplo,

• Como a temperatura do processo está relacionada com a dureza do aço?


• Qual o valor médio predito para a dureza do aço se o mesmo for processado a uma temperatura particular?
• Qual o aumento médio esperado na dureza se a temperatura aumentar em 10ºC?

Correlação e Regressão 23
Ajustando um modelo linear
Determine o efeito da taxa de mistura na quantidade de impurezas na tinta. Use um Fitted Line Plot para calcular e plotar a equação de
regressão.

Fitted Line Plot


1) Abra o arquivo TINTA.MTW.
2) Selecione Stat > Regression > Fitted Line Plot.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

24 Correlação e Regressão
Interpretando os resultados
Equação de regressão
A equação de regressão relaciona o preditor (Taxa de Mistura) com a resposta (Impureza):

Impureza = -0,289+ 0,4566 Taxa de Mistura

O coeficiente angular da linha de regressão (0,4566), indica a mudança média na Impureza se a Taxa de Mistura aumentar em uma
unidade.

S
S é uma estimativa da variabilidade média sobre a linha de regressão. S é a raiz quadrada positiva do MSE (quadrado médio do erro).
Para um dado problema, a melhor equação para predizer a resposta será aquela que tiver o S mais baixo.

R2 (R-Sq)
R² é a proporção da variabilidade na resposta que é explicada pela equação. Neste caso, a relação linear com a Taxa de Mistura explica
93,4% da variabilidade na Impureza.

Valores aceitáveis para R² variam dependendo do estudo. Por exemplo, engenheiros estudando reações químicas podem requerer um
R² de 90% ou mais. Contudo, um estudo sobre o comportamento humano (que é mais variável) pode ser satisfeito com valores mais
baixos de R².

R2 adjusted (R-Sq(adj))
R² ajustado é sensível ao número de termos incluídos no modelo e é importante ao se comparar modelos com diferentes números de
termos.

Correlação e Regressão 25
O método dos mínimos quadrados
Os coeficientes da equação de regressão são escolhidos de forma a minimizar a soma das diferenças quadráticas entre os valores das
respostas observados na amostra, e as previsões feitas pela equação.

Em outras palavras, a linha de regressão de mínimos quadrados minimiza as distâncias verticais entre os pontos e a linha, como mos-
trado na figura abaixo.

Esteja alerto quanto à presença de outliers ao usar procedimentos de regressão. Alguns outliers (também chamados de pontos de alto
leverage) têm um grande efeito no cálculo da linha de regressão de mínimos quadrados. Em alguns casos, a linha pode não representar
a relação existente entre os dados corretamente.

26 Correlação e Regressão
Interpretando os resultados
Use os resultado da análise de variância (ANOVA) para avaliar se o modelo de regressão simples é útil. A ANOVA compara o modelo com
um modelo restrito que não usa Taxa de Mistura (X) para predizer a Impureza (Y):

• Modelo de regressão: Y = β0 + β1X + ε


• Modelo restrito: Y = β0 + ε
O modelo restrito declara que as mudanças que ocorrem em Y se devem exclusivamente ao erro aleatório ( ε ). Este modelo é equivalente
a um modelo de regressão simples com um coeficiente angular (β1) igual a zero. Assim, as hipóteses para a ANOVA são:

• H0: β1 é igual a zero.


• HA: β1 não é igual a zero.
Interprete o p-valor da seguinte maneira:

• Se o p-valor é menor que ou igual a α, rejeite H0. O modelo de regressão explica significativamente mais variabilidade na respos-
ta que o modelo restrito. β1 não é igual a zero.
• Se o p-valor é maior que α, você não pode rejeitar H0. β1 não é significativamente diferente de zero.

Regression Analysis: Impureza versus Taxa de Mistura


The regression equation is
Impureza = - 0,289 + 0,4566 Taxa de Mistura

S = 0,919316 R-Sq = 93,4% R-Sq(adj) = 92,7%

Analysis of Variance

Source DF SS MS F P
Regression 1 119,275 119,275 141,13 0,000
Error 10 8,451 0,845
Total 11 127,727

Conclusão
Usando um α de 0,05, rejeite o modelo restrito mais simples e conclua que a Taxa de Mistura tem um efeito linear significativo na Impu-
reza.

Correlação e Regressão 27
Adicionado intervalos de confiança e predição
Intervalos de confiança e predição
Intervalos de confiança estimam o alcance para a verdadeira média da resposta considerando um dado valor do preditor.

Intervalos de predição estimam o alcance no qual você pode esperar que uma nova observação caia para um dado valor do preditor.

Fitted Line Plot


1) Selecione Stat > Regression > Fitted Line Plot ou pressione “Ctrl+E” para retornar a caixa de dialogo Fitted Line Plot.
2) Clique em Options.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK em cada caixa de diálogo.

28 Correlação e Regressão
Interpretando os resultados

Intervalo de confiança
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.

Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.

Correlação e Regressão 29
Criando gráficos de resíduos
Resíduos
O resíduo para cada observação é a diferença entre o valor observado da resposta e o valor predito pelo modelo (o valor ajustado). Por
exemplo, se o valor observado da resposta é 12 e o modelo predizer 10, o resíduo é 2.

Suposições
Para confirmar que a análise é válida, verifique todas as suposições sobre o termo de erro do modelo. Use gráficos de resíduos para
verificar se os erros têm as seguintes características:

• Normalmente distribuídos
• Variância constante para todos os valores ajustados
• Aleatórios ao longo do tempo

Residual Plots
1) Selecione Stat > Regression > Fitted Line Plot ou pressione “Ctrl+E”.
2) Clique em Graphs.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK em cada caixa de diálogo.

30 Correlação e Regressão
Interpretando os resultados
Normal Probability Plot
No gráfico de probabilidade normal, os pontos devem descrever, aproximadamente, uma linha reta. Use este gráfico para verificar se os
resíduos não desviam de forma substancial de uma distribuição normal.

Este Padrão... Indica...


Pontos se desviando de uma linha reta Os resíduos não provêm de uma distribuição Normal
Curvatura (os resíduos provêm de uma distribuição Caudas muito pesadas ou leves na distribuição
assimétrica)
Alguns pontos afastados da linha reta Outliers existem
Mudança de inclinação Uma variável pode estar faltando no modelo

Com base no gráfico, você pode assumir que os resíduos para os dados não se desviam substancialmente de uma distribuição normal.

Nota: Um teste de normalidade (não mostrado) para esses dados forneceria um p-valor de 0,252.

Correlação e Regressão 31
Interpretando os resultados
Histogram
Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho de amostra razoavel-
mente grande, o histograma exibe informação compatível com o gráfico de probabilidade normal.

O histograma dos resíduos deve estar em forma aproximada de sino, sem valores não-usuais ou outliers. Use o histograma como uma
ferramenta exploratória para investigar as seguintes características dos dados:

• Valores típicos, dispersão ou variação, e forma


• Valores não-usuais nos dados
Se você concluir que os resíduos não vêm de uma população normal, o histograma pode sugerir a verdadeira distribuição do termo de
erro.

32 Correlação e Regressão
Interpretando os resultados
Resíduals versus fits
Use o gráfico de resíduos versus valores ajustados para verificar se os resíduos estão aleatoriamente distribuídos em torno de zero.

Este Padrão... Indica...


Curvilíneo Um termo quadrático pode ser necessário no modelo
Dispersão em funil ou desigual dos resíduos ao lon- Variância não-constante dos resíduos
go do diferentes valores ajustados
Alguns pontos muito afastados de zero em relação Outliers existem
aos outros pontos

O gráfico dos dados da tinta não revelam quaisquer padrões.

Correlação e Regressão 33
Interpretando os resultados
Resíduals versus order
O gráfico de resíduos versus ordem dos dados exibe os resíduos na ordem de coleta dos dados (desde que os dados tenham sido digi-
tados na mesma ordem na qual eles foram coletados).

Se a ordem de coleta de dados afeta os resultados, os resíduos próximos entre si podem estar correlacionados, e serem, portanto,
dependentes.

Este Padrão... Indica...


Resíduos distribuídos de forma não-aleatória em Os resíduos não são independentes ao longo do tempo
torno de zero
Resíduos distribuídos aleatoriamente em torno de Os resíduos são independentes
zero
Pontos muito afastados de zero em relação aos ou- Outliers existem
tros pontos

O gráfico não revela qualquer efeito da ordem de coleta dos dados.

34 Correlação e Regressão
Considerações Finais
Resumo e conclusões
A análise de regressão linear simples revelou que o aumento da taxa de mistura está associado ao aumento dos níveis de impureza na
tinta.

O coeficiente angular da equação de regressão indica que, quando você aumentar a taxa de mistura em 1 rpm, estima-se que o nível
médio de impureza aumente em 0,4566 unidades.

Ao usar procedimentos de regressão, esteja alerta para os outliers presentes em ambas as variáveis X e Y. Outliers na variável X (pontos
com alto leverage) podem ter uma grande influência nos coeficientes de regressão e p-valores. Neste caso, plote os resíduos deleta-
dos para detectar pontos com altos valores de leverage. Outliers na variável Y também podem influenciar fortemente os resultados. Se
outliers estiverem presentes, o modelo de pode não ajustar adequadamente os dados e não ser capaz de predizer futuras observações
com precisão.

Considerações adicionais
Não utilize a analise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que os valores da
variável preditora tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores tiverem
variado de forma aleatória, outros fatores podem influenciar ambos os preditores e a resposta.

Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinado pela amostra.
Por exemplo, você não deve usar a equação de regressão obtida nesse exemplo para predizer níveis de impureza para uma taxa de
mistura de 100, pois a mais alta taxa de mistura envolvida na análise é 42. A relação entre Taxa de Mistura e Impureza pode ser muito
diferente para taxas de mistura acima de 42.

Esteja alerta para valores atípicos (outliers) quando usar procedimentos de regressão. Alguns outliers (pontos com altos leverages) têm
um grande efeito no cálculo da reta de regressão via Método de Mínimos Quadrados. Nesses casos, a reta pode não representar os
dados adequadamente.

Correlação e Regressão 35
Regressão Polinomial

Exemplo 4: Projeto de um Interruptor de Pressão


Problema
Nos estágios de protótipo de desenvolvimento de produtos, engenheiros descobrem que o projeto inicial de um interruptor de pressão
não está atingindo o set point de pressão alvo. Muitas variáveis de projeto podem ser utilizadas para centralizar o set point; entretanto,
os engenheiros decidem focar na espessura do diafragma, que é relativamente fácil de mudar. Eles executam um experimento para de-
terminar a relação entre a espessura do diafragma e o set point, para que eles possam especificar a espessura adequada para o projeto
final.

As especificações para o set point de pressão são 165+/-15 kilo Pascals (kPa).

Coleta de dados
Engenheiros construiram cinco interruptores com os componentes do protótipo de cada espessura em ordem aleatória. Eles variaram a
espessura do diafragma de 0,5 a 0,9 mm em incrementos de 0,1 mm.

Ferramentas
• Scatterplot
• Fitted Line Plot

Arquivo de dados
interruptor.MTW

Variável Descrição
Ordem de Montagem Ordem na qual as amostras de interruptores foram montadas
Ordem de Coleta Ordem na qual os dados de set point foram coletados
Espessura Preditor - espessura do diafragma (mm)
Set Point Resposta - pressão para abrir o interruptor (kPa)

36 Correlação e Regressão
Regressão Polinomial
O que é regressão polinomial
Assim como a regressão linear, a regressão polinomial examina a relação existente entre uma variável resposta continua (Y) e uma vari-
ável preditora (X). Entretanto, diferente da regressão simples, um modelo polinomial pode incluir termos para os expoentes de X:

Equação Tipo de Modelo


Y = β0 + β1X + ε Linear
Y = β0 + β1X + β2X2 + ε Polinomial quadrático
Y = β0 + β1X + β2X + β3X + ε
2 3
Polinomial cúbico

onde: Y é a variável resposta, X é a variável preditora, β0 o intercepto, β1 é o coeficiente para o termo linear, β2 é o coeficiente para o termo
quadrático, β3 é o coeficiente para o termo cúbico e ε é o erro aleatório.

Quando usar regressão polinomial


Use regressão polinomial se você tiver uma variável Y contínua e uma variável X preditora, e se evidências ou teorias sugerirem não-
lineariedade.

• X pode ser ordinal ou continuo;


• Teoricamente, X deve ser fixo. Na prática, contudo, é geralmente permitido que X varie;
• Quaisquer incertezas nas medidas de X podem ser consideradas sem importância se comparadas à amplitude em que X
é medido.
Antes de aceitar os resultados de uma análise de regressão, verifique se as seguintes suposições sobre os erros são válidas para os
dados:

• Eles são independentes (isto é, aleatórios);


• Eles são normalmente distribuídos;
• Eles possuem variância constante ao longo de todos os valores de X.

Por que usar regressão polinomial


A regressão polinomial responde perguntas tais como:

• Ao aumentar X, Y aumenta para alguns valores e diminui para outros?


• Qual valor você pode esperar para Y quando X é igual a 20?

Por exemplo,

• A adição de mais cobre faz com que a força de liga sempre fique mais forte ou ela decresce em maiores concentrações?
• Quão forte podemos esperar que seja a liga se a mesma é feita de 0,015 de cobre?

Correlação e Regressão 37
Plotando os dados
Para visualizar a relação entre espessura do diafragma e set point, use um diagrama de dispersão com a resposta (Set Point) no eixo-Y
e o preditor (Espessura) no eixo-X.

Scatterplot
1) Abra o arquivo INTERRUPTOR.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:

5) Clique em OK.

38 Correlação e Regressão
Interpretando os resultados
O gráfico revela a existência de uma relação não linear entre a espessura e o set point. Observe que à medida que a espessura aumenta
nos níveis mais baixos, o set point não aumenta muito. Contudo, um aumento equivalente nos níveis altos de espessura tem um grande
efeito.

Correlação e Regressão 39
Ajustando um modelo linear
Use o Fitted Line Plot para avaliar o quão bem um modelo de regressão linear ajusta os dados.

Fitted Line Plot


1) Selecione Stat > Regression > Fitted Line Plot.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Graphs.
4) Abaixo de Residual Plots, selecione Four in one.
5) Clique em OK em cada caixa de diálogo.

40 Correlação e Regressão
Interpretando os resultados
Devido ao fato de existir uma curvatura na variável resposta Set Point, o modelo de regressão linear não ajustou bem os dados.

Alto R² - não indica necessariamente um bom ajuste


O R² ajustado para este modelo linear é alto (93,5%), embora o modelo não tenha ajustado bem os dados. Embora a interpretação de
grande parte da variação do set point ser explicada pela espessura do diafragma ser apropriada, não é correto dizer que o modelo
apresentou um bom ajuste baseando-se somente na análise do R².

Gráficos de resíduos
O gráfico de resíduos versus valores ajustados mostra um padrão curvilíneo. Isso sugere que a forma da equação de regressão está
incorreta.

Próximo passo
Ajuste um modelo quadrático aos dados para ver se há um ajuste melhor.

Correlação e Regressão 41
Ajustando um modelo quadrático
Use o Fitted Line Plot para ajustar um modelo de regressão quadrático e exibir os gráficos de resíduos.

Fitted Line Plot


1) Selecione Stat > Regression > Fitted Line Plot ou pressione Ctrl+E.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

42 Correlação e Regressão
Interpretando os resultados
O modelo quadrático ajusta melhor os dados.

Equação de regressão
A equação de regressão quadrática que melhor descreve os dados é:

Set Point = 202,5 - 265,1 Espessura + 322,0 Espessura2

R2 (R-Sq) e R2 adjusted (R-Sq(adj))


O R² indica que o modelo quadrático explica 97,5% da variabilidade do Set Point. Esse valor é um pouco maior que o R² (93,5%) do
modelo linear.

O R² nunca diminui e geralmente aumenta à medida em que você adiciona mais preditores, mesmo se os preditores não melhorarem o
modelo. Use o R² ajustado (R² adj) - ajustado para o número de termos no modelo - ao comparar modelos com diferentes números de
preditores.

O R² ajustado do modelo quadrático (97,2%) é superior ao R² ajustado do modelo linear (93,3%), indicando que o termo quadrático adi-
cionado explica parte da variabilidade da resposta.

Correlação e Regressão 43
Interpretando os resultados
Análise de variância
O p-valor para o modelo de regressão (0,000) é significativo, indicando a existência de relacionamento significativo entre a resposta (Set
Point) e o preditor (Espessura).

O p-valor para o termo quadrático (0,000) indica que este termo é significativo no modelo. Em outras palavras, o modelo quadrático ex-
plica uma quantidade significativa de variação na resposta que não é explicada pelo termo linear.

Polynomial Regression Analysis: Set Point versus Espessura


The regression equation is
Set Point = 202,5 - 265,1 Espessura + 322,0 Espessura**2

S = 4,59672 R-Sq = 97,5% R-Sq(adj) = 97,2%

Analysis of Variance

Source DF SS MS F P
Regression 2 17956,1 8978,05 424,90 0,000
Error 22 464,9 21,13
Total 24 18421,0

Sequential Analysis of Variance


Source DF SS F P
Linear 1 17230,5 332,90 0,000
Quadratic 1 725,6 34,34 0,000

44 Correlação e Regressão
Interpretando os resultados
Use os gráficos de resíduos para verificar suposições sobre a distribuição do erro.

Gráfico de resíduos Four-in-one


• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.

Próximo passo
Os engenheiros registraram a ordem de montagem para cada interruptor. Verifique se quaisquer variáveis associadas com a ordem de
montagem tem efeito nos resultados.

Correlação e Regressão 45
Verificando efeito da ordem de montagem
Para verificar se a ordem de montagem tem efeito nos resultados, plote os resíduos versus a ordem de montagem.

Ordem de Montagem e Ordem de Coleta


Os pesquisadores tiveram o cuidado de impedir que quaisquer variáveis desconhecidas relacionadas com o tempo pudessem afetar os
dados.

Os engenheiros montaram os interruptores usando uma seleção aleatória de diafragma e peças dos componentes. Essa aleatorização
protege os resultados da influência do tempo durante a fabricação das peças. Eles monitoram a ordem na coluna Ordem de Montagem
da worksheet.

Os engenheiros também testaram os set points dos interruptores em ordem aleatória. Essa aleatorização evita que os resultados sejam
influenciados por efeitos desconhecidos do tempo que o sistema de medição poderia introduzir.

Fitted Line Plot


1) Selecione Stat > Regression > Fitted Line Plot ou pressione Ctrl+E.
2) Clique em Graphs.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.

46 Correlação e Regressão
Interpretando os resultados
Como os resíduos parecem ser aleatórios em relação à ordem de montagem, os dados não parecem ter qualquer efeito pela ordem de
montagem.

Próximo passo
Construa um novo Fitted Line Plot incluindo os intervalos de confiança e predição.

Correlação e Regressão 47
Adicionando intervalos de confiança e predição
Construa intervalos de confiança e predição para uma melhor interpretação do modelo.

Fitted Line Plot


1) Selecione Stat > Regression > Fitted Line Plot ou pressione Ctrl+E.
2) Clique em Options.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em OK.
5) Clique em Graphs e delete ‘Ordem de Montagem’ de Residuals versus the variables;
6) Clique em OK em cada caixa de diálogo.

48 Correlação e Regressão
Interpretando os resultados

Intervalo de confiança
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.

Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.

Nota: O Set Point médio deve estar no alvo de 165 kPa. Níveis de espessura do diafragma cujos intervalos de confiança contêm o valor 165
são boas escolhas para se atingir o alvo. Entretanto, use o modelo de regressão para obter a melhor escolha com base nos dados.

Correlação e Regressão 49
Considerações Finais
Resumo e conclusões
Um modelo quadrático aproxima melhor a relação entre a espessura do diafragma e o set point do interruptor.

Usando o modelo de regressão quadrático, a melhor escolha para a espessura do diafragma é aproximadamente 0,64 mm. Obtenha esse
resultado substituindo 165 para Set Point (Y) no modelo de regressão e resolvendo a equação para Espessura (X) usando a equação
quadrática.

Considerações adicionais
Erro puro

Quando os mesmos valores dos preditores são observados em várias respostas, como nesse estudo (cada espessura é usada 5 vezes),
é possível obter uma estimativa do erro puro. O erro puro é a variabilidade na resposta em um valor X fixo. O Minitab usa o erro puro para
calcular a estatística lack-of-fit disponível no item no menu Regression..

50 Correlação e Regressão
Exercício J: Escudos de Erosão
Problema
Um produtor de energia deseja predizer o quão bem escudos protetores de erosão para turbinas de máquinas a vapor resistem à perda
pela abrasão. A medição direta da resistência à abrasão é difícil, cara e destrutiva. Portanto, o produtor deseja ser capaz de predizer a
resistência à abrasão usando a dureza do aço, que é mais conveniente e mais barata de ser medida.

Coleta de dados
Engenheiros medem a perda por abrasão e a dureza em 24 escudos de erosão selecionados aleatoriamente.

Instruções
1) Use o Fitted Line Plot para ajustar um modelo de regressão linear simples com Abrasão como resposta e Dureza como predi-
tora. Inclua intervalos de confiança e predição nos resultados.
2) Use gráficos de resíduos para validar as suposições necessárias.

Arquivo de dados
erosão.MTW

Variável Descrição
Dureza Preditor - dureza da turbina
Abrasão Resposta - perda por abrasão

Correlação e Regressão 51
Exercício K: Escapamento de Diesel
Problema
Pesquisadores querem investigar o efeito da taxa de umidade nas emissões de óxido de nitrogênio pelo escapamento de caminhões a
diesel.

Coleta de dados
Pesquisadores registram a umidade como uma razão, que é a quantidade de umidade por quantidade fixa de ar seco. A variável resposta,
óxido de nitrogênio emitido pelo escapamento, foi registrada como NOx.

Os dados foram extraídos de C.T. Hare (1977). “Light Duty Diesel Emission Correction Factors for Ambient Conditions,” Final Report to the
Environmental Protection Agency under Contract No. 68-02-1777. Southwest Research Institute, San Antonio, TX.

Instruções
1) Plote os dados para visualizar a relação entre as variáveis.
2) Use o Fitted Line Plot para ajustar um modelo de regressão apropriado.
3) Verifique as suposições necessárias com os gráficos de resíduos.

Arquivo de dados
diesel.MTW

Variável Descrição
NOx Resposta - emissão de óxido de nitrogênio
Umidade Preditor - taxa de umidade

52 Correlação e Regressão
Regressão Múltipla
(Opcional)
Objetivos

• Realizar análise de regressão com mais de um preditor;


• Lidar com multicolinearidade em uma análise de regressão.

Copyright © - GLOBAL TECH

O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br

Regressão Múltipla 3
Conteúdo

Exemplos e Exercícios Objetivos Página


Eliminação de Preditores
Exemplo 1: Avaliar a relação linear entre uma resposta e múltiplas variáveis 5
Redução do Barulho dos Motores de entrada usando regressão. Verificar as suposições do mode-
lo usando gráficos de resíduos.
Regressão via Best Subsets
Exemplo 2: Selecionar um conjunto de variáveis a serem incluídas em um 17
Índice de Mortalidade em Grandes Cida- modelo de regressão múltipla usando Best Subsets.
des dos EUA
Exercício L: Avaliar a relação entre uma resposta e múltiplas variáveis de 26
Duração do Sono entrada usando regressão.

4 Regressão Múltipla
Eliminação de Preditores

Exemplo 1: Redução do Barulho dos Motores


Problema
Engenheiros da qualidade querem identificar as principais causas do barulho em motores. As seguintes variáveis estão sendo conside-
radas:

• Ponto de centelha da vela


• Razão ar-combustível
• Temperatura de entrada
• Temperatura de exaustão

Coleta de dados
Foram coletados dados de 13 motores selecionados aleatoriamente, todos funcionando com gasolina em um índice de octana de 87.

Ferramentas
• Matrix Plot
• Correlation
• Regression

Arquivo de dados
MOTORES.MTW

Variável Descrição
Centelha Preditora - Ponto de centelha da vela
RAC Preditora - Razão ar-combustível
Temp_Entrada Preditora - Temperatura de entrada (°C)
Temp_Exaustão Preditora - Temperatura de exaustão (°C)
Barulho Resposta - Barulho medido no motor

Regressão Múltipla 5
Regressão Múltipla
O que é regressão múltipla
A regressão múltipla examina a relação entre uma variável resposta contínua (Y) e mais de uma variável preditora (X). A equação geral
para um modelo de regressão múltipla é:

Y = β0 + β1X1 + β2X2 +β3X3 + . . . + ε

onde Y é a resposta, β0 é o intercepto, cada Xi é uma variável preditora com inclinação βi, e ε é o erro aleatório.

Quando usar regressão múltipla


Use regressão múltipla quando você tiver uma variável contínua Y e uma preditora, X. Além disso:

• A variável X pode ser ordinal ou contínua;


• Teoricamente, X deveria ser fixado em configurações experimentais pré-determinadas. Na prática, frequentemente, X varia.
• Qualquer incerteza na medição de X é negligenciável se comparada à amplitude dos valores medidos de X.
Antes de aceitar os resultados de uma análise de regressão, verifique se os resíduos do modelo:

• São independentes (e portanto, aleatórios)


• São normalmente distribuídos
• Possuem variância constante para todos os valores de X.

Por que usar regressão múltipla

A regressão múltipla responde perguntas tais como:


• Quão importantes são as variáveis X na predição de Y?
• Qual valor pode ser esperado para Y quando X1 é 20 e X2 é 3?
• Em quanto a média de Y irá mudar se X3 aumentar em uma unidade?
Por exemplo,

• Como a temperatura e a porosidade do processo estão relacionados com a dureza média do aço?
• Qual será a dureza do aço que foi processado em uma temperatura particular por uma certa quantidade de tempo?
• Quanto em média o aço endurecerá se a temperatura aumentar em 100ºC?

6 Regressão Múltipla
Criando um Matrix Plot
Use uma matriz de correlação para determinar se existe uma relação entre a variável resposta e as variáveis preditoras.

Variáveis gráficas
É mais fácil visualizar a relação entre a resposta e os preditores se você entrar com a variável resposta por último na caixa Graph va-
riables.

Matrix Plot
1) Abra o arquivo MOTORES.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots - Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:

5) Clique em Matrix Options.


6) Abaixo de Matrix Display, selecione Lower left.
7) Clique em OK em cada caixa de diálogo.

Regressão Múltipla 7
Interpretando os resultados
O resultado inclui diagramas de dispersão para todas as combinações de variáveis. Observe a última linha para avaliar a relação exis-
tente entre a variável resposta Barulho e as demais variáveis preditoras.

Barulho e Centelha parecem ter uma correlação negativa, e Barulho parece ter uma correlação positiva com todas as variáveis preditoras
restantes.

Próximo passo
Use Correlation para avaliar a intensidade das relações lineares.

8 Regressão Múltipla
Calculando correlações múltiplas
Crie uma matriz de correlação para avaliar as associações existentes entre a variável resposta e as demais variáveis preditoras.

Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

Regressão Múltipla 9
Interpretando os resultados
Como sugerido na matriz, existe uma correlação negativa entre as variáveis Barulho e Centelha (R = - 0,699). Correlações positivas
existem entre a variável resposta Barulho e todas as preditoras restantes:

• RAC (R = 0,961)
• Temp_Entrada (R = 0,673)
• Temp_Exaustão (R = 0,682)

Correlations: Centelha; RAC; Temp_Entrada; Temp_Exaustão; Barulho

Centelha RAC Temp_Entrada Temp_Exaustão

RAC -0,580

0,038

Temp_Entrada -0,500 0,521

0,082 0,068

Temp_Exaustão -0,723 0,587 0,291

0,005 0,035 0,335

Barulho -0,699 0,961 0,673 0,682

0,008 0,000 0,012 0,010

Cell Contents: Pearson correlation

P-Value

Próximo passo
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.

10 Regressão Múltipla
Ajustando um modelo de regressão múltipla
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.

Regression
1) Selecione Stat > Regression > Regression.
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em Options. Em Display marque Variance inflation factors.


4) Clique em OK em cada caixa de diálogo.

Regressão Múltipla 11
Interpretando os resultados
Equação de regressão
A equação que descreve a relação entre a variável resposta e as demais variáveis preditoras é:

Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão

Tabela de Coeficientes
Tenha cuidado ao interpretar os coeficientes da regressão múltipla. O p-valor de cada preditor indica a significância daquela variável
somente naquele modelo específico.

Por exemplo, se uma das variáveis preditoras não for significativa num determinado modelo, removendo uma segunda variável preditora
do modelo aquela pode passar a ser significativa. Este fato ocorre se existir correlação entre variáveis preditoras , ou seja, ambas expli-
carem a mesma parte da variabilidade da variável resposta.

Neste modelo, Centelha não é uma variável preditora significativa (p-valor = 0,363). Contudo, se você remover a variável Temp_Exaus-
tão, Centelha torna-se significativa. Este fato se deve à alta correlação entre Centelha e Temp_Exaustão (R = - 0,723). Essa multicoline-
aridade (correlação entre variáveis preditoras) pode ser analisada pela estatística VIF fornecida na saída da Session.

Regression Analysis: Barulho versus Centelha; RAC; ...

The regression equation is

Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão

Predictor Coef SE Coef T P VIF

Constant 23,815 8,137 2,93 0,019

Centelha -0,2965 0,3072 -0,97 0,363 2,620

RAC 3,1918 0,2398 13,31 0,000 1,939

Temp_Entrada 0,35870 0,07848 4,57 0,002 1,585

Temp_Exaustão 0,013376 0,005421 2,47 0,039 2,440

12 Regressão Múltipla
Interpretando os resultados
VIF
É o chamado Fator de Inflação da Variância, que indica se a multicolinearidade (correlação entre variáveis preditoras) está presente
em um modelo de regressão. A multicolinearidade é um problema, pois pode aumentar a variabilidade dos coeficientes de regressão,
tornando-os instáveis e difíceis de interpretar.

Use as diretrizes seguintes para interpretar o VIF:

VIF = 1 - Preditoras não correlacionadas

1< VIF < 5 - Moderadamente correlacionadas

VIF > 5 a 10 - Altamente correlacionadas

Se VIF for maior que 10, a multicolinearidade pode estar influenciando indevidamente seus resultados de regressão. Neste caso, pode
ser necessário reduzir a multicolinearidade removendo preditoras do modelo.

No modelo ajustado, os valores de VIF para as variáveis Centelha e Temp_Exaustão são um pouco altos. Portanto, há evidências de
multicolinearidade entre essas duas variáveis, o que indica que as duas não podem permanecer no mesmo modelo.

Cuidado com a multicolinearidade


Quando as variáveis preditoras estão altamente correlacionadas, o coeficiente de regressão pode ser instável (ou seja, ele pode variar
drasticamente de acordo com a amostra coletada para a contrução do modelo).

Portanto, ao detectar a existência desse problema, devemos ajustar novamente um modelo de regressão, excluindo uma das variáveis
envolvidas na multicolinearidade. Neste caso, optaremos por rodar o modelo novamente excluindo a variável Centelha (essa decisão
deve ser baseada no conhecimento do processo - por exemplo, qual variável é mais importante para a utilização prática do modelo?).

Regression Analysis: Barulho versus Centelha; RAC; ...


The regression equation is

Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão

Predictor Coef SE Coef T P VIF

Constant 23,815 8,137 2,93 0,019

Centelha -0,2965 0,3072 -0,97 0,363 2,620

RAC 3,1918 0,2398 13,31 0,000 1,939

Temp_Entrada 0,35870 0,07848 4,57 0,002 1,585

Temp_Exaustão 0,013376 0,005421 2,47 0,039 2,440

Próximo passo
Use Regression para analisar o modelo de regressão múltipla excluindo a variável Centelha.

Regressão Múltipla 13
Ajustando outro modelo de regressão múltipla
Use Regression para rodar novamente o modelo, excluindo a variável Centelha.

Regression
1) Selecione Stat > Regression > Regression (ou Ctrl+E).
2) Preencha a caixa de diálogo como mostra a figura abaixo:

3) Clique em OK.

14 Regressão Múltipla
Interpretando os resultados
R2 (R-Sq) e R2 ajustado (R-Sq(adj))
O modelo explica 98,6% da variabilidade total da variável resposta.

O R² nunca irá decrescer quando você adicionar variáveis preditoras a um modelo, mesmo se estas novas variáveis não servirem de fato
para melhorar o modelo. O R² ajustado (R-Sq(adj) = 98,2%) corrige este problema, pois é ajustado para o número de termos presentes no
modelo, devendo também ser usado quando desejamos comparar modelos para uma mesma variável resposta com diferentes números
de variáveis preditoras.

Análise de variância
As hipóteses testadas em um modelo de regressão linear múltipla são:

H0: Todos os βi (exceto β0) são iguais a zero.

H1: Ao menos um βi (não incluindo β0) é diferente de zero.

No exemplo, rejeite a hipótese nula (p-valor = 0,000 < 0,05 = α) de que todos os βi (exceto β0) são iguais a zero. Logo conclua que o
modelo é significativo e que pelo menos uma variável preditora incluída no modelo é importante em explicar a variabilidade da variável
resposta.

Além disso, a tabela de coeficientes mostra os p-valores de todas as variáveis = 0,000, indicando que todas são significativas para o
modelo de regressão.

Regression Analysis: Barulho versus RAC; Temp_Entrada; Temp_Exaustão


The regression equation is
Barulho = 16,5 + 3,21 RAC + 0,386 Temp_Entrada + 0,0166 Temp_Exaustão

Predictor Coef SE Coef T P VIF


Constant 16,488 2,918 5,65 0,000
RAC 3,2148 0,2377 13,52 0,000 1,919
Temp_Entrada 0,38637 0,07278 5,31 0,000 1,374
Temp_Exaustão 0,016576 0,004273 3,88 0,004 1,527

S = 0,508616 R-Sq = 98,6% R-Sq(adj) = 98,2%

Analysis of Variance

Source DF SS MS F P
Regression 3 170,003 56,668 219,06 0,000
Residual Error 9 2,328 0,259
Total 12 172,331

Source DF Seq SS
RAC 1 159,048
Temp_Entrada 1 7,062
Temp_Exaustão 1 3,892

Regressão Múltipla 15
Considerações finais
Resumo e conclusões
A equação de regressão para o modelo usando as variáveis RAC, Temp_Entrada e Temp_Exaustão para predizer a variável resposta Ba-
rulho é:

Barulho = 16,5 + 3,21 RAC + 0,386 Temp_Entrada + 0,0166 Temp_Exaustão

Este modelo é suficiente em explicar 98,6% de variabilidade total da variável Barulho.

Considerações adicionais
Você não pode utilizar a análise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que
os valores dos preditores tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores
tiverem variado aleatoriamente durante a coleta de dados, outros fatores podem influenciar tanto os preditores quanto a resposta.

Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinados pela amos-
tra.

As mensurações devem ser efetuadas com o máximo de precisão possível, pois a falta de precisão agrega insegurança na estimativa
dos coeficientes associados a cada variável explicativa presente no modelo.

Não se esqueça de supervisionar os fatores potencialmente importantes ao conduzir um estudo de regressão.

Cuidado com a multicolinearidade (variáveis preditoras correlacionadas entre si). Quando variáveis preditoras são altamente correla-
cionadas:

• A estimação dos coeficientes de regressão pode ser instável, pois eles podem variar bruscamente de uma amostra para outra.
• Pode ser difícil avaliar a importância de termos individuais no modelo.
Cuidado ao remover mais de uma variável preditora ao mesmo tempo. Uma boa forma de escolher preditores para um modelo de
regressão múltipla é tentar todas as combinações em potencial usando um método de seleção automática de preditores, como Best
Subsets ou Stepwise.

16 Regressão Múltipla
Regressão via Best Subsets

Exemplo 2: Índice de Mortalidade em Grandes Cidades dos EUA


Problema
Determine quais das variáveis preditoras listadas na tabela são relacionadas ao índice de mortalidade por idade (número de mortes por
ano a cada 100.000 pessoas) nas 60 maiores cidades dos Estados Unidos.

Coleta de dados
Os dados foram adaptados do site:

http://lib.stat.cmu.edu/datasets/pollution.

Ferramentas
• Best Subsets
• Regression

Arquivo de dados
MORTALIDADE.MTW

Variável Descrição
Chuva Preditora: média anual de precipitação
ºC Janeiro Preditora: média da temperatura em Janeiro
ºC Julho Preditora: média da temperatura em Julho
Acima 65 Preditora: porcentagem da população com 65 anos ou mais
Tam Casa Preditora: média do tamanho do lar
Escolaridade Preditora: média de anos escolares para pessoas acima de 22 anos.
Infra-estrutura Preditora: porcentagem de casas que têm todo tipo de infra-estrutura
DensidPop Preditora: densidade populacional
Salário Baixo Preditora: porcentagem de famílias com baixos salários
Emprego Preditora: porcentagem de empregados em cargos de alto nível
Carbono Preditora: nível relativo de poluição de carbono
Ox-Nitrico Preditora: nível relativo de poluição de oxido nítrico
Diox-Sulf Preditora: nível relativo de poluição de dióxido sulfúrico
Umidade Preditora: média relativa anual de umidade
Índice Mortalidade Resposta: índice de mortalidade por 100.000

Regressão Múltipla 17
Regressão via Best Subsets
O que é Best Subsets
A ferramenta Best Subsets avalia todas as combinações possíveis de preditores para ajudar a determinar qual combinação fornece o
melhor modelo de regressão. O Minitab usa o critério de maior R2 para escolher o melhor modelo. Outro critério pode fornecer um modelo
diferente.

Mas lembre-se: não é apenas a análise do R2 que nos indica qual é o melhor modelo. Outros pontos devem ser considerados, tais como:
a verificação das suposições associadas ao modelo através da Análise de Resíduos, a análise do R2adj, etc. Sendo assim, após a obten-
ção de um “modelo ótimo” via Best Subsets, ainda é necessário proceder com a análise do modelo de Regressão como um todo.

Quando usar Best Subsets


Use o Best Subsets quando você tiver muitas variáveis preditoras em potencial, e portanto muitos modelos de regressão válidos para
serem escolhidos.

Por que usar o Best Subsets


O Best Subsets responde perguntas tais como:

• Qual combinação de fatores será a mais eficiente em explicar a variabilidade total da variável resposta?
• Qual é o melhor modelo de regressão possível de ser adotado usando apenas 5 de 20 variáveis preditoras?
Por exemplo,

• Um modelo com 10 variáveis para predizer a cremosidade do sorvete é melhor que um que usa apenas a temperatura e veloci-
dade de mistura?

18 Regressão Múltipla
Escolhendo um modelo apropriado
Use o Best Subsets para escolher um modelo de regressão múltipla para o Índice de Mortalidade, e assim evitar os seguintes proble-
mas:

• A obtenção de modelos complexos e ineficientes com muitas variáveis preditoras;


• Coeficientes instáveis resultantes de correlações entre as variáveis preditoras;
• Inadequada habilidade resultante da presença de poucas variáveis preditoras.

Preditores livres
Entre com todas as variáveis preditoras em Free predictors. O Minitab tenta todas as combinações possíveis dessas variáveis e registra
as estatísticas para os melhores modelos. (Caso você deseje que alguma variável necessariamente faça parte de todos os modelos
testados, inclua em Predictors in all models.)

Best Subsets
1) Abra o arquivo MORTALIDADE;MTW;
2) Selecione Stat > Regression > Best Subsets.
3) Preencha a caixa de diálogo como mostra a figura abaixo:

4) Clique em Options.
5) Em Models of each size to print, digite 1.
6) Clique em OK em cada caixa de diálogo.

Regressão Múltipla 19
Interpretando os resultados
Variáveis
A coluna Vars indica o número de preditores no modelo. Os X’s à direita da tabela indicam os preditores incluídos em cada modelo.

R2 (R-Sq) e R2 ajustado (R-Sq(adj))


Ao comparar modelos:

• Se o número de preditores é o mesmo, escolha o modelo com o maior R2.


• Se o número de preditores é diferente, escolha o modelo com o maior R2 ajustado.

Mallow’s C-p
Prefira modelos em que o C-p é baixo e próximo do número de parâmetros no modelo. Por exemplo, para um modelo com 3 variáveis
preditoras e o intercepto, dê preferência a um modelo com um C-p mais próximo de 4. A formula para o C-p é dada por:

C-p = (SSEp/MSEm) - (n - 2p)

onde SSEp é a soma de quadrados do erro para o modelo com p parâmetros (incluído o intercepto), MSEm é o quadrado médio do erro
para o modelo com todos os m preditores, e n é o número de observações.

Variabilidade
S é uma estimativa da variabilidade média sobre a linha de regressão. Matematicamente, S é a raiz quadrada positiva de MSE. Deseja-se
que S seja o menor possível.

20 Regressão Múltipla
Interpretando os resultados
Conclusão
Com base neste critério, o modelo com as variáveis preditoras: Chuva,ºC Janeiro, Escolaridade, Salário Baixo e Diox-sulf é o melhor. O
modelo que contém seis variáveis preditoras apresenta uma estimativa para o S levemente menor além de R² ajustado maior. Mas pelo
princípio da parcimônia, é sábio escolhermos o modelo mais simples a um outro mais complicado, ou seja, adotamos sempre o modelo
mais claro e simples.

Best Subsets Regression: Índice Mortalida versus Chuva; ºC Janeiro; ...


Response is Índice Mortalidade

I
n
f S
E r a
s a l
º c - a O
C o e D r x D
º A T l s e i - i
J C c a a t n o E C N o U
a i m r r s m a i x m
C n J m i u i B p r t - i
h e u a C d t d a r b r S d
u i l a a u P i e o i u a
Mallows v r h 6 s d r o x g n c l d
Vars R-Sq R-Sq(adj) Cp S a o o 5 a e a p o o o o f e
1 41,4 40,4 56,1 48,011 X
2 56,3 54,7 29,7 41,852 X X
3 63,9 62,0 17,1 38,357 X X X
4 69,7 67,5 8,0 35,459 X X X X
5 71,7 69,1 6,2 34,597 X X X X X
6 73,5 70,5 4,7 33,797 X X X X X X
7 74,4 71,0 4,9 33,508 X X X X X X X
8 74,9 70,9 6,1 33,543 X X X X X X X X
9 75,8 71,4 6,4 33,274 X X X X X X X X X
10 76,3 71,4 7,5 33,265 X X X X X X X X X X
11 76,4 71,0 9,2 33,517 X X X X X X X X X X X
12 76,5 70,5 11,0 33,806 X X X X X X X X X X X X
13 76,5 69,8 13,0 34,166 X X X X X X X X X X X X X
14 76,5 69,2 15,0 34,539 X X X X X X X X X X X X X X

Próximo passo
Calcule a equação de regressão e verifique as suposições do modelo.

Regressão Múltipla 21
Avaliando o modelo final
Use a ferramenta Regression para avaliar o modelo final proposto pelo Best Subsets. Calcule a equação de regressão e proceda com a
Análise de Resíduos a fim de verificar todas as suposições sobre os erros.

Regression
1) Selecione Stat > Regression > Regression.
2) Em Response, digite Índice Mortalidade.
3) Em Predictors, digite Chuva ‘ºC Janeiro’ Escolaridade ‘Salário Baixo’ ‘Diox-Sulf’.
4) Clique em Graphs.
5) Preencha a caixa de diálogo como mostra a figura abaixo:

6) Clique em OK em cada caixa de diálogo.

22 Regressão Múltipla
Interpretando os resultados
Equação de regressão
A equação de regressão é:

Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf

Tabela de coeficientes
Os baixos p-valores (< 0,1) na tabela de coeficientes indicam que todos os termos incluídos no modelo devem ser mantidos no mesmo,
pois são importantes em explicar a variabilidade total da variável resposta Índice de Mortalidade.

Análise de variância
Como P (0,000) é menor que α (0,05), rejeite a hipótese nula de que todos os βi , i =1,2,3 são iguais a zero. O modelo de regressão
que inclui Chuva, ºC Janeiro, Escolaridade, Salário Baixo e Diox-Sulf é significativamente melhor que o modelo restrito que não inclui
preditores.

Regression Analysis: Índice Mortalidade versus Chuva; ºC Janeiro; ...


The regression equation is
Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade
+ 4,07 Salario Baixo + 0,284 Diox-Sulf

Predictor Coef SE Coef T P


Constant 964,49 86,28 11,18 0,000
Chuva 1,4883 0,5900 2,52 0,015
ºC Janeiro -2,9213 0,9367 -3,12 0,003
Escolaridade -12,764 6,568 -1,94 0,057
Salario Baixo 4,0661 0,6552 6,21 0,000
Diox-Sulf 0,28390 0,07915 3,59 0,001

S = 34,5967 R-Sq = 71,7% R-Sq(adj) = 69,1%

Analysis of Variance

Source DF SS MS F P
Regression 5 163675 32735 27,35 0,000
Residual Error 54 64634 1197
Total 59 228310

Source DF Seq SS
Chuva 1 59267
ºC Janeiro 1 1365
Escolaridade 1 19240
Salario Baixo 1 68402
Diox-Sulf 1 15400

Regressão Múltipla 23
Interpretando os resultados

Os gráficos de resíduos verificam que todas as suposições sobre os erros foram verificadas. Os resíduos:

• Não se desviam substancialmente da normalidade


• Estão aleatoriamente distribuídos em torno de zero
• Possuem variância constante ao longo de todos os valores ajustados
• Não exibem qualquer padrão ao longo do tempo

24 Regressão Múltipla
Considerações finais
Resumo e conclusões
O melhor modelo para predizer o índice de mortalidade é:

Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf

Considerações adicionais
Antes de utilizar o Best Subsets para avaliar os diferentes modelos de regressão, certifique-se de que seus preditores e a resposta são
válidos, para que todos os modelos em potencial sejam modelos de regressão válidos na prática.

O Minitab também oferece o método de seleção de variáveis Stepwise, além do Best subsets.

Quando se utiliza Best subsets é possível obter informação de ajuste sobre todos os diferentes modelos possíveis, assim você pode
selecionar um modelo se baseando nas quatro estatísticas distintas dadas pela análise. A regressão Stepwise produz um único modelo
baseado em uma única estatística. Por causa dos diferentes critérios de seleção usados em cada caso, é possível que a regressão Best
Subsets e a regressão Stepwise apontem modelos diferentes. Em geral, escolhe-se o método de seleção da seguinte forma:

• Para grupos de dados com um número pequeno de variáveis preditoras, é preferível utilizar Best Subsets, pois se consegue
informação sobre mais modelos.
• Para grupos de dados com muitas variáveis preditoras (>32), é preferível usar Stepwise.
Você também pode escolher o método baseando-se no que é mais importante, p-valor dos preditores (Stepwise) ou R-sq(adj) (Best
Subsets).

Regressão Múltipla 25
Exercício L: Duração do Sono
Problema
Determine quais preditores listados na tabela abaixo estão relacionadas com a duração do sono nas 51 espécies sob investigação. O
índice de predação varia de 1 a 5, onde 1 indica o menor nível de predação e 5 indica predação máxima. O índice de exposição durante
o sono também varia de 1 a 5, onde 1 indica que o animal dorme totalmente protegido enquanto 5 indica que o animal sofre completa
exposição enquanto dorme.

Coleta de dados
Os dados foram tirados do Web site: http://lib.stat.cmu.edu/datasets/sleep

Instruções
1) Use Stat > Regression > Regression (ou Stat > Regression > Best Subsets) para determinar quais termos são significativos
considerando um nível de significância de 5% (α = 0,05). Inclua todos os termos com p-valores menores que 0,05.
2) Verifique as suposições sobre os resíduos do modelo.

Arquivo de dados

DURAÇÃO_SONO.MTW

Variável Descrição
Espécie Fator - indica a espécie do animal
Peso Preditor - peso do animal (Kg)
Expectativa Preditor - expectativa de vida (anos)
Gestação Preditor - período de gestação (dias)
Predação Preditor - índice para a probabilidade de sofrer predação
Exposição Preditor - índice para o nível de exposição durante o sono
Sono Resposta - horas por dia de sono de cada animal

26 Regressão Múltipla
Conteúdo

Exercícios Página
Inferência Estatística e Teste t
Exercício A: 3
Detectando Mudanças em Diâmetros de Rolamentos
Exercício B: 7
Investigando a Qualidade do Fornecedor
Exercício C: 10
Altura do Ânodo
Exercício D: 16
Comparando Instrumentos de Medição
Testes de Proporção
Exercício E: 19
Taxas de Consertos em Televisões
Exercício F: 20
Taxas de Sobrevivência em Passageiros do Titanic
Análise de Variância
Exercício G: 23
Moldes de Tampas de Canetas
Exercício H: 28
Degustação de Vinho
Exercício I: 31
Desgaste de Tinta
Correlação e Regressão
Exercício J: 35
Escudos de Erosão
Exercício K: 37
Escapamento de Diesel
Regressão Múltipla (Opcional)
Exercício L: 40
Duração do Sono

2 Soluções dos Exercícios


Exercício A:
Detectando Mudanças em Diâmetros de Rolamentos
Teste t para 1 amostra
Calcule o tamanho amostral necessário para detectar uma diferença de 0,1 mm com um poder de 0,85 ao nível α 0,05.

1) Selecione Stat > Power and Sample Size > 1-Sample t.


2) Em Differences, digite 0,1. Em Power value, digite 0,85. Em Standard deviation, digite 0,04.
3) Clique em OK.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,04

Sample Target
Difference Size Power Actual Power
0,1 4 0,85 0,898606

Interpretando os resultados
Se a média do processo se deslocar de 0,1 mm, o teste t para 1 amostra irá detectar esta mudança 89,86% das vezes, com um tamanho
amostral de 4.

Soluções dos Exercícios 3


Teste t para 1 amostra
Calcule a diferença que pode ser detectada com um poder de 0,90 quando são usados tamanhos de amostra de 5 e 10.

1) Selecione Stat > Power and Sample Size > 1-Sample t ou pressione Ctrl + E.
2) Pressione F3 para limpar a caixa de diálogo. Em Sample sizes, digite 5 10. Em Power values, digite 0,90. Em Standard de-
viation, digite 0,04.
3) Clique em OK.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,04

Sample
Size Power Difference
5 0,9 0,0786356
10 0,9 0,0461826

Interpretando os resultados
Com um tamanho amostral de 5, o teste t para 1 amostra irá detectar uma mudança de 0,079 na média do processo em 90% das ve-
zes.

Com um tamanho amostral de 10, o teste t para 1 amostra irá detectar uma mudança de 0,046 na média do processo em 90% das ve-
zes.

4 Soluções dos Exercícios


Teste de Normalidade
Teste a normalidade da amostra.

1) Abra o arquivo ROLAMENTOS.MTW.


2) Selecione Stat > Basic Statistics > Normality Test.
3) Em Variable, entre com Diâmetro.
4) Clique em OK.

Interpretando os resultados
O gráfico de probabilidade dos dez diâmetros dos rolamentos indica que você pode assumir a normalidade. Os pontos plotados caem ao
longo da linha reta e o p-valor (0,760) é maior que 0,05.

Soluções dos Exercícios 5


Teste t para 1 amostra
Determine se o processo está no alvo

1) Selecione Stat > Basic Statistics > 1-Sample t.


2) Em Samples in columns, entre com Diâmetro.
3) Marque Perform hypotesis test.
4) Em Hypotesized mean, digite 5.
5) Clique em Graphs.
6) Marque Boxplot of data.
7) Clique em OK em cada caixa de diálogo.

One-Sample T: Bearings

Test of mu = 5 vs not = 5

Variable N Mean StDev SE Mean 95% CI T P


Diâmetro 10 5,0718 0,0414 0,0131 (5,0421; 5,1014) 5,48 0,000

Interpretando os resultados
O boxplot indica que a média do processo não está no valor alvo (o intervalo de 95% de confiança não contem Ho). O teste t para 1
amostra confirma que a média dos diâmetros dos rolamentos é significativamente maior que 5 mm, pois o p-valor é menor que 0,05.

6 Soluções dos Exercícios


Exercício B: Investigando a Qualidade do Fornecedor
Teste t para 1 amostra
Usando um tamanho amostral de 10, determine o poder para detectar diferenças de 0,008, 0,010 e 0,012.

1) Selecione Stat > Power and Sample Size > 1-Sample t.


2) Em Sample Sizes, digite 10. Em Differences, digite 0,008 0,010 0,012. Em Standard deviation, digite 0,01.
3) Clique em Options.
4) Em Alternative Hypothesis, escolha Greater than.
5) Clique em OK em cada caixa de diálogo.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus > null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,01

Sample
Difference Size Power
0,008 10 0,754425
0,010 10 0,897517
0,012 10 0,967475

Interpretando os resultados
A probabilidade de você detectar deslocamentos de tamanho 0,008, 0,010 e 0,012 com um tamanho amostral de 10 é 0,754, 0,897 e
0,976, respectivamente.

Soluções dos Exercícios 7


Teste de Normalidade
Verifique a normalidade dos dados.

1) Abra o arquivo QUEIJOS.MTW.


2) Selecione Stat > Basic Statistics > Normality Test.
3) Em Variable, entre com TempCong.
4) Clique em OK.

Interpretando os resultados
Os dados caem ao longo da linha reta no gráfico de probabilidade normal. Você pode assumir uma distribuição normal porque o p-valor
é 0,352.

8 Soluções dos Exercícios


Teste t para 1 amostra
Determine se é provável que as amostras venham de uma população com média maior que -0,545.

1) Selecione Stat > Basic Statistics > 1-Sample t.


2) Em Samples in columns, entre com TempCong.
3) Marque Perform hypotesis test.
4) Em Hypotesized mean, digite -0,545.
5) Clique em Options.
6) Em Alternative, escolha greater than.
7) Clique em OK em cada caixa de diálogo.

One-Sample T: TempCong

Test of mu = -0,545 vs > -0,545

95% Lower
Variable N Mean StDev SE Mean Bound T P
TempCong 10 -0,53937 0,00780 0,00247 -0,54389 2,28 0,024

Interpretando os resultados
Como o p-valor de 0,024 é menor que α = 0,05, você pode concluir que a média da temperatura de congelamento é maior que -0,545
graus Celsius.

Sim, a análise mudaria se todas as amostras viessem de um único lote de leite. Você não teria uma amostra aleatória de tamanho 10 da
população de leite do fornecedor. Portanto, suas conclusões seriam válidas apenas para a população daquele lote de leite específico.
Você não poderia tirar conclusões sobre toda a população de leite.

Soluções dos Exercícios 9


Exercício C: Altura do Ânodo
Poder e tamanho de amostra
Calcule o tamanho amostral necessário para detectar um acréscimo na altura do ânodo de pelo menos 0,4 mm com um poder de pelo
menos 0,85 ao nível de significância de 0,05.

1) Selecione Stat > Power and Sample Size > 2-Sample t.


2) Em Differences, digite 0,4. Em Power values, digite 0,85. Em Standard deviation, digite 0,55.
3) Clique em Options.
4) Em Alternative Hypothesis, escolha greater than.
5) Clique em OK em cada caixa de diálogo.

Power and Sample Size

2-Sample t Test

Testing mean 1 = mean 2 (versus >)


Calculating power for mean 1 = mean 2 + difference
Alpha = 0,05 Assumed standard deviation = 0,55

Sample Target
Difference Size Power Actual Power
0,4 28 0,85 0,851295

The sample size is for each group.

Interpretando os resultados
Os resultados indicam que 28 observações em ambos os momentos (antes e após a mudança) são necessárias para detectar um acrés-
cimo de 0,4 mm na altura do ânodo com 85% de poder.

10 Soluções dos Exercícios


Teste de Normalidade

Teste a normalidade de ambas as amostras.


1) Abra o arquivo ÂNODO.MTW.
2) Selecione Graph > Probability Plot > Multiple.
3) Em Graph variables, entre com Altura do Ânodo.
4) Em Categorical variables for grouping, entre com Mudança no processo.
5) Clique em OK.

Interpretando os resultados
O teste de Anderson-Darling para os dados “Final” (p-valor=0,490) indica que não há evidências para rejeitar a hipótese nula de norma-
lidade para esses dados. O teste de Anderson-Darling para os dados “Início” (p-valor=0,442) também indica que não há evidências para
rejeitar a hipótese nula de normalidade para esses dados.

Soluções dos Exercícios 11


Teste de igualdade de variâncias

Compare as variâncias das amostras para determinar se os cálculos dos teste t para 2 amostras podem assumir que as duas popula-
ções têm a mesma variabilidade.
1) Selecione Stat > Basic Statistics > 2 Variances.
2) Marque Samples in one column.
3) Em Samples, entre com Altura do Ânodo. Em Subscripts, entre com Mudança no processo.
4) Clique em OK.

Interpretando os resultados
O teste F compara a variância das duas amostras para determinar se há evidências suficientes para se rejeitar a hipótese nula de que
as duas populações têm variâncias iguais. O alto p-valor (0,202) indica que não há evidências suficientes para rejeitar a hipótese nula de
igualdade de variâncias ao nível de significância de 0,05. O cálculo da estatística de teste para o teste t para 2 amostras pode assumir
igual variabilidade nas duas populações.

12 Soluções dos Exercícios


Teste t para 2 amostras
Os engenheiros mediram trinta amostras da altura dos ânodos antes e após a mudança. Determine se a altura média do ânodo é a mes-
ma antes e após a mudança no processo. As hipóteses a serem testadas são as seguintes:

H0: µFinal = µInício

HA: µFinal > µInício

1) Selecione Stat > Basic Statistics > 2-Sample t.


2) Marque Samples in one column.
3) Em Samples, entre com Altura do Ânodo. Em Subscripts, entre com Mudança no processo.
4) Marque Assume equal variances.
5) Clique em Options. Em Alternative, escolha greater than.
6) Clique em OK.
7) Clique em Graphs. Marque Boxplots of data.
8) Clique em OK em cada caixa de diálogo.

Two-Sample T-Test and CI: Altura do Ânodo; Mudança no processo


Two-sample T for Altura do Ânodo

Mudança no
processo N Mean StDev SE Mean
Final 30 6,280 0,564 0,10
Início 30 6,045 0,444 0,081

Difference = mu (Final) - mu (Início)


Estimate for difference: 0,235
95% lower bound for difference: 0,016
T-Test of difference = 0 (vs >): T-Value = 1,80 P-Value = 0,039 DF = 58
Both use Pooled StDev = 0,5077

Soluções dos Exercícios 13


Interpretando os resultados
O boxplot comparativo indica que a altura média do ânodo pode ter aumentado. Os resultados do teste t confirmam que o aumento de
0,235 mm na altura do ânodo é estatisticamente significativa (p-valor=0,039). Entretanto, essa melhoria não é significativa com base no
aumento de 0,4 mm necessário para melhorar fisicamente os capacitores.

14 Soluções dos Exercícios


Poder e tamanho de amostra
A análise de poder e tamanho de amostra anterior determinou que um tamanho amostral de 28 era necessário para detectar um aumento
de 0,4 mm na altura do ânodo com 85% de poder e um teste unilateral. Agora, calcule o tamanho amostral para a hipótese alternativa
bilateral, que nesse caso seria:

HA: µFinal µInício

1) Selecione Stat > Power and Sample Size > 2-Sample t.


2) Em Differences, digite 0,4. Em Power Values, digite 0,85. Em Standard deviation, digite 0,55.
3) Clique em Options. Em Alternative Hypothesis, escolha Not equal.
4) Clique em OK em cada caixa de diálogo.

Power and Sample Size

2-Sample t Test

Testing mean 1 = mean 2 (versus not =)


Calculating power for mean 1 = mean 2 + difference
Alpha = 0,05 Assumed standard deviation = 0,55

Sample Target
Difference Size Power Actual Power
0,4 35 0,85 0,850645

The sample size is for each group.

Interpretando os resultados
A análise de poder e tamanho de amostra indica que é necessário avaliar 35 capacitores antes da mudança, e 35 após para detectar uma
mudança de 0,4 mm na altura do ânodo em 85% das vezes. Em outras palavras, mais sete observações por grupo são necessárias se
a análise não utilizar a hipótese alternativa unilateral. Isso ilustra o poder atingido quando a hipótese alternativa unilateral é apropriada-
mente utilizada em sua análise, como nesse exemplo.

Soluções dos Exercícios 15


Exercício D: Comparando Instrumentos de Medição
Teste t pareado
Determine se as medições fornecidas pelos compassos são diferentes.

1) Abra o arquivo COMPASSOS.MTW.


2) Selecione Stat > Basic Statistics > Paired t.
3) Em First sample, entre com EasyGage. Em Second sample, entre com ToolIt.
4) Clique em Graphs.
5) Marque Individual value plot.
6) Clique em OK em cada caixa de diálogo.

Paired T-Test and CI: EasyGage; ToolIt

Paired T for EasyGage - ToolIt

N Mean StDev SE Mean


EasyGage 12 0,266275 0,001336 0,000386
ToolIt 12 0,265517 0,001876 0,000542
Difference 12 0,000758 0,001735 0,000501

95% CI for mean difference: (-0,000344; 0,001861)


T-Test of mean difference = 0 (vs not = 0): T-Value = 1,51 P-Value = 0,158

Interpretando os resultados
As diferentes ferramentas não fornecem medições significativamente diferentes. O intervalo de confiança inclui 0, e o p-valor é maior
que 0,05.

16 Soluções dos Exercícios


Teste t para 1 amostra
Calcule o poder do teste para detectar uma diferença média de 0,005 cm.

1) Selecione Stat > Power and Sample Size > 1-Sample t.


2) Em Sample sizes, digite 12. Em Differences, digite 0,005. Em Standard deviation, digite 0,001735.
3) Clique em OK.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,001735

Sample
Difference Size Power
0,005 12 1,00000

Interpretando os resultados
O poder do teste para detectar uma diferença de 0,005 é 1,00. (O valor real é maior que 0,99995; o Minitab arredonda o valor até
1,00000.),

Soluções dos Exercícios 17


Teste t para 1 amostra
Calcule o poder do teste para detectar uma diferença média de 0,001 cm.

1) Selecione Stat > Power and Sample Size > 1-Sample t.


2) Em Differences, digite 0,001.
3) Clique em OK.

Power and Sample Size

1-Sample t Test

Testing mean = null (versus not = null)


Calculating power for mean = null + difference
Alpha = 0,05 Assumed standard deviation = 0,001735

Sample
Difference Size Power
0,001 12 0,445247

Interpretando os resultados
O poder do teste para detectar uma diferença de 0,001 é 0,445.

18 Soluções dos Exercícios


Exercício E: Taxas de Consertos em Televisões
1 Proporção
Determine se a taxa de defeituosos na empresa é diferente de 0,068.

1) Selecione Stat > Basic Statistics > 1 Proportion.


2) Escolha Summarized data.
3) Em Number of events, digite 236. Em Number of trials, digite 2856.
4) Marque Perform hypothesis test.
5) Em Hypothesized proportion, digite 0,068.
6) Clique em Options.
7) Em Alternative, escolha not equal.
8) Clique em OK em cada caixa de diálogo.

Test and CI for One Proportion

Test of p = 0,068 vs p not = 0,068

Exact
Sample X N Sample p 95% CI P-Value
1 236 2856 0,082633 (0,072792; 0,093339) 0,003

Interpretando os resultados
Você pode concluir que a taxa de defeituosos é diferente de 0,068 porque:.

• O intervalo de confiança não inclui a taxa de defeituosos hipotética de 0,068. Você pode ter 95% de confiança de que a taxa de
defeituosos está entre 0,073 e 0,093.
• O p-valor (0,003) é menor que 0,05.
Os dados para esse teste de 1 proporção vêm de uma pesquisa. A amostra pode não representar exatamente a população porque muitos
consumidores não responderam a pesquisa. Geralmente, clientes insatisfeitos são mais prováveis de responderem as pesquisas e, como
resultado, viciarem os resultados da taxa de defeituosos, aumentando-a.

Soluções dos Exercícios 19


Exercício F: Taxas de Sobrevivência em Passageiros do Titanic
2 Proporções
Compare as taxas de sobrevivência para a primeira classe e a classe econômica.

1) Abra o arquivo TITANIC.MTW.


2) Selecione Stat > Basic Statistics > 2 Proportions.
3) Escolha Samples in one column.
4) Em Samples, entre com Status. Em Subscripts, entre com Classe.
5) Clique em OK.

Test and CI for Two Proportions: Status; Classe

Event = Sobreviveu

Classe X N Sample p
Econômica 508 1876 0,270789
Primeira 203 325 0,624615

Difference = p (Econômica) - p (Primeira)


Estimate for difference: -0,353826
95% CI for difference: (-0,410180; -0,297473)
Test for difference = 0 (vs not = 0): Z = -12,31 P-Value = 0,000

Fisher’s exact test: P-Value = 0,000

Interpretando os resultados
Dos passageiros de primeira classe, 62,5% sobreviveram, enquanto apenas 27,1% dos passageiros da classe econômica sobreviveram.
Como o p-valor é menor que 0,05, a diferença é estatisticamente significativa.a.

20 Soluções dos Exercícios


2 Proporções
Compare as taxas de sobrevivência para homens e mulheres.

1) Selecione Stat > Basic Statistics > 2 Proportions.


2) Escolha Samples in one column.
3) Em Samples, entre com Status. Em Subscripts, entre com Sexo.
4) Clique em OK.

Test and CI for Two Proportions: Status; Sexo

Event = Sobreviveu

Sexo X N Sample p
Feminino 344 470 0,731915
Masculino 367 1731 0,212016

Difference = p (Feminino) - p (Masculino)


Estimate for difference: 0,519899
95% CI for difference: (0,475464; 0,564334)
Test for difference = 0 (vs not = 0): Z = 22,93 P-Value = 0,000

Fisher’s exact test: P-Value = 0,000

Interpretando os resultados
Das mulheres, 73,2% sobreviveram, enquanto apenas 21,2% dos homens sobreviveram. Como o p-valor é menor que 0,05, a diferença
é estatisticamente significativa.

Soluções dos Exercícios 21


2 Proporções
Compare as taxas de sobrevivência para adultos e crianças.

1) Selecione Calc > Calculator.


2) Em Store result in variable, digite Faixa etária. Em Expression, digite ‘Idade’ >=18.
3) Clique em OK.
4) Selecione Stat > Basic Statistics > 2 Proportions.
5) Escolha Samples in one column.
6) Em Samples, entre com Status. Em Subscripts, entre com Faixa etária.
7) Clique em OK.

Test and CI for Two Proportions: Status; Faixa etária

Event = Sobreviveu

Faixa
etária X N Sample p
0 57 109 0,522936
1 654 2092 0,312620

Difference = p (0) - p (1)


Estimate for difference: 0,210316
95% CI for difference: (0,114469; 0,306164)
Test for difference = 0 (vs not = 0): Z = 4,30 P-Value = 0,000

Fisher’s exact test: P-Value = 0,000

Interpretando os resultados
Das crianças, 52,3% sobreviveram, enquanto apenas 31,3% dos adultos sobreviveram. Essa diferença é estatisticamente significativa.

22 Soluções dos Exercícios


Exercício G: Moldes de Tampas de Canetas
Estatísticas Descritivas
Construa boxplots para as 16 cavidades.

1) Abra o arquivo CAVIDADES.MTW.


2) Selecione Stat > Basic Statistics > Display Descriptive Statistics.
3) Em Variables, entre com Espessura. Em By variables, entre com Cavidade.
4) Clique em Graphs e marque Boxplot of data.
5) Clique em OK em cada caixa de diálogo.

Interpretando os resultados
O boxplot sugere que:

• Não existem outliers extremos (todos os dados caem em uma amplitude de 0,30 mm)
• As distribuições dentro de cada cavidade são aproximadamente simétricas (a mediana está próxima do centro da caixa).
Você não pode determinar por esse gráfico se as diferenças entre as cavidades são estatisticamente significativas.

Soluções dos Exercícios 23


Teste de Igualdade de Variâncias
Compare as variâncias nas 16 cavidades.

1) Selecione Stat > ANOVA > Test for Equal Variances.


2) Em Response, entre com Espessura; Em Factors, entre com Cavidade.
3) Clique em OK.

Interpretando os resultados
Com base nos p-valores altos para o Teste de Bartlett (assumindo normalidade) e o Teste de Levene (assumindo apenas simetria),
você não tem evidências suficientes para declarar uma diferença na variabilidade entre as 16 cavidades.

24 Soluções dos Exercícios


General Linear Model
Compare as médias nas 16 cavidades e verifique as suposições do modelo.

1) Selecione Stat > ANOVA > General Linear Model.


2) Em Responses, entre com Espessura; Em Model, entre com Cavidade.
3) Clique em Graphs. Em Residual Plots, escolha Four in one.
4) Clique em OK em cada caixa de diálogo.

General Linear Model: Espessura versus Cavidade


Factor Type Levels Values
Cavidade fixed 16 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16

Analysis of Variance for Espessura, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Cavidade 15 0,141988 0,141988 0,009466 8,35 0,000
Error 304 0,344623 0,344623 0,001134
Total 319 0,486612

S = 0,0336694 R-Sq = 29,18% R-Sq(adj) = 25,68%

Interpretando os resultados
Pelo menos duas cavidades têm médias significativamente diferentes (P=0,000).

Os resíduos são aproximadamente normalmente distribuídos, com variância constante e nenhuma tendência ao longo do tempo.

Soluções dos Exercícios 25


Interval Plot
Determine se a média de alguma cavidade difere do alvo.

1) Selecione Stat > ANOVA > Interval Plot.


2) Em One Y, selecione With Groups e clique em OK.
3) Em Graph variables, entre com Espessura. Em Categorical variables for grouping, entre com Cavidade.
4) Clique em Scale e selecione a aba Reference lines.
5) Em Show reference lines at Y values, digite 10.
6) Clique em OK.

Interpretando os resultados
As cavidades 1, 3, 5, 7, 8, 9, 12, 15 e 16 são significativamente diferentes do valor alvo, pois os intervalos não contêm esse valor (10
mm). Entretanto, usar intervalos de Bonferroni para controlar o erro Tipo I é mais apropriado, pois com tantas cavidades, ao menos
uma das identificadas como diferentes provavelmente está no alvo.

26 Soluções dos Exercícios


Interval Plot
Mude para intervalos de confiança Bonferroni.

1) Dê dois cliques sobre a linha de algum intervalo de confiança, e clique em Options.


2) Em Confidence interval, marque Bonferroni.
3) Clique em OK.

Interpretando os resultados
As cavidades 3, 5, 7, 8, 9, 15 e 16 são significativamente diferentes do alvo. Você pode ter 95% de confiança de que essas cavidades
estão trabalhando fora do alvo.

Soluções dos Exercícios 27


Exercício H: Degustação de Vinhos
General Linear Model
Analise a Nota em função do Juiz e do Vinho.

1) Abra o arquivo VINHO.MTW.


2) Selecione Stat > ANOVA > General Linear Model.
3) Em Responses, entre com Nota. Em Model, entre com Juiz Vinho Juiz*Vinho;
4) Clique em OK.

General Linear Model: Score versus Juiz; Vinho


Factor Type Levels Values
Juiz fixed 10 Antonio; Ballardo; Carmen; Daniel; Esmeralda; Fernanda;
Gerardo; Hernan; Irma; Josefina
Vinho fixed 3 Conquistador; Matador; Saeta

Analysis of Variance for Nota, using Adjusted SS for Tests


Source DF Seq SS Adj SS Adj MS F P
Juiz 9 24,683 24,683 2,743 1,09 0,399
Vinho 2 39,433 39,433 19,717 7,83 0,002
Juiz*Vinho 18 58,567 58,567 3,254 1,29 0,260
Error 30 75,500 75,500 2,517
Total 59 198,183

S = 1,58640 R-Sq = 61,90% R-Sq(adj) = 25,08%

Interpretando os resultados
Há uma forte evidência de que há diferenças entre as pontuações médias (P = 0,002). Os enólogos não são significativamente diferentes
um do outro, e a interação Juiz*Vinho não é significativa. A não-significância do efeito do Juiz é boa, pois você quer que os enólogos
concordem entre si. Ajuste o modelo novamente retirando os termos não-significativos.

28 Soluções dos Exercícios


General Linear Model
Construa os gráficos de resíduos. Inclua comparações pareadas e um gráfico de efeitos principais para Vinho.

1) Selecione Stat > ANOVA > General Linear Models ou pressione Ctrl + E.
2) Em Model, mantenha apenas Vinho.
3) Clique em Graphs. Em Residual plots, escolha Four in one e clique em OK.
4) Clique em Comparisons. Em Terms, entre com Vinho e clique em OK.
5) Clique em Factor Plots. Sob Main Effects Plot, entre com Vinho em Factors.
6) Clique em OK em cada caixa de diálogo.

Tukey Simultaneous Tests


Response Variable Nota
All Pairwise Comparisons among Levels of Vinho
Vinho = Conquistador subtracted from:

Difference SE of Adjusted
Vinho of Means Difference T-Value P-Value
Matador -0,650 0,5277 -1,232 0,4397
Saeta -1,950 0,5277 -3,695 0,0014

Vinho = Matador subtracted from:

Difference SE of Adjusted
Vinho of Means Difference T-Value P-Value
Saeta -1,300 0,5277 -2,463 0,0437

Interpretando os resultados
Com base nos p-valores para as comparações em pareadas, o vinho Saeta é significativamente diferente de Conquistador (p-valor =
0,0014) e Matador (p-valor = 0,0437).

Soluções dos Exercícios 29


Interpretando os resultados
O gráfico de probabilidade normal indica um leve desvio da normalidade, pois a resposta não é uma medida contínua. Como não exis-
tem outliers extremos e os pontos de dados caem ao longo de uma linha reta, você pode assumir que a falta de normalidade não afeta
fortemente os resultados.

O gráfico de fatores mostra que o vinho Saeta recebeu a menor pontuação média e Conquistador a maior.

30 Soluções dos Exercícios


Exercício I: Desgaste de Tinta
General Linear Model
Determine se o desgaste médio da tinta em todos os quatro tipos de tinta é igual.

1) Abra o arquivo DESGASTE.MTW.


2) Selecione Stat > ANOVA > General Linear Model.
3) Em Responses, entre com Desgaste. Em Model, entre com Tinta.
4) Clique em OK.

General Linear Model: Desgaste versus Tinta


Factor Type Levels Values
Tinta fixed 4 Y-0242; Y-0314; Y-1424; Y-1723

Analysis of Variance for Desgaste, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Tinta 3 30,688 30,688 10,229 2,44 0,115
Error 12 50,250 50,250 4,188
Total 15 80,938

S = 2,04634 R-Sq = 37,92% R-Sq(adj) = 22,39%

Unusual Observations for Desgaste

Obs Desgaste Fit SE Fit Residual St Resid


14 8,0000 12,2500 1,0232 -4,2500 -2,40 R

R denotes an observation with a large standardized residual.

Interpretando os resultados
Quando Tinta é o único fator no modelo, o resultado não mostra diferença significativa entre os quatro tipos de tinta (P > 0,05).

Soluções dos Exercícios 31


General Linear Model
Determine se o desgaste médio da tinta é diferente nas localidades e tipos de tinta.

1) Selecione Stat > ANOVA > General Linear Model.


2) Em Responses, entre com Desgaste. Em Model, entre com Localidade Tinta.
3) Clique em OK.

General Linear Model: Desgaste versus Localidade; Tinta


Factor Type Levels Values
Localidade fixed 4 Contagem; Sabará; Santa Luzia; Vespasiano
Tinta fixed 4 Y-0242; Y-0314; Y-1424; Y-1723

Analysis of Variance for Desgaste, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


Localidade 3 38,688 38,687 12,896 10,04 0,003
Tinta 3 30,688 30,688 10,229 7,96 0,007
Error 9 11,562 11,562 1,285
Total 15 80,938

S = 1,13346 R-Sq = 85,71% R-Sq(adj) = 76,19%

Unusual Observations for Desgaste

Obs Desgaste Fit SE Fit Residual St Resid


14 8,0000 9,9375 0,7497 -1,9375 -2,28 R

R denotes an observation with a large standardized residual.

Interpretando os resultados
Quando você adiciona Localidade ao modelo, o resultado mostra uma diferença estatística entre os quatro tipos de tinta (P = 0,007) e as
quatro localidades (P = 0,003).

32 Soluções dos Exercícios


General Linear Model
Verifique as suposições do modelo.

1) Selecione Stat > ANOVA > General Linear Model.


2) Clique em Graphs.
3) Em Residual Plots, escolha Four in one.
4) Clique em OK em cada caixa de diálogo.

Interpretando os resultados
Os gráficos de resíduos não indicam quaisquer observações não-usuais.

Quando Localidade é deixada fora do modelo, o termo de erro inclui o efeito da localidade. Esse efeito infla a quantidade de erro e torna
as diferenças entre os tipos de tinta menos estatisticamente significativas.

O termo de erro para testar as diferenças entre os tipos de tinta:

• = SS Localidade + SS Erro, se o modelo não incluir Localidade


• = SS Erro, se o modelo incluir Localidade.

Soluções dos Exercícios 33


General Linear Model
Determine quais tipos de tinta são significativamente diferentes entre si.

1) Selecione Stat > ANOVA > General Linear Model.


2) Clique em Comparisons.
3) Em Terms, entre com Tinta.
4) Desmarque Confidence interval, with confidence level.
5) Clique em OK em cada caixa de diálogo.

Tukey Simultaneous Tests


Response Variable Desgaste
All Pairwise Comparisons among Levels of Tinta
Tinta = Y-0242 subtracted from:

Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-0314 -2,000 0,8015 -2,495 0,1274
Y-1424 -3,250 0,8015 -4,055 0,0125
Y-1723 -3,500 0,8015 -4,367 0,0080

Tinta = Y-0314 subtracted from:

Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-1424 -1,250 0,8015 -1,560 0,4452
Y-1723 -1,500 0,8015 -1,872 0,3041

Tinta = Y-1424 subtracted from:

Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-1723 -0,2500 0,8015 -0,3119 0,9888

Interpretando os resultados
A tabela mostra que o desgaste da tinta é significativamente diferente ao nível de significância de 0,05 entre os seguintes tipos de tinta:

• Y-0242 e Y-1424 (P = 0,0125)


• Y-0242 e Y-1723 (P = 0,0080)

34 Soluções dos Exercícios


Exercício J: Escudos de Erosão
Fitted Line Plot
Ajuste um modelo de regressão linear simples com Abrasão como a resposta e Dureza como o preditor.

1) Abra o arquivo EROSÃO.MTW.


2) Selecione Stat > Regression > Fitted Line Plot.
3) Em Response (Y), entre com Abrasão. Em Predictor (X), entre com Dureza.
4) Clique em Options.
5) Marque Display confidence interval e Display predicition interval.
6) Clique em OK em cada caixa de diálogo.

Regression Analysis: Abrasão versus Dureza


The regression equation is
Abrasão = 2671 - 3,129 Dureza

S = 42,8514 R-Sq = 73,6% R-Sq(adj) = 72,5%

Analysis of Variance

Source DF SS MS F P
Regression 1 112902 112902 61,49 0,000
Error 22 40397 1836
Total 23 153300

Interpretando os resultados
A equação de regressão indica que, à medida que a Dureza aumenta, a Abrasão diminui:

Abrasão = 2671 - 3,129 Dureza

O R2 indica que mudanças na Dureza explicam 73,6% da variação na Abrasão. Para a maioria dos estudos, um R2 alto para apenas um
preditor é muito bom. Variáveis adicionais podem ajudar a explicar um pouco dos 26,4% restantes da variação, mas alguma variação será
sempre atribuída ao erro (Residual Error).

Soluções dos Exercícios 35


Fitted Line Plot
Verifique as suposições sobre o modelo de regressão.

Gráfico de resíduos Four-in-one


1) Selecione Stat > Regression > Fitted Line Plot.
2) Clique em Graphs.
3) Escolha Four in one.
4) Clique em OK em cada caixa de diálogo.

Interpretando os resultados
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.

36 Soluções dos Exercícios


Exercício K: Escapamento de Diesel
Scatterplot
Plote os dados para visualizar a relação entre as variáveis.

1) Abra o arquivo DIESEL.MTW.


2) Selecione Graph > Scatterplot. Escolha Simple, e clique em OK.
3) Em Y variables, entre com NOx. Em X variables, entre com Umidade.
4) Clique em OK.

Interpretando os resultados
O gráfico de NOx versus Umidade sugere uma relação quadrática entre as duas variáveis. Portanto, você pode querer ajustar um modelo
de regressão quadrático.

Soluções dos Exercícios 37


Fitted Line Plot
Ajuste um modelo de regressão apropriado.

1) Selecione Stat > Regression > Fitted Line Plot.


2) Em Response (Y), entre com NOx. Em Predictor (X), entre com Umidade.
3) Em Type of Regression Model, escolha Quadratic.
4) Clique em Options.
5) Marque Display confidence interval e Display prediction interval.
6) Clique em OK em cada caixa de diálogo.

Regression Analysis: NOx versus Umidade


The regression equation is
NOx = 1,360 - 0,01149 Umidade + 0,000058 Umidade**2

S = 0,0480050 R-Sq = 63,6% R-Sq(adj) = 59,3%

Analysis of Variance

Source DF SS MS F P
Regression 2 0,068399 0,0341994 14,84 0,000
Error 17 0,039176 0,0023045
Total 19 0,107575

Sequential Analysis of Variance

Source DF SS F P
Linear 1 0,0174885 3,49 0,078
Quadratic 1 0,0509103 22,09 0,000

38 Soluções dos Exercícios


Interpretando os resultados
O R2 indica que o modelo explica 63,6% da variação nas emissões de óxido de nitrogênio. O baixo p-valor (0,000) para o termo quadrá-
tico indica que ele é necessário para o modelo. Se você ajustasse um modelo cúbico, descobriria que o termo cúbico não é significativo
ao nível de significância de 0,05 (P=0,474). Portanto, se você desejar um maior R2, precisaria identificar variáveis adicionais relacionadas
com as emissões de NOx.

No gráfico de regressão, o menor nível de emissões de NOx ocorre quando Umidade é cerca de 100.

Nota: Usando cálculo, você pode encontrar a primeira derivada do modelo quadrático, igualá-la a zero, e resolver para a Umidade. O resultado
(98,46) é o valor de Umidade que minimiza o NOx.

Soluções dos Exercícios 39


Exercício L: Duração do Sono
Regression
Determine quais termos são preditores significativos para a duração do sono.

1) Abra o arquivo DURAÇÃO_SONO.MTW.


2) Selecione Stat > Regression > Regression.
3) Em Response, entre com Sono. Em Predictors, entre com c2-c6.
4) Clique em OK.
5) Repita, removendo um preditor de cada vez, até que todos os preditores restantes sejam significativos.

Regression Analysis: Sono versus Gestação; Predação

The regression equation is


Sono = 16,4 - 0,0189 Gestação - 1,19 Predação

Predictor Coef SE Coef T P


Constant 16,426 1,045 15,71 0,000
Gestação -0,018909 0,003259 -5,80 0,000
Predação -1,1927 0,3120 -3,82 0,000

S = 3,25063 R-Sq = 53,7% R-Sq(adj) = 51,7%

Interpretanto os resultados
Após você remover os termos não-significativos do modelo um-a-um, a equação final tem dois preditores: Gestação e Predação. Você
pode interpretar esses coeficientes com base em seus sinais:

• Gestação: Quanto maior o período de gestação, menor a duração do sono da espécie.


• Predação: Quanto maior o nível de predação, menor a duração do sono.

40 Soluções dos Exercícios


Regression
Verifique as suposições do modelo.

1) Selecione Stat > Regression > Regression.


2) Em Response, entre com Sono. Em Predictors, entre com Gestação Predação (isso já deve estar feito).
3) Clique em Graphs.
4) Em Residual Plots, escolha Four in one.
5) Clique em OK em cada caixa de diálogo.

Interpretando os resultados
Os gráficos de resíduos não apontam a violação de qualquer suposição referente aos erros.

Você utilizou o procedimento de eliminação backwards. Obtenha os resultados utilizando outro procedimento, usando Stat > Regression
> Stepwise. Esse método também identifica Gestação e Predação como os preditores significativos.

Para o estudo de duração do sono, há duas observações atípicas (outliers) nos gráficos de resíduos. Utilizando o cursor para identificar
os pontos, você pode verificar que os dados dos elefantes africanos e asiáticos são observações com grande influência. Devido aos
outliers nos valores dos preditores (peso e gestação) para essas espécies, suas respostas podem ter uma grande influência nos coefi-
cientes de regressão e p-valores. Se você remover essas duas espécies e reanalisar os dados, as conclusões não irão mudar; portanto
essas observações não exercem uma influência comprometedora.

Soluções dos Exercícios 41

Você também pode gostar