Escolar Documentos
Profissional Documentos
Cultura Documentos
Objetivos
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Coleta de dados
Os engenheiros selecionaram 6 caixas de cereais aleatoriamente, pesaram, e usaram os dados amostrais para estimar a média popu-
lacional (a média do processo).
Ferramentas
• 1-Sample t
• Normality Test
Arquivo de dados
CEREAl.MPJ
Variável Descrição
Peso da caixa Peso da caixa de cereais (em gramas)
Por exemplo, suponha que desejamos testar se o comprimento médio de chapas de aço é igual ao comprimento desejado. O procedi-
mento envolve medir um determinado número de chapas e usar o comprimento médio dessas chapas amostradas para estimar o com-
primento médio da população de chapas. Isso é um exemplo de inferência estatística: o uso de informações sobre uma amostra para
fazer inferências sobre uma população.
O teste usa o desvio-padrão amostral para estimar s (o desvio padrão populacional). Se a diferença entre a média amostral e a média
hipotética é grande em relação à variabilidade dentro da amostra, então é improvável que µ seja igual à média de teste.
O teste pressupõe que a população seja normalmente distribuída. Entretanto, ele é bastante robusto a pequenas violações desta supo-
sição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razoavelmente simétricos
(veja Box, Hunter & Hunter [1978]. Statistics for Experimenters, John Wiley and Sons, Inc.)
• A largura média das lâminas de barbear está acima ou abaixo do valor alvo?
• A resistência média dos parafusos do fornecedor é inferior ao mínimo requerido?
Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.
4) Clique em OK.
• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.
Conclusão
Com base no gráfico e no teste, é razoável supor que os dados não se desviam de forma substancial de uma distribuição normal.
Próximo passo
Realize um teste t.
Hipóteses estatísticas
Existem duas possibilidades: ou µ é igual a 365 ou não é. Essas alternativas podem ser declaradas como duas hipóteses:
1-Sample t
1) Selecione Stat > Basic Statistics > 1-Sample t.
2) Preencha a caixa de dialogo como mostra a figura abaixo.
3) Clique em OK.
Pode-se utilizar intervalos de confiança para se obter conclusões sobre um teste de hipóteses:
Os resultados da janela Session para 1-Sample t incluem valores para as extremidades do intervalo de 95% de confiança. Podemos obter
uma representação gráfica do intervalo selecionando Individual value plot na subcaixa de diálogo Graphs.
1-Sample t - Graphs
1) Selecione Stat > Basic Statistics > 1-Sample t, ou pressione Ctrl+E.
2) Clique em Graphs.
3) Complete a caixa de dialogo como mostra a figura abaixo:
Intervalo de confiança
O intervalo de confiança é uma faixa de valores prováveis para µ. Ele é mostrado graficamente como uma linha azul abaixo do Individual
Value Plot.
Um intervalo de confiança é de 95% por que, se selecionarmos 100 amostras da mesma população, os intervalos para cerca de 95% das
amostras incluiriam µ. Assim, para qualquer amostra, podemos ter uma confiança de 95% de que o intervalo de confiança engloba µ .
OBSERVAÇÃO: Um intervalo de confiança não representa 95% dos dados; este é um erro conceitual comum.
Teste de hipóteses
O marco central representa a média da amostra e o ponto vermelho, denominado de Ho, representa a média do teste (365). Pode-se usar
o intervalo de confiança para testar a hipótese nula:
• Se Ho estiver fora do intervalo, o Valor-P para o teste de hipóteses será menor que 0,05. Pode-se rejeitar a hipótese nula ao nível
a de 0,05.
• Se Ho estiver dentro do intervalo, o Valor-P será maior que 0,05. Não se deve rejeitar a hipótese nula ao nível a de 0,05.
Uma vez que H0 cai dentro do intervalo de confiança, não se deve rejeitar a hipótese nula. Não há evidências suficientes para concluir
que µ não é 365 gramas, ao nível de significância de 0,05.
Assim como o teste t, o intervalo de 95% de confiança não fornece evidência suficiente para rejeitar a hipótese nula de que a média dos
pesos das caixas é diferente de 365 gramas.
Considerações adicionais
Hipóteses:
• Geralmente declara que alguma propriedade de uma população (como a média, por exemplo) não é diferente de um valor espe-
cificado, ou de outra população;
• É considerada verdadeira até que sejam coletadas evidências suficientes do contrário;
• Nunca é aceita, simplesmente fala-se em não rejeitá-la.
A hipótese alternativa (H1):
Nível de significância
• O aumento de a amplia as chances de detectar uma diferença (e assim, o poder); mas também aumenta as chances de rejeitar
H0 quando, de fato, ela é verdadeira (erro tipo I);
• A redução de a reduz as chances de cometer um erro tipo I, mas também reduz as chances de detectar uma diferença (reduz o
poder de teste).
Cada teste de hipóteses baseia-se em uma ou mais suposições sobre os dados que estão sendo analisados. Se estas suposições não
forem satisfeitas, as conclusões podem não ser corretas.
Intervalos de confiança
O intervalo de confiança é uma faixa de valores prováveis para µ (ou outro parâmetro populacional).
Pode-se executar um teste de hipóteses bilateral (a hipótese alternativa é µ) usando um intervalo de confiança. Por exemplo, se o valor
de teste não está contido no intervalo de 95% de confiança, deve-se rejeitar H0 para um nível de significância de 0,05. Da mesma forma,
se um intervalo de 90% de confiança for construído e ele não contém a média de teste, deve-se rejeitar H0 para um nível de significância
de 0,10.
Eles querem certificar-se de que a média do processo não difere do alvo de 365 gramas em mais de 2,5 gramas.
Coleta de dados
Os engenheiros baseiam a análise de poder nos resultados do teste t do Exemplo 1.
Ferramentas
• Power and Samplo Size - 1-Sample t
Arquivo de dados
Nenhum
Hipótese nula
Decisão Verdadeira Falsa
Não rejeitar Decisão Correta (Confiança) Erro tipo II
p=1-α p=β
Rejeitar Erro tipo I Decisão Correta (Poder)
p=α p=1-β
O poder do teste é a probabilidade de que a rejeição da hipótese nula esteja correta, dado que a hipótese nula é falsa. Podemos usar
uma análise de poder para determinar quanto poder tem um teste existente ou para ajudar a projetar um novo teste, de modo que este
tenha o poder adequado.
• Quantas amostras precisamos coletar para determinar se o papel de um fornecedor é mais espesso do que o de outro em 0,0038
cm?
• Qual o tamanho da diferença que seria detectada entre as médias das resistências de vigas de aço e uma média histórica ba-
seada em 8 amostras?
• Podemos confiar nos resultados de um teste t que indique que as resistências de duas formulações de cola não se diferem?
Diferenças
Para determinar se uma diferença é significativa, determine o valor do deslocamento que será considerado inaceitável na medida do
parâmetro.
Valores
Se você digitar mais do que um valor para um parâmetro, o Minitab executará cálculos separados para cada valor dado.
Desvio padrão
Uma vez que o poder de um teste é parcialmente determinado pela variabilidade dos dados, é preciso fornecer uma estimativa do desvio-
padrão dos dados. Use uma estimativa histórica ou o desvio-padrão amostral.
Para os dados dos cereais, o desvio padrão (2,403) vem dos resultados do teste t.
4) Clique em OK.
Em outras palavras, há 46,23% de chance de não rejeitar Ho e concluir incorretamente que o valor 365 é realmente o peso médio de
enchimento das caixas de cereal.
1-Sample t Test
Neste exemplo, a diferença representa um deslocamento na média do processo em relação ao alvo, em gramas. Quando a média do
processo é um grama acima ou abaixo do alvo, o poder de detectar a diferença com 6 amostras é muito baixo. Quando a média do pro-
cesso é dois gramas abaixo ou acima do alvo, o poder de detectar uma diferença com 6 amostras é próximo de 0,40. Mesmo o poder a
mais ou menos três gramas é inaceitável para a maioria dos padrões.
Próximo passo
Determine o número de observações requeridas para atingir o poder adequado. Quantas observações você precisa para ter 80% de
chance de detectar um deslocamento de 2,5 gramas em relação ao alvo? Quantas observações você precisa para ter 85%, 90% ou 95%
de chance de detectar esta diferença?
Calcule os tamanhos de amostra necessários para atingir níveis de poder de 0,80, 0,85, 0,90, 0,95.
Uma vez que o tamanho da amostra deve ser um número inteiro, o Actual Power (poder real) do teste com 10 observações (0,832695)
é ligeiramente maior do que o poder alvo.
Se o poder for muito elevado (por exemplo, 99%), o teste podemos detectar deslocamentos pequenos demais, que não tem importância
prática.
1-Sample t Test
O uso de uma amostra maior fornece mais poder, possibilitando detectar a diferença, caso ela exista.
Considerações adicionais
Para garantir que um teste tenha poder suficiente, é aconselhável executar uma análise de poder antes de coletar os dados.
Nota: Um teste unilateral é mais poderoso que um teste bilateral, a menos que a diferença não seja na direção esperada. Por exemplo, um teste
unilateral com a hipótese alternativa H1: µ > 365 pode não detectar diferenças se a média amostral real é menor que 365..
Coleta de dados
Engenheiros selecionaram aleatoriamente 12 caixas de cereais e pesaram.
Ferramentas
• 1-Sample t
• Normality Test
Arquivo de dados
CEREAl.MPJ
Variável Descrição
Mais Obs Peso das caixas em gramas
Use o teste de normalidade para determinar se a suposição de normalidade é válida para este processo.
Normality Test
1) Abra o projeto CEREAL.MPJ.
2) Selecione Window > Worsheet 2***.
3) Selecione Stat > Basic Statistics > Normality Test.
4) Preencha a caixa de diálogo como mostra a figura abaixo:
5) Clique em OK.
• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.
Conclusão
Com base no gráfico e no teste, é razoável supor que os pesos das caixas de cereal são normalmente distribuídos e um teste t é apro-
priado para testar a média do estudo.
Próximo passo
Realize um teste t.
1-Sample t
1) Selecione Stat > Basics Statistics > 1-Sample t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em Graphs.
4) Marque Boxplot of data.
5) Clique em OK em cada caixa de diálogo.
Conclusão
A diferença entre a média do processo e o valor alvo (365 gramas) é significativa ao nível α de 0,05.
T
A estatística t (2,75) é calculada como:
onde SE Mean é o erro padrão da média (uma medida de variabilidade). À medida que o valor de t aumenta, o Valor-P diminui.
P
O Valor-P é 0,019. Como este valor é menor que α (0,05), você deve rejeitar a hipótese nula.
O teste t indica que a diferença entre a média do processo e o alvo de 365 gramas é significativa ao nível α de 0,05:
One-Sample T: Mais_Obs
• Quando o tamanho da amostra foi 6, não foi encontrada diferença estatística entre a média do processo e o valor alvo;
• Quando o tamanho da amostra foi 12, uma diferença estatística foi encontrada a um nível de 95% de confiança.
Considerações adicionais
Sempre que possível, examine o poder e o tamanho da amostra antes da coleta dos dados. Do contrário, se você descobrir depois da
coleta dos dados que o poder é inadequado, pode ter dificuldades para obter observações adicionais sob as mesmas condições da
amostra original.
Tipicamente, o desvio-padrão dos diâmetros é de 0,04 mm. Use um nível α de 0,05 para todos os testes.
Coleta de dados
Engenheiros selecionaram aleatoriamente 10 rolamentos e mediram seu diâmetro.
Instruções
1) Use Stat > Power and Sample Size > 1-Sample-t para calcular o tamanho amostral necessário para detectar uma diferença
de 0,1 mm com um poder de 0,85.
2) Calcule a diferença detectável com um poder de 0,90 ao coletar 5 e 10 observações.
3) Teste a normalidade da amostra.
4) Determine se o processo está atingindo o alvo. Execute um teste de hipóteses (H1: µ ≠ 5) e gere um boxplot dos dados.
Arquivo de dados
ROLAMENTOS.MTW
Variável Descrição
Diâmetro Diâmetro dos rolamentos (mm)
Coleta de dados
Analistas mediram a temperatura de congelamento para 10 lotes selecionados aleatoriamente do fornecedor de leite.
Instruções
1) Com um tamanho amostral de 10, determine o poder para detectar diferenças de 0,008, 0,010 e 0,012. Em Options, abaixo de
Alternative Hypothesis, escolha Greater than. Assuma um desvio padrão de 0,01.
2) Use um teste t para 1 amostra para determinar se a média é maior que -0,545. Em Options, abaixo de Alternative Hypothesis,
escolha Greater than.
3) Teste a normalidade dos dados.
4) Se todas as amostras vem de um lote de leite, isso modificaria a análise e a conclusão?
Arquivo de dados
QUEIJO.MTW
Variável Descrição
TempCong Temperatura de congelamento do leite (ºC)
Exemplo 4:
Tamanho de Amostra para Comparação de Fornecedores
Problema
Um fabricante de calculadoras está selecionando um fornecedor de plástico. A equipe de qualidade tem uma política para métricas críti-
cas de qualidade, que declara:
“Assumindo custos e variabilidade similares, as resistências médias com mais de um desvio padrão de diferença são um deslocamento
significativo.”
Determine o tamanho amostral necessário para detectar uma diferença de um desvio padrão entre dois fornecedores com variabilidade
similar. (O Minitab assume variabilidade igual no cálculo do tamanho da amostra.) O poder para detectar essa diferença deveria ser de
pelo menos 80%.
Ferramentas
• Power and Sample Size: 2-Sample t
Arquivo de dados
Nenhum
• Poder é a probabilidade de que você detecte uma diferença entre as duas médias quando elas realmente diferem.
• Tamanho amostral é o número de amostras por grupo que você precisa para atingir um determinado poder.
NOTA: É importante registrar o poder de um teste quando você detectar nenhuma diferença (não rejeitar H0).
Por que usar poder e tamanho de amostra em um teste t para duas amostras
Poder e tamanho de amostra pode determinar:
• O tamanho amostral por grupo que você precisa para detectar uma diferença entre as médias com um poder específico
• O poder de um teste para detectar uma diferença entre as médias com base em um tamanho amostral específico
• O tamanho de uma diferença detectável com um poder e tamanho de amostra específico.
Valores de poder
Entre com o(s) valor(es) de poder desejado(s). Valores de poder maiores que 0,80 são tipicamente considerados aceitáveis.
4) Clique em OK.
O poder real é aproximado para o menor tamanho amostral resultante em um poder pelo menos tão grande quanto o poder alvo.
2-Sample t Test
Sample Target
Difference Size Power Actual Power
-1 17 0,8 0,807037
-1 23 0,9 0,912498
1 17 0,8 0,807037
1 23 0,9 0,912498
Considerações adicionais
Ás vezes uma diferença e um desvio padrão não estão disponíveis ao calcular o poder. Como o cálculo do poder é baseado na razão da
diferença pelo desvio padrão, você não precisa especificá-los se estiver planejando aceitar a resposta em termos do número de desvios
padrão que separam as duas médias populacionais. Por exemplo, se a diferença é 2 e o desvio padrão é 2, o poder será o mesmo se a
diferença for 1 e o desvio padrão for 1, pois ambas são diferenças de 1 σ.
Como mostrado nesse exemplo, você pode especificar uma diferença de 1 σ configurando diferença e desvio padrão iguais. Da mesma
forma, você pode especificar uma diferença de 2 σ especificando uma diferença que seja duas vezes o desvio padrão.
Coleta de dados
Uma máquina pressiona os grânulos plásticos de lotes selecionados aleatoriamente. Técnicos registram a resistência à quebra (em
Newtons) de cada grânulo.
Ferramentas
• 2-Sample t
• Normality Test
• 2 Variances
Arquivo de dados
PLÁSTICO.MTW
Variável Descrição
Fornecedor A Resistência à quebra dos grânulos plásticos do fornecedor A
Fornecedor B Resistência à quebra dos grânulos plásticos do fornecedor B
Você também pode usar um teste t para 2 amostras independentes para avaliar se as médias de duas populações diferem de um valor
específico.
O teste também assume que os dados sejam provenientes de populações normalmente distribuídas. Entretanto, o teste é robusto a
violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos, unimodais e razo-
avelmente simétricos.
Use um teste de normalidade para determinar se a suposição de normalidade é válida para estes dados.
Normality Test
1) Abra o arquivo PLÁSTICO.MTW.
2) Selecione Graph > Probability Plot > Multiple e clique em OK.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
4) Clique em OK.
• Se os dados provêm de uma distribuição normal, os pontos seguirão, a grosso modo, a reta de referência.
• Se os dados não provêm de uma distribuição normal, os pontos não seguirão a reta.
Os gráficos indicam que as distribuições são razoavelmente normais; todos os pontos se distribuem próximos às retas de referência.
Conclusão
Com base nos gráficos e no teste, você pode assumir que os dados provêm de populações com distribuição normal.
2 Variances
1) Selecione Stat> Basic Statistics > 2 Variances.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
Teste de variâncias
Os resultados incluem dois testes de variâncias:
Conclusão
O p-valor do teste F (0,018) é menor que σ (0,05), portanto rejeite a hipótese nula de que as variâncias são iguais. Os resultados sugerem
que a variância dos plásticos do Fornecedor B é menor que a do Fornecedor A.
O cálculo do tamanho da amostra assumiu igualdade de variâncias. Como as variâncias não são iguais, o cálculo do tamanho amostral
não foi correto. Se uma diferença não for encontrada entre as médias dos fornecedores, considere aumentar o tamanho amostral para o
grupo com maior variação (Fornecedor A) para assegurar um poder de pelo menos 80%.
• H0: µA - µB = 0
• HA: µA - µB ≠ 0
Crie gráficos de valores individuais e boxplots para visualizar os dados.
Uma vez que o teste de igualdade de variâncias indicou que as variâncias das populações não são iguais, não marque ‘Assume equal
variances’.
2-Sample t
1) Selecione Stat > Basic Statistics > 2-Sample t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em Graphs.
4) Marque Individual value plot e Boxplots of data.
5) Clique em OK em cada caixa de diálogo.
O Minitab mostra a média da resistência à quebra (Mean) e duas medidas de variabilidade, o desvio padrão (StDev) e o erro padrão da
média (SE Mean), para cada fornecedor.
Intervalos de confiança
A diferença entre as médias das amostras (3,08) é uma estimativa da diferença entre as médias das populações (µ Fornecedor A - µ
Fornecedor B). O intervalo de confiança para a diferença é baseado na estimativa da variabilidade dentro das amostras.
Você pode ter 95% de confiança de que a média do Fornecedor A é maior que a média do Fornecedor B entre 0,82 a 6,78 Newtons.
Se a média e a variância são igualmente importantes, considere comparar as estatísticas Cpk para os dois fornecedores. A estatística
Cpk é uma métrica de qualidade que considera tanto a média quanto a variância em relação aos limites de especificação.
Se as estatísticas Cpk forem próximas, a empresa pode preferir escolher o fornecedor com base no custo.
NOTA: Para aprender mais sobre o Cpk e outras métricas de capacidade de processos, veja o curso de Ferramentas Estatísticas da Qualida-
de.
Considerações adicionais
Ao usar um teste t para 2 amostras:
Coleta de dados
Amostras de processos de inserção de ânodos estão disponíveis, porém é dispendioso medi-las. Portanto, os engenheiros não podem
coletar mais amostras que o necessário. Historicamente, a variação nas medições tem um desvio padrão de 0,55 mm. Um aumento de
0,4 mm é considerado uma melhoria significativa.
Instruções
1) Use poder e tamanho de amostra para determinar o número de observações necessárias para detectar uma melhoria no pro-
cesso de pelo menos 0,4 mm com um poder de 0,85. Especifique um teste unilateral.
2) Verifique a normalidade de cada amostra.
3) Verifique a suposição de igualdade de variâncias das amostras.
4) Use um teste t para 2 amostras para determinar se a altura do ânodo melhorou após a mudança no processo. Especifique a
hipótese alternativa “greater than”, e crie um boxplot para comparar visualmente as duas amostras de dados.
5) Qual o tamanho amostral necessário se o teste t usar uma hipótese alternativa bilateral?
Arquivo de dados
ÂNODO.MTW
Variável Descrição
Altura do Ânodo A altura de um ânodo elétrico acima da superfície cerâmica
Mudança no processo Antes e após a mudança no processo
Coleta de dados
Vinte motoristas estacionaram ambos os carros em ordem aleatória e o tempo de estacionamento (em segundos) foi registrado.
Ferramentas
• Paired t
• Calculator
• Normality Test
Arquivo de dados
CARROS.MTW
Variável Descrição
Carro A Tempo de estacionamento do carro A (em segundos)
Carro B Tempo de estacionamento do carro B (em segundos)
O teste também assume que as diferenças pareadas sejam provenientes de uma população normalmente distribuída. Entretanto, o
teste é robusto a violações dessa suposição, desde que as observações sejam coletadas aleatoriamente e os dados sejam contínuos,
unimodais e razoavelmente simétricos.
• Tratar a madeira com determinado produto químico aumenta seu tempo de vida? (Assuma que cada pedaço de madeira amostral
é cortado ao meio; uma metade é tratada com o produto químico enquanto a outra metade não é tratada.)
• Dois compassos medem peças idênticas da mesma maneira? (Assuma que as várias peças são medidas uma vez com cada
compasso.)
Normality Test
1) Abra o arquivo CARROS.MTW.
2) Selecione Calc > Calculator.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
4) Clique em OK.
5) Selecione Stat > Basic Statistics > Normality Test.
6) Em Variable, entre com Diferenças.
7) Clique em OK.
Paired t
1) Selecione Stat > Basic Statistics > Paired t.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em Graphs.
4) Marque Individual value plot e Boxplot of differences;
5) Clique em OK em cada caixa de diálogo.
A diferença média observada (aproximadamente 2) é representada por . H0 representa a diferença populacional a ser testada
(zero).
Intervalo de confiança
O Minitab também plota o intervalo de confiança para a diferença média populacional. Se a hipótese nula fosse verdadeira, H0 provavel-
mente estaria contido neste intervalo.
Como o intervalo de confiança não inclui H0, você pode rejeitar a hipótese nula e concluir que o carro A leva mais tempo para ser esta-
cionado que o carro B.
Médias
Os tempos médios de estacionamento são 34,9 segundos para o carro A e 32,9 segundos para o carro B. A diferença média é de apro-
ximadamente 2 segundos.
Os limites do intervalo de 95% de confiança para a diferença média são 0,17 e 3,76.
Uma diferença de 2 segundos tem alguma importância prática? Essa é uma decisão que você deve tomar. Se um leve aumento no tempo
de estacionamento aumenta a frustração do motorista, então 2 segundos podem ser importantes. Essa diferença também pode ser mais
importante para motoristas que estacionam freqüentemente em paralelo.
Considerações adicionais
Ao usar um teste t pareado:
O uso de observações pareadas elimina a variabilidade causada pelas diferenças entre os indivíduos. Por exemplo, o motorista 1 levou
18,9 segundos para estacionar o carro A e 18,2 segundos para estacionar o carro B. Por outro lado, o motorista 18 levou 43,8 e 41,1
segundos para estacionar os mesmos carros. Analisar as diferenças para cada motorista elimina a variabilidade entre os motoristas dos
cálculos, aumentando o poder do teste.
Coleta de dados
Analistas selecionaram aleatoriamente 12 rolamentos no processo. Um único operador mediu cada rolamento com o compasso Easy-
Gage e com o compasso ToolIt.
Instruções
1) Use um teste t pareado para determinar se as medições fornecidas pelos dois instrumentos são diferentes. Construa um gráfico
de valores individuais das diferenças entre as medições.
2) Usando o desvio padrão das diferenças amostrais como uma estimativa de σ, calcule o poder do teste para detectar uma dife-
rença média de 0,005 cm. (Dica: Conduzir um teste t pareado é a mesma coisa de se conduzir um teste t para 1 amostra nas
diferenças entre observações pareadas. Portanto, use Stat > Power and Sample Size > 1-Sample t para avaliar o poder de
um teste t pareado.)
3) Qual o poder do teste para detectar uma diferença média de 0,001 cm?
Arquivo de dados
COMPASSOS.MTW
Variável Descrição
Rolamento Identifica o rolamento medido
EasyGage Diâmetro do rolamento medido pelo compasso EasyGage (cm)
ToolIt Diâmetro do rolamento medido pelo compasso ToolIt (cm)
Diferença Diferença pareada entre os compassos em cada rolamento (cm)
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Testes de Proporção 3
Conteúdo
4 Testes de Proporção
Poder e Tamanho de Amostra para Testes de Proporção
Exemplo 1:
Tamanho de Amostra para Testes de Vazamentos em Filtros de Água
Problema
Uma empresa produz filtros de água para refrigeradores caseiros. Quando o processo de fabricação está ocorrendo conforme o espera-
do, engenheiros acreditam que a porcentagem de filtros com vazamentos seja de 2%. O orçamento planeja uma taxa de defeituosos de
2%; um aumento nas taxas de defeituosos para além de 2% aumenta o desperdício e os custos com garantia. Um aumento de até 4%
leva a desperdícios inaceitáveis, altos custos com garantia e muitos consumidores insatisfeitos.
A equipe de qualidade decide verificar a taxa de defeituosos semanalmente. Eles precisam determinar o tamanho amostral que irá
permiti-los detectar qualquer aumento na taxa de defeituosos para 4% ou mais.
Ferramentas
• Power and Sample Size - 1 Proportion
Arquivo de dados
Nenhum
Testes de Proporção 5
Poder e tamanho de amostra para um teste de 1 proporção
O que é poder e tamanho de amostra para um teste de 1 proporção
Poder é a habilidade de detectar uma diferença, caso exista. Para um teste de 1 proporção, o poder é a habilidade de detectar uma mu-
dança em relação à proporção assumida sob a H0 para uma proporção sob HA que tem significado especial.
• Antes de coletar os dados, para determinar o tamanho amostral necessário para comparar uma proporção com um valor espe-
cífico
• Após coletar os dados, para avaliar o poder de um teste.
Nota: É importante registrar o poder de um teste quando você não detectar uma diferença (não rejeitar H0).
• Qual o tamanho amostral necessário para detectar uma mudança em uma proporção populacional com um poder específico?
• Qual o poder de um teste para detectar uma mudança em uma proporção populacional usando um tamanho amostral específi-
co?
• Qual a magnitude da mudança que você pode detectar com um poder e tamanho de amostra específico?
6 Testes de Proporção
Determinando o tamanho amostral para um teste de 1 proporção
Valores
Para cálculos de poder e tamanho de amostra de testes de 1 proporção, especifique valores para dois dos três parâmetros; o Minitab
calcula o parâmetro restante.
P hipotético
Digite a taxa de defeitos assumida sob a hipótese nula H0.
4) Clique em Options.
5) Em Alternative Hypothesis, escolha Greater than.
6) Clique em OK em cada caixa de diálogo.
7) No gráfico, clique duas vezes no eixo x e em Scale Range, em Maximum, digite 0,05.
8) Clique em OK.
Testes de Proporção 7
Interpretando os resultados
Com um tamanho amostral de 391, o poder para detectar uma mudança na taxa de defeituosos para 4% ou maior é 0,800388. Com um
tamanho amostral de 580, o poder para detectar uma mudança na taxa de defeituosos para 4% ou mais é 0,900226.
Nesse exemplo, a proporção alternativa representa a taxa de defeituosos que você quer detectar. Se a taxa de defeituosos verdadeira
for 0,04 (a proporção alternativa), então um poder de 0,80 indica que você tem 80% de chance de rejeitar a hipótese nula de que a taxa
de defeituosos é de 0,02.
O poder é razoavelmente bom para detectar um aumento na taxa de defeituosos para 0,04 com tamanhos amostrais entre 391 e 580.
A equipe escolhe um tamanho amostral de 500, para obter um poder entre 0,80 e 0,90.
Próximo passo
Calcule o poder exato para um tamanho amostral de 500.
8 Testes de Proporção
Determinando o poder
Valores
Determine o poder para detectar uma taxa de defeituosos de 4% ou superior, com um tamanho amostral de 500.
3) Clique em OK.
Testes de Proporção 9
Interpretando os resultados
Com um tamanho amostral de 500, o poder do teste para detectar uma mudança na taxa de defeituosos de 2% para 4% ou maior é
0,865861. Se a taxa de defeituosos aumentar para 4%, o teste irá detectar o deslocamento em mais de 86% das vezes.
Alternative Sample
Proportion Size Power
0,04 500 0,865861,
10 Testes de Proporção
Considerações Finais
Resumo e conclusões
Usando um tamanho amostral de 500, a equipe de qualidade pode detectar um deslocamento na taxa de defeituosos de 2% para 4% (ou
maior) com um poder de 86,6%.
Considerações adicionais
Como dados de sucesso/falha (ao contrário de medições contínuas) não capturam informações detalhadas sobre as peças amostrais,
normalmente os tamanhos de amostra são grandes. Se o tamanho amostral necessário é muito grande para ser praticável, considere
as seguintes opções:
• Encontre uma medida quantitativa que reflita a qualidade da peça e use uma distribuição contínua, tal como a normal, para pre-
dizer a proporção de defeituosos. Freqüentemente você pode obter um poder razoavelmente alto com poucas amostras, como
30.
• Aumente a taxa de erro tipo I (α). Isto tornará mais fácil detectar uma mudança na taxa de defeituosos do processo; entretanto,
isto também aumenta o número de alarmes falsos (o teste indicar que a taxa de defeituosos mudou quando na realidade não
mudou).
O Minitab assume que o tamanho da população é infinito para os cálculos de poder e tamanho de amostra. Se o Minitab recomendar um
tamanho amostral maior que 10% do tamanho da população, a suposição de um tamanho de população infinito não é válida e os cálculos
de poder e tamanho de amostra serão errados.
Testes de Proporção 11
Testes de 1 Proporção
Coleta de dados
A equipe de qualidade realiza um teste de vazamento em 500 filtros de água selecionados aleatoriamente, fabricados na semana anterior.
Eles detectaram 18 filtros com vazamentos.
Ferramentas
• 1 Proportion
Arquivo de dados
Nenhum
12 Testes de Proporção
Teste de 1 proporção
O que é um teste de 1 proporção
Um teste de 1 proporção determina se existe evidência suficiente de que a proporção de eventos (defeituosos) é diferente de um valor
hipotético.
Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.
Testes de Proporção 13
Realizando um teste de 1 proporção
O teste de 1 proporção tem dois formatos possíveis:
• O formato ‘amostras em colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet.
As hipóteses para esse teste são:
1 Proportion
1) Selecione Stat > Basic Statistics > 1 Proportion.
2) Escolha Summarized data.
3) Em Number of events, digite 18.
4) Em Number of trials, digite 500.
5) Marque Perform hypothesized test.
6) Em Hypothesized proportion, digite 0,02.
7) Clique em Options.
8) Preencha a caixa de diálogo como mostra a figura abaixo:
14 Testes de Proporção
Interpretando os resultados
Os resultados sugerem que a taxa de defeituosos é maior que 2%:
• O limite inferior de 95% de confiança para a taxa de defeituosos é 2,3395%, que é maior que 2%.
• O p-valor (0,013) é menor que α (0,05).
Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.
Testes de Proporção 15
Considerações Finais
Resumo e conclusões
Como a taxa de defeituosos é maior que a esperada, a equipe deve conduzir uma investigação para determinar as possíveis causas
para o aumento da taxa de defeituosos. Se eles não encontrarem qualquer causa, poderiam considerar reestruturar o filtro para reduzir
os vazamentos.
Considerações adicionais
A amostra do processo de manufatura deve ser selecionada aleatoriamente. Se todos os 500 filtros vierem do mesmo lote ou tivessem
a mesma data de fabricação, o analista excluiria a variabilidade entre os lotes ou fontes de variação ao longo do tempo. Os resultados
poderiam estar viciados, especialmente se a amostra consistisse de um conjunto de peças excepcionalmente boas ou ruins.
16 Testes de Proporção
Exercício E: Taxas de Consertos em Televisões
Problema
Um fabricante quer determinar se a proporção de aparelhos de televisão de 35 polegadas que precisam de reparos dentro de 4 anos de
uso é diferente da taxa divulgada pela indústria, de 6,8% (0,068).
Coleta de dados
A equipe de qualidade envia aproximadamente 100.000 pesquisas para clientes que compraram uma televisão de 35 polegadas. Dos
2.856 consumidores que responderam a pesquisa, 236 indicaram que suas televisões necessitaram de consertos dentro dos 4 primeiros
anos de uso.
Instruções
1) Usando o teste de 1 proporção, determine se a taxa de defeituosos dessa empresa é diferente de 0,068.
2) Cite algum vício que poderia surgir deste processo de coleta de dados.
Arquivo de dados
Nenhum
Testes de Proporção 17
Teste de 2 Proporções
Coleta de dados
Em 500 filtros, 18 falharam no teste de vazamento antes da mudança no selamento. Uma equipe de qualidade testou os primeiros 100
filtros fabricados com o novo material de selamento , e nenhum falhou no teste de vazamento.
Ferramentas
• 2 Proportions
Arquivo de dados
Nenhum
18 Testes de Proporção
Teste de 2 proporções
O que é um teste de 2 proporções
Um teste de 2 proporções determina se existe evidência suficiente de que duas proporções são diferentes entre si.
Nota: Uma sequência Bernoulli é um conjunto de resultados binários. Por exemplo, inspecionar um conjunto de peças e classificar cada peça
como defeituosa ou perfeita é uma sequência Bernoulli.
Testes de Proporção 19
Formatos de dados para um teste de 2 proporções
O teste de 2 proporções tem três formatos de dados possíveis:
• O formato ‘amostras em uma coluna’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade e uma
segunda coluna indicando as duas categorias.
• O formato ‘amostras em diferentes colunas’ requer uma coluna na worksheet listando os sucessos e as falhas de cada unidade
na primeira categoria e uma segunda coluna listando os sucessos e as falhas na segunda categoria.
• O formato ‘dados sumarizados’ requer que você digite o número de ensaios e eventos diretamente na caixa de diálogo. Esse
formato não usa dados em uma worksheet. Em Events, você pode digitar o número de sucessos ou o número de falhas, depen-
dendo se você quer testar a taxa de sucessos ou a taxa de falhas.
As hipóteses para esse teste são:
• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.
2 Proportions
1) Selecione File > New, selecione Minitab Project, e clique em OK.
2) Selecione Stat > Basic Statistics > 2 Proportions.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
4) Clique em Options.
5) Em Alternative, escolha greater than.
6) Clique em OK em cada caixa de diálogo:.
20 Testes de Proporção
Interpretando os resultados
Aproximação Normal
O teste de 2 proporções e o intervalo de confiança usam uma aproximação normal. A aproximação pode não ser exata quando o número
de sucessos ou falhas em um ou ambos os grupos é menor que 5. Neste exemplo, o Minitab exibe uma mensagem de advertência na
janela Session, porque o segundo grupo tem 0 falhas.
O teste exato de Fisher é uma alternativa possível quando a aproximação normal não é apropriada.
Sample X N Sample p
1 18 500 0,036000
2 0 100 0,000000
• H0: A taxa de defeituosos do selamento antigo é igual à taxa de defeituosos do novo selamento.
• HA: A taxa de defeituosos do selamento antigo é maior que a taxa de defeituosos do novo selamento.
Como o p-valor é 0,036, conclua que a taxa de defeituosos é menor com o novo selamento.
Conclusão
Como o p-valor é menor que 0,05, rejeite a hipótese nula e conclua que a taxa de defeituosos é maior que 2%.
Testes de Proporção 21
Considerações Finais
Resumo e conclusões
Devido ao baixo p-valor (0,036), a equipe de qualidade decide fabricar mais 400 filtros de água com o novo selamento. Eles esperam
um baixo p-valor com base no maior tamanho amostral e na capacidade do novo selamento de prevenir ou reduzir os vazamentos. Se o
p-valor for menor que 0,05, eles irão modificar o processo de produção para incluir o novo selamento.
Considerações adicionais
A empresa fabricou 100 filtros de água com o novo selamento em um lote de pequena produção; esses filtros podem não representar a
população de filtros fabricados em um processo de produção de larga escala.
22 Testes de Proporção
Exercício F: Taxas de Sobrevivência em Passageiros do Titanic
Problema
Usando os dados reais demográficos e de sobrevivência da viagem no Titanic, determine se as taxas de sobrevivência variam de acordo
com o sexo, classe, e idade.
Coleta de dados
Os dados estão disponíveis no web site da American Statistical Association (www.amstat.org).
A classe “Econômica” nesse conjunto de dados inclui a equipe de bordo, passageiros de segunda e terceira classe.
Instruções
Use o teste de 2 proporções para:
1) Comparar as taxas de sobrevivência para a primeira classe e a classe econômica. (Dica: Esses dados não são sumarizados.
As amostras estão na coluna Status; as identificações estão na coluna Classe.)
2) Comparar as taxas de sobrevivência para homens e mulheres.
3) Selecione Calc > Calculator, digite o nome da variável “Faixa etária”, e entre com a fórmula Idade >=18. Compare as taxas de
sobrevivência para adultos e crianças.
Nota: Se você quiser mais rótulos descritivos em sua saída, use Data > Code para converter os 0’s para Criança e 1’s para Adulto.
Arquivo de dados
TITANIC.MTW
Variável Descrição
Classe Fator - indica a classe da cabine do passageiro
Sexo Fator - indica o sexo do passageiro
Idade Covariável - idade do passageiro
Status Indica o status de sobrevivência
Nota: A regressão logística binária é uma ferramenta útil para essa análise. Use regressão logística binária para avaliar simultaneamente
todos os três fatores, considerar interações, e tratar a idade como um preditor numérico. (Para aprender mais sobre esse tópico, veja o trei-
namento de Regressão e ANOVA Avançada.)
Testes de Proporção 23
Análise de Variância
Objetivos
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Análise de Variância 3
Conteúdo
4 Análise de Variância
Poder e Tamanho de Amostra para One-way ANOVA
Determine o tamanho amostral necessário para detectar uma diferença de 0,05 mm com 90% de poder.
Ferramentas
• Power and Sample Size - One-way ANOVA
Arquivo de dados
Nenhum
Análise de Variância 5
Poder e tamanho de amostra para One-way ANOVA
O que é poder e tamanho de amostra para One-way ANOVA
Em uma One-way ANOVA:
• Poder é a probabilidade de detectar uma diferença especificada entre quaisquer duas médias em um conjunto de médias de
tratamentos.
• Tamanho de amostra é o número de amostras por grupo que você precisa para atingir um poder específico.
• Qual o tamanho amostral por grupo você precisa para detectar uma diferença especificada entre médias com um poder especí-
fico?
• Qual o poder de um teste detectar uma diferença especificada entre médias, baseado em um tamanho amostral específico?
• Qual a diferença detectável com um poder e um tamanho de amostra específicos?
Nota: Registre o poder de um teste quando você não detectar uma diferença (não rejeitar H0).
6 Análise de Variância
Determinando tamanho amostral para uma One-way ANOVA
Number of Levels
Entre com o número de níveis que o fator contém.
Sample size
Se você quiser determinar o tamanho amostral por nível, deixe em branco.
Power values
Digite o(s) valor(es) de poder desejado(s). Estatísticos tipicamente consideram valores de poder maiores que 0,80 aceitáveis, embora
você deva considerar as consequências do erro Tipo II. Um experimento com 80% de poder tem 20% de chance de não identificar o efeito
de interesse quando ele realmente existir.
4) Clique em OK.
Análise de Variância 7
Interpretando os resultados
Sample Size
Um tamanho amostral (Sample Size) de 20 tampas por cavidade fornece um poder de 0,909108 para detectar uma diferença máxima de
0,05 mm entre quaisquer duas cavidades.
O poder real (Actual Power) é o poder atingido com o tamanho amostral recomendado. Como o Minitab arredonda o tamanho amostral
calculado para o inteiro mais próximo, o poder real será sempre levemente maior que o poder alvo.
Power Curve
Neste exemplo, a diferença representa a diferença máxima nas médias entre as 16 cavidades. O poder é razoavelmente bom para de-
tectar a diferença máxima de 0,05 mm com 20 amostras por cavidade.
One-way ANOVA
8 Análise de Variância
Considerações Finais
Resumo e conclusões
• Um tamanho amostral de 20 tampas de canetas por cavidade fornece um poder de 0,909108 para detectar uma diferença média
de 0,05 mm entre todas as cavidades.
• Quando maior o tamanho amostral, maior o poder do teste. Colete observações suficientes para atingir o poder adequado, mas
não tantas amostras, para que você não perca tempo e dinheiro coletanto amostras desnecessárias.
Considerações adicionais
Em uma One-way ANOVA, os cálculos de poder e tamanho de amostra assumem que os tamanhos amostrais e variâncias são iguais
em todos os grupos.
Análise de Variância 9
One-way ANOVA e Teste de Igualdade de Variâncias
Coleta de dados
Paulo, Ana e Marcos mediram a resistência à ruptura de 25 amostras de tecidos. Todas as 75 amostras vêm do mesmo lote de produto.
Ferramentas
• Individual Value Plot
• Probability Plot
• Test for Equal Variances
• General Linear Model
Arquivo de dados
tecidos.mtw
Variável Descrição
Operador O nome do operador que obteve a medição
Resistência Resistência à ruptura do tecido (kg)
10 Análise de Variância
One-way ANOVA
O que é One-way ANOVA
O procedimento One-way ANOVA (análise de variância) é uma generalização do teste t para amostras independentes. Diferente do teste
t, entretanto, a One-way ANOVA pode ser usada para analisar as médias de mais de dois grupos (amostras) ao mesmo tempo.
A idéia básica da ANOVA é que a variação dentro dos grupos é devida somente ao erro aleatório.
Análise de Variância 11
One-way ANOVA
Quando usar One-way ANOVA
Use One-way ANOVA (também chamada de ANOVA para um fator) se você tiver dados de resposta contínuos para dois ou mais níveis
fixos de um único fator.
Antes de aceitar os resultados de uma ANOVA, verificar se as seguintes suposições sobre os resíduos são válidas para os dados. Eles
devem:
12 Análise de Variância
Visualizando os dados
Visualize os dados em um Individual Value Plot antes de analisá-los.
Análise de Variância 13
Interpretando os resultados
A média das medidas de resistência à ruptura do Paulo parece ser inferior às médias da Ana e do Marcos. Use análise de variância para
determinar se a diferença entre as resistências médias dos operadores é estatisticamente significantiva.
Como esse gráfico exibe as medidas de resistência individuais de cada operador, você também pode visualizar quaisquer diferenças na
variabilidade entre os operadores. A variabilidade não parece ser diferente entre os operadores, mas você deve conduzir um teste de
igualdade de variâncias para se assegurar de que qualquer diferença na variabilidade não é significativa.
Próximo passo
Verifique as suposições de normalidade.
14 Análise de Variância
Verificando a normalidade
Antes de prosseguir com a análise, certifique-se de que as medidas de resistência de cada operador são uma amostra de observações
de uma população normalmente distribuída.
Probability Plot
1) Selecione Graph > Probability Plot > Multiple, e clique em OK.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
Análise de Variância 15
Interpretando os resultados
Os p-valores do teste de normalidade de Anderson-Darling para Ana, Marcos e Paulo são 0,419, 0,371 e 0,975, respectivamente. Usando
um α de 0,05, não existe evidência suficiente para sugerir que os dados não seguem uma distribuição normal.
Próximo passo
Teste de igualdade de variâncias.
16 Análise de Variância
Teste de igualdade de variâncias:
variação dentro dos operadores
Validando a suposição de igualdade de variâncias
Antes de comparar as médias em uma ANOVA, verifique a igualdade de variâncias. Variâncias diferentes violam uma suposição da
ANOVA.
3) Clique em OK.
Análise de Variância 17
Interpretando os resultados
Intervalos de confiança
Intervalos de confiança são úteis para comparar σ ao longo dos diferentes grupos e avaliar a precisão das estimativas. Entretanto, baseie
a decisão sobre a igualdade de variâncias no teste de variâncias apropriado.
Teste de variâncias
O Minitab oferece dois testes de variância:
Nota: Um teste F substitui o teste de Bartlett quando você tiver apenas dois níveis.
Implicações
Ambos os testes de Bartlett (p = 0,301) e de Levene (p = 0,400) indicam que as variâncias não são significativamente diferentes. Esse
resultado sugere que a diferença observada nos desvios-padrões amostrais entre os grupos é provavelmente devida somente à variação
aleatória da amostra. A suposição de igualdade de variâncias da ANOVA está verificada.
A variação dentro dos grupos neste experimento combina a repetibilidade e a variação dentro dos lotes. Como o teste é destrutivo, não
é possível estimar cada uma separadamente.
Próximo passo
Gere os resultados da One-way ANOVA.
18 Análise de Variância
One-way ANOVA: diferenças entre os operadores
Use o General Linear Model (GLM) para comparar as resistências médias dos três operadores. As hipóteses são:
Alternativas
A mesma análise está disponível nas rotas Stat > ANOVA > One-way e Stat > ANOVA > Balanced ANOVA.
3) Clique em OK.
Análise de Variância 19
Interpretando os resultados
Análise de variância
A primeira linha de números na tabela Analysis of Variance (Análise de Variância) contém as estatísticas associadas com o fator , Ope-
rador. A linha seguinte contém as estatísticas associadas com o erro aleatório (Error).
Graus de liberdade
Os graus de liberdade (DF) relacionam-se ao número de valores usados para calcular a soma de quadrados (SS) para cada fonte de
variação.
Soma de quadrados
A soma de quadrados (SS) mede a variabilidade com a qual cada fonte de variação contribui para os dados. Observe que a variabilidade
total nos dados (Seq SS Total, 68,5163) é igual a Seq SS para Operador (6,6208) mais a Seq SS para Erro (61,8954).
Quadrado médio
O quadrado médio (Adj MS) para cada fonte é igual a Adj SS dividida por DF (graus de liberdade).
20 Análise de Variância
Interpretando os resultados
Estatística F
F é a razão da variabilidade atribuída ao fator pela variabilidade atribuída ao erro.
• Se as diferenças entre as médias dos níveis do fator são similares à que você esperaria devido à variação aleatória, a razão F
será próxima de 1.
• Se a variabilidade entre as médias dos níveis do fator são maiores que a esperada devido à variação aleatória, a razão F será
maior que 1.
P-valor
O p-valor é a probabilidade de F ser tão grande (ou maior) quanto seria caso o fator não tivesse efeito. Um alto valor de F sugere que as
médias dos níveis dos fatores são mais diferentes do que seria esperado devido ao acaso; portanto o p-valor é pequeno.
Análise de Variância 21
Interpretando os resultados
Observações não-usuais
O minitab identifica qualquer observação com resíduo maior que dois desvios padrão em relação a zero como uma observação não-
usual. Considere estudar essas observações posteriormente.
Nota: O Minitab identifica aproximadamente 5% das observações como não-usuais devido à variação aleatória. Com um tamanho amostral de
75, espere encontrar cerca de 4 observações não-usuais.
Conclusão
Como o p-valor = 0,026, conclua que ao menos dois dos operadores têm diferentes médias de resistência ao nível α = 0,05.
O valor R2 de 9,66% indica que os vícios das medições dos operadores explicam 9,66% da variação nas medidas de resistência.
Próximo passo
Construa os gráfico de resíduos e de efeitos principais.
22 Análise de Variância
Criando gráficos de resíduos e de efeitos principais
Para se assegurar de que os resultados são válidos, verifique se todas as suposições sobre os erros do modelo foram satisfeitas.
Selecione gráficos Four-in-one para exibir os quatro gráficos individuais de resíduos em uma única página, em quatro painéis diferen-
tes.
Resíduos
• Regular residuals - As diferenças entre os valores observados e preditos na mesma unidade de seus dados.
• Standardized residuals - Os resíduos regulares padronizados em unidades de desvios padrão.
• Deleted residuals - Para calcular o resíduo da i-ésima observação, primeiro remova a i-ésima observação do conjunto de dados,
estime a i-ésima observação e calcule a diferença entre o valor observado e o valor predito. E finalmente, divida a diferença por
seu desvio padrão.
Análise de Variância 23
Interpretando os resultados
Gráfico de resíduos Four-in-one
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores ajustados.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.
24 Análise de Variância
Interpretando os resultados
Gráfico de efeitos principais
Como a média das medidas do Paulo é bem menor que as médias da Ana e Marcos, existe vício de medição entre os operadores. Você
também pode ter vício de medição entre um operador e a medida real. Entretanto, você não pode avaliar esse tipo de vício com essa
análise, pois você não conhece o valor correto da medição (o padrão).
Como um gráfico de efeitos principais não indica quanta variabilidade existe dentro de cada grupo, você não pode usá-lo para exibir
significância estatística. Tenha cuidado ao interpretar um gráfico de fatores quando a ANOVA não indica uma diferença significativa.
Análise de Variância 25
Considerações Finais
Resumo e conclusões
• A análise não indica que os operadores têm variabilidade diferente ao medir a resistência dos tecidos de bancos de carros.
• A análise indica forte evidência de um vício entre pelo menos dois operadores.
• Desta análise, os inspetores da qualidade não podem avaliar quais operadores estão medindo corretamente, apenas que eles
estão medindo de forma diferente, em média.
Considerações adicionais
• A aleatorização é extremamente importante neste exemplo. Sem aleatorização, um operador pode obter resistências significati-
vamente mais fortes ou fracas que outro operador. Se isso acontecer, você pode atribuir incorretamente a variação peça-a-peça
à variação do operador.
• Essa análise é um estudo de reprodutibilidade de sistema de medição para um teste destrutivo. A análise Stat > Quality Tools >
Gage Study requer um componente de repetibilidade, o que não era o foco deste estudo, e portanto, não foi medido.
• Comparar os três operadores em uma ANOVA é preferível a comparar dois operadores de cada vez com testes-t para 2 amostras.
Múltiplos testes aumentam o risco de um erro Tipo I (rejeitar H0 incorretamente).
• Muitas ferramentas estatísticas avaliam sistemas de medição. O Gage R&R não é sempre a maneira mais apropriada ou eficiente
de avaliar determinadas propriedades estatísticas de um sistema de medição
26 Análise de Variância
Exercício G: Moldes de Tampas de Canetas
Problema
Uma empresa que fabrica canetas esferográficas usa um molde composto por 16 cavidades para fabricar tampas plásticas para as cane-
tas. A espessura alvo para a tampa é de 10 mm. O fabricante quer comparar as médias e variâncias nas espessuras para as 16 cavidades
e determinar se algumas das médias das cavidades são diferentes do alvo de 10 mm.
Coleta de dados
A máquina armazena tampas de canetas para cada uma das 16 cavidades em 16 caixas separadas. Ao final de cada turno, inspetores
coletam uma amostra aleatória de 20 tampas de cada caixa e medem a espessura (em mm) de cada.
Instruções
1) Use Stat > Basic Statistics > Display Descriptive Statistics para construir boxplots para as 16 cavidades.
2) Use Stat > ANOVA > Test for Equal Variances para comparar as variâncias nas 16 cavidades.
3) Use Stat > ANOVA > General Linear Model para comparar as médias nas 16 cavidades. Selecione os gráficos de resíduos
para identificar quaisquer observações não-usuais.
4) Use Stat > ANOVA > Interval Plot para determinar se algumas das médias das cavidades são diferentes do alvo. Adicione uma
linha de referência no eixo-y clicando em Scale > Reference Lines. Quais cavidades você concluiria que não estão ajustadas
no alvo?
5) No Interval Plot, clique duas vezes no limite de um intervalo de confiança, então clique em Options e marque Bonferroni.
Quais cavidades estão fora do alvo?
Arquivo de dados
cavidades.MTW
Variável Descrição
Cavidade Número da cavidade
Espessura Espessura da abertura da tampa da caneta (mm)
Nota: Ao usar um único intervalo de 95% de confiança, o risco de concluir incorretamente que a média está fora do alvo é de 5%. Essa é a taxa
de erro Tipo I. Ao usar múltiplos intervalos de confiança, a taxa de erro Tipo I global aumenta à medida que o número de intervalos de confian-
ça aumenta. Intervalos de Bonferroni mantêm a taxa de erro Tipo I global em 5%, quando você gera múltiplos intervalos de confiança.
Análise de Variância 27
ANOVA - General Linear Model
• O modelo do pneu;
• A banda de rodagem do pneu;
• Se os freios antitravamento (freios ABS) estão habilitados.
Coleta de dados
Os engenheiros coletaram todos os dados usando o mesmo carro. Eles mediram a distância necessária para parar o carro a uma velo-
cidade de 60 km/h em um pavimento molhado para cada combinação dos fatores (Modelo, Profundidade e ABS). Eles executaram os
experimentos em ordem aleatória.
Ferramentas
• Descriptive Statistics
• General Linear Model
• Main Effects Plot
• Interactions Plot
Arquivo de dados
DISTÂNCIA.mtw
Variável Descrição
Modelo Fator - modelo do pneu (GT, LS e MX)
Banda de rodagem Fator - banda de rodagem (1,5 e 10 mm)
ABS Fator - indica a condição do freio ABS (habilitado, desabilitado)
Distância Resposta - distância para o veículo parar em um pavimento molhado (metros)
28 Análise de Variância
ANOVA - General Linear Model (GLM)
O que é o modelo linear generalizado
O modelo linear generalizado do Minitab avalia a análise de variância em várias situações, incluindo experimentos balanceados e não-
balanceados, análise de covariância, entre outras.
Análise de Variância 29
Visualizando os dados em tabelas
Exiba os dados em tabelas para examinar possíveis diferenças entre as 12 combinações de tratamentos.
Descriptive Statistics
1) Abra o arquivo DISTÂNCIA.MTW.
2) Selecione Stat > Tables > Descriptive Statistics.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
30 Análise de Variância
Interpretando os resultados
Efeitos principais
A distância de parada média quando o ABS está desabilitado (27,63 m) é maior que a distância de parada média quando o ABS está
habilitado (22,79 m). Essa diferença é o efeito principal de ABS.
Efeitos de interação
Observe que:
• Quando ABS estava desabilitado, a banda de rodagem de 1,5 mm tinha uma distância de parada menor (média = 27,47 m) que
a banda de rodagem de 10 mm (média = 27,78 m).
• Quando ABS estava habilitado, a banda de rodagem de 10 mm tinha uma distância de parada menor (média = 22,50 m) que a
banda de rodagem de 1,5 mm (média = 23,08 m).
Esse efeito é a interação ABS*Banda de rodagem, onde o efeito da banda de rodagem depende do nível de ABS. (Entretanto, as diferen-
ças não são grandes. O teste apropriado provavelmente revelará que essa interação não é significativa.)
Análise de Variância 31
Analisando o modelo completo
Use a ferramenta General Linear Model para analisar o modelo completo, que contém todos os efeitos principais e interações possí-
veis.
Notação
Para indicar os termos de interação, ligue os nomes dos fatores com asteriscos. Assim, o modelo completo para os dados de distância
de parada irá conter os seguintes termos:
Para facilitar, você pode entrar com o modelo completo usando a notação da barra vertical:
Com as barras verticais, o Minitab considera todos os efeitos principais e interações entre os termos indicados.
3) Clique em OK.
32 Análise de Variância
Interpretando os resultados
Use os p-valores para testar a significância de cada termo. Neste modelo, os seguintes efeitos são significativos ao nível α de 0,05:
• Modelo (P = 0,003)
• ABS (P = 0,000)
Como ABS tem apenas dois níveis (habilitado e desabilitado), você sabe que a significância deste termo reflete uma diferença significa-
tiva entre os dois níveis.
Testes de comparação
Como Modelo tem três níveis, conduza comparações estatísticas para determinar quais níveis são diferentes entre si.
Próximo passo
Elimine os termos não significativos e verifique os resíduos.
Análise de Variância 33
Ajustando o modelo reduzido
Ajuste um modelo reduzido removendo os termos não significativos. Use General Linear Model para ajustar o modelo apenas com Mo-
delo e ABS.
3) Clique em Graphs.
4) Em Residuals Plots, marque Four in one.
5) Clique em OK em cada caixa de diálogo.
34 Análise de Variância
Interpretando os resultados
Conforme esperado, tanto Modelo quanto ABS são significativos ao nível de significância de 0,05 no modelo reduzido.
Análise de Variância 35
Interpretando os resultados
Gráfico de resíduos Four-in-one
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.
Próximo passo
Construa os gráficos de efeitos principais e interações.
36 Análise de Variância
Gráfico de efeitos principais e interações
Comparação gráfica de médias
Agora que você selecionou um modelo, visualize os resultados da análise usando gráficos de efeitos principais e interações.
Embora você não tenha incluído todos os termos no modelo final, você pode querer incluir todos os fatores nos gráficos, para visualizar
fatores significativos e não-significativos.
Análise de Variância 37
Interpretando os resultados
Os gráficos de efeitos principais revelam que Modelo e ABS tiveram os maiores efeitos observados na distância de parada. Esses gráfi-
cos também mostram que:
38 Análise de Variância
Interpretando os resultados
Os gráficos de interações ilustram todas as interações de segunda ordem. O gráfico exibe as médias das combinações dos níveis dos
fatores.
As linhas de cada gráfico são quase que paralelas, sugerindo que não existe interação entre quaisquer dos termos. Alguma evidência de
interação aparece entre Modelo e Banda de rodagem, mas a ANOVA indicou que esta não foi significativa.
Próximo passo
Use comparações múltiplas para comparar todos os níveis dos fatores e ver quais níveis diferem de forma significativa.
Análise de Variância 39
Executando comparações pareadas
Use comparações pareadas para testar as diferenças entre os níveis dos fatores singificativos. Os resultados da análise de variância
indicam apenas que pelo menos dois níveis diferem entre si. Use comparações múltiplas para comparar todos os níveis dos fatores para
descobrir quais diferem significativamente entre si.
Nesse exemplo, você pode concluir da ANOVA original que existe uma diferença significativa entre o modelo do pneu, com a maior dife-
rença média observada (GT e LS). Você não pode usar esses resultados para determinar se o pneu MX é significantemente diferente do
pneu GT ou do LS. Use comparações pareadas para concluir se os modelos do pneu diferem entre si.
40 Análise de Variância
Interpretando os resultados
A primeira tabela compara o pneu GT com os pneus LS e MX. Os resultados revelam que a distância de parada média obtida com o pneu
GT foi significativamente menor do que aquela obtida com os pneus LS (P = 0,0009) ou MX (P = 0,0146).
A segunda tabela compara os pneus LS e MX, que não se mostraram significativamente diferentes (P = 0,4522).
Difference SE of Adjusted
Modelo of Means Difference T-Value P-Value
LS 2,962 0,6832 4,337 0,0009
MX 2,125 0,6832 3,111 0,0146
Difference SE of Adjusted
Modelo of Means Difference T-Value P-Value
MX -0,8375 0,6832 -1,226 0,4522
Análise de Variância 41
Considerações finais
Resumo e conclusões
Em termos de distância de parada em um pavimento molhado:
• O melhor pneu é o GT
• É melhor ter o ABS habilitado
• A banda de rodagem (1,5 ou 10,0 mm) não influencia
Considerações adicionais
O procedimento General Linear Model tem as seguintes vantagens:
Esta análise envolveu fatores fixos - os níveis incluídos eram de interesse direto e não podem ser generalizados para outros níveis. O
procedimento General Linear Model também pode ser usado com fatores aleatórios, que são fatores para os quais os níveis são sele-
cionados de forma aleatória para representar uma população maior de níveis possíveis. Estudos de medição R&R frequentemente usam
fatores aleatórios.
Todos os fatores nesta análise foram cruzados - cada nível de Modelo podia ser testado com cada nível de Profundidade. Os fatores são
considerados hierárquicos (ou aninhados) se todos os níveis de um fator ocorrem completamente dentro de um nível de outro fator.
42 Análise de Variância
Exercício H: Degustação de Vinho
Problema
Uma companhia quer determinar se existem diferenças significativas de qualidade entre três vinhos: Matador, Conquistador e Saeta.
Coleta de dados
Foram selecionados dez enólogos (juízes), e cada um degustou os três vinhos e os pontuou por qualidade geral. A ordem de degustação
foi aleatória, de modo que cada enólogo degustou os vinhos em ordem diferente.
Instruções
1) Use General Linear Model para analisar a Nota como uma função do Vinho e do Juiz.
2) Verifique os gráficos de resíduos.
3) Inclua comparações pareadas do fator Vinho para investigar diferenças entre os vinhos individuais.
4) Gere um gráfico de efeitos principais para Vinho.
Arquivo de dados
Vinho.mtw
Variável Descrição
Juiz Nome do juiz
Vinho Nome do vinho
Ensaio Ordem na qual cada juiz degustou o vinho
Ordem de degustação Ordem na qual cada juiz degustou o vinho dentro do ensaio
Nota Pontuação dada pelo juiz
Análise de Variância 43
Exercício I: Desgaste de Tinta
Problema
O Departamento de Transportes de Minas Gerais está estudando as características de desgaste de quatro tipos de tintas amarelas para
a pintura de rodovias.
Coleta de dados
Trabalhadores aplicaram faixas de teste de cada tinta em ruas de quatro municípios da região metropolitana de Belo Horizonte: Sabará,
Santa Luzia, Contagem e Vespasiano. Após longa exposição ao clima e ao tráfego, os trabalhadores mediram o desgaste da tinta em
cada um dos quatro municípios. Uma alta pontuação indica que menos tinta foi desgastada.
Instruções
1) Use General Linear Model para determinar se o desgaste médio dos quatro tipos de tinta foi igual.
2) Use General Linear Model para determinar se o desgaste médio foi diferente nas localidades e tipos de tinta.
3) Verifique os gráficos de resíduos.
4) Por que o tipo de tinta foi significativo na segunda análise, mas não na primeira?
5) Use comparações pareadas para determinar quais tintas são significativamente diferentes entre si. Mantenha a localidade no
modelo como uma variável de bloco.
Arquivo de dados
DESGASTE.mtw
Variável Descrição
Localidade Fator - localidade do teste
Tinta Fator - tipo de tinta testada
Desgaste Resposta - desgaste da tinta
44 Análise de Variância
Correlação e Regressão
Objetivos
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Correlação e Regressão 3
Conteúdo
4 Correlação e Regressão
Correlação
Coleta de dados
Engenheiros usaram ambos os sistemas para medir o pH de 20 lotes do produto selecionados aleatoriamente.
Ferramentas
• Scatterplot
• Correlation
Arquivo de dados
LABORATÓRIO.MTW
Variável Descrição
Lab Medidas do pH obtidas pelo sistema laboratorial
Online Medidas do pH obtidas pelo sistema online
Correlação e Regressão 5
Correlação
O que é correlação
O coeficiente de correlação amostral, r, mede o grau de associação linear entre duas variáveis (o grau no qual as mudanças em uma
variável acompanham as mudanças na outra).
Uma correlação positiva indica que ambas as variáveis tendem a crescer ou decrescer juntas. Uma correlação negativa indica que uma
variável cresce enquanto a outra decresce.
Alguns estatísticos acreditam que você não deveria usar correlação se uma variável é uma resposta dependente da outra.
6 Correlação e Regressão
Padrões típicos de associação
(Nota: Estes resultados não são iguais aos obtidos no exemplo)
De uma maneira geral, sempre que você traçar um diagrama de dispersão com o intuito de estudar a existência de relação entre duas
variáveis, o gráfico cairá em uma das quatro categorias de associação ilustradas abaixo:
Associação não-linear
Em geral, uma associação não-linear é mais complexa de ser vi-
sualizada. Por exemplo, em uma relação quadrática, valores altos
e baixos da variável X estão associados com valores altos de Y
enquanto valores medianos de X estão associados com os valo-
res baixos da variável Y (veja figura). Além desta também pode-
►
mos observar outras associações tais como:
Ausência de associação
Correlação e Regressão 7
Plotando os dados
Construa um gráfico de dispersão matricial para ajudar a visualizar a relação entre as medidas obtidas pelos dois sistemas.
Variáveis gráficas
Plote as variáveis Lab e Online nos eixos x e y, respectivamente.
Scatterplot
1) Abra o arquivo LABORATÓRIO.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:
5) Clique em OK.
6) Quando o Minitab exibir o gráfico, clique duas vezes no eixo x.
7) Marque Same scale range for Y and X.
8) Clique em OK.
8 Correlação e Regressão
Interpretando os resultados
O diagrama de dispersão das medidas laboratoriais versus online indica que:
• Os dois sistemas de medição são forntemente relacionados. Quando os valores para Lab mudam, o mesmo acontece para os
valores Online.
• Os dados seguem uma linha aproximadamente reta, sugerindo que a relação é linear.
• Valores altos do sistema online estão associados com valores altos do sistema laboratorial, indicando que a relação é positiva.
Próximo passo
Como a relação é linear, calcule o coeficiente de correlação para quantificar a força da associação.
Correlação e Regressão 9
Calculando a correlação
Calcule o coeficiente de correlação de Pearson para determinar a força da associação linear entre as medições laboratoriais e online.
Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
10 Correlação e Regressão
Interpretando os resultados
Correlação de Pearson
O coeficiente de correlação de Pearson (r) é um número entre -1 e 1, onde:
P-valor
O p-valor testa as seguintes hipóteses:
Conclusão
O coeficiente de correlação (0,959) indica que as medições laboratoriais e online têm uma forte associação linear positiva. Além disso, o
p-valor (0,000) é menor que α (0,05), portanto rejeite a hipótese nula de que não existe relação linear.
Correlação e Regressão 11
Considerações Finais
Resumo e conclusões
As medidas obtidas com os sistemas laboratorial e online têm uma forte correlação positiva (0,959).
Entretanto, o sistema online fornece medidas consistentemente maiores que as do sistema laboratorial. Isso pode indicar a necessidade
de recalibração.
Os resultados desse experimento limitado indicam que o sistema de medição online, mais barato e fácil de usar, pode substituir adequa-
damente o sistema de medição laboratorial.
Considerações adicionais
A correlação quantifica o grau de associação linear entre duas variáveis.
Uma forte correlação não implica em uma correlação de causa-e-efeito. Por exemplo, uma forte correlação entre duas variáveis pode ser
devido à influência de uma terceira variável que não esteja sendo considerada.
Um coeficiente de correlação próximo de zero não significa necessariamente falta de associação; ele poderia indicar que a associação
não é linear. Sempre plote os dados, para que você possa identificar relações lineares, caso estejam presentes.
Alguns estatísticos argumentam que a correlação não é apropriada se uma variável é uma resposta dependente da outra.
A correlação assume que os valores de ambas as variáveis estão livres para variarem. Você não pode usar a correlação se fixar os va-
lores de uma variável para estudar mudanças em outra.
12 Correlação e Regressão
Correlação entre Múltiplas Variáveis
O departamento de qualidade gasta 8 horas por dia coletando amostras de tampas, medindo-as, e construindo as cartas de controle. Uma
equipe de melhoria da qualidade quer identificar cavidades altamente correlacionadas e reduzir o número e custo total das medições.
Coleta de dados
Técnicos selecionam aleatoriamente 5 tampas de garrafas a cada quatro horas, de cada cavidade. O conjunto de dados da semana
anterior, que contém 840 medições de cada cavidade, está disponível para análise.
Ferramentas
• Matrix Plot
• Correlation
• Xbar Chart
Arquivo de dados
Tampas.MTW
Variável Descrição
Cavidade 1 - Cavidade 8 Dimensões das tampas de garrafas para amostras
obtidas em cada uma das 8 cavidades
Correlação e Regressão 13
Correlação entre múltiplas variáveis
O que é correlação entre múltiplas variáveis
Uma matriz de correlação mostra as correlações pareadas para um conjunto de variáveis quantitativas.
14 Correlação e Regressão
Construindo um Matrix Plot
Antes você realizar uma análise de correlação, construa um gráfico de dispersão matricial dos dados para verificar se:
Exibição da matriz
Use as opções Lower left ou Upper right para exibir somente um gráfico de cada par de variáveis. Use a opção Full para exibir dois
gráficos para cada par de variáveis, com os eixos X e Y invertidos.
Alternativas
Se a matriz for muito grande ou estiver muito difícil de ser interpretada, plote diagramas de dispersão individuais.
Matrix Plot
1) Abra o arquivo TAMPAS.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots > Simple, então clique em OK.
4) Em Graph variables, entre com ‘Cavidade 1’ - ‘Cavidade 8’.
5) Clique em Matrix Options.
6) Preencha a caixa de diálogo como mostra a figura abaixo:
Correlação e Regressão 15
Interpretando os resultados
As relações lineares mais fortes são entre as cavidades 1 e 2, cavidades 2 e 3, e cavidades 6 e 7. Se você plotar essas variáveis juntas,
elas mostram o melhor ajuste em torno de uma linha.
Próximo passo
Gere as correlações.
16 Correlação e Regressão
Correlacionando múltiplas variáveis
Seleção
Para selecionar todas as oito colunas, destaque-as na lista de variáveis à esquerda e clique em Select.
P-valores
Desmarque a opção Display p-values. Se você incluir muitas variáveis na análise, os p-valores podem complicar desnecessariamente
a saída.
Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
Correlação e Regressão 17
Interpretando os resultados
Cavidade 6 Cavidade 7
Cavidade 7 0,847
Cavidade 8 0,747 0,542
As cavidades 2 e 3 têm o maior coeficiente de correlação (0,869), as cavidades 1 e 2 o segundo maior (0,858), e as cavidades 6 e 7 o
terceiro maior (0,847). Todas as três correlações são fortes o suficiente para garantir a eliminação de medições.
Implicações
Elimine medições para as cavidades 1, 3 e 6 e ganhe tempo economizando 3 horas de coleta de dados por dia.
Próximo passo
Compare as cartas Xbar de todas as cavidades.
18 Correlação e Regressão
Cartas de controle Xbar
Construa cartas de controle Xbar para verificar se você consegue identificar condições fora de controle nas cavidades 1, 3 e 6 olhando
apenas as cartas Xbar das cavidades 2 e 7.
Tamanho de subgrupo
Os técnicos selecionaram cinco tampas de garrafas a cada hora; portanto, o subgrupo é de tamanho 5. Os pontos plotados na carta de
controle serão as médias para cada subgrupo.
Xbar
1) Selecione Stat > Control Charts > Variables Chart for Subgroups > Xbar.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
Correlação e Regressão 19
Interpretando os resultados
As cavidades 1, 2 e 3 estão fora de controle no ponto 74, a cavidade 6 está fora de controle nos pontos 8 e 63, e a cavidade 7 está fora
de controle no ponto 63.
Implicações
Se a empresa de garrafas eliminar algumas das medições, eles podem não detectar um estado fora de controle. Entretanto, eles preci-
sam ponderar esse risco com as economias geradas pela redução do número de medições de 8 para 5.
20 Correlação e Regressão
Considerações Finais
Resumo e conclusões
A empresa de garrafas pode economizar 3 horas de coleta de dados a cada dia, reduzindo o número de medições de 8 para 5, porém
com um risco envolvido. Mesmo com as altas correlações encontradas nesse estudo, futuros sinais de falta de controle nas cavidades
1, 3 e 6 serão possivelmente perdidos.
Considerações adicionais
O quão alta deve ser a correlação para justificar a eliminação de medições? Considere os seguintes aspectos ao tomar decisões:
• A importância de detectar um estado fora de controle em cada cavidade. Se a importância for alta, é necessária uma alta corre-
lação. Caso contrário, ajuste como critério uma relação mais fraca.
• A importância de eliminar um dado número de medições. Se o propósito da análise é eliminar três medições, independente das
correlações, então simplesmente olhe as três correlações mais altas.
Correlação e Regressão 21
Regressão Simples
Coleta de dados
Pesquisadores mediram a impureza para lotes de tinta misturados em taxas que variaram de 20 a 42 rpm (rotações por minuto).
Ferramentas
• Fitted Line Plot
Arquivo de dados
TINTA.MTW
Variável Descrição
Taxa de Mistura Preditor - taxa em que o lote de tinta foi misturado (rpm)
Impureza Resposta - nível de impureza medido em cada lote
22 Correlação e Regressão
Regressão Simples
Y = β0 + β1X + ε
onde Y é a resposta; X é o preditor, β0 é o intercepto (o valor de Y quando X é igual a zero), β1 é o coeficiente angular e ε é o erro alea-
tório.
Para confirmar se os resultados da análise de regressão são válidos, verifique todas as suposições sobre o termo de erro do modelo. Use
gráficos de resíduos para verificar se os erros têm a seguinte característica:
• Normalmente distribuídos;
• Variância constante para todos os valores ajustados;
• Aleatórios ao longo do tempo.
Correlação e Regressão 23
Ajustando um modelo linear
Determine o efeito da taxa de mistura na quantidade de impurezas na tinta. Use um Fitted Line Plot para calcular e plotar a equação de
regressão.
4) Clique em OK.
24 Correlação e Regressão
Interpretando os resultados
Equação de regressão
A equação de regressão relaciona o preditor (Taxa de Mistura) com a resposta (Impureza):
O coeficiente angular da linha de regressão (0,4566), indica a mudança média na Impureza se a Taxa de Mistura aumentar em uma
unidade.
S
S é uma estimativa da variabilidade média sobre a linha de regressão. S é a raiz quadrada positiva do MSE (quadrado médio do erro).
Para um dado problema, a melhor equação para predizer a resposta será aquela que tiver o S mais baixo.
R2 (R-Sq)
R² é a proporção da variabilidade na resposta que é explicada pela equação. Neste caso, a relação linear com a Taxa de Mistura explica
93,4% da variabilidade na Impureza.
Valores aceitáveis para R² variam dependendo do estudo. Por exemplo, engenheiros estudando reações químicas podem requerer um
R² de 90% ou mais. Contudo, um estudo sobre o comportamento humano (que é mais variável) pode ser satisfeito com valores mais
baixos de R².
R2 adjusted (R-Sq(adj))
R² ajustado é sensível ao número de termos incluídos no modelo e é importante ao se comparar modelos com diferentes números de
termos.
Correlação e Regressão 25
O método dos mínimos quadrados
Os coeficientes da equação de regressão são escolhidos de forma a minimizar a soma das diferenças quadráticas entre os valores das
respostas observados na amostra, e as previsões feitas pela equação.
Em outras palavras, a linha de regressão de mínimos quadrados minimiza as distâncias verticais entre os pontos e a linha, como mos-
trado na figura abaixo.
Esteja alerto quanto à presença de outliers ao usar procedimentos de regressão. Alguns outliers (também chamados de pontos de alto
leverage) têm um grande efeito no cálculo da linha de regressão de mínimos quadrados. Em alguns casos, a linha pode não representar
a relação existente entre os dados corretamente.
26 Correlação e Regressão
Interpretando os resultados
Use os resultado da análise de variância (ANOVA) para avaliar se o modelo de regressão simples é útil. A ANOVA compara o modelo com
um modelo restrito que não usa Taxa de Mistura (X) para predizer a Impureza (Y):
• Se o p-valor é menor que ou igual a α, rejeite H0. O modelo de regressão explica significativamente mais variabilidade na respos-
ta que o modelo restrito. β1 não é igual a zero.
• Se o p-valor é maior que α, você não pode rejeitar H0. β1 não é significativamente diferente de zero.
Analysis of Variance
Source DF SS MS F P
Regression 1 119,275 119,275 141,13 0,000
Error 10 8,451 0,845
Total 11 127,727
Conclusão
Usando um α de 0,05, rejeite o modelo restrito mais simples e conclua que a Taxa de Mistura tem um efeito linear significativo na Impu-
reza.
Correlação e Regressão 27
Adicionado intervalos de confiança e predição
Intervalos de confiança e predição
Intervalos de confiança estimam o alcance para a verdadeira média da resposta considerando um dado valor do preditor.
Intervalos de predição estimam o alcance no qual você pode esperar que uma nova observação caia para um dado valor do preditor.
28 Correlação e Regressão
Interpretando os resultados
Intervalo de confiança
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.
Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.
Correlação e Regressão 29
Criando gráficos de resíduos
Resíduos
O resíduo para cada observação é a diferença entre o valor observado da resposta e o valor predito pelo modelo (o valor ajustado). Por
exemplo, se o valor observado da resposta é 12 e o modelo predizer 10, o resíduo é 2.
Suposições
Para confirmar que a análise é válida, verifique todas as suposições sobre o termo de erro do modelo. Use gráficos de resíduos para
verificar se os erros têm as seguintes características:
• Normalmente distribuídos
• Variância constante para todos os valores ajustados
• Aleatórios ao longo do tempo
Residual Plots
1) Selecione Stat > Regression > Fitted Line Plot ou pressione “Ctrl+E”.
2) Clique em Graphs.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
30 Correlação e Regressão
Interpretando os resultados
Normal Probability Plot
No gráfico de probabilidade normal, os pontos devem descrever, aproximadamente, uma linha reta. Use este gráfico para verificar se os
resíduos não desviam de forma substancial de uma distribuição normal.
Com base no gráfico, você pode assumir que os resíduos para os dados não se desviam substancialmente de uma distribuição normal.
Nota: Um teste de normalidade (não mostrado) para esses dados forneceria um p-valor de 0,252.
Correlação e Regressão 31
Interpretando os resultados
Histogram
Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho de amostra razoavel-
mente grande, o histograma exibe informação compatível com o gráfico de probabilidade normal.
O histograma dos resíduos deve estar em forma aproximada de sino, sem valores não-usuais ou outliers. Use o histograma como uma
ferramenta exploratória para investigar as seguintes características dos dados:
32 Correlação e Regressão
Interpretando os resultados
Resíduals versus fits
Use o gráfico de resíduos versus valores ajustados para verificar se os resíduos estão aleatoriamente distribuídos em torno de zero.
Correlação e Regressão 33
Interpretando os resultados
Resíduals versus order
O gráfico de resíduos versus ordem dos dados exibe os resíduos na ordem de coleta dos dados (desde que os dados tenham sido digi-
tados na mesma ordem na qual eles foram coletados).
Se a ordem de coleta de dados afeta os resultados, os resíduos próximos entre si podem estar correlacionados, e serem, portanto,
dependentes.
34 Correlação e Regressão
Considerações Finais
Resumo e conclusões
A análise de regressão linear simples revelou que o aumento da taxa de mistura está associado ao aumento dos níveis de impureza na
tinta.
O coeficiente angular da equação de regressão indica que, quando você aumentar a taxa de mistura em 1 rpm, estima-se que o nível
médio de impureza aumente em 0,4566 unidades.
Ao usar procedimentos de regressão, esteja alerta para os outliers presentes em ambas as variáveis X e Y. Outliers na variável X (pontos
com alto leverage) podem ter uma grande influência nos coeficientes de regressão e p-valores. Neste caso, plote os resíduos deleta-
dos para detectar pontos com altos valores de leverage. Outliers na variável Y também podem influenciar fortemente os resultados. Se
outliers estiverem presentes, o modelo de pode não ajustar adequadamente os dados e não ser capaz de predizer futuras observações
com precisão.
Considerações adicionais
Não utilize a analise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que os valores da
variável preditora tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores tiverem
variado de forma aleatória, outros fatores podem influenciar ambos os preditores e a resposta.
Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinado pela amostra.
Por exemplo, você não deve usar a equação de regressão obtida nesse exemplo para predizer níveis de impureza para uma taxa de
mistura de 100, pois a mais alta taxa de mistura envolvida na análise é 42. A relação entre Taxa de Mistura e Impureza pode ser muito
diferente para taxas de mistura acima de 42.
Esteja alerta para valores atípicos (outliers) quando usar procedimentos de regressão. Alguns outliers (pontos com altos leverages) têm
um grande efeito no cálculo da reta de regressão via Método de Mínimos Quadrados. Nesses casos, a reta pode não representar os
dados adequadamente.
Correlação e Regressão 35
Regressão Polinomial
As especificações para o set point de pressão são 165+/-15 kilo Pascals (kPa).
Coleta de dados
Engenheiros construiram cinco interruptores com os componentes do protótipo de cada espessura em ordem aleatória. Eles variaram a
espessura do diafragma de 0,5 a 0,9 mm em incrementos de 0,1 mm.
Ferramentas
• Scatterplot
• Fitted Line Plot
Arquivo de dados
interruptor.MTW
Variável Descrição
Ordem de Montagem Ordem na qual as amostras de interruptores foram montadas
Ordem de Coleta Ordem na qual os dados de set point foram coletados
Espessura Preditor - espessura do diafragma (mm)
Set Point Resposta - pressão para abrir o interruptor (kPa)
36 Correlação e Regressão
Regressão Polinomial
O que é regressão polinomial
Assim como a regressão linear, a regressão polinomial examina a relação existente entre uma variável resposta continua (Y) e uma vari-
ável preditora (X). Entretanto, diferente da regressão simples, um modelo polinomial pode incluir termos para os expoentes de X:
onde: Y é a variável resposta, X é a variável preditora, β0 o intercepto, β1 é o coeficiente para o termo linear, β2 é o coeficiente para o termo
quadrático, β3 é o coeficiente para o termo cúbico e ε é o erro aleatório.
Por exemplo,
• A adição de mais cobre faz com que a força de liga sempre fique mais forte ou ela decresce em maiores concentrações?
• Quão forte podemos esperar que seja a liga se a mesma é feita de 0,015 de cobre?
Correlação e Regressão 37
Plotando os dados
Para visualizar a relação entre espessura do diafragma e set point, use um diagrama de dispersão com a resposta (Set Point) no eixo-Y
e o preditor (Espessura) no eixo-X.
Scatterplot
1) Abra o arquivo INTERRUPTOR.MTW.
2) Selecione Graph > Scatterplot.
3) Selecione Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:
5) Clique em OK.
38 Correlação e Regressão
Interpretando os resultados
O gráfico revela a existência de uma relação não linear entre a espessura e o set point. Observe que à medida que a espessura aumenta
nos níveis mais baixos, o set point não aumenta muito. Contudo, um aumento equivalente nos níveis altos de espessura tem um grande
efeito.
Correlação e Regressão 39
Ajustando um modelo linear
Use o Fitted Line Plot para avaliar o quão bem um modelo de regressão linear ajusta os dados.
3) Clique em Graphs.
4) Abaixo de Residual Plots, selecione Four in one.
5) Clique em OK em cada caixa de diálogo.
40 Correlação e Regressão
Interpretando os resultados
Devido ao fato de existir uma curvatura na variável resposta Set Point, o modelo de regressão linear não ajustou bem os dados.
Gráficos de resíduos
O gráfico de resíduos versus valores ajustados mostra um padrão curvilíneo. Isso sugere que a forma da equação de regressão está
incorreta.
Próximo passo
Ajuste um modelo quadrático aos dados para ver se há um ajuste melhor.
Correlação e Regressão 41
Ajustando um modelo quadrático
Use o Fitted Line Plot para ajustar um modelo de regressão quadrático e exibir os gráficos de resíduos.
3) Clique em OK.
42 Correlação e Regressão
Interpretando os resultados
O modelo quadrático ajusta melhor os dados.
Equação de regressão
A equação de regressão quadrática que melhor descreve os dados é:
O R² nunca diminui e geralmente aumenta à medida em que você adiciona mais preditores, mesmo se os preditores não melhorarem o
modelo. Use o R² ajustado (R² adj) - ajustado para o número de termos no modelo - ao comparar modelos com diferentes números de
preditores.
O R² ajustado do modelo quadrático (97,2%) é superior ao R² ajustado do modelo linear (93,3%), indicando que o termo quadrático adi-
cionado explica parte da variabilidade da resposta.
Correlação e Regressão 43
Interpretando os resultados
Análise de variância
O p-valor para o modelo de regressão (0,000) é significativo, indicando a existência de relacionamento significativo entre a resposta (Set
Point) e o preditor (Espessura).
O p-valor para o termo quadrático (0,000) indica que este termo é significativo no modelo. Em outras palavras, o modelo quadrático ex-
plica uma quantidade significativa de variação na resposta que não é explicada pelo termo linear.
Analysis of Variance
Source DF SS MS F P
Regression 2 17956,1 8978,05 424,90 0,000
Error 22 464,9 21,13
Total 24 18421,0
44 Correlação e Regressão
Interpretando os resultados
Use os gráficos de resíduos para verificar suposições sobre a distribuição do erro.
Próximo passo
Os engenheiros registraram a ordem de montagem para cada interruptor. Verifique se quaisquer variáveis associadas com a ordem de
montagem tem efeito nos resultados.
Correlação e Regressão 45
Verificando efeito da ordem de montagem
Para verificar se a ordem de montagem tem efeito nos resultados, plote os resíduos versus a ordem de montagem.
Os engenheiros montaram os interruptores usando uma seleção aleatória de diafragma e peças dos componentes. Essa aleatorização
protege os resultados da influência do tempo durante a fabricação das peças. Eles monitoram a ordem na coluna Ordem de Montagem
da worksheet.
Os engenheiros também testaram os set points dos interruptores em ordem aleatória. Essa aleatorização evita que os resultados sejam
influenciados por efeitos desconhecidos do tempo que o sistema de medição poderia introduzir.
4) Clique em OK.
46 Correlação e Regressão
Interpretando os resultados
Como os resíduos parecem ser aleatórios em relação à ordem de montagem, os dados não parecem ter qualquer efeito pela ordem de
montagem.
Próximo passo
Construa um novo Fitted Line Plot incluindo os intervalos de confiança e predição.
Correlação e Regressão 47
Adicionando intervalos de confiança e predição
Construa intervalos de confiança e predição para uma melhor interpretação do modelo.
4) Clique em OK.
5) Clique em Graphs e delete ‘Ordem de Montagem’ de Residuals versus the variables;
6) Clique em OK em cada caixa de diálogo.
48 Correlação e Regressão
Interpretando os resultados
Intervalo de confiança
O intervalo de 95% de confiança define o alcance dos valores para a média da população de Y. Para um valor dado de X, podemos ter
95% de confiança de que a média da população de Y está entre os limites indicados.
Intervalo de predição
O intervalo de predição define o alcance de um valor individual futuro de Y para um dado X. Se uma única observação futura foi coletada
em um X especifico, estaremos 95% confiantes que o Y estará entre os limites do intervalo de predição. Para um dado valor de X, pode-
mos ter 95% de confiança de que a média da população de Y estará entre as linhas indicadas.
Nota: O Set Point médio deve estar no alvo de 165 kPa. Níveis de espessura do diafragma cujos intervalos de confiança contêm o valor 165
são boas escolhas para se atingir o alvo. Entretanto, use o modelo de regressão para obter a melhor escolha com base nos dados.
Correlação e Regressão 49
Considerações Finais
Resumo e conclusões
Um modelo quadrático aproxima melhor a relação entre a espessura do diafragma e o set point do interruptor.
Usando o modelo de regressão quadrático, a melhor escolha para a espessura do diafragma é aproximadamente 0,64 mm. Obtenha esse
resultado substituindo 165 para Set Point (Y) no modelo de regressão e resolvendo a equação para Espessura (X) usando a equação
quadrática.
Considerações adicionais
Erro puro
Quando os mesmos valores dos preditores são observados em várias respostas, como nesse estudo (cada espessura é usada 5 vezes),
é possível obter uma estimativa do erro puro. O erro puro é a variabilidade na resposta em um valor X fixo. O Minitab usa o erro puro para
calcular a estatística lack-of-fit disponível no item no menu Regression..
50 Correlação e Regressão
Exercício J: Escudos de Erosão
Problema
Um produtor de energia deseja predizer o quão bem escudos protetores de erosão para turbinas de máquinas a vapor resistem à perda
pela abrasão. A medição direta da resistência à abrasão é difícil, cara e destrutiva. Portanto, o produtor deseja ser capaz de predizer a
resistência à abrasão usando a dureza do aço, que é mais conveniente e mais barata de ser medida.
Coleta de dados
Engenheiros medem a perda por abrasão e a dureza em 24 escudos de erosão selecionados aleatoriamente.
Instruções
1) Use o Fitted Line Plot para ajustar um modelo de regressão linear simples com Abrasão como resposta e Dureza como predi-
tora. Inclua intervalos de confiança e predição nos resultados.
2) Use gráficos de resíduos para validar as suposições necessárias.
Arquivo de dados
erosão.MTW
Variável Descrição
Dureza Preditor - dureza da turbina
Abrasão Resposta - perda por abrasão
Correlação e Regressão 51
Exercício K: Escapamento de Diesel
Problema
Pesquisadores querem investigar o efeito da taxa de umidade nas emissões de óxido de nitrogênio pelo escapamento de caminhões a
diesel.
Coleta de dados
Pesquisadores registram a umidade como uma razão, que é a quantidade de umidade por quantidade fixa de ar seco. A variável resposta,
óxido de nitrogênio emitido pelo escapamento, foi registrada como NOx.
Os dados foram extraídos de C.T. Hare (1977). “Light Duty Diesel Emission Correction Factors for Ambient Conditions,” Final Report to the
Environmental Protection Agency under Contract No. 68-02-1777. Southwest Research Institute, San Antonio, TX.
Instruções
1) Plote os dados para visualizar a relação entre as variáveis.
2) Use o Fitted Line Plot para ajustar um modelo de regressão apropriado.
3) Verifique as suposições necessárias com os gráficos de resíduos.
Arquivo de dados
diesel.MTW
Variável Descrição
NOx Resposta - emissão de óxido de nitrogênio
Umidade Preditor - taxa de umidade
52 Correlação e Regressão
Regressão Múltipla
(Opcional)
Objetivos
O conteúdo desta apostila, desenvolvida pela Global Tech, encontra-se protegido pela legislação autoral vigente no
País e pelas regras internacionais estabelecidas na Convenção de Berna. Desta forma, são vedadas a reprodução,
modificação e distribuição total ou parcial de quaisquer informações nela contida, a menos que devidamente autorizadas
www.minitabbrasil.com.br pela Global Tech. Assim, é de responsabilidade do usuário qualquer violação às normas de direitos autorais nacionais
ou internacionais. www.minitabbrasil.com.br
Regressão Múltipla 3
Conteúdo
4 Regressão Múltipla
Eliminação de Preditores
Coleta de dados
Foram coletados dados de 13 motores selecionados aleatoriamente, todos funcionando com gasolina em um índice de octana de 87.
Ferramentas
• Matrix Plot
• Correlation
• Regression
Arquivo de dados
MOTORES.MTW
Variável Descrição
Centelha Preditora - Ponto de centelha da vela
RAC Preditora - Razão ar-combustível
Temp_Entrada Preditora - Temperatura de entrada (°C)
Temp_Exaustão Preditora - Temperatura de exaustão (°C)
Barulho Resposta - Barulho medido no motor
Regressão Múltipla 5
Regressão Múltipla
O que é regressão múltipla
A regressão múltipla examina a relação entre uma variável resposta contínua (Y) e mais de uma variável preditora (X). A equação geral
para um modelo de regressão múltipla é:
onde Y é a resposta, β0 é o intercepto, cada Xi é uma variável preditora com inclinação βi, e ε é o erro aleatório.
• Como a temperatura e a porosidade do processo estão relacionados com a dureza média do aço?
• Qual será a dureza do aço que foi processado em uma temperatura particular por uma certa quantidade de tempo?
• Quanto em média o aço endurecerá se a temperatura aumentar em 100ºC?
6 Regressão Múltipla
Criando um Matrix Plot
Use uma matriz de correlação para determinar se existe uma relação entre a variável resposta e as variáveis preditoras.
Variáveis gráficas
É mais fácil visualizar a relação entre a resposta e os preditores se você entrar com a variável resposta por último na caixa Graph va-
riables.
Matrix Plot
1) Abra o arquivo MOTORES.MTW.
2) Selecione Graph > Matrix Plot.
3) Selecione Matrix of plots - Simple, então clique em OK.
4) Preencha a caixa de diálogo como mostra a figura abaixo:
Regressão Múltipla 7
Interpretando os resultados
O resultado inclui diagramas de dispersão para todas as combinações de variáveis. Observe a última linha para avaliar a relação exis-
tente entre a variável resposta Barulho e as demais variáveis preditoras.
Barulho e Centelha parecem ter uma correlação negativa, e Barulho parece ter uma correlação positiva com todas as variáveis preditoras
restantes.
Próximo passo
Use Correlation para avaliar a intensidade das relações lineares.
8 Regressão Múltipla
Calculando correlações múltiplas
Crie uma matriz de correlação para avaliar as associações existentes entre a variável resposta e as demais variáveis preditoras.
Correlation
1) Selecione Stat > Basic Statistics > Correlation.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
Regressão Múltipla 9
Interpretando os resultados
Como sugerido na matriz, existe uma correlação negativa entre as variáveis Barulho e Centelha (R = - 0,699). Correlações positivas
existem entre a variável resposta Barulho e todas as preditoras restantes:
• RAC (R = 0,961)
• Temp_Entrada (R = 0,673)
• Temp_Exaustão (R = 0,682)
RAC -0,580
0,038
0,082 0,068
P-Value
Próximo passo
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.
10 Regressão Múltipla
Ajustando um modelo de regressão múltipla
Use Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras.
Regression
1) Selecione Stat > Regression > Regression.
2) Preencha a caixa de diálogo como mostra a figura abaixo:
Regressão Múltipla 11
Interpretando os resultados
Equação de regressão
A equação que descreve a relação entre a variável resposta e as demais variáveis preditoras é:
Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão
Tabela de Coeficientes
Tenha cuidado ao interpretar os coeficientes da regressão múltipla. O p-valor de cada preditor indica a significância daquela variável
somente naquele modelo específico.
Por exemplo, se uma das variáveis preditoras não for significativa num determinado modelo, removendo uma segunda variável preditora
do modelo aquela pode passar a ser significativa. Este fato ocorre se existir correlação entre variáveis preditoras , ou seja, ambas expli-
carem a mesma parte da variabilidade da variável resposta.
Neste modelo, Centelha não é uma variável preditora significativa (p-valor = 0,363). Contudo, se você remover a variável Temp_Exaus-
tão, Centelha torna-se significativa. Este fato se deve à alta correlação entre Centelha e Temp_Exaustão (R = - 0,723). Essa multicoline-
aridade (correlação entre variáveis preditoras) pode ser analisada pela estatística VIF fornecida na saída da Session.
Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão
12 Regressão Múltipla
Interpretando os resultados
VIF
É o chamado Fator de Inflação da Variância, que indica se a multicolinearidade (correlação entre variáveis preditoras) está presente
em um modelo de regressão. A multicolinearidade é um problema, pois pode aumentar a variabilidade dos coeficientes de regressão,
tornando-os instáveis e difíceis de interpretar.
Se VIF for maior que 10, a multicolinearidade pode estar influenciando indevidamente seus resultados de regressão. Neste caso, pode
ser necessário reduzir a multicolinearidade removendo preditoras do modelo.
No modelo ajustado, os valores de VIF para as variáveis Centelha e Temp_Exaustão são um pouco altos. Portanto, há evidências de
multicolinearidade entre essas duas variáveis, o que indica que as duas não podem permanecer no mesmo modelo.
Portanto, ao detectar a existência desse problema, devemos ajustar novamente um modelo de regressão, excluindo uma das variáveis
envolvidas na multicolinearidade. Neste caso, optaremos por rodar o modelo novamente excluindo a variável Centelha (essa decisão
deve ser baseada no conhecimento do processo - por exemplo, qual variável é mais importante para a utilização prática do modelo?).
Barulho = 23,8 - 0,296 Centelha + 3,19 RAC + 0,359 Temp_Entrada + 0,0134 Temp_Exaustão
Próximo passo
Use Regression para analisar o modelo de regressão múltipla excluindo a variável Centelha.
Regressão Múltipla 13
Ajustando outro modelo de regressão múltipla
Use Regression para rodar novamente o modelo, excluindo a variável Centelha.
Regression
1) Selecione Stat > Regression > Regression (ou Ctrl+E).
2) Preencha a caixa de diálogo como mostra a figura abaixo:
3) Clique em OK.
14 Regressão Múltipla
Interpretando os resultados
R2 (R-Sq) e R2 ajustado (R-Sq(adj))
O modelo explica 98,6% da variabilidade total da variável resposta.
O R² nunca irá decrescer quando você adicionar variáveis preditoras a um modelo, mesmo se estas novas variáveis não servirem de fato
para melhorar o modelo. O R² ajustado (R-Sq(adj) = 98,2%) corrige este problema, pois é ajustado para o número de termos presentes no
modelo, devendo também ser usado quando desejamos comparar modelos para uma mesma variável resposta com diferentes números
de variáveis preditoras.
Análise de variância
As hipóteses testadas em um modelo de regressão linear múltipla são:
No exemplo, rejeite a hipótese nula (p-valor = 0,000 < 0,05 = α) de que todos os βi (exceto β0) são iguais a zero. Logo conclua que o
modelo é significativo e que pelo menos uma variável preditora incluída no modelo é importante em explicar a variabilidade da variável
resposta.
Além disso, a tabela de coeficientes mostra os p-valores de todas as variáveis = 0,000, indicando que todas são significativas para o
modelo de regressão.
Analysis of Variance
Source DF SS MS F P
Regression 3 170,003 56,668 219,06 0,000
Residual Error 9 2,328 0,259
Total 12 172,331
Source DF Seq SS
RAC 1 159,048
Temp_Entrada 1 7,062
Temp_Exaustão 1 3,892
Regressão Múltipla 15
Considerações finais
Resumo e conclusões
A equação de regressão para o modelo usando as variáveis RAC, Temp_Entrada e Temp_Exaustão para predizer a variável resposta Ba-
rulho é:
Considerações adicionais
Você não pode utilizar a análise de regressão para afirmar que mudanças nos preditores causam mudanças na resposta, a menos que
os valores dos preditores tenham sido fixados em níveis pré-determinados em um experimento controlado. Se os valores dos preditores
tiverem variado aleatoriamente durante a coleta de dados, outros fatores podem influenciar tanto os preditores quanto a resposta.
Não aplique os resultados obtidos pela equação de regressão em valores de X fora do intervalo dos valores determinados pela amos-
tra.
As mensurações devem ser efetuadas com o máximo de precisão possível, pois a falta de precisão agrega insegurança na estimativa
dos coeficientes associados a cada variável explicativa presente no modelo.
Cuidado com a multicolinearidade (variáveis preditoras correlacionadas entre si). Quando variáveis preditoras são altamente correla-
cionadas:
• A estimação dos coeficientes de regressão pode ser instável, pois eles podem variar bruscamente de uma amostra para outra.
• Pode ser difícil avaliar a importância de termos individuais no modelo.
Cuidado ao remover mais de uma variável preditora ao mesmo tempo. Uma boa forma de escolher preditores para um modelo de
regressão múltipla é tentar todas as combinações em potencial usando um método de seleção automática de preditores, como Best
Subsets ou Stepwise.
16 Regressão Múltipla
Regressão via Best Subsets
Coleta de dados
Os dados foram adaptados do site:
http://lib.stat.cmu.edu/datasets/pollution.
Ferramentas
• Best Subsets
• Regression
Arquivo de dados
MORTALIDADE.MTW
Variável Descrição
Chuva Preditora: média anual de precipitação
ºC Janeiro Preditora: média da temperatura em Janeiro
ºC Julho Preditora: média da temperatura em Julho
Acima 65 Preditora: porcentagem da população com 65 anos ou mais
Tam Casa Preditora: média do tamanho do lar
Escolaridade Preditora: média de anos escolares para pessoas acima de 22 anos.
Infra-estrutura Preditora: porcentagem de casas que têm todo tipo de infra-estrutura
DensidPop Preditora: densidade populacional
Salário Baixo Preditora: porcentagem de famílias com baixos salários
Emprego Preditora: porcentagem de empregados em cargos de alto nível
Carbono Preditora: nível relativo de poluição de carbono
Ox-Nitrico Preditora: nível relativo de poluição de oxido nítrico
Diox-Sulf Preditora: nível relativo de poluição de dióxido sulfúrico
Umidade Preditora: média relativa anual de umidade
Índice Mortalidade Resposta: índice de mortalidade por 100.000
Regressão Múltipla 17
Regressão via Best Subsets
O que é Best Subsets
A ferramenta Best Subsets avalia todas as combinações possíveis de preditores para ajudar a determinar qual combinação fornece o
melhor modelo de regressão. O Minitab usa o critério de maior R2 para escolher o melhor modelo. Outro critério pode fornecer um modelo
diferente.
Mas lembre-se: não é apenas a análise do R2 que nos indica qual é o melhor modelo. Outros pontos devem ser considerados, tais como:
a verificação das suposições associadas ao modelo através da Análise de Resíduos, a análise do R2adj, etc. Sendo assim, após a obten-
ção de um “modelo ótimo” via Best Subsets, ainda é necessário proceder com a análise do modelo de Regressão como um todo.
• Qual combinação de fatores será a mais eficiente em explicar a variabilidade total da variável resposta?
• Qual é o melhor modelo de regressão possível de ser adotado usando apenas 5 de 20 variáveis preditoras?
Por exemplo,
• Um modelo com 10 variáveis para predizer a cremosidade do sorvete é melhor que um que usa apenas a temperatura e veloci-
dade de mistura?
18 Regressão Múltipla
Escolhendo um modelo apropriado
Use o Best Subsets para escolher um modelo de regressão múltipla para o Índice de Mortalidade, e assim evitar os seguintes proble-
mas:
Preditores livres
Entre com todas as variáveis preditoras em Free predictors. O Minitab tenta todas as combinações possíveis dessas variáveis e registra
as estatísticas para os melhores modelos. (Caso você deseje que alguma variável necessariamente faça parte de todos os modelos
testados, inclua em Predictors in all models.)
Best Subsets
1) Abra o arquivo MORTALIDADE;MTW;
2) Selecione Stat > Regression > Best Subsets.
3) Preencha a caixa de diálogo como mostra a figura abaixo:
4) Clique em Options.
5) Em Models of each size to print, digite 1.
6) Clique em OK em cada caixa de diálogo.
Regressão Múltipla 19
Interpretando os resultados
Variáveis
A coluna Vars indica o número de preditores no modelo. Os X’s à direita da tabela indicam os preditores incluídos em cada modelo.
Mallow’s C-p
Prefira modelos em que o C-p é baixo e próximo do número de parâmetros no modelo. Por exemplo, para um modelo com 3 variáveis
preditoras e o intercepto, dê preferência a um modelo com um C-p mais próximo de 4. A formula para o C-p é dada por:
onde SSEp é a soma de quadrados do erro para o modelo com p parâmetros (incluído o intercepto), MSEm é o quadrado médio do erro
para o modelo com todos os m preditores, e n é o número de observações.
Variabilidade
S é uma estimativa da variabilidade média sobre a linha de regressão. Matematicamente, S é a raiz quadrada positiva de MSE. Deseja-se
que S seja o menor possível.
20 Regressão Múltipla
Interpretando os resultados
Conclusão
Com base neste critério, o modelo com as variáveis preditoras: Chuva,ºC Janeiro, Escolaridade, Salário Baixo e Diox-sulf é o melhor. O
modelo que contém seis variáveis preditoras apresenta uma estimativa para o S levemente menor além de R² ajustado maior. Mas pelo
princípio da parcimônia, é sábio escolhermos o modelo mais simples a um outro mais complicado, ou seja, adotamos sempre o modelo
mais claro e simples.
I
n
f S
E r a
s a l
º c - a O
C o e D r x D
º A T l s e i - i
J C c a a t n o E C N o U
a i m r r s m a i x m
C n J m i u i B p r t - i
h e u a C d t d a r b r S d
u i l a a u P i e o i u a
Mallows v r h 6 s d r o x g n c l d
Vars R-Sq R-Sq(adj) Cp S a o o 5 a e a p o o o o f e
1 41,4 40,4 56,1 48,011 X
2 56,3 54,7 29,7 41,852 X X
3 63,9 62,0 17,1 38,357 X X X
4 69,7 67,5 8,0 35,459 X X X X
5 71,7 69,1 6,2 34,597 X X X X X
6 73,5 70,5 4,7 33,797 X X X X X X
7 74,4 71,0 4,9 33,508 X X X X X X X
8 74,9 70,9 6,1 33,543 X X X X X X X X
9 75,8 71,4 6,4 33,274 X X X X X X X X X
10 76,3 71,4 7,5 33,265 X X X X X X X X X X
11 76,4 71,0 9,2 33,517 X X X X X X X X X X X
12 76,5 70,5 11,0 33,806 X X X X X X X X X X X X
13 76,5 69,8 13,0 34,166 X X X X X X X X X X X X X
14 76,5 69,2 15,0 34,539 X X X X X X X X X X X X X X
Próximo passo
Calcule a equação de regressão e verifique as suposições do modelo.
Regressão Múltipla 21
Avaliando o modelo final
Use a ferramenta Regression para avaliar o modelo final proposto pelo Best Subsets. Calcule a equação de regressão e proceda com a
Análise de Resíduos a fim de verificar todas as suposições sobre os erros.
Regression
1) Selecione Stat > Regression > Regression.
2) Em Response, digite Índice Mortalidade.
3) Em Predictors, digite Chuva ‘ºC Janeiro’ Escolaridade ‘Salário Baixo’ ‘Diox-Sulf’.
4) Clique em Graphs.
5) Preencha a caixa de diálogo como mostra a figura abaixo:
22 Regressão Múltipla
Interpretando os resultados
Equação de regressão
A equação de regressão é:
Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf
Tabela de coeficientes
Os baixos p-valores (< 0,1) na tabela de coeficientes indicam que todos os termos incluídos no modelo devem ser mantidos no mesmo,
pois são importantes em explicar a variabilidade total da variável resposta Índice de Mortalidade.
Análise de variância
Como P (0,000) é menor que α (0,05), rejeite a hipótese nula de que todos os βi , i =1,2,3 são iguais a zero. O modelo de regressão
que inclui Chuva, ºC Janeiro, Escolaridade, Salário Baixo e Diox-Sulf é significativamente melhor que o modelo restrito que não inclui
preditores.
Analysis of Variance
Source DF SS MS F P
Regression 5 163675 32735 27,35 0,000
Residual Error 54 64634 1197
Total 59 228310
Source DF Seq SS
Chuva 1 59267
ºC Janeiro 1 1365
Escolaridade 1 19240
Salario Baixo 1 68402
Diox-Sulf 1 15400
Regressão Múltipla 23
Interpretando os resultados
Os gráficos de resíduos verificam que todas as suposições sobre os erros foram verificadas. Os resíduos:
24 Regressão Múltipla
Considerações finais
Resumo e conclusões
O melhor modelo para predizer o índice de mortalidade é:
Índice Mortalidade = 964 + 1,49 Chuva - 2,92 ºC Janeiro - 12,8 Escolaridade + 4,07 Salário Baixo + 0,284 Diox-Sulf
Considerações adicionais
Antes de utilizar o Best Subsets para avaliar os diferentes modelos de regressão, certifique-se de que seus preditores e a resposta são
válidos, para que todos os modelos em potencial sejam modelos de regressão válidos na prática.
O Minitab também oferece o método de seleção de variáveis Stepwise, além do Best subsets.
Quando se utiliza Best subsets é possível obter informação de ajuste sobre todos os diferentes modelos possíveis, assim você pode
selecionar um modelo se baseando nas quatro estatísticas distintas dadas pela análise. A regressão Stepwise produz um único modelo
baseado em uma única estatística. Por causa dos diferentes critérios de seleção usados em cada caso, é possível que a regressão Best
Subsets e a regressão Stepwise apontem modelos diferentes. Em geral, escolhe-se o método de seleção da seguinte forma:
• Para grupos de dados com um número pequeno de variáveis preditoras, é preferível utilizar Best Subsets, pois se consegue
informação sobre mais modelos.
• Para grupos de dados com muitas variáveis preditoras (>32), é preferível usar Stepwise.
Você também pode escolher o método baseando-se no que é mais importante, p-valor dos preditores (Stepwise) ou R-sq(adj) (Best
Subsets).
Regressão Múltipla 25
Exercício L: Duração do Sono
Problema
Determine quais preditores listados na tabela abaixo estão relacionadas com a duração do sono nas 51 espécies sob investigação. O
índice de predação varia de 1 a 5, onde 1 indica o menor nível de predação e 5 indica predação máxima. O índice de exposição durante
o sono também varia de 1 a 5, onde 1 indica que o animal dorme totalmente protegido enquanto 5 indica que o animal sofre completa
exposição enquanto dorme.
Coleta de dados
Os dados foram tirados do Web site: http://lib.stat.cmu.edu/datasets/sleep
Instruções
1) Use Stat > Regression > Regression (ou Stat > Regression > Best Subsets) para determinar quais termos são significativos
considerando um nível de significância de 5% (α = 0,05). Inclua todos os termos com p-valores menores que 0,05.
2) Verifique as suposições sobre os resíduos do modelo.
Arquivo de dados
DURAÇÃO_SONO.MTW
Variável Descrição
Espécie Fator - indica a espécie do animal
Peso Preditor - peso do animal (Kg)
Expectativa Preditor - expectativa de vida (anos)
Gestação Preditor - período de gestação (dias)
Predação Preditor - índice para a probabilidade de sofrer predação
Exposição Preditor - índice para o nível de exposição durante o sono
Sono Resposta - horas por dia de sono de cada animal
26 Regressão Múltipla
Conteúdo
Exercícios Página
Inferência Estatística e Teste t
Exercício A: 3
Detectando Mudanças em Diâmetros de Rolamentos
Exercício B: 7
Investigando a Qualidade do Fornecedor
Exercício C: 10
Altura do Ânodo
Exercício D: 16
Comparando Instrumentos de Medição
Testes de Proporção
Exercício E: 19
Taxas de Consertos em Televisões
Exercício F: 20
Taxas de Sobrevivência em Passageiros do Titanic
Análise de Variância
Exercício G: 23
Moldes de Tampas de Canetas
Exercício H: 28
Degustação de Vinho
Exercício I: 31
Desgaste de Tinta
Correlação e Regressão
Exercício J: 35
Escudos de Erosão
Exercício K: 37
Escapamento de Diesel
Regressão Múltipla (Opcional)
Exercício L: 40
Duração do Sono
1-Sample t Test
Sample Target
Difference Size Power Actual Power
0,1 4 0,85 0,898606
Interpretando os resultados
Se a média do processo se deslocar de 0,1 mm, o teste t para 1 amostra irá detectar esta mudança 89,86% das vezes, com um tamanho
amostral de 4.
1) Selecione Stat > Power and Sample Size > 1-Sample t ou pressione Ctrl + E.
2) Pressione F3 para limpar a caixa de diálogo. Em Sample sizes, digite 5 10. Em Power values, digite 0,90. Em Standard de-
viation, digite 0,04.
3) Clique em OK.
1-Sample t Test
Sample
Size Power Difference
5 0,9 0,0786356
10 0,9 0,0461826
Interpretando os resultados
Com um tamanho amostral de 5, o teste t para 1 amostra irá detectar uma mudança de 0,079 na média do processo em 90% das ve-
zes.
Com um tamanho amostral de 10, o teste t para 1 amostra irá detectar uma mudança de 0,046 na média do processo em 90% das ve-
zes.
Interpretando os resultados
O gráfico de probabilidade dos dez diâmetros dos rolamentos indica que você pode assumir a normalidade. Os pontos plotados caem ao
longo da linha reta e o p-valor (0,760) é maior que 0,05.
One-Sample T: Bearings
Test of mu = 5 vs not = 5
Interpretando os resultados
O boxplot indica que a média do processo não está no valor alvo (o intervalo de 95% de confiança não contem Ho). O teste t para 1
amostra confirma que a média dos diâmetros dos rolamentos é significativamente maior que 5 mm, pois o p-valor é menor que 0,05.
1-Sample t Test
Sample
Difference Size Power
0,008 10 0,754425
0,010 10 0,897517
0,012 10 0,967475
Interpretando os resultados
A probabilidade de você detectar deslocamentos de tamanho 0,008, 0,010 e 0,012 com um tamanho amostral de 10 é 0,754, 0,897 e
0,976, respectivamente.
Interpretando os resultados
Os dados caem ao longo da linha reta no gráfico de probabilidade normal. Você pode assumir uma distribuição normal porque o p-valor
é 0,352.
One-Sample T: TempCong
95% Lower
Variable N Mean StDev SE Mean Bound T P
TempCong 10 -0,53937 0,00780 0,00247 -0,54389 2,28 0,024
Interpretando os resultados
Como o p-valor de 0,024 é menor que α = 0,05, você pode concluir que a média da temperatura de congelamento é maior que -0,545
graus Celsius.
Sim, a análise mudaria se todas as amostras viessem de um único lote de leite. Você não teria uma amostra aleatória de tamanho 10 da
população de leite do fornecedor. Portanto, suas conclusões seriam válidas apenas para a população daquele lote de leite específico.
Você não poderia tirar conclusões sobre toda a população de leite.
2-Sample t Test
Sample Target
Difference Size Power Actual Power
0,4 28 0,85 0,851295
Interpretando os resultados
Os resultados indicam que 28 observações em ambos os momentos (antes e após a mudança) são necessárias para detectar um acrés-
cimo de 0,4 mm na altura do ânodo com 85% de poder.
Interpretando os resultados
O teste de Anderson-Darling para os dados “Final” (p-valor=0,490) indica que não há evidências para rejeitar a hipótese nula de norma-
lidade para esses dados. O teste de Anderson-Darling para os dados “Início” (p-valor=0,442) também indica que não há evidências para
rejeitar a hipótese nula de normalidade para esses dados.
Compare as variâncias das amostras para determinar se os cálculos dos teste t para 2 amostras podem assumir que as duas popula-
ções têm a mesma variabilidade.
1) Selecione Stat > Basic Statistics > 2 Variances.
2) Marque Samples in one column.
3) Em Samples, entre com Altura do Ânodo. Em Subscripts, entre com Mudança no processo.
4) Clique em OK.
Interpretando os resultados
O teste F compara a variância das duas amostras para determinar se há evidências suficientes para se rejeitar a hipótese nula de que
as duas populações têm variâncias iguais. O alto p-valor (0,202) indica que não há evidências suficientes para rejeitar a hipótese nula de
igualdade de variâncias ao nível de significância de 0,05. O cálculo da estatística de teste para o teste t para 2 amostras pode assumir
igual variabilidade nas duas populações.
Mudança no
processo N Mean StDev SE Mean
Final 30 6,280 0,564 0,10
Início 30 6,045 0,444 0,081
2-Sample t Test
Sample Target
Difference Size Power Actual Power
0,4 35 0,85 0,850645
Interpretando os resultados
A análise de poder e tamanho de amostra indica que é necessário avaliar 35 capacitores antes da mudança, e 35 após para detectar uma
mudança de 0,4 mm na altura do ânodo em 85% das vezes. Em outras palavras, mais sete observações por grupo são necessárias se
a análise não utilizar a hipótese alternativa unilateral. Isso ilustra o poder atingido quando a hipótese alternativa unilateral é apropriada-
mente utilizada em sua análise, como nesse exemplo.
Interpretando os resultados
As diferentes ferramentas não fornecem medições significativamente diferentes. O intervalo de confiança inclui 0, e o p-valor é maior
que 0,05.
1-Sample t Test
Sample
Difference Size Power
0,005 12 1,00000
Interpretando os resultados
O poder do teste para detectar uma diferença de 0,005 é 1,00. (O valor real é maior que 0,99995; o Minitab arredonda o valor até
1,00000.),
1-Sample t Test
Sample
Difference Size Power
0,001 12 0,445247
Interpretando os resultados
O poder do teste para detectar uma diferença de 0,001 é 0,445.
Exact
Sample X N Sample p 95% CI P-Value
1 236 2856 0,082633 (0,072792; 0,093339) 0,003
Interpretando os resultados
Você pode concluir que a taxa de defeituosos é diferente de 0,068 porque:.
• O intervalo de confiança não inclui a taxa de defeituosos hipotética de 0,068. Você pode ter 95% de confiança de que a taxa de
defeituosos está entre 0,073 e 0,093.
• O p-valor (0,003) é menor que 0,05.
Os dados para esse teste de 1 proporção vêm de uma pesquisa. A amostra pode não representar exatamente a população porque muitos
consumidores não responderam a pesquisa. Geralmente, clientes insatisfeitos são mais prováveis de responderem as pesquisas e, como
resultado, viciarem os resultados da taxa de defeituosos, aumentando-a.
Event = Sobreviveu
Classe X N Sample p
Econômica 508 1876 0,270789
Primeira 203 325 0,624615
Interpretando os resultados
Dos passageiros de primeira classe, 62,5% sobreviveram, enquanto apenas 27,1% dos passageiros da classe econômica sobreviveram.
Como o p-valor é menor que 0,05, a diferença é estatisticamente significativa.a.
Event = Sobreviveu
Sexo X N Sample p
Feminino 344 470 0,731915
Masculino 367 1731 0,212016
Interpretando os resultados
Das mulheres, 73,2% sobreviveram, enquanto apenas 21,2% dos homens sobreviveram. Como o p-valor é menor que 0,05, a diferença
é estatisticamente significativa.
Event = Sobreviveu
Faixa
etária X N Sample p
0 57 109 0,522936
1 654 2092 0,312620
Interpretando os resultados
Das crianças, 52,3% sobreviveram, enquanto apenas 31,3% dos adultos sobreviveram. Essa diferença é estatisticamente significativa.
Interpretando os resultados
O boxplot sugere que:
• Não existem outliers extremos (todos os dados caem em uma amplitude de 0,30 mm)
• As distribuições dentro de cada cavidade são aproximadamente simétricas (a mediana está próxima do centro da caixa).
Você não pode determinar por esse gráfico se as diferenças entre as cavidades são estatisticamente significativas.
Interpretando os resultados
Com base nos p-valores altos para o Teste de Bartlett (assumindo normalidade) e o Teste de Levene (assumindo apenas simetria),
você não tem evidências suficientes para declarar uma diferença na variabilidade entre as 16 cavidades.
Interpretando os resultados
Pelo menos duas cavidades têm médias significativamente diferentes (P=0,000).
Os resíduos são aproximadamente normalmente distribuídos, com variância constante e nenhuma tendência ao longo do tempo.
Interpretando os resultados
As cavidades 1, 3, 5, 7, 8, 9, 12, 15 e 16 são significativamente diferentes do valor alvo, pois os intervalos não contêm esse valor (10
mm). Entretanto, usar intervalos de Bonferroni para controlar o erro Tipo I é mais apropriado, pois com tantas cavidades, ao menos
uma das identificadas como diferentes provavelmente está no alvo.
Interpretando os resultados
As cavidades 3, 5, 7, 8, 9, 15 e 16 são significativamente diferentes do alvo. Você pode ter 95% de confiança de que essas cavidades
estão trabalhando fora do alvo.
Interpretando os resultados
Há uma forte evidência de que há diferenças entre as pontuações médias (P = 0,002). Os enólogos não são significativamente diferentes
um do outro, e a interação Juiz*Vinho não é significativa. A não-significância do efeito do Juiz é boa, pois você quer que os enólogos
concordem entre si. Ajuste o modelo novamente retirando os termos não-significativos.
1) Selecione Stat > ANOVA > General Linear Models ou pressione Ctrl + E.
2) Em Model, mantenha apenas Vinho.
3) Clique em Graphs. Em Residual plots, escolha Four in one e clique em OK.
4) Clique em Comparisons. Em Terms, entre com Vinho e clique em OK.
5) Clique em Factor Plots. Sob Main Effects Plot, entre com Vinho em Factors.
6) Clique em OK em cada caixa de diálogo.
Difference SE of Adjusted
Vinho of Means Difference T-Value P-Value
Matador -0,650 0,5277 -1,232 0,4397
Saeta -1,950 0,5277 -3,695 0,0014
Difference SE of Adjusted
Vinho of Means Difference T-Value P-Value
Saeta -1,300 0,5277 -2,463 0,0437
Interpretando os resultados
Com base nos p-valores para as comparações em pareadas, o vinho Saeta é significativamente diferente de Conquistador (p-valor =
0,0014) e Matador (p-valor = 0,0437).
O gráfico de fatores mostra que o vinho Saeta recebeu a menor pontuação média e Conquistador a maior.
Interpretando os resultados
Quando Tinta é o único fator no modelo, o resultado não mostra diferença significativa entre os quatro tipos de tinta (P > 0,05).
Interpretando os resultados
Quando você adiciona Localidade ao modelo, o resultado mostra uma diferença estatística entre os quatro tipos de tinta (P = 0,007) e as
quatro localidades (P = 0,003).
Interpretando os resultados
Os gráficos de resíduos não indicam quaisquer observações não-usuais.
Quando Localidade é deixada fora do modelo, o termo de erro inclui o efeito da localidade. Esse efeito infla a quantidade de erro e torna
as diferenças entre os tipos de tinta menos estatisticamente significativas.
Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-0314 -2,000 0,8015 -2,495 0,1274
Y-1424 -3,250 0,8015 -4,055 0,0125
Y-1723 -3,500 0,8015 -4,367 0,0080
Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-1424 -1,250 0,8015 -1,560 0,4452
Y-1723 -1,500 0,8015 -1,872 0,3041
Difference SE of Adjusted
Tinta of Means Difference T-Value P-Value
Y-1723 -0,2500 0,8015 -0,3119 0,9888
Interpretando os resultados
A tabela mostra que o desgaste da tinta é significativamente diferente ao nível de significância de 0,05 entre os seguintes tipos de tinta:
Analysis of Variance
Source DF SS MS F P
Regression 1 112902 112902 61,49 0,000
Error 22 40397 1836
Total 23 153300
Interpretando os resultados
A equação de regressão indica que, à medida que a Dureza aumenta, a Abrasão diminui:
O R2 indica que mudanças na Dureza explicam 73,6% da variação na Abrasão. Para a maioria dos estudos, um R2 alto para apenas um
preditor é muito bom. Variáveis adicionais podem ajudar a explicar um pouco dos 26,4% restantes da variação, mas alguma variação será
sempre atribuída ao erro (Residual Error).
Interpretando os resultados
• Normal Probability Plot - Como os pontos no gráfico de probabilidade normal seguem uma linha reta, você pode assumir que os
resíduos não se desviam substancialmente de uma distribuição normal.
• Histogram - Use o gráfico de probabilidade normal para tomar decisões sobre a normalidade dos resíduos. Com um tamanho
amostral razoavelmente grande, o histograma exibe informação compatível.
• Versus Fits - A suposição de variância constante não parece ser violada, pois os resíduos estão aleatoriamente distribuídos em
torno de zero e têm aproximadamente a mesma dispersão para todos os valores.
• Versus Order - O gráfico de resíduos versus ordem não mostra qualquer padrão, portanto não há dependência dos dados com
o tempo.
Interpretando os resultados
O gráfico de NOx versus Umidade sugere uma relação quadrática entre as duas variáveis. Portanto, você pode querer ajustar um modelo
de regressão quadrático.
Analysis of Variance
Source DF SS MS F P
Regression 2 0,068399 0,0341994 14,84 0,000
Error 17 0,039176 0,0023045
Total 19 0,107575
Source DF SS F P
Linear 1 0,0174885 3,49 0,078
Quadratic 1 0,0509103 22,09 0,000
No gráfico de regressão, o menor nível de emissões de NOx ocorre quando Umidade é cerca de 100.
Nota: Usando cálculo, você pode encontrar a primeira derivada do modelo quadrático, igualá-la a zero, e resolver para a Umidade. O resultado
(98,46) é o valor de Umidade que minimiza o NOx.
Interpretanto os resultados
Após você remover os termos não-significativos do modelo um-a-um, a equação final tem dois preditores: Gestação e Predação. Você
pode interpretar esses coeficientes com base em seus sinais:
Interpretando os resultados
Os gráficos de resíduos não apontam a violação de qualquer suposição referente aos erros.
Você utilizou o procedimento de eliminação backwards. Obtenha os resultados utilizando outro procedimento, usando Stat > Regression
> Stepwise. Esse método também identifica Gestação e Predação como os preditores significativos.
Para o estudo de duração do sono, há duas observações atípicas (outliers) nos gráficos de resíduos. Utilizando o cursor para identificar
os pontos, você pode verificar que os dados dos elefantes africanos e asiáticos são observações com grande influência. Devido aos
outliers nos valores dos preditores (peso e gestação) para essas espécies, suas respostas podem ter uma grande influência nos coefi-
cientes de regressão e p-valores. Se você remover essas duas espécies e reanalisar os dados, as conclusões não irão mudar; portanto
essas observações não exercem uma influência comprometedora.