Você está na página 1de 136

Estatística Básica na

Metrologia Química

Disciplina: Metrologia Química – PPGEB

Professores: Vicente Machado Neto


João Antonio Palma Setti
Estatística na MQ

Tópicos

1) Box Plot
2) Outlieres
3) Teste de Hipóteses, Distribuição Normal critérios de normalidade
4) Tamanho das Amostras
5) Análise de Variância, Análise de resíduos
6) Regressão Linear
7) Exercícios com Minitab
Box Plots - Medidas separatrizes
As medidas separatrizes delimitam proporções de observações de
uma variável ordinal.
Como a mediana divide o conjunto em duas metades, é razoável
pensar numa medida separatriz que efetue uma divisão adicional:
dividir cada metade em duas metades. Essas medidas separatrizes
são denominadas quartis.
De modo semelhante, é possível encontrar valores que delimitem
porções expressas em percentagem de dados em um conjunto
ordenado. Esses valores são denominados percentis. Entretanto,
de todas essas medidas separatrizes, teremos interesse particular
na mediana, e nos quartis.
Box Plots - Quartis
Os quartis dividem um conjunto de dados ordenado em quatro partes
iguais. São elas:
-Primeiro quartil Q1: 25% dos valores ficam abaixo e 75% ficam acima
desta medida.
- Segundo quartil Q2: 50% dos valores ficam abaixo e 50% ficam acima
desta medida, corresponde à mediana (Q2=Md).
- Terceiro quartil Q3: 75% dos valores ficam abaixo e 25% ficam acima
desta medida.

Observa-se facilmente que o primeiro quartil é o percentil 0,25, a


mediana é o percentil 0,5 e o terceiro quartil é o percentil 0,75.
Box Plots - Quartis
Para determinar os quartis: 1º caso: quanto n é impar
Box Plotsxemplo
Quartil
n impar

10
Box Plots - Quartis no Minitab
O Minitab calcula os valores dos quartis de forma um pouco diferente, dependendo
da situação isto pode levar a resultados distintos.
Box Plots - Quartis no Minitab

Que
conclusões
podemos
tirar só
olhando
para o
boxplot?
Box Plots - Quartis no Minitab

𝑖𝑖
Para obtermos os quartis acima como o Minitab calcula, usamos a fórmula 𝑄𝑄𝑖𝑖 = (𝑁𝑁 +
4
1).
1
𝑄𝑄1 = 10 + 1 = 2,75, o valor 2,75 está entre 9 e 16, pega-se a parte fracionária do
4
2,75 (0,75) e multiplica-se pelo intervalo entre 9 e 16 (7), e soma-se ao 9, assim, (16-
9)=7x0,75=5,25+9=14,25. Da mesma forma obtemos 𝑄𝑄2 𝑒𝑒 𝑄𝑄3 .
2
𝑄𝑄2 = 10 + 1 = 5,5 o valor 5,5 está entre 39 e 45; (45-39)=6x0,5=3+39=42.
4
3
𝑄𝑄3 = 10 + 1 = 8,25 o valor 8,25 está entre 46 e 48; (48-46)=2x0,25=0,5+46=46,5.
4
A amplitude interquatílica é dada pela diferença (46,50-14,25)=32,25.
OUTLIERS
O Minitab considera um outlier ou valor aberrante quando o valor está fora da faixa:
Limit Superior: Q3 + 1,5 (Q3-Q1) e Limite Inferior: Q1 – 1,5(Q3-Q1)
Exitem vários testes para valores aberrantes.
OUTLIERS
Teste de Grubbs
Três testes foram desenvolvidos por Grubbs para detectar valores
aberrantes (outliers) em distribuições normais. Todos usam testes
estatísticos baseados em distribuições padrão.
O primeiro é um teste para somente um valor aberrante.
𝑥𝑥̅ −𝑥𝑥1 𝑥𝑥 −𝑥𝑥̅
𝐺𝐺′𝑙𝑙𝑙𝑙𝑙𝑙 = ou 𝐺𝐺′ℎ𝑖𝑖𝑖𝑖𝑖 = 𝑛𝑛
𝑠𝑠 𝑠𝑠
O segundo teste é para um par de valores aberrantes em posições
opostas do conjunto de dados.
𝑥𝑥 −𝑥𝑥
𝐺𝐺 ′′ = 𝑛𝑛 1 (valores críticos se estiver acima dos tabelados)
𝑠𝑠
O terceiro teste é para um par de valores aberrantes no mesmo lado
do conjunto de dados.
2
′′′ 𝑛𝑛−3 .𝑠𝑠𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜 2 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = (valores críticos se estiver acima dos tabelados)
𝑛𝑛−1 .𝑠𝑠 2
2
′′′ 𝑛𝑛−3 .𝑠𝑠𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜 2 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = (valores críticos se estiver abaixo dos tabelados)
𝑛𝑛−1 .𝑠𝑠 2
OUTLIERS
Teste de
Grubbs
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as medições das massas de uma
amostra existe valores aberrantes.
Massa (g) 159 153 184 153 156 150 147 Média 157,43
Ordenados 147 150 153 153 156 159 184 Des Padrão 12,34
Rank 1 2 3 4 5 6 7

1) Calculando 𝐺𝐺 ′
′ 157,43 − 147 ′ 184 − 157,43
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = = 0,8425 ⋯ 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = = 2,153
12,34 12,34
Os valores críticos pela tabela de Grubbs 𝐺𝐺 ′ ; n=7 para 95%=2,020 e 𝐺𝐺 ′ ;
n=7 para 99% = 2,139. Assim comparando com os valores calculados
pode-se concluir que o valor 184 é um valor aberrante para confianças
de 95% e 99% já que o valor calculado 2,153 é maior do que os valores
tabelados. O valor 147 não é considerado aberrante já que o 0,8425 é
menor do que os valores tabelados.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.
Massa (g) 159 153 184 153 156 150 147 Média 157,43
Ordenados 147 150 153 153 156 159 184 Des Padrão 12,34
Rank 1 2 3 4 5 6 7

1) Calculando 𝐺𝐺 ′′
′′
184 − 147
𝐺𝐺 = = 2,998
12,34
Os valores críticos pela tabela de Grubbs 𝐺𝐺 ′′ ; n=7 para 95%=3,222;
n=7 para 99% = 3,338. Como o valor calculado é menor do que o
tabelado, podemos afirmar que os dois valores extremos não formam
pares de valores aberrantes.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.

A variância excluindo os dois valores menores é 171,5; excluindo os


dois valores maiores é 11,7 e a variância total é 152,29. Assim:

1) Calculando 𝐺𝐺 ′′′
′′′ 4 𝑥𝑥 171,5 ′′′ 4 𝑥𝑥 11,7
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = = 0,751 ... 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = = 0,051
6 𝑥𝑥 152,29 6 𝑥𝑥 152,29
Os valores críticos para 𝐺𝐺 ′′′ são 0,0708 para 95% de confiança e
0,0308 para 99%.
LEMBRANDO QUE ESTES SÃO VALORES CRÍTICOS ABAIXO.
′′′
Observa-se que 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 é significante para 95% mas não para 99%.

Na prática, com um valor aberrante identificado, não se pode aplicar os testes


para pares até que o valor identificado não seja investigado ou eliminado.
Testes de hipóteses
O teste de hipóteses é um procedimento estatístico em que se
busca verificar uma hipótese a respeito da população, no sentido
de aceitá-la ou rejeita-la, a partir de dados amostrais, tendo por
base a teoria das probabilidades.
Em geral, um problema científico (expresso na forma de pergunta)
conduz a uma hipótese científica (resposta provisória a esta
pergunta) que requer uma pesquisa científica para a sua
verificação. O teste de hipótese é um dos procedimentos mais
utilizados na pesquisa científica, sobretudo na pesquisa
experimental.
Testes de hipóteses
No uso de um teste de hipóteses fazemos algumas suposições tais
como: a) Ambas as amostras foram extraídas de populações
independentes que podem ser descritas por distribuições normais; b)
Que o desvio padrão ou variância das populações são iguais; c) E que
os dados são variáveis aleatórias independentes.
A suposição de independência é crítica, mas se as rodadas de
experimentação forem sorteadas e demais variáveis forem
selecionadas aleatoriamente, normalmente, satisfaz-se a suposição de
independência.
As suposições de variância igual e normalidade são facilmente
verificadas usando-se gráficos de verificação da normalidade.
Normalmente softwares incorporam opções de verificação da
normalidade, ou mesmo o procedimento pode ser executado
manualmente, colocando os dados em ordem crescente e seguindo
procedimento específico.
Testes de hipóteses
O gráfico mostra a verificação da normalidade de medições de glicose
em amostras de materiais de referência.
Testes de hipóteses
O gráfico mostra a verificação da normalidade de medições de glicose
em amostras de materiais de referência.
Testes de hipóteses
De modo geral, podemos definir cinco passos para construção de um
teste de hipóteses:
1) Definir as hipóteses estatísticas;
2) Fixar a taxa de erro aceitável;
3) Escolher a estatística para testar a hipótese e verificar as
pressuposições para o seu uso;
4) Usar as observações da amostra para calcular o valor da
estatística do teste;
5) Decidir sobre a hipótese testada e concluir.
Testes de hipóteses – média
1) Definir as hipóteses estatísticas; A hipótese estatística é uma
suposição feita a respeito de um ou mais parâmetros, tais como,
média de populações (µ), variâncias de populações (𝜎𝜎 2 ), etc. As
hipóteses estatísticas surgem de problemas científicos.
Existem dois tipos básicos de hipóteses estatísticas:
Hipótese de nulidade (𝐻𝐻0 ): é a hipótese que está sob verificação. Esta
hipótese supõe a igualdade dos parâmetros que estão sendo
testados;
Hipótese alternativa (𝐻𝐻𝐴𝐴 ): é a hipótese que será considerada caso a
hipótese de nulidade seja rejeitada. Esta hipótese supõe que os
parâmetros testados são diferentes.
Testes de hipóteses – média
Duas situações são comuns em testes de hipóteses a respeito da média
da população (µ):
1. Comparação de uma média (µ) com um valor (𝜇𝜇0 ).
Nesta situação, temos uma população da qual é extraída uma amostra e
a média desta amostra é comparada com um valor já conhecido (valor
padrão) que serve como referência.
𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0 𝑜𝑜𝑜𝑜 𝜇𝜇 − 𝜇𝜇0 = 0
𝐻𝐻𝐴𝐴 : 𝜇𝜇 ≠ 𝜇𝜇0 𝑜𝑜𝑜𝑜 𝜇𝜇 − 𝜇𝜇0 ≠ 0 hipótese bilateral
Devemos escolher a
𝜇𝜇 > 𝜇𝜇0 𝑜𝑜𝑜𝑜 𝜇𝜇 − 𝜇𝜇0 > 0 hipótese unilateral direita 𝐻𝐻𝐴𝐴 mais apropriada
𝜇𝜇 < 𝜇𝜇0 𝑜𝑜𝑜𝑜 𝜇𝜇 − 𝜇𝜇0 < 0 hipótese unilateral esquerda
Testes de hipóteses – média
2. Comparação entre duas médias (𝜇𝜇1 𝑒𝑒 𝜇𝜇2 ).
Nesta situação, temos duas populações, de cada uma é extraída uma
amostra, e as médias das duas amostras são comparadas.

𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 𝑜𝑜𝑜𝑜 𝜇𝜇1 − 𝜇𝜇2 = 0


𝐻𝐻𝐴𝐴 : 𝜇𝜇1 ≠ 𝜇𝜇2 𝑜𝑜𝑜𝑜 𝜇𝜇1 − 𝜇𝜇2 ≠ 0 hipótese bilateral
Devemos escolher a
𝜇𝜇1 > 𝜇𝜇2 𝑜𝑜𝑜𝑜 𝜇𝜇1 − 𝜇𝜇2 > 0 hipótese unilateral direita 𝐻𝐻𝐴𝐴 mais apropriada
𝜇𝜇1 < 𝜇𝜇2 𝑜𝑜𝑜𝑜 𝜇𝜇1 − 𝜇𝜇2 < 0 hipótese unilateral esquerda
Testes de hipóteses – média
Exemplificando com um teste de hipóteses no qual pretende-se avaliar
duas formulações de argamassas, que devem ser avaliadas com
respeito à resistência a compressão. Obviamente, seria impossível
avaliar todas as argamassas produzidas.
População 1 é a formulação
1 da argamassa, a
População 2 é a formulação
2 da argamassa.
Nestas populações vamos
estudar a variável contínua
X= resistência da
argamassa, supondo que
𝑋𝑋~𝑁𝑁 𝜇𝜇, 𝜎𝜎 2 e que 𝜎𝜎1 2 = 𝜎𝜎2 2 .
Testes de hipóteses – média
Assim nossos parâmetros de interesse são:
𝐸𝐸 𝑋𝑋1 = 𝜇𝜇1 = resistência média da população 1;
𝐸𝐸 𝑋𝑋2 = 𝜇𝜇2 = resistência média da população 2;
Assim devemos considerar
as seguintes hipóteses
estatísticas.
𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2
𝐻𝐻𝐴𝐴 : 𝜇𝜇1 ≠ 𝜇𝜇2
Testes de hipóteses – média
Observemos que a hipótese alternativa não corresponde
necessariamente à expectativa do pesquisador, ou seja, à hipótese
científica. A hipótese a ser testada em um teste é sempre a hipótese de
igualdade entre os parâmetros, enquanto a hipótese alternativa deve ser
definida pelo pesquisador, podendo ser bilateral ou unilateral.
A escolha entre uma e outra, entretanto, jamais deve ser feita com base
nos dados da amostra, tampouco na expectativa do pesquisador.

A hipótese bilateral é mais genérica e


deve ser utilizada quando não temos
motivos suficientes para esperar que um
dos parâmetros seja maior ou menor que
outro. Assim, supomos apenas que os
parâmetros serão diferentes, caso a
hipótese de igualdade seja rejeitada.
Testes de hipóteses – média
As situações de aplicação da hipótese unilateral são mais restritas e
nem sempre são muito claras. A opção por uma hipótese unilateral
exige que tenhamos mais informações sobre o comportamento da
variável de interesse na situação da pesquisa. Estudos anteriores, por
exemplo, podem prover evidências que suportem uma hipótese
unilateral.
Testes de hipóteses – média
A hipótese unilateral pode ser também uma decorrência lógica da
situação de pesquisa, como, por exemplo, quando comparamos a
média de um grupo tratado (que recebe determinado tratamento) com
a média de um grupo controle ou testemunha (que não recebe o
tratamento).
Neste caso, se o tratamento
não tem efeito, esperamos
que as médias dos dois
grupos sejam iguais; mas se
o tratamento tem efeito
significativo é bastante
razoável esperar que a
média do grupo tratado (que
expressa este efeito) seja
maior (e nunca menor do que
a média do grupo controle.
Testes de hipóteses – erros
Um elemento intrínseco ao processo de inferência é o erro. Como as
conclusões são obtidas a partir de dados amostrais, eventualmente, a
amostra pode não representar o todo (população).
Como a hipótese sob verificação é 𝐻𝐻0 , dois tipos de erro estão
associados à decisão a respeito dela, são eles:
Erro Tipo I: rejeitar 𝐻𝐻0 quando ela é verdadeira
α = P(erro tipo I) → probabilidade de cometer o erro tipo I
Erro Tipo II: não rejeitar 𝐻𝐻0 quando ela é falsa
β = P(erro tipo II) → probabilidade de cometer o erro tipo II

Decisão Situação de 𝑯𝑯𝟎𝟎


Verdadeira Falsa
Não rejeitar Acerto Erro Tipo II - β
Rejeitar Erro Tipo I - α Acerto
Testes de hipóteses – erros
Como consequência, temos que: (1-α) é a probabilidade de não
cometer o erro tipo I, ou seja, é a capacidade de não rejeitar 𝐻𝐻0
verdadeira, e (1-β) é a probabilidade de não cometer o erro tipo II, ou
seja, é a capacidade de rejeitar 𝐻𝐻0 falsa. A probabilidade (1-β) é
denominada poder do teste. Podemos dizer, então, que o poder do
teste é a probabilidade de declarar diferenças quando elas, de fato
existem. O poder de um teste está relacionado com os seguintes
fatores: tamanho da amostra, variabilidade da variável e magnitude
da diferença existente entre as médias.

Decisão Situação de 𝑯𝑯𝟎𝟎


Verdadeira Falsa
Não rejeitar Acerto Erro Tipo II - β
Rejeitar Erro Tipo I - α Acerto
Testes de hipóteses – erros
É importante ressaltar ainda que as duas taxas de erro (α e β) estão
relacionadas negativamente, de modo que a redução de α implica no
aumento de β e vice-versa. Para que os testes de hipóteses tenham
validade, é necessário que sejam delineados de modo a minimizar os
erros de conclusão. Entretanto, o único meio de reduzir ambos os
tipos de erro é aumentando o tamanho da amostra, o que nem
sempre é viável. Via de regra a preocupação está voltada para
minimizar o erro tipo I. A probabilidade de ocorrência do erro tipo I (α)
é chamada de nível de significância do teste.

Decisão Situação de 𝑯𝑯𝟎𝟎


Verdadeira Falsa
Não rejeitar Acerto Erro Tipo II - β
Rejeitar Erro Tipo I - α Acerto
Testes de hipóteses – critério de
decisão
A regra de decisão a respeito de 𝐻𝐻0 pode ser estabelecida com base
num valor crítico:
Teste bilateral: se a hipótese alternativa for bilateral, o valor crítico
será:
𝑡𝑡𝛼𝛼⁄2(𝜈𝜈) : valor da estatística t, para ν graus de liberdade, que delimita a
área 𝛼𝛼 ⁄2, encontrado na tabela da distribuição t (limites bilaterais);

Teste unilateral: se a hipótese alternativa for unilateral, o valor crítico


será:
𝑡𝑡𝛼𝛼(𝜈𝜈) : valor da estatística t, para ν graus de liberdade, que delimita a
área α, encontrado na tabela da distribuição t (limites unilaterais);

𝜃𝜃
Para decidir comparamos o valor da estatística t= �) com o valor
𝑆𝑆(𝜃𝜃
crítico:
Rejeitamos 𝐻𝐻0 , ao nível α, se o valor da estatística, em módulo, for
maior que o valor crítico: 𝑡𝑡 > valor crítico
Testes de hipóteses – critério de
decisão
O Excel tem uma função que retorna o valor de t.
A função =INV.T(probabilidade; graus de liberdade) retorna o valor de t.

Para a função =INV.T(0,025;22) o valor retornado será -2,07387, ou se você


entrar com a função =INV.T(0,975;22) obterá o valor 2,073873.

No teste de hipóteses compara-se sempre o valor do t crítico


como positivo, assim mesmo a função =INV.T(0,025;22) retornar
o valor -2,07387 o valor do t crítico a ser comparado é 2,07387.
Em alguns critérios de rejeição o sinal – está a frente do valor
crítico, neste caso o valor a ser comparado será negativo.
Testes de hipóteses – critério de
decisão
Não temos motivos suficientes para rejeitar 𝐻𝐻0 , ao nível α, se o valor
da estatística, em módulo, for menor que o valor crítico: 𝑡𝑡 < valor
crítico
Podemos observar a seguir as regiões de rejeição 𝐻𝐻0 na curva da
distribuição t para cada uma das três possibilidades de hipótese
alternativa:
Para hipótese alternativa bilateral, ou seja, 𝐻𝐻𝐴𝐴 : 𝜇𝜇1 − 𝜇𝜇2 ≠ 0
Testes de hipóteses – critério de
decisão
Para hipótese alternativa unilateral direita ou seja, 𝐻𝐻𝐴𝐴 : 𝜇𝜇1 − 𝜇𝜇2 > 0
Testes de hipóteses – critério de
decisão
Para hipótese alternativa unilateral esquerda ou seja, 𝐻𝐻𝐴𝐴 : 𝜇𝜇1 − 𝜇𝜇2 < 0
Testes de hipóteses – Valor p

Outro critério tem sido frequentemente utilizado para decidir sobre 𝐻𝐻0 .
Essa decisão também pode ser baseada em um valor que expressa a
probabilidade de que seja obtido um valor t mais extremo que o valor
observado, dado que 𝐻𝐻0 é verdadeiro. Esta probabilidade é conhecida
como valor p.
Testes de hipóteses – Valor p

A decisão a respeito de 𝐻𝐻0 é tomada da seguinte forma:

Se o valor p for maior ou igual Se o valor p for menor que α,


a α, não rejeitamos a hipótese rejeitamos a hipótese nula, pois
nula, pois t é típico ou está em t é atípico ou está em uma
uma região de alta região de baixa probabilidade.
probabilidade.
Testes de hipóteses – Valor p

O Valor P para distribuição Z é calculado para testes bilaterais como:


𝑃𝑃 = 2 1 − Φ 𝑍𝑍0
No caso dos testes unilaterais, o valor P é calculado pela equação:
𝑃𝑃 = 1 − Φ 𝑍𝑍0 para o teste unilateral superior;
𝑃𝑃 = Φ 𝑍𝑍0 para o teste unilateral inferior.
Testes de hipóteses – Valor p

Para simplificar o cálculo do P Valor para uma hipótese bicaudal,


utilizando a distribuição t, podemos utilizar a função do Excel
DIST.T.BC(𝑡𝑡0 ; graus de liberdade). A função retorna diretamente o P
valor.
Da mesma forma a função DIST.T.CD (𝑡𝑡0 ; graus de liberdade), retorna o
valor percentual da cauda direita e pode ser usada para cálculo do P
Valor para hipóteses unilaterais.
Testes de hipóteses médias –
variância conhecida
Testes de hipóteses médias – variância
conhecida – Intervalos de confiança

𝑦𝑦� − 𝑍𝑍∝⁄2 𝜎𝜎⁄ 𝑛𝑛 ≤ 𝜇𝜇 ≤ 𝑦𝑦� + 𝑍𝑍∝⁄2 𝜎𝜎⁄ 𝑛𝑛

𝑦𝑦� − 𝑍𝑍∝ 𝜎𝜎⁄ 𝑛𝑛 ≤ 𝜇𝜇 ≤ 𝑦𝑦� + 𝑍𝑍∝ 𝜎𝜎⁄ 𝑛𝑛

𝜎𝜎1 2 𝜎𝜎2 2 𝜎𝜎1 2 𝜎𝜎2 2


𝑦𝑦�1 − 𝑦𝑦�2 − 𝑍𝑍∝⁄2 + ≤ 𝜇𝜇1 − 𝜇𝜇2 ≤ 𝑦𝑦�1 − 𝑦𝑦�2 + 𝑍𝑍∝⁄2 +
𝑛𝑛1 𝑛𝑛2 𝑛𝑛1 𝑛𝑛2
Testes de
hipóteses
médias –
variância
desconhecida
Testes de hipóteses médias – variância
desconhecida – Intervalos de Confiança
Intervalos de Confiança Bilaterais

𝑆𝑆 𝑆𝑆
𝑋𝑋� − 𝑡𝑡∝⁄2 < 𝜇𝜇 < 𝑋𝑋� + 𝑡𝑡∝⁄2
𝑛𝑛 𝑛𝑛

𝑛𝑛1 − 1 𝑆𝑆1 2 + 𝑛𝑛2 − 1 𝑆𝑆2 2


𝑆𝑆𝑝𝑝 =
𝑛𝑛1 + 𝑛𝑛2 − 2
1 1 1 1
𝑦𝑦�1 − 𝑦𝑦�2 − 𝑡𝑡∝⁄2;𝑛𝑛1+𝑛𝑛2−2 𝑆𝑆𝑝𝑝 + ≤ 𝜇𝜇1 − 𝜇𝜇2 ≤ 𝑦𝑦�1 − 𝑦𝑦�2 + 𝑡𝑡∝⁄2;𝑛𝑛1+𝑛𝑛2−2 𝑆𝑆𝑝𝑝 +
𝑛𝑛1 𝑛𝑛2 𝑛𝑛1 𝑛𝑛2

𝑆𝑆1 2 𝑆𝑆2 2 𝑆𝑆1 2 𝑆𝑆2 2


𝑦𝑦�1 − 𝑦𝑦�2 − 𝑡𝑡𝛼𝛼⁄2;𝜈𝜈 + ≤ 𝜇𝜇1 − 𝜇𝜇2 ≤ 𝑦𝑦�1 − 𝑦𝑦�2 + 𝑡𝑡∝⁄2;𝜈𝜈 +
𝑛𝑛1 𝑛𝑛2 𝑛𝑛1 𝑛𝑛2
Testes de hipóteses variâncias
Testes de hipóteses variâncias
Intervalos de confiança bilaterais

𝑛𝑛 − 1 𝑆𝑆 2 2
𝑛𝑛 − 1 𝑆𝑆 2
≤ 𝜎𝜎 ≤ 2
𝜒𝜒 2 𝛼𝛼⁄2;𝑛𝑛−1 𝜒𝜒 1−(𝛼𝛼⁄2);𝑛𝑛−1

𝑆𝑆1 2 𝜎𝜎1 2 𝑆𝑆1 2


𝐹𝐹1−∝⁄2,𝑛𝑛2−1,𝑛𝑛1−1 ≤ 2 ≤ 2 𝐹𝐹∝⁄2,𝑛𝑛2−1,𝑛𝑛1−1
𝑆𝑆2 2 𝜎𝜎2 𝑆𝑆2

1
𝐹𝐹1−∝,𝜈𝜈2,𝜈𝜈1 =
𝐹𝐹𝛼𝛼,𝜈𝜈2,𝜈𝜈1
Tamanho da Amostra e erros
Embora os dois tipos de erros sejam indesejáveis, o erro tipo I é
tipicamente mais importante, sendo α chamado nível de significância ou
tamanho do teste. A hipótese 𝐻𝐻0 é geralmente elaborada de tal forma
que o erro tipo I seja o mais importante a ser evitado.

Para explicar o
assunto da relação
entre erros e
tamanho da
amostra, tomemos
o exemplo de uma
distribuição normal
com média 2500 e
limites inferior =
2450 e superior =
2550.
Tamanho da Amostra e erros
Pela figura percebe-se que a probabilidade α é a soma das duas áreas
extremas. Dessa forma, tem-se:
∝= 𝑃𝑃 𝑋𝑋� < 2450 ⋮ 𝜇𝜇 = 2500 + 𝑃𝑃(𝑋𝑋� > 2550 ⋮ 𝜇𝜇 = 2500)
Considerando que as amostras selecionadas tenham vindo de uma
população normal, com σ=100psi, a probabilidade α (normalizando-se a
2450−2500
distribuição) pode ser calculada da seguinte forma: 𝑍𝑍1 = ⁄
=
100 10
2550−2500
− 1,58 ⋯ 𝑍𝑍2 = = 1,58
100⁄ 10
∝= 𝑃𝑃 𝑍𝑍 < −1,58 + 𝑃𝑃 𝑍𝑍 > 1,58 = 0,0571 + 0,0571 = 0,1142
Este resultado quer dizer que 11,42% de todas as amostras aleatórias
conduziram à rejeição da hipótese nula, quando a média populacional
verdadeira fosse realmente 2.500 psi. Existem duas maneiras de
diminuir esse valor do erro:
Tamanho da Amostra e erros
a) Aumentando a região de aceitação, através da mudança dos valores
críticos, o que implica em alterar o intervalo de confiança:
2400 − 2500 2600 − 2500
∝= 𝑃𝑃 𝑍𝑍 < + 𝑃𝑃 𝑍𝑍 >
100⁄ 10 100⁄ 10
= 0,000789 + 0,000789 = 0,001578
b) Aumentar o tamanho da amostra, aumentando assim os valores de z
(variável normal padrão), com a consequente diminuição de α.
2450 − 2500 2550 − 2500
∝= 𝑃𝑃 𝑍𝑍 < + 𝑃𝑃 𝑍𝑍 >
100⁄ 20 100⁄ 20
= 0,012674 + 0,012674 = 0,025348
Referência:
∝= 𝑃𝑃 𝑍𝑍 < −1,58 + 𝑃𝑃 𝑍𝑍 > 1,58 = 0,0571 + 0,0571 = 0,1142
Tamanho da Amostra e erros
Com relação ao cálculo da probabilidade β, referente ao erro tipo II,
imagine que o valor verdadeiro da média populacional seja µ = 2600 psi
e que a média da amostra, 𝑋𝑋� = 2.500, estivesse entre os valores 2.450
psi e 2.550 psi.
O erro tipo II pode ser calculado
pelas equações a seguir:
𝛽𝛽 = 𝑃𝑃(2450 ≤ 𝑋𝑋� ≤ 2550 ⋮ 𝜇𝜇
= 2600)
2450 − 2600
𝑍𝑍1 = = −4,74 ⋯ 𝑍𝑍2
100⁄ 10
2550 − 2600
= = −1,897
100⁄ 10
𝛽𝛽 = 𝑃𝑃 −4,74 ≤ 𝑍𝑍 ≤ −1,897
= 0,02891 − 0,00
= 0,02891
Tamanho da Amostra e erros
Este resultado quer
dizer que existem
2,89% de chance de se
aceitar a hipótese nula,
quando na realidade ele
é falsa. Esse erro pode
ser aumentado
rapidamente para o
caso do valor
verdadeiro da média
populacional se
aproximar muito do
valor de 𝐻𝐻0 : 𝜇𝜇 = 2.500
contra 𝐻𝐻1 :µ=2.525 psi),
conforme se pode
observar na figura.
Tamanho da Amostra e erros
Usando o mesmo raciocínio do cálculo anterior, trocando µ=2600 por
µ=2525, obtém-se β=0,8817. Como antes, esse erro pode ser
diminuído, caso se trabalhe com uma amostra maior.
Duas conclusões importantes podem ser tiradas do exposto acima:
a) À medida que o erro tipo I diminui, o erro tipo II aumenta, para o
mesmo tamanho de amostra;
b) Um aumento no tamanho da amostra reduz os dois tipos de erro,
desde que os valores críticos permaneçam constantes.
Tamanho da Amostra e erros
No caso de um teste de hipóteses onde temos as hipóteses:
𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 𝑒𝑒 𝐻𝐻1 : 𝜇𝜇1 ≠ 𝜇𝜇2 , não sendo as médias iguais temos que
𝛿𝛿 = 𝜇𝜇1 − 𝜇𝜇2 , como 𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 não é verdade, estamos preocupados
com falharmos em rejeitar 𝐻𝐻0 , ou seja com o erro tipo II, que depende
da diferença das médias δ.
Curvas de β versus δ para um particular tamanho de amostra são
chamadas de Curvas Características Operacionais ou curva O.C.
O erro β é também função do tamanho da amostra. Geralmente, para
um dado valor de δ, o erro β decresce quando o tamanho da amostra
cresce. Ou seja uma diferença específica entre médias é mais
facilmente detectada para amostras maiores.
Tamanho da Amostra e erros
Curvas Operacionais são úteis para selecionar o tamanho da amostra
em um experimento. Por exemplo, suponha que duas formulações de
cimento diferem entre si por 0,5 kgf/cm2, desejamos detectar esta
diferença com alta probabilidade. Isto porque 𝜇𝜇1 − 𝜇𝜇2 = 0,5𝑘𝑘𝑘𝑘𝑘𝑘/𝑐𝑐𝑐𝑐2 é
a diferença crítica das médias que desejamos detectar, assim um
𝜇𝜇1 −𝜇𝜇2 0,5 0,25
parâmetro d é calculado da seguinte forma: 𝑑𝑑 = = =
2𝜎𝜎 2𝜎𝜎 𝜎𝜎

Infelizmente, d envolve um parâmetro desconhecido σ. Experiências


anteriores indicam σ = 0,25 kgf/cm2, assim d=1. Se desejamos rejeitar
a hipótese nula em 95% do tempo, quando 𝜇𝜇1 − 𝜇𝜇2 = 0,5, então β =
0,05. Para β = 0,05 e d=1 as curvas nos mostram 𝑛𝑛∗ =16,
∗ 𝑛𝑛∗ +1 16+1
aproximadamente. Como 𝑛𝑛 = 2𝑛𝑛 − 1 e 𝑛𝑛 = = = 8,5 ≅ 9
2 2

Assim devemos usar 𝑛𝑛1 = 𝑛𝑛2 = 𝑛𝑛 = 9, para β = 0,05 .


Tamanho da Amostra e erros

Estima-se um n* =16
Experimentos de um único fator –
Análise de Variância
Suponhamos que desejamos determinar a resistência à tração de
cinco diferentes formulações de tecidos, nas quais se variou o
percentual de algodão. Estamos interessados em testar se as cinco
formulações apresentam diferenças de resistência. Este problema
poderia ser resolvido fazendo-se 10 testes t aos pares, para as
diferentes combinações possíveis das cinco formulações.
Como existem 10 possíveis pares de combinações, sendo a
probabilidade de aceitar corretamente a hipótese nula 1-α = 0,95 para
cada teste individual, a probabilidade de aceitar corretamente a
hipótese nula para todos os 10 testes será de apenas 0,95 10 = 0,60,
aumentando grandemente a ocorrência do erro tipo I.
O procedimento apropriado para testar a igualdade de várias médias é
a análise de variância. Provavelmente, a técnica mais utilizada em
inferência estatística.
Experimentos de um único fator –
Análise de Variância

Uma boa ideia é examinar os dados graficamente, através de gráficos


box plots ou gráfico de pontos.
Experimentos de um único fator –
Análise de Variância
Uma boa ideia é examinar os dados graficamente, através de gráficos
box plots.
Análise de Variância - Parâmetros
Descrevendo as observações de um experimento por um modelo
𝑖𝑖 = 1,2, … , 𝑎𝑎
temos: 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖
𝑗𝑗 = 1,2, … , 𝑛𝑛

Onde 𝑦𝑦𝑖𝑖𝑖𝑖 é a ij ésima observação, 𝜇𝜇𝑖𝑖 é a média do i ésimo nível do


fator ou tratamento e 𝜖𝜖𝑖𝑖𝑖𝑖 é a componente de erro aleatório, que
incorpora todas as fontes de variabilidade do experimento incluindo
medições, fatores incontrolados, diferenças entre unidades
experimentais, ruídos do processo (variação ao longo do tempo,
efeitos ambientais e outros). É conveniente pensar nos erros como
tendo média zero, de forma que 𝐸𝐸 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇𝑖𝑖 .
Análise de Variância - Parâmetros
Uma outra forma de descrever o modelo dos dados é:
𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 𝑖𝑖 = 1,2, … , 𝑎𝑎 assim a equação transforma-se em:
𝑖𝑖 = 1,2, … , 𝑎𝑎
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖
𝑗𝑗 = 1,2, … , 𝑛𝑛

Neste modelo, 𝜇𝜇 é um parâmetro comum a todos os tratamentos


chamado de média geral, e 𝜏𝜏𝑖𝑖 é um parâmetro único do i ésimo
tratamento chamado i ésimo tratamento efeito. Este modelo é
chamado modelo de efeitos. O modelo é um modelo estatístico linear,
isto é a variável de resposta 𝑦𝑦𝑖𝑖𝑖𝑖 é uma função linear dos parâmetros
do modelo.
A equação acima é chamada de análise de variância de um único
fator.
Análise de Variância - Parâmetros
Uma outra forma de descrever o modelo dos dados é:
𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 𝑖𝑖 = 1,2, … , 𝑎𝑎 assim a equação transforma-se em:
𝑖𝑖 = 1,2, … , 𝑎𝑎
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖
𝑗𝑗 = 1,2, … , 𝑛𝑛

Nossos objetivos serão testar as hipóteses apropriadas a respeito das


médias dos tratamentos e estima-las.
No teste de hipóteses, o modelo dos erros é assumido como sendo
normal com variáveis aleatórias e independentemente distribuídas
com média zero e variância 𝜎𝜎 2 . A variância 𝜎𝜎 2 é assumida como
constante para todos os níveis. Isto implica que as observações
sejam:
𝑦𝑦𝑖𝑖𝑖𝑖 ~𝑁𝑁 𝜇𝜇 + 𝜏𝜏𝑖𝑖 , 𝜎𝜎 2

E as observações são mutuamente independentes.


Análise de Variância - Parâmetros
No teste de hipóteses onde a hipótese de igualdade das médias dos
tratamentos (𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 = ⋯ = 𝜇𝜇𝑎𝑎 𝑜𝑜𝑜𝑜 𝐻𝐻0 : 𝜏𝜏1 = 𝜏𝜏2 = ⋯ = 𝜏𝜏𝑎𝑎 = 0) é
assumida, pressupomos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 são normalmente e
independentemente distribuídos com média 𝜇𝜇 + 𝜏𝜏𝑖𝑖 e variância 𝜎𝜎 2 .

Então 𝑆𝑆𝑆𝑆𝑇𝑇 é uma somatória quadrática de variáveis aleatórias


normalmente distribuídas, desta forma 𝑆𝑆𝑆𝑆𝑇𝑇 ⁄𝜎𝜎 2 é distribuída
quiquadraticamente com 𝑁𝑁 − 1 (𝑁𝑁 = 𝑎𝑎. 𝑛𝑛) graus de liberdade.
Igualmente 𝑆𝑆𝑆𝑆𝐸𝐸 ⁄𝜎𝜎 2 é distribuída quiquadraticamente com 𝑁𝑁 − 𝑎𝑎 graus
de liberdade e 𝑆𝑆𝑆𝑆𝑇𝑇𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 ⁄𝜎𝜎 2 é distribuída quiquadraticamente com
𝑎𝑎 − 1 graus de liberdade.
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância
Modelo de Efeitos Fixos

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

a=número de tratamentos
n=número de replicações
Soma
quadrática
da diferença
entre as
observações
Variabilidade total em um
dos dados em tratamento e
relação à grande a média do
média tratamento

Soma quadrática
da diferença entre
as médias dos
tratamentos e a SS nos
grande média SS devido ao erro tratamentos
Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG
Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Variância total

Variância
comum dentro
de cada
tratamento

Variância entre
os tratamentos

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

a=número de tratamentos; g.l.=a-1


n=número de replicações;
Graus de liberdade do erro = na-a Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG
Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância

a=número de tratamentos;
n=número de replicações;
N=número total de experimentos, a.n=N

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância - Exercício
Para ilustrar a análise de variância, voltamos ao exemplo de
testarmos se a percentagem de algodão afeta a resistência da fibra.
Usamos a análise de
variância para testar
𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 = 𝜇𝜇3 =
𝜇𝜇4 = 𝜇𝜇5 contra a
alternativa 𝐻𝐻1 :
algumas médias são
diferentes.
Análise de Variância - Exercício
A análise de variância pode ser sumarizada pela tabela abaixo.

Notamos que a média quadrática entre tratamentos (118,94) é


muitas vezes maior do que a variância dentro dos tratamentos ou
média quadrática do erro (8,06). Isto indica que é improvável que
as médias dos tratamentos sejam iguais. Analisando formalmente
computando a razão F, 𝐹𝐹0 = 118,94⁄8,06 = 14,76 . Comparando
𝐹𝐹0,05;4;20 = 2,87 . Como 𝐹𝐹0 = 14,76 > 2,87 , rejeitamos 𝐻𝐻0 e
concluímos que as médias dos tratamentos diferem, ou seja que a
percentagem de algodão afeta a resistência.
Pelo Excel podemos obter F crítico com a função
=INV.F.CD(0,05;4;20) que retorna o valor 2,866081. As letras CD
indicam cauda direita da distribuição.
Análise de Variância - Exercício
Podemos achar o P valor
para este teste estatístico.
A figura abaixo mostra a
distribuição 𝐹𝐹4;20 do
teste estatístico 𝐹𝐹0 ,
observa-se que o P valor
é muito pequeno. Isto
também podemos
observar pela tabela de F
onde 𝐹𝐹0,01;4;20 = 4,43
ainda bem menor que
𝐹𝐹0 = 14,76 , concluindo
que a probabilidade da
cauda superior para
𝐹𝐹0 = 14,76 é menor do
que 0,01, 𝑃𝑃 < 0,01
exatamente 𝑃𝑃 =
9,11𝑥𝑥10−6 .
Análise de Variância - Exercício
Pelo Excel podemos obter o 𝐹𝐹0,01;4;20 usamos a função
=INV.F.CD(0,01;4;20) que retorna o valor 4,43069.

Podemos achar o P valor para este teste estatístico, usando a função


=DIST.F(14,76;4;20;VERDADEIRO) que retorna o valor 0,999990886
que deve ser subtraído de 1 para então acharmos o P Valor de
9,11371E-06.
𝑥𝑥
Análise de Variância

Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG


Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância – Dados
desbalanceados
Em alguns experimentos o número de observações feito em cada
tratamento pode diferir um do outro. Dizemos que o experimento é
desbalanceado. Neste caso a análise de variância pode ser feita com
pequenas modificações nas fórmulas. Tendo 𝑛𝑛𝑖𝑖 observações em um
tratamento 𝑖𝑖 𝑖𝑖 = 1,2, … , 𝑎𝑎 e 𝑁𝑁 = ∑𝑎𝑎𝑖𝑖=1 𝑛𝑛𝑖𝑖 . As formulas para
𝑆𝑆𝑆𝑆𝑇𝑇 𝑒𝑒 𝑆𝑆𝑆𝑆𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 tornam-se:
𝑎𝑎 𝑛𝑛𝑖𝑖 2
𝑦𝑦
𝑆𝑆𝑆𝑆𝑇𝑇 = � � 𝑦𝑦 2 𝑖𝑖𝑖𝑖 − ..
𝑁𝑁
𝑖𝑖=1 𝑗𝑗=1
𝑎𝑎
𝑦𝑦 2 𝑖𝑖. 𝑦𝑦 2 ..
𝑆𝑆𝑆𝑆𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 =� −
𝑛𝑛𝑖𝑖 𝑁𝑁
𝑖𝑖=1

No entanto sempre que possível o experimento balanceado é


preferível ao desbalanceado.
Análise de Variância – Estimativa de
parâmetros
Estimativas dos parâmetros no modelo de efeitos fixos:
𝑖𝑖 = 1,2, … , 𝑎𝑎
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖
𝑗𝑗 = 1,2, … , 𝑛𝑛

Estimadores aceitos para a média geral e efeito dos tratamentos são


dados por:
𝜇𝜇� = 𝑦𝑦�..
𝜏𝜏̂ 𝑖𝑖 = 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. , 𝑖𝑖 = 1,2, … , 𝑎𝑎

Estes estimadores tem um apelo intuitivo, note que a média geral é


estimada pela grande média das observações e que os efeitos dos
tratamentos são a diferença das médias dos tratamentos e a grande
média.
Análise de Variância – Estimativa de
parâmetros
O intervalo de confiança da média do i ésimo tratamento pode ser
determinado, sendo 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝜏𝜏𝑖𝑖 , uma estimativa da média 𝜇𝜇�𝑖𝑖 = 𝜇𝜇� +
𝜏𝜏̂ 𝑖𝑖 = 𝑦𝑦�𝑖𝑖. . Se 𝜎𝜎 2 é conhecido, podemos utilizar a distribuição normal (t
student) para definir o intervalo de confiança. Usando 𝑀𝑀𝑀𝑀𝐸𝐸 como uma
estimativa de 𝜎𝜎 2 e a distribuição t, para um intervalo de confiança de
100 1 −∝ para a média 𝜇𝜇𝑖𝑖 do i ésimo tratamento teremos:

𝑀𝑀𝑀𝑀𝐸𝐸 𝑀𝑀𝑀𝑀𝐸𝐸
𝑦𝑦�𝑖𝑖. − 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎 ≤ 𝜇𝜇𝑖𝑖 ≤ 𝑦𝑦�𝑖𝑖. + 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎
𝑛𝑛 𝑛𝑛

O intervalo de confiança 100 1 −∝ entre as médias de dois


tratamentos 𝜇𝜇𝑖𝑖 − 𝜇𝜇𝑗𝑗 pode ser determinado por :

2𝑀𝑀𝑀𝑀𝐸𝐸 𝑀𝑀𝑀𝑀𝐸𝐸
𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. − 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎 ≤ 𝜇𝜇𝑖𝑖 − 𝜇𝜇𝑗𝑗 ≤ 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. + 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎
𝑛𝑛 𝑛𝑛
Análise de Variância – Exemplo
Usando os dados do exemplo das percentagens de algodão
podemos estimar a média geral e a média dos efeitos dos
tratamentos, como 𝜇𝜇� = 376⁄25 = 15,04 é:

O intervalo de confiança da média do 4º tratamento (30% de algodão)


é o seguinte:

Assim o intervalo de confiança de 95% é 18,95 ≤ 𝜇𝜇4 ≤ 24,25.


Análise de Variância – Análise dos
resíduos
Para testarmos se os resíduos obedecem à uma distribuição normal,
condição necessária para a análise de variância, temos que
primeiramente ranquear os resíduos do menor para o maior. As
observações ordenadas são então plotadas contra as suas
𝑗𝑗−0,5
frequências acumuladas onde j representa a posição de ordinal
𝑛𝑛
do número j=1 para o primeiro número e j=2 para o segundo e assim
sucessivamente. Caso os dados se distribuam normalmente os
pontos plotados graficamente irão descrever uma linha reta.
Análise de Variância – Análise dos
resíduos
Voltando para o exemplo do ensaio de resistência dos tecidos, de
acordo com o percentual de algodão, teremos conforme tabela
abaixo os resíduos nas caixas e entre parênteses a ordem em que os
dados foram coletados.
Análise
de
Variância
– Análise
dos
resíduos Na figura observa-se que os
dados se distribuem
aproximadamente como uma
distribuição normal, já que
caem próximos da reta
ajustada.
Análise de Variância – Análise dos
resíduos
Uma análise que pode ser
feita é também plotar os
resíduos na ordem em que
os mesmos foram obtidos.
Isto pode ser útil para
detectar correlação entre os
resíduos. Na figura ao lado
não há nenhuma suspeita de
correlação. Uma variância
dos dados que não seja
constante é um problema
que pode ser sério e deve
ser melhor analisado.
Análise de Variância – Análise dos
resíduos
Embora a plotagem dos resíduos seja frequentemente usada para
diagnosticar diferenças entre variâncias, muitos testes estatísticos
podem ser utilizados para este fim.
Ensaios desbalanceados (com diferenças de amostras) ou em
casos onde uma variância e muito maior que as outras, indicam um
problema que pode ser sério e análises mais aprofundadas devem
ser feitas. Em casos de variâncias diferentes devemos transformar
os dados antes da análise de variância.
Análise de Variância – Comparação
entre tratamentos
Supondo que pela análise de variância detectamos que a hipótese
nula de igualdade entre tratamentos foi rejeitada. Então existe
diferença entre os tratamentos, mas quais médias diferem não é
especificado pela análise de variância. Desta forma outras
comparações e análises devem ser feitas para detectar os detalhes
das diferenças das médias.

Comparação Gráfica das Médias


Podemos verificar se todas as médias dos tratamentos encontram-se
distribuídas de forma que a variância consiga incluir todas as médias,
oque indicaria que os tratamentos são iguais. Assim pegando-se a
𝑀𝑀𝑀𝑀𝐸𝐸
média geral 𝑦𝑦�.. e o desvio padrão podemos verificar graficamente
𝑛𝑛
se os tratamentos são iguais.
Análise de Variância – Comparação
entre tratamentos
Comparação Gráfica das Médias
Pegando-se a média geral dos tratamentos 𝑦𝑦�.. e o desvio padrão dos
erros 𝑀𝑀𝑀𝑀𝑀𝑀 ⁄𝑛𝑛 podemos montar o gráfico abaixo.
Para o nosso exemplo da resistência dos tecidos, teremos uma média
geral 𝑦𝑦�.. = 15,04 e 8,05⁄5 = 1,27
Análise de Variância – Comparação
entre tratamentos
Comparação Gráfica das Médias
Olhando para a figura abaixo vemos que as 5 médias não podem ser
englobadas pela mesma distribuição. Isto implica que as médias não
são iguais já as diferenças entre elas não podem ser atribuídas a
erros de amostragem, portanto os tratamentos não são iguais.
Análise de Variância – Contrastes
Contrastes podem ser montados a partir de hipóteses de diferenças
de médias que queremos testar.
Em geral um contraste é uma combinação linear de parâmetros da
seguinte forma: Γ = ∑𝑎𝑎𝑖𝑖=1 𝑐𝑐𝑖𝑖 𝜇𝜇𝑖𝑖 onde as constantes do contraste
𝑐𝑐1 , 𝑐𝑐2 , … , 𝑐𝑐𝑎𝑎 somadas são iguais a zero, ∑𝑎𝑎𝑖𝑖=1 𝑐𝑐𝑖𝑖 = 0.

Para testarmos os níveis 4 e 5 do nosso exemplo da resistência dos


tecidos, poderíamos estabelecer as seguintes hipóteses e contrastes:
𝐻𝐻0 : 𝜇𝜇4 = 𝜇𝜇5 𝐻𝐻 : 𝑐𝑐 𝜇𝜇 − 𝑐𝑐5 𝜇𝜇5 = 0
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 0 4 4
𝐻𝐻1 : 𝜇𝜇4 ≠ 𝜇𝜇5 𝐻𝐻1 : 𝑐𝑐4 𝜇𝜇4 − 𝑐𝑐5 𝜇𝜇5 ≠ 0

Usando um teste F para testar o contraste , iremos rejeitar a hipótese


𝑀𝑀𝑀𝑀𝐶𝐶 𝑆𝑆𝑆𝑆𝐶𝐶 ⁄1
nula se: 𝐹𝐹0 > 𝐹𝐹∝;1;𝑁𝑁−𝑎𝑎 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝐹𝐹0 = =
𝑀𝑀𝑀𝑀𝐸𝐸 𝑀𝑀𝑀𝑀𝐸𝐸
2
∑𝑎𝑎
𝑖𝑖=1 𝑐𝑐𝑖𝑖 𝑦𝑦𝑖𝑖.
Onde 𝑆𝑆𝑆𝑆𝐶𝐶 =
𝑛𝑛 ∑𝑎𝑎 2
𝑖𝑖=1 𝑐𝑐 𝑖𝑖
Análise de Variância – Contrastes
Para ensaios onde há diferenças nos tamanhos das amostras dos
tratamentos temos que utilizar as seguintes fórmulas:
2
∑𝑎𝑎
𝑖𝑖=1 𝑐𝑐𝑖𝑖 𝑦𝑦𝑖𝑖.
∑𝑎𝑎𝑖𝑖=1 𝑛𝑛𝑖𝑖 𝑐𝑐𝑖𝑖 = 0 e 𝑆𝑆𝑆𝑆𝐶𝐶 =
∑𝑎𝑎 2
𝑖𝑖=1 𝑛𝑛𝑖𝑖 𝑐𝑐 𝑖𝑖

Um caso especial são os contrastes ortogonais, dois contrastes com


coeficientes 𝑐𝑐𝑖𝑖 𝑒𝑒 𝑑𝑑𝑖𝑖 são ortogonais se:

∑𝑎𝑎𝑖𝑖=1 𝑐𝑐𝑖𝑖 𝑑𝑑𝑖𝑖 = 0 ou para o ensaio desbalanceado ∑𝑎𝑎𝑖𝑖=1 𝑛𝑛𝑖𝑖 𝑐𝑐𝑖𝑖 𝑑𝑑𝑖𝑖 = 0
Análise de Variância – Contrastes
Suponhamos que desejamos testar, no nosso exemplo de resistência
de tecidos em função do percentual de algodão, as seguintes
hipóteses comparando médias de diversos tratamentos.
Análise de Variância – Contrastes
Encontramos então os valores numéricos dos contrastes e a soma
quadrática como segue:
Análise de Variância – Contrastes

Os contrastes particionam a soma quadrática. Estes testes são


usualmente incorporados na análise de variância.
Concluímos a partir dos valores de P e do F crítico = 𝐹𝐹0,05;1;20 = 4,35
que há diferenças significativas entre os níveis (4 e 5) e (1 e 3), mas as
médias do níveis 1 e 3 não diferem das médias dos níveis 4 e 5 para
α=0,05, e também que o nível 2 não difere das médias dos outros 4
níveis.
Análise de Variância – Teste LSD
O teste de Fisher para comparação entre duas médias, também
chamado de LSD (least significant difference). Este procedimento usa a
estatística F para testar 𝐻𝐻0 : 𝜇𝜇𝑖𝑖 = 𝜇𝜇𝑗𝑗 .
Assumindo uma alternativa bilateral, o par de médias 𝜇𝜇𝑖𝑖 e 𝜇𝜇𝑗𝑗 podem ser
declarados significativamente diferentes se:
1 1
𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. > 𝑡𝑡∝⁄2,𝑁𝑁−𝑎𝑎 𝑀𝑀𝑀𝑀𝐸𝐸 +
𝑛𝑛𝑖𝑖 𝑛𝑛𝑗𝑗
1 1
Sendo 𝐿𝐿𝐿𝐿𝐿𝐿 = 𝑡𝑡∝⁄2,𝑁𝑁−𝑎𝑎 𝑀𝑀𝑀𝑀𝐸𝐸 +
𝑛𝑛𝑖𝑖 𝑛𝑛𝑗𝑗
Caso o projeto seja balanceado, 𝑛𝑛1 = 𝑛𝑛1 = ⋯ = 𝑛𝑛𝑎𝑎 = 𝑛𝑛
2𝑀𝑀𝑀𝑀𝐸𝐸
𝐿𝐿𝐿𝐿𝐿𝐿 = 𝑡𝑡∝⁄2,𝑁𝑁−𝑎𝑎
𝑛𝑛
No procedimento de Fisher, simplesmente, comparamos as diferenças
entre os pares de médias com o correspondente LSD. Caso 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. >
𝐿𝐿𝐿𝐿𝐿𝐿, concluímos que as médias 𝜇𝜇𝑖𝑖 e 𝜇𝜇𝑗𝑗 diferem.
Análise de Variância – Teste LSD
Para ilustrar o teste LSD para o exemplo da resistência dos tecidos
para α=0,05 temos que:
2𝑀𝑀𝑀𝑀𝐸𝐸 2(8,06)
𝐿𝐿𝐿𝐿𝐿𝐿 = 𝑡𝑡0,025,20 = 2,086 = 3,75
𝑛𝑛 5
Assim qualquer par de médias de tratamentos que difiram em valor
absoluto, por mais do que 3,75 são considerados significativamente
diferentes.
Os pares de médias que são
significativamente diferentes estão
indicados com *. Os únicos pares que
não diferem significativamente são 1-
5 e 2-3 e o tratamento 4 tem
resistência a tração significativamente
maior do que os outros.
Análise de Variância – Teste Dunnett`s
Em muitos experimentos, um tratamento é o controle, e a análise está
interessada em comparar os outros a-1 tratamentos com o controle.
Supondo que o tratamento a é o controle e desejamos testar as
hipóteses: 𝐻𝐻0 : 𝜇𝜇𝑖𝑖 = 𝜇𝜇𝑎𝑎 𝐻𝐻1 : 𝜇𝜇𝑖𝑖 ≠ 𝜇𝜇𝑎𝑎 .
O procedimento de Dunnett`s é uma modificação do teste t.
A hipótese nula é rejeitada usando-se o erro tipo I α se:
1 1
𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. > 𝑑𝑑∝ (𝑎𝑎 − 1, 𝑓𝑓) 𝑀𝑀𝑀𝑀𝐸𝐸 +
𝑛𝑛𝑖𝑖 𝑛𝑛𝑎𝑎
A constante 𝑑𝑑∝ 𝑎𝑎 − 1, 𝑓𝑓 é tabelado Apêndice IX (livro Montgomery).
Teste uni e bilaterais são possíveis. Sendo α o nível de significância
dos a-1 testes. Sendo 𝑓𝑓 o número de graus de liberdade associado
com 𝑀𝑀𝑀𝑀𝐸𝐸 .
Análise de Variância – Teste Dunnett`s
Ilustrando o teste Dunnett`s para o exemplo da resistência do tecido
onde consideramos o tratamento 5 como controle. Neste exemplo,
𝑎𝑎 = 5; 𝑎𝑎 − 1 = 4; 𝑓𝑓 = 20, 𝑛𝑛𝑖𝑖 = 𝑛𝑛 = 5 . Para o nível de 5%, Tabela IX
temos que 𝑑𝑑0,05 4; 20 = 2,65. Assim a diferença crítica torna-se:
2𝑀𝑀𝑀𝑀𝐸𝐸 2(8,06)
𝑑𝑑0,05 4; 20 = 2,65 = 4,76
𝑛𝑛 5
Observe que foi utilizada uma simplificação da equação anterior para
projetos balanceados.
Análise de Variância – Teste Dunnett`s
As diferenças das médias (3-5) e (4-5) indicam diferenças significativas
, assim concluímos que 𝜇𝜇3 ≠ 𝜇𝜇5 𝑒𝑒 𝜇𝜇4 ≠ 𝜇𝜇5 .
Quando comparando tratamentos com um controle, é uma boa ideia
usar mais observações para o tratamento de controle. A razão 𝑛𝑛𝑎𝑎 ⁄𝑛𝑛
deve ser escolhida de forma que 𝑛𝑛𝑎𝑎 ⁄𝑛𝑛 = 𝑎𝑎 , sendo 𝑛𝑛𝑎𝑎 o número de
amostras do controle.

2𝑀𝑀𝑀𝑀𝐸𝐸 2(8,06)
𝑑𝑑0,05 4; 20 = 2,65 = 4,76
𝑛𝑛 5
Análise de Variância – Dispersão
Até então usamos a análise de variância e métodos para determinar
que níveis de fatores, resultam em diferentes médias entre os
tratamentos. Caso tenhamos variâncias diferentes para diferentes
tratamentos, usamos transformações para estabilizar a variância.
Em alguns problemas, no entanto, estamos interessados em saber se
os diferentes níveis dos fatores afetam a variabilidade, isto é estamos
interessados em pesquisar se diferentes níveis dos fatores afetam a
dispersão dos níveis. Isto ocorre quando o desvio padrão, variância e
outras medições de variabilidade são usadas como resposta de saída.
Análise de Variância – Dispersão
Para ilustrar esta ideia, consideremos os valores da tabela abaixo
resultante de um experimento em uma fundição de alumínio. O
alumínio é produzido pela combinação de alumina com outros
ingredientes em uma célula de reação, com a aplicação de calor
através de uma corrente elétrica que passa através da célula. Alumina
é adicionado continuamente à célula para manter a proporção em
relação aos outros ingredientes. Quatro algoritmos de controle da
mistura são investigados neste experimento.
A variável de resposta em estudo é relacionada a tensão elétrica da
célula. Especificamente, um sensor mede a tensão da célula várias
vezes a cada segundo, produzindo milhares de medições de tensão a
cada experimento. O engenheiro de processo decide usar a média da
tensão e o desvio padrão da tensão da célula (entre parênteses) como
variáveis de resposta. A tensão média é importante pois afeta a
temperatura da célula e o desvio padrão da tensão afeta a eficiência da
célula.
Análise de Variância – Dispersão
Uma análise de variância foi feita para determinar se os diferentes
algoritmos de controle afetam a tensão da célula. O experimento
revelou que os diferentes algoritmos de controle não alteram a tensão
média da célula.

Para investigar os efeitos da dispersão é melhor usar log 𝑠𝑠 𝑜𝑜𝑜𝑜 log 𝑠𝑠 2


como variável de resposta, uma vez que as transformações
logarítmicas são eficazes em estabilizar a variabilidade em
distribuições de amostras de desvio padrão. Como todas as amostras
de desvio padrão são menores do que a unidade, usaremos 𝑦𝑦 =
− ln 𝑠𝑠 como variável de resposta.
Análise de Variância – Dispersão
A análise da variância do Log Natural dos desvios padrões produz os
seguintes resultados:

Source DF SS MS F P
Factor 3 6,1661 2,0554 21,96 0,000
Error 20 1,8716 0,0936
Total 23 8,0377
S = 0,3059 R-Sq = 76,71% R-Sq(adj) = 73,22%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
Alg 1 6 3,0877 0,2422 (----*----)
Alg 2 6 3,5086 0,3667 (----*----)
Alg 3 6 2,1998 0,2337 (----*----)
Alg 4 6 3,3559 0,3558 (----*----)
-+---------+---------+---------+--------
2,00 2,50 3,00 3,50
Análise de Variância – Dispersão
Pela análise dos resultados verificamos que o algoritmo de controle
afeta a dispersão, hipótese 𝐻𝐻0 descartada. Testes padrões de
adequação do modelo, indicam que não há problemas com a validade
do experimento.
Residual Plots for Alg 1; Alg 2; Alg 3; Alg 4
Normal Probability Plot Versus Fits
99
0,50
90
0,25

Residual
Percent

50 0,00

-0,25
10
-0,50
1
-0,50 -0,25 0,00 0,25 0,50 2,5 3,0 3,5
Residual Fitted Value

Histogram
4,8

3,6
Frequency

2,4

1,2

0,0
-0,4 -0,2 0,0 0,2 0,4 0,6
Residual
Análise de Variância – Dispersão
Pela análise dos box plots e as médias dos valores, notamos que o
algoritmo 3 produz maior dispersão que os algoritmos 1, 4 e 2, que
entre si não apresentam diferenças significativas.

Boxplot of Alg 1; Alg 2; Alg 3; Alg 4


4,0

3,5

3,0
Data

2,5

2,0

Alg 1 Alg 2 Alg 3 Alg 4


Análise de Variância – Dispersão
Pela análise dos box plots e as médias dos valores, notamos que o
algoritmo 3 produz maior dispersão que os algoritmos 1, 4 e 2, que
entre si não apresentam diferenças significativas.
Regressão Linear
A regressão linear é usada para estabelecer ou confirmar a relação entre
duas variáveis.

Na química analítica normalmente é utilizada para expressar a relação


entre a resposta analítica e por exemplo a concentração de um analito.

A equação geral que descreve a curva ajustada pode ser escrita como:
𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏
Onde 𝑏𝑏 é a inclinação da reta e 𝑎𝑎 é onde a reta intercepta o eixo y.

O método dos mínimos quadrados para regressão linear é usado para


achar-se os valores de 𝑎𝑎 e 𝑏𝑏. O melhor ajuste é obtido pela reta que
minimiza a soma quadrática das diferenças entre os valores obtidos para
y e a reta ajustada, os chamados resíduos.
Regressão Linear
As diferenças observadas entre os valores de y e os valores da reta 𝑦𝑦� ,
são conhecidos como resíduos. A forma mais comum de regressão é de
y dado x, onde assume-se que os valores de x são conhecidos
exatamente e o único erro ocorre na medida de y.

Pressuposto da Regressão Linear:


- Os erros em x podem ser desconsiderados;
- Para o cálculo dos intervalos de confiança os erros associados com
os valores de y devem ser normalmente distribuídos. A média de 3 ou
mais valores já garante a normalidade;
- A variância dos erros de y devem ser constantes ao longo da faixa de
interesse;
- Os valores de x e y devem ser contínuos.

A inspeção visual dos dados e resíduos são os meios mais eficientes


para verificar as suposições acima.
Regressão Linear
Exame visual dos dados
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.

Altas médias
causadas por
uma desigual
distribuição
dos pontos.
Regressão Linear
Exame visual dos dados
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.

Outlier alterando a
inclinação da reta
ajustada.
Regressão Linear
Exame visual dos dados
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.

Outlier alterando a
intersecção do
eixo y pela reta
ajustada.
Regressão Linear
Cálculo da inclinação e intersecção
Para cálculo de 𝑏𝑏 e 𝑎𝑎 as seguintes equações são utilizadas:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
𝑏𝑏 =
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2
𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅
𝑥𝑥̅ 𝑒𝑒 𝑦𝑦� são as médias de x e y.
Uma vez que a e b tenham sidos calculados podemos calcular os
resíduos e o desvio padrão dos resíduos.
𝑦𝑦𝑖𝑖 = é um valor medido (proveniente dos meus dados);
𝑦𝑦�𝑖𝑖 = é um valor obtido pela reta ajustada;
𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 = é um resíduo;
𝑛𝑛 = número de pares medidos (dados).
∑𝑛𝑛𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 2
𝑠𝑠𝑦𝑦⁄𝑥𝑥 =
𝑛𝑛 − 2
𝑛𝑛 − 2 = é o número de graus de liberdade do desvio padrão dos
resíduos.
Regressão Linear
Cálculo da inclinação e intersecção

O desvio padrão da inclinação 𝑠𝑠𝑏𝑏 é calculado usando-se a equação:


𝑠𝑠𝑦𝑦⁄𝑥𝑥
𝑠𝑠𝑏𝑏 = 𝑛𝑛
∑𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2
O desvio padrão da intersecção estimada 𝑠𝑠𝑎𝑎 usando-se a equação:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖2
𝑠𝑠𝑎𝑎 = 𝑠𝑠𝑦𝑦⁄𝑥𝑥
𝑛𝑛 ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2

Os intervalos de confiança para as estimativas da inclinação e


intersecção da reta são:
𝑏𝑏 ± 𝑡𝑡. 𝑠𝑠𝑏𝑏
𝑎𝑎 ± 𝑡𝑡. 𝑠𝑠𝑎𝑎
𝑡𝑡 = 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑡𝑡 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 ∝= 0,05 𝑒𝑒 𝜈𝜈 = 𝑛𝑛 − 2.
Regressão Linear
Inspeção dos resíduos

A plotagem dos resíduos pode identificar problemas da curva ajustada


incorretamente ou sem qualidade. Caso haja um bom ajuste entre os
dados e a curva os resíduos devem ser distribuídos aleatoriamente em
relação ao zero.

Distribuição ideal dos


resíduos. Os resíduos estão
distribuídos aleatoriamente
em torno do zero e não há
uma tendência definida de
variação do desvio padrão
com a concentração.
Regressão Linear
Inspeção dos resíduos

Mostra uma tendência de


aumento do desvio padrão
de y com a concentração.

Mostra os resíduos do ajuste


quando os dados não seguem
uma reta, mas uma reta foi
ajustada. Provavelmente o
melhor modelo de ajuste não
seja linear.
Regressão Linear
Inspeção dos resíduos

Mostra um padrão de
resíduos quando a reta foi
incorretamente forçada a
passar por zero

Mostra evidências de uma


aproximação dos resíduos,
em relação ao zero, a cada
valor de x, isto pode indicar
uma correlação entre os
resíduos. Pode-se aplicar
ANOVA para verificar este
efeito.
Regressão Linear
Coeficiente de correlação r

O coeficiente de correlação é determinado pela equação:


∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
𝑟𝑟 =
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2 ∑𝑛𝑛𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦� 2

O coeficiente de correlação mede o grau de associação linear entre


as variáveis x e y. O valor de r está na faixa de ± 1.

O coeficiente de correlação não pode ser tomado como uma


medida de linearidade.

O coeficiente r só pode ser interpretado como um indicativo de boa


linearidade, quando os resíduos são distribuídos, razoavelmente,
em simetria ao longo do eixo x.
Regressão Linear
Coeficiente de correlação r

Para que predições feitas com uma curva de calibração, tenham


incertezas pequenas, r necessita ser bem próximo de 1.

Tendências não lineares são observadas mesmo para r≈0,999.


Baixos valores de r não necessariamente significam que não existe
relação.

Uma relação não linear não necessariamente conduz a um


coeficiente de correlação linear alto.
Regressão Linear
Incertezas na determinação dos valores de x

Uma vez que a regressão linear tenha sido detectada e a melhor


reta ajustada, a equação pode ser usada para determinar valores
de x, a partir de valores determinados experimentalmente para y.
𝑦𝑦� −𝑎𝑎
𝑥𝑥� = 0 onde 𝑦𝑦�0 é a média de N medições repetidas para 𝑦𝑦.
𝑏𝑏

Há uma incerteza associada com 𝑥𝑥� que pode ser calculada pela
𝑠𝑠𝑦𝑦⁄𝑥𝑥 1 1 𝑦𝑦�0 −𝑦𝑦� 2
equação: 𝑠𝑠𝑥𝑥� = + +
𝑏𝑏 𝑁𝑁 𝑛𝑛 𝑏𝑏2 ∑𝑛𝑛
𝑖𝑖=1 𝑥𝑥𝑖𝑖 −𝑥𝑥̅
2

Onde 𝑠𝑠𝑥𝑥� é chamado de erro padrão na determinação de 𝑥𝑥�.

A incerteza na determinação de 𝑥𝑥� tem um mínimo na ponto central


da reta 𝑥𝑥̅ , 𝑦𝑦� , aumentando para os pontos extremos.
O intervalo de confiança para 𝑥𝑥� é dado por: 𝑥𝑥� ± 𝑡𝑡 . 𝑠𝑠𝑥𝑥�
Regressão Linear
Exercício

A resposta de um instrumento é determinada por uma solução padrão


com seis diferentes concentrações.

Concentração (x) 0 2 4 6 8 10 Média (x) 5


Resposta (y) 0 24 41 60 82 103 Média (y) 51,67

Cálculo de b e a.
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦� 708,0
𝑏𝑏 = = = 10,114
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2 70
𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅ = 51,67 − 10,114 𝑥𝑥 5 = 1,100
Regressão Linear
Exercício

Utilizando-se o software Minitab, obtemos os seguintes valores:


Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão Linear
Exercício

Utilizando-se o software Minitab, obtemos os seguintes valores:


a b Não se pode
afirmar que a
intersecção seja
diferente de zero
Intervalos de
Desvio padrão de a Confiança de a e b
a - intersecção
b - inclinação

Desvio padrão de b
Pode-se afirmar que a
inclinação é diferente
de zero. Portanto y e x
Desvio padrão dos resíduos são fortemente
correlacionados
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.

S, R 2 and adjusted R2 are measures of how well the model fits the data.
These values can help you select the model with the best fit.
· S is measured in the units of the response variable and represents the
standard distance that data values fall from the regression line. For a given
study, the better the equation predicts the response, the lower S is.
· R 2 (R-Sq) describes the amount of variation in the observed response
values that is explained by the predictor(s) . R2 always increases with
additional predictors. For example, the best five-predictor model will always
have a higher R2 than the best four-predictor model. Therefore, R2 is most
useful when comparing models of the same size.
· Adjusted R2 is a modified R2 that has been adjusted for the number of
terms in the model. If you include unnecessary terms, R2 can be artificially
high. Unlike R2 , adjusted R2 may get smaller when you add terms to the
model. Use adjusted R2 to compare models with different numbers of
predictors.
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.

Press and R2 (pred) are measures of how well the model predicts the
response.
· PRESS is the sum of squares of the prediction error. In general, the
smaller the PRESS value, the better the model's predictive ability.
PRESS is used to calculate the predicted R.
· R2 (pred) indicates how well the model predicts responses for new
observations. Predicted R2 can prevent overfitting the model. This
statistic is more useful than adjusted R for comparing models because
it is calculated with observations not included in model calculation.
Larger values of predicted R2 suggest models of greater predictive
ability.
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.

Example Output:
Summary of Model

S = 3.99399 R-Sq = 92.95% R-Sq(adj) = 91.12%


PRESS = 880.182 R-Sq(pred) = 85.59%

Interpretation

The model explains 92.95% of the variation in the Salary data. The
adjusted R is 91.12%. R (pred) is 85.59%, indicating that the model
explains 85.59% of the variation in Salary when the model is used for
prediction.
Regressão Linear
Exercício

Análise
dos
resíduos.
Regressão Linear
Exercício sobre incerteza de x

A equação de melhor ajuste do exercício anterior era


y=1,100+10,114 x. A resposta para uma concentração é 80.
Determine o valor da concentração e sua incerteza.
𝑦𝑦�0 − 𝑎𝑎 80 − 1,100
𝑥𝑥� = = = 7,80 𝑚𝑚𝑚𝑚/𝑙𝑙
𝑏𝑏 10,114
A incerteza associada com 𝑥𝑥� pode ser calculada pela equação:
𝑠𝑠𝑦𝑦⁄𝑥𝑥 1 1 𝑦𝑦�0 −𝑦𝑦� 2 1,762 1 1 80−51,67 2
𝑠𝑠𝑥𝑥� = + + = + + = 0,197
𝑏𝑏 𝑁𝑁 𝑛𝑛 𝑏𝑏2 ∑𝑛𝑛
𝑖𝑖=1 𝑥𝑥𝑖𝑖 −𝑥𝑥̅
2 10,114 1 6 10,114 2 .70

O intervalo de confiança para 95% do valor de concentração.


𝑥𝑥� ± 𝑡𝑡 . 𝑠𝑠𝑥𝑥� = 7,80 ± 2,776 𝑥𝑥 0,197 = 7,80 ± 0,55mg/l

Onde 2,776 é o valor t student para distribuição bicaudal 95%;


𝜈𝜈 = 𝑛𝑛 − 2 = 6 − 2 = 4
Regressão Linear
Exercício sobre incerteza de x
Variação relacionada com a
Regressão Linear própria regressão, indica a
correlação entre x e y. Tem que
ANOVA para regressão linear ser significativamente maior
que a variação dos resíduos.
Um software para regressão linear pode fornecer uma tabela de
análise de variância, como apresentada abaixo:

Variação relacionada com


os erros residuais
Como no teste de significância da inclinação da reta, o
teste de significância ANOVA indica uma relação
significativa entre as variáveis.
Regressão Linear
ANOVA para regressão linear - Exercício

Abaixo a tabela de análise de variância do exercício anterior. Pode-


se observar e concluir que as variâncias são significativamente
diferentes, já que P value deu praticamente zero. O valor crítico
para F é 7,709 𝜈𝜈1 = 1 𝑒𝑒 𝜈𝜈2 = 4 para 95% de significância, portanto
bem inferior aos 2306 obtido. Portanto a correlação entre x e y é
significativa.

Analysis of Variance

Source DF Seq SS Adj SS Adj MS F P


Regression 1 7160,91 7160,91 7160,91 2306,43 0,0000011
Concentração (x) 1 7160,91 7160,91 7160,91 2306,43 0,0000011
Error 4 12,42 12,42 3,10
Total 5 7173,33
Regressão Linear
Calibração, recomendações de projeto

Se as incertezas de calibração são pequenas comparada com


outros efeitos na análise de rotina, o projeto de calibração não é
crítico. Contudo se as incertezas de calibração são significativas, as
seguintes orientações são importantes:

- Use pelo menos 5 observações independentes;


- Espace as concentrações o mais igualmente possível;
- Assegure que as médias das concentração dos materiais de
calibração sejam próximas à concentração de interesse.
- Inclua replicações independentes para aumentar a precisão;
- Aumente o número de replicatas para no mínimo 3;
- Teste as observações extremas quanto a significância;
Regressão Linear
Calibração, recomendações de projeto

Se as incertezas de calibração são pequenas comparada com


outros efeitos na análise de rotina, o projeto de calibração não é
crítico. Contudo se as incertezas de calibração são significativas, as
seguintes orientações são importantes:

- Verifique a normalidade dos resíduos;


- Aumente o número de concentrações independentes (mínimo 7);
- Não force a passagem da reta pelo ponto (0;0);
- Não inclua o ponto (0;0) quando este não foi medido.
Tarefa relativa ao assunto
Exercício sobre Estatística a ser resolvido com o software

Pesquise na internet assuntos relacionados com


estatística aplicada á metrologia química, procure direcionar as
suas pesquisas a assuntos que mais se aproximem do seu
assunto de pesquisa no PPGEB. Não se limite a pesquisar
textos em português.
Entregar a pesquisa via email (arquivo word nomeado da
seguinte forma:
aluno_fulano_de_tal_metrologia_quimica_atividade3.doc);

A pesquisa deve ter:


1) Descrição sucinta do objetivo;
2) Explicação do método escolhido e porque;
3) Conclusões se houverem;
4) Referências Bibliográficas.
Exemplos de pesquisa: 1) Resolução de exercícios de aplicação de
ferramentas estatísticas na MQ;
Referências Bibliográficas
- A Bench Guide. ELLISON, S.L.R.; BARWICK, V.J.;
FARRANT, T.J.D. Practical Statistics for the Analytical
Scientist. RSC Publishing. 2ª Edição. 2009.