Você está na página 1de 27

MEC 2007 – Planejamento de

experimentos
Noções relevantes de estatística
(Cap. 5)
Prof. Florian Pradelle (pradelle@puc-rio.br)
Sala L-163 – Telefone: 3527-1182
6ª feira (08-11h) – Sala de aula do 6° andar
1
Sumário

• Introdução

• Definições

• Teste t

• Teste F

• Análise da variância (ANOVA)

• Análise dos resíduos

2
Introdução

• Erro total: soma das duas contribuições


• Erro aleatório ou erro puro (ε): erro associado à dispersão de valores na medição da resposta
em dado ponto experimental
• Erro de ajusto ou lack of fit (Δ): erro sistemático entre o modelo exato e o modelo
matemático proposto
• Ambos os erros impactam os coeficientes do modelo: necessidade de investigar estas duas
fontes de erro

• Noções estatísticas aplicadas ao planejamento de experimentos


• Cálculos geralmente feitos em software
• Entendimento necessário para a interpretação correta dos resultados

3
Definições
• População
• Conjunto de valores obtidos para mesmas condições experimentais
• Caracterizada pela média 𝜇, o desvio padrão 𝜎, e a distribuição da população
• Média μ
• Soma de todos os valores (𝑦𝑖 ) dividido pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜇= 𝑦𝑖
𝑛
𝑖=1

• Variância σ²
• Soma do quadrado das diferenças entre cada valor (𝑦𝑖 ) e a média (𝜇) (ou seja soma quadrática),
dividida pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜎2 = 𝑦𝑖 − 𝜇 ²
𝑛
𝑖=1

• Desvio padrão σ 𝑖=𝑛


1
• Raiz quadrada da variância 𝜎=
𝑛
𝑦𝑖 − 𝜇 ²
4
𝑖=1
Definições

• Amostra
• Conjunto de n valores obtidos para mesmas condições experimentais (n
sorteios aleatórios dentro de todos os valores possíveis da população)
• n pequeno em comparação com o número de indivíduos dentro da
população
• Caracterizada pela média amostral 𝑦, o desvio padrão amostral s, e o
histograma (ou Box-Plot)
𝑖=𝑛 𝑖=𝑛
1 1 2
𝜇≈𝑦= 𝑦𝑖 ; 𝜎 ≈ 𝑠 = 𝑉 = 𝑦𝑖 − 𝜇 (≈: 𝑚𝑒𝑙ℎ𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎çã𝑜)
𝑛 𝑛−1
𝑖=1 𝑖=1

Observação: n-1 no denominador de s; corresponde ao grau de liberdade

5
Definições
• Distribuição normal:

• Distribuição simétrica em torno da média zero


• Também chamada de curva do sino ou distribuição
gaussiana
• Completamente caracterizada pela média 𝜇 e o
desvio padrão 𝜎 da população

• Tabela A1 em Barros Neto

6
Definições

• Propriedades da distribuição normal


• 68,3% da população está dentro de um intervalo 𝜇 ± 𝜎
• 95,4% da população está dentro de um intervalo 𝜇 ± 2𝜎
• 99,7% da população está dentro de um intervalo 𝜇 ± 3𝜎
Representação para uma distribuição normal com 𝜇 = 0 e 𝜎 = 1
Frequência

Frequência

Frequência
Média Média Média

7
Definições
• Transmissão dos erros
• Associado ao conceito de variância para uma dada resposta 𝑉(𝑦𝑖 )

• Propriedades:

• Generalização: método de Kline e McClintock (1953)

8
Definições
• Transmissão dos erros
• Homocedasticidade: as variâncias são iguais para todas as respostas 𝑉 𝑦𝑖 = 𝑐𝑠𝑡𝑒

• Desvio padrão (ou seja, a dispersão, o erro experimental ou erro puro) da média é menor que a
dispersão de uma dada resposta

• Intervalo de confiança (confidence interval, CI)


• Depende do desvio padrão s, da probabilidade escolhida pelo experimentador e do número de
repetições

9
Definições
• Conceito de variáveis independentes
• Exemplo: Peso e volume de um carroço de feijão são variáveis aleatórias
• Porém, há uma relação entre peso e volume através do conceito de massa específica ou densidade
• Se a densidade for constante: relação perfeitamente linear
• Como a densidade depende também do grau de desidratação, da ação das pragas ou da carga genética:
linearidade perturbada por uma certa dispersão
Relação perfeitamente linear Relação linear + erro aleatório Observações:
• Altos valores de y tendem a ocorrer ao
mesmo tempo que altos valores de x, e
vice-versa.
• Quando isso acontece, dizemos que as
duas variáveis aleatórias apresentam
uma certa covariância, isto é, uma
tendência de se desviarem de forma
parecida em relação às respectivas
médias (co-variar = variar junto).
10
Definições

• Covariância amostral das variáveis x e y


• Medida do grau de interdependência entre duas variáveis aleatórias
• Média dos produtos dos desvios ((𝑥𝑖 -𝑥) (𝑦𝑖 -𝑦))
𝑖=𝑛
1
𝐶𝑜𝑣(𝑥, 𝑦) = (𝑥𝑖 −𝑥) (𝑦𝑖 −𝑦)
𝑛−1
𝑖=1

• Coeficiente de correlação amostral das variáveis x e y


• Covariância normalizada
• Média dos produtos dos desvios ((𝑥𝑖 -𝑥) (𝑦𝑖 -𝑦))/𝑠𝑥 𝑠𝑦
𝑖=𝑛
1 (𝑥𝑖 −𝑥) (𝑦𝑖 −𝑦)
𝑟(𝑥, 𝑦) =
𝑛−1 𝑠𝑥 𝑠𝑦
𝑖=1

• Valor nulo: sem dependência linear; Valor unitário (-1 ou +1): Dependência linear
11
Definições

• Mesmo coeficiente de correlação


amostral (r = 0,82), mas diagrama de
dispersão diferente
• Interpretação dos diagramas de
dispersão?

12
Definições
• Relação estatísticas

• Depende da variância residual: 𝒔𝟐𝒓𝒆𝒔 =


𝟏
𝒏−𝒑
𝒚𝒄𝒂𝒍 − 𝒚𝒆𝒙𝒑
𝟐
= 𝑽(𝒆)

• Matriz variância – covariância


• Var − Cov = 𝒔𝟐𝒓𝒆𝒔 𝑿′ 𝑿 −𝟏

• Variâncias na diagonal e covariâncias fora da diagonal


• Variância de predição sobre a resposta no ponto P
• Var 𝒀𝒑 = 𝒔𝟐𝒓𝒆𝒔 𝑿′𝒑 𝑿′ 𝑿 −𝟏 𝑿
𝒑 (𝑿𝒑 vetor coluna)
• Possíveis propriedades de isovariância por rotação e/ou quase ortogonalidade
• Variância sobre os coeficientes

• Var 𝒂 = 𝒔𝟐𝒓𝒆𝒔 𝑿′ 𝑿 −𝟏
𝒊𝒊
( 𝑿′ 𝑿 −𝟏
𝒊𝒊
vetor coluna com os elementos diagonais de 𝑿′ 𝑿 −𝟏)

• Depende das respostas, do modelo postulado e dos cálculos necessários


onde K depende do modelo experimental e do DOE e
13
Teste t
• Distribuição t de Student
• Distribuição simétrica em torno da média zero com valores tabelados
que dependem do grau de liberdade

• Teste t desenvolvido em 1908 por William Sealy Gosset, químico da


cervejaria Guinness em Dublin
• Pontos de probabilidade bicaudal (somente precisa olhar um lado e
usar a simetria): obtenção do valor p
• Probabilidade de se obter uma estatística de teste igual ou mais
extrema que aquela observada em uma amostra, sob a hipótese nula.
• Por exemplo, em testes de hipótese, pode-se rejeitar a hipótese nula a
5% (0,025 na tabela) caso o valor-p seja menor que 5%. 14
Teste t
• Comparação de duas médias independentes
• Pergunta: São distribuições de uma mesma população?
• Hipóteses: Distribuição normal usada como referência
• Primeira série de n1 medidas

• Média: Variância:

• Segunda série de n2 medidas

• Média: Variância:

• Resposta: calculo da métrica definida como o valor absoluto da diferença e desvio


padrão da diferença definido como (razão sinal sobre ruído)

• retorna um ponto de probabilidade relacionado aos graus de liberdade

• Comparação com valor do teste t: com um nível de significância estatística de X%, ou seja tem (100-X)%
15
das duas médias independentes serem iguais
Teste t
• Critério para avaliar a importância de um coeficiente: comparação com o desvio padrão
• : coeficiente significativo
• : coeficiente basicamente nulo e efeito desprezível
𝑎
• Razão: 𝑡 = 𝑠
𝑎
• Segue uma distribuição t de Student: possibilidade de usar o valor-p do teste t
• Valor-p perto de 0: coeficiente diferente de zero → Significativo
• Valor-p perto de 1: coeficiente não pode ser distinguido de zero → Desprezível
• Valores intermediários do valor-p: pode ser parcialmente significante ou desprezível
• Interpretação do valor-p (tabelado: tabela A.2 em Barros Neto)
• O coeficiente é essencialmente nulo X % do tempo
• Escolha do valor de corte: 0,01, 0,05 ou 0,10

16
Teste F
• Comparação de duas variâncias
• Para comparar as médias de duas amostras independentes, combinamos as duas variâncias
amostrais em uma única estimativa conjunta.
• Precisamos testar a hipótese nula de que 𝑠1 e 𝑠2 são estimativas de variâncias populacionais
idênticas.
• Isto pode ser feito através de um teste F
𝑠12 𝜎22
• Teste F (relação entre variâncias amostrais com 𝜈1 e 𝜈2 graus 𝐹𝜈1,𝜈2 = 2 2
de liberdade, respectivamente): 𝑠2 𝜎1

𝑠12
• Considerando as variâncias populacionais iguais: 𝜎12 = 𝜎22 𝐹𝜈1,𝜈2 = 2
𝑠2
• Valores tabelados em função de uma percentagem de confiança: (tabela A4 em Barros Neto)
• A razão entre as variâncias terá de superar esse valor tabelado, para que a hipótese nula seja rejeitada e a
estimativa conjunta não possa ser feita.
• Aplicação deste conceito na ANOVA para avaliação da qualidade do modelo como um todo 17
Teste F

• Teste F:

𝑠12 𝜎22 𝑠12


𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2

18
Teste F
• Teste F:

𝑠12 𝜎22 𝑠12


𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2

19
Teste F
• Teste F:

𝑠12 𝜎22 𝑠12


𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2

20
Teste F
• Teste F:

𝑠12 𝜎22 𝑠12


𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2

21
Análise da variância (ANOVA)

• Definições resposta Desvio ou desvio da


• Desvio: diferença entre as respostas experimentais e resíduo média
a resposta obtida pelo modelo
• Resíduo: diferença entre as respostas experimentais e a
resposta obtida pela regressão do DOE
• Erro de ajuste: diferença entre a resposta obtida pelo erro de
modelo

modelo e a média das respostas ajuste

• Desvio da média (ou erro experimental): diferença entre a


resposta e a média das respostas

• Objetivo da ANOVA:
• Examinar os resíduos para que possamos avaliar a qualidade do
fator
ajuste de qualquer modelo.
• Encontrar as fontes de variação das respostas
22
Análise da variância (ANOVA)
• Princípios da ANOVA
• Distribuição da variância total na resposta entre os componentes que constituem o modelo
• Considera-se a decomposição algébrica das respostas calculadas pelo método dos mínimos quadrados
• ⟺
onde é a resposta obtida pelo modelo e é o resíduo
• Análise baseada no estudo da diferença entre as respostas e a sua média (desvio da média)
• No método dos mínimos quadrados, a média das respostas experimentais é igual a média das
respostas obtidas com o modelo
• ⟹ (demostra-se que o termo 2 𝑦𝑖 − 𝑦 𝑟𝑖 = 0)

• Soma quadrática residual:

• Dividindo pelo número de grau de liberdade:

• Análogo a uma variância (chamada de variância residual ou quadrado médio dos resíduos) 23
Análise da variância (ANOVA)
• Decomposição: ⇔ 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓
• Interpretação: Variância total = SQ em torno da média = SQ devida a regressão + SQ residual

• Observação 1
• n respostas independentes → n-1 graus de liberdade (𝝂𝑻 ) para calcular a SQ dos desvios a média das
respostas experimentais (1 grau a menos porque a média já foi calculada)
• p coeficientes → p-1 graus de liberdade (𝝂𝑹 ) para calcular a SQ dos desvios em torno da média das
respostas calculadas (1 grau a menos porque a média já foi calculada), ou seja devido a regressão

• n-p graus de liberdade (𝝂𝒓 ) para calcular a soma quadrática residual:

• Observação 2
• Regras se aplicam somente a variáveis puramente aleatórias: não deveria se aplicar ao erro de ajuste ∆
(não aleatório), mas considera-se que 𝑉 ∆ ≈ 𝑉 𝜎
• Precisa verificar esta hipótese usando , os resultados experimentais e a ANOVA
24
Análise da variância (ANOVA)
• Apresentação dos resultados da ANOVA
• 3 linhas: 𝑺𝑸𝑹 : SQ devida a Fonte de variação Soma quadrática
Grau de
Média quadrática F-ratio
regressão (model) / 𝑺𝑸𝒓 : SQ liberdade

residual (error) / 𝑺𝑸𝑻 : SQ em Regressão 𝑺𝑸𝑹 𝝂𝑹 = 𝒑 − 𝟏 𝑴𝑸𝑹 = 𝑺𝑸𝑹 𝝂𝑹 𝑴𝑸𝑹 /𝑴𝑸𝒓


torno da média (total)
Resíduos 𝑺𝑸𝒓 𝝂𝒓 = 𝒏 − 𝒑 𝑴𝑸𝒓 = 𝑺𝑸𝒓 𝝂𝒓 = 𝒔𝟐
𝒓𝒆𝒔 Prob > 1
• 5 colunas Total 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓 𝝂𝑻 = 𝒏 − 𝟏 valor-p (Tab A.4)
• Fonte de variação (source)
• Grau de liberdade (degree of freedom, DF, em inglês): Grau de liberdade de cada soma quadrática
• 𝝂𝑻 = 𝝂𝑹 + 𝝂𝒓 : DF (SQ devida a regressão) + DF (SQ residual) = DF (SQ em torno da média)

• Soma quadrática (sum of squares)


• 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓

• Média quadrática (mean square):𝑴𝑸 = 𝑺𝑸/𝝂


• Para a SQ residual: 𝑴𝑸𝒓 = 𝑺𝑸𝒓 𝝂𝒓 = 𝒔𝟐
𝒓𝒆𝒔

• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓 : Média quadrática devida a regressão / média quadrática residual
• Verificação da hipótese : 𝑉 ∆ ≈ 𝑉 𝜎 25
Análise da variância (ANOVA)
• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓
• Si F-ratio alto e valor-p baixo: variações somente devidos aos efeitos em torno da média
• Si F perto de 1 e valor-p alto: variações devida a regressão comparáveis às observações dos resíduos
• Na ausência da tabela A.4: considerar F-ratio superior ou igual a 4 como satisfatório
• Coeficiente de determinação R²: 𝑹² = 𝑺𝑸𝑹 /𝑺𝑸𝑻
• Razão entre as somas quadráticas SQ (modelo em torno da média) / SQ (resposta devida a regressão)
• Si R² perto de 1: os resíduos são (quase) nulos e o modelo permitem reproduzir os valores experimentais
• Si R² perto de 0: o modelo somente permite encontrar a média dos valores experimentais (sem interesse)

• Coeficiente de determinação ajustado Ra² : 𝑹𝟐𝒂 = 𝟏 − 𝟏 − 𝑹2


𝒏−𝟏
𝒏−𝒑

• Considera o impacto dos graus de liberdade


• 𝑅 2 e 𝑅𝑎2 são bons indicadores da qualidade do modelo quando tem mais pontos experimentais que coeficientes
no modelo postulado, porque requer 𝑛 − 𝑝 não nulo 26
Análise dos resíduos
• Interpretação correta
• F-ratio elevado (superior ou igual a 4)
• R² perto de 1 (em geral, valores acima de 0,97 são consideradas como satisfatórios)
• Raiz quadrada da soma quadrática residual da mesma ordem de grandeza que o erro experimental
• Análise dos resíduos
• Distribuição dos resíduos:
• Aleatório (homocedasticidade): sem interpretação adicional
• Padrão: não-homocedasticidade ou modelo de maior ordem, linear para quadrático

27

Você também pode gostar