2 - Noções Relevantes de Estatística (VF)

MEC 2007 – Planejamento de
experimentos
Noções relevantes de estatística
(Cap. 5)
Prof. Florian Pradelle (pradelle@puc-rio.br)
Sala L-163 – Telefone: 3527-1182
6ª feira (08-11h) – Sala de aula do 6° andar
1
Sumário
• Introdução
• Definições
• Teste t
• Teste F
• Análise da variância (ANOVA)
• Análise dos resíduos
2
Introdução
• Erro total: soma das duas contribuições

• Erro aleatório ou erro puro (ε): erro associado à dispersão de valores na medição da resposta
em dado ponto experimental
• Erro de ajusto ou lack of fit (Δ): erro sistemático entre o modelo exato e o modelo
matemático proposto
• Ambos os erros impactam os coeficientes do modelo: necessidade de investigar estas duas
fontes de erro
• Noções estatísticas aplicadas ao planejamento de experimentos

• Cálculos geralmente feitos em software
• Entendimento necessário para a interpretação correta dos resultados
3
Definições
• População
• Conjunto de valores obtidos para mesmas condições experimentais
• Caracterizada pela média 𝜇, o desvio padrão 𝜎, e a distribuição da população
• Média μ
• Soma de todos os valores (𝑦𝑖 ) dividido pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜇= 𝑦𝑖
𝑛
𝑖=1
• Variância σ²
• Soma do quadrado das diferenças entre cada valor (𝑦𝑖 ) e a média (𝜇) (ou seja soma quadrática),
dividida pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜎2 = 𝑦𝑖 − 𝜇 ²
𝑛
𝑖=1
• Desvio padrão σ 𝑖=𝑛

1
• Raiz quadrada da variância 𝜎=
𝑛
𝑦𝑖 − 𝜇 ²
4
𝑖=1
Definições
• Amostra
• Conjunto de n valores obtidos para mesmas condições experimentais (n
sorteios aleatórios dentro de todos os valores possíveis da população)
• n pequeno em comparação com o número de indivíduos dentro da
população
• Caracterizada pela média amostral 𝑦, o desvio padrão amostral s, e o
histograma (ou Box-Plot)
𝑖=𝑛 𝑖=𝑛
1 1 2
𝜇≈𝑦= 𝑦𝑖 ; 𝜎 ≈ 𝑠 = 𝑉 = 𝑦𝑖 − 𝜇 (≈: 𝑚𝑒𝑙ℎ𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎çã𝑜)
𝑛 𝑛−1
𝑖=1 𝑖=1
Observação: n-1 no denominador de s; corresponde ao grau de liberdade
5
Definições
• Distribuição normal:
• Distribuição simétrica em torno da média zero

• Também chamada de curva do sino ou distribuição
gaussiana
• Completamente caracterizada pela média 𝜇 e o
desvio padrão 𝜎 da população
• Tabela A1 em Barros Neto
6
Definições
• Propriedades da distribuição normal

• 68,3% da população está dentro de um intervalo 𝜇 ± 𝜎
• 95,4% da população está dentro de um intervalo 𝜇 ± 2𝜎
• 99,7% da população está dentro de um intervalo 𝜇 ± 3𝜎
Representação para uma distribuição normal com 𝜇 = 0 e 𝜎 = 1
Frequência
Frequência
Frequência
Média Média Média
7
Definições
• Transmissão dos erros
• Associado ao conceito de variância para uma dada resposta 𝑉(𝑦𝑖 )
• Propriedades:
• Generalização: método de Kline e McClintock (1953)
8
Definições
• Transmissão dos erros
• Homocedasticidade: as variâncias são iguais para todas as respostas 𝑉 𝑦𝑖 = 𝑐𝑠𝑡𝑒
• Desvio padrão (ou seja, a dispersão, o erro experimental ou erro puro) da média é menor que a
dispersão de uma dada resposta
• Intervalo de confiança (confidence interval, CI)

• Depende do desvio padrão s, da probabilidade escolhida pelo experimentador e do número de
repetições
9
Definições
• Conceito de variáveis independentes
• Exemplo: Peso e volume de um carroço de feijão são variáveis aleatórias
• Porém, há uma relação entre peso e volume através do conceito de massa específica ou densidade
• Se a densidade for constante: relação perfeitamente linear
• Como a densidade depende também do grau de desidratação, da ação das pragas ou da carga genética:
linearidade perturbada por uma certa dispersão
Relação perfeitamente linear Relação linear + erro aleatório Observações:
• Altos valores de y tendem a ocorrer ao
mesmo tempo que altos valores de x, e
vice-versa.
• Quando isso acontece, dizemos que as
duas variáveis aleatórias apresentam
uma certa covariância, isto é, uma
tendência de se desviarem de forma
parecida em relação às respectivas
médias (co-variar = variar junto).
10
Definições
• Covariância amostral das variáveis x e y

• Medida do grau de interdependência entre duas variáveis aleatórias
• Média dos produtos dos desvios ((𝑥𝑖 -𝑥) (𝑦𝑖 -𝑦))
𝑖=𝑛
1
𝐶𝑜𝑣(𝑥, 𝑦) = (𝑥𝑖 −𝑥) (𝑦𝑖 −𝑦)
𝑛−1
𝑖=1
• Coeficiente de correlação amostral das variáveis x e y

• Covariância normalizada
• Média dos produtos dos desvios ((𝑥𝑖 -𝑥) (𝑦𝑖 -𝑦))/𝑠𝑥 𝑠𝑦
𝑖=𝑛
1 (𝑥𝑖 −𝑥) (𝑦𝑖 −𝑦)
𝑟(𝑥, 𝑦) =
𝑛−1 𝑠𝑥 𝑠𝑦
𝑖=1
• Valor nulo: sem dependência linear; Valor unitário (-1 ou +1): Dependência linear
11
Definições
• Mesmo coeficiente de correlação

amostral (r = 0,82), mas diagrama de
dispersão diferente
• Interpretação dos diagramas de
dispersão?
12
Definições
• Relação estatísticas
• Depende da variância residual: 𝒔𝟐𝒓𝒆𝒔 =

𝟏
𝒏−𝒑
𝒚𝒄𝒂𝒍 − 𝒚𝒆𝒙𝒑
𝟐
= 𝑽(𝒆)
• Matriz variância – covariância

• Var − Cov = 𝒔𝟐𝒓𝒆𝒔 𝑿′ 𝑿 −𝟏
• Variâncias na diagonal e covariâncias fora da diagonal

• Variância de predição sobre a resposta no ponto P
• Var 𝒀𝒑 = 𝒔𝟐𝒓𝒆𝒔 𝑿′𝒑 𝑿′ 𝑿 −𝟏 𝑿
𝒑 (𝑿𝒑 vetor coluna)
• Possíveis propriedades de isovariância por rotação e/ou quase ortogonalidade
• Variância sobre os coeficientes
• Var 𝒂 = 𝒔𝟐𝒓𝒆𝒔 𝑿′ 𝑿 −𝟏
𝒊𝒊
( 𝑿′ 𝑿 −𝟏
𝒊𝒊
vetor coluna com os elementos diagonais de 𝑿′ 𝑿 −𝟏)
• Depende das respostas, do modelo postulado e dos cálculos necessários

onde K depende do modelo experimental e do DOE e
13
Teste t
• Distribuição t de Student
• Distribuição simétrica em torno da média zero com valores tabelados
que dependem do grau de liberdade
• Teste t desenvolvido em 1908 por William Sealy Gosset, químico da

cervejaria Guinness em Dublin
• Pontos de probabilidade bicaudal (somente precisa olhar um lado e
usar a simetria): obtenção do valor p
• Probabilidade de se obter uma estatística de teste igual ou mais
extrema que aquela observada em uma amostra, sob a hipótese nula.
• Por exemplo, em testes de hipótese, pode-se rejeitar a hipótese nula a
5% (0,025 na tabela) caso o valor-p seja menor que 5%. 14
Teste t
• Comparação de duas médias independentes
• Pergunta: São distribuições de uma mesma população?
• Hipóteses: Distribuição normal usada como referência
• Primeira série de n1 medidas
• Média: Variância:
• Segunda série de n2 medidas
• Média: Variância:
• Resposta: calculo da métrica definida como o valor absoluto da diferença e desvio

padrão da diferença definido como (razão sinal sobre ruído)
• retorna um ponto de probabilidade relacionado aos graus de liberdade
• Comparação com valor do teste t: com um nível de significância estatística de X%, ou seja tem (100-X)%
15
das duas médias independentes serem iguais
Teste t
• Critério para avaliar a importância de um coeficiente: comparação com o desvio padrão
• : coeficiente significativo
• : coeficiente basicamente nulo e efeito desprezível
𝑎
• Razão: 𝑡 = 𝑠
𝑎
• Segue uma distribuição t de Student: possibilidade de usar o valor-p do teste t
• Valor-p perto de 0: coeficiente diferente de zero → Significativo
• Valor-p perto de 1: coeficiente não pode ser distinguido de zero → Desprezível
• Valores intermediários do valor-p: pode ser parcialmente significante ou desprezível
• Interpretação do valor-p (tabelado: tabela A.2 em Barros Neto)
• O coeficiente é essencialmente nulo X % do tempo
• Escolha do valor de corte: 0,01, 0,05 ou 0,10
16
Teste F
• Comparação de duas variâncias
• Para comparar as médias de duas amostras independentes, combinamos as duas variâncias
amostrais em uma única estimativa conjunta.
• Precisamos testar a hipótese nula de que 𝑠1 e 𝑠2 são estimativas de variâncias populacionais
idênticas.
• Isto pode ser feito através de um teste F
𝑠12 𝜎22
• Teste F (relação entre variâncias amostrais com 𝜈1 e 𝜈2 graus 𝐹𝜈1,𝜈2 = 2 2
de liberdade, respectivamente): 𝑠2 𝜎1
𝑠12
• Considerando as variâncias populacionais iguais: 𝜎12 = 𝜎22 𝐹𝜈1,𝜈2 = 2
𝑠2
• Valores tabelados em função de uma percentagem de confiança: (tabela A4 em Barros Neto)
• A razão entre as variâncias terá de superar esse valor tabelado, para que a hipótese nula seja rejeitada e a
estimativa conjunta não possa ser feita.
• Aplicação deste conceito na ANOVA para avaliação da qualidade do modelo como um todo 17
Teste F
• Teste F:
𝑠12 𝜎22 𝑠12

𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2
18
Teste F
• Teste F:
𝑠12 𝜎22 𝑠12

𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2
19
Teste F
• Teste F:
𝑠12 𝜎22 𝑠12

𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2
20
Teste F
• Teste F:
𝑠12 𝜎22 𝑠12

𝐹𝜈1,𝜈2 = 2 2≈ 2
𝑠2 𝜎1 𝑠2
21
Análise da variância (ANOVA)
• Definições resposta Desvio ou desvio da

• Desvio: diferença entre as respostas experimentais e resíduo média
a resposta obtida pelo modelo
• Resíduo: diferença entre as respostas experimentais e a
resposta obtida pela regressão do DOE
• Erro de ajuste: diferença entre a resposta obtida pelo erro de
modelo
modelo e a média das respostas ajuste
• Desvio da média (ou erro experimental): diferença entre a

resposta e a média das respostas
• Objetivo da ANOVA:
• Examinar os resíduos para que possamos avaliar a qualidade do
fator
ajuste de qualquer modelo.
• Encontrar as fontes de variação das respostas
22
• Princípios da ANOVA
• Distribuição da variância total na resposta entre os componentes que constituem o modelo
• Considera-se a decomposição algébrica das respostas calculadas pelo método dos mínimos quadrados
• ⟺
onde é a resposta obtida pelo modelo e é o resíduo
• Análise baseada no estudo da diferença entre as respostas e a sua média (desvio da média)
• No método dos mínimos quadrados, a média das respostas experimentais é igual a média das
respostas obtidas com o modelo
• ⟹ (demostra-se que o termo 2 𝑦𝑖 − 𝑦 𝑟𝑖 = 0)
• Soma quadrática residual:
• Dividindo pelo número de grau de liberdade:
• Análogo a uma variância (chamada de variância residual ou quadrado médio dos resíduos) 23
• Decomposição: ⇔ 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓
• Interpretação: Variância total = SQ em torno da média = SQ devida a regressão + SQ residual
• Observação 1
• n respostas independentes → n-1 graus de liberdade (𝝂𝑻 ) para calcular a SQ dos desvios a média das
respostas experimentais (1 grau a menos porque a média já foi calculada)
• p coeficientes → p-1 graus de liberdade (𝝂𝑹 ) para calcular a SQ dos desvios em torno da média das
respostas calculadas (1 grau a menos porque a média já foi calculada), ou seja devido a regressão
• n-p graus de liberdade (𝝂𝒓 ) para calcular a soma quadrática residual:
• Observação 2
• Regras se aplicam somente a variáveis puramente aleatórias: não deveria se aplicar ao erro de ajuste ∆
(não aleatório), mas considera-se que 𝑉 ∆ ≈ 𝑉 𝜎
• Precisa verificar esta hipótese usando , os resultados experimentais e a ANOVA
24
• Apresentação dos resultados da ANOVA
• 3 linhas: 𝑺𝑸𝑹 : SQ devida a Fonte de variação Soma quadrática
Grau de
Média quadrática F-ratio
regressão (model) / 𝑺𝑸𝒓 : SQ liberdade
residual (error) / 𝑺𝑸𝑻 : SQ em Regressão 𝑺𝑸𝑹 𝝂𝑹 = 𝒑 − 𝟏 𝑴𝑸𝑹 = 𝑺𝑸𝑹 𝝂𝑹 𝑴𝑸𝑹 /𝑴𝑸𝒓

torno da média (total)
Resíduos 𝑺𝑸𝒓 𝝂𝒓 = 𝒏 − 𝒑 𝑴𝑸𝒓 = 𝑺𝑸𝒓 𝝂𝒓 = 𝒔𝟐
𝒓𝒆𝒔 Prob > 1
• 5 colunas Total 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓 𝝂𝑻 = 𝒏 − 𝟏 valor-p (Tab A.4)
• Fonte de variação (source)
• Grau de liberdade (degree of freedom, DF, em inglês): Grau de liberdade de cada soma quadrática
• 𝝂𝑻 = 𝝂𝑹 + 𝝂𝒓 : DF (SQ devida a regressão) + DF (SQ residual) = DF (SQ em torno da média)
• Soma quadrática (sum of squares)

• 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓
• Média quadrática (mean square):𝑴𝑸 = 𝑺𝑸/𝝂

• Para a SQ residual: 𝑴𝑸𝒓 = 𝑺𝑸𝒓 𝝂𝒓 = 𝒔𝟐
𝒓𝒆𝒔
• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓 : Média quadrática devida a regressão / média quadrática residual
• Verificação da hipótese : 𝑉 ∆ ≈ 𝑉 𝜎 25
• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓
• Si F-ratio alto e valor-p baixo: variações somente devidos aos efeitos em torno da média
• Si F perto de 1 e valor-p alto: variações devida a regressão comparáveis às observações dos resíduos
• Na ausência da tabela A.4: considerar F-ratio superior ou igual a 4 como satisfatório
• Coeficiente de determinação R²: 𝑹² = 𝑺𝑸𝑹 /𝑺𝑸𝑻
• Razão entre as somas quadráticas SQ (modelo em torno da média) / SQ (resposta devida a regressão)
• Si R² perto de 1: os resíduos são (quase) nulos e o modelo permitem reproduzir os valores experimentais
• Si R² perto de 0: o modelo somente permite encontrar a média dos valores experimentais (sem interesse)
• Coeficiente de determinação ajustado Ra² : 𝑹𝟐𝒂 = 𝟏 − 𝟏 − 𝑹2

𝒏−𝟏
𝒏−𝒑
• Considera o impacto dos graus de liberdade

• 𝑅 2 e 𝑅𝑎2 são bons indicadores da qualidade do modelo quando tem mais pontos experimentais que coeficientes
no modelo postulado, porque requer 𝑛 − 𝑝 não nulo 26
Análise dos resíduos
• Interpretação correta
• F-ratio elevado (superior ou igual a 4)
• R² perto de 1 (em geral, valores acima de 0,97 são consideradas como satisfatórios)
• Raiz quadrada da soma quadrática residual da mesma ordem de grandeza que o erro experimental
• Análise dos resíduos
• Distribuição dos resíduos:
• Aleatório (homocedasticidade): sem interpretação adicional
• Padrão: não-homocedasticidade ou modelo de maior ordem, linear para quadrático
27

2 - Noções Relevantes de Estatística (VF)

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2 - Noções Relevantes de Estatística (VF)

Enviado por

Direitos autorais:

Formatos disponíveis

MEC 2007 – Planejamento de

• Análise da variância (ANOVA)

• Análise dos resíduos

• Erro total: soma das duas contribuições

• Noções estatísticas aplicadas ao planejamento de experimentos

• Desvio padrão σ 𝑖=𝑛

Observação: n-1 no denominador de s; corresponde ao grau de liberdade

• Distribuição simétrica em torno da média zero

• Tabela A1 em Barros Neto

• Propriedades da distribuição normal

• Generalização: método de Kline e McClintock (1953)

• Intervalo de confiança (confidence interval, CI)

• Covariância amostral das variáveis x e y

• Coeficiente de correlação amostral das variáveis x e y

• Mesmo coeficiente de correlação

• Depende da variância residual: 𝒔𝟐𝒓𝒆𝒔 =

• Matriz variância – covariância

• Variâncias na diagonal e covariâncias fora da diagonal

• Depende das respostas, do modelo postulado e dos cálculos necessários

• Teste t desenvolvido em 1908 por William Sealy Gosset, químico da

• Segunda série de n2 medidas

• Resposta: calculo da métrica definida como o valor absoluto da diferença e desvio

• retorna um ponto de probabilidade relacionado aos graus de liberdade

𝑠12 𝜎22 𝑠12

𝑠12 𝜎22 𝑠12

𝑠12 𝜎22 𝑠12

𝑠12 𝜎22 𝑠12

• Definições resposta Desvio ou desvio da

modelo e a média das respostas ajuste

• Desvio da média (ou erro experimental): diferença entre a

• Soma quadrática residual:

• Dividindo pelo número de grau de liberdade:

• n-p graus de liberdade (𝝂𝒓 ) para calcular a soma quadrática residual:

residual (error) / 𝑺𝑸𝑻 : SQ em Regressão 𝑺𝑸𝑹 𝝂𝑹 = 𝒑 − 𝟏 𝑴𝑸𝑹 = 𝑺𝑸𝑹 𝝂𝑹 𝑴𝑸𝑹 /𝑴𝑸𝒓

• Soma quadrática (sum of squares)

• Média quadrática (mean square):𝑴𝑸 = 𝑺𝑸/𝝂

• Coeficiente de determinação ajustado Ra² : 𝑹𝟐𝒂 = 𝟏 − 𝟏 − 𝑹2

• Considera o impacto dos graus de liberdade

Você também pode gostar