Escolar Documentos
Profissional Documentos
Cultura Documentos
experimentos
Noções relevantes de estatística
(Cap. 5)
Prof. Florian Pradelle (pradelle@puc-rio.br)
Sala L-163 – Telefone: 3527-1182
6ª feira (08-11h) – Sala de aula do 6° andar
1
Sumário
• Introdução
• Definições
• Teste t
• Teste F
2
Introdução
3
Definições
• População
• Conjunto de valores obtidos para mesmas condições experimentais
• Caracterizada pela média 𝜇, o desvio padrão 𝜎, e a distribuição da população
• Média μ
• Soma de todos os valores (𝑦𝑖 ) dividido pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜇= 𝑦𝑖
𝑛
𝑖=1
• Variância σ²
• Soma do quadrado das diferenças entre cada valor (𝑦𝑖 ) e a média (𝜇) (ou seja soma quadrática),
dividida pela quantidade de elementos na população (𝑛)
𝑖=𝑛
1
𝜎2 = 𝑦𝑖 − 𝜇 ²
𝑛
𝑖=1
• Amostra
• Conjunto de n valores obtidos para mesmas condições experimentais (n
sorteios aleatórios dentro de todos os valores possíveis da população)
• n pequeno em comparação com o número de indivíduos dentro da
população
• Caracterizada pela média amostral 𝑦, o desvio padrão amostral s, e o
histograma (ou Box-Plot)
𝑖=𝑛 𝑖=𝑛
1 1 2
𝜇≈𝑦= 𝑦𝑖 ; 𝜎 ≈ 𝑠 = 𝑉 = 𝑦𝑖 − 𝜇 (≈: 𝑚𝑒𝑙ℎ𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎çã𝑜)
𝑛 𝑛−1
𝑖=1 𝑖=1
5
Definições
• Distribuição normal:
6
Definições
Frequência
Frequência
Média Média Média
7
Definições
• Transmissão dos erros
• Associado ao conceito de variância para uma dada resposta 𝑉(𝑦𝑖 )
• Propriedades:
8
Definições
• Transmissão dos erros
• Homocedasticidade: as variâncias são iguais para todas as respostas 𝑉 𝑦𝑖 = 𝑐𝑠𝑡𝑒
• Desvio padrão (ou seja, a dispersão, o erro experimental ou erro puro) da média é menor que a
dispersão de uma dada resposta
9
Definições
• Conceito de variáveis independentes
• Exemplo: Peso e volume de um carroço de feijão são variáveis aleatórias
• Porém, há uma relação entre peso e volume através do conceito de massa específica ou densidade
• Se a densidade for constante: relação perfeitamente linear
• Como a densidade depende também do grau de desidratação, da ação das pragas ou da carga genética:
linearidade perturbada por uma certa dispersão
Relação perfeitamente linear Relação linear + erro aleatório Observações:
• Altos valores de y tendem a ocorrer ao
mesmo tempo que altos valores de x, e
vice-versa.
• Quando isso acontece, dizemos que as
duas variáveis aleatórias apresentam
uma certa covariância, isto é, uma
tendência de se desviarem de forma
parecida em relação às respectivas
médias (co-variar = variar junto).
10
Definições
• Valor nulo: sem dependência linear; Valor unitário (-1 ou +1): Dependência linear
11
Definições
12
Definições
• Relação estatísticas
• Var 𝒂 = 𝒔𝟐𝒓𝒆𝒔 𝑿′ 𝑿 −𝟏
𝒊𝒊
( 𝑿′ 𝑿 −𝟏
𝒊𝒊
vetor coluna com os elementos diagonais de 𝑿′ 𝑿 −𝟏)
• Média: Variância:
• Média: Variância:
• Comparação com valor do teste t: com um nível de significância estatística de X%, ou seja tem (100-X)%
15
das duas médias independentes serem iguais
Teste t
• Critério para avaliar a importância de um coeficiente: comparação com o desvio padrão
• : coeficiente significativo
• : coeficiente basicamente nulo e efeito desprezível
𝑎
• Razão: 𝑡 = 𝑠
𝑎
• Segue uma distribuição t de Student: possibilidade de usar o valor-p do teste t
• Valor-p perto de 0: coeficiente diferente de zero → Significativo
• Valor-p perto de 1: coeficiente não pode ser distinguido de zero → Desprezível
• Valores intermediários do valor-p: pode ser parcialmente significante ou desprezível
• Interpretação do valor-p (tabelado: tabela A.2 em Barros Neto)
• O coeficiente é essencialmente nulo X % do tempo
• Escolha do valor de corte: 0,01, 0,05 ou 0,10
16
Teste F
• Comparação de duas variâncias
• Para comparar as médias de duas amostras independentes, combinamos as duas variâncias
amostrais em uma única estimativa conjunta.
• Precisamos testar a hipótese nula de que 𝑠1 e 𝑠2 são estimativas de variâncias populacionais
idênticas.
• Isto pode ser feito através de um teste F
𝑠12 𝜎22
• Teste F (relação entre variâncias amostrais com 𝜈1 e 𝜈2 graus 𝐹𝜈1,𝜈2 = 2 2
de liberdade, respectivamente): 𝑠2 𝜎1
𝑠12
• Considerando as variâncias populacionais iguais: 𝜎12 = 𝜎22 𝐹𝜈1,𝜈2 = 2
𝑠2
• Valores tabelados em função de uma percentagem de confiança: (tabela A4 em Barros Neto)
• A razão entre as variâncias terá de superar esse valor tabelado, para que a hipótese nula seja rejeitada e a
estimativa conjunta não possa ser feita.
• Aplicação deste conceito na ANOVA para avaliação da qualidade do modelo como um todo 17
Teste F
• Teste F:
18
Teste F
• Teste F:
19
Teste F
• Teste F:
20
Teste F
• Teste F:
21
Análise da variância (ANOVA)
• Objetivo da ANOVA:
• Examinar os resíduos para que possamos avaliar a qualidade do
fator
ajuste de qualquer modelo.
• Encontrar as fontes de variação das respostas
22
Análise da variância (ANOVA)
• Princípios da ANOVA
• Distribuição da variância total na resposta entre os componentes que constituem o modelo
• Considera-se a decomposição algébrica das respostas calculadas pelo método dos mínimos quadrados
• ⟺
onde é a resposta obtida pelo modelo e é o resíduo
• Análise baseada no estudo da diferença entre as respostas e a sua média (desvio da média)
• No método dos mínimos quadrados, a média das respostas experimentais é igual a média das
respostas obtidas com o modelo
• ⟹ (demostra-se que o termo 2 𝑦𝑖 − 𝑦 𝑟𝑖 = 0)
• Análogo a uma variância (chamada de variância residual ou quadrado médio dos resíduos) 23
Análise da variância (ANOVA)
• Decomposição: ⇔ 𝑺𝑸𝑻 = 𝑺𝑸𝑹 + 𝑺𝑸𝒓
• Interpretação: Variância total = SQ em torno da média = SQ devida a regressão + SQ residual
• Observação 1
• n respostas independentes → n-1 graus de liberdade (𝝂𝑻 ) para calcular a SQ dos desvios a média das
respostas experimentais (1 grau a menos porque a média já foi calculada)
• p coeficientes → p-1 graus de liberdade (𝝂𝑹 ) para calcular a SQ dos desvios em torno da média das
respostas calculadas (1 grau a menos porque a média já foi calculada), ou seja devido a regressão
• Observação 2
• Regras se aplicam somente a variáveis puramente aleatórias: não deveria se aplicar ao erro de ajuste ∆
(não aleatório), mas considera-se que 𝑉 ∆ ≈ 𝑉 𝜎
• Precisa verificar esta hipótese usando , os resultados experimentais e a ANOVA
24
Análise da variância (ANOVA)
• Apresentação dos resultados da ANOVA
• 3 linhas: 𝑺𝑸𝑹 : SQ devida a Fonte de variação Soma quadrática
Grau de
Média quadrática F-ratio
regressão (model) / 𝑺𝑸𝒓 : SQ liberdade
• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓 : Média quadrática devida a regressão / média quadrática residual
• Verificação da hipótese : 𝑉 ∆ ≈ 𝑉 𝜎 25
Análise da variância (ANOVA)
• 𝑭 − 𝒓𝒂𝒕𝒊𝒐 = 𝑴𝑸𝑹 /𝑴𝑸𝒓
• Si F-ratio alto e valor-p baixo: variações somente devidos aos efeitos em torno da média
• Si F perto de 1 e valor-p alto: variações devida a regressão comparáveis às observações dos resíduos
• Na ausência da tabela A.4: considerar F-ratio superior ou igual a 4 como satisfatório
• Coeficiente de determinação R²: 𝑹² = 𝑺𝑸𝑹 /𝑺𝑸𝑻
• Razão entre as somas quadráticas SQ (modelo em torno da média) / SQ (resposta devida a regressão)
• Si R² perto de 1: os resíduos são (quase) nulos e o modelo permitem reproduzir os valores experimentais
• Si R² perto de 0: o modelo somente permite encontrar a média dos valores experimentais (sem interesse)
27