Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Correlação Amostral
Serve para estudar o comportamento conjunto de duas variáveis quantitativas
distintas. Ou, em outras palavras, mede o grau de associação entre duas variáveis
aleatórias X e Y.
OBS.: não há, nesse caso, preocupação em apresentar alguma forma funcional entre
as variáveis, se houver.
Exemplos:
(apresentados em aula)
1
INF 162 Prof. Luiz Alexandre Peternelli
i =1 n
2 2
n n
n
∑ Xi n
∑ Yi
SQD X = ∑ X i2 − i =1 e SQDY = ∑ Yi − i =1
2
i =1 n i =1 n
exemplo:
Amostra A 4 8 3 9 7 5
Amostra B 1 5 2 14 3 11
n n
n
∑ Ai ∑ Bi
(36)(36) = 36
SPD AB = ∑ Ai Bi − i =1 i =1 = 252 −
i =1 n 6
2
INF 162 Prof. Luiz Alexandre Peternelli
2
n
∑ Ai
n
SQD A = ∑ Ai −
2 i =1 = 244 −
(36)
2
= 28
i =1 n 6
2
n
∑ Bi
n
SQDB = ∑ Bi −
2 i =1 = 356 −
(36)
2
= 140
i =1 n 6
SPAB 36
rAB = = = 0,5750
SQD A . SQD B (28) (140)
2. Regressão linear
A análise de regressão consiste na realização de uma análise estatística com o
objetivo de verificar a existência de uma relação funcional entre uma variável
dependente com uma ou mais variáveis independentes. Em outras palavras consiste na
obtenção de uma equação que tenta explicar a variação da variável dependente pela
variação do(s) nível(is) da(s) variável(is) independente(s).
Para tentar estabelecer uma equação que representa o fenômeno em estudo
pode-se fazer um gráfico, chamado de diagrama de dispersão, para verificar como se
comportam os valores da variável dependente (Y) em função da variação da variável
independente (X).
O comportamento de Y em relação a X pode se apresentar de diversas
maneiras: linear, quadrático, cúbico, exponencial, logarítmico, etc... . Para se
estabelecer o modelo para explicar o fenômeno, deve-se verificar qual tipo de curva e
equação de um modelo matemático que mais se aproxime dos pontos representados
no diagrama de dispersão.
Contudo, pode-se verificar que os pontos do diagrama de dispersão, não vão se
ajustar perfeitamente à curva do modelo matemático proposto. Haverá na maior parte
dos pontos, uma distância entre os pontos do diagrama e a curva do modelo
matemático. Isto acontece, devido ao fato do fenômeno que está em estudo, não ser
um fenômeno matemático e sim um fenômeno que está sujeito a influências que
acontecem ao acaso. Assim, o objetivo da regressão é obter um modelo matemático
que melhor se ajuste aos valores observados de Y em função da variação dos níveis da
variável X.
3
INF 162 Prof. Luiz Alexandre Peternelli
em que:
Yi = valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β 0 = constante de regressão. Representa o intercepto da reta com o eixo dos Y.
4
INF 162 Prof. Luiz Alexandre Peternelli
aplicando o somatório,
n n
∑ e = ∑ [Y − β − β1 X i ]
2 2
i i 0 (1)
i =1 i =1
∑x ∑y
∑x y
i i
i i − SPD xy
β̂ 1 = n = e βˆ 0 = Y − βˆ1 X
(∑ xi )2 SQD x
∑x 2
i −
n
Uma vez obtidas estas estimativas, podemos escrever a equação estimada:
Yˆi = βˆ0 + βˆ1 X i
Exemplos:
1) Para verificar se existe relação linear de primeiro grau entre umidade relativa (UR)
do ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou
um experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes
dados (dados hipotéticos)
% UR 20 30 40 50
% germinação 94 96 95 97
a) Obter as estimativas do β0 e do β1 considerando o modelo proposto;
b) Qual seria a equação ajustada?
c) Qual seria a % de germinação esperada quando UR = 45 %?
OBS.: veremos, mais tarde, como verificar a significância da regressão.
R.: a) β̂ 0 = 92,7; β̂ 1 = 0,08 b) 95,5 %
5
INF 162 Prof. Luiz Alexandre Peternelli
2) Foi realizado uma análise de regressão para investigar a existência de relação linear
simples entre a temperatura superficial de uma estrada (X) medida em graus F e a
deformação da pavimentação (Y) medida segundo uma técnica especial. Baseado nas
seguintes informações pede-se:
n = 20; ∑y i = 12,75; ∑y 2
i = 8,86; ∑x i = 1478; ∑x 2
i =143215,8; e ∑x y
i i =
1083,67
a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação ajustada
num gráfico;
b) Use a equação para estimar qual deformação haveria na pavimentação quando a
temperatura superficial fosse de 85 graus F.
c) Qual seria a mudança esperada na deformação da pavimentação para uma
mudança de 1o F na temperatura superficial?
d) Suponha que a temperatura seja medida em graus C ao invés de graus F. Qual
seria a nova equação ajustada resultante? Lembre-se: C = 5(F – 32)/9.
e) Qual seria a mudança esperada na deformação da pavimentação para uma
mudança de 1o C na temperatura superficial?
Exercício Proposto
Os dados a seguir provêm de um experimento para testar o desempenho de uma
máquina industrial. O experimento utilizou uma mistura de óleo diesel e gás,
derivados de materiais destilados orgânicos. O valor da capacidade da máquina em
cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por
minuto (rpm × 100), totalizando 24 pares de valores.
X Y X Y X Y X Y
22,0 64,03 15,0 46,85 18,0 52,90 15,0 45,79
20,0 62,47 17,0 51,17 16,0 48,84 17,0 51,17
18,0 54,94 19,0 58,00 14,0 42,74 19,0 56,65
16,0 48,84 21,0 63,21 12,0 36,63 21,0 62,61
14,0 43,73 22,0 64,03 10,5 32,05 23,0 65,31
12,0 37,48 20,0 62,63 13,0 39,68 24,0 63,89
X = velocidade Y = capacidade
6
INF 162 Prof. Luiz Alexandre Peternelli
n n
(d) Verifique que ∑ Yi = ∑ Ŷi ;
i =1 i =1
7
INF 162 Prof. Luiz Alexandre Peternelli
βˆ 0 − β 0* 1 X2
tcalc = , onde Vˆ ( βˆ 0 ) = σˆ 2 +
Vˆ ( βˆ )
0
n SQD x
∑ (Y i − Y ) 2 = ∑ (Yˆi − Y ) 2 + ∑ (Yi − Yˆ ) 2 ,
8
INF 162 Prof. Luiz Alexandre Peternelli
OBS.: Se regressão linear simples, e para H0: β1 = 0 temos que (tcalc)2 = Fcalc
exemplo:
Para verificar se existe relação linear de primeiro grau entre umidade relativa (UR) do
ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou um
experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes
dados (dados hipotéticos)
% UR 20 30 40 50
% germinação 94 96 95 97
a) Obter as estimativas do β0 e do β1 considerando o modelo proposto;
b) Obter o quadro da ANOVA para checar a significância da regressão, ou seja,
se existe efeito da UR do ar de secagem na % de germinação. Se necessário
use α = 5%;
c) Realize o teste t para o coeficiente de regressão. Se necessário use α = 5%;
d) Compare os resultados dos itens b e c;
e) Qual seria a % de germinação esperada quando UR = 45 %?
f) Como deveria ser apresentada, num relatório técnico, a equação de regressão
ajustada para esse exemplo?
9
INF 162 Prof. Luiz Alexandre Peternelli
R.: a) β̂ 0 = 92,7; β̂ 1 = 0,08 . Algumas das outras respostas podem ser obtidas no
endereço www.dpi.ufv.br/~peternelli/inf460/materiais.htm.
Exercícios Propostos:
1) (questão de prova do II/2000) Para estudar a relação entre Y (número total de horas
necessárias à montagem da parte de uma estrutura) e X (número total de operações de
furar e rebitar), registraram-se os dados da tabela abaixo.
Estudo A B C D E F G H I
X 236 80 127 445 180 343 305 488 170
Y 5,1 1,7 3,3 6,0 2,9 5,9 7,0 9,4 4,8
Para facilitar seus cálculos considere as seguintes informações:
∑x
i
i = 2374; ∑y
i
i = 46,1; ∑x
i
2
i = 786368; ∑y
i
2
i = 279,41; ∑x y
i
i i = 14512,6
10
INF 162 Prof. Luiz Alexandre Peternelli
pavimentação (Y), verifique se realmente existe uma relação linear significativa (use
α = 5%) entre X e Y, e reavalie as comclusões obtidas para os itens daquele exercício.
11
INF 162 Prof. Luiz Alexandre Peternelli
em que:
- p = no de coeficientes de regressão (não inclui o β0 )
- n = no de observações.
As fórmulas (usando-se somatório) para a obtenção das somas de quadrados
total e da soma de quadrados do independente da regressão são as mesmas, tanto para
o modelo linear de 1o grau quanto para o de 2o grau ou outros, as quais são dadas a
seguir:
2
n
n
∑ Yi
SQTotal = ∑ Yi − i =1
2
i =1 n
SQIndependente da Regressão = SQTotal - SQRegressão
Já a soma de quadrados para a regressão varia de acordo com o modelo em
teste. Assim tem-se que, para o modelo linear de 1o grau, a soma de quadrados da
regressão é obtida por:
2
n
n n
∑ Yi
SQ Re gressão = β 0 ∑ Yi + β1 ∑ Yi X i − i=1
ˆ ˆ
i =1 i =1 n
Para o modelo linear de 2o grau, a soma de quadrados da regressão é dada por:
12
INF 162 Prof. Luiz Alexandre Peternelli
2
n
∑ Yi
n n n
i =1
SQ Re gressão = β$ 0 ∑ Yi + β$ 1 ∑ Yi X i + β$ 2 ∑ Yi X 2i −
i =1 i =1 i =1 n
Em geral, para qualquer modelo de regressão poderíamos usar a notação
matricial e, com o auxílio de computadores, obter, passo a passo, os resultados de
interesse. Logicamente, se o interesse for apenas o resultado final, a análise realizada
no computador proverá isso rapidamente. Considere o exemplo dado no final desse
capítulo para o caso de regressão múltipla usando notação matricial.
De modo geral, as hipóteses estatísticas para o teste F, são as seguintes:
- H 0 : β1 = β 2 = ... = β p = 0 , o que significa dizer que as p variáveis independentes
Pode-se inferir que o modelo proposto não é adequado para descrever o fenômeno.
Testes parciais (teste t) para cada coeficiente de regressão poderiam ainda ser
realizados, caso seja rejeitada a hipótese de nulidade dos coeficientes de regressão
baseados no teste F da ANOVA. Tais testes serão comentados mais adiante neste
capítulo.
13
INF 162 Prof. Luiz Alexandre Peternelli
em que:
Yi = valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β 0 = constante de regressão.
β1 = coeficiente de regressão.
β 2 = coeficiente de regressão.
X i = i-ésimo nível da variável independente X (i = 1,2,K,n )
n n n
∑ i 1∑ 2∑ Xi
Y = n ˆ + βˆ
β X + β ˆ 2
0 i
i =1 i =1 i =1
n n n n
∑ Yi X i = βˆ 0 ∑ X i + βˆ1 ∑ X i + βˆ 2 ∑ X i
2 3
i =1 i =1 i =1 i =1
n n n n
∑ Yi X i = βˆ
0∑ Xi + ˆ
β 1∑ X i + ˆ
β 2∑ Xi
2 2 3 4
i =1 i =1 i =1 i =1
Exemplo:
(Dado em aula)
14
INF 162 Prof. Luiz Alexandre Peternelli
Erro aleatório
Modelo proposto:
Y i = β o + β 1 X 1i + β 2 X 2 i + e i
Teor de óxido de
sódio (Na2O) Temperatura
Razão
ocluído na alumina de reação
Al2O3/NaO
Óxido de alumínio
Hidróxido de sódio
Presente na bauxita que entra no processo Um dos reagentes do
15
INF 162 Prof. Luiz Alexandre Peternelli
Assim,
Y1 = β o + β 1 X 11 + β 2 X 21 + e1
Y2 = β o + β 1 X 12 + β 2 X 22 + e 2
Y3 = β o + β 1 X 13 + β 2 X 23 + e3
M
Y26 = β o + β 1 X 126 + β 2 X 226 + e 26
16
INF 162 Prof. Luiz Alexandre Peternelli
Y1 1 X 11 X 21 e1
Y 1 β0
2 = X 12 X 22 β +
e
2
M M 1 M
β 2
Y26 1 X 126 X 226 e
3 x 1 26
26 x 1 26 x 3 26 x 1
ou seja, Y = Xβ + ε .
Pode-se demonstrar que
βˆ = ( X ' X ) −1 X ' Y
~ ~
ˆ
− 0,9878 β 0
≅ 2,7904 = βˆ1
− 0,0051 βˆ
2
Assim, o modelo ajustado será:
17
INF 162 Prof. Luiz Alexandre Peternelli
Observe que ainda não foi realizado nenhum teste para verificação da validade
dessa equação ajustada. Portanto, a validade dessas interpretações só se dará após a
análise de resíduos, seguido dos testes estatísticos apropriados.
QMregressão
Fcalc = ~ F ( K ; n − K − 1) sob H 0
QMresíduo
βˆ ' X ' Y −
(∑ Y ) i
2
SQregr n
QM regr = =
K K
SQres Y ' Y − βˆ ' X ' Y
QM res = =
n − K −1 n − K −1
OBS2: Outras fórmulas bastante úteis para o bom entendimento dos cálculos realizados são:
n n n n
SQTotal = ∑ ( yi − y ) 2 ; SQRegressão =
i =1
∑ ( yˆ i − y ) 2 ;SQResíduo =
i =1
∑ ( yi − yˆ i ) 2 = ∑ ei2
i =1 i =1
Exemplos
Exemplo 2.4.2.1.1.
(Exemplo 8.13.2.3.1 da INF 460)
Seja X1 = {1, 2, 3, 4, 5}, X2 = {2, 3, 4, 6, 10} e Y = {12, 16, 18, 21, 24}
Pede-se:
18
INF 162 Prof. Luiz Alexandre Peternelli
βˆ j
t calc = ~ t (n − K − 1 g.l.)
σˆ C jj
2
onde: ( )
σˆ 2 = QM residuo = Y ' Y − βˆ ' X 'Y / (n − K − 1)
onde Cjj corresponde ao elemento ocupando a posição jj na matriz (X’X)-1, com j
variando de 0 a k.
A regra decisória continua sendo:
19
INF 162 Prof. Luiz Alexandre Peternelli
βˆ j − ttab . σˆ 2C jj ≤ β j ≤ βˆ j + ttab σˆ 2C jj
onde:
ttab = tα
,n − k −1
2
SQ regressão SQ resíduo
R2 = =1−
SQtotal SQtotal
É importante notar que um valor grande do R² não implica, necessariamente,
que o modelo de regressão é bom. Ao adicionar uma variável ao modelo, sempre
haverá um incremento no R². Isso ocorre mesmo que a variável incluída seja
significativa estatisticamente ou não.
Ex: (um exemplo numérico será visto oportunamente)
Yi = β o + β 1 X i + ei = r 2 = m
Yi = β o + β 1 X i + β 2 X i2 + ei → R 2 = m + p
20
INF 162 Prof. Luiz Alexandre Peternelli
QM resíduo
ou seja, Raj2 = 1 −
QM total
De modo geral o R² ajustado nem sempre aumenta quando variáveis são
incluídas no modelo. E o mais importante é que o R² ajustado irá diminuir se uma
variável não importante (estatisticamente não significativa) for adicionada ao modelo.
OBS: Quando o R² e o R aj2 forem muito discrepantes, haverá bom indicativo de que termos não
significativos tenham sido adicionados no modelo.
2.4.2.3. Exercícios
21