Escolar Documentos
Profissional Documentos
Cultura Documentos
Conteúdo
6.1 Introdução
Podem ser caracterizados três tipos de relações entre variáveis: determinista, semideterminista
e empírica.
- Relações deterministas - Certas relações correspondem a leis conhecidas, expressas por
funções matemáticas exatas. Bases teóricas universalmente reconhecidas justificam a forma funcional.
Desvios de observações que ocorrem para algumas dessas relações são considerados erros
experimentais sem importância para a maioria dos propósitos. Assim, por exemplo, se X cruzeiros são
6. Análise de Regressão e Correlação Linear Simples 225
depositados em uma conta de poupança ao juro anual de 100r%, a quantidade Y disponível nessa conta
ao encerramento do n-ésimo ano é relacionada a X, r e n pela equação exata:
Y = X(1+r)n.
Como um segundo exemplo, o tempo t para um objeto atingir a superfície da terra quando lançado de
uma altura h é relacionado com h pela lei física da gravitação:
t = 2h / g ,
onde g é a constante gravitacional, que depende do local sobre a superfície. A origem dessa expressão
matemática foi a postulação por Galileu de que a altura da queda de um objeto é proporcional ao
quadrado do tempo para atingir o solo. Estimativas exatas da constante gravitacional foram
ulteriormente obtidas por experimentação. Embora essa relação teórica seja aproximada, em
decorrência da variação das condições ambientais, para a maioria dos propósitos tornam-se
desnecessárias novas pesquisas experimentais. Dessa forma, esses casos são excluídos do domínio da
análise da regressão.
- Relações semideterministas - Em algumas situações, a forma da lei que relaciona as
variáveis é estabelecida por uma teoria conhecida, mas dependente de valores particulares de
constantes desconhecidas (parâmetros) que aparecem em sua expressão matemática. Aproximações
para a lei podem ser obtidas pela substituição dos parâmetros por estimativas, determinadas através de
pesquisa experimental. O estabelecimento da relação exata é inviabilizado pela limitada precisão de
instrumentos de medida, perturbações não controláveis das condições experimentais e outros fatores
que introduzem erros experimentais.
Exemplo 6.1. A pressão (P) e o volume (V) de um gás, sob calor constante, são relacionados
pela "lei dos gases ideais":
PVg = constante,
onde g é a taxa de calor específico do gás particular, que deve ser estimada através de pesquisa
experimental.
Em alguns casos, há uma base teórica que sugere uma forma plausível para a relação, mas a
base não é exata ou não é aceita universalmente. Ademais, freqüentemente, flutuações adicionais são
produzidas por variáveis não controláveis, não incluídas na relação.
Exemplo 6.2. Suponha-se que uma fábrica de compota de pêssego produz latas de compota
por lotes e que o produtor deseja relacionar o custo de produção de um lote (Y) com o tamanho do lote
(X, número de latas no lote). Em um intervalo de variação realista de X, uma parcela do custo (custos
de instalações e administração, por exemplo) é praticamente constante independentemente do tamanho
do lote. Um outro componente, que inclui matéria prima e o trabalho para produzir a compota, é
diretamente proporcional ao número de latas produzidas. Denote-se o componente fixo do custo por F e
o componente variável por c. Na ausência de qualquer outro fator, pode-se esperar uma relação custo-
tamanho do lote determinista, expressa por:
Y = F + cX.
Entretanto, há um terceiro componente do custo a considerar cuja magnitude é de natureza não
previsível. Por exemplo, o equipamento pode quebrar, ocasionalmente, do que pode resultar variação
de custos de reparo e tempo despendido. A ocorrência de variação na qualidade da matéria prima
também pode afetar o processo de produção. Dessa forma, uma relação determinista pode ser
mascarada por componentes aleatórios. Conseqüentemente, uma relação adequada entre Y e X deve ser
estabelecida através de pesquisa experimental.
226 Estatística Experimental. 2. Análise Estatística de Experimentos
família de equações que corresponde a uma população de interesse é, em geral, inviabilizada pelo
desconhecimento dos valores particulares dessas constantes apropriados para a população. O propósito
da inferência estatística em análise de regressão é a obtenção de uma aproximação e de outras
informações referentes aos parâmetros e, conseqüentemente, sobre a equação particular para a
população. Essa equação particular (desconhecida) para a população objetivo pode ser adequadamente
expressa por:
E(Y) = f(X1, X2, ..., Xk; a1, a2, ... ,ap),
onde E(Y) indica valor populacional ou valor esperado da variável resposta Y.
O processo de inferência estatística se baseia em um conjunto de n observações {x1j, x2j, ...,
xkj, yj :j=1, 2, ... ,n} das k+1 variáveis X1, X2, ..., Xk e Y, providas por uma amostra de n indivíduos ou
unidades (amostra de tamanho n) da população de interesse. Um modelo de regressão é especificado
com o estabelecimento da equação que exprime a relação de cada valor observado da variável
dependente Y com os correspondentes valores das variáveis independentes, e das pressuposições
referentes aos termos e símbolos da equação.
Um modelo de regressão é denominado um modelo linear se sua equação é um caso
particular da seguinte forma geral:
E(Y) = a0 + a1X1 + a2X2 +...+ akXk.
Um caso particular dessa forma geral é a equação do modelo de regressão polinomial:
E(Y) = a0 + a1X + a2X2 +...+ akXk,
em que: X1=X, X2=X2, ..., Xk=Xk. Esta equação exprime a relação de uma variável resposta Y com
uma única variável explanatória X, representada por uma curva polinomial de grau k em um plano
(espaço de duas dimensões).
Um caso ainda mais particular desse modelo linear é o modelo de regressão linear simples,
que corresponde à relação de uma variável resposta Y com uma única variável explanatória X
representada por uma linha reta, cuja equação é:
E(Y) = a + bX,
- Modelo não linear: Modelo não linear cuja equação não é linearizável. Por exemplo, o
modelo de Mitscherlich, com a seguinte equação exponencial:
Y = A[1-10-c(X+b)].
Embora na maioria das situações de interesse prático a relação de duas variáveis seja não
linear, a relação linear é importante por duas razões:
a) Em um modelo linear por anamorfose, uma transformação da equação não linear que
relaciona as variáveis conduz a uma relação linear. Esse é o caso de algumas relações representadas por
equações multiplicativas ou exponenciais que podem ser linearizadas por transformações logarítmicas,
como exemplificado na Figura 6.1.
b) A linha reta pode ser uma boa aproximação para um segmento de uma curva não linear em
um intervalo limitado da variável independente.
6. Análise de Regressão e Correlação Linear Simples 229
Observação: 1 2 ... n
X: x1 x2 ... xn
Y: y1 y2 ... yn
O primeiro passo no estudo da relação de duas variáveis é a representação gráfica dos dados
através de um diagrama de dispersão de pontos. A inspeção desse diagrama pode permitir uma
caracterização da relação entre as variáveis quanto à sua existência e forma; indica se os pontos se
aglomeram em torno de alguma curva geométrica particular, como uma linha reta, por exemplo; e
fornece uma apreciação visual da extensão da variação em torno de tal linha ou curva. O diagrama de
dispersão é particularmente importante quando, como ocorre em muitas situações, não há uma relação
teórica conhecida a priori. Em tais situações, ele é útil na pesquisa de um modelo apropriado para
exprimir a relação.
Exemplo 6.5. Para uma ilustração concreta, considere-se que os dados da Tabela 6.2 são as
observações em 10 parcelas de um experimento de fertilização do solo com nitrogênio para a cultura do
tomate, onde doses de nitrogênio e produção são expressos em unidades de medida convenientes.
Dose (X): 1 1 2 3 4 4 5 6 6 7
Produção (Y): 2,1 2,5 3,1 3,0 3,8 3,2 4,3 3,9 4,4 4,8
O diagrama de dispersão para essas observações é apresentado na Figura 6.2. Este diagrama
mostra que os pontos parecem se aglomerar em torno de uma linha reta, o que revela que a relação
particular é de natureza aproximadamente linear.
230 Estatística Experimental. 2. Análise Estatística de Experimentos
O Exemplo 6.5 ilustra a relação mais simples entre duas variáveis, representada pela linha
reta.
Figura 6.4. Distribuição normal de Y com médias sobre a linha reta E(Y)
= a+bX.
Exemplo 6.6. Para a ilustração que segue utilizar-se-á os dados da Tabela 6.3, provenientes
do registro de informações anuais de quantidade de frango comercializado e correspondente preço, nos
Estados Unidos, no período de 1950 a 1959.
j 1 2 3 4 5 6 7 8 9 10
xj 73 79 80 69 66 75 78 74 74 84
yj 18,0 20,0 17,8 21,4 21,6 15,0 14,4 17,8 19,6 14,1
6. Análise de Regressão e Correlação Linear Simples 233
Os parâmetros a e b da equação do modelo estatístico podem ser estimados pelo método dos
quadrados mínimos, que determina para estimadores dos parâmetros os valores de a e b que
minimizam a soma de quadrados dos erros (como função de a e b), isto é:
n
f(a,b) = ∑ e2j =
j=1
234 Estatística Experimental. 2. Análise Estatística de Experimentos
n
= ∑ ( y j − a − bx j ) 2 .
j=1
O processo de minimização dessa soma de quadrados dos erros conduz ao seguinte sistema de duas
equações com as duas incógnitas â e b̂ :
n
! = ∑y
n
na ! + ( ∑ x j ) b j
j =1 j =1
n n n
( ∑ x j )a! + ( ∑ x 2j )b! = ∑ x j y j
j=1 j =1 j =1
e
2
n n 1 n
SQ X = ∑ (x j − x) = ∑
2
x 2j − ∑ x j .
j=1 j=1 n j=1
Os valores ajustados, em geral, diferem dos valores observados. A diferença entre um valor
observado da variável resposta e seu correspondente valor ajustado é uma estimativa do desvio da
regressão para a correspondente observação, denominada resíduo da observação:
e! j = y j − y! j , j=1,2,...,n.
Uma estimativa da variância comum dos desvios da regressão é fornecida pela soma dos
quadrados dos resíduos dividida pelo correspondente número de graus de liberdade, n-2 (onde 2 é o
número de parâmetros estimados do modelo):
1 n
s 2Y:X = ∑ (y j − yˆ j ) 2 .
n −2 j=1
Essa estimativa da variância dos desvios da regressão pode ser mais convenientemente obtida através
do procedimento da análise da variação (que se verá adiante), usualmente utilizado para efetuar testes
de hipóteses de interesse.
2) A soma dos quadrados dos resíduos é mínima, ou seja, a soma dos quadrados das distâncias
entre os valores observados (xj, yj), j=1,2,...n, e suas correspondentes projeções sobre uma reta no
espaço de duas dimensões (X, Y) ortogonais ao eixo X é mínima quando essa reta é a reta de quadrados
mínimos.
Exemplo 6.6 (continuação). Para os dados do Exemplo 6.6, as estimativas dos parâmetros a e
b podem ser obtidas com o auxílio da Tabela 6.4.
236 Estatística Experimental. 2. Análise Estatística de Experimentos
Tabela 6.4. Dados e cálculos para a determinação das somas de quadrados e somas de
produtos.
Obtém-se:
−93, 04
b̂ = = -0,367
253, 60
e
a! = 17,97 - (-0,367)75,2 = 45,57.
Essas estimativas dos parâmetros a e b têm os seguintes significados:
â = 45,57 é estimativa do valor do frango (Y), em US$ por 50 kg, que corresponde à
quantidade nula de frango comercializado (X=0);
b̂ = −0,367 é a estimativa do aumento do valor do frango (Y), em US$ por 50 kg, que
corresponde ao incremento da oferta de um milhão de frangos comercializados. A
equação de regressão ajustada é, então:
ŷ = 45,57 - 0,367x .
Essa equação fornece o valor estimado (ou predito) do preço de frango para uma produção
anual particular. Por exemplo, o preço de frango (em US$/50 kg) estimado para uma produção anual de
73 milhões de frangos é:
ŷ X=73 = 45,57 - 0,367(73) = 18,779 .
Esse valor ajustado difere do correspondente valor observado (18,0). O resíduo para essa
observação é:
ê1 = 18,0 - 18,78 = −0,78 .
6. Análise de Regressão e Correlação Linear Simples 237
Tabela 6.5. Produção anual de frangos (em milhões, X) e correspondente preço (em
US$/50 kg, Y), nos Estados Unidos, no período 1950-59, correspondentes
valores ajustados e resíduos da regressão de Y em relação a X, e desvios
padrões e intervalos de confiança para os valores ajustados.
j xj Yj ŷ j ê j s ŷ j EIj ESj
1 73 18,0 18,78 -0,78 0,713 17,14 20,42
2 79 20,0 16,58 3,42 0,819 17,69 18,47
3 80 17,8 16,21 1,59 0,903 14,13 18,29
4 69 21,4 20,24 1,16 1,036 17,85 22,63
5 66 21,6 21,35 0,25 1,361 18,21 24,49
6 75 15,0 18,04 -3,04 0,654 16,53 19,55
7 78 14,4 16,94 -2,54 0,748 15,22 18,67
8 74 17,8 18,41 -0,61 0,672 16,86 19,96
9 74 19,6 18,41 1,19 0,672 16,86 19,96
10 84 14,1 14,74 -0,64 1,316 11,71 17,78
Soma 752 179,7 179,70 0
A Figura 6.6 mostra a representação gráfica dos valores observados, da reta de quadrados
mínimos ajustada e do resíduo para uma observação.
Uma hipótese fundamental na análise de regressão linear simples diz respeito à linearidade da
forma da relação entre a variável resposta e a variável explanatória. A hipótese estatística
correspondente é especificada como segue:
H 0: b = 0
H A : b ≠ 0
Um critério para o teste dessa hipótese é provido pela seguinte estatística t:
ˆ
|b|
t= ,
s b̂
onde s b! é a estimativa do desvio padrão da estimativa do coeficiente de regressão b, isto é, a raiz
quadrada da estimativa da variância da estimativa de b:
1
s 2bˆ = s 2Y:X .
SQX
Sob a hipótese de nulidade (H0: b=0), esta estatística tem distribuição t (de Student) com os graus de
liberdade da estimativa da variância do erro, ou seja, n-2.
Exemplo 6.6 (continuação). Para o Exemplo 6.6, tem-se b! = -0,367 e:
4, 267
s 2b̂ = = 0,01684;
253, 6
donde:
s b! = 0,01684 = 0,12976.
Então:
| − 0, 367|
t= = 2,8283,
0,12976
a ser comparado com o ponto percentual bilateral superior da distribuição t (Tabela A2) para 8 graus
de liberdade da estimativa da variância do resíduo, ou seja:
2,306, P = 0,05
t 8; P =
3,355, P = 0,01
6. Análise de Regressão e Correlação Linear Simples 239
Como o valor calculado da estatística para os dados está compreendido entre estes dois valores da
tabela, rejeita-se a hipótese de nulidade, concluindo-se que há uma relação linear significativa (P<0,05)
entre o preço do frango comercializado e a quantidade de frango produzido.
O desvio total de uma observação particular em relação à média de todas as observações pode
ser decomposto em dois desvios, conforme ilustrado na Figura 6.7:
y j − y = ( y! j − y ) + ( y j − y! j ) ,
onde:
ŷ j − y : desvio atribuível à regressão, isto é, à grandeza do coeficiente de regressão b;
y j − ŷ j : desvio devido ao afastamento do valor observado de Y em relação à linha de
regressão ajustada, ou seja, o resíduo.
240 Estatística Experimental. 2. Análise Estatística de Experimentos
n n
∑ ( y! j − y) 2 = b! 2 ∑ ( x j − x ) 2 =
j =1 j =1
= b! 2 SQ X .
Correspondentemente à decomposição da variação total, os n-1 graus de liberdade para o total
das n observações também são decompostos em 1 grau de liberdade correspondente à estimativa do
coeficiente de regressão e n-2 graus de liberdade correspondentes ao resíduo.
Essa decomposição da variação da variável resposta Y é usualmente efetuada com o auxílio da
seguinte "tabela da análise da variação":
Fonte de variação GL SQ QM F
Regressão 1 SQ R QM R QM R/QM D
Desvio n-2 SQ D QM D
Total n-1 SQ Y
onde:
SQ D = SQ Y – SQ R (SQ R: SQ Regressão)
QM R = SQ R,
QM D = SQ D/(n-2).
Demonstra-se que o QM D = s 2Y:X é um estimador não tendencioso da variância do desvio da
n
regressão σ2Y:X , isto é, que: E(QM D) = σ2Y:X , e que E(QM R) = σ 2Y:X + b 2 ∑ (x j − x) 2 . Por outro lado,
j=1
ambos os quadrados médios QM D e QM R são estatisticamente independentes. Logo, a estatística F =
QM R/QM D tem distribuição F com 1 e n-2 graus de liberdade correspondentes à QM R e QM D,
respectivamente. Dessa forma, a estatística F = QM R/QM D é um critério para o teste da hipótese de
linearidade da relação entre Y e X:
H0: b = 0
HA: b ≠ 0
Essa estatística F é um critério equivalente à estatística t para o teste desta mesma hipótese. De fato,
demonstra-se que F = t2.
Exemplo 6.6 (continuação). Para os dados do Exemplo 6.6, tem-se:
SQ Regressão = (-0,367)(-93,04) = 34,16,
SQ Total = 68,32,
SQ Resíduo = SQ Total – SQ Regressão
= 68,32 - 34,16 = 34,16.
A análise da variação é completada na seguinte tabela:
Se o nível de significância (erro tipo I) escolhido para o teste foi α = 0,05, dado que F >
F(0,05), rejeita-se a hipótese H0. Conclui-se que há uma relação linear significativa (P < 0,05), no caso
negativa, entre a variável Y (preço de frango) e a variável X (quantidade de frango comercializado),
isto é, que o preço de frango decresce significativamente com o aumento da quantidade de frango
produzido.
Essa conclusão é a mesma obtida anteriormente pelo teste t. De fato, pode-se verificar que: t 82
= F1;8.
Exemplo 6.6 (continuação). Retorne-se aos dados do Exemplo 6.6, referentes à quantidade
anual de frangos comercializados e correspondentes preços no período de 1950 a 1959. A questão
básica de interesse é a seguinte: os dados confirmam a associação linear negativa esperada entre oferta
6. Análise de Regressão e Correlação Linear Simples 245
e preço nesse período (ou seja, maiores produções são acompanhadas de preços mais baixos)? Esse fato
aparentemente evidenciado pelo diagrama de pontos da Figura 6.5 que revela a tendência geral dos
pontos à esquerda situarem-se em posição mais elevada do que os pontos à direita. Entretanto, para
quem esperasse uma associação bastante elevada entre demanda e preço, a dispersão dos pontos
mostrada nessa figura pode ser desapontadora. Os pontos parecem situar-se dentro de uma elipse, o que
é típico de diagramas que correspondem à associação de grau médio.
Utilizando resultados anteriores, obtém-se a estimativa do coeficiente de correlação linear:
−93, 04
r= = − 0, 7068 .
(253, 60)(68, 32)
Tem-se:
SP XY SP XY SQ X
r= = ×
SQ X SQ Y SQ X SQ Y SQ X
SP XY SQ X SQ X
= × ˆ
= b× ,
SQ X SQ Y SQ Y
ou seja:
SQ X
r = bˆ .
SQ Y
Essa relação implica que o coeficiente de correlação linear simples tem o mesmo sinal do
coeficiente de regressão linear simples.
Essas relações são particularmente importantes porque permitem a derivação do coeficiente de
correlação linear simples a partir do coeficiente de determinação ou do coeficiente de regressão.
246 Estatística Experimental. 2. Análise Estatística de Experimentos
253, 60
= −0,367 = −0, 7068 .
68, 32
6.6 Exercícios
1. Um experimento foi realizado com o objetivo de verificar se existe uma relação linear entre a
quantidade de fósforo no tecido da planta de uma cultivar de feijão e a quantidade de fósforo
adicionada ao solo como fertilizante. A quantidade média de fósforo no tecido das plantas colhidas
das parcelas para análise (em ppm, Y) e as correspondentes doses de fósforo aplicadas ao solo (em
kg/ha, X) são dadas a seguir:
X: 0 20 40 60 80
Y: 0,2 0,3 0,5 0,6 0,8
e) Redija a conclusão referente à adequabilidade da relação linear, com base nos resultados obtidos
nos itens b e c.
2. Em um experimento em que se estudou o efeito do nível de água aplicada através de irrigação sobre
o rendimento de grãos de arroz irrigado foram obtidos os seguintes resultados:
Soma
Nível de água (X): 12 18 24 30 36 42 48 210
Produção (Y): 5,27 5,68 6,25 7,21 8,02 8,71 8,42 49,56
A soma dos produtos para as variáveis X e Y, corrigida para as correspondentes médias, é 103,68.
a) Especifique as pressuposições para o ajustamento do modelo de regressão linear E(Y) = a+bX.
b) Efetue o ajustamento do modelo de regressão linear especificado no item anterior.
c) Teste a hipótese H0: b=0 contra a alternativa HA: b≠0.
d) Interprete o significado geométrico dos coeficientes a e b do modelo de regressão linear
simples.
e) Calcule e interprete o coeficiente de determinação.
f) Redija as conclusões.
3. No estudo da relação linear entre duas variáveis negativamente correlacionadas foram obtidos os
seguintes dados:
x = 0 ; y = 12 ; sx=8; sy=10; e r2=0,64.
Determine a estimativa da equação de regressão linear de Y em relação a X.
4. Decida se cada uma das seguintes sentenças é verdadeira ou falsa, indicando as letras V e F entre
parênteses, respectivamente. Se a sentença for falsa, explique porque.
( ) A frase "regressão de Y em relação a X" indica uma relação negativa entre as variáveis Y e X.
( ) Unidades de medida podem afetar tanto a magnitude como a significância da declividade da
reta de regressão ajustada.
( ) A linha de regressão ajustada é chamada "linha de quadrados mínimos" porque, para ela, a
soma dos quadrados dos desvios entre os valores observados e os valores ajustados é menor
do que para qualquer outra linha reta ajustada aos pontos da reta.
( ) A linha reta sempre passa pela origem.
( ) Se a variável independente é medida em gramas e a variável dependente em centímetros, então
a declividade da reta de regressão ajustada é expressa em gramas por centímetro.
( ) Se o coeficiente de regressão linear b é igual a 1, todos os pontos da amostra ficam sobre a reta
de regressão ajustada.
( ) Se o coeficiente de regressão linear b é igual a zero, nenhum dos pontos da amostra fica sobre
a reta de regressão ajustada.
( ) Se a declividade da linha de regressão que relaciona o volume de um bolo com a quantidade
de farinha é 4,1 cm3/g, isto significa que para cada grama adicional de farinha o crescimento
médio em volume do bolo será 4,1 cm3.
( ) A soma dos produtos dos desvios de duas variáveis é sempre positiva.
6. Análise de Regressão e Correlação Linear Simples 249
( ) A soma dos quadrados dos desvios da regressão mede a variação que não é explicada pela reta
de regressão.
( ) Com outras condições constantes, quanto maior a soma dos quadrados dos desvios da
regressão, é mais provável que a declividade da reta de regressão seja significativamente
diferente de zero.
( ) A soma dos quadrados dos desvios da regressão não pode ser maior que a soma de quadrados
total.
( ) Se a declividade da reta de regressão ajustada é um valor numérico grande, a relação entre Y e
X é forte.
( ) Se todos os valores da amostra ficam sobre a reta de regressão ajustada, a soma de quadrados
total é igual a zero.
( ) Uma das pressuposições da análise de regressão é que a variável dependente tem distribuição
normal.
( ) Em testes de significância referentes ao coeficiente de regressão b pressupõe-se que Y tem a
mesma variância para todos os valores fixos de X.
( ) Aceitar a hipótese de nulidade da declividade da reta de regressão é decidir que não há relação
linear entre Y e X.
( ) Aceitar a hipótese de nulidade do coeficiente de correlação linear é decidir que não há relação
entre Y e X.
( ) Quando cresce o grau de associação de duas variáveis, melhora o ajustamento da reta de
regressão.
( ) Quanto maior é a magnitude de r, mais forte é a relação linear entre X e Y.
( ) Quando calcula um coeficiente de correlação, o experimentador pressupõe que há uma relação
de causa-efeito entre X e Y.
( ) Em inferências referentes ao coeficiente de correlação, os valores de X podem ser fixos ou
provenientes de amostragem aleatória, mas os valores de Y devem provir de uma amostra
aleatória.
( ) Se os papéis de X e Y são trocados, a equação de regressão permanece a mesma.
( ) Se os papéis de X e Y são trocados, o coeficiente de correlação permanece o mesmo.