Você está na página 1de 20

Correlação

e
Regressão

Professor Moisés Balassiano


CAPÍTULO 1
INTRODUÇÃO

Até agora, estivemos interessados em conhecer as características de uma distribuição,


expressas pelos dados obtidos de uma população ou de uma amostra. Assim, podemos
conhecer alguns aspectos da composição das turmas deste curso, por meio das variáveis
associadas aos alunos das turmas. Dependendo do aspecto a ser explorado, definimos um
elenco de variáveis e, em função dos parâmetros calculados podemos analisar a população
(amostra) sob investigação à luz das suas características.

Como exemplo, no início do curso levantamos dados sobre o Sexo (X1), Idade (X2), Peso (X3)
e Altura (X4) dos alunos e com base nas medidas estatísticas calculadas com os dados
obtidos pudemos analisar a composição das turmas por sexo, pelas médias das variáveis,
como as características variavam em cada turma, o nível de assimetria das características,
etc. Pudemos, também, fazer comparações entre as turmas e cada turma em relação à
população como um todo. Naquele momento, no entanto, não pensávamos em explicar as
variações das características, ou buscar associar cada característica com outras.

Nesta unidade, ainda estaremos estudando o comportamento de uma particular variável.


Porém, estaremos introduzindo na análise outras variáveis, buscando avaliar o grau de
associação entre elas. Deste modo, trabalhando com duas variáveis simultaneamente,
estaremos incorporando ao estudo, além das características de cada variável per se, uma
informação valiosa, qual seja, como essas variáveis se comportam quando analisadas
conjuntamente. Por exemplo, podemos estudar a possível relação entre o montante de
horas estudadas semanalmente com os resultados dos alunos numa prova, ou o salário das
pessoas e o nível de instrução, ou ainda a empregabilidade com o nível de instrução e por aí
vai.

Nesse estudo, estaremos trabalhando exclusivamente com variáveis quantitativas,


intervalares ou de razão. Não obstante, variáveis qualitativas também podem ser
incorporadas em estudos dessa natureza. A variável de interesse, aquela que será o objeto
do estudo, é denominada variável dependente, endógena, explicada ou resposta, enquanto a
outra variável será denominada como independente, exógena, explicativa, explanatória ou
preditora.

Nos capítulos que se seguem será vista, primeiramente, a questão da associação entre as
variáveis. Posteriormente, definimos o modelo linear a duas variáveis, tratamento,
estimação dos coeficientes e método de se analisar as variações envolvendo a variável de
interesse. Segue-se a análise e teste do modelo e, finalmente, a avaliação das premissas e
de possíveis outliers.

2
CAPÍTULO 2
CORRELAÇÃO

Considere a tabela abaixo contendo os dados oriundos de uma amostra constituída de 10


alunos deste curso. Foram levantadas as idades (X), em anos, e os pesos (Y), em kg, desses
alunos.

Idades (X) Pesos (Y)


25 75
27 89
24 70
28 82
23 70
26 85
30 84
28 80
26 78
23 67

Podemos dispor esses dados em um gráfico denominado Diagrama de Dispersão, conforme


abaixo:

Pelos pontos dispostos nesse gráfico percebemos que existe um certo padrão envolvendo
essas duas variáveis. Mais ainda, podemos dizer que há uma associação positiva entre elas,
no sentido que para uma variação de uma unidade numa variável, digamos Idade,
corresponderá uma variação no mesmo sentido na outra variável, Peso. Em outras palavras,
pessoas mais idosas tendem a ter maior peso. Pode-se também, em princípio, antecipar que
a relação é aproximadamente linear, isto é, que as variações correspondentes à variável
Peso são proporcionais às da variável Idade. A questão que se coloca, então, é saber o quão
relacionadas essas variáveis estão. O grau da associação entre elas. Para isso, façamos uma
mudança na origem dos dados, definindo um novo sistema coordenado passando pelo ponto
das médias das medidas de acordo com o gráfico abaixo.

3
y
Y

II I

IV
III
X

Note que ao trocarmos de escala de X para x = X - X e de Y para y = Y - Y , estamos


fazendo do ponto ( X ; Y ) a nossa nova origem do plano xoy. Note, ainda, que há uma
observação que representa esse ponto, isto é, uma pessoa cuja idade e peso medem,
respectivamente, 26 e 78, as médias das duas variáveis. Ao fazermos tal transformação,
estamos definindo no novo espaço quatro quadrantes.

Considere, agora, o produto x.y (ou (X - X ).( Y - Y ) na escala anterior). Se somarmos


todos esses produtos e dividirmos por (n-1) teremos uma idéia do tipo de variação conjunta
das duas variáveis. Caso o resultado seja positivo, significa que a maior parte dos pontos
está concentrada em torno dos quadrantes I e III, ao passo que se o resultado for
negativo a concentração dos pontos estará em torno dos quadrantes II e IV. No primeiro
caso, teríamos a informação que a variação conjunta é positiva: a um aumento de uma
unidade em uma das variáveis corresponderá um aumento proporcional na outra. No
segundo, a variação conjunta seria negativa: a um aumento em uma das variáveis
corresponderá uma diminuição na outra. Quando houver uma nuvem de pontos distribuídos
em torno dos quatro quadrantes, a variação conjunta será aproximadamente zero e dizemos
que não há associação entre as variáveis.

Definimos, assim, uma medida de associação que mede como as variáveis estão relacionadas
(positiva ou negativamente), por meio da medida de variação conjunta ou COVARIÂNCIA:
n n
∑ x.y ∑ (Xi − X ).( Yi − Y )
i=1 i=1
Sxy = = .
n −1 n −1

Embora tenhamos a informação de como as variáveis estão relacionadas, o resultado dessa


medida é pouco informativo. A sua ordem de grandeza depende da unidade utilizada na
mensuração das variáveis. Se a idade fosse em décadas e/ou o peso em libras, por exemplo,
o valor da covariância iria variar, sem que necessariamente o grau da associação entre as
variáveis se alterasse. Para evitar esse problema, e fixarmos uma medida do grau da
relação entre as variáveis, trabalhamos com as variáveis na forma padronizada, definindo
uma medida adimensional da associação entre elas: o coeficiente de correlação linear de
Pearson.

De acordo com o estabelecido acima, esse coeficiente é expresso na seguinte forma:

4
n

∑ (X − X ).(Y − Y )
i=1
i i
rxy = .
(n − 1) Sx Sy

Concluímos, então, que o coeficiente de correlação nada mais é do que a covariância entre
as variáveis, quando expressas na forma padronizada. Seu intervalo de variação é [-1 ; 1].
Como a covariância, quando positiva, a correlação indica que as variáveis são diretamente
relacionadas e quando negativa, que as variáveis são inversamente relacionadas.
Usualmente, dizemos que a correlação é forte quando seu valor absoluto for de pelo menos
80%.

Uma observação importante: o coeficiente de correlação mede o grau da associação


LINEAR entre as variáveis, portanto, caso seu valor esteja próximo de zero, não significa,
necessariamente ausência da relação. Simplesmente as variáveis não são linearmente
associadas, podendo estar associadas de modo curvilíneo, por exemplo.

Outra observação é que as fórmulas acima fornecem a covariância e o coeficiente de


correlação para os dados amostrais. Caso os dados sejam oriundos de uma população deve-
se utilizar N ao invés de (n – 1) no denominador e também as médias serão as da população.
A notação do coeficiente de correlação da população é a letra grega ρ (ro).

Considerando o exemplo da distribuição das idades e dos pesos, temos, inicialmente, as


estatísticas descritivas:
Estatísticas Descritivas

Média Desvio
Idade (anos) 26 2,309
Peso (kg) 78 7,333

A matriz das covariâncias apresenta, na diagonal principal o valor das variâncias de cada
variável e fora da diagonal as covariâncias. Note que a covariância de uma variável com ela
mesma, nada mais é do que a variância da variável.

Matriz das Covariâncias


Idade (anos) Peso (kg)
5,3 13,7
13,7 53,8

A matriz das correlações apresenta a unidade na diagonal principal, porque a correlação de


uma variável com ela mesma é 1. Fora da diagonal apresenta a correlação entre as variáveis.
Nos dois casos, covariância e correlação, as matrizes são simétricas, obviamente.

Correlação de Pearson
Idade (anos) Peso (kg)
1,000 0,807
0,807 1,000

Concluímos que as idades e os pesos são fortemente e diretamente relacionados.

5
CAPÍTULO 3
O MODELO LINEAR A DUAS VARIÁVEIS

Conceitualmente um modelo pode ser caracterizado com uma representação teórica da


realidade que se deseja investigar. Os modelos podem ser classificados de várias maneiras,
dependendo da área de estudo, do número de variáveis e de outros fatores. No presente
caso seria importante a distinção entre um modelo determinístico e um probabilístico.

Um modelo é dito determinístico quando expressa uma relação exata entre as variáveis que
o compõem. Seus parâmetros são obtidos diretamente por uma transformação ou calculados
em função de outros. Nos modelos determinísticos os parâmetros não são estimados
através de amostras. Por exemplo, sabemos que num triângulo retângulo, o quadrado da
hipotenusa é obtido pela soma do quadrado dos catetos. Isto é sempre verdadeiro
independentemente das dimensões do triângulo. Outro exemplo de um modelo
determinístico é fornecido pela teoria das medidas, que nos permite transformar uma
medida expressa em graus Fahrenheit para graus Celsius pela relação:

C = 59 F − 160
9

Geralmente, o grau de certeza que depositamos nas relações expressas por modelos
determinísticos é denominado certeza lógica.

Um modelo é dito probabilístico quando seus parâmetros são estimados com base em
observações amostrais e inferidos na população de interesse. Na medida em que cada
amostra nos levará a estimativas diferentes, haverá sempre uma flutuação entre o valor do
parâmetro estimado e o verdadeiro, mas desconhecido, valor do parâmetro na população. A
esta flutuação chamamos erro amostral que, por ser não observável, impõe uma série de
premissas. Logo, um modelo probabilístico é constituído de duas parcelas: uma
determinística, que expressa a forma analítica da relação entre as variáveis; e outra
aleatória (probabilística), que expressa a diferença entre o valor observado da variável
explicada na amostra e seu verdadeiro valor na população. Ao contrário dos modelos
determinísticos que são sempre verdadeiros, os modelos probabilísticos podem ter a sua
veracidade testada antes de utilizados. O grau de certeza que depositamos nas
inferências feitas com base nesses modelos é denominado certeza probabilística ou
certeza estatística.

Como exemplo de um modelo probabilístico, suponha que uma fábrica produza peças de
reposição e aloca a mão de obra mensalmente no processo de produção de acordo com a
demanda pelo produto. O total produzido em um mês pode ser estimado se tivermos uma
série de observações (Xi,Yi), onde Xi representa o total de mão de obra alocada no mês i
(variável independente), e Yi o total de peças produzidas naquele mês (variável
dependente). O quadro abaixo apresenta uma amostra de 10 meses de observações. Ao
plotarmos os pontos num diagrama de dispersão teremos uma idéia preliminar do tipo de
relação funcional existente entre as variáveis, assim como fizemos quando avaliamos a
associação entre as variáveis no capítulo anterior.

6
mês peças mão de obra
(1.000) (homens-
hora)
1 51 20
2 68 30
3 72 30
4 89 40
5 108 50
6 125 60
7 130 60
8 135 60
9 150 70
10 170 80

De acordo com os dados acima, construímos um diagrama de dispersão conforme o gráfico


abaixo pare melhor visualizar um padrão na relação envolvendo as variáveis. Segundo o
gráfico, podemos concluir que existe, efetivamente, uma relação positiva entre a mão de
obra alocada e a quantidade de peças produzidas, como seria de se esperar. Traçando uma
linha vertical e outra horizontal pelas médias das variáveis, notamos que praticamente
todos os pontos estão concentrados nos quadrantes I e III, confirmando essa conclusão.

y
Y180
160

140
Pecas (1.000)

120

x
100

80

60

40
10 20 30 40 50 60 70 80 90
X
Mão de Obra (homens-hora)

Se há um padrão de comportamento envolvendo as duas variáveis, seria razoável tentar


ajustar o conjunto de pontos observados a uma função matemática f(X) que possibilite
fazer projeções sobre uma delas, Y, em função de valores observados da outra, X. Nesse
caso, estamos querendo conhecer a quantidade de peças produzidas em função da
quantidade de homens-hora alocada ao processo. Para isso, assumindo um padrão de relação
linear entre as variáveis, fazemos passar uma reta que aponte a tendência do
comportamento expresso pelos pontos (X,Y) observados. Essa reta fornece os valores
estimados, Ŷ , da variável dependente, quantidade de peças, para diferente valores da
variável independente Mão de Obra. Note que o ponto relativo às médias das observações,
(50 , 110), pertence à reta estimada. Observe, ainda, que a reta não passa por todos os
pontos, senão por alguns, logo podemos expressar cada valor observado Y como a soma de
duas parcelas: uma fornecida pela reta, Ŷ , e outra relativa a um resíduo, definido pela
distância vertical entre o ponto Y e a reta Ŷ para cada valor X, na amostra.

7
Então, definidas as variáveis que serão objeto da nossa investigação, e antecipada a forma
linear da relação entre elas, postulamos, matematicamente o modelo de regressão linear
simples para a população como:
Y = β 0 + β1 X + ε ,
onde: Y é o vetor contendo as observações da variável explicada na população;
X é o vetor contendo as observações da variável explicativa na população;
βo é o coeficiente linear do modelo, na população;
β1 é o coeficiente angular do modelo na população; e
ε é o vetor n-dimensional relativo ao erro amostral de cada observação na
população.

O coeficiente linear, ou intercepto, βo é entendido como o valor da variável explicada


quando a variável explicativa for igual a zero e é expressa na mesma unidade de medida de
Y. O coeficiente angular, ou inclinação, β1 fornece a variação em Y para uma unidade de
variação em X, sendo expresso na unidade de Y sobre a de X. Assim, no nosso exemplo, βo
fornece a quantidade de peças produzidas, em 1.000 unidades, quando nenhuma mão de
obra é alocada, enquanto a inclinação β1 fornece a quantidade de peças que serão
produzidas para cada homem-hora a mais alocado ao processo (1.000 unidades por homem-
hora).

O erro é uma variável aleatória não observável e é estimado pelos resíduos, isto é, a
diferença entre o valor observado Y, e o estimado pela reta, Ŷ . A inclusão desse termo no
modelo pode ser justificada por:
1. erros na mensuração das variáveis;
2. não inclusão de variáveis relevantes para explicar o comportamento de Y; e
3. problema na especificação da forma linear à relação funcional entre X e Y.

Conseqüentemente, podemos concluir que o modelo linear é composto por dois componentes:
• determinístico: βo + β1 X; e
• probabilístico: erro aleatório ε.

Outros modelos com componente determinístico não linear muitas vezes podem ser
linearizados por meio de uma transformação na escala em que a variável explicativa e/ou
explicada é medida. Por exemplo, suponha que a relação entre X e Y tenha um componente
determinístico na forma:
Y = Xβ .
Esta relação pode ser linearizada se aplicarmos logaritmos a ambos os membros da
igualdade, o que resultará em:
log Y = β logX .
Fazendo log Y = Z e
log X = V, ficamos com a nova relação
Z = V β+ ε ,
que é linear nas novas variáveis, Z, V e no parâmetro β.

O que irá ditar a forma da relação funcional envolvendo as variáveis X e Y é a distribuição


dos pontos no diagrama de dispersão. Da identificação da forma como os pontos estão
evoluindo é que se poderá antecipar a função com que iremos trabalhar.

8
Premissas do Modelo Linear

Todo modelo probabilístico requer o estabelecimento de premissas sob as quais ele deve
funcionar. Isto porque a natureza aleatória do componente probabilístico ε não permite
uma verificação direta da acuidade do modelo. Muitas vezes, no entanto, tais premissas
são violadas e devemos fazer as alterações necessárias para que o modelo volte a funcionar
adequadamente, isto é, para que os parâmetros estimados possam produzir resultados
acurados.

As premissas básicas para o nosso modelo são:


1. Y = β 0 + β1 X + ε ;
2. εi é uma variável aleatória com média E(εi) = 0 e variância σ 2ε , desconhecida;
3. εi tem distribuição normal N(0, σ 2ε ), para todos os valores observados de X;
4. Os erros são independentes, E(εi, εj) = 0, para dois valores quaisquer de X.

A primeira premissa representa a nossa crença na linearidade da relação funcional entre as


variáveis. As premissas 2 a 4 são as mais importantes e têm um papel fundamental na teoria
da regressão. Dizer que para cada observação de X o valor esperado do erro amostral é
nulo, é dizer que as diferenças, positivas e negativas, entre todos os possíveis valores
observados Y, e a verdadeira reta na população, se cancelam. A premissa 2 estabelece
ainda que as variâncias dos erros são iguais para todas as observações, isto é, a
distribuição dos erros, para cada possível observação de X na população, tem igual
variabilidade. A premissa da normalidade na distribuição dos erros pode ser aceita como
conseqüência do Teorema do Limite Central, principalmente quando o número de
observações é elevado para cada valor de X, e não se constitui em grandes prejuízos para a
acuidade das estimativas quando violada. A premissa 4 significa que a distribuição dos
erros referentes a duas observações quaisquer de X são independentes entre si, ou seja, a
ordem de grandeza do possível erro de uma observação não afeta a grandeza de qualquer
outra observação que venha a ser feita.

Testes estatísticos ou procedimentos ad hoc são realizados para averiguar a extensão da


veracidade das premissas acima.

A importância da premissa de normalidade para os erros, no entanto, está no fato de que


com ela podemos testar hipóteses acerca dos verdadeiros parâmetros na população, com
base nos parâmetros estimados com base nas observações de uma amostra. Sem esta
premissa, apenas poderíamos estimar os parâmetros, como será visto na próxima sessão,
mas não teríamos meios de testá-los, pois ficaria faltando uma distribuição de
probabilidade para conduzir o teste. Como conseqüência da normalidade de ε, Y também
terá distribuição normal, pois está linearmente relacionada com aquele termo.

Uma dificuldade natural é entender o que se quer dizer com “para cada valor observado de
X”. Imagine que para cada quantidade de mão de obra que pudéssemos alocar no processo
de produção (30, 35, 40, ..., 90) nós observássemos a quantidade de peças produzidas por
várias fábricas. Dificilmente teríamos o mesmo valor em função de variações não explicadas
inerentes às especificidades de cada processo (diferentes tecnologias, treinamento dos
operários, etc.). Então, para cada valor fixo de X (30, 35, 40, ..., 90) nós teríamos uma
distribuição de valores referentes às quantidades de peças produzidas pelas diferentes
fábricas. É a distribuição das diferenças entre as quantidades produzidas e a reta da

9
população, que chamamos erro, a que nos referimos para cada valor de X, na população. O
gráfico abaixo poderá ilustrar melhor o que se quer dizer, bem como explica melhor cada
premissa do modelo. No gráfico temos os eixos das variáveis e o da distribuição de
probabilidade dos erros, que de acordo com a premissa 3 é Normal. Note que as curvas das
distribuições são a mesma para os dois valores de X, indicando a mesma variabilidade, e que
a média da distribuição é centrada na reta da população, o que significa que o erro é nulo.
Finalmente note que para cada valor de X as curvas são separadas, indicando a
independência entre elas para duas observações de X. Abaixo da curva, sobre a linha
horizontal, estão todos os possíveis valores de Y associados a um mesmo valor de X e a
curva representa a distribuição de freqüência dos erros de cada observação (Y – f(X)).

f(εε)

Y
X1

X2
X3
f(X) = βo + β1

Estimadores de Mínimos Quadrados

Como o modelo apresentado refere-se aos dados da população, e como os dados com que
trabalhamos são, invariavelmente, oriundos de uma amostra, a questão agora se resume em
se estabelecer um critério para se estimar os parâmetros da reta. Sabemos que uma reta
fica perfeitamente caracterizada quando conhecemos os seus coeficientes (linear e
angular). No caso temos três parâmetros para estimar: os dois coeficientes e a variância
dos erros, σ 2ε . Temos definido acima o conceito de erro, para os dados da população, e
mencionamos que estimamos esses valores pelos resíduos, definidos como a diferença entre
os dados observados, Y, na amostra, e os estimados pela reta, Ŷ = bo + b1 X. Para estimar
os parâmetros da população, βo e β1, por bo e b1, precisamos definir um critério. O critério
dos Mínimos Quadrados permite a estimação daqueles parâmetros por meio da minimização
da soma dos valores residuais de todas as observações da amostra, elevados ao quadrado.
Isto equivale a dizer:
n n 2 n
min ∑ ei2 = min ∑  Yi − Ŷi  = min ∑ (Yi − bo − b1 X )2 .
i=1 i=1   i=1

10
Estimando os coeficientes da reta e a variância dos erros por esse método, obtemos a
melhor reta que pode ser obtida para explicar a tendência na relação entre as duas
variáveis e a variância dos erros. Como resultado da minimização acima chegamos às
equações normais da reta:
Y = b0 + b1 X

∑ x.y para x = (X - X ) e y = (Y - Y ).
b1 = i

∑ x2
i

∑ (Yi − Ŷi ) 2
σ 2ε = Sε2 =
Além disso, ˆ i
estima a variância dos erros pela variância residual.
n −2

Esses valores são fornecidos pelos pacotes estatísticos e pelo Excel, de modo que não há
necessidade de se guardar as fórmulas para cálculos a mão. No entanto, uma rápida
observação na primeira equação normal, notamos que um particular ponto pertence à reta: o
ponto constituído pelas médias das variáveis, ( X , Y ). No exemplo das peças produzidas e
mão de obra alocada, notamos que o ponto (50, 110) pertence à reta. O gráfico permite
também uma visualização deste fato. Utilizando a opção Regressão, da ferramenta de
Análise de Dados, o Excel fornece os valores do coeficiente Intercepto (bo = 10,1) e o da
inclinação, referente à variável mão de obra (b1 = 2,0), com uma casa decimal. A
interpretação desses coeficientes é que, caso nenhuma mão de obra se alocada ao processo
de fabricação das peças, seriam produzidas 10 (mil) peças, o que carece de sentido, e que
para cada homem-hora adicional, seriam produzidas 2 (mil) peças. A falta de sentido do
intercepto é resultante do problema da escala com que as variáveis foram obtidas.
Nenhuma observação próxima de 0 mão de obra foi feita sendo todos valores referentes à
mão de obra observados a partir de 35 homens-hora, mesmo porque não haveria sentido em
se registrar tal observação. Por esse motivo, nós iremos concentrar nossos esforços no
teste e interpretação apenas da inclinação.

Avaliação do Modelo

Obter a equação da reta não nos autoriza a utilizá-la para fazer as previsões e inferências
que se deseja fazer. Antes, algumas avaliações devem ser realizadas para se ter alguma
idéia da eficácia e adequação do modelo. Caso nenhuma variável explique as variações de Y,
provavelmente podemos trabalhar apenas com a variável Y, de modo unidimensional, e
resumir todas as observações de Y pela sua média.

Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o coeficiente de correlação


seria uma primeira possibilidade. Como ele mede o grau de associação linear entre as
variáveis, sempre que a premissa 1 for satisfeita (linearidade na relação), a correlação
poderia indicar a adequação da reta aos dados (ou seria o contrário?). Quanto maior o valor
de r, mais confiança nós teremos no modelo. Outra medida de adequação é o coeficiente de
determinação do modelo, expresso pelo percentual da variação total de Y que é explicada
pelo modelo. Para melhor entendimento desse conceito, considere o gráfico abaixo:

11
Observado (Yi)
NÃO-EXPLICADA
Y

Reta de regressão

TOTAL Previsto ( Ŷ i)

EXPLICADA

Y

X
Xi

De acordo com o gráfico acima, para um particular valor de X podemos associar três
possíveis pontos envolvendo valores de Y: o par de valores observados (X,Y); o par com o
valor estimado, ou previsto, de Y, sobre a reta de regressão (X, Ŷ ); e, finalmente o par
com a média de Y, (X, Y ). Da mesma forma, definimos três distâncias envolvendo os
valores de Y: a distância total (Y - Y ); a não explicada pela reta, obtida pelo resíduo (Y -
Ŷ ) e a explicada pela reta ( Ŷ - Y ). Pode-se provar que a distância total é igual à não
explicada mais a explicada, conforme o gráfico.

Definimos como medida de variação a soma das distâncias ao quadrado. Podemos provar que
a variação total pode ser desmembrada pela variação não explicada e a explicada, ou seja:
Σ (Y - Y )2 = Σ (Y - Ŷ )2 + Σ ( Ŷ - Y )2 .

A medida de variação total, à esquerda do sinal de igualdade, não depende dos valores de X,
logo, independentemente da variável explicativa no modelo, a variação total não se altera.
As parcelas à direta do sinal de igualdade, no entanto, dependem dos valores de X, que
resultarão em Ŷ . Portanto, como a variação total é fixa, o modelo será tanto melhor quanto
maior for a variação explicada, o que resulta em uma menor variação não explicada.
Dividindo-se ambos os membros pela variação total, ficamos com:

1=
∑ (Y − Ŷ) 2 + ∑ ( Ŷ − Y ) 2 .
∑ (Y − Y ) 2 ∑ ( Y − Y ) 2
A primeira parcela da soma à direita do sinal de igualdade expressa o percentual da
variação total não explicada pelo modelo enquanto a segunda parcela é a percentagem da
variação total que é explicada pelo modelo. A esta última dá-se o nome de coeficiente de
determinação, cuja notação é r2. Quanto maior for esse coeficiente, melhor será o modelo,
pois maior a capacidade da variável independente em explicar a variação da variável
dependente. Sendo o quadrado do coeficiente de correlação, o coeficiente de determinação
varia entre 0 e 1.

12
Finalmente, uma medida absoluta de avaliação do modelo é a raiz quadrada da variância
residual, conhecida como erro padrão de estimativa do modelo, Sε = Sε2 . Quanto maior
for o valor desta medida, pior será o modelo. Por ser uma medida absoluta, essa medida
deve servir como um parâmetro de escolha entre duas possíveis variáveis independentes
candidatas a explicar Y pelo modelo linear: a que tiver o menor valor de Sε deverá ser a
escolhida.

13
CAPÍTULO 4
TESTES DO MODELO: ANOVA E T DE STUDENT

Como visto no capítulo anterior, a variação total da variável dependente é invariável à


presença da variável independente. Vimos ainda que esta variação pode ser desmembrada
entre as variações explicada e não explicada pelo modelo. Portanto, faz sentido testarmos
até que ponto vale a pena a incorporação de X no modelo. Em princípio, bastaria comparar a
variação explicada com a não explicada e se a primeira fosse maior do que a segunda, maior
a evidência da adequação da incorporação da variável independente, X, no modelo. Esta é a
idéia que está por trás da Análise da Variância: achar a razão entre a variação explicada
pela não explicada para ver se ela é grande.

Considere a tabela de ANOVA abaixo. Ela foi extraída do exemplo das peças produzidas em
relação à mão de obra alocada.

Fontes de Graus F de
Variação de lib. SQ MQ F significação
Regressão 1 13.520,12 13520,12 1.703,8 1,31E-10
Resíduo 8 63,48 7,93
Total 9 13.583,60

Na primeira coluna definimos as três fontes de variação: a variação total; a não explicada,
ou devida aos resíduos; e a devida ao modelo, ou explicada. Na segunda coluna encontram-se
os graus de liberdade associados a cada fonte de variação. A idéia é que cada vez que um
parâmetro é estimado a fonte de variação perde 1 grau de liberdade, dentre os n que
constituem o número de parcela das variações. Assim, para a variação total, como
precisamos estimar a média Y , a variação total fica com (n – 1) graus de liberdade. Para os
resíduos, como são estimados dois parâmetros para se obter Ŷ , isto é, bo e b1, perde-se
dois graus de liberdade e fica-se com (n – 2). Os graus de liberdade da regressão podem
ser obtidos por diferença.

As somas dos quadrados, na terceira coluna fornecem os valores da decomposição das


variações feita acima. Como pode ser visto, não seria justo comparar a soma dos quadrados
da regressão com a soma dos quadrados dos resíduos porque elas têm graus de liberdade
diferentes. Portanto, antes de se achar a razão entre as duas fontes de variação deve-se
achar a média dos quadrados, de acordo com a coluna 4, dividindo a soma dos quadrados
pelos respectivos graus de liberdade. Além disso, a razão entre as somas dos quadrados
não define uma distribuição de probabilidade, enquanto a razão entre as médias dos
quadrados de distribuições qui-quadrados independentes define a distribuição F.

Se a razão calculada, denotada como F for muito grande, maior será a evidência que o
modelo é bom, pois maior será a participação da regressão sobre os resíduos, em média. A
medida de quão grande é grande é fornecida pela ultima coluna, F de significação. Quanto
maior for o valor da razão F, menor será o valor de F de significação. O primeiro está numa
escala de valores reais não negativos enquanto o segundo representa uma medida de
probabilidade. Assim, quanto menor for o F de significação, abaixo de 5% por exemplo,
maior a nossa crença no modelo. No caso do exemplo acima, o valor do F de significação é
bem menor do que 5%, logo podemos dizer que o modelo deve ser aceito, isto é, a variável X
explica a variável Y de modo significativo.

14
Em geral o que se faz com a tabela de ANOVA é um teste de hipóteses:
Ho: Y = βo + ε, contra
H1: Y = βo + β1 X + ε.
A hipótese nula é a de que o modelo não explica as variações de Y. A alternativa, ao
contrário, postula a validade do modelo com a variável independente explicando Y. Como, no
exemplo acima, o valor de F de significação é bem menor do que 0,05, devemos rejeitar a
hipótese nula, concluindo que o modelo explica as variações de Y. Quando apenas uma
variável explicativa está presente no modelo, testar o modelo será, por extensão, testar a
variável no modelo.

Além do teste, a tabela de ANOVA fornece algumas informações importantes. Se


dividirmos a soma dos quadrados da regressão pela soma dos quadrados total temos o
coeficiente de determinação. A média dos quadrados dos resíduos nada mais é do que a
medida de variância residual. No nosso exemplo, o coeficiente de determinação do modelo é
igual a 13.520,12/13.583,60 = 0,995, o que significa que 99,5% da variação total da
quantidade de peças produzidas pode ser explicada pela quantidade de homens-hora
alocados ao processo de produção. A variância residual de 7,93 peças2, só deve ser
analisada para comparar com outra possível variável que possa competir com a mão de obra
para explicar a variação das quantidades de peças produzidas.

De um modo geral podemos especificar uma tabela de ANOVA da seguinte forma:

Fontes de Graus de Soma dos Quadrado Fc F


Variação Liberdade Quadrados Médio Calculado Significação
Regressão 1 SQReg SQReg/1
SQReg P (F > Fc)
Resíduos (n - 2) SQRes SQRes/(n - 2) SQRes/(n-2)

Total (n - 1) SQTot SQTot/(n - 1)

Finalmente, os pacotes estatísticos e o Excel apresentam as estatísticas relativas às


estimações dos coeficientes: seus valores; os desvios das suas distribuições de
amostragem; os valores da estatística t; e os valores de significação para o teste da
significância de seus valores. Para o caso do nosso exemplo, o quadro gerado pelo Excel foi:

Erro
Coeficientes padrão Stat t valor-P
Interseção -- bo 10,1 2,57 3,921 0,00441
mão de obra – b1 2,0 0,048 41,277 1,31E-10

A primeira coluna especifica o coeficiente enquanto a segunda fornece os valores


estimados pelo método dos mínimos quadrados. A terceira coluna apresenta o valor do
desvio padrão da distribuição de amostragem do estimador de cada coeficiente (de forma
análoga ao desvio padrão da estatística média da amostra: σ/√n). Dividindo o valor do
coeficiente pelo erro padrão, obtemos o valor da estatística t, como consta da quarta
coluna. A última coluna apresenta o valor da significância do teste de cada coeficiente e é
análogo ao valor do F de significação do teste da ANOVA: quanto menor for o seu valor em

15
relação ao nível de significância do teste, maior a evidencia na rejeição de Ho. O teste em
questão é definido como:
Ho: β = 0
H1: β ≠ 0.
Geralmente estaremos interessados em testar apenas o coeficiente angular do modelo.
Caso não se consiga rejeitar Ho, concluiremos que a variável X não é significativa ao nível de
significância com que se trabalha. No modelo de regressão linear simples este teste é o
mesmo do teste da ANOVA realizado acima. No exemplo, note que o valor-p é igual ao F de
significação da ANOVA, o que implica que estamos aceitando o modelo, ou a variável
independente, como significativa, com o mesmo grau de certeza.

A regra básica para o teste de hipóteses, tanto pela ANOVA como pelo teste t é comparar
o valor da significação do teste (F de significação ou valor-p) com o nível de significância do
teste, α. Caso F de significação (ou valor-p) seja menor do que α, rejeitamos Ho, caso
contrário não podemos rejeitá-la. No nosso exemplo, como os valores de significação são
(bem) menores do que α (para qualquer valor usualmente utilizado para α), podemos rejeitar
Ho com bastante evidência em favor do modelo.

Testar hipóteses com base nos valores de significação é sempre mais conveniente do que
com os valores da estatística, pois ao contrario desta, aquela dispensa o uso de tabelas de
distribuição de probabilidades, como a Normal ou a t, pois só depende do nível de
significância que é estabelecido por nós.

16
CAPÍTULO 5
ANÁLISE DOS RESÍDUOS E PREVISÃO

Independentemente da aceitação da adequação do modelo, devemos sempre proceder a uma


análise já conhecida nossa: a possibilidade da existência de outlier na distribuição. A
inclusão de dados que não pertencem à distribuição é sempre uma fonte de ruído ao
processo de aceitação do modelo na medida em que aumenta demasiadamente, e de modo
espúrio, a variância residual. Como resultado, a soma dos quadrados dos resíduos fica
inflada aumentando a probabilidade de se cometer um erro do tipo II, ou seja, rejeitar o
modelo (não rejeitando Ho) quando ele é verdadeiro.

Outra análise importante a ser feita antes de se utilizar o modelo é a verificação da


plausibilidade das premissas assumidas. A utilização de um modelo que passa na prova dos
testes de hipóteses, mas traz problemas não detectados, é perigosa e pode levar a
conclusões e decisões nefastas em aplicações. Como exemplo, considere os processos de
planejamento estratégico das empresas, nos quais uma previsão de vendas baseada em um
modelo com problemas pode colocar em risco a própria saúde financeira da empresa.

O elemento fundamental tanto para uma investigação da existência de outlier como para
uma análise de falta de plausibilidade nas premissas é a análise dos resíduos. É por meio dos
resíduos que descobrimos problemas em um processo de utilização de um modelo de
regressão.

Avaliação da Existência de Outlier

Consideramos como outlier a observação que se afasta do padrão de tendência dos demais
pontos. Para efeito de ilustração, considere o gráfico abaixo:
14

12

10
Y

4
2 4 6 8 10 12 14 16

Note que não fosse a ocorrência da observação afastada, o padrão dos pontos indicaria uma
relação quase perfeita entre X e Y. Com aquela observação, a inclinação aumentou
fortemente, influenciada pelo ponto acima dos demais. A distância vertical entre os pontos
e a reta, sem a observação seria praticamente nula enquanto com a observação passa a ser
elevada considerando o padrão alterado.

Existem várias formas de se identificar um possível outlier, inclusive testes estatísticos,


porém, para efeito deste curso será indicada a utilização dos resíduos padronizados.
Resíduos padronizados acima de 2,5, em valor absoluto, já podem ser considerados, em
princípio, candidatos a outlier.

17
Devem-se procurar as possíveis causas da ocorrência de valores espúrios na distribuição.
Muitas vezes pode ser simplesmente um erro de digitação, ou até a existência de algum
valor efetivamente observado e que seja o próprio motivo da investigação. A possibilidade
de expurgo de uma observação outlier deve ser considerada, porém, a repercussão desse
expurgo também deve ser avaliada.

A distribuição dos resíduos padronizados das regressões, com e sem o outlier, do gráfico
acima é mostrada abaixo:

X Y ZRES C/ ZRES S/
10 7,46 -0,4366 0,1475
8 6,77 -0,1863 0,4004
13 12,74 2,6216
9 7,11 -0,3155 -1,3486
11 7,81 -0,5577 1,6436
14 8,84 -0,9372 -0,3582
6 6,08 0,0641 0,6532
4 5,39 0,3144 0,9061
12 8,15 -0,6869 -0,1054
7 6,42 -0,0652 -1,0957
5 5,73 0,1852 -0,8429

Note que o 3a. caso tem resíduo padronizado igual a 2,6216 quando a observação está
presente e sem ela a distribuição dos resíduos padronizados não apresenta grandes
distorções, tendo maior valor o 6a. caso com zres = 1,64.

Avaliação das Premissas

De acordo com o exposto no início deste material, cada observação pode ser expressa por
meio de dois componentes independentes: o determinístico, expresso pela equação da reta;
e o residual, que explica a parte da variação de Y que a variável no modelo não explicou.
Então, podemos assumir que se a independência entre esses componentes for verdadeira, a
relação entre os resíduos e a variável no modelo não deve ter qualquer padrão e a plotagem
dos pontos (X, zres) deve estar aleatoriamente distribuída no espaço das observações.
Quando essa aleatoriedade é contrariada é sinal que alguma premissa do modelo foi violada.
Vai depender da forma do padrão da relação entre os pontos (X, zres) o diagnóstico do
problema. Para detalhes sobre as diferentes formas de plotagem dos resíduos versus X,
ver Bussab & Moretin (2003 p. 454-460).

Como exemplo considere o gráfico, abaixo, dos resíduos versus variável dependente
oriundos de uma regressão linear simples. Note que os pontos estão aleatoriamente
distribuídos pelos quadrantes traçados a partir das médias dos valores dos resíduos e da
variável. Isto é sinal de que não há evidências de violação nas premissas. No entanto, uma
rápida investigação indica a possibilidade da existência de dois a três outliers no primeiro
quadrante.

18
4

Standardized Residual
0

-1

-2
3000 4000 5000 6000

Renda

Previsão

Somente após a realização de todas as análises e testes pertinentes estaremos em


condições de utilizar o modelo de regressão, caso este se mostre adequado. Fazer
previsões nada mais é do que se estimar um valor da variável dependente para um particular
valor da variável independente. Como todo processo de estimação, esta pode ser feita de
modo pontual com por intervalos. Para efeito deste curso apenas as estimações pontuais
serão feitas.

Pode se provar que o processo de estimação, de acordo com o modelo de regressão linear,
fornece estimativas não tendenciosas dos verdadeiros valores populacionais, quando o
modelo é correto. Assim, dado um valor Xo de X, obtemos uma estimativa não tendenciosa
de Yo por meio de:
Ŷo = bo + b1 Xo

Note que a equação da reta estimada não possui o termo aleatório, nem sua estimativa
(resíduos). A estimativa do valor de Y é fornecida diretamente pelo modelo, substituindo X
pelo valor por ele assumido, Xo. No exemplo das peças e mão de obra, podemos estimar, ou
fazer uma previsão de qual seria a produção caso o processo trabalhasse com Xo = 60
homens-hora no mês. O valor estimado seria, então:
Ŷo = 10,1 + 2.(60) = 130 peças.

Nada mais simples, mas para se chegar a esse valor foi necessário todo o trabalho de
investigação da adequação, ou não, do modelo.

Considerações Finais

Muitas vezes apenas uma variável não é suficiente para explicar um percentual da variação
total que permita previsões confiáveis. Se o objetivo da modelagem não se restringir à
investigação de relação entre as variáveis, mas sim permitir previsões confiáveis, devemos
incorporar mais variáveis no modelo. Não de modo indiscriminado, mas considerando que se
deseja explicar grande parte da variação de Y por meio do menor número possível de

19
variáveis independentes. Assim, a complexidade do modelo ficará reduzida permitindo
inferências mais precisas e simples de interpretar.

Este texto deve ser entendido como uma introdução aos modelos de regressão linear. O
aluno interessado em expandir os seus conhecimentos poderá recorrer à bibliografia
constante no programa da disciplina.

20

Você também pode gostar