Escolar Documentos
Profissional Documentos
Cultura Documentos
Correlação e Regressão
Correlação e Regressão
e
Regressão
Como exemplo, no início do curso levantamos dados sobre o Sexo (X1), Idade (X2), Peso (X3)
e Altura (X4) dos alunos e com base nas medidas estatísticas calculadas com os dados
obtidos pudemos analisar a composição das turmas por sexo, pelas médias das variáveis,
como as características variavam em cada turma, o nível de assimetria das características,
etc. Pudemos, também, fazer comparações entre as turmas e cada turma em relação à
população como um todo. Naquele momento, no entanto, não pensávamos em explicar as
variações das características, ou buscar associar cada característica com outras.
Nos capítulos que se seguem será vista, primeiramente, a questão da associação entre as
variáveis. Posteriormente, definimos o modelo linear a duas variáveis, tratamento,
estimação dos coeficientes e método de se analisar as variações envolvendo a variável de
interesse. Segue-se a análise e teste do modelo e, finalmente, a avaliação das premissas e
de possíveis outliers.
2
CAPÍTULO 2
CORRELAÇÃO
Pelos pontos dispostos nesse gráfico percebemos que existe um certo padrão envolvendo
essas duas variáveis. Mais ainda, podemos dizer que há uma associação positiva entre elas,
no sentido que para uma variação de uma unidade numa variável, digamos Idade,
corresponderá uma variação no mesmo sentido na outra variável, Peso. Em outras palavras,
pessoas mais idosas tendem a ter maior peso. Pode-se também, em princípio, antecipar que
a relação é aproximadamente linear, isto é, que as variações correspondentes à variável
Peso são proporcionais às da variável Idade. A questão que se coloca, então, é saber o quão
relacionadas essas variáveis estão. O grau da associação entre elas. Para isso, façamos uma
mudança na origem dos dados, definindo um novo sistema coordenado passando pelo ponto
das médias das medidas de acordo com o gráfico abaixo.
3
y
Y
II I
IV
III
X
Definimos, assim, uma medida de associação que mede como as variáveis estão relacionadas
(positiva ou negativamente), por meio da medida de variação conjunta ou COVARIÂNCIA:
n n
∑ x.y ∑ (Xi − X ).( Yi − Y )
i=1 i=1
Sxy = = .
n −1 n −1
4
n
∑ (X − X ).(Y − Y )
i=1
i i
rxy = .
(n − 1) Sx Sy
Concluímos, então, que o coeficiente de correlação nada mais é do que a covariância entre
as variáveis, quando expressas na forma padronizada. Seu intervalo de variação é [-1 ; 1].
Como a covariância, quando positiva, a correlação indica que as variáveis são diretamente
relacionadas e quando negativa, que as variáveis são inversamente relacionadas.
Usualmente, dizemos que a correlação é forte quando seu valor absoluto for de pelo menos
80%.
Média Desvio
Idade (anos) 26 2,309
Peso (kg) 78 7,333
A matriz das covariâncias apresenta, na diagonal principal o valor das variâncias de cada
variável e fora da diagonal as covariâncias. Note que a covariância de uma variável com ela
mesma, nada mais é do que a variância da variável.
Correlação de Pearson
Idade (anos) Peso (kg)
1,000 0,807
0,807 1,000
5
CAPÍTULO 3
O MODELO LINEAR A DUAS VARIÁVEIS
Um modelo é dito determinístico quando expressa uma relação exata entre as variáveis que
o compõem. Seus parâmetros são obtidos diretamente por uma transformação ou calculados
em função de outros. Nos modelos determinísticos os parâmetros não são estimados
através de amostras. Por exemplo, sabemos que num triângulo retângulo, o quadrado da
hipotenusa é obtido pela soma do quadrado dos catetos. Isto é sempre verdadeiro
independentemente das dimensões do triângulo. Outro exemplo de um modelo
determinístico é fornecido pela teoria das medidas, que nos permite transformar uma
medida expressa em graus Fahrenheit para graus Celsius pela relação:
C = 59 F − 160
9
Geralmente, o grau de certeza que depositamos nas relações expressas por modelos
determinísticos é denominado certeza lógica.
Um modelo é dito probabilístico quando seus parâmetros são estimados com base em
observações amostrais e inferidos na população de interesse. Na medida em que cada
amostra nos levará a estimativas diferentes, haverá sempre uma flutuação entre o valor do
parâmetro estimado e o verdadeiro, mas desconhecido, valor do parâmetro na população. A
esta flutuação chamamos erro amostral que, por ser não observável, impõe uma série de
premissas. Logo, um modelo probabilístico é constituído de duas parcelas: uma
determinística, que expressa a forma analítica da relação entre as variáveis; e outra
aleatória (probabilística), que expressa a diferença entre o valor observado da variável
explicada na amostra e seu verdadeiro valor na população. Ao contrário dos modelos
determinísticos que são sempre verdadeiros, os modelos probabilísticos podem ter a sua
veracidade testada antes de utilizados. O grau de certeza que depositamos nas
inferências feitas com base nesses modelos é denominado certeza probabilística ou
certeza estatística.
Como exemplo de um modelo probabilístico, suponha que uma fábrica produza peças de
reposição e aloca a mão de obra mensalmente no processo de produção de acordo com a
demanda pelo produto. O total produzido em um mês pode ser estimado se tivermos uma
série de observações (Xi,Yi), onde Xi representa o total de mão de obra alocada no mês i
(variável independente), e Yi o total de peças produzidas naquele mês (variável
dependente). O quadro abaixo apresenta uma amostra de 10 meses de observações. Ao
plotarmos os pontos num diagrama de dispersão teremos uma idéia preliminar do tipo de
relação funcional existente entre as variáveis, assim como fizemos quando avaliamos a
associação entre as variáveis no capítulo anterior.
6
mês peças mão de obra
(1.000) (homens-
hora)
1 51 20
2 68 30
3 72 30
4 89 40
5 108 50
6 125 60
7 130 60
8 135 60
9 150 70
10 170 80
y
Y180
160
140
Pecas (1.000)
120
x
100
80
60
40
10 20 30 40 50 60 70 80 90
X
Mão de Obra (homens-hora)
7
Então, definidas as variáveis que serão objeto da nossa investigação, e antecipada a forma
linear da relação entre elas, postulamos, matematicamente o modelo de regressão linear
simples para a população como:
Y = β 0 + β1 X + ε ,
onde: Y é o vetor contendo as observações da variável explicada na população;
X é o vetor contendo as observações da variável explicativa na população;
βo é o coeficiente linear do modelo, na população;
β1 é o coeficiente angular do modelo na população; e
ε é o vetor n-dimensional relativo ao erro amostral de cada observação na
população.
O erro é uma variável aleatória não observável e é estimado pelos resíduos, isto é, a
diferença entre o valor observado Y, e o estimado pela reta, Ŷ . A inclusão desse termo no
modelo pode ser justificada por:
1. erros na mensuração das variáveis;
2. não inclusão de variáveis relevantes para explicar o comportamento de Y; e
3. problema na especificação da forma linear à relação funcional entre X e Y.
Conseqüentemente, podemos concluir que o modelo linear é composto por dois componentes:
• determinístico: βo + β1 X; e
• probabilístico: erro aleatório ε.
Outros modelos com componente determinístico não linear muitas vezes podem ser
linearizados por meio de uma transformação na escala em que a variável explicativa e/ou
explicada é medida. Por exemplo, suponha que a relação entre X e Y tenha um componente
determinístico na forma:
Y = Xβ .
Esta relação pode ser linearizada se aplicarmos logaritmos a ambos os membros da
igualdade, o que resultará em:
log Y = β logX .
Fazendo log Y = Z e
log X = V, ficamos com a nova relação
Z = V β+ ε ,
que é linear nas novas variáveis, Z, V e no parâmetro β.
8
Premissas do Modelo Linear
Todo modelo probabilístico requer o estabelecimento de premissas sob as quais ele deve
funcionar. Isto porque a natureza aleatória do componente probabilístico ε não permite
uma verificação direta da acuidade do modelo. Muitas vezes, no entanto, tais premissas
são violadas e devemos fazer as alterações necessárias para que o modelo volte a funcionar
adequadamente, isto é, para que os parâmetros estimados possam produzir resultados
acurados.
Uma dificuldade natural é entender o que se quer dizer com “para cada valor observado de
X”. Imagine que para cada quantidade de mão de obra que pudéssemos alocar no processo
de produção (30, 35, 40, ..., 90) nós observássemos a quantidade de peças produzidas por
várias fábricas. Dificilmente teríamos o mesmo valor em função de variações não explicadas
inerentes às especificidades de cada processo (diferentes tecnologias, treinamento dos
operários, etc.). Então, para cada valor fixo de X (30, 35, 40, ..., 90) nós teríamos uma
distribuição de valores referentes às quantidades de peças produzidas pelas diferentes
fábricas. É a distribuição das diferenças entre as quantidades produzidas e a reta da
9
população, que chamamos erro, a que nos referimos para cada valor de X, na população. O
gráfico abaixo poderá ilustrar melhor o que se quer dizer, bem como explica melhor cada
premissa do modelo. No gráfico temos os eixos das variáveis e o da distribuição de
probabilidade dos erros, que de acordo com a premissa 3 é Normal. Note que as curvas das
distribuições são a mesma para os dois valores de X, indicando a mesma variabilidade, e que
a média da distribuição é centrada na reta da população, o que significa que o erro é nulo.
Finalmente note que para cada valor de X as curvas são separadas, indicando a
independência entre elas para duas observações de X. Abaixo da curva, sobre a linha
horizontal, estão todos os possíveis valores de Y associados a um mesmo valor de X e a
curva representa a distribuição de freqüência dos erros de cada observação (Y – f(X)).
f(εε)
Y
X1
X2
X3
f(X) = βo + β1
Como o modelo apresentado refere-se aos dados da população, e como os dados com que
trabalhamos são, invariavelmente, oriundos de uma amostra, a questão agora se resume em
se estabelecer um critério para se estimar os parâmetros da reta. Sabemos que uma reta
fica perfeitamente caracterizada quando conhecemos os seus coeficientes (linear e
angular). No caso temos três parâmetros para estimar: os dois coeficientes e a variância
dos erros, σ 2ε . Temos definido acima o conceito de erro, para os dados da população, e
mencionamos que estimamos esses valores pelos resíduos, definidos como a diferença entre
os dados observados, Y, na amostra, e os estimados pela reta, Ŷ = bo + b1 X. Para estimar
os parâmetros da população, βo e β1, por bo e b1, precisamos definir um critério. O critério
dos Mínimos Quadrados permite a estimação daqueles parâmetros por meio da minimização
da soma dos valores residuais de todas as observações da amostra, elevados ao quadrado.
Isto equivale a dizer:
n n 2 n
min ∑ ei2 = min ∑ Yi − Ŷi = min ∑ (Yi − bo − b1 X )2 .
i=1 i=1 i=1
10
Estimando os coeficientes da reta e a variância dos erros por esse método, obtemos a
melhor reta que pode ser obtida para explicar a tendência na relação entre as duas
variáveis e a variância dos erros. Como resultado da minimização acima chegamos às
equações normais da reta:
Y = b0 + b1 X
∑ x.y para x = (X - X ) e y = (Y - Y ).
b1 = i
∑ x2
i
∑ (Yi − Ŷi ) 2
σ 2ε = Sε2 =
Além disso, ˆ i
estima a variância dos erros pela variância residual.
n −2
Esses valores são fornecidos pelos pacotes estatísticos e pelo Excel, de modo que não há
necessidade de se guardar as fórmulas para cálculos a mão. No entanto, uma rápida
observação na primeira equação normal, notamos que um particular ponto pertence à reta: o
ponto constituído pelas médias das variáveis, ( X , Y ). No exemplo das peças produzidas e
mão de obra alocada, notamos que o ponto (50, 110) pertence à reta. O gráfico permite
também uma visualização deste fato. Utilizando a opção Regressão, da ferramenta de
Análise de Dados, o Excel fornece os valores do coeficiente Intercepto (bo = 10,1) e o da
inclinação, referente à variável mão de obra (b1 = 2,0), com uma casa decimal. A
interpretação desses coeficientes é que, caso nenhuma mão de obra se alocada ao processo
de fabricação das peças, seriam produzidas 10 (mil) peças, o que carece de sentido, e que
para cada homem-hora adicional, seriam produzidas 2 (mil) peças. A falta de sentido do
intercepto é resultante do problema da escala com que as variáveis foram obtidas.
Nenhuma observação próxima de 0 mão de obra foi feita sendo todos valores referentes à
mão de obra observados a partir de 35 homens-hora, mesmo porque não haveria sentido em
se registrar tal observação. Por esse motivo, nós iremos concentrar nossos esforços no
teste e interpretação apenas da inclinação.
Avaliação do Modelo
Obter a equação da reta não nos autoriza a utilizá-la para fazer as previsões e inferências
que se deseja fazer. Antes, algumas avaliações devem ser realizadas para se ter alguma
idéia da eficácia e adequação do modelo. Caso nenhuma variável explique as variações de Y,
provavelmente podemos trabalhar apenas com a variável Y, de modo unidimensional, e
resumir todas as observações de Y pela sua média.
11
Observado (Yi)
NÃO-EXPLICADA
Y
Reta de regressão
TOTAL Previsto ( Ŷ i)
EXPLICADA
Y
X
Xi
De acordo com o gráfico acima, para um particular valor de X podemos associar três
possíveis pontos envolvendo valores de Y: o par de valores observados (X,Y); o par com o
valor estimado, ou previsto, de Y, sobre a reta de regressão (X, Ŷ ); e, finalmente o par
com a média de Y, (X, Y ). Da mesma forma, definimos três distâncias envolvendo os
valores de Y: a distância total (Y - Y ); a não explicada pela reta, obtida pelo resíduo (Y -
Ŷ ) e a explicada pela reta ( Ŷ - Y ). Pode-se provar que a distância total é igual à não
explicada mais a explicada, conforme o gráfico.
Definimos como medida de variação a soma das distâncias ao quadrado. Podemos provar que
a variação total pode ser desmembrada pela variação não explicada e a explicada, ou seja:
Σ (Y - Y )2 = Σ (Y - Ŷ )2 + Σ ( Ŷ - Y )2 .
A medida de variação total, à esquerda do sinal de igualdade, não depende dos valores de X,
logo, independentemente da variável explicativa no modelo, a variação total não se altera.
As parcelas à direta do sinal de igualdade, no entanto, dependem dos valores de X, que
resultarão em Ŷ . Portanto, como a variação total é fixa, o modelo será tanto melhor quanto
maior for a variação explicada, o que resulta em uma menor variação não explicada.
Dividindo-se ambos os membros pela variação total, ficamos com:
1=
∑ (Y − Ŷ) 2 + ∑ ( Ŷ − Y ) 2 .
∑ (Y − Y ) 2 ∑ ( Y − Y ) 2
A primeira parcela da soma à direita do sinal de igualdade expressa o percentual da
variação total não explicada pelo modelo enquanto a segunda parcela é a percentagem da
variação total que é explicada pelo modelo. A esta última dá-se o nome de coeficiente de
determinação, cuja notação é r2. Quanto maior for esse coeficiente, melhor será o modelo,
pois maior a capacidade da variável independente em explicar a variação da variável
dependente. Sendo o quadrado do coeficiente de correlação, o coeficiente de determinação
varia entre 0 e 1.
12
Finalmente, uma medida absoluta de avaliação do modelo é a raiz quadrada da variância
residual, conhecida como erro padrão de estimativa do modelo, Sε = Sε2 . Quanto maior
for o valor desta medida, pior será o modelo. Por ser uma medida absoluta, essa medida
deve servir como um parâmetro de escolha entre duas possíveis variáveis independentes
candidatas a explicar Y pelo modelo linear: a que tiver o menor valor de Sε deverá ser a
escolhida.
13
CAPÍTULO 4
TESTES DO MODELO: ANOVA E T DE STUDENT
Considere a tabela de ANOVA abaixo. Ela foi extraída do exemplo das peças produzidas em
relação à mão de obra alocada.
Fontes de Graus F de
Variação de lib. SQ MQ F significação
Regressão 1 13.520,12 13520,12 1.703,8 1,31E-10
Resíduo 8 63,48 7,93
Total 9 13.583,60
Na primeira coluna definimos as três fontes de variação: a variação total; a não explicada,
ou devida aos resíduos; e a devida ao modelo, ou explicada. Na segunda coluna encontram-se
os graus de liberdade associados a cada fonte de variação. A idéia é que cada vez que um
parâmetro é estimado a fonte de variação perde 1 grau de liberdade, dentre os n que
constituem o número de parcela das variações. Assim, para a variação total, como
precisamos estimar a média Y , a variação total fica com (n – 1) graus de liberdade. Para os
resíduos, como são estimados dois parâmetros para se obter Ŷ , isto é, bo e b1, perde-se
dois graus de liberdade e fica-se com (n – 2). Os graus de liberdade da regressão podem
ser obtidos por diferença.
Se a razão calculada, denotada como F for muito grande, maior será a evidência que o
modelo é bom, pois maior será a participação da regressão sobre os resíduos, em média. A
medida de quão grande é grande é fornecida pela ultima coluna, F de significação. Quanto
maior for o valor da razão F, menor será o valor de F de significação. O primeiro está numa
escala de valores reais não negativos enquanto o segundo representa uma medida de
probabilidade. Assim, quanto menor for o F de significação, abaixo de 5% por exemplo,
maior a nossa crença no modelo. No caso do exemplo acima, o valor do F de significação é
bem menor do que 5%, logo podemos dizer que o modelo deve ser aceito, isto é, a variável X
explica a variável Y de modo significativo.
14
Em geral o que se faz com a tabela de ANOVA é um teste de hipóteses:
Ho: Y = βo + ε, contra
H1: Y = βo + β1 X + ε.
A hipótese nula é a de que o modelo não explica as variações de Y. A alternativa, ao
contrário, postula a validade do modelo com a variável independente explicando Y. Como, no
exemplo acima, o valor de F de significação é bem menor do que 0,05, devemos rejeitar a
hipótese nula, concluindo que o modelo explica as variações de Y. Quando apenas uma
variável explicativa está presente no modelo, testar o modelo será, por extensão, testar a
variável no modelo.
Erro
Coeficientes padrão Stat t valor-P
Interseção -- bo 10,1 2,57 3,921 0,00441
mão de obra – b1 2,0 0,048 41,277 1,31E-10
15
relação ao nível de significância do teste, maior a evidencia na rejeição de Ho. O teste em
questão é definido como:
Ho: β = 0
H1: β ≠ 0.
Geralmente estaremos interessados em testar apenas o coeficiente angular do modelo.
Caso não se consiga rejeitar Ho, concluiremos que a variável X não é significativa ao nível de
significância com que se trabalha. No modelo de regressão linear simples este teste é o
mesmo do teste da ANOVA realizado acima. No exemplo, note que o valor-p é igual ao F de
significação da ANOVA, o que implica que estamos aceitando o modelo, ou a variável
independente, como significativa, com o mesmo grau de certeza.
A regra básica para o teste de hipóteses, tanto pela ANOVA como pelo teste t é comparar
o valor da significação do teste (F de significação ou valor-p) com o nível de significância do
teste, α. Caso F de significação (ou valor-p) seja menor do que α, rejeitamos Ho, caso
contrário não podemos rejeitá-la. No nosso exemplo, como os valores de significação são
(bem) menores do que α (para qualquer valor usualmente utilizado para α), podemos rejeitar
Ho com bastante evidência em favor do modelo.
Testar hipóteses com base nos valores de significação é sempre mais conveniente do que
com os valores da estatística, pois ao contrario desta, aquela dispensa o uso de tabelas de
distribuição de probabilidades, como a Normal ou a t, pois só depende do nível de
significância que é estabelecido por nós.
16
CAPÍTULO 5
ANÁLISE DOS RESÍDUOS E PREVISÃO
O elemento fundamental tanto para uma investigação da existência de outlier como para
uma análise de falta de plausibilidade nas premissas é a análise dos resíduos. É por meio dos
resíduos que descobrimos problemas em um processo de utilização de um modelo de
regressão.
Consideramos como outlier a observação que se afasta do padrão de tendência dos demais
pontos. Para efeito de ilustração, considere o gráfico abaixo:
14
12
10
Y
4
2 4 6 8 10 12 14 16
Note que não fosse a ocorrência da observação afastada, o padrão dos pontos indicaria uma
relação quase perfeita entre X e Y. Com aquela observação, a inclinação aumentou
fortemente, influenciada pelo ponto acima dos demais. A distância vertical entre os pontos
e a reta, sem a observação seria praticamente nula enquanto com a observação passa a ser
elevada considerando o padrão alterado.
17
Devem-se procurar as possíveis causas da ocorrência de valores espúrios na distribuição.
Muitas vezes pode ser simplesmente um erro de digitação, ou até a existência de algum
valor efetivamente observado e que seja o próprio motivo da investigação. A possibilidade
de expurgo de uma observação outlier deve ser considerada, porém, a repercussão desse
expurgo também deve ser avaliada.
A distribuição dos resíduos padronizados das regressões, com e sem o outlier, do gráfico
acima é mostrada abaixo:
X Y ZRES C/ ZRES S/
10 7,46 -0,4366 0,1475
8 6,77 -0,1863 0,4004
13 12,74 2,6216
9 7,11 -0,3155 -1,3486
11 7,81 -0,5577 1,6436
14 8,84 -0,9372 -0,3582
6 6,08 0,0641 0,6532
4 5,39 0,3144 0,9061
12 8,15 -0,6869 -0,1054
7 6,42 -0,0652 -1,0957
5 5,73 0,1852 -0,8429
Note que o 3a. caso tem resíduo padronizado igual a 2,6216 quando a observação está
presente e sem ela a distribuição dos resíduos padronizados não apresenta grandes
distorções, tendo maior valor o 6a. caso com zres = 1,64.
De acordo com o exposto no início deste material, cada observação pode ser expressa por
meio de dois componentes independentes: o determinístico, expresso pela equação da reta;
e o residual, que explica a parte da variação de Y que a variável no modelo não explicou.
Então, podemos assumir que se a independência entre esses componentes for verdadeira, a
relação entre os resíduos e a variável no modelo não deve ter qualquer padrão e a plotagem
dos pontos (X, zres) deve estar aleatoriamente distribuída no espaço das observações.
Quando essa aleatoriedade é contrariada é sinal que alguma premissa do modelo foi violada.
Vai depender da forma do padrão da relação entre os pontos (X, zres) o diagnóstico do
problema. Para detalhes sobre as diferentes formas de plotagem dos resíduos versus X,
ver Bussab & Moretin (2003 p. 454-460).
Como exemplo considere o gráfico, abaixo, dos resíduos versus variável dependente
oriundos de uma regressão linear simples. Note que os pontos estão aleatoriamente
distribuídos pelos quadrantes traçados a partir das médias dos valores dos resíduos e da
variável. Isto é sinal de que não há evidências de violação nas premissas. No entanto, uma
rápida investigação indica a possibilidade da existência de dois a três outliers no primeiro
quadrante.
18
4
Standardized Residual
0
-1
-2
3000 4000 5000 6000
Renda
Previsão
Pode se provar que o processo de estimação, de acordo com o modelo de regressão linear,
fornece estimativas não tendenciosas dos verdadeiros valores populacionais, quando o
modelo é correto. Assim, dado um valor Xo de X, obtemos uma estimativa não tendenciosa
de Yo por meio de:
Ŷo = bo + b1 Xo
Note que a equação da reta estimada não possui o termo aleatório, nem sua estimativa
(resíduos). A estimativa do valor de Y é fornecida diretamente pelo modelo, substituindo X
pelo valor por ele assumido, Xo. No exemplo das peças e mão de obra, podemos estimar, ou
fazer uma previsão de qual seria a produção caso o processo trabalhasse com Xo = 60
homens-hora no mês. O valor estimado seria, então:
Ŷo = 10,1 + 2.(60) = 130 peças.
Nada mais simples, mas para se chegar a esse valor foi necessário todo o trabalho de
investigação da adequação, ou não, do modelo.
Considerações Finais
Muitas vezes apenas uma variável não é suficiente para explicar um percentual da variação
total que permita previsões confiáveis. Se o objetivo da modelagem não se restringir à
investigação de relação entre as variáveis, mas sim permitir previsões confiáveis, devemos
incorporar mais variáveis no modelo. Não de modo indiscriminado, mas considerando que se
deseja explicar grande parte da variação de Y por meio do menor número possível de
19
variáveis independentes. Assim, a complexidade do modelo ficará reduzida permitindo
inferências mais precisas e simples de interpretar.
Este texto deve ser entendido como uma introdução aos modelos de regressão linear. O
aluno interessado em expandir os seus conhecimentos poderá recorrer à bibliografia
constante no programa da disciplina.
20