Você está na página 1de 13

Análise de correlação versus regressão linear?

Uma lição básica para jovens investigadores das Ciências Sociais

João E. Van Dunem


Professor na Universidade Católica de Angola

Introdução

O título do artigo que o leitor tem em mãos é sugestivo quanto ao seu teor e público-
alvo. Tomando como ponto de partida a aprendizagem teórica das técnicas empregues
em toda a parte para quantificar a força da relação entre fenómenos socioeconómicos,
aos olhos de um jovem pesquisador das ciências sociais pode afigurar-se tentador
questionar se a opção pela análise de correlação torna desnecessário o método de
regressão linear ou vice-versa. Ao fim ao cabo, podem (ou não) estes dois instrumentos
que os métodos estatísticos proporcionam ao tratamento da informação ser vistos como
instrumentos alternativos?
Este ensaio ambiciona, entre outras coisas, oferecer ao leitor uma resposta
convincente para esta questão. Procura-se deixar claro que a resposta favorece um não:
quer isso dizer que não devemos subestimar nem um nem outro método de análise.
Antes pelo contrário, é essencial encarar ambos os métodos estatísticos como
instrumentos de análise indissociáveis, que se entrosam, de certa maneira, numa lógica
de complementaridade. E é justamente isso que se tenta pôr aqui em prática, com uma
lição sobre como fazer o estudo formal do grau de associação entre duas variáveis
pertencentes à esfera das ciências sociais.
Na perspectiva do leitor, esta lição tem a vantagem de ser breve e de fácil
abordagem metodológica. Iremos passar em revista alguns conceitos chave como a co-
variância da amostra e o coeficiente de correlação, demonstrar de que forma os dois
conceitos estão relacionados entre si e, finalmente, introduzir aquilo que em métodos
estatísticos é conhecido como o método de regressão linear. Trata-se de uma
abordagem que será realizada em três etapas e em que foi escolhido um caso prático
hipotético, baseado em dados fictícios sobre as vendas de um certo produto alvo e seus
respectivos anúncios televisivos na véspera. Evidentemente, nunca é demais sublinhar
que qualquer investigador empenhado e dedicado ao estudo de problemas sociais tem a
obrigação de estar familiarizado com estes conceitos.

1
1. Etapa nº 1: A Co-variância e o Coeficiente de Correlação

No âmbito das ciências sociais, podem ser inúmeras as situações em que um


investigador ou analista procura apurar o grau de associação entre duas variáveis. Ora
importa frisar que, em tais casos, a análise de correlação pode ser um instrumento de
enorme utilidade. O ponto fundamental no que toca a este método de análise é que não
permite aferir nada sobre causalidade (ou seja, estabelecer o sentido da relação de causa
e efeito), e deste modo, apenas proporciona ao analista um esclarecimento sobre a força
da relação entre duas variáveis. Além disso, é preciso reter que a análise de correlação
só é eficaz no contexto de relações lineares, não sendo portanto apropriada para detectar
relações entre variáveis cuja natureza não seja do tipo linear.

Concentremo-nos, em primeira instância, na co-variância, uma das duas noções


usadas por excelência em análise de correlação. A fórmula para a co-variância da
amostra é dada pela seguinte expressão:

(A)

Nota: A fórmula para a co-variância da população (de tamanho N) é a seguinte:

(B)

Nas fórmulas para (A) e (B) apresentadas acima, note-se que cada observação X
tem como par uma observação Y correspondente. A soma dos produtos dos desvios de
X e Y em relação às médias respectivas é, assim, dividida por N ou n - 1, consoante
estejamos a lidar com uma população ou amostra.
De forma a facilitar um melhor entendimento sobre a aplicação destes conceitos
estatísticos, prestemos então atenção a um caso prático concreto. Assume-se que a
variável X indica o número de spots comerciais que vão para o ar num canal de
Televisão numa sexta-feira à noite. Y representa as vendas (em milhares de Kwanzas)
do produto alvo no dia seguinte, ou seja, Sábado.

2
Tabela 1. Cálculos para o valor da co-variância da amostra

( )( )
2 24 -1 4 -1 48 1
5 28 2 25 3 140 6
1 22 -2 1 -3 22 6
3 26 0 9 1 78 0
4 25 1 16 0 100 0
1 24 -2 1 -1 24 2
5 26 2 25 1 130 2

∑ = 21 ∑ = 175 ∑=0 ∑ = 81 ∑=0 ∑ = 542 ∑ = 17

A partir deste exemplo, utilizando os dados da tabela 1, e


. Usando (A), obtemos então:

O termo da co-variância aparentemente indica uma relação positiva e forte entre


os anúncios comerciais e as vendas. Nesta fase, convém contudo acolher este resultado
com alguma prudência. A magnitude do termo da co-variância pode facilmente induzir
em erro visto que o seu valor é influenciado pelas unidades de medida escolhidas. Por
exemplo, se a variável X é medida em termos do número de anúncios e a variável Y
medida em termos de centenas de Kwanzas, a medida da co-variância será sensível a
estas novas unidades. De facto, é possível constatar que quanto mais pequenas forem as
unidades, maior será o valor da co-variância quando objectivamente não existe nenhuma
diferença na relação subjacente.

É inevitável, portanto, reconhecer que este termo da co-variância não é robusto a


variações nas unidades de medida e por isso necessita de ser corrigido ou, como é hábito
dizer-se na gíria mais técnica, “estandardizado”. Para tal, faz-se apelo ao conceito do
coeficiente de correlação de Pearson, definido para dados numa amostra pela fórmula
seguinte:

(C)

onde = coeficiente de correlação da amostra, = co-variância da amostra, =


desvio-padrão de X na amostra, = desvio-padrão de Y na amostra.

3
Aviso: O coeficiente de correlação de Pearson para dados de uma população de
tamanho N é dado pela expressão:

onde = coeficiente de correlação da população, = co-variância da população,

= desvio-padrão de X na população, = desvio-padrão de Y na população.

(C) é geralmente referido como o coeficiente de correlação de Pearson da


amostra. Este instrumento estatístico é calculado dividindo a co-variância da amostra
pelo produto do desvio-padrão de X e do desvio-padrão de Y. É possível usar os dados
da tabela 1 para efectuar o cálculo do coeficiente de correlação. O desvio-padrão de X e
o desvio-padrão de Y vão ser dados pelas expressões:

= = 1.7321

= = 1.9149

O coeficiente de correlação de Pearson pode, finalmente, ser calculado com a


seguinte fórmula:

= = 0.854

O coeficiente de correlação pode situar-se entre -1 e +1. Um coeficiente de


correlação de uma amostra precisamente igual a +1, implica que todos os pontos de um
conjunto de dados localizam-se numa recta com declive positivo. No caso do
coeficiente de correlação ser exactamente igual a -1, todos os pontos localizam-se numa
recta de declive negativo. Neste caso específico, um valor estimado para o coeficiente
de correlação de 0.854 sugere pois uma relação muito forte, positiva e linear entre os
anúncios de televisão à Sexta e as vendas ao Sábado.

4
O coeficiente de correlação é seguramente um indicador estatístico que suscita
interesse já que pode ser usado para estudar inter-relações lineares entre variáveis
embora, em última análise, não deixe de ser um instrumento quantitativo questionável
em alguns aspectos do estudo das variáveis em questão. Primeiro, não existe
possibilidade de se retirar conclusões quanto à causalidade (qual das variáveis exerce
influencia sobre a outra?); segundo, a sua aplicabilidade está reservada para relações
cuja forma é estritamente linear, não podendo assim servir para detectar relações não
lineares; terceiro, a possibilidade para se testar outras hipóteses sobre o coeficiente de
correlação para além deste ser igual a 0 é bastante limitada.

2. Etapa nº 2: Análise de Regressão Simples

A etapa anterior, a análise de correlação, permite pôr em prática um método


estatístico com o qual é possível conhecer o grau de associação linear entre duas
variáveis. Ora, a análise de regressão pretende ser mais ambiciosa, indo mais longe e
procurando determinar a relação funcional (natureza e forma), entre duas (ou
eventualmente mais) variáveis. A análise de regressão baseia-se na formulação de um
modelo matemático que supostamente permitiria representar o comportamento do
fenómeno sob estudo. O modelo de regressão mais básico é o modelo de regressão
simples que é um modelo de regressão linear com duas variáveis: uma das variáveis é
prevista através do uso de uma outra e será necessário recorrer à teoria para determinar
a direcção da causalidade, um requisito que não era necessário quando estudámos a
análise de correlação.
A variável que é prevista tem o nome de variável dependente ou variável explicada e
é convencionalmente designada por Y. A outra variável, por costume designada por X, é
conhecida como variável independente ou variável explicativa. O método de regressão
simples baseia-se na escolha da recta que melhor se adequa linearmente aos dados.
Para exemplificar o uso da análise de regressão, vamos agora utilizar os mesmos
dados da tabela 1. A equação para uma recta é dada pela expressão seguinte:

Y= mX+c
onde m é o declive da recta e c é a intercepção da recta. Consideremos no diagrama de
dispersão abaixo os dados sobre anúncios de TV (X) e as vendas correspondentes (Y).
A relação positiva entre as duas variáveis é bem patente. O objectivo da análise de
regressão linear é, no fundo, descobrir a recta que melhor descreve os dados observados.

5
Os modelos matemáticos podem ser determinísticos ou probabilísticos. Desde
logo, convém prestar aqui um esclarecimento relativamente a estes dois termos. Os
modelos determinísticos visam produzir um resultado exacto para um determinado
input. O modelo probabilístico, ao invés, consiste numa equação, recuperando de novo
o nosso exemplo, que procurará relacionar as vendas ao Sábado com a publicidade à 6ª
feira e que não irá produzir uma previsão exacta das vendas ao Sábado. Isto acontece
mercê da existência de outros factores importantes envolvidos na explicação das vendas,
contudo negligenciados pela relação matemática. Desta forma, o modelo probabilístico
irá certamente gerar previsões com uma componente de erro. O modelo probabilístico
de regressão para uma determinada população pode exprimir-se da seguinte forma:

A componente representa a parte determinística do modelo


probabilístico enquanto a componente representa a parte aleatória do modelo. A
verdade, porém, é que a análise de regressão usa tipicamente dados de uma amostra e
não de uma população o que leva a que α e β não sejam facilmente alcançáveis e devam
ser estimados a partir das estatísticas e , estas sim resultantes da amostra. Sendo
assim, podemos re-escrever:

6
Em análise de regressão, assume-se um número importante de pressupostos sobre o
termo , termo incluído na recta de regressão da população. São eles:

a) (o valor esperado de é igual a 0, logo a média é 0)

b) (o valor esperado de ao quadrado é uma constante)

c) onde ≠ (a co-variância entre é igual a 0; isto é, as


componentes residuais na regressão da população são totalmente independentes,
temporalmente ou espacialmente)

d) (as componentes residuais na regressão da


população têm uma distribuição normal com média de 0 e variância constante;
este pressuposto está conforme os 2 primeiros pressupostos mas com a
introdução explicita do pressuposto da normalidade)

Não faz parte dos objectivos do artigo explorar estes pressupostos. Contudo,
convém lembrar que se os distúrbios violarem qualquer um destes pressupostos, as
consequências para os valores estimados do modelo de regressão poderão ser
prejudiciais. Por exemplo, se o pressuposto de normalidade for violado, poderá ser um
sinal da existência de valores extremos (“outliers”), o que por si exige uma investigação
mais aprofundada.

Voltemos agora ao assunto da estimação. Os valores para e podem ser obtidos


com o método dos mínimos quadrados. A recta “ajustada”, representada pela
intercepção e pelo declive é a recta que minimiza a soma dos erros ao quadrado.
Um erro em análise de regressão é o desvio vertical do valor observado de Y em relação
ao valor de Y estimado pela intercepção e pelo desvio . Uma vez que os erros, os
desvios entre os valores observados e os valores ajustados podem ser positivos ou
negativos, vamos elevá-los ao quadrado para assegurar que estes não se cancelam entre
si. O valor Y estimado pela recta de regressão, ou seja, pela intercepção ɑ e pelo declive
b vai ser dado por:

7
Os valores previstos de Y são previstos através da recta de regressão. O resíduo ou
erro é simplesmente a diferença entre o valor de Y e o valor previsto de Y e pode ser
definido pela expressão . Chegamos finalmente à soma dos erros ao quadrado,
definida por:

pois

Há vários métodos para estimar os coeficientes da recta de regressão e . Um


deles, bastante divulgado devido às suas propriedades, consiste em minimizar a soma
dos erros ao quadrado (SEQ). Como devemos proceder? É simples, basta usar a
diferenciação parcial da SEQ com respeito a e . Para maior simplicidade, vamos
suprimir nas derivações seguintes os subscritos .

A. Escrever a derivativa parcial de SEQ com respeito a e e igualá-la a 0.

(condição de primeira ordem)

(condição de primeira ordem)

Estas duas equações constituem em conjunto aquilo que em métodos quantitativos


se conhece por condições de primeira ordem. Como temos 2 equações e 2
incógnitas ( e estas equações podem ser solucionadas!

B. Vejamos de seguida a primeira equação.

Se multiplicarmos por –( ) obtemos:

=0

sendo que

Procurando uma expressão para

8
C. Temos deste modo uma expressão para a intercepção da recta Olhemos agora
para a segunda equação. Multipliquemos então a equação por –( ):

Expandindo, obtemos:

Substituindo a expressão encontrada para na equação:

Multiplicando por -1 e rearranjando a equação, temos:

Estamos agora mais perto de encontrar uma solução para :

É possível demonstrar que

E também que:

9
Deste modo, uma alternativa à fórmula anteriormente encontrada para o declive
da recta é:

Embora esta nova fórmula seja sem dúvida alguma mais compacta, a fórmula
anterior é mais fácil para efeitos de implementação do cálculo. Se aproveitarmos os
dados reportados na tabela 1, podemos facilmente encontrar valores para estimar o
declive e a intercepção da recta. Se o leitor reparar com atenção, há duas colunas
que não foram utilizadas em cálculos anteriores e que contribuem para calcular o
coeficiente . Sendo assim:

Naturalmente, agora é mais fácil encontrar o valor para a intercepção :

Em suma, a estimativa para a intercepção com a aplicação do método dos


mínimos quadrados é igual a 22.18 e a estimativa para o coeficiente do declive da
recta é 0.94. Como interpretar estes coeficientes? A interpretação para é simples: é
o nível autónomo de vendas que ocorrem mesmo sem publicidade televisiva. No
caso da interpretação para o outro coeficiente, indica o efeito de um anúncio extra
no volume das vendas. Assim, um aumento à 6ª feira para mais um anúncio aumenta
o volume de vendas em 0.94 Kwanzas × 1000, ou seja, 940 Kwanzas.

10
3. Etapa nº3: O Coeficiente de Determinação (R²)

Ninguém pode negar que o método dos quadrados mínimos possibilita uma
aproximação linear à relação entre as variáveis X e Y, como se viu através do exemplo
utilizado neste artigo. Mas a grande questão que se coloca diante de nós neste momento
e que vai merecer tratamento nesta terceira etapa consiste em saber até que ponto esta
aproximação poderá ser considerada boa.

Já definimos SEQ no ponto anterior.

A esta quantidade mensurável dá-se muitas vezes a denominação de componente


inexplicada. Além do mais, é possível aproveitar a nuvem de pontos e medir uma outra
quantidade, a soma total dos quadrados (ou, em alternativa, soma do quadrado dos
desvios totais), adiante designada por SQT, em que a preocupação doravante seria
apenas quantificar a soma das distâncias entre as observações de Y e o valor da média
de Y (e não Y previsto pela regressão), previamente elevadas ao quadrado. O leitor
atento terá presumivelmente dado conta que esta medida, divida pelo número de
observações, resultará no cálculo da variância:

Finalmente, a partir da nuvem de pontos, podemos chegar a uma medida idêntica


que permita quantificar a parte da variação de Y em relação à média de Y que pode ser
explicada pela variável X. A esta medida, que podemos considerar a componente
explicada pela regressão, chamaremos de variação explicada de Y (VEY).

Assim fazendo, é possível apresentar uma particularidade na relação entre as três


quantidades, SEQ, SQT e VEY:

SQT = VEY + SEQ

11
Sem grande dificuldade, pode-se calcular então as previsões para as sete
observações do nosso exemplo (usando a recta de regressão), medir a diferença entre os
valores actuais e previstos pela recta de regressão e, por fim, estimar o valor de SEQ. A
tabela seguinte reúne resumidamente os cálculos efectuados.

Tabela 2. Os cálculos de SEQ e SQT

X Y Previsão de Y Y – Previsão de Y (Y – Previsão de Y)²

2 24 24.06 -0.06 0.0036 1

5 28 26.88 1.12 1.2544 9

1 22 23.12 -1.12 1.2544 9

3 26 25.00 1.00 1.0000 1

4 25 25.94 -0.94 0.8836 0

1 24 23.12 0.88 0.7744 1

5 26 26.88 -0.88 0.7744 1

Σ = 21 Σ = 175 Σ = 5.976 Σ = 22

A partir dos resultados apresentados na tabela acima, SEQ é igual a 5.976, SQT
é igual a 22 e VEY (22 – 5.976) é igual a 16.024. Verifica-se, pois, que estamos agora
numa posição privilegiada para avaliar a qualidade do ajustamento da recta de
regressão. O coeficiente de determinação (R²), definido como a proporção da variação
de Y que pode ser atribuída à variação da variável X, é precisamente a medida principal
para esclarecer este tipo de questões. No caso do coeficiente de determinação atingir um
valor elevado, não só a qualidade do ajustamento será boa como também a proporção da
variação de Y explicada pela variável X será significativa. O coeficiente de
determinação é definido pela expressão:

12
Em jeito de balanço, pode-se concluir que cerca de 73% da variação nas vendas
pode ser explicada pela variação em publicidade. Mais curioso ainda: é possível
demonstrar que o coeficiente de correlação calculado na primeira etapa, quando elevado
ao quadrado, é aproximadamente idêntico ao valor estimado para o coeficiente de
determinação. O valor do coeficiente de correlação encontrado é igual a 0.854 e depois
de o elevarmos ao quadrado é igual a 0.729. Diante da evidência aparente de uma
relação causal entre vendas e publicidade, deve-se no entanto acautelar o leitor contra a
grave tentação de se falar em causalidade em contextos em que o método de análise
posto à disposição do investigador circunscreve-se àquele que foi apresentado na
primeira etapa do presente artigo.

4. Observação final

Este ensaio tem uma simples finalidade: sintetizar alguns princípios básicos para
uma abordagem quantitativa do grau de relação entre dois fenómenos, quer sejam eles
de natureza social ou económica. Fazendo recurso a uma linguagem acessível, as
considerações teórico-práticas aqui discutidas visam corresponder eficazmente às
necessidades das novas gerações de estudantes angolanos das ciências sociais e
humanas, eles que amanhã virão a desempenhar um papel com elevada responsabilidade
enquanto economistas, gestores ou pesquisadores em Angola.

É preciso sublinhar que devemos sempre encarar os factos como eles se apresentam.
Conhecer plenamente a verdade dos factos exige da parte do investigador uma
abordagem analítica com método e rigor científico, sem qualquer tipo de rodeios ou
tendenciosidade: tudo se joga no reconhecimento da importância de dispormos de
instrumentos práticos tais como aqueles que aqui sugerimos que, em última análise,
possam contribuir para uma tomada de consciência e acção de transformação da
realidade social em que vivemos.

Referências

R L Thomas – Modern Econometrics (Addison Wesley)

Jack Johnston, John Di Nardo – Econometric Methods (McGraw Hill)

13