Você está na página 1de 5

INSTITUTO SUPERIOR DE COMUNICAÇÃO E IMAGEM DE MOÇAMBIQUE

E S T A T Í S T I C A II
FOLHA TEORICA – TEORIA DE CORRELAÇÃO E REGRESSÃO

1. Coeficiente de Correlação Simples


Introdução

Na vida quotidiana costumamos nos deparar com vários casos pelo qual afirmarmos haver relação entre si. Por exemplo
costumamos afirmar que estão relacionados: o peso de um indivíduo e a sua idade; a demanda por um produto e o
preço do mesmo; as notas de um indivíduo em determinada cadeira e a boa ou má prestação nos testes, etc.
Essas relações podem ser lineares, quadráticas, logarítmas, e mais.

A verificação da existência e do grau de associação ou relação entre duas variáveis é o objecto de estudo da
correlação.

Correlação Linear Simples


A correlação linear procura medir a relação linear entre as variáveis aleatórias.
Essa correlação pode ser analisada graficamente através da disposição dos pontos (X,Y) em torno de uma recta. O
chamado diagrama de dispersão.

O diagrama de Dispersão é uma forma de gráfico onde simplesmente representa-se graficamente cada par ordenado
de variáveis (X,Y), de uma série de dados em um sistema de eixos, permitindo assim, especular sobre a relação entre
duas variáveis.

Se X e Y representam as duas variáveis consideradas e, se todos os pontos de seu respectivo diagrama de dispersão
parecem cair nas proximidades de uma recta com declive, a correlação é denominada linear.

A correlação pode ser linear positiva ou directa, quando o Y tende a aumentar a medida que X aumenta (figura a),
linear negativa ou inversa, quando o Y tende a diminuir a mediada que X aumenta (figura b) ou não existência de
relação linear quando os pontos apresentam-se dispersos e não parecem estar em torno de uma recta (figura c).

(b) (c)
(a)

Coeficiente de Correlação de Pearson (r)

O coeficiente de correlação de Pearson (r) é uma medida de associação linear entre duas variáveis, isto é, mede o
quão duas variáveis estão linearmente associadas.

O cálculo do coeficiente de correlação é dado pela fórmula abaixo apresentada

n *  xi y i   xi  y i
rxy 
n *  x  
(1)
  xi  * n *  y   y i 
2 2 2 2
i i

1
O valor de rxy situa-se entre -1 e +1.

Valor de r Tipo de correlação


r  1 correlação negativa perfeita
 1  r  0.5 correlação é negativa forte
 0.5  r  0 correlação negativa fraca
r 0 correlação nula
0  r  0 .5 correlação positiva fraca
0.5  r  1 correlação positiva forte
r 1 correlação positiva perfeita

Nota: A interpretacao da correlacao possui mesmo significado para caso de r negativo, uma ves que ele varia
de -1 a +1

Observação:
 O coeficiente de correlação linear, apesar de se expressar em percentagem, ela não é uma percentagem. Assim uma
correlação de 0.3 não corresponde 30% da correlação perfeita.
 Os coeficientes de correlação não constituem uma escala de intervalo, i.é, 0.4 não é o dobro de 0.2. Da mesma
forma que as diferenças entre 0.3 e 0.4 e entre 0.8 e 0.9 não são estatisticamente iguais.
 As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário, deve-se aplicar outras estatísticas
para medir o grau de associação.

Exemplo: Calcula o coeficiente de correlação entre as variáveis número de filhos de uma família (y) e a renda mensal
da familia (x)

n *  xi y i   xi  y i 5 * 288  46 * 30
rxy    0.416
n *  x 2
i 
  xi  * n *  y   y i 
2 2
i
2
 5 * 444  46 * 5 * 220  30 
2 2

i xi yi x i2 y i2 xi * y i
1 10 2 100 4 20
2 8 4 64 16 32
3 6 6 36 36 36
4 10 8 100 64 80
5 12 10 144 100 120
Total 46 30 444 220 288

Interpretação: existe uma correlação positiva moderada entre o número de filhos de uma família e a renda mensal da
mesma, pois o coeficiente de correlação de Pearson é de 0.416. O que significa que quanto maior for a renda de uma
familia, maior é o número de filhos que a mesma terá.

1. Modelo de Regressão Linear Simples


 Método dos Mínimos Quadrados
 Estimação dos Coeficientes

Introdução

O termos regressão foi criado por Francis Galton, quando em um artigo famoso verificou que embora existisse uma
tendência para pais altos terem filhos de altura alta, e pais baixos filhos de estatura baixa, a estatura média das
crianças nascidas de pais com dada altura tendiam a mover-se ou “regredir” para altura média da população como um

2
todo, isto é, a altura de crianças filhos de pais mais altos ou mais baixos que o comum, tende a mover-se no sentido da
altura média da população.
Esta lei, conhecida como Lei da regressão universal de Galton, foi confirmada por Karl Pearson que fez uma colecta de
mais de 1000 registos de alturas de membros de grupos familiares. Ele verificou que a altura média do grupo de filhos
de pais baixos era maior que a de seus pais, e a altura média de grupo de filhos de pais altos, era menor que a de
seus pais, constatando desse modo que a altura de filhos de pais altos e baixos “regrediam” igualmente à altura média
de todos os homens.

Interpretação moderna do termo Regressão

A interpretação moderna que se dá ao termo regressão é muito diferente daquela dada por Galton e Pearson.

Regressão é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecidas por um
conjunto de características X´s.

Análise de regressão tem por objectivo estimar o valor médio de uma variável dependente atravês de uma ou várias
variáveis independentes, a partir de n observações dessas variáveis.

O problema consiste em estabelecer a função matemática que melhor exprime a relação existente entre as duas
variáveis (uma dependente, Y e outra independente, X). Simbolicamente a relação é expressa por uma equação de
regressão e graficamente por uma curva de regressão.

A equação de regressão tem por finalidade ESTIMAR (prever) valores de uma variável Y com base em valores
conhecidos da outra X.

Modelo de Regressão Linear

Modelo de Regressão Linear Simples é o modelo constituído pelas variáveis dependente (Y) e variável independente
(X), no qual, a variável independente concorre para explicar o comportamento médio da variável dependente com base
nos valores conhecidos de X.

A variável a ser explicada pode ser chamada variável dependente, explicada, resposta, prevista ou regressando e tem
o símbolo Y.
A variável que explica é chamada variável independente, explicativa, de controle, previsora ou regressor e é
representada por X.

O modelo geral da equação de regressão linear entre duas variáveis tem a seguinte forma:

Yi     * X i i ou Yi  1\   2 X i  u i (1)


Modelo para população, com parâmetros ( ,  ) ou 1 ,  2 
ou
yˆ i  aˆ  bˆ * xi   i ou Yˆ  ˆ1  ˆ2 X i  uˆi , (2)
Modelo para amostra, com estimativas (a, b) ou ˆ1 , ˆ 2   y = ax + b

onde:
Yi ou yˆ i variável dependente; X i ou xˆ i variável independente;
 ou a ou 1\ : intercepto do modelo. Caracteriza a variação média de y quando a variável x é igual a zero.

 ou b ou  2 : coeficiente angular da recta de regressão. Caracteriza a variação média de y provocada pela


variação da variável x em uma unidade.

uˆ i ou  i : resíduo. Representa o conjunto de todas as variáveis que explicam o y mas que não foram incluídas no
modelo.

3
Método para estimação dos parâmetros  e 

Na maioria das situações práticas, o que temos na verdade é uma amostra de valores de Y correpondentes a valores
fixados de X. Portanto o obejctivo é estimar a função de regressão populacional a partir de dados amostrais.

As estimativas dos parâmetros  e  dadas por “a” e “b” podem ser obtidas usando vários métodos. O método mais
usado para ajustar uma linha recta para um conjunto de pontos ( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) é o método de mínimos
quadrados.

O método dos mínimos quadrados consiste em adoptar como estimativa dos parâmetros os valores que minimizam a
soma dos quadrados dos desvios1.

Características
1a) A soma dos desvios verticais dos pontos em relação a recta é zero;
2a) A soma dos quadrados desses desvios é mínima.

Para que o ajuste do modelo seja “bom” é necessário que o valor de d seja mínimo possível.

Os valores de “a” e “b” de recta de regressão yˆ i  a  b * xˆ i serão:

n *  xi * y i   xi *  y i  y *  x   x * x
2
* yi
b a a  y  b * x (5)
i i i i
(3); (4 ) ou
n *  xi2   xi  n *  x   x 
2 2 2
i 1

Exemplo 3:

I Vendas ( xi ) Lucro ( y i ) x i2 y i2 xi * y i
1 201 17 40401 289 3417
2 225 20 50625 400 4500
3 305 21 93025 441 6405
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
Total 3691 184 2011501 4318 89802

Nota: Para facilitar os cálculos das estimativas da recta, acrescentamos três novas colunas na tabela dada.
n* x* y   x* y 8 * 89802  3691*184
b   0.0159
n *  x   x  8 * 2011501 36912
2 2

a
 y *  x   x * x
i
2
i i i * yi

184 * 2011501 3691* 89802
 15.66 Ou
n *  x   x  8 * 2011501 36912
2 2
i 1

a  y  b * x  23  0.0159* 461.38  15.66

A recta é: yˆ  15.66  0.0159* xˆ y = 15.66 + 0.0159x

4
Interpretação:

a  15.66 , significa que quando a venda do produto for nula, a variação média de lucro será de 15,66 u.m. Esta
interpretação não tem sentido prático, pois não pode existir lucro sem vendas.

b  0.0159, espera-se que o lucro tenha uma variação média de 0.0159 u.m quando a venda variar em uma unidade.

Coeficiente de Determinação (Poder explicativo do modelo) Símbolo: R 2

O poder explicativo da regressão tem por objectivo avaliar a “qualidade” do ajuste. Esse valor fornece a proporção da
variação total do y explicada pela variação do x através da função ajustada.
Este coeficiente é empregue como um indicador inicial da precisão das regressões para a selecção dos modelos mais
ajustados

Podemos expressar R 2 por:

 Yˆ  Y 
2
SQR SQE
   1 Ou podemos usar a seguinte relação R 2  rxy2
2 i
R
 Y  Y 
2
i
SQT SQT

Quando:
 R 2  0 , variação explicada de Y é zero, a recta ajustada é paralela ao eixo de variável X.
 R 2  1, a recta ajustada explicará toda a variação de Y.

Assim sendo, quanto mais próximo da unidade estiver o valor de R 2 , melhor “a qualidade” do ajuste da função aos
pontos do diagrama de dispersão e quanto mais próximo de zero, pior será “ a qualidade” do ajuste.
Por exemplo, se o poder explicativo for de 98%, isto significa que 98% da variação de Y é explicada pela variação
de X através da função escolhida e apenas 2% é atribuída a causas aleatórias ou outras variáveis não incluídas no
modelo.

Inferencia dos coefecientes

Estimativa da variancia do erro do modelo

Estimativa da variancia do erro padrão do

Estimativa da variancia do erro padrão do

Logo

Você também pode gostar