Você está na página 1de 10

DISCIPLINA: ESTATÍSTICA

TEORIA DE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

1. Introdução

A estatística, na análise de dados, frequentemente procura verificar ou medir as relações


qualitativas ou quantitativas entre processos económicos ou sociais.
Por exemplo:
a) A relação entre a idade e a produtividade de um agente patrulheiro;
b) A relação entre o nº de crime com o nº de patrulhas numa semana;
c) A relação entre o peso e a idade de um indivíduo;
d) A relação entre o nº de cadetes por turma e o seu rendimento académico.

Por vezes certos fenómenos em estudo não se descrevem apenas através de uma variável,
sendo necessária a observação de duas (ou mais) variáveis para se ter uma visão global
do problema. Quando tal ocorre, cada unidade estatística contribui com um conjunto de
dois valores (ou variáveis) passando a trabalhar-se com dados bivariados (os
anteriormente estudados eram univariados).

Exemplo 1: Altura e peso de uma dada população.

2. Objectivo principal do estudo da teoria de correlação e regressão

O objectivo principal do estudo da teoria de correlação e regressão é:


1. Encontrar um critério (modelo ou fórmula) que permite com exactidão estabelecer
o tipo de relacionamento entre as variáveis;
2. Determinar a presença e o sentido da relação entre fenómenos;
3. Avaliar quantitativamente a influência de outros factores no relacionamento entre
fenómenos;
4. Avaliar a velocidade de mudança dos resultados recebidos quando se variam os
factores independentes.

3. Representação de dados bivariados

A informação da população que se pretende estudar aparece sob forma de pares de


valores (x, y), isto é, cada unidade estatística contribui com um conjunto de dois valores.
Surge então o problema de estudar a existência ou não da relação entre essas variáveis
observadas.
Como ponto de partida do estudo da existência ou não da relação estatística (correlação)
entre duas variáveis ou características de uma amostra, podemos representá-las
graficamente.

11-08-2022 1
4. Diagrama de dispersão ou nuvem de pontos

É uma representação gráfica para os dados bivariados, em que num sistema de eixos
cartesianos marcamos os valores xi e yi nos respectivos eixos e obtemos a representação
dos pontos correspondentes aos pares ordenados (xi,yi).
Através dos diagramas podemos ter uma ideia de tipo de relação entre variáveis
estudadas.

Exemplo 2: Consideremos as idades de 16 cônjuges na data dos seus casamentos, em que


x representa a idade do marido e y a idade da mulher.

X 18 20 21 21 22 23 23 23 24 25 25 26 26 26 28 28
Y 17 20 20 22 22 21 22 23 23 24 25 23 25 27 26 27

Este diagrama, de forma intuitiva, permite-nos concluir que talvez exista uma correlação
(linear) entre as duas variáveis em estudo.

Logo, através do diagrama de dispersão ou nuvem de pontos podemos, por observação,


concluir acerca da existência ou não da correlação linear entre duas variáveis.

Exemplo 3: através dos gráficos seguintes pode concluir-se que existe uma,

Correlação positiva Correlação negativa


(forte) (forte)
.. ..
.. ..
. .
Y . Y .
. .
.. ..
. .
. .
.. X X ..
. .
. .
11-08-2022 2
Correlação positiva Correlação negativa
(fraca) (fraca)
. .
. . . .
. .
Y . Y .
. .
. . . .
. .
. .
. X. . .
. . X
. .
O diagrama de dispersão é no entanto insuficiente para qualificar a relação entre x e y,
assim como quando há observações que se repetem, o diagrama não realça a sua
frequência.

5. Divisão da teoria de correlação e regressão linear simples


A teoria de correlação e regressão divide-se em duas partes, a saber:

5.1 Correlação
A correlação é uma unidade estatística que mostra o grau de relacionamento (associação)
entre as variáveis.

Quando o coeficiente de correlação for calculado para duas variáveis dizemos que a
correlação é simples e quando é calculado para mais de duas variáveis dizemos que a
correlação é múltipla.

5.2 Correlação linear simples ( rxy )

1. Cálculo de Coeficiente de correlação linear simples ( rxy )


O coeficiente de correlação linear entre as duas variáveis x e y, procura medir a relação
entre as duas variáveis e é dado pela expressão:
n n n
n. xi . yi   xi . yi
rxy  i 1 i 1 i 1
2 2
 n 2   n   n 2  n 
n  xi     xi  . n  yi     yi 
 i 1   i 1   i 1   i 1 
Onde: n é o número de pares de valores (xi,yi) observados.

Nesta definição está implícita a definição de uma medida que dá uma ideia da
variabilidade conjunta entre as variáveis e que se denomina covariância amostral:

11-08-2022 3
1 n
 xy   xi  x  yi  y 
n  1 i 1
Deste modo podemos rescrever o coeficiente de correlação como:
 xy  xy
rxy  
 x2   y2  x . y

Onde:  xy é a covariância de x e y (dispersão conjunta);


 x é o desvio padrão de x (dispersão de x);
 y é o desvio padrão de y (dispersão de y).
2. Propriedades de Correlação linear simples ( rxy )
O coeficiente de correlação linear é um número do intervalo  1;1
ou  1  rxy  1 em que:
 rxy  1  Correlação negativa muito forte ou perfeita;
  1  rxy  0,5  Correlação negativa forte;

  0,5  rxy  0  Correlação negativa fraca;

 rxy  0  Correlação nula (não existe relação entre as variáveis);

 0  rxy  0,5  Correlação positiva fraca;


 0,5  rxy  1  Correlação positiva forte;

 rxy  1  Correlação positiva muito forte ou perfeita.


+1 Correlação linear positiva (perfeita)
Correlação linear positiva (forte)
0,5

0 Correlação linear nula

-0,5
Correlação linear negativa (forte)

-1 Correlação linear negativa (perfeita)

11-08-2022 4
6 Regressão
A regressão tem por objectivo descrever através de um modelo matemática a relação
entre duas ou mais variáveis escrevendo a equação desse relacionamento.

1. Modelo (Recta) de regressão linear simples


Este tipo de regressão, trata apenas de relacionamento entre duas variáveis, procurando
estimar os parâmetros de equação de ajustamento e outras medidas ligadas a estas
variáveis.

O modelo geral de equação de regressão linear entre duas variáveis tem a seguinte forma:

y  f ( x) ou y  a  bx   ou y    x

Onde:   b é o coeficiente angular da recta de regressão, ele caracteriza a variação


média do índice do resultado sob a influência da variação do índice de causa em uma
unidade de medida ou indica quantas unidades de y mudam para a mudança de uma
unidade de x;

  a é o ponto de intersecção com o eixo oy, ele mede ou caracteriza o nível médio do
índice do resultado y quando a variável de causa x é igual a zero, isto é, se x = 0 implica
que y = b.

Um dos métodos usados para ajustar uma recta a um conjunto de dados, é o método dos
mínimos quadrados que consiste em determinar a recta que minimiza a soma dos
quadrados dos desvios (erros ou resíduos) entre os verdadeiros valores das ordenadas y e
os obtidos a partir da recta, que se pretende ajustar:

yi ŷi = axi +b
ei

ŷi

xi

O modelo matemático que expressa a relação linear é a recta de regressão ŷi = axi +b,
obtida de tal modo que os desvios ou resíduos (ei = yi - ŷi) quadráticos das observações
em relação à recta sejam mínimos (MMQ).

11-08-2022 5
n 2 n 2

min  yi  yˆ i  min  yi  b  xi 
i 1 i 1

2. Cálculo de a e de b

a  Y  bX a  Y  bX
n n n
n  X iYi   Yi  X i Y
b i 1 i 1 i 1 b  rxy
n
 n 
2
x
n X i
2
  Xi 
i 1  i 1 

Ou

 n n

 i y  nb  a  xi
 i 1 i 1
 n n n

 
 i 1
x y
i i  b 
i 1
x i a 
i 1
xi2

7. Análise Elementar de Resíduos


Uma forma de verificar se o modelo ajustado é bom, é através dos resíduos, isto é, das
diferenças entre os valores observados (y) e os ajustados (ŷ) pois, se estes não forem
muito grandes e nem tiverem um padrão em definido, o modelo tem boa qualidade.

8. Diagrama de Dispersão dos resíduos


Uma forma simples de visualizar os resíduos (ei) é através de um diagrama de dispersão
representando os pontos (xi ; ei). Num modelo bem ajustado, os pontos apresentam-se de
forma aleatória sem nenhum padrão particular definido.

Exemplo 4: Admite-se que X e Y representam, respectivamente, a altura e o peso de 12


estudantes seleccionados ao acaso entre os alunos de uma Escola.

Altura(cm) 155 160 180 135 165 168 178 160 132 145 139 152
Peso (Kg) 70 63 72 60 66 70 74 65 62 67 67 68

11-08-2022 6
Analisemos estas duas variáveis através de um diagrama de dispersão e do coeficiente de
correlação linear:

Diagrama de Dispersao

100
80
Peso (kg)

60
40
20
0
100 110 120 130 140 150 160 170 180 190
Altura (cm)

O correspondente coeficiente de correlação linear rXY = 0,86. Conclui-se desta forma


que tanto através do diagrama de dispersão como do coeficiente de correlação é
favorável o ajustamento de uma recta de regressão linear. Vamos então proceder ao seu
cálculo:
 XY
x x
2
y xy a 
155 24025 70 10850  X2
150 22500 63 9450 n n n
180
135
32400
18225
72
60
12960
8100
n  X iYi   Yi  X i
156 24336 66 10296 b i 1 i 1 i 1
2
168 28224 70 11760
 n
n

178 31684 74 13172 n X i    X i 
2
160
132
25600
17424
65
62
10400
8184
i 1  i 1 
145 21025 67 9715
139 19321 65 9035
152 23104 68 10336
Σ = 1850 Σ = 287868 Σ = 802 Σ = 124258

12  124258- 1850 802


b  0,231733
12  287686 1850
2

802 1850
a  y  bx   0,231733  31,10778
12 12

Então, a recta de regressão é: yˆ  31,10778 0,231733x

11-08-2022 7
Graficamente, podemos ver esta recta ajustada à nuvem de pontos:

R e c ta d e r e g r e s s ã o

100
90
80
70
Peso(Kg)

60
50
40
30
20
10
0

100 120 140 160 180 200 220

Altu r a (c m )

Exercícios

1. Suponha que um médico está interessado em estudar a relação entre as despesas


mensais com a saúde e os rendimentos do cidadão. Recolheu-se informação (em
milhões de meticais) relativa a 15 famílias, tendo-se obtido os seguintes dados:
Rend. 2.5 1.7 1.3 2.3 2.7 1.8 1.3 1.5 2.1 2.8 1.9 1.4 1.7 2.1 1.8
Desp. 0.14 0.106 0.1 0.12 0.15 0.11 0.106 0.1 1.4 0.15 0.14 0.11 0.106 0.15 0.1

a) Represente as observações num diagrama de dispersão;


b) A representação anterior sugere a existência de alguma relação linear entre as
variáveis em estudo?
c) Se na alínea anterior a sua resposta foi afirmativa, obtenha a expressão da recta
dos mínimos quadrados.
d) Obtenha uma estimativa para os gastos com a saúde de uma família cujos
rendimentos mensais são de 3.5 milhões.

2. Considere as duas amostras de dados referentes a duas variáveis, x e y.


Amostra 1:
X 10 8 13 9 11 14 6 4 12 7 5
Y 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68

Amostra 2:
X 10 8 13 9 11 14 6 4 12 7 5

11-08-2022 8
Y 9.14 8.14 8.75 8.77 9.26 8.10 6.13 3.10 9.13 7.26 7.74

a) Represente graficamente, através de um diagrama de dispersão, ambas as


amostras.
b) Qual das duas amostras lhe parece mais adequada para descrever a
variável y através de uma recta de regressão linear simples? Justifique.
c) Para a amostra escolhida da alínea anterior, determina a respectiva
equação de regressão linear.

3. Considera os dados bivariados, (- 0.2, 0.96); (0.2, 1.14); (0.4, 1.56); (0.6, 1.74); (0.7,
1.96); (0.8, 2.04).
a) Represente os dados através de um diagrama de dispersão;
b) Ajuste a recta de regressão aos dados;
c) Calcule o coeficiente de correlação e comente a qualidade do ajustamento
anterior.

4. O quadro seguinte é resultado de observações feitas num túnel rodoviário durante um


período de 5 minutos, para o estudo da fluidez do tráfego.

Densidade (Veic./km) 43 55 40 52 39 33 50 33 44 21
Velocidade (Km/h) 27 23 31 24 35 41 27 40 32 51

a) Calcula os elementos necessários para a construção do diagrama de extremos


e quartis relativos á densidade do tráfego;
b) Calcula a variância de cada um dos dados observados;
c) Qual dos conjuntos de dados apresenta maior dispersão? Justifique.
d) Calcula o coeficiente de correlação linear entre as duas variáveis. A que
conclusão pode chegar?
e) Determine a equação da recta de regressão, caso se justifique.

5. Relativamente a um conjunto de 10 dados bidimensionais, (x;y), sabe-se que:

x i  160 ; x 2
i  2874; x y i i  3496; y i  198; y 2
i  4324

a) Calcula a média e a variância de x.


b) Calcule o coeficiente de correlação entre x e y. Comente o resultado.
c) Caso se justifique, determine a equação da recta de regressão de x sobre y.
d) Apresente um valor admissível para Y quando x = 16.

6. Considere x e y duas variáveis discretas. Para um conjunto de 6 observações foram


determinados os seguintes valores:
x i  2981; x 2
i  1934523; x y
i i  1855853;
y i  2875 ; y 2
i  1780659

11-08-2022 9
Sabendo que um dos valores observados para a variável x foi 333 diga, justificando, se é
possível obter uma estimativa do correspondente valor de y.

7. Diga, justificando, qual dos valores abaixo indicados se aproxima mais do coeficiente
de correlação dos dados descritos nas seguintes nuvens de pontos:

.
y . y . . .
. . . .
. . ..
. . ..
. .
x x

. . . . a) 0
y .. .. . . ..
. . .. . . b) 1
.. .. . . c) – 0.5
. .. . d) 2
. . .. .
x

11-08-2022 10

Você também pode gostar