Você está na página 1de 7

1

REGRESSÃO E CORRELAÇÃO

Introdução:
A regressão e correlação são duas técnicas estreitamente relacionadas que
envolvem uma forma de estimação. A diferença entre essas técnicas e o tipo de
estimação discutido anteriormente é que aquelas técnicas anteriores foram utilizadas
para estimar um único parâmetro populacional, enquanto que as técnicas apresentadas
agora se referem à estimação de uma relação que possa existir na população.
Ou seja, a análise da correlação e regressão compreende a análise de dados
amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a
outra numa população. Vamos nos ater ao estudo de situações de duas variáveis. A
análise de correlação dá um número que resume o grau de relacionamento entre duas
variáveis; a análise de regressão tem como resultado uma equação matemática que
descreve o relacionamento. A equação pode ser usada para estimar, ou predizer,
valores futuros de uma variável quando se conhecem ou se supõem conhecidos
valores da outra variável. A análise de correlação é útil em trabalho exploratório,
quando um pesquisador ou analista procura determinar quais variáveis são
potencialmente importantes e o interesse está basicamente no grau ou força do
relacionamento. Em educação e Psicologia, freqüentemente se dá maior ênfase ao
grau do relacionamento. Em outras áreas, como administração, economia, pesquisa
médica, agricultura, focaliza-se mais a natureza do relacionamento(equação), e a
análise de regressão é o instrumento principal.

A correlação mede a força, ou grau, de relacionamento entre duas variáveis;


a regressão dá uma equação que descreve o relacionamento em termos
matemáticos.

Os dados para a análise de regressão e correlação provêm de observações de


variáveis emparelhadas. Para um problema de duas variáveis, cada observação
origina dois valores, um para cada variável. Por exemplo, um estudo sobre
características físicas pode focalizar a idade e a altura, ou peso e idade. (OBS. A
análise será feita somente para duas variáveis.)
2

Diagramas de Dispersão

Após dispormos de uma série de valores de duas variáveis que estamos


querendo verificar se entre elas há ou não um certo grau de dependência, o primeiro
passo será marcá-las num gráfico cartesiano, cada uma das séries num dos eixos,
construindo o diagrama de dispersão.

Exemplo:
x 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
y 12 11 13 12 11 8 10 9 7 8 8 9 7 7 6 6 4 5 4 5 5

Tempo(m) 15 .

10 .

5 . . .

25 30 35 40 45 idade(x)

A configuração mostrada no gráfico nos faz supor que existe uma certa
correlação entre as variáveis, com o passar do tempo as pessoas demoram menos
debaixo do chuveiro. Nem sempre as variáveis correlacionadas não necessariamente
estão estão sujeitas a uma relação de causa e efeito. No exemplo há uma diminuição
no tempo com o passar da idade só porque estão mais idosas, pode ser por se
tornarem menos vaidosas ou mais ocupadas conforme o tempo vai passando...

A correlação, portanto, apontará em muitos casos unicamente a existência de


variações semelhantes em duas variáveis, sem que, entretanto uma tenha muita coisa
a ver com a outra.

Corr. Nula Corr. ñ linear Corr. ñ linear Corr. Linear positiva


3

CORRELAÇÃO LINEAR

Se a correlação existente for do tipo linear, i.é, havendo uma tendência a que os
pontos do diagrama de dispersão se distribuam em torno de uma reta, nós podemos
medir essa correlação através de um nº denominado Coeficiente de Correlação
Linear.

Alto grau de Corre. Moderada Corr. Perfeita Corr. Moderada


positiva positiva negativa negativa

O coeficiente de correlação linear é um número que mede o grau de correlação


entre as duas variáveis e ele tem as seguintes propriedades.

1. Varia entre –1 e +1;


2. se for = +1, a correlação é positiva perfeita;
3. se for =-1, a correlação é negativa perfeita;
4. se for=0, a correlação é nula.

aumenta aumenta

-1 0 +1
Corr.neg.perf. nula Corr.pos.perf.

CÁLCULO DO COEFICIENTE DE CORRELAÇÃO

(x-x).(y-y)
r = cov(x,y) = n r= n.xy - x .y
x . y (x-x)² (y-y)²
n n [n.x² - ( x )² ] .[n.y² - ( y )²]
4

Exemplo:

Determine o coeficiente de correlação entre idade e o tempo de duração


do banho das pessoas.

x y x.y x² y²
30 08 240 900 64
31 10 310 961 100
32 09 288 1024 81
33 07 231 1089 49
34 08 272 1156 64
35 08 280 1225 64
36 09 324 1296 81
37 07 259 1369 49
38 07 266 1444 49
39 06 234 1521 36
40 06 240 1600 36
385 85 2944 13585 673

2944 –385.85
r= 11 = -31 = -0,73

13585 – 385² 673 – 85² 1780


11 11

As variáveis possuem entre si um grau moderado (p/alto) de correlação negativa.


5

EXERCÍCIOS- Correlação Linear.

1) Verifique o grau de correlação linear entre as alturas e os pesos de 20 pessoas, cujos valores são
mostrados na tabela seguinte:

Peso/kg 65 71 60 60 59 66 80 89 70 65 75 84 73 61 79 69 66 67 73 66

Altura/cm 165 170 166 165 171 174 170 178 171 167 167 177 175 166 175 169 166 172 167 168
2) Numa Indústria é feito um acompanhamento sistemático do percentual de elementos defeituosos
produzidos a cada intervalo de ½ hora. Após um mês de produção, os valores médios de
percentuais de defeitos a cada horário foram marcados na tabela abaixo:

Horas 7:00 7:30 8:00 8:30 9:00 9:30 10:00 10:30 11:00 11:30 12:00
% 0,12 0,09 0,14 0,19 0,14 0,16 0,13 0,18 0,15 0,19 0,20

Verifique a existência de correlação linear entre o horário e o percentual de defeitos.

3) Com os dados abaixo, sobre crimes violentos e a temperatura média entre 21 e 2 horas das
noites de Sábado numa grande cidade, calcule o coeficiente de correlação.

Crime/mil 5,0 2,2 4,1 5,4 2,8 3,0 3,6 4,9 4,1 4,2 2,0 2,7 3,1
°F 87 50 75 90 55 54 68 85 82 80 45 58 66

REGRESSÃO LINEAR SIMPLES

A análise de regressão é a técnica utilizada para medir (quantificar) ou estimar,


através de equações Matemáticas as relações entre variáveis econômicas. É bastante
utilizada para fazer previsões de uma variável em função de outra, principalmente em
6

séries temporais. Sob a denominação de regressão linear simples escondem-se dois


conceitos básicos:
1. Estamos lidando apenas com função do 1º grau;
2. Que o fenômeno é razoavelmente bem explicado por uma única variável
independente, ou seja, através da equação da reta.

A equação é do tipo: y = b + m.x

Conhecida como a equação geral de ajustamento da reta. O coeficiente linear “b” e o


coeficiente angular “m” são os parâmetros da melhor reta de ajustamento.

 O parâmetro “b” é a intersecção da reta com o eixo das ordenadas.


y
 O parâmetro “m” define a inclinação da reta.
m
 A variável y define o valor provável da b
variável dependente em função de um dado
valor específico da variável independente x. x

OBTENDO OS COEFICIENTES DA RETA DE AJUSTAMENTO:

Seja y = b + m.x;
1º) Aplicando-se  a ambos os membros da igualdade:

 y =  b +  m.x =>  y = n.b + m.  x (1)

2º) Multiplicando-se por x ambos os membros:

 x.y =  x.(b + m.x) =>  x.y =  (b.x + m.x²) =>  x.y = b. .x + m. .x² (2)

Obtemos um sistema de equações normais da reta:

 y = n.b + m.  x
 x.y = b. .x + m. .x² cuja solução é:

b =  y – m.  x ou b = y – m.x e m = n.  x.y –  x .  y
n n.  x² – ( x)²
x)²

EXEMPLO:

1) Os dados abaixo referem-se a meses de experiência de dez digitadores e o número


de erros cometidos na digitação de determinado texto.
7

x 1 2 3 4 5 6 7 8 9 10

y 30 28 24 20 18 14 13 10 7 6

Dados: ∑ x = 55; ∑ x² = 385; ∑ y = 170; ∑ y² = 3534 ∑ x.y = 706.

a) Represente o diagrama de dispersão desse conjunto de dados;


b) Determine os coeficientes da equação pelo método dos mínimos quadrados;
c) Qual o número esperado de erros para um digitador com 5 meses de experiência?

y (Erros) DIAGRAMA DE DISPERSÃO


30 Meses x Erros

25

20

15

10

1 2 3 4 5 6 7 8 9 10

m = .10 . 706 – 55 . 170 = – 2,78 b = .170 – (– 2,78) . 55 = 32,27


10 . 385 – (55)². 10

y = 32,27 – 2,78 x

P/ x = 5 meses, teremos: y = 32,27 – 2,78 . 5


y = 18,37 erros.

Você também pode gostar