Você está na página 1de 13

UNDB - CENTRO UNIVERSITÁRIO

ESTATÍSTICA DE PROCESSOS
(1- Correlação e Regressão)

MARCELO VIRGINIO DE MELO

São Luís
2020
MÓDULO 1: Correlação e Regressão

MÓDULO V
ESTATÍSTICA APLICADA

Este módulo se dedicará a abordar certos assuntos, que são importantes para
aplicação da estatística nas diversas áreas do conhecimento científico e, com certeza, serão
importantes para a sua vida acadêmica e profissional.
Iniciaremos tratando variáveis que possuem certa interdependência com o
coeficiente de correlação.
Depois, teremos um tópico que vai te ensinar, de forma bem simples, como
criar uma equação linear que explique o comportamento de duas variáveis, pelo método dos
mínimos quadrados, a ser explicado no tópico de regressão linear simples.

1. O Coeficiente de correlação

Acho que você já ouviu (ou já disse) a frase abaixo:


- Amor, vamos discutir a relação!
Sabia que, para a maioria dos casais, ela pode estar errada? Isto
porque um relacionamento entre casais requer interdependência entre as partes. Do
contrário, se uma das partes depende da outra, mas a outra não depende da primeira,
podemos ter problemas...

Fonte: Google Imagens

De forma semelhante, pode existir interdependência entre duas variáveis. Por


exemplo, o consumo e a renda (o consumo afeta a renda e a renda, por sua vez, afeta o

2
MÓDULO 1: Correlação e Regressão

consumo), a altura dos filhos e altura dos pais, a velocidade de um veículo e o consumo de
combustível, o treinamento de funcionários ligados à produção e o número de defeitos, etc.
Nesses e em todos os demais casos, podemos estimar o nível desta
associação entre as variáveis estudadas a partir do cálculo do Coeficiente de Correlação
Pearson. Ele é obtido através da fórmula:
(n *  XY )  ( X *  Y )
r

(n *  X )   X  * (n * Y )  Y  


2 2 2 2

Onde:
n = número de observações
 XY = Soma da coluna correspondente à multiplicação dos valores de X pelo de Y
 X =Soma de todos os valores de X
 Y = Soma de todos os valores de Y
 X = Soma de todos os valores de X elevados ao quadrado
2

 Y = Soma de todos os valores de Y elevados ao quadrado


2

O resultado de “r” SEMPRE estará contido no intervalo de valores


compreendidos entre -1 e +1. Se o resultado de “r” for:
i. Maior que 0,5 e menor que 1: Dizemos que as variáveis possuem forte correlação
positiva. Isso significa que, com o aumento do valor de uma das variáveis a outra
também aumentará; e com a redução do valor de uma das variáveis o valor da outra
também diminuirá. Graficamente, podemos visualizar melhor esta situação com o
auxílio de um diagrama de dispersão, que é um gráfico simples, que representa os
pares ordenados (pontos) das variáveis X e Y:
Y
Quando uma variável
aumenta, a outra também
aumenta.

3
MÓDULO 1: Correlação e Regressão

ii. Maior que -1 e menor que -0,5 (ou seja, entre -1 e -0,5): Dizemos que as
variáveis possuem forte correlação negativa. Ou seja, o aumento do valor de uma
das variáveis provoca a redução do valor da outra variável, e vice-versa. O diagrama
de dispersão que representa esta situação é o seguinte:
Y

Quando uma variável


aumenta, a outra diminui.

X
iii. Maior que -0,5 e menor que 0,5: Dizemos que as variáveis não são
correlacionadas, ou seja, a variação de uma não interfere no valor da outra.
Observando o diagrama de dispersão:
Y
Não há variação de uma
das variáveis em
decorrência de variações
da outra.

X
Resumindo

Conforme pôde ser observado, o uso de um diagrama de dispersão na análise


do grau de correlação entre duas variáveis pode ser muito útil. Se você tiver acesso a uma
planilha eletrônica, aconselho fortemente a construção deste diagrama antes de realizar os
cálculos necessários.

4
MÓDULO 1: Correlação e Regressão

Exemplo: O quadro abaixo mostra aos diversos valores de número de imóveis novos
vendidos e quantidades compradas de cimento no varejo de São Luís . Calcule a função que
representa a demanda deste supermercado.

Vendidos Quantidade de Cimento Vendida


(Mil Unidades) (Mil Toneladas)

3 7
7 10
4 8
8 11
10 12
9 11

Resolução:
Observando a fórmula de cálculo do coeficiente de correlação, podemos
notar que precisamos de vários somatórios:
(n *  XY )  ( X *  Y )
r

(n *  X 2

)   X  * (n *  Y 2 )   Y 
2 2

Assim sendo, expandimos a tabela, inserindo os dados necessários, ou seja:

X ; Y ;  X Y ; X 2
; Y 2
.

Daí, temos:
X Y
Imóveis Vendidos Quantidade de Cimento Vendida
X 2
Y 2
 XY
(Mil Unidades) (Mil Toneladas)
3 7 9 49 21
7 10 49 100 70
4 8 16 64 32
8 11 64 121 88
10 12 100 144 120
9 11 81 121 99
Soma 41 59 319 599 430

Veja que a variável escolhida como X foi “imóveis vendidos” e a variável Y


a quantidade de cimento vendida. Entenda que a escolha de quem será X ou Y não
importa! Os resultados obtidos serão sempre os mesmos. (após os procedimentos
abaixo, exercite trocando as variáveis X e Y).

5
MÓDULO 1: Correlação e Regressão

Como “n” é o número de observações, e temos 6 observações, aplicamos os


valores da tabela acima na fórmula:
(6 * 430*)  (41* 59)
r

6 * 319  41 * 6 * 599  59 


2 2

Cuidado! Não confunda  X 2 com ( X ) 2 !!! Compare ambos os termos


obtidos na tabela expandida com a fórmula montada acima!
Resolvendo a fórmula obtemos r = +0,9922. Ou seja, a partir da classificação
do resultado, podemos dizer que existe uma forte correlação positiva entre a quantidade de
imóveis vendidos e a quantidade de cimento vendida!
Analisando o diagrama de dispersão (abaixo) do nosso exemplo, podemos
verificar que existe uma tendência claramente crescente, ou seja, quando uma variável está
aumentando a outra também está aumentando, confirmando a nossa classificação de forte
correlação positiva.

Diagrama de Dispersão

13
Quant. de Cimento (Mil Ton.)

12
11
10
9
8
7
6
0 2 4 6 8 10 12
Imóveis Vendidos (Mil Unidades)

6
MÓDULO 1: Correlação e Regressão

2. Regressão Linear Simples

Imagine duas variáveis, X e Y, que supostamente tenham relação entre si


(consumo e renda, vendas e gastos com propaganda, etc). Suponha, ainda que X é a
variável independente e Y seja a dependente (X afeta Y, mas Y não afeta X).
Temos aqui uma situação diferente vista no estudo do coeficiente de
correlação, pois lá existe interdependência entre as variáveis, ou seja, uma interfere no
valor da outra e vice-versa, enquanto que agora apenas uma das variáveis interfere na outra
(x afeta y, mas y não afeta x).
O processo de obtenção de uma equação linear que traduza a relação entre X
e Y é chamada do regressão linear. Esse processo consiste em estimar os valores dos
coeficientes da equação linear, gerando a própria equação:

Y = a +bX + e

Onde:
b = coeficiente angular
a = intercepto
e = erro da estimativa (já que a equação encontrada é apenas uma estimação da verdadeira
relação entre X e Y). Para efeito de cálculo, não usaremos o parâmetro “e”.

A ideia aqui é encontrar os coeficientes “b” e “a”, de forma a montar uma


relação (função) linear entre as variáveis X e Y.

Cálculo: dada uma série com os valores de X e Y, calculam-se os coeficientes “b” e “a”
com o uso das fórmulas abaixo:

n XY   X  Y Y  b  X
b a
n X 2   X 
2
n n
Onde:
n = número de observações
 XY = Soma da coluna correspondente à multiplicação dos valores de X pelo de Y
 X =Soma de todos os valores de X
 Y = Soma de todos os valores de Y
 X = Soma de todos os valores de X elevados ao quadrado
2

7
MÓDULO 1: Correlação e Regressão

O procedimento é bem semelhante daquele usado no cálculo do coeficiente


de correlação. Repare que o numerador da fórmula para encontrarmos o coeficiente “b” é
idêntico ao numerador do cálculo do coeficiente de correlação (r).
 Passo 1: a primeira situação que devemos resolver é determinar qual seria a variável
independente (x) e qual será a variável dependente (y). Infelizmente, não tenho
como te ajudar aqui, já que a relação entre as variáveis que você estiver estudando
dependerá de alguma teoria da sua área, ou de experimentações que você fará ao
longo da sua visa acadêmica.
 Passo 2: Encontra-se “b” (importante frisar que, para encontrarmos o coeficiente
“a” necessitamos do valor do coeficiente “b”. Daí, primeiro devemos encontra o
“b”, depois o “a”).
 Passo 3: Encontra-se “a”
 Passo 4: Monta-se a equação Y = a + bX

COMO SABER SE A SUA EQUAÇÃO PODE SER APLICADA PARA EXPLICAR


A RELAÇÃO ENTRE AS VARIÁVEIS “X” E “Y”?

Existe um teste que pode dizer em que nível de certeza a sua equação de
regressão linear simples explica os dados das variáveis estudadas. Para isso, devemos
calcular o COEFICIENTE DE DETERMINAÇÃO (R2). Ele descreve a porcentagem de
variação nos dados da variável dependente (Y) que podem ser atribuídos à variação nos
dados da variável independente (X).
Do ponto de vista do cálculo, o coeficiente de determinação nada mais é do
que o coeficiente de correlação elevado ao quadrado. Quanto mais próximo for R2 de 1,
maior será o poder de explicação da relação das variáveis por meio da equação de
regressão.
Pode-se dizer, também, que se o valor encontrado para o R2 for maior ou
igual a 0,8 (R2 ≥ 0,8), então a sua equação é válida para explicar a relação entre X e Y, já
que explicará 80% ou mais dessa relação (se o valor de R2 for de 0,85, então sua equação
explicará 85% da relação entre as variáveis).
A seguir, desenvolveremos um exemplo prático do processo de obtenção de
uma equação linear a partir do método de regressão linear simples.

8
MÓDULO 1: Correlação e Regressão

Exemplo: Suponha que os valores das vendas e dos gastos com propaganda de uma
determinada empresa sejam detalhados na tabela abaixo. Qual seria a equação linear que
permitiria prever qual o valor das vendas dado um gasto com propaganda específico?

Ano Vendas (R$ Mil) Propaganda (R$ Mil)


2005 25 8
2006 35 12
2007 29 11
2008 24 5
2009 38 14
2010 12 3
2011 18 6
2012 27 8
2013 17 4
2014 30 9

Para os dados em questão, a variável independente (X) é o gasto com


propaganda, e a variável dependente (Y) são as vendas. Assim, precisamos desenvolver a
tabela com as informações necessárias para o cálculo das fórmulas:

Vendas (R$ Mil) Propaganda (R$ Mil)


Ano XY X2
(Y) (X)
2005 25 8 200 64
2006 35 12 420 144
2007 29 11 319 121
2008 24 5 120 25
2009 38 14 532 196
2010 12 3 36 9
2011 18 6 108 36
2012 27 8 216 64
2013 17 4 68 16
2014 30 9 270 81
Soma 255 80 2289 756

n = 10 observaç
observações

n XY   X  Y (10 * 2289)  (80 * 255)


b
n X 2
  X 
2
 
(10 * 756)  80
2
 2,147

a  ( 255 / 10)  2,147 * (80 / 10)  8,327

Assim, a equação linear obtida é:

Y = 8,327 + 2,147(X)

9
MÓDULO 1: Correlação e Regressão

Ou, se preferir:

V = 8,327 + 2,147*P
Onde:
V = Vendas (R$ Mil)
P = Gastos com propaganda (R$ Mil)
A equação obtida pode, então, ser utilizada para prevermos as vendas que a
empresa terá, se ela gastar determinado valor com propaganda.
Do ponto de vista gráfico, a equação obtida é representada pela reta
vermelha exibida no gráfico abaixo, enquanto que os valores de Y da tabela estão
representados pelos pontos azuis. Perceba que existem pontos azuis acima e abaixo da
reta vermelha. Isto ocorre porque o cálculo da regressão nada mais é do que a “trajetória
média” das vendas dados os gastos com propaganda.

Reta Obtida pela Regressão Linear


Vendas (R$ Mil)

45

40
35
30
25 Y
20 Y previsto
15
10

5
0
0 5 10 15

Gastos com Propaganda (R$ Mil)

A regressão linear também pode ser calculada no Microsoft Excel®. Se


utilizarmos a mesma tabela do exemplo anterior, os resultados serão gerados da seguinte
forma:
RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,948187931
R-Quadrado 0,899060352 Coeficiente de Determinação
R-quadrado ajustado 0,886442896
Erro padrão 2,73880952
Observações 10

ANOVA
gl SQ MQ F F de significação
Regressão 1 534,4913793 534,4913793 71,25527941 2,96101E-05
Resíduo 8 60,00862069 7,501077586
Total 9 594,5

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


a Interseção 8,327586207 2,211025401 3,766391016 0,005493904 3,228949192 13,42622322
Variável X 1 2,146551724 0,25429208 8,441284228 2,96101E-05 1,560152757 2,732950691
b
10
MÓDULO 1: Correlação e Regressão

Perceba que o valor de R2 = 0,899. Então a equação explicará 89,9% da


relação entre as variáveis vendas e gastos com propaganda, ou seja, a equação é válida.
A título de exercício, calcule o coeficiente de determinação a partir do
coeficiente de correlação e compare o valor obtido com o valor acima encontrado.

REFERÊNCIAS BIBLIOGRÁFICAS

BUSSAR, Wilton de O. MORETTIN, Pedro A. Estatística básica. São Paulo:


Saraiva, 2004.
LEVINE, D. M. et al. Estatística: teoria e aplicações. Rio de Janeiro: LTC,
2000.
OLIVEIRA, F. E. M. Estatística e Probabilidade. São Paulo: Atlas, 1999.
DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 1999.
FONSECA , Jairo. S; MARTINS, Gilberto de A. Curso de Estatística. 6ª
Edição. São Paulo: Atlas, 2012.
McCLAVE, James T.; BENSON, P. George; SINCICH, Terry. Estatística
para administração e economia. 10ª Edição. São Paulo: Pearson, 2009.
TRIOLA, Mario F. Introdução à estatística. Rio de Janeiro: LTC, 2004.

11
MÓDULO 1: Correlação e Regressão

Tabela de Números Aleatórios

12
MÓDULO 1: Correlação e Regressão

57 72 00 39 84 84 41 79 67 71 40 21 13 97 56 49 86 54 08 93 29 68 74 54 83
28 80 53 51 59 09 93 98 87 58 70 27 71 77 17 06 32 02 78 62 16 74 69 65 17
92 59 18 52 87 30 48 86 97 48 35 25 18 88 74 03 62 98 38 58 65 86 42 41 03
90 38 12 91 74 30 19 75 89 07 50 64 15 59 71 88 13 74 95 30 52 78 30 11 75
80 91 16 94 67 58 60 82 06 66 90 47 56 18 46 45 11 12 35 32 45 50 41 13 43

22 01 70 31 32 96 91 92 75 40 16 54 29 72 74 99 00 95 97 61 00 98 24 30 07
56 24 10 04 30 20 46 29 90 53 53 11 05 84 41 21 64 79 19 76 29 51 62 60 66
79 44 92 62 02 96 86 64 30 00 94 56 69 30 20 59 87 87 35 44 22 50 97 78 19
53 99 66 45 08 89 78 50 77 53 37 25 77 41 27 62 38 02 23 57 62 01 41 60 35
18 92 87 35 88 56 05 21 36 51 39 28 50 14 66 85 79 30 19 79 72 66 64 31 45

53 08 58 96 63 05 61 25 70 22 50 41 28 96 62 66 43 63 06 63 01 32 79 85 22
03 58 80 29 28 76 89 51 18 24 88 89 46 47 48 59 19 29 87 03 10 33 99 67 12
27 07 81 88 65 69 49 98 00 28 04 70 51 30 01 47 18 97 33 21 85 82 45 43 24
05 21 08 59 01 06 22 24 98 91 81 17 55 44 66 16 07 73 07 66 10 12 31 78 58
40 36 13 27 84 30 82 33 36 39 69 42 05 58 64 61 12 33 89 27 89 52 66 71 93

54 60 25 28 85 88 20 00 10 59 61 05 36 61 33 72 01 01 19 01 61 10 51 20 91
71 51 63 40 76 71 11 73 73 52 37 31 60 45 88 92 73 43 71 28 04 98 09 02 48
61 02 01 81 73 92 60 66 73 58 53 34 42 68 26 38 34 03 27 44 96 04 46 65 93
82 55 93 13 46 30 95 26 55 06 96 17 65 91 72 39 79 96 12 49 52 80 63 26 99
89 98 54 14 21 74 13 57 68 19 86 28 60 89 47 33 15 26 28 77 45 38 48 08 08

00 99 84 84 14 67 95 13 77 58 90 14 50 79 42 73 63 31 06 60 43 40 12 55 04
62 41 50 78 20 48 05 88 43 52 98 03 19 93 92 03 04 97 25 84 95 95 03 63 31
94 27 90 69 24 68 09 92 11 86 07 63 83 19 32 99 51 15 55 71 09 27 02 67 00
44 89 29 28 84 36 28 25 15 82 87 74 18 97 25 76 10 63 26 76 02 26 74 53 28
97 30 76 95 33 21 10 54 26 95 66 65 52 04 99 36 58 48 03 08 93 63 58 17 96

39 16 58 04 44 80 15 59 59 83 90 95 54 66 81 84 39 60 85 38 88 66 33 35 69
60 78 11 03 26 67 50 34 09 61 31 30 20 76 93 66 30 83 51 09 33 83 64 76 05
03 19 23 47 62 89 57 77 91 33 88 47 60 59 37 54 39 48 77 67 49 85 38 43 91
41 28 52 67 56 25 39 59 96 65 51 36 90 32 22 39 33 05 22 99 03 39 97 96 99
77 54 98 50 39 25 37 42 52 97 10 03 56 04 92 81 66 86 70 01 48 89 55 82 10

28 63 41 61 91 64 24 83 81 37 34 48 83 27 96 38 71 69 73 06 77 50 25 64 60
74 24 48 85 40 12 33 59 67 50 14 98 14 26 42 79 79 13 52 89 69 78 80 44 71
00 24 03 37 96 46 68 75 05 32 42 16 63 33 28 97 26 36 47 27 73 65 38 34 46
05 41 47 69 69 45 36 16 71 18 95 51 97 22 04 13 23 96 58 60 03 69 48 79 83
62 69 84 97 97 47 23 66 51 56 13 08 69 11 52 75 59 26 86 81 80 43 00 98 92

13

Você também pode gostar