Você está na página 1de 19

UNIVERSIDADE SÃO TOMÁS DE MOÇAMBIQUE

FACULDADE DE CIÊNCIAS ECONÓMICAS E EMPRESARIAIS

CURSO DE GESTÃO FINANCEIRA E BANCÁRIA E GESTÃO DE EMPRESAS

ESTATÍSTICA I

ANÁLISE DE CORRELAÇÃO E REGRESSÃO LINEAR

1. Introdução

A estatística, na análise de dados, frequentemente procura verificar ou medir as relações qualitativas ou


quantitativas entre processos económicos ou sociais.

Exemplo 1:

a) A relação entre a idade e a produtividade de um operário;


b) A relação entre o peso e a idade de um indivíduo;
c) A relação entre o nº de alunos por turma e o seu rendimento académico.

Por vezes certos fenómenos em estudo não se descrevem apenas através de uma variável, sendo necessária a
observação de duas (ou mais) variáveis para se ter uma visão global do problema. Quando tal ocorre, cada
unidade estatística contribui com um conjunto de dois valores (ou variáveis) passando a trabalhar-se com dados
bivariados (os anteriormente estudados eram univariados).

Exemplo 2:

a) Altura e peso de uma dada população;


b) Renda familiar e número de elementos da família.

2. Objectivo principal da análise de correlação e regressão


 Avaliar quantitativamente a influência de outros factores no relacionamento entre fenómenos;
 Avaliar a velocidade de mudança dos resultados recebidos quando se variam os factores independentes;
 Determinar a presença e o sentido da relação entre fenómenos;
 Encontrar um critério (modelo ou fórmula) que permite com exactidão estabelecer o tipo de
relacionamento entre as variáveis.

3. Diagrama de dispersão ou nuvem de pontos

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 1
Uma maneira de visualizarmos se duas variáveis se apresentam correlacionadas é através do diagrama de
dispersão ou nuvem de pontos, no qual os valores das variáveis são representados por pontos, num sistema
cartesiano. Esta representação é feita sob forma de pares ordenados (xi; yi), onde xi é um valor observado de uma
variável e yi é o correspondente valor da outra variável. As Figuras abaixo mostram quatro diagramas de
dispersão, relativos aos cruzamentos de algumas variáveis, através dos mesmos pode concluir se que existe uma
relação entre as variáveis.

12 10
9
10
8
7
8
6
6 5
4
4
3
2
2
1
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12

(a) linear positiva (b) linear negativa

7 10
9
6
8
5 7
6
4
5
3 Série1 Série1
4

2 3
2
1
1
0 0
0 2 4 6 8 10 12 0 5 10 15 20 25

(c) não há relação (d) curvilinear

Exemplo 3:
Vamos ver um exemplo mais concreto. Usando o banco de dados hipotético para representar num diagrama de
dispersão a relação entre as idades dos 16 cônjuges na data dos seus nascimentos, onde x é a variável no eixo
horizontal (idade do Marido) e y é a variável no eixo vertical (idade da Mulher). Neste caso específico só há

valores positivos, mas nada impede que haja valores negativos para x e y em outros exemplos.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 2
Tabela 1: Idades dos 16 cônjuges na data dos seus nascimentos.
X 18 20 21 21 22 23 23 23 24 25 25 26 26 26 28 28
Y 17 20 20 22 22 21 22 23 23 24 25 23 25 27 26 27

Diagrama de Dispersão

29
Idade da Mulher

27
25
23
21
19
17
15
15 17 19 21 23 25 27 29
Idade do Marido

Figura 1: Diagrama de dispersão referente à idades dos 16 cônjuges na data dos seus nascimentos.

Cada ponto representa o valor de x e de y para uma dada observação. Neste caso temos duas variáveis cuja
relação queremos estudar – “Idada do Marido” e “Idade da Mulher”. Os valores observados são os apresentados
na tabela acima.

Este diagrama, de forma intuitiva, permite-nos concluir que talvez exista uma correlação (linear) entre as duas
variáveis em estudo. Logo, através do diagrama de dispersão ou nuvem de pontos podemos, por observação,
concluir acerca da existência ou não da correlação linear entre duas variáveis.

4. Divisão da teoria de correlação e regressão linear simples


A teoria de correlação e regressão divide-se em duas partes, a saber:

4.1 Correlação
A correlação é uma unidade estatística que mostra o grau de relacionamento (associação) entre as variáveis.
Quando o coeficiente de correlação for calculado para duas variáveis dizemos que a correlação é simples e
quando é calculado para mais de duas variáveis dizemos que a correlação é múltipla (multivada).

4.2 O coeficiente de correlação linear de Pearson ( rxy )

O coeficiente de correlação linear entre as duas variáveis x e y, procura medir a relação entre as duas variáveis e

é dado pela expressão:

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 3
n n n
n. xi . yi   xi . yi
rxy  i 1 i 1 i 1
2 2
 n 2   n   n 2  n 
n  xi     xi  . n  yi     yi 
 i 1   i 1   i 1   i 1 
Onde: n é o número de pares de valores (xi,yi) observados.

∑(xi.yi): fazem-se os produtos x.y, referente a cada par de observações e, depois, efetua-se a soma;
∑xi: somam-se os valores da variável X;
∑yi: somam-se os valores da variável Y;
∑xi2: eleva-se ao quadrado cada valor de X e, depois, efetua-se a soma; e
∑yi2: eleva-se ao quadrado cada valor de Y e, depois, efetua-se a soma.

Ou ainda pode ser dada pela expressão:


Nesta definição está implícita a definição de uma medida que dá uma ideia da variabilidade conjunta entre as
variáveis e que se denomina covariância amostral:

1 n
 xy   xi  x  yi  y 
n  1 i 1
Onde:  xy é a covariância de x e y (dispersão conjunta);

 x é o desvio padrão de x (dispersão de x), dada pela expressão √̅̅̅ ( ̅) .

e y é o desvio padrão de y (dispersão de y), dada pela expressão √̅̅̅ ( ̅) .

4.3 Propriedades de Correlação linear simples ( rxy )


O coeficiente de correlação linear é um número do intervalo  1;1 ou  1  r xy  1 em que:
 rxy  1  Correlação negativa muito forte ou perfeita;

  1  rxy  0,5  Correlação negativa forte;

  0,5  rxy  0  Correlação negativa fraca;

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 4
 rxy  0  Correlação nula (não existe relação entre as variáveis);

 0  rxy  0,5  Correlação positiva fraca;

 0,5  rxy  1  Correlação positiva forte;

 rxy  1  Correlação positiva muito forte ou perfeita.

 rxy  1  Correlação positiva muito forte ou perfeita.

+1 Correlação linear positiva (perfeita)

0,5 Correlação linear positiva (forte)

0 Correlação linear nula

-0,5 Correlação linear negativa (forte)

-1 Correlação linear negativa (perfeita)

Observação: Convém estar em alerta quanto a interpretação do coeficiente de correlação linear:


 O coeficiente de correlação linear, apesar de se expressão em percentagem, ele não é uma percentagem.
Assim, uma correlação de 0,30 não corresponde 30% da correlação perfeita;
 Os coeficientes de correlação não constituem uma escala de intervalo, isto é, 0,40 não é o dobro de
0,20. Da mesma forma que as diferenças entre 0,30 e 0,40 e entre 0,80 e 0,90 não estatisticamente
iguais;
 As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário deve-se aplicar outras
estatísticas para medir o grau da associação;
 O uso de coeficiente de correlação simples é impróprio para medir uma relação curvilínea.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 5
Exemplo 4: Uma pesquisa sobre a demanda de mercado de um produto Z levou à seguintes escala de demanda.

Tabela 2: Demanda de mercado de um produto Z


i Dados cálculos intermediários
Xi yi xi2 yi2 xi.yi
1 101 3,2 10201 10,24 323,2
2 193 4,6 37249 21,16 887,8
3 42 2,8 1764 7,84 117,6
4 304 6,5 92416 42,25 1976,0
5 42 2,0 1764 4,00 84,0
6 152 1,9 23104 3,61 288,8
7 55 2,9 3025 8,41 159,5
8 105 5,3 11025 28,09 556,5
9 68 2,7 4624 7,29 183,6
10 219 3,1 47961 9,61 676,9
11 129 3,1 16641 9,61 399,9
12 42 1,2 1764 1,44 50,4
∑ 1452 39,3 251538 153,55 5706,2
Notação ∑x ∑y ∑ xi2 ∑yi2 ∑ xi.yi

n n n
n. xi . yi   xi . yi
rxy  i 1 i 1 i 1
2 2
 n 2   n   n 2  n 
n  xi     xi  . n  yi     yi 
 i 1   i 1   i 1   i 1 

( ) ( ) ( )
Logo, = √( ( ) ( ) ) ( ( ) ( ) )

Interpretação: O grau de associação ou a relação entre as variáveis x e y é de 0,99, isto significa que existe um
relacionamento positivo forte ou uma correlação positiva forte entre as variáveis x e y.

5. Teste de significância do coeficiente de correlação linear (Teste de significância sobre r)

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 6
Muitas vezes, temos o interesse em testar a existência de correlação entre duas variáveis, X e Y, a. partir de uma
amostra de observações pares (x, y). Nestes casos, além de mensurar o grau de correlação observado nos dados,
queremos, também, testar as seguintes hipóteses, relativas à população em estudo.

Ho: As variáveis X e Y são não correlacionadas, ou seja, Ho: rxy = 0

H1: As variáveis X e Y são correlacionadas, ou seja, H1: rxy ≠ 0


podendo, ainda, a hipótese alternativa indicar o sentido da correlação (teste unilateral), tal como, H1: X e Y são
correlacionadas positivamente ou H1”: X e Y são correlacionadas negativamente. O teste unilateral é aplicado
nos casos em que já se espera o coeficiente de correlação com determinado sinal (+ ou -).
Para verificar se o relacionamento entre duas variáveis x e y, é significativa ou não, usa-se o teste t de Student. O

valor observado do teste, calcula-se pela expressão: =r √ . Mediante a tabela dos pontos críticos da

distribuição t de student, dado nível de significância (α), e o número de grau de liberdade (gl = k = n – 2),
calcula-se o .

5.1 Regras de decisão


 Se | | aceita-se a ideia de que a correlação entre as variáveis é nula, isto é, a correlação
não é significativa.
 Se | | rejeita-se a ideia de que a correlação entre as variáveis é nula, isto é, a correlação é
significativa.

Exemplo 5: Verificar se o coeficiente de correlação obtido no exemplo 4 é significativa ou não. Use o nível de
confiança (probabilidade) de 0,95.
Para verificar se o coeficiente de correlação obtido no exemplo 4 é significativa ou não ao nível de confiança de
0,95. Devemos seguir os seguintes passos:

Passo 1. Formular as seguintes hipóteses:

Ho: rxy = 0 (a correlação entre as variáveis x e y não é significativa)

H1: rxy ≠ 0 (a correlação entre as variáveis x e y é significativa)


Dados do problema:

rxy = 0,69; n = 12; k = n – 2; β = 0,95 1-0,95 = 0,05

Passo 2. Cálculo do valor observado ( )

=r √ = 0,69 *√ ( )
=13,2

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 7
Passo 3. Cálculo do valor crítico ( )
= (k; α) = (10; 0,05) = 2,23

Passo 4. Comparação
| |

Passo 5. Interpretação
Com o nível de significância de 0,05. Pode-se concluir que a correlação entre as variáveis é significativa. Ou
seja, rejeita-se a hipotese nula.

Observação
Se forem conhecidos os valores críticos dos coeficientes de Pearson, o teste de significância da correlação entre
as duas variáveis pode ser feito comparando os dois valores das correlações observados e críticos, de salientar
que as regas de decisão são as mesmas.

Exemplo 6: Suponha-se, que uma economista estuda a relação entre os custos unitários do factor trabalho e o
índice de preço no produtor com o objetivo de fazer previsões sobre a última variável a partir de valores
conhecidos da primeira. Para tal tem disponíveis dados desde 2011 até 2018. Determinar o coeficiente de
correlação das variáveis crescimento do custo unitário do trabalho (x) e do índice de preços no produtor (y).
Verifique também a significação do coeficiente de correlação ao nível de 0,05 e de 0,01.

Resolução:
Tabela 3: Custos unitários do fator trabalho e o índice de preço no produtor
Ano Dados Cálculos intermédio
̅ ̅ ( ̅ )( ̅)
2012 7,8 10,8 - 0,5 1,9 0,95 60,84 116,64
2013 5,7 4,4 - 2,6 - 4,6 11,96 32,49 19,36
2014 6,1 6,5 - 2,2 - 2,5 5,5 37,21 42,25
2015 7,7 7,8 - 0,6 - 1,2 0,72 59,29 60,84
2016 11,2 11,1 2,9 2,1 6,09 125,44 123,21
2017 11,2 13,5 2,9 4,5 13,05 125,44 182,25
2018 8,3 9,2 0 0,2 0 68,89 84,64
58 63,3 38,27 509,6 629,19
̅ ̅ ̅̅̅ ̅̅̅

( ̅) ( ̅)

Pela fórmula da covariância, abaixo teremos:

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 8
( ̅ )( ̅)

√̅̅̅ ( ̅) √ e √̅̅̅ ( ̅) √ .

Resposta: o coeficiente de correlação entre as duas variáveis é de 0,93.

Verificação da significação do coeficiente de correlação ao nível de 0,05 e de 0,01.

Passo 1. Formulação das hipóteses:


Ho: (a correlação entre as variáveis x e y não é significativa)
H1: (a correlação entre as variáveis x e y é significativa)

Passo 2. Dados do problema

( ) ( )

Resposta ou interpretação: Comparando os valores críticos para 1% como para 5%, deve-se admitir que a
correlação entre o crescimento do custo unitário do trabalho (x) e do índice de preços no produtor (y) é
estatisticamente significativa, isto é, aceita-se a H1: .

6. Regressão linear simples

O termo regressão surgiu com os trabalhos de Galton no final do século passado. Estes trabalhos procuravam
explicar certas características de um indivíduo a partir das características de seus pais. Galton acreditava que os
filhos de pais excepcionais com respeito a determinada característica, também possuíam esta característica,
porém, numa intensidade, em média, menor do que a média de seus pais.
Os estudos de Galton baseavam-se em observações empíricas. Em um destes trabalhos ele relacionou centenas
de alturas de indivíduos, com as respectivas alturas médias de seus pais.

Exemplo 7: (Tabela abaixo). Vamos considerar uma parte do problema que gerou o primeiro estudo de
regressão, realizado por Galton, por volta de 1885. A Tabela apresenta algumas observações coletadas por
Galton.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 9
Tabela 4: Alturas de indivíduos (Y) e alturas médias de seus pais (X), medidas em centímetros.
X Y X Y X Y X Y
164 166 164 168 166 166 166 168
166 171 166 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 178 178

Figura 2: Diagrama de dispersão dos dados da tabela 4.

Supondo que os dados flutuem em tomo de alguma estrutura de relacionamento entre X e Y, a Figura a seguir
ilustra dois modelos matemáticos para esta estrutura. A reta (A): y = x indica que, em média, os filhos têm
alturas iguais a altura média de seus pais, enquanto que a reta (B) representa a hipótese de Galton, a qual afirma
que existe uma tendência de que filhos de pais altos tenham alturas inferiores às alturas médias de seus pais,
enquanto os filhos de pais baixos tenham alturas superiores às alturas médias de seus pais.

7. Modelo da regressao linear simples


O modelo estatístico-matemático de regressão, em sua formulação mais simples, relaciona uma
variável Y, chamada de variável resposta ou dependente, com uma variável X, denominada de variável
explicativa ou independente.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 10
Quadro 1
Variável independente (explicativa), X Variável dependente (explicada), Y
Renda Consumo (em dinheiro)
Gasto com controle de qualidade Número de defeitos nos produtos
Memória ram do computador (gb) Tempo de resposta do sistema
(segundos)
Precedentes Sentenças (em meses)
Crescimento do custo unitário do trabalho Índice de preços no produtor

Matematicamente os dados do Quadro 1 acima traduzem pela expressão:

Onde: representa o efeito aleatório, isto é, o efeito de uma infinidade de fatores que estão afetando a
observação y de forma aleatória. Por exemplo, a altura de um indivíduo (y) não depende somente da
altura média de seus pais (x), mas, também, de sua alimentação, do genótipo de seus ancestrais e de
uma infinidade de outros fatores, representados no modelo por
O parâmetro (termo) chamado intercepto Y , refere-se ao nível esperado de Y quando X = 0 (não há
antecedentes), implica
O parâmetro (termo) , chamado inclinação (ou coeficiente angular da recta de regressão) para X,
representa o valor da variação de Y (aumento ou diminuição) para cada variação de uma unidade em X.
Ou seja, fornece uma estimativa de variação esperada de Y, a partir de variação de uma unidade em X.

Figura 3: Modelo de regressão linear dos dados da tabela 4.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 11
8. Estimativas dos parâmetros e
A idéia básica da construção da parte estrutural do modelo, supostamente linear, é encontrar a reta que passe
mais próxima possível dos pontos observados. Representaremos esta reta por
̂
e a chamaremos de reta de regressão ou equação de regressão é:

Figura 4

Y
Yˆi  A  BXi

__
Yi  Yˆi
.
(Xi, Yi)

Yi  Y ^ __
__ Yi  Y
Y

Xi X

O chamado método de mínimos quadrados (MMQ) fornece as seguintes expressões para a equação de regressão:

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 12
( ̅ )( ̅) ̅̅
( ) ( ̅) ̅

e o intercepto ̅ ̅ .
Onde: ( ̅ )( ̅) ;
( ̅)
n: número de pares (x, y) observados (tamanho da amostra);
∑(X.Y): somatório dos produtos x.y (primeiramente fazem-se os produtos x.y, relativos a todos os pares
observados e, depois, efetua-se a soma dos resultados destes produtos);
∑X: soma dos valores observados da variável X;
∑Y: soma dos valores observados da variável Y; e
soma dos quadrados dos valores de X (primeiro elevam-se os valores de X ao quadrado e, depois, efetua-se
a soma).

Exemplo 8: Ilustraremos a obtenção da equação de regressão, com os dados da tabela 3 (exemplo 7).

Tabela 5: Custos unitários do fator trabalho e o índice de preço no produtor


Ano Dados Cálculos intermédio
̅ ̅ ( ̅ )( ̅) ( ̅)
2012 7,8 10,8 - 0,5 1,9 0,95 60,84 0,25
2013 5,7 4,4 - 2,6 - 4,6 11,96 32,49 6,75
2014 6,1 6,5 - 2,2 - 2,5 5,5 37,21 4,84
2015 7,7 7,8 - 0,6 - 1,2 0,72 59,29 0,36
2016 11,2 11,1 2,9 2,1 6,09 125,44 8,41
2017 11,2 13,5 2,9 4,5 13,05 125,44 8,41
2018 8,3 9,2 0 0,2 0 68,89 0
58 63,3 38,27 509,6 29,02
̅ ̅ ̅̅̅
( ̅) ( ̅)

( ̅ )( ̅)
( ̅)

̅ ̅ ( ) ̂ ̂ .

Figura 5: Recta de regressão dos dados da tabela 5

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 13
Interpretacao da recta de regressão
Com respeito aos sete anos observados, podemos predizer o índice de preço no produtor (Y) de , a partir de um
dado custo do fator de trabalho (X), através da equação: ̂ . Por exemplo, para um dado
custo do fator de trabalho de x = 9, temos uma estimativa para o índice de preço no produtor ̂
( )
O coeficiente b, que no caso é 1,31, fornece uma estimativa da variação esperada de Y, a partir da variação de
uma unidade em X. O sinal deste coeficiente indica o sentido do relacionamento. Como é positivo, indica uma
correlação positiva entre as variáveis X e Y, para os sete observados em estudo.

9. Medição do modelo de regressão


Para medir o grau de explicabilidade que a variável de causa tem sobre a variável de resultado no modelo de
2
regressão calculam-se a redução proporcional do erro (RPE) e o coeficientes de determinação ( R ), partindo das
variações explicadas e não explicadas.

9.1 Variação explicada e não explicada


Ao ajustar uma equação de regressão aos dados, podemos estar interessados em verificar o quanto as variações
da variável dependente, Y, podem ser explicadas por variações da variável independente, X, segundo o modelo
especificado e a amostra observada. Vamos, então, desenvolver alguns procedimentos que permitem fazer este
tipo de análise.
Para cada valor x observado (ou estabelecido), temos o correspondente valor observado da variável Y,
representado por y, e o valor predito pelo modelo: ̂ Por exemplo, para o par observado
(X = 5,7 e Y = 4,4) temos o próprio valor observado de Y (y = 4,4) e o valor predito pela equação de
Regressão: ̂ ( ) . Temos o erro de predição de ̂

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 14
Sendo ̅ a média aritmética dos valores de Y e sendo ̂ os valores preditos pela equação de regressão, vamos
considerar os seguintes desvios;
a) ̅ (desvios em relação à média dos valores de Y e, portanto, não leva em consideração a relação entre Y e
X);
b) ̂ (desvios em relação aos valores preditos pela equação de regressão - são os chamados resíduos, pois,
mesmo levando em conta a relação entre Y e X, ainda não se tem uma predição exata dos valores observados
devido ao efeito aleatório); e
c) ̂ ̅ (desvios dos valores preditos em relação à média dos valores de Y - é a diferença entre os dois
desvios anteriores e corresponde à parcela do desvio total, ̅ explicada pelo modelo de regressão).
A seguir apresentamos as somas dos quadrados dos desvios:

a) ( ̅) (soma dos quadrados dos desvios de cada valor em relação à média) é uma medida da
variacao total dos valores de Y;

b) ( ̂) (sorna quadrática dos resíduos) pode ser interpretada como uma medida da
variação não explicada pelo modelo de regressão ou variação residual e

c) (̂ ̅) S (soma dos quadrados dos desvios dos valores preditos em relação à média): é uma
medida da parcela da variação de Y explicada pelo modelo de regressão.

O valor preditivo da equação de regressão reside em sua capacidade de reduzir o erro de predição, isto é, até que

ponto ( ̂) é menor do que ( ̅) A diferença entre as duas é a soma de


quadrados que X pode explicar, chamada soma de quadrados de regressão (ou soma de quadrados explicada).

(̂ ̅) S ( ̅) - ( ̂)

Não conhecendo X Conhecendo X


Valor efectivo Y Y
Valor predito ̅ ̂
Erro de predição ̅ ̂
Soma de quadrados ( ̅) ( ̂)

Diferença S -

Exemplo 9:
Tabela 6. Custos unitários do fator trabalho e o índice de preço no produtor
Ano Dados Cálculos intermédio
̂ ̅ ( ̂ ̅) ( ̂) ( ̅)

2012 7,8 10,8 8,4 1,9 0,36 5,76 3,24

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 15
2013 5,7 4,4 5,78 - 4,6 10,37 1,90 21,16
2014 6,1 6,5 6,28 - 2,5 7,39 0,05 6,25
2015 7,7 7,8 8,37 - 1,2 0,39 0,32 1,44
2016 11,2 11,1 12,65 2,1 13,32 2,40 4,41
2017 11,2 13,5 12,65 4,5 13,32 0,72 20,25
2018 8,3 9 11,74 0,2 7,51 2.74 0,04
58 63,3 52,66 11,15 56,79
̅

Com os dados obtidos, podemos expressar a capacidade de uma recta de regressão de fazer predições no que é
conhecido como redução proporcional do erro (RPE), ou seja, a proporção do erro de predição que pode ser
reduzida desde que conheça a variável independente. A redução proporcional do erro (RPE) devida a X é:

Assim, é possível reduzir 0,93 (ou 93%) do erro na predição do índice de preço no produtor levando-se em conta
o custo unitário do fator trabalho. Colocado de outro modo, 93% da variância do índice de preço no produtor é
explicado pelo custo unitários do fator trabalho.

9.2 Coeficiente de determinação

Denomina-se de coeficiente de determinacao à seguinte razão:


(̂ ̅)
( ̅)

O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que pode ser explicada
por X, segundo o modelo especificado. O intervalo de valores possiveis de é sempre positivos, porque
mesmo uma correlação negativa torna-se positiva quando elevada ao quadrado.
O complemento chamado coeficiente de não-determinação, ou seja, a proporção da variância em Y
que não é explicada po X é :

Para os dados da tabela 6, temos:

(̂ ̅)
( ̅)

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 16
Interpretação: Dentre os sete anos estudados, a variação do índice de preço no produtor é explicada, em parte,
pela variação pelo custo unitário do fator trabalho ( ), e outra parte ( )
devido a outros factores. Ou seja, assim, 93% da variância do índice de preço no produtor é explicada pelo custo
unitário do fator trabalho e 7% é explicada pelo outro factores.
Pode-se mostrar matematicamente que, no caso do modelo da regressão linear simples, o coeficiente de
determinação coincide com o quadrado do coeficiente de correlação r de Pearson, estudado anteriormente.

Exercícios

1. Abaixo você encontra uma lista de situações de pesquisa. Para cada uma delas indique se o apropriado é
proceder uma análise de regressão ou uma de correlação. Justifique sua indicação.
a) O rendimento escolar na Universidade favorece o êxito profissional?
b) O tempo de treinamento influi no desempenho profissional?
c) O objectivo é estimar o tempo necessário a consecução de certa tarefa usando, para tanto, o tempo de
treinamento do executor;
d) O objectivo é utilizar o preço da carne de gado para estimar a quantidade de procura desse bem;
e) A quantidade procurada de carne de gado depende do preço da carne de porco?

2. Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de quatro pessoas com
renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a equação de regressão ̂ = -1,2 + 0,4
X, onde ̂ representa a despesa mensal estimada (através do modelo) e X a renda mensal líquida expressa em
número de salários mínimos.
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos;
b) A equação parece sugerir que uma família com renda mensal de 3 salários mínimos nada gasta com
mercadorias. O que você tem a dizer sobre isso?
c) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de
12 salários mínimos? Justifique.

3. Uma amostra de fábricas de uma indústria levou a:


Custo total (Y) 80 44 51 70 61
Produção (X) 12 4 6 11 8

a) Determine a equação de regressão linear;


b) Quais os significados econômicos de "a ou α" e "b ou β"?
c) Encontre o coeficiente de determinação (ou de explicação);

d) Teste a existência da regressão a um nível de significância de 5%;

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 17
e) Determine um Intervalo de Predição (90%) para a média de Y dado X=10.

4. Pretendendo estudar a relação entre o tempo necessário a um consumidor para optar e o número de produtos
substitutos alternativos expostos a ele, foi observada uma amostra aleatória de 15 consumidores, da qual
resultaram os seguintes dados:
X 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4
Y 5 8 8 7 9 7 9 8 9 10 10 11 10 12 9
A variável Y refere-se ao tempo necessário para a tomada de decisão e X o número de alternativas.
a) Estime o coeficiente de correlação linear de Pearson;
b) Determine a equação de regressão para a amostra dada;
c) Interprete os valores dos coeficientes encontrados para a recta;
d) Estime e interprete o coeficiente de determinação entre X e Y.

5. Para cada caso abaixo, estime a correspondente recta de regressão:


a) n = 20; ∑X = 200; ∑Y=300; ∑XY = 6200 e ∑X2 = 3600

b) n = 36; ∑X = 7,2; ∑Y=37; ∑XY = 3100 e ∑X2 = 620

6. Uma população é composta por N = 6 pontos (X;Y). São eles:


(1;2), (5;6), (2;4), (2;3), (3;5) e (5;10)
a) Determine a recta de regressão populacional;
b) Faça um diagrama de dispersão, localize a recta do item anterior e os segmentos que representam os 6 valores
de u. Verifique que a soma de u é igual a zero.

7. A tabela abaixo mostra o volume de vendas (em 1.000 unidades) e os gastos promocionais (em 100.000,00
MZN).

Promoção 2 4 5 6 8 8 10 10 12 15
Vendas 80 90 95 95 100 110 115 110 120 130

a) Represente graficamente estes pontos.


b) Calcule o coeficiente de correlação linear de Pearson.
c) Ajuste os dados através de uma recta de mínimos quadrados (modelo linear).
d) Determine o coeficiente de explicação para a recta.
e) Teste a existência da regressão ao um nível de significância de 5%.

8. A tabela seguinte mostra os resultados de uma pesquisa com 10 famílias de determinada região.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 18
Famílias Renda (u.m.:100) Poupança Números de Filhos Média de Anos de
(u.m.:100) Estudos da Família
A 10 4 8 3
B 15 7 6 4
C 12 5 5 5
D 70 20 1 12
E 80 20 2 16
F 100 30 2 18
G 20 8 3 8
H 30 8 2 8
I 10 3 6 4
J 60 15 1 8
Calcule o coeficiente de correlação linear de Pearson entre:
a) Renda familiar e poupança das dez famílias;
b) Renda e número de filhos para as dez famílias;
c) Poupança e número de filhos;
d) Média de anos de estudo e número de filhos;
e) Renda familiar e media de anos de estudo.

9. Um grupo de pesquisa estabeleceu uma escala de quocientes de violência para programas de televisão.
Classificou cada um dos 6 programas e colectou dados sobre o percentual de pessoas que assistem cada
programa. Verifique se existe correlação significativa entre as variáveis com um nível de significância de 5%.

Programa Quociente de violência (X) % que assistem (Y)


1 10 15
2 30 20
3 40 24
4 50 30
5 65 35
6 70 35

10. Os dados abaixo representam o Consumo (Y) e Renda disponível (X) num período de 14 anos. As variáveis
são expressas em milhões de dólares.
∑X = 3915,5; ∑Y=3273,4; ∑XY = 959198,36; ∑X2 = 1150349,73 e ∑Y2 = 800330,16
a) Determine as estimativas de “a” e “b” dos parâmetros da recta estimada;
b) Qual o significado econômico dessas estimativas?
c) Qual o consumo esperado para uma renda de 400 milhões de dólares?

d) Calcule o poder explicativo da regressão e interprete-o.

Consulta: 1. Kazmier, Leonardo J. (1982). Estatística aplicada à economia e administração. São Paulo: McGraw-Hill.
2. Levin, Jack & Fox, James Alan. (2004). Estatística para ciências humanas. São Paulo: Printice Hall
3. Reis, Elizabeth. (2000). Estatística descritiva. Lisboa: Edições Sílabo, Lda. 19

Você também pode gostar