Você está na página 1de 8

ACADEMIA DO CONCURSO

CORRELAÇÃO ⇒ É O ESTUDO DA

INTERDEPENDÊNCIA ENTRE DUAS OU MAIS

VARIÁVEIS (X e Y).
CORRELAÇÃO E
REGRESSÃO INTERDEPENDÊNCIA
LINEAR ⇒ Y = 2X + 1
NÃO LINEAR ⇒ Y = 2X2 + 8

CORRELAÇÃO LINEAR SIMPLES ⇒ quando se estuda a


relação entre duas variáveis (Y = 2X+1).
CORRELAÇÃO LINEAR MÚLTIPLA ⇒ quando se estuda a
relação entre mais de duas variáveis (W = 2X + 3Y + 5Z).

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON (r)


A CORRELAÇÃO PODE SER:

n∑ xy − ∑ x ∑ y ● POSITIVA (r > 0)
r=
[n∑ x 2 2
][
− (∑ x ) × n∑ y 2 − (∑ y )
2
] ● POSITIVA PERFEITA (r = 1)

● NEGATIVA (r < 0)

● NEGATIVA PERFEITA (r = -1)


r varia entre -1 e 1
n = número de observações ● NULA (r = 0)

CORRELAÇÃO POSITIVA CORRELAÇÃO POSITIVA PERFEITA

GRÁFICO DE DISPERSÃO GRÁFICO DE DISPERSÃO


CORRELAÇÃO POSITIVA (r > 0) CORRELAÇÃO POSITIVA PERFEITA (r=1)

10
10
9
8 8
7
6 6
Y
4 Y 5
4
2 3
2
0
1
0 1 2 3 4 5 6 7 8 9 10
0
X 0 1 2 3 4 5 6 7 8 9 10

Y cresce com X ⇒ quanto maior X maior Y Y cresce com X ⇒ valores de X e Y estão sobre uma reta.

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
1 MANUEL
ACADEMIA DO CONCURSO

CORRELAÇÃO NEGATIVA CORRELAÇÃO NEGATIVA PERFEITA

GRÁFICO DE DISPERSÃO GRÁFICO DE DISPERSÃO


CORRELAÇÃO NEGATIVA (r<0) CORRELAÇÃO NEGATIVA PERFEITA (r=-1)

10
10
8
8
6
Y 6
4 Y
4
2

0 2
0 1 2 3 4 5 6 7 8 9 10 0
X 0 1 2 3 4 5 6 7 8 9 10
X

Y decresce com X ⇒ quanto maior X menor Y


Y decresce com X ⇒ valores de X e Y estão sobre uma reta

CORRELAÇÃO NULA (r=0)


CORRELAÇÃO
EXEMPLOS - EXISTE CORRELAÇÃO ENTRE ?
GRÁFICO DE DISPERSÃO
SEM CORRELAÇÃO (r=0) • GASTO COM PROPAGANDA ⇒ AUMENTO NO NÍVEL DE
VENDAS DE UMA EMPRESA ?
10
• AUMENTO DA AÇÃO FISCAL ⇒ AUMENTO NA
8
ARRECADAÇÃO ?
6
Y • TEMPO DE ESTUDO ⇒ NOTA NA PROVA ?
4

2
• NÍVEL DE RENDA ⇒ NÚMERO DE FILHOS ?
0 • TEMPERATURA ⇒ VENDA DE CERVEJA ?
0 1 2 3 4 5 6 7 8 9 10
• TEMPERATURA ⇒ VENDA DE CASACOS DE FRIO ?
X
• ANOS DE ESTUDO ⇒ SALÁRIO ?
NÃO EXISTE CORRELAÇÃO entre X e Y (r=0) • PRAGA DE GAFANHOTOS NO AZERBAIJÃO ⇒ PRODUÇÃO
DE MAÇÃ EM SANTA CATARINA ?

COVARIÂNCIA COVARIÂNCIA
COVARIÂNCIA (SXY) ⇒ representa a variação de X e Y. COVARIÂNCIA (SXY) ⇒ representa a variação de X e Y.

S X ,Y =
∑ XY − nXY ∑ (X − X )× (Y − Y ) ⇒ MÉDIA DO PRODUTO
n S XY =
n DOS DESVIOS

S X ,Y =
∑ XY − XY ⇒ MÉDIA DO PRODUTO MENOS (X − X ) ⇒ DESVIOS DE X
n O PRODUTO DAS MÉDIAS
(Y − Y ) ⇒ DESVIOS DE Y
MÉDIA DO PRODUTO
PRODUTO DAS MÉDIAS

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
2 MANUEL
ACADEMIA DO CONCURSO

COVARIÂNCIA PROPRIEDADES DA COVARIÂNCIA

S X ,Y =
∑ XY − XY
n • SOMANDO ou SUBTRAINDO uma CONSTANTE a
SUBSTITUINDO Y POR X VEM:
uma das variáveis a Covariância NÃO SE ALTERA.

S X ,X =
∑ XX − X × X • MULTIPLICANDO ou DIVIDINDO uma das variáveis
n
por uma CONSTANTE a Covariância ficará
S X ,X =
∑ X 2 − X 2⇒ MÉDIA DO QUADRADO MENOS O
n QUADRADO DA MÉDIA = VARIÂNCIA ! MULTIPLICADA ou DIVIDIDA por essa CONSTANTE.
COVARIÂNCIA ⇒ COMO UMA VARIÁVEL VARIA COM OUTRA !

VARIÂNCIA ⇒ COMO UMA VARIÁVEL VARIA COM ELA PRÓPRIA !


FEROZ !

PROPRIEDADES DA COVARIÂNCIA PROPRIEDADES DA COVARIÂNCIA


EXEMPLOS EXEMPLOS

COV(4+X,Y) = COV(X,Y) ⇒ somar uma constante (4) a X


COV(2X,5Y) = 2×5×COV(X,Y) = 10×COV(X,Y) ⇒ multiplicar X

COV(X,Y+4) = COV(X,Y) ⇒ somar uma constante (4) a Y


(por 2) e Y (por 5).

COV(4X,Y)= 4×COV(X,Y) ⇒ multiplicar X por uma constante (4)


COV(2X + 3, 5Y + 4) = 10 × COV(X,Y) ⇒ as constantes 3 e 4

COV(X, 4Y)= 4×COV(X,Y)⇒ multiplicar Y por uma constante (4)


como estão SOMADAS NÃO AFETAM a COVARIÂNCIA.

COV(X/4,Y) = COV(X,Y)/4 ⇒ dividir X por uma constante (4)

COV(X,Y/4) = COV(X,Y)/4 ⇒ dividir Y por uma constante (4)

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON (r) COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON (r)

S X ,Y
n ∑ xy − ∑ x ∑ y r= ⇒ FÓRMULA MAIS SIMPLES !!!!
r= S X × SY
[ n∑ x 2
− ( ∑ x)
2
] × [ n∑ y 2
− ( ∑ y)
2
] Sxy ⇒ COVARIÂNCIA ENTRE X E Y
SX ⇒ DESVIO PADRÃO DE X
SY ⇒ DESVIO PADRÃO DE Y
r varia entre -1 e 1
COV ( X , Y )
r=
DP ( X ) × DP (Y )

r varia entre -1 e 1

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
3 MANUEL
ACADEMIA DO CONCURSO

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON (r) REGRESSÃO


S X ,Y REGRESSÃO LINEAR SIMPLES ⇒ 2 VARIÁVEIS
r= S X ,Y OBJETIVO ⇒ ACHAR UM MODELO MATEMÁTICO QUE
S X × SY r=
S X × SY RELACIONE X e Y !
OBSERVAÇÕES
APLICAÇÃO ⇒ REALIZAR PREVISÕES UTILIZANDO O
O SINAL DA COVARIÂNCIA É O SINAL DA CORRELAÇÃO. MODELO.
ASSIM UMA COVARIÂNCIA POSITIVA SINALIZA UMA
CORRELAÇÃO POSITIVA ENTRE AS VARIÁVEIS. MODELO USADO É LINEAR ⇒ UMA RETA

UMA COVARIÂNCIA NEGATIVA SINALIZA UMA RETA DE REGRESSÃO ⇒ Yˆ = a + bX


CORRELAÇÃO NEGATIVA ENTRE AS VARIÁVEIS.
PARÂMETROS DO MODELO ⇒ a e b
A COVARIÂNCIA NÃO É UMA MEDIDA PADRONIZADA
COMO A CORRELAÇÃO QUE VARIA ENTRE -1 E +1.

REGRESSÃO DIAGRAMAS DE DISPERSÃO


EXEMPLOS

• SERÁ QUE GASTO COM PROPAGANDA (X) EXPLICA O


AUMENTO NO NÍVEL DE VENDAS (Y) DE UMA EMPRESA ?
• SERÁ QUE AUMENTO DA AÇÃO FISCAL (X) EXPLICA O
AUMENTO NA ARRECADAÇÃO (Y) ?
• SERÁ QUE UM AUMENTO NO PREÇO DO PETRÓLEO (X)
EXPLICA O AUMENTO NA TAXA DE INFLAÇÃO (Y) ?
• SERÁ QUE UM AUMENTO DA TEMPERATURA NAS ÁGUAS
DO PACÍFICO (X) EXPLICA A SECA NO NORDESTE E
ENCHENTES NO SUL (Y) ?
• SERÁ QUE UMA PRAGA DE GAFANHOTOS NO
AZERBAIJÃO (X) EXPLICA A PRODUÇÃO DE MAÇÃ EM
SANTA CATARINA ?

DIAGRAMAS DE DISPERSÃO REGRESSÃO


RETA DE REGRESSÃO ⇒ Yˆ = a + bX
PARÂMETROS DO MODELO ⇒ a e b

LINEAR Y ⇒ variável DEPENDENTE ⇒ a que QUEREMOS EXPLICAR !


LINEAR
X ⇒ variável INDEPENDENTE ⇒ X EXPLICA Y !

a ⇒ COEFICIENTE LINEAR (INTERCEPT) ponto onde a reta


NÃO-LINEAR ajustada corta o eixo da variável Y
b ⇒ COEFICIENTE ANGULAR da Reta de Regressão ⇒
tangente do ângulo que a reta forma com o eixo da variável X
??????

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
4 MANUEL
ACADEMIA DO CONCURSO

REGRESSÃO
Ŷ Yˆ = a + bX •

• ⇒ Y OBSERVADO • • •

• •
MODELO LINEAR ⇒ Yˆ = a + bX
• • •
• • • Parâmetros do Modelo ⇒ a e b
• •
• • • • •
• •
• • • • • • O processo de determinação dos parâmetros (a e b) da reta
• •
• • • de regressão é chamado de AJUSTAMENTO.
a a ⇒ COEFICIENTE LINEAR (INTERCEPT)
θ • O processo para obtenção da reta ajustada é denominado
X
MÉTODO DOS MÍNIMOS QUADRADOS.
b ⇒ COEFICIENTE ANGULAR = tg(θ
θ)

RETA DE REGRESSÃO

MÉTODO DOS MÍNIMOS QUADRADOS MÉTODO DOS MÍNIMOS QUADRADOS

Y • ⇒ Y OBSERVADO Y
• •
DESVIOS POSITIVOS
• • • • • •
• •
Yˆ = a + bX • •
Yˆ = a + bX
• • • •
• •
• • • • eˆ ( desvio) = (Y − Yˆ )
• •
• e ( desvio) = (Y − Yˆ ) • DESVIOS NEGATIVOS
• •

X X
Consiste em minimizar a soma dos quadrados dos desvios entre ∑ ê = ∑ (Y − Yˆ ) 2 = ∑ (Y − a − bX ) 2
2

Y OBSERVADO (•) e Y ESTIMADO (pela reta de regressão).


Yˆ = a + bX SOMA DOS QUADRADOS DOS DESVIOS !!!!

MÉTODO DOS MÍNIMOS QUADRADOS REGRESSÃO

Y
RETA DE REGRESSÃO ⇒ Yˆ = a + bX
• Valores dos Parâmetros do Método dos Mínimos Quadrados:
• • • n ∑ XY − ∑ X ∑ Y
• b=
• •

n∑ X 2 − (∑ X ) 2

• • S XY SXY ⇒ covariância entre X e Y
• b=
• S X2 S2x ⇒ variância de X.

X a = Y − bX ⇒ a = MÉDIA de Y - b × MÉDIA de X

QUAL RETA TEM O MELHOR AJUSTAMENTO ?

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
5 MANUEL
ACADEMIA DO CONCURSO

HIPÓTESES DA ANÁLISE DE REGRESSÃO HIPÓTESES DA ANÁLISE DE REGRESSÃO


PRESSUPOSTOS BÁSICOS PRESSUPOSTOS BÁSICOS
1- EQUAÇÃO LINEAR do modelo de regressão ⇒ 5- Os desvios são NÃO AUTO-REGRESSIVOS ⇒ significa que
Yi = a + bX i + ei os DESVIOS SÃO INDEPENDENTES.
Assim: Covariância (ei , ej) = 0 se i ≠ j, ou seja a COVARIÂNCIA
2- NORMALIDADE ⇒ ei (desvio ou resíduo) é uma variável
entre DOIS DESVIOS quaisquer é ZERO.
aleatória com distribuição NORMAL.
6- Xi não estocástico ⇒ Xi é uma variável NÃO ESTOCÁSTICA,
3- MÉDIA ZERO ⇒ todos os desvios têm MÉDIA ZERO.
ou seja, os valores de Xi são conhecidos e perfeitamente
4- HOMOCEDASTICIDADE ⇒ todos os desvios têm a MESMA
determinados.
VARIÂNCIA (σ2).

PODER EXPLICATIVO DO MODELO (r2)


HOMOCEDASTICIDADE
O poder explicativo do modelo tem por objetivo avaliar a
“qualidade” do ajuste. O seu valor fornece a PROPORÇÃO da
VARIAÇÃO TOTAL da variável DEPENDENTE Y, EXPLICADA
pela variável INDEPENDENTE X, através da função ajustada.
A medida do poder explicativo é denominada coeficiente de
determinação (r2)
Coeficiente de Determinação (r2) ⇒ é o QUADRADO do
Coeficiente de Correlação de Pearson (r).
Demonstra-se que r2 varia entre 0 e 1 ⇒ [ 0 ≤ r2 ≤ 1]

OBS ⇒ r varia entre -1 e +1

PODER EXPLICATIVO DO MODELO (r2) ANÁLISE DOS RESÍDUOS

r2 = 0 ⇒ a variação de Y explicada por X é ZERO. Uma técnica que também é usada para avaliar a aderência
do modelo utilizado (linear, potência, exponencial, polinomial)
r2 = 1 ⇒ a variável independente X explicará TODA a
ao conjunto de dados é plotar os resíduos ( ei ) contra os
variação da variável dependente Y. valores preditos (estimados) pelo modelo. Por exemplo, se foi
r2 ⇒ quanto mais PRÓXIMO de 1 MELHOR será a utilizado um modelo linear de regressão e a análise do gráfico
qualidade do ajuste. dos resíduos (desvios) contra os valores preditos apresenta
uma forma exponencial, significa que o modelo linear
r2 ⇒ quanto mais PRÓXIMO de zero PIOR será a
utilizado não foi o mais adequado para o conjunto de dados.
qualidade do ajuste. Nesse caso, deve-se introduzir no modelo um termo
Se r2 = 0,96 por exemplo, significa que 96% da variação exponencial. A mesma análise se aplica a todos os modelos,
de Y é explicada pela variável X, e os 4% restantes são o que significa que essa análise gráfica é fundamental para
atribuídas a causas ALEATÓRIAS. se determinar o grau de aderência do modelo utilizado aos
dados amostrais.

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
6 MANUEL
ACADEMIA DO CONCURSO

ANÁLISE DOS RESÍDUOS - EXEMPLOS EXEMPLOS DE REGRESSÃO


EXEMPLO-01 - Será que a altura média dos pais (X) influencia
na altura dos filhos (Y) ?

X (cm) Y (cm)
Observe a Tabela ao lado com 9
observações de uma amostra 164 166
referentes à altura média dos PAIS (X) 166 166
e a altura dos FILHOS (Y) 169 171
169 166
171 171
173 171
173 178
176 173
178 178

REGRESSÃO
GRÁFICO DE REGESSÃO - ALTURA MÉDIA PAIS E FILHOS
EXEMPLO-02 - A tabela abaixo exibe o consumo de
RETA AJUSTADA determinado item no período de 2002 a 2010.
Ano Tempo Consumo Sabendo-se que os valores dos
2002 1 1 parâmetros para a reta ajustada
2003 2 2 são: a = -0,57 e b=1,27, e que as
condições de mercado permanecem
2004 3 4
inalteradas, qual a previsão de
2005 4 4
consumo para 2011 ?
2006 5 5
Y = a + b.X
2007 6 7
Y = -0,57 + 1,27.X
2008 7 8
Nesse caso a variável que
2009 8 9
explica o Consumo (Y) é o
2010 9 12
2011 10 ? Tempo dado em Anos (X).

REGRESSÃO REGRESSÃO
EXEMPLO-02 - A tabela abaixo exibe o consumo de EXEMPLO-03 - Qual o ERRO DE PREVISÃO no exemplo
determinado item no período de 2002 a 2010. anterior para o ano de 2005 ?
Ano Tempo Consumo Ano Tempo Consumo
Consumo Previsto
2002 1 1 (x) (y)
Y = -0,57 + 1,27.X (tempo) Y = -0,57 + 1,27.X
2003 2 2 2002 1 1
Y = -0,57+1,27 × 10 = 12,13 2005 ⇒ x = 4
2004 3 4 2003 2 2
Y = -0,57 + 1,27 × 4 = 4,51
2005 4 4 A previsão de consumo para 2004 3 4
2006 5 5 2011 usando o modelo é 12,13. 2005 4 4 Erro Absoluto = Previsto - Real
2007 6 7 2006 5 5 Erro = 4,51 - 4 = + 0,51
2008 7 8 2007 6 7
Erro Relativo= (Previsto- Real)/Real
2009 8 9 2008 7 8
2009 8 9 Erro Relativo = (4,51- 4)/4 = 0,51/4
2010 9 12
2011 10 12,13 2010 9 12 Erro Relativo = 0,51/4 = 12,75%
2011 10 12,13

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
7 MANUEL
ACADEMIA DO CONCURSO

REGRESSÃO REGRESSÃO
EXEMPLO-04 - Uma cadeia de supermercados financiou um Supondo que a equação proporcione um ajustamento
estudo dos gastos com mercadoria para famílias de quatro razoavelmente bom e que os dados tenham sido obtidos por
pessoas. A investigação se limitou a famílias com renda líquida métodos de amostragem aleatória:
anual entre 8.000 e 20.000. a) Estime a despesa de uma família de quatro pessoas com
Obteve-se a partir dos dados observados a seguinte equação renda anual de 15.000.
através de Regressão Linear usando o método dos Mínimos Temos: Y = a + b.X
Quadrados:
Y = -200 + 0,10.X
Y = -200 + 0,10.X onde:
X = 15.000 ⇒ Renda Anual
Y ⇒ DESPESA ANUAL ESTIMADA com mercadorias
Y = -200 + 0,10 × 15.000 = -200 + 1.500 = 1.300 !
X ⇒ RENDA LÍQUIDA ANUAL
Assim, a despesa estimada anual pelo modelo para uma família
Modelo ⇒ Y = a + bX de renda anual de 15.000 é de 1.300 !
a = -200
b = 0,10

REGRESSÃO REGRESSÃO
b) Um dos vice-presidentes da firma ficou intrigado com o fato Explique rapidamente porque a equação não poderia
de a equação aparentemente sugerir que uma família com
ser usada nos casos seguintes:
2.000 de renda média anual não gaste nada em mercadorias.
Qual a explicação ? c) Estimação de despesas com mercadorias com

Temos: Y = -200 + 0,10.X família de cinco pessoas.


X = 2.000 ⇒ Renda Média Anual d) Estimação das despesas com mercadorias para
Y = -200 + 0,10 × 2.000 = -200 + 200 = 0 ???? ⇒ Gasto !
famílias com renda líquida de 20.000 a 35.000.
QUAL A EXPLICAÇÃO ?
QUAL A EXPLICAÇÃO ?

ESTATÍSTICA - FISCAL
CORRELAÇÃO E REGRESSÃO
8 MANUEL

Você também pode gostar