Você está na página 1de 56

-1

CORRELAO LINEAR E REGRESSO LINEAR

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Generalidades
O coeficiente de correlao no mede a relao

-2

causa-efeito entre duas variveis, apesar de que essa relao possa estar presente. Por exemplo, uma correlao fortemente positiva entre as variveis X e Y no significa afirmar que variaes da varivel X provocam variaes na varivel Y, ou vice-versa. O coeficiente de correlao sozinho no identifica a relao causa-efeito entre as duas variveis; entretanto, numa regresso linear a relao causaefeito deve ser definida no incio da anlise. simples entre duas amostras ou variveis aleatrias.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Esta aula inicia com a apresentao da relao linear

Coeficiente de Correlao de Person

-3

O grau de relacionamento entre duas

variveis contnuas sintetizado por um coeficiente de correlao conhecido com "R de Pearson . Onde so aceitas as seguintes hipoteses:

X e Y so variveis aleatrias contnuas,

isto , y e x devem variar livremente. A distribuio de freqncia conjunta (isto , a distribuio de valores dos pares x, y) Normal ou Gaussiana.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Caracteristicas do Coeficiente R
O coeficiente de correlao tem duas
propriedades que caracterizam a natureza de uma relao entre duas variveis.

-4

sinal (+ ou -) que indica o tipo de relacionamento:


relacionamento positivo , reta crescente (+) relacionamento negativo , decrescente (-)

Magnitude R que indica quo prximos da "reta"


esto os pontos

valores de R prximos de - 1,00 ou + 1,00 indicam que


os valores esto muito prximos da reta

valores mais prximos do 0 (zero) sugerem maior


disperso, isto , inexistncia de relacionamento
Prof. Neide Pizzolato Angelo FACENSA Estatstica (aula 5)

Tipos de relacionamento dados por R

-5

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Coeficiente de correlao
Mede a intensidade e a direo da relao linear entre duas variveis.

-6

O intervalo de r vai de 1 a 1.
Se r est prximo a 1, h uma forte correlao negativa.

0
Se r est prximo de 0, no h correlao linear.

1
Se r est prximo de 1, h uma forte correlao positiva.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

O coeficiente de determinao
O coeficiente de determinao, r2, a razo entre a variao explicada em y e a variao total em y. Variao explicada Variao total O coeficiente de correlao entre as faltas e a nota final era r = 0,975. O coeficiente de determinao r2 = 0,975)2 = 0,9506.

-7

Interpretao: cerca de 95% da variao nas notas finais pode ser explicada pelo nmero de vezes que o aluno falta. Os outros 5% so inexplicados e podem dever-se a um erro amostral ou outras variveis, como inteligncia, tempo dedicado ao estudo etc.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Dados da problematizao

- 11

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Dados da problematizao
numero
1 2 3

- 12
universidade (classificao)
1 1 2,1

Estudante
Jim C. Ed Karen

secundrio (classificao)
80 82 84

4
5 6 7 8 9 10 11 12 13

Marcia
Peter Beverly Tom Mare Sid Jim L. Linda AI John

85
87 88 88 89 90 91 91 92 94

1,4
2,1 1,7 2 3,5 3,1 2,4 2,7 3 3,9

14
15

Susan
Ann Marie
FACENSA Estatstica (aula 5)

96
98
Prof. Neide Pizzolato Angelo

3,6
4

Viso grfica do problema

- 13

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Viso grfica do problema

- 14

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Anlise grfica do problema


Parece existir uma relao positiva moderada,
pois em geral mdias baixas no secundrio parecem estar associadas a mdias baixa na universidade, e vice-versa, embora haja algumas excees.

- 15

Por que no h um relacionamento positivo

perfeito ? Possveis explicaes: Os estudantes quase certamente provm de diferentes

cursos secundrios, com diferentes critrios de avaliao. A motivao e a capacidade podem modificar-se com o decorrer do tempo. Os programas universitrios diferem, tanto na dificuldade como nos critrios de avaliao. H, sem dvida, alguma variao aleatria.
Prof. Neide Pizzolato Angelo

FACENSA Estatstica (aula 5)

Processo Prtico para o Clculo de R


fcil observar que a determinao da
existncia de relacionamento entre variveis atravs de grfico subjetiva. Necessidade de obter um mtodo de deciso mais objetivo e que seja fcil de avaliar. Mtodo prtico para calcular o R

- 16

n xy x y n x
2

n y

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Organizao dos Dados

- 17

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Clculo do R
R 15 3400 ,5 1.335 37 ,5 15 119165 1335
2

- 18

15 107 ,75 37 ,5

51007 ,5 50062 ,5 1787475 1782225 1616,25 1406,25 945 945 0 ,90 5250 210 72 ,46 14 ,49

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Funo do Excel
CORREL(matriz1;matriz2)
A funo estatstica CORREL Retorna o coeficiente de
correlao dos intervalos de clula da matriz1 e matriz2.

- 19

Ao utilizar a funo CORREL, deve-se tomar o cuidado de


fornecer os valores na ordem correta, o primeiro argumento matriz1 se refere aos valores da varivel independente x e o argumento matriz2,aos valores da varivel dependente y.

Os dois argumentos desta funo devem ser nmeros ou nomes,


matrizes ou referncias que contenham nmeros.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

EXEMPLO Funo CORREL

- 20

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Interpretao de R
Usado para determinar se havia no exemplo anterior algum
relacionamento linear entre a situao do estudante no curso secundrio e sua situao na universidade. positivo entre os dois conjuntos de valores (quando uma variavel aumento a outra tambm). Como R est prximo de + 1,00, parece que as duas variveis esto relacionadas de forma quase perfeita.

- 21

Foi encontrado R = + 0,90. O sinal + nos indica um relacionamento

Todavia, o valor de R pode ser enganoso. Usando o R2, o coeficiente


de determinao, o qual d a percentagem de variao numa varivel que "explicada" estatisticamente pela variao na outra varivel. Neste caso, com R = +0,90, R2 = 0,81, o que significa que 81% da variao dos pontos em torno das duas mdias grupais podem ser explicadas pelo relacionamento entre as duas variveis. Inversamente, 1 R2, ou 19% da variao, no se pode explicar pelo relacionamento, e assim devemos consider-los como devidos a outros fatores no includos no estudo.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

- 23

REGRESSO LINEAR

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Regresso Linear

- 24

Na regresso linear simples ser deduzida e

analisada a reta que melhor explica essa relao, tendo previamente definido a varivel independente e a varivel dependente. De forma geral a varivel independente ser a mais fcil de ser obtida e a varivel dependente a mais dficil de ser obtida Todos os dias, a mdia se encarrega de informar resultados de anlises e pesquisas do tipo: O valor da empresa depende do lucro futuro, a taxa de juro depende da inflao. O salrio depende da escolaridade do trabalhador etc.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Objetivo da Regresso Linear

- 25

O objetivo da anlise de regresso

encontrar uma funo linear que permita: Descrever e compreender a relao entre uma varivel dependente e uma ou mais variveis independentes (regresso mltipla, que no ser vista). Projetar ou estimar uma varivel em funo de uma ou mais variveis independentes; por exemplo, as vendas para diferentes valores de investimento em propaganda, a demanda em funo do preo unitrio e do investimento em propaganda etc.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Exemplo 1

- 26

O objetivo do diretor de vendas de uma rede de varejo

analisar a relao entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projees de vendas de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa extrada dos registros histricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhes. Analisar a possibilidade de definir um modelo que represente a relao entre as duas variveis ou amostras.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Soluo

- 27

Para analisar a relao entre as duas variveis na planilha Exemplo 1, foi construdo o grfico de disperso das vendas anuais em funo do investimento anual em propaganda. Nesse grfico pode-se ver que, nos ltimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa.
600 500 400 300 200 100 0 0 10 20 30 Propaganda 40 50

FACENSA Estatstica (aula 5)

Vendas

Prof. Neide Pizzolato Angelo

Soluo (continuao)

- 28

O grfico de disperso mostra que as vendas e o investimento


em propaganda esto correlacionados de forma positiva, com um coeficiente de correlao prximo de +1.

Uma reta como a linha tracejada no grfico de disperso acima


poder ser utilizada para realizar projees das vendas futuras em funo do investimento em propaganda.

A linha tracejada foi ajustada tentando equilibrar os pontos


acima da reta com os pontos abaixo dela.

Essa reta uma das muitas possveis retas que poderiam ser
ajustadas.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Modelo do Ajuste de uma Reta


O ajuste de uma reta um modelo linear que relaciona a
varivel dependente y e a varivel independente x por meio da equao de uma reta do tipo:

- 29

y = a + bx
importante observar que, da mesma forma como a mdia
resume uma varivel aleatria, a reta de regresso resume a relao linear entre duas variveis aleatrias e, conseqentemente, da forma como a mdia varia entre amostras do mesmo tamanho extradas da mesma populao, as retas tambm variaro entre amostras da mesma populao.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel

- 31

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 32

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 33

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel


Selecione os dados e aperte o boto do assistente grfico e seleciona-se disperso e seu subtipo

- 34

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel

- 35

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel

- 36

Posicionando o mouse sobre um dos pontos do grfico e clicando o boto direita do mouse selecione adicionar linha de tendncia

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel


na janela adicionar linha de tendncia selecione linear e selecione opes

- 37

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel


nas opes, selecione exibir equao no grfico e exibir r-quadrado no grfico

- 38

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Linha de Tendncia do Excel


Resultado final do processo.

- 39

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 40

Com a equao obtida com o comando linha de tendncia ser

possvel representar o comportamento das vendas em funo do investimento em propaganda com um modelo linear e realizar projees. para obter os coeficientes dessa reta de regresso?

Mas qual o critrio utilizado pelo comando linha de tendncia A resposta a essa questo que os coeficientes
de regresso minimizam a soma dos quadrados dos desvios dos valores da amostra y com relao aos correspondentes valores da reta de regresso (Mtodo dos Mnimos Quadrados). amostrado se alguns dos pontos do grfico de disperso no esto contidos na reta de regresso? Essa questo ser respondida mais adiante.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

a e b da reta

Outra questo, quo bem a reta representa o fenmeno

Coeficientes de Regresso
Duas importantes caractersticas da equao linear
so: o coeficiente angular da reta ( b) e o coeficiente linear da reta em determinado ponto (a). Uma equao linear tem a forma:

- 41

y = a + bx
onde a e b so valores que se determinam com base
nos dados amostrais; a coeficiente linear da reta, e b o coeficiente angular. A varivel y a varivel que deve ser predita, e x o valor predito, isto , preferencialmente deve-se utilizar x como a varivel mais acessvel (mais fcil de ser obtida) e y a varivel menos acessvel (mais difcil de ser obtida).
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Deciso por um Tipo de Relao


Nem todas as situaes so bem aproximadas por

- 42

uma equao linear. Por isso, em geral necessrio desenvolver um trabalho preliminar para determinar se um modelo linear adequado. O processo mais simples consiste em fazer o grfico dos dados e ver se uma relao linear parece razovel e aps analisar o coeficiente de Correlao Linear. modelo linear, as alternativas so procurar um modelo no-linear conveniente, ou transformar os dados para a forma linear.

Quando os dados no podem ser aproximados por um

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Tipos de Regresso Linear

- 43

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Regresso Linear (Residuos)


260

- 46

250
240 Receita 230

220
210 200 190 180 1,5 2,0 2,5 Investimento em publicidade
Prof. Neide Pizzolato Angelo

um mnimo 3,0

FACENSA Estatstica (aula 5)

- 48

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 49

Coeficiente b Substituindo os resultados parciais obtidos na planilha do slide anterior: 10 112 . 455 270 3 . 800 b 9,7381 2 10 8 . 302 270 Coeficiente a Substituindo os resultados parciais obtidos na planilha do slide anterior :
a 3 . 800 9, 7381 270 117 ,07 10

Portanto, a equao da reta de regresso procurada :


117 ,07 9,74 x y
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

- 50

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Funo do Excel
INTERCEPO(val_y; val_x)

- 51

A funo estatstica INTERCEPO retorna o coeficiente de


regresso a da reta de regresso linear considerando os valores das amostras informados nos argumentos val_conhecidos_y e val_conhecidos_x.

Ao utilizar essa funo, deve-se tomar o cuidado de fornecer


os valores na ordem correta, o primeiro argumento val_conhecidos_y se refere aos valores da varivel dependente y, e o argumento val_conhecidos_x, aos valores da varivel independente x. Os dois argumentos desta funo devem ser nmeros ou nomes, matrizes ou referncias que contenham nmeros.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

EXEMPLO Funo INTERCEPO

- 52

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Funo do Excel

- 53

INCLINAO(val_y; val_x)
A funo estatstica INCLINAO retorna o coeficiente b
da reta de regresso linear considerando os valores das amostras informados nos argumentos val_conhecidos_y e val_conhecidos_x.

Ao utilizar esta funo, deve-se tomar o cuidado de fornecer


os valores na ordem correta, o primeiro argumento val_conhecidos_y se refere aos valores da varivel dependente y, e o argumento val_conhecidos_x, aos valores da varivel independente x. Os dois argumentos desta funo devem ser nmeros ou nomes, matrizes ou referncias que contenham nmeros.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

EXEMPLO Funo INCLINAO

- 54

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 55

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 56

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Projeo

- 57

Uma das aplicaes da regresso linear projetar valores da


varivel dependente para valores definidos da varivel independente.

Para projetar valores de

(valor estimado de y) deve-se y

tomar o cuidado de escolher valores de x dentro do intervalo


de valores da amostra independente x.

De outra maneira, as interpolaes dentro do intervalo de x


so permitidas, entretanto, no devem ser realizadas
projees extrapolando o intervalo da amostra x.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Exemplo 3

- 58

Utilizando a reta de regresso linear do

Exemplo 2, projetar as vendas para investimentos em propaganda de 20, 30 e 45 milhes.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 59

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Funo do Excel

- 60

PREVISO(x; val_y; val_x)


A funo estatstica PREVISO retorna o valor projetado
para o valor registrado no argumento x considerando a reta de regresso linear simples correspondente aos valores das amostras informados nos argumentos val_conhecidos_y e val_conhecidos_x.

Ao utilizar esta funo, deve-se tomar o cuidado de fornecer

os valores na ordem correta, o argumento val_conhecidos_y se refere aos valores da varivel dependente y, e o argumento val_conhecidos_x aos valores da varivel independente x. matrizes ou referncias que contenham nmeros.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Os dois argumentos desta funo devem ser nmeros ou nomes,

Funo do Excel

- 61

TENDNCIA(val_y; val_; x; constante)


A funo estatstica TENDNCIA retorna o valor projetado
da reta de regresso linear simples para um nico ou um grupo de valores de x informados no argumento x considerando a reta de regresso linear simples correspondente aos valores das amostras informados nos argumentos val_conhecidos_y e val_conhecidos_x.

Ao utilizar esta funo, deve-se tomar o cuidado de fornecer os


valores na ordem correta, o argumento val_conhecidos_y se refere aos valores da varivel dependente y, e o argumento val_conhecidos_x, aos valores da varivel independente x.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

- 62

Os dois argumentos desta funo devem ser

nmeros ou nomes, matrizes ou referncias que contenham nmeros.

Se o argumento constante for VERDADEIRO


ou omitido, a funo retornar um nico ou um grupo de valores da reta de regresso. fornecer os resultados da reta de regresso considerando a=0.
FACENSA Estatstica (aula 5) Prof. Neide Pizzolato Angelo

Se for FALSO, a funo TENDNCIA

Observaes finais muito arriscado extrapolar fora do


mbito dos dados. A Figura abaixo, ilustra o que pode acontecer.

- 63

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo

Observaes finais

- 65

A correlao linear no sofre o efeito de


escala, isto e, mudanas na escala das variveis no afeta o resultado final da correlao

A regresso linear sofre o efeito da

escala utilizada, alterando os valores de a e b da reta de regresso.

FACENSA Estatstica (aula 5)

Prof. Neide Pizzolato Angelo