Você está na página 1de 37

Estatstica I

Parte V Regresso e Correlao


Cap. 14 (Stevenson, 2001 - Estatstica aplicada Administrao) Cap. 13 (Levine et al., 2008)

Profa. Solange Kanso Economia 2012/1

Regresso e Correlao

A Regresso e a Correlao so duas tcnicas estreitamente relacionadas que envolvem uma forma de estimao. A diferena entre essas duas tcnicas e o tipo de estimao estudado anteriormente que aquelas tcnicas foram utilizadas para estimar um nico parmetro populacional, enquanto que as tcnicas que veremos a partir de agora referem-se estimao de uma relao que possa existir na populao.

A anlise de correlao e regresso compreende a anlise de dados amostrais para saber SE e COMO duas ou mais variveis esto relacionadas uma com a outra numa populao.

Regresso e Correlao

1.

Anlise de correlao: fornece um nmero que resume o grau de relacionamento entre duas variveis. til em trabalhos exploratrios. Determina quais as variveis so potencialmente importantes. O interesse est no grau ou na fora do relacionamento. Ex: educao, psicologia.

2.

Anlise de regresso: tem como resultado uma equao matemtica que descreve o relacionamento. A equao pode ser utilizada para estimar, ou predizer, valores futuros de uma varivel quando se conhece ou se supe conhecidos valores de uma outra varivel. Ex: administrao, economia, pesquisa mdica, agricultura.

Regresso e Correlao

Os dados para ambas as tcnicas provem de observaes de variveis EMPARELHADAS, ou seja, para cada observao origina dois valores, um para cada varivel (x,y). Ex: Idade e altura Para cada indivduo observado temos duas caractersticas fsicas associadas.

Regresso Linear Simples

O termo REGRESSO foi introduzido por Francis Galton, ele verificou que, embora houvesse uma tendncia de pais altos terem filhos altos e de pais baixos terem filhos baixos, a altura mdia dos filhos de pais de uma dada altura tendia a se deslocar ou regredir at a altura mdia da populao como um todo. Em outras palavras, a altura dos filhos de pais extraordinariamente altos ou baixos tende a se mover para a altura mdia da populao. A lei de regresso universal de Galton foi confirmada por seu amigo Karl Pearson, que coletou mais de mil registros da alturas dos membros de grupos de famlias. Ele verificou que a altura mdia dos filhos de um grupo de pais altos era inferior altura de seus pais, e que a altura mdia dos filhos de um grupo de pais baixos era superior altura de seus pais. Assim, tanto os filhos altos como baixos regrediram em direo altura mdia de todos os homens (Gujarati, 2000, pp. 3).
Mas hoje sabemos que ...

Regresso Linear Simples

A anlise da regresso ocupa-se do estudo da dependncia de uma varivel, VARIVEL DEPENDENTE, em relao a uma ou mais variveis, VARIVEIS DEPENDENTES, com o objetivo de estimar e/ou prever a mdia (da populao) ou o valor mdio da dependente em termos dos valores conhecidos ou fixos (em amostragem repetida) das explicativas. A regresso linear simples constitui uma tentativa de estabelecer uma equao

matemtica linear (linha reta) que descreva o relacionamento entre duas variveis. Algumas utilizaes: 1. Estimar valores de uma varivel com base em valores conhecidos da outra varivel. Ex: resistncia e dureza de um metal substituio. 2. Explicar valores de uma varivel em termos da outra. Pode-se suspeitar de uma relao de causa e efeito entre as duas variveis. Ex: quantidade de fertilizante e safra causa e efeito.

Regresso Linear Simples

ATENO: a anlise de regresso apenas indica qual o relacionamento matemtico pode existir, se existir algum. Nem a regresso nem a correlao podem mostrar que uma varivel tenda a causar certos valores de outra varivel. 3. Predizer valores futuros de uma varivel. Ex: resultado do teste e o potencial futuro previso.

Outras formas de anlise de regresso: Regresso Mltipla; Regresso no-linear.

Regresso Linear Simples

Equao linear: y = a + bx ou ainda Yi = 0 + 1 X i + i Caractersticas da reta: b chamado de coeficiente angular da reta indica a variao de Y por unidade de variao de X. a inclinao da reta. Portanto, mede o aumento ou a reduo em Y para cada aumento de uma unidade em X. a chamado de coeficiente linear = intercepto. a e b so valores que se determinam com base em dados amostrais. A varivel Y a varivel que deve ser predita e X o valor preditor. Ex: y = 5 + 3x. A reta intercepta o eixo do ys no ponto em que y=5. O coeficiente angular da reta 3, o que significa que a cada unidade de x, correspondem 3 unidades de variao de y.

Regresso Linear Simples

Nem todas as situaes aproximam-se de uma equao linear. Alguns exemplos de distribuies de valores de X e Y ver Levine et al., 2008 pgina 449 figura 13.2. Relao linear positiva; Relao linear negativa; Relao curvilnea positiva; Relao curvilnea em formato de U; Relao curvilnea negativa; Nenhuma relao entre X e Y.

Regresso Linear Simples

Ex: Queremos saber se h alguma relao entre a quilometragem de um carro usado e seu preo de venda. Queremos saber se o preo dependa da quilometragem do carro. Em linguagem de regresso a quilometragem seria a varivel INDEPENDENTE ou EXPLANATRIA, e o preo de venda a varivel DEPENDENTE ou RESPOSTA. x = independente y = dependente

Na regresso, os valores de y so preditos com base em valores dados ou conhecidos de x.

Regresso Linear Simples

Outras denominaes

Varivel Dependente Varivel Explicada Predita Regredido Resposta Endgena

Varivel Independente Varivel Explicativa Preditor Regressor Estmulo ou varivel de controle Exgena

Regresso Linear Simples Exemplo


Dados hipteticos i Observaes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Fonte: Stevenson, 2001, pp. 346. xi Quilometragem 40 30 30 25 50 60 65 10 15 20 55 40 35 30 yi Preo de ven da 1000 1500 1200 1800 800 1000 500 3000 2500 2000 800 1500 2000 2000

Regresso Linear Simples Exemplo


Os dados sugerem uma relao linear entre Km e preo de venda.

Uma

reta

descreve os

adequadamente dados?

evidente

a de

impossibilidade

achar uma reta que passe por cada um dos pontos do grfico de disperso.

Mtodo dos Mnimos Quadrados (MMQ)

O mtodo mais usado para ajustar uma linha reta a um conjunto de pontos conhecido como tcnica dos MNIMOS QUADRADOS. A reta resultante tem duas caractersticas importantes: A soma dos desvios verticais dos pontos em relao reta zero e; A soma dos quadrados desses desvios mnima. Significa que nenhuma outra reta daria menor soma de quadrado de tais desvios. O valor que minimizado :

(y

y c ) - Minimiza a soma das diferenas elevadas ao quadrado, entre

os valores verdadeiros (yi) e os valores previstos (yc). yi = um valor observado de y yc = o valor calculado de y utilizando-se a equao de MQ com o valor de x correspondente a yi.

Mtodo dos Mnimos Quadrados (MMQ)

Os valores de a e b para a reta yc = a +bx que minimiza a soma dos quadrados dos desvios so as solues das chamadas equaes normais:

y = na + b( x )
xy = a( x ) + b( x )
2

Onde n o nmero de pares de observaes. Isolando a e b, temos:


b= n( xy) ( x )( y ) n x 2 ( x )

y b x a=
n

Mtodo dos Mnimos Quadrados (MMQ)

Para o exemplo da Km e preo de venda, temos:

x = 505; y = 21.600; xy = 640.000; x

= 21.825; y 2 = 39.960.000

Substituindo os valores na frmula de a e b, temos:


b= 14(640.000) (505)(21.600) 14(21.825) (505)
2

= 38,56

a=

21.600 ( 38,56)(505) = 2.934 14

Substituindo os valores de a e b na reta de regresso, temos; Yc = a +bx yc = 2.934 38,56x O preo de venda esperado para um carro $2.934 menos $38,56 para cada mil milhas que o carro tenha rodado.

Mtodo dos Mnimos Quadrados (MMQ)

ATENO: Trata-se de uma relao mdia. Um carro com determinada quilometragem no obter necessariamente o preo de venda EXATO indicado pela equao. Seria arriscado extrapolar uma equao para preos e quilometragens fora do mbito dos dados.

O intercepto de y representa a mdia aritmtica do valor de y quando x = 0 (em alguns casos, no faz sentido ter x = 0 e esse intercepto de y no possui uma interpretao prtica).

Regresso Linear Simples


Exemplo: Um professor de estatstica deseja utilizar o nmero de horas que um aluno estuda para uma prova final de estatstica (x) para prever a nota final da prova final (y). Foi ajustado um modelo de regresso com base nos dados coletados de uma classe durante o semestre anterior, com os seguintes resultados: y = 35 +3x. Qual a interpretao para o intercepto de y, a e b? O intercepto de y, a = 35, indica que, quando o aluno no estuda para a prova final, a mdia da prova final 35. A inclinao, b = 3, indica que para cada crescimento de uma hora de estudo, prev-se a mdia aritmtica da variao no resultado da prova final como +3. Ou seja, prev-se que o resultado da prova final cresa em 3 pontos para cada hora de crescimento no tempo de estudo.

Inferncias em anlise de regresso


Os coeficientes de regresso a e b so estimativas potenciais dos dois parmetros populacionais, A e B, e a equao yc = a + bx, uma estimativa da relao populacional y = A + Bx + , onde representa a disperso na populao.

Mesmo na populao, os valores no se dispe segundo uma nica linha reta e tendem a apresentar um certo grau de disperso. Se no houvesse disperso na populao, todas as observaes amostrais estariam sobre uma reta e no seria necessrio fazer inferncia quanto aos verdadeiros valores populacionais.

Inferncias em anlise de regresso


Existe disperso pois no existe relacionamento perfeito entre duas variveis na populao. H outras variveis que influenciam os valores da varivel dependente (condies gerais do carro, propaganda, condies do tempo etc). Essas outras variveis no entram no estudo, pois a influencia de cada uma delas provavelmente pequena e o custo de inclu-las nos estudo maior que o benefcio que trariam ao resultado.

A disperso significa que as estatsticas amostrais tendem a diferir dos parmetros efetivos da populao.

Inferncias em anlise de regresso


Hipteses da anlise da regresso: 1. 2. 3. 4. Existem dados de mensuraes tanto para x como para y. A varivel dependente aleatria. Para cada valor de x h uma distribuio condicional de ys que normal. Os desvios padres de todas as distribuies condicionais so iguais.

Inferncias em anlise de regresso


O erro padro da estimativa Qual a preciso da estimativa? Quanto maior a disperso, menor a preciso das estatsticas. A quantidade de disperso na populao pode ser estimada com base na disperso das observaes da amostra em relao reta de regresso. dada por:

se =
Onde y = cada valor de y;

(y

yc )

n2

yc = valor correspondente da reta de regresso; n = nmero de observaes.

Inferncias em anlise de regresso


O erro padro da estimativa o clculo do desvio padro, no lugar da mdia utiliza-se yc e no lugar de n-1 g.l. utiliza-se n-2 g.l.

se =

a y b xy n2

O clculo do desvio padro se baseia na hiptese de disperso uniforme dos pontos em torno da reta de disperso, ou seja, se supe que as distribuies condicionais dos valores de y tenham desvios padres iguais (homoscedasticidade). No exemplo da Km e preo de venda:

se =

39.960.000 2.934(21.600) ( 38,56)(640.000) = 324,55 14 2

Inferncias sobre o coeficiente angular da reta de regresso


H casos onde h pouco ou nenhum relacionamento entre as variveis (x,y). E fatores aleatrios na amostragem pode produzir um relacionamento, onde na verdade no existe. importante testar se estes clculos so significativos, ou seja, se os verdadeiros parmetros no so nulos. Queremos saber em que situaes as variveis so relacionadas ou no. Se no h relacionamento, de se esperar um coeficiente angular igual a zero. As hipteses: H0) B = 0; H1) B 0.

Inferncias sobre o coeficiente angular da reta de regresso


A significncia do coeficiente angular de regresso pode ser testada comparando-o com o seu desvio padro sb:
t= Valor _ amostral Valor _ esperado b 0 b = = desvio _ padro sb sb

Se a razo relativamente pequena, isto tende a implicar que o verdadeiro valor possa efetivamente ser zero, enquanto que se a razo relativamente grande, a implicao contrria. A distribuio amostral da diferena relativa uma distribuio t com n-2 g.l. Onde sb :

sb = s e

x2

[( x) / n]
2

Inferncias sobre o coeficiente angular da reta de regresso


Observao: possvel testar a hiptese de b = B, isto , que o coeficiente angular tenha determinado valor e o teste pode ser bicaudal ou unicaudal. O teste passa a ser:
t= Valor _ amostral Valor _ esperado b B = desvio _ padro sb

No exemplo da Km e preo de venda, temos:


s b = 324,55 1 1 = 324,55 = 5,40 21.825 (255.025 / 14 ) 3.608,9

Usando b = -38,56 e n = 14, temos:

t=

b 0 38,56 = = 7,14 sb 5,40

Com nvel de significncia de 0,01 e 12 g.l. o valor t tabelado t0,005 = 3,055 Concluso: H alguma relao. O coeficiente angular diferente de zero.

Inferncias sobre o coeficiente angular da reta de regresso


Podemos ainda calcular o intervalo de confiana para o verdadeiro valor de B e no apenas testar a significncia de b. b tsb B b + tsb

O intervalo de confiana (IC) tem duas finalidades: 1. 2. Indicar o intervalo provvel em que o verdadeiro valor pode estar; Testar a significncia de um coeficiente angular amostral.

Por exemplo, se um IC para B incluir o zero, equivale a um teste de significncia a H0) B = 0, portanto, a hiptese nula no pode ser rejeitada. No exemplo da Km e preo da venda, temos: IC: 95% b tsb = -38,56 2,179 *(5,40) = -50,33 B -26,79

Coeficiente de determinao (r2)

O coeficiente de determinao mede o grau de ajuste a um conjunto de dados da reta de regresso ajustada, ou seja, iremos verificar o quo bem a reta de regresso da amostra se ajusta aos dados.

Portanto, medir o grau em que as predies baseadas na equao de regresso superam as predies baseadas em y .

Ver grficos (a) e (b) da figura 14.4 (Stevenson, 2001, pp. 359).

Coeficiente de determinao (r2)

A variao de pontos em torno de y chamada variao total e dada por:

Variao _ total = y i y

Os desvios verticais dos yis em relao reta de regresso chamam-se variao no-explicada e dada por:

Variao _ no _ exp licada = ( y i y c )


Variao explicada = variao total variao no-explicada

r2 =

var iao _ total var iao _ no _ exp licada var iao _ exp licada = var iao _ total var iao _ total

Coeficiente de determinao (r2)

A percentagem de variao explicada, (r2), a razo da variao explicada para a variao total. Usando as varincias:
2 s y s e2 2 sy

r2 =

=1

s e2
2 sy

[ ( y y ) ]/(n 2) =1 [ (y y ) ]/(n 2)
2 i c 2 i

Onde sy2 dada por:

2 y

( y ) ( y ) =
2

/n

n2

Coeficiente de determinao (r2)

No exemplo da Km e preo de venda, temos:

39.960.000 21.600 2 / 14 s = = 522.857,1 14 2


2 y

s e2 324,55 2 r =1 2 =1 = 0,81 552.857,1 sy


2

r2 pode variar de 0 a 1. Indica que aproximadamente 81% da variao no preo da venda de carros esto relacionados com a variao na Km rodado. Ou seja, 19% da variao no so explicadas pela Km. As predies baseadas na equao de regresso se aproximaro satisfatoriamente dos preo efetivos. O fato de r2 no est prximo de zero sugere que a equao melhor que a mdia como preditor.

Anlise da Varincia para Regresso Simples


Teste F = 1 varincia estimada (ENTRE) 2 varincia estimada (DENTRO) Em termos de regresso: F = (soma dos quadrados ENTRE) / 1 (soma dos quadrados DENTRO) / (n-2) Soma dos quadrados total =

SQT = y i y

Soma dos quadrados entre =

SQE = y c y

Soma dos quadrados dentro =

SQD = ( y i y c )

Anlise da Varincia para Regresso Simples


No exemplo da Km e preo de venda: F = 5.370.295/1 1.263.992/12 = 50,98

O valor do teste F exatamente igual ao quadrado do valor encontrado quando testamos a significncia do coeficiente angular da reta. Veja: (t = -7,14; t2 = (-7,14)2 = 50,98). O teste F com 1 g.l. no numerador igual a um teste t.

Anlise da Varincia para Regresso Simples

Fonte de variao Reta de regresso (ENTRE) Erro = Resduo (DENTRO) Total

Soma dos quadrados

Graus de liberdade (g.l.)


2

Quadrado mdio

SQE = (y

y)

1
2

(y

y /1

SQD = ( y i y c )
SQT = y i y

n-2

(y

y c ) /(n 2) = s e2
2
2 sy

n-1

Intervalos de predio para Anlise de Regresso


O valor predito de y, obtido da equao de regresso para um valor especfico de x pode-se referir ao: 1. Valor mdio de y para um dado x: y c ts yc
s yc = s e 1 + n

(x

x2

[( x) / n]
2

Exemplo: A associao local de vendedores de automveis quer estimar o preo mdio de venda de um carro com 18.000 milhas.

2.

Valor individual de y:

y i ts yi

xg x 1 s yi = se 1 + + n x 2 ( x )2 / n

Exemplo: Um vendedor, em particular, quer estimar o preo que ele espera receber por determinado automvel. Tero distribuio t com n-2 g.l.

Anlise de Regresso Mltipla

A regresso mltipla envolve trs ou mais variveis. H ainda uma nica varivel dependente (explicada), porm duas ou mais independentes (explicativas). A finalidade das variveis independentes adicionais melhorar a capacidade de predio em confronto com a regresso simples. Yc = a + b1x1 + b2x2 + ... + bkxk Onde: a = intercepto. bi = coeficientes angulares. k = nmero de variveis independentes.

Anlise de Correlao (r de Pearson)


O termo correlao significa co-relacionamento, indica at que ponto os valores de uma varivel esto relacionados com os da outra. Exemplos: Idade e resistncia fsica; Pessoas com renda mais elevada e maior escolaridade. Para dados contnuos:

r=

n( xy) ( x ) y n x 2 ( x ) . n y 2 ( y )
2

ou

se2 r = r = 1 2 sy
2