Você está na página 1de 39

Regressione Lineare

Semplice e
Correlazione
1

Introduzione
La Regressione una tecnica di analisi della relazione tra
due variabili quantitative
Questa tecnica utilizzata per calcolare il valore (y) di una
variabile dipendente, in funzione del valore di unaltra
variabile indipendente (x1, x2,xk.)
La funzione di regressione che viene individuata esprime la
relazione di dipendenza in media della variabile Y dalla
variabile X

Il modello
Il modello lineare

y b0 b1x
y = variabile dipendente
x = variabile indipendente y
b0 = y-intercetta
b1 = coefficiente angolare
= variabile errore
b0

b0 e b1 non sono conosciuti,


quindi devono essere stimati dai dati.

incremento

b1 = incremento/variazione

variazione

x
3

Stima dei Coefficienti


Le stime sono determinate da:
Estrazione del campione dalla popolazione di riferimento
Calcolo delle statistiche semplici
Ricerca della migliore retta di interpolazione dei dati

w
La domanda :
Quale retta interpola meglio i dati?

w
w
w

w
w
w

w
w

w
w
w

w
x
4

La retta di regressione quella che minimizza


la somma dei quadrati delle differenze tra le osservazioni e la retta

(2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 + (3.2 - 4)2 = 6.89


Somma quadrati delle diff. =
Somma quadrati delle diff. = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99

3
2.5
2

Confrontiamo due rette


La seconda orizzontale

(2,4)
w

w (4,3.2)

(1,2) w

La retta che interpola meglio


i dati quella a cui corrisponde la pi
piccola somma dei quadrati delle

w (3,1.5)

differenze
1

ih

(b0 b1 xh ) min

Derivando rispetto a b0 e b1 e ponendo le


derivate parziali uguali a zero, otteniamo la
formula

b1

Lequazione di regressione che stima


lequazione del modello lineare

cov(X, Y)
2
sx

y b 0 b1x

b 0 y b1 x

Esercizio 1
Esercizio 2

Esempio

Esercizio 3
Esercizio 4

Relazione tra i Km effettuati e il prezzo di unauto usata

Un venditore di auto
usate vuole capire la
relazione
tra
i
Km
effettuati e il prezzo della
macchina usata
Un campione casuale di
100 auto selezionato e i
dati Trovare la retta di
regressione.

Auto
1
2
3
4
5
6
.
.
.

Km.
37388
44758
45833
30862
31705
34010
.
.
.

Esercizio 5

Prezzo
5318
5061
5008
5795
5784
5359
.
.
.

Esercizio 6
Esercizio 7

Variabile indipendente x
Variabile dipendente y
7

Soluzione
Per calcolare b0 and b1 abbiamo bisogno di calcolare:

( x i x) 2

x 36,009.45;

s 2x

y 5,411.41;

( x x)(y

cov(X, Y)

n 1

Esempio 7.1

43,528,688

y)

n 1

1,356,256

dove n = 100.

b1

cov(X, Y)
s 2x

1,356,256

.0312
43,528,688

b 0 y b1x 5411.41 ( .0312)(36,009.45) 6,533

y b 0 b1x 6,533 .0312x


8

6533
Prezzo

6000

No dati

5500
5000
4500
19000

29000

39000

49000

Km.

y 6,533 .0312x
Lintercetta b0 = 6533.

Questo il coefficiente angolare.


Per ogni chilometro addizionale, il prezzo decresce
in media di 0.0312

Lintercetta pu essere interpretata come:


Il prezzo delle auto che non sono mai state guidate
9

La variabile Errore
Le ipotesi alla base del modello
Lerrore una parte critica del modello di
regressione
Devono essere soddisfatte quattro ipotesi forti
sulla variabile casuale :
si distribuisce in modo normale
Il valore atteso di zero ovvero E(i) = 0
La deviazione standard di s per tutti i valori di x
ovvero E(i2)= s 2
I set di errori associati a differenti valori di y sono tutti
tra loro indipendenti ovvero Cov (i, j)=0
10

Per le prime tre ipotesi alla base del modello:


y si distribuisce in modo normale con valore atteso E(y) =
b0 + b1x, e deviazione standard s
E(y|x3)

La deviazione standard costante,

m3

b0 + b1x3
E(y|x2)

b0 + b1x2
ma il valore atteso varia con x
b0 + b1x1

m2

E(y|x1)
m1

x1

x2

x3
11

Valutazione del modello


Il metodo dei minimi quadrati produce una
regressione lineare anche quando non ci sia una
relazione lineare tra x ed y.
E importante, perci, valutare la bont di
adattamento del modello lineare
Numerosi metodi sono utilizzati per fare ci:
Test dei coefficienti
Indici sintetici

12

Somma dei quadrati degli errori


La somma dei quadrati degli scarti tra i punti e
la retta di regressione una misura di come la
retta approssimi bene la nube dei punti.
n

SSE ( yi y i ) 2
i 1

SSE

(n 1)s 2Y

cov(X, Y)
s 2x
13

Lerrore standard delle stime


Il valore atteso di uguale a 0
Se s piccolo, gli errori tendono a
concentrarsi attorno alla media (=0). Dunque
il modello approssima bene i dati
Cos, possiamo usare s come una misura di
adattabilit del modello lineare
Uno stimatore non distorto di s2 dato da
s2

Errore Standard delle Stime


SSE
s
n2
14

Esempio .

Esempio 7.1

Calcolare lerrore standard delle stime


Soluzione
(y

y i ) 2

Calcolati prima
6,434,890
s

64,999
n 1
99
2
cov(
X
,
Y
)
(

1
,
356
,
256
)
SSE (n 1) sY2
99(64,999)
2,252,363
2
sx
43,528,688
2
Y

Dunque,
s

SSE 2,251,363
151.6
n2
98
Il modello approssima bene i dati, soprattutto se confrontiamo s
con il valore medio di y.
s 151.6, y 5,411.4
15

Test della pendenza della retta


Quando non esiste una relazione lineare tra le due
variabili la retta di regressione orizzontale

q
q
qq
q
q

q
q

q
q

Relazione lineare
La pendenza non uguale a zero

Relazione non lineare


La pendenza uguale a zero
16

Possiamo fare inferenza su b1 partendo da b1, facendo il


seguente test di ipotesi:
H0: b1 = 0
H1: b1 = 0 (< 0; > 0)
La statistica test

b1 b1
t
s b1

dove

s b1

s
(n 1)s 2x

Errore standard di b1.

Se la variabile casuale errore si distribuisce in modo normale


la statistica una t di Student con n-2 g.d.
17

Soluzione dellesempio
Esempio 7.1

Per calcolare t abbiamo bisogno dei valori di b1 e di


sb1
b1 .312
s b1

s
(n 1)s 2x

151.6
(99)(43,528,688

.00231

b1 b1 .312 0
t

13.49
.
00231
s b1

P-value= 4.4 4E-24

C una schiacciante evidenza della


dipendenza lineare del prezzo dellauto
usata, dal numero di Km effettuati
18

Coefficiente di determinazione
Quando vogliamo misurare la forza della relazione
lineare, usiamo lindice di Determinazione lineare R2

[cov( X , Y )]
SSE
2
R
o R 1
2 2
2
sx s y
( yi y )
2

19

Per capire tale coefficiente bisogna ricordare


che :
Modello di Regressione
Tutta la variabilit di y
Lerrore

20

Consideriamo due punti (x1,y1) e (x2,y2) di un campione


y2

y1

x1
Variazione Totale in y =
(y1 y) 2 (y 2 y) 2

x2
Variazione espressa dalla
retta di regressione

+ Variazione dellerrore

(y 1 y) 2 (y 2 y) 2

(y 1 y 1 ) 2 (y 2 y 2 ) 2
21

Variazione in y = SSR + SSE


R2 misura la proporzione di variabilit di y espressa dalla
variabilit di x
2

R 1

SSE
(y i y)

( y y )

( y i y ) 2 SSE

SSR
(y i y) 2

R2 varia tra 0 e 1
- Quando uguale ad 1 (R2 = 1), i punti giacciono sulla retta di
regressione
- Quando uguale ad 0 (R2 = 0), non c relazione lineare tra x
ey
22

Esempio .

Esempio 7.1

Trovare il coefficiente di determinazione


Soluzione

[cov( X, Y)]2
s 2x s 2y

[ 1,356 ,256 ]2
( 43,528 ,688 )(64 ,999 )

.6501

Il 65% della varianza del prezzo spiegata dalla


variazione dei Km segnati dal tachimetro. Il
restante 35% non viene spiegato dal modello
23

Uso del modello di


Regressione lineare

Esempio 7.1

Se siamo soddisfatti della bont di adattamento


della retta di regressione, possiamo utilizzare
lequazione stimata per predire valori di y
Esempio
Prevedere il prezzo una una macchina con 40,000
Km

y 6533 .0312x 6533 .0312(40,000) 5,285


Esempio 7.6
24

Intervallo di confidenza
Due sono gli intervalli importanti per le
previsioni di y.
Intervallo di previsione per un valore particolare di y
Intervallo di confidenza per il valore atteso di y

Intervallo di previsione

Intervallo di confidenza

( x g x) 2
1
1
n
( x i x) 2

( x g x) 2
1

n
( x i x) 2

y t 2 s

y t 2 s

Lintervallo di previsione pi ampio dellintervallo di confidenza


25

Esempio 7.5

Esempio
Calcolare un intervallo di previsione per una
macchina con 40,000 Km
Soluzione
Lintervallo di previsione al 95% =
y t 2 s

( x g x) 2
1
1
n
( x i x) 2

t.025,98

1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6) 1

5,285 303
100
4,309,340,160

26

Il venditore di auto vuole prendere un lotto di


40,000 KM. Calcolare lintervallo di
confidenza per y al 95%
Soluzione
y t 2 s

( x g x)2

( x i x)2

1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6)

5,285 35
100
4,309,340,160

27

Leffetto di un valore dato di x nellintervallo

Appena xg si allontana da x lintervallo diventa


pi grande. Il pi piccolo intervallo trovato
per x.
y b0 b1x g

y ( x g x 1)
y ( x g x 1)

2
(
x

x
)
1
g
Intervallo
y t di2 sconfidenza

con xg = nx
( x x)2

1
12
y t 2s

Intervallo
n di confidenza
( xi x)2
con xg = x 1

x 2 x 1 x 1 x 2

( x( x2)1)xx21 ( x 12))xx 12

1
Intervallo
di confidenza
y t 2s

con xg = xn 2

22
( xi x)2
28

Coefficiente di correlazione
Il coefficiente di correlazione utilizzato per
misurare il legame tra due variabili.

Assume un valore tra -1 e 1


Se r = -1 (associazione negativa) o r = +1
(associazione positiva) ogni punto giace sulla
retta di regressione.
Se r = 0 non c legame lineare.
Il coefficiente di correlazione
pu essere
utilizzato per testare una relazione lineare tra
due variabili.

29

Test del coefficiente di correlazione


Quando non c relazione lineare r = 0.
Le ipotesi sono:
H0 : r = 0
H1 : r = 0

La statistica test :
X
La statistica una t di Student co
n2
tr
g.d.l.
1 r 2
dove r il coefficien te di correlazione nel campione

n2

cov( X , Y )
calcolato da r
sx s y
30

Esempio Test di relazione lineare


Esempio 7.1

Effettuare un test sul coefficiente di correlazione


dellesempio 7.1 per vedere se c relazione lineare

Soluzione
H0 : r = 0
H1 : r 0

Il valore della statistica t


t r

n2
1 r

13.49

Conclusione:
C sufficiente evidenza
ad un livello di significativit
= 5% per dire che c un legame
Nel campione il coefficiente lineare tra le due variabili.

La zona di rifiuto
|t| > t/2,n-2 = t.025,98 = 1.984

di correlazione
r=cov(X,Y)/sxsy=-.806

31

La Diagnostica di Regressione
Prima di utilizzare un modello di regressione per
fare inferenza, bisogna verificare
che le ipotesi alla base del modello siano rispettate
che non ci siano dati anomali che possano inficiare i
risultati

Come vedere se le ipotesi forti:


si distribuisce in modo normale
La varianza di costante per tutti i valori di x:
E(i2)= s 2
Gli errori sono tra loro indipendenti:
Cov (i, j)=0

sono rispettate?
32

Analisi dei residui


Esempio 7.1

Analizzando i residui (o i residui standardizzati), si


pu vedere se ci sono violazioni alle ipotesi poste
alla base del modello

Non normalit
Esempio
Sui dati dellEsempio costruiamo gli istogrammi dei residui
standardizzati
Esaminiamo gli istogrammi e guardiamo alla forma della
distribuzione centrata attorno allo zero
33

RESIDUI OUTPUT
Osservazioni
1
2
3
4
5

Lista praziale

Residui
-50,45749927
-77,82496482
-97,33039568
223,2070978
238,4730715

Per ogni residuo calcoliamo:

Residui Standardizzati
-0,334595895
-0,516076186
-0,645421421
1,480140312
1,58137268

sri s 1 hi dove
1
( xi x )2
hi
n
( x j x)2

40
30

Possiamo inoltre fare il test c2 di


normalit

20
10
0
-2.5

-1.5

-0.5

0.5

1.5

2.5

More

34

Eteroschedasticit
Quando la varianza di non costante per tutti i valori di x,
allora si ha eteroschedasticit

+
++

^y
i

+ + +
+
+

+
+

+
+
++ +

+ +
+
+
+
+ +
+
+ +
+
+
+
^
Lintervallo cresce con y

y^

++
+ ++
++

++
+

+
++
+
+

35

Quando la varianza di costante per tutti i valori di x, allora


c omoschedasticit

+
++

^y
Residui

+
+ +

+
+

+
+ +

+
+ +

+ +

+
+
++ +

+
+

+ +
+ +

y^

++
++
++
+
+ +++
+++
+

++
+

+
++
+
+

Lintervallo non cresce


36

Quando la varianza di costante per tutti i valori di x, allora


c omoschedasticit

^y
Residui

+
+ +

+
+

+
+

+
+ +

+ +
+ ++

+ +

+
+
++ +

y^

+
+
+
++
++

++
+

+
+
++ +
++ ++
++
++ +
+++
+
++

E questa una situazione migliore


37

Non indipendenza delle variabili errore


Quando le variabili errore non sono indipendenti si parla di
autocorrelazione dei residui (soprattutto per le Serie Storiche)
Esempi di autocorrelazione dei residui
Residui

Residui
+ ++
+

+
+
+
+
+ +
+
+

++

+
+
0 +
Tempo

Andamento positivo dei residui


alternato con un andamento negativo

+
+

+
+

Tempo
+

Oscillazione dei residui attorno


allo zero
38

Outliers
Un outlier un valore o troppo piccolo o troppo grande, che
pu influenzare la retta di regressione e per questo deve
essere identificato con un scatter-plot
Un outlier

+ +
+
+ +
+ +
+ +

Unosservazione influente

+++++++++++

ma, pu influenzare
ancora di pi lanalisi!!
+
+

+
+

+
+
+

Gli outliers portano uno spostamento della retta di regressione


39

Você também pode gostar