Regressione Lineare Semplice

Regressione Lineare
Semplice e
Correlazione
1
Introduzione
La Regressione una tecnica di analisi della relazione tra
due variabili quantitative
Questa tecnica utilizzata per calcolare il valore (y) di una
variabile dipendente, in funzione del valore di unaltra
variabile indipendente (x1, x2,xk.)
La funzione di regressione che viene individuata esprime la
relazione di dipendenza in media della variabile Y dalla
variabile X
Il modello
Il modello lineare
y b0 b1x
y = variabile dipendente
x = variabile indipendente y
b0 = y-intercetta
b1 = coefficiente angolare
= variabile errore
b0
b0 e b1 non sono conosciuti,

quindi devono essere stimati dai dati.
incremento
b1 = incremento/variazione
variazione
x
3
Stima dei Coefficienti

Le stime sono determinate da:
Estrazione del campione dalla popolazione di riferimento
Calcolo delle statistiche semplici
Ricerca della migliore retta di interpolazione dei dati
w
La domanda :
Quale retta interpola meglio i dati?
w
w
w
w
w
w
w
w
w
w
w
w
x
4
La retta di regressione quella che minimizza

la somma dei quadrati delle differenze tra le osservazioni e la retta
(2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 + (3.2 - 4)2 = 6.89

Somma quadrati delle diff. =
Somma quadrati delle diff. = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99
3
2.5
2
Confrontiamo due rette

La seconda orizzontale
(2,4)
w
w (4,3.2)
(1,2) w
La retta che interpola meglio

i dati quella a cui corrisponde la pi
piccola somma dei quadrati delle
w (3,1.5)
differenze
1
ih
(b0 b1 xh ) min
Derivando rispetto a b0 e b1 e ponendo le

derivate parziali uguali a zero, otteniamo la
formula
b1
Lequazione di regressione che stima

lequazione del modello lineare
cov(X, Y)
2
sx
y b 0 b1x
b 0 y b1 x
Esercizio 1
Esercizio 2
Esempio
Esercizio 3
Esercizio 4
Relazione tra i Km effettuati e il prezzo di unauto usata
Un venditore di auto
usate vuole capire la
relazione
tra
i
Km
effettuati e il prezzo della
macchina usata
Un campione casuale di
100 auto selezionato e i
dati Trovare la retta di
regressione.
Auto
1
2
3
4
5
6
.
.
.
Km.
37388
44758
45833
30862
31705
34010
.
.
.
Esercizio 5
Prezzo
5318
5061
5008
5795
5784
5359
.
.
.
Esercizio 6
Esercizio 7
Variabile indipendente x
Variabile dipendente y
7
Soluzione
Per calcolare b0 and b1 abbiamo bisogno di calcolare:
( x i x) 2
x 36,009.45;
s 2x
y 5,411.41;
( x x)(y
cov(X, Y)
n 1
Esempio 7.1
43,528,688
y)
n 1
1,356,256
dove n = 100.
b1
cov(X, Y)
s 2x
1,356,256
.0312
43,528,688
b 0 y b1x 5411.41 ( .0312)(36,009.45) 6,533
y b 0 b1x 6,533 .0312x

8
6533
Prezzo
6000
No dati
5500
5000
4500
19000
29000
39000
49000
Km.
y 6,533 .0312x
Lintercetta b0 = 6533.
Questo il coefficiente angolare.

Per ogni chilometro addizionale, il prezzo decresce
in media di 0.0312
Lintercetta pu essere interpretata come:

Il prezzo delle auto che non sono mai state guidate
9
La variabile Errore
Le ipotesi alla base del modello
Lerrore una parte critica del modello di
regressione
Devono essere soddisfatte quattro ipotesi forti
sulla variabile casuale :
si distribuisce in modo normale
Il valore atteso di zero ovvero E(i) = 0
La deviazione standard di s per tutti i valori di x
ovvero E(i2)= s 2
I set di errori associati a differenti valori di y sono tutti
tra loro indipendenti ovvero Cov (i, j)=0
10
Per le prime tre ipotesi alla base del modello:

y si distribuisce in modo normale con valore atteso E(y) =
b0 + b1x, e deviazione standard s
E(y|x3)
La deviazione standard costante,
m3
b0 + b1x3
E(y|x2)
b0 + b1x2
ma il valore atteso varia con x
b0 + b1x1
m2
E(y|x1)
m1
x1
x2
x3
11
Valutazione del modello

Il metodo dei minimi quadrati produce una
regressione lineare anche quando non ci sia una
relazione lineare tra x ed y.
E importante, perci, valutare la bont di
adattamento del modello lineare
Numerosi metodi sono utilizzati per fare ci:
Test dei coefficienti
Indici sintetici
12
Somma dei quadrati degli errori

La somma dei quadrati degli scarti tra i punti e
la retta di regressione una misura di come la
retta approssimi bene la nube dei punti.
n
SSE ( yi y i ) 2
i 1
SSE
(n 1)s 2Y
cov(X, Y)
s 2x
13
Lerrore standard delle stime

Il valore atteso di uguale a 0
Se s piccolo, gli errori tendono a
concentrarsi attorno alla media (=0). Dunque
il modello approssima bene i dati
Cos, possiamo usare s come una misura di
adattabilit del modello lineare
Uno stimatore non distorto di s2 dato da
s2
Errore Standard delle Stime

SSE
s
n2
14
Esempio .
Esempio 7.1
Calcolare lerrore standard delle stime

Soluzione
(y
y i ) 2
Calcolati prima
6,434,890
s
64,999
n 1
99
2
cov(
X
,
Y
)
(
1
,
356
,
256
)
SSE (n 1) sY2
99(64,999)
2,252,363
2
sx
43,528,688
2
Y
Dunque,
s
SSE 2,251,363
151.6
n2
98
Il modello approssima bene i dati, soprattutto se confrontiamo s
con il valore medio di y.
s 151.6, y 5,411.4
15
Test della pendenza della retta

Quando non esiste una relazione lineare tra le due
variabili la retta di regressione orizzontale
q
q
qq
q
q
q
q
q
q
Relazione lineare
La pendenza non uguale a zero
Relazione non lineare

La pendenza uguale a zero
16
Possiamo fare inferenza su b1 partendo da b1, facendo il

seguente test di ipotesi:
H0: b1 = 0
H1: b1 = 0 (< 0; > 0)
La statistica test
b1 b1
t
s b1
dove
s b1
s
(n 1)s 2x
Errore standard di b1.
Se la variabile casuale errore si distribuisce in modo normale

la statistica una t di Student con n-2 g.d.
17
Soluzione dellesempio
Esempio 7.1
Per calcolare t abbiamo bisogno dei valori di b1 e di

sb1
b1 .312
s b1
s
(n 1)s 2x
151.6
(99)(43,528,688
.00231
b1 b1 .312 0
t
13.49
.
00231
s b1
P-value= 4.4 4E-24
C una schiacciante evidenza della

dipendenza lineare del prezzo dellauto
usata, dal numero di Km effettuati
18
Coefficiente di determinazione
Quando vogliamo misurare la forza della relazione
lineare, usiamo lindice di Determinazione lineare R2
[cov( X , Y )]
SSE
2
R
o R 1
2 2
2
sx s y
( yi y )
2
19
Per capire tale coefficiente bisogna ricordare

che :
Modello di Regressione
Tutta la variabilit di y
Lerrore
20
Consideriamo due punti (x1,y1) e (x2,y2) di un campione

y2
y1
x1
Variazione Totale in y =
(y1 y) 2 (y 2 y) 2
x2
Variazione espressa dalla
retta di regressione
+ Variazione dellerrore
(y 1 y) 2 (y 2 y) 2
(y 1 y 1 ) 2 (y 2 y 2 ) 2
21
Variazione in y = SSR + SSE

R2 misura la proporzione di variabilit di y espressa dalla
variabilit di x
2
R 1
SSE
(y i y)
( y y )
( y i y ) 2 SSE
SSR
(y i y) 2
R2 varia tra 0 e 1
- Quando uguale ad 1 (R2 = 1), i punti giacciono sulla retta di
regressione
- Quando uguale ad 0 (R2 = 0), non c relazione lineare tra x
ey
22
Esempio .
Esempio 7.1
Trovare il coefficiente di determinazione

Soluzione
[cov( X, Y)]2
s 2x s 2y
[ 1,356 ,256 ]2
( 43,528 ,688 )(64 ,999 )
.6501
Il 65% della varianza del prezzo spiegata dalla

variazione dei Km segnati dal tachimetro. Il
restante 35% non viene spiegato dal modello
23
Uso del modello di

Regressione lineare
Esempio 7.1
Se siamo soddisfatti della bont di adattamento

della retta di regressione, possiamo utilizzare
lequazione stimata per predire valori di y
Esempio
Prevedere il prezzo una una macchina con 40,000
Km
y 6533 .0312x 6533 .0312(40,000) 5,285

Esempio 7.6
24
Intervallo di confidenza
Due sono gli intervalli importanti per le
previsioni di y.
Intervallo di previsione per un valore particolare di y
Intervallo di confidenza per il valore atteso di y
Intervallo di previsione
Intervallo di confidenza
( x g x) 2
1
1
n
( x i x) 2
( x g x) 2
1
n
( x i x) 2
y t 2 s
y t 2 s
Lintervallo di previsione pi ampio dellintervallo di confidenza

25
Esempio 7.5
Esempio
Calcolare un intervallo di previsione per una
macchina con 40,000 Km
Soluzione
Lintervallo di previsione al 95% =
y t 2 s
( x g x) 2
1
1
n
( x i x) 2
t.025,98
1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6) 1
5,285 303
100
4,309,340,160
26
Il venditore di auto vuole prendere un lotto di

40,000 KM. Calcolare lintervallo di
confidenza per y al 95%
Soluzione
y t 2 s
( x g x)2
( x i x)2
1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6)
5,285 35
100
4,309,340,160
27
Leffetto di un valore dato di x nellintervallo
Appena xg si allontana da x lintervallo diventa

pi grande. Il pi piccolo intervallo trovato
per x.
y b0 b1x g
y ( x g x 1)
y ( x g x 1)
2
(
x
x
)
1
g
Intervallo
y t di2 sconfidenza
con xg = nx
( x x)2
1
12
y t 2s
Intervallo
n di confidenza
( xi x)2
con xg = x 1
x 2 x 1 x 1 x 2
( x( x2)1)xx21 ( x 12))xx 12
1
Intervallo
di confidenza
y t 2s
con xg = xn 2
22
( xi x)2
28
Coefficiente di correlazione
Il coefficiente di correlazione utilizzato per
misurare il legame tra due variabili.
Assume un valore tra -1 e 1

Se r = -1 (associazione negativa) o r = +1
(associazione positiva) ogni punto giace sulla
retta di regressione.
Se r = 0 non c legame lineare.
Il coefficiente di correlazione
pu essere
utilizzato per testare una relazione lineare tra
due variabili.
29
Test del coefficiente di correlazione

Quando non c relazione lineare r = 0.
Le ipotesi sono:
H0 : r = 0
H1 : r = 0
La statistica test :
X
La statistica una t di Student co
n2
tr
g.d.l.
1 r 2
dove r il coefficien te di correlazione nel campione
n2
cov( X , Y )
calcolato da r
sx s y
30
Esempio Test di relazione lineare

Esempio 7.1
Effettuare un test sul coefficiente di correlazione

dellesempio 7.1 per vedere se c relazione lineare
Soluzione
H0 : r = 0
H1 : r 0
Il valore della statistica t

t r
n2
1 r
13.49
Conclusione:
C sufficiente evidenza
ad un livello di significativit
= 5% per dire che c un legame
Nel campione il coefficiente lineare tra le due variabili.
La zona di rifiuto
|t| > t/2,n-2 = t.025,98 = 1.984
di correlazione
r=cov(X,Y)/sxsy=-.806
31
La Diagnostica di Regressione
Prima di utilizzare un modello di regressione per
fare inferenza, bisogna verificare
che le ipotesi alla base del modello siano rispettate
che non ci siano dati anomali che possano inficiare i
risultati
Come vedere se le ipotesi forti:

si distribuisce in modo normale
La varianza di costante per tutti i valori di x:
E(i2)= s 2
Gli errori sono tra loro indipendenti:
Cov (i, j)=0
sono rispettate?
32
Analisi dei residui

Esempio 7.1
Analizzando i residui (o i residui standardizzati), si

pu vedere se ci sono violazioni alle ipotesi poste
alla base del modello
Non normalit
Esempio
Sui dati dellEsempio costruiamo gli istogrammi dei residui
standardizzati
Esaminiamo gli istogrammi e guardiamo alla forma della
distribuzione centrata attorno allo zero
33
RESIDUI OUTPUT
Osservazioni
1
2
3
4
5
Lista praziale
Residui
-50,45749927
-77,82496482
-97,33039568
223,2070978
238,4730715
Per ogni residuo calcoliamo:
Residui Standardizzati
-0,334595895
-0,516076186
-0,645421421
1,480140312
1,58137268
sri s 1 hi dove
1
( xi x )2
hi
n
( x j x)2
40
30
Possiamo inoltre fare il test c2 di

normalit
20
10
0
-2.5
-1.5
-0.5
0.5
1.5
2.5
More
34
Eteroschedasticit
Quando la varianza di non costante per tutti i valori di x,
allora si ha eteroschedasticit
+
++
^y
i
+ + +
+
+
+
+
+
+
++ +
+ +
+
+
+
+ +
+
+ +
+
+
+
^
Lintervallo cresce con y
y^
++
+ ++
++
++
+
+
++
+
+
35
Quando la varianza di costante per tutti i valori di x, allora

c omoschedasticit
+
++
^y
Residui
+
+ +
+
+
+
+ +
+
+ +
+ +
+
+
++ +
+
+
+ +
+ +
y^
++
++
++
+
+ +++
+++
+
++
+
+
++
+
+
Lintervallo non cresce

36
Quando la varianza di costante per tutti i valori di x, allora

c omoschedasticit
^y
Residui
+
+ +
+
+
+
+
+
+ +
+ +
+ ++
+ +
+
+
++ +
y^
+
+
+
++
++
++
+
+
+
++ +
++ ++
++
++ +
+++
+
++
E questa una situazione migliore

37
Non indipendenza delle variabili errore

Quando le variabili errore non sono indipendenti si parla di
autocorrelazione dei residui (soprattutto per le Serie Storiche)
Esempi di autocorrelazione dei residui
Residui
Residui
+ ++
+
+
+
+
+
+ +
+
+
++
+
+
0 +
Tempo
Andamento positivo dei residui

alternato con un andamento negativo
+
+
+
+
Tempo
+
Oscillazione dei residui attorno

allo zero
38
Outliers
Un outlier un valore o troppo piccolo o troppo grande, che
pu influenzare la retta di regressione e per questo deve
essere identificato con un scatter-plot
Un outlier
+ +
+
+ +
+ +
+ +
Unosservazione influente
+++++++++++
ma, pu influenzare
ancora di pi lanalisi!!
+
+
+
+
+
+
+
Gli outliers portano uno spostamento della retta di regressione

39

Regressione Lineare Semplice

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressione Lineare Semplice

Enviado por

Direitos autorais:

Formatos disponíveis

Regressione Lineare

b0 e b1 non sono conosciuti,

Stima dei Coefficienti

La retta di regressione quella che minimizza

(2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 + (3.2 - 4)2 = 6.89

Confrontiamo due rette

La retta che interpola meglio

Derivando rispetto a b0 e b1 e ponendo le

Lequazione di regressione che stima

Relazione tra i Km effettuati e il prezzo di unauto usata

b 0 y b1x 5411.41 ( .0312)(36,009.45) 6,533

y b 0 b1x 6,533 .0312x

Questo il coefficiente angolare.

Lintercetta pu essere interpretata come:

Per le prime tre ipotesi alla base del modello:

La deviazione standard costante,

Valutazione del modello

Somma dei quadrati degli errori

Lerrore standard delle stime

Errore Standard delle Stime

Calcolare lerrore standard delle stime

Test della pendenza della retta

Relazione non lineare

Possiamo fare inferenza su b1 partendo da b1, facendo il

Errore standard di b1.

Se la variabile casuale errore si distribuisce in modo normale

Per calcolare t abbiamo bisogno dei valori di b1 e di

P-value= 4.4 4E-24

C una schiacciante evidenza della

Per capire tale coefficiente bisogna ricordare

Consideriamo due punti (x1,y1) e (x2,y2) di un campione

Variazione in y = SSR + SSE

Trovare il coefficiente di determinazione

Il 65% della varianza del prezzo spiegata dalla

Uso del modello di

Se siamo soddisfatti della bont di adattamento

y 6533 .0312x 6533 .0312(40,000) 5,285

Lintervallo di previsione pi ampio dellintervallo di confidenza

Il venditore di auto vuole prendere un lotto di

Leffetto di un valore dato di x nellintervallo

Appena xg si allontana da x lintervallo diventa

Assume un valore tra -1 e 1

Test del coefficiente di correlazione

Esempio Test di relazione lineare

Effettuare un test sul coefficiente di correlazione

Il valore della statistica t

Come vedere se le ipotesi forti:

Analisi dei residui

Analizzando i residui (o i residui standardizzati), si

Per ogni residuo calcoliamo:

Possiamo inoltre fare il test c2 di

Quando la varianza di costante per tutti i valori di x, allora

Lintervallo non cresce

Quando la varianza di costante per tutti i valori di x, allora

E questa una situazione migliore

Non indipendenza delle variabili errore

Andamento positivo dei residui

Oscillazione dei residui attorno

Gli outliers portano uno spostamento della retta di regressione

Você também pode gostar