Escolar Documentos
Profissional Documentos
Cultura Documentos
Semplice e
Correlazione
1
Introduzione
La Regressione una tecnica di analisi della relazione tra
due variabili quantitative
Questa tecnica utilizzata per calcolare il valore (y) di una
variabile dipendente, in funzione del valore di unaltra
variabile indipendente (x1, x2,xk.)
La funzione di regressione che viene individuata esprime la
relazione di dipendenza in media della variabile Y dalla
variabile X
Il modello
Il modello lineare
y b0 b1x
y = variabile dipendente
x = variabile indipendente y
b0 = y-intercetta
b1 = coefficiente angolare
= variabile errore
b0
incremento
b1 = incremento/variazione
variazione
x
3
w
La domanda :
Quale retta interpola meglio i dati?
w
w
w
w
w
w
w
w
w
w
w
w
x
4
3
2.5
2
(2,4)
w
w (4,3.2)
(1,2) w
w (3,1.5)
differenze
1
ih
(b0 b1 xh ) min
b1
cov(X, Y)
2
sx
y b 0 b1x
b 0 y b1 x
Esercizio 1
Esercizio 2
Esempio
Esercizio 3
Esercizio 4
Un venditore di auto
usate vuole capire la
relazione
tra
i
Km
effettuati e il prezzo della
macchina usata
Un campione casuale di
100 auto selezionato e i
dati Trovare la retta di
regressione.
Auto
1
2
3
4
5
6
.
.
.
Km.
37388
44758
45833
30862
31705
34010
.
.
.
Esercizio 5
Prezzo
5318
5061
5008
5795
5784
5359
.
.
.
Esercizio 6
Esercizio 7
Variabile indipendente x
Variabile dipendente y
7
Soluzione
Per calcolare b0 and b1 abbiamo bisogno di calcolare:
( x i x) 2
x 36,009.45;
s 2x
y 5,411.41;
( x x)(y
cov(X, Y)
n 1
Esempio 7.1
43,528,688
y)
n 1
1,356,256
dove n = 100.
b1
cov(X, Y)
s 2x
1,356,256
.0312
43,528,688
6533
Prezzo
6000
No dati
5500
5000
4500
19000
29000
39000
49000
Km.
y 6,533 .0312x
Lintercetta b0 = 6533.
La variabile Errore
Le ipotesi alla base del modello
Lerrore una parte critica del modello di
regressione
Devono essere soddisfatte quattro ipotesi forti
sulla variabile casuale :
si distribuisce in modo normale
Il valore atteso di zero ovvero E(i) = 0
La deviazione standard di s per tutti i valori di x
ovvero E(i2)= s 2
I set di errori associati a differenti valori di y sono tutti
tra loro indipendenti ovvero Cov (i, j)=0
10
m3
b0 + b1x3
E(y|x2)
b0 + b1x2
ma il valore atteso varia con x
b0 + b1x1
m2
E(y|x1)
m1
x1
x2
x3
11
12
SSE ( yi y i ) 2
i 1
SSE
(n 1)s 2Y
cov(X, Y)
s 2x
13
Esempio .
Esempio 7.1
y i ) 2
Calcolati prima
6,434,890
s
64,999
n 1
99
2
cov(
X
,
Y
)
(
1
,
356
,
256
)
SSE (n 1) sY2
99(64,999)
2,252,363
2
sx
43,528,688
2
Y
Dunque,
s
SSE 2,251,363
151.6
n2
98
Il modello approssima bene i dati, soprattutto se confrontiamo s
con il valore medio di y.
s 151.6, y 5,411.4
15
q
q
qq
q
q
q
q
q
q
Relazione lineare
La pendenza non uguale a zero
b1 b1
t
s b1
dove
s b1
s
(n 1)s 2x
Soluzione dellesempio
Esempio 7.1
s
(n 1)s 2x
151.6
(99)(43,528,688
.00231
b1 b1 .312 0
t
13.49
.
00231
s b1
Coefficiente di determinazione
Quando vogliamo misurare la forza della relazione
lineare, usiamo lindice di Determinazione lineare R2
[cov( X , Y )]
SSE
2
R
o R 1
2 2
2
sx s y
( yi y )
2
19
20
y1
x1
Variazione Totale in y =
(y1 y) 2 (y 2 y) 2
x2
Variazione espressa dalla
retta di regressione
+ Variazione dellerrore
(y 1 y) 2 (y 2 y) 2
(y 1 y 1 ) 2 (y 2 y 2 ) 2
21
R 1
SSE
(y i y)
( y y )
( y i y ) 2 SSE
SSR
(y i y) 2
R2 varia tra 0 e 1
- Quando uguale ad 1 (R2 = 1), i punti giacciono sulla retta di
regressione
- Quando uguale ad 0 (R2 = 0), non c relazione lineare tra x
ey
22
Esempio .
Esempio 7.1
[cov( X, Y)]2
s 2x s 2y
[ 1,356 ,256 ]2
( 43,528 ,688 )(64 ,999 )
.6501
Esempio 7.1
Intervallo di confidenza
Due sono gli intervalli importanti per le
previsioni di y.
Intervallo di previsione per un valore particolare di y
Intervallo di confidenza per il valore atteso di y
Intervallo di previsione
Intervallo di confidenza
( x g x) 2
1
1
n
( x i x) 2
( x g x) 2
1
n
( x i x) 2
y t 2 s
y t 2 s
Esempio 7.5
Esempio
Calcolare un intervallo di previsione per una
macchina con 40,000 Km
Soluzione
Lintervallo di previsione al 95% =
y t 2 s
( x g x) 2
1
1
n
( x i x) 2
t.025,98
1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6) 1
5,285 303
100
4,309,340,160
26
( x g x)2
( x i x)2
1
( 40,000 36,009)2
[ 6533 .0312( 40000)] 1.984(151.6)
5,285 35
100
4,309,340,160
27
y ( x g x 1)
y ( x g x 1)
2
(
x
x
)
1
g
Intervallo
y t di2 sconfidenza
con xg = nx
( x x)2
1
12
y t 2s
Intervallo
n di confidenza
( xi x)2
con xg = x 1
x 2 x 1 x 1 x 2
( x( x2)1)xx21 ( x 12))xx 12
1
Intervallo
di confidenza
y t 2s
con xg = xn 2
22
( xi x)2
28
Coefficiente di correlazione
Il coefficiente di correlazione utilizzato per
misurare il legame tra due variabili.
29
La statistica test :
X
La statistica una t di Student co
n2
tr
g.d.l.
1 r 2
dove r il coefficien te di correlazione nel campione
n2
cov( X , Y )
calcolato da r
sx s y
30
Soluzione
H0 : r = 0
H1 : r 0
n2
1 r
13.49
Conclusione:
C sufficiente evidenza
ad un livello di significativit
= 5% per dire che c un legame
Nel campione il coefficiente lineare tra le due variabili.
La zona di rifiuto
|t| > t/2,n-2 = t.025,98 = 1.984
di correlazione
r=cov(X,Y)/sxsy=-.806
31
La Diagnostica di Regressione
Prima di utilizzare un modello di regressione per
fare inferenza, bisogna verificare
che le ipotesi alla base del modello siano rispettate
che non ci siano dati anomali che possano inficiare i
risultati
sono rispettate?
32
Non normalit
Esempio
Sui dati dellEsempio costruiamo gli istogrammi dei residui
standardizzati
Esaminiamo gli istogrammi e guardiamo alla forma della
distribuzione centrata attorno allo zero
33
RESIDUI OUTPUT
Osservazioni
1
2
3
4
5
Lista praziale
Residui
-50,45749927
-77,82496482
-97,33039568
223,2070978
238,4730715
Residui Standardizzati
-0,334595895
-0,516076186
-0,645421421
1,480140312
1,58137268
sri s 1 hi dove
1
( xi x )2
hi
n
( x j x)2
40
30
20
10
0
-2.5
-1.5
-0.5
0.5
1.5
2.5
More
34
Eteroschedasticit
Quando la varianza di non costante per tutti i valori di x,
allora si ha eteroschedasticit
+
++
^y
i
+ + +
+
+
+
+
+
+
++ +
+ +
+
+
+
+ +
+
+ +
+
+
+
^
Lintervallo cresce con y
y^
++
+ ++
++
++
+
+
++
+
+
35
+
++
^y
Residui
+
+ +
+
+
+
+ +
+
+ +
+ +
+
+
++ +
+
+
+ +
+ +
y^
++
++
++
+
+ +++
+++
+
++
+
+
++
+
+
^y
Residui
+
+ +
+
+
+
+
+
+ +
+ +
+ ++
+ +
+
+
++ +
y^
+
+
+
++
++
++
+
+
+
++ +
++ ++
++
++ +
+++
+
++
Residui
+ ++
+
+
+
+
+
+ +
+
+
++
+
+
0 +
Tempo
+
+
+
+
Tempo
+
Outliers
Un outlier un valore o troppo piccolo o troppo grande, che
pu influenzare la retta di regressione e per questo deve
essere identificato con un scatter-plot
Un outlier
+ +
+
+ +
+ +
+ +
Unosservazione influente
+++++++++++
ma, pu influenzare
ancora di pi lanalisi!!
+
+
+
+
+
+
+