Escolar Documentos
Profissional Documentos
Cultura Documentos
Universita
Paolo Tenconi
Indice
1 Introduzione
9
1.1 I Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Classificazione dei Dati . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Aree della Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Statistica Descrittiva
2 Analisi Univariata
2.1 Distribuzioni di Frequenza . . . . . . . . . . .
2.1.1 Dati Nominali, Ordinali e Quantitativi
2.1.2 Dati Quantitativi Continui . . . . . .
2.2 Funzione di Ripartizione . . . . . . . . . . . .
2.2.1 Dati Ordinali e Quantitativi Discreti .
2.2.2 Dati Quantitativi Continui . . . . . .
2.3 Indici di Posizione . . . . . . . . . . . . . . .
2.3.1 Moda e Classe Modale . . . . . . . . .
2.3.2 Medie alla Chisini . . . . . . . . . . .
2.3.3 Quantili . . . . . . . . . . . . . . . . .
2.4 Indici di Variabilit`a . . . . . . . . . . . . . . .
2.4.1 Considerazioni Aggiuntive . . . . . . .
2.5 Indici di Simmetria . . . . . . . . . . . . . . .
2.6 La Concentrazione . . . . . . . . . . . . . . .
2.6.1 Dati in Distribuzione Unitaria . . . .
2.6.2 Dati in Distribuzione di Frequenza . .
13
. . . . .
Discreti
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Analisi Bivariata
3.1 Dati In Distribuzione di Frequenza . . . . . . . . . . .
3.1.1 Frequenze Congiunte, Marginali e Condizionate
3.1.2 Dipendenza Statistica . . . . . . . . . . . . . .
3.1.3 Dipendenza in Media o Regressiva . . . . . . .
3.1.4 Dipendenza Correlativa . . . . . . . . . . . . .
3.2 Dati In Distribuzione Unitaria . . . . . . . . . . . . .
3.2.1 Dipendenza Correlativa . . . . . . . . . . . . .
3.2.2 Dipendenza in Media (Regressione Lineare) . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
18
21
21
22
24
24
24
28
32
35
36
37
37
38
.
.
.
.
.
.
.
.
41
43
43
45
48
51
54
54
55
59
II
77
Probabilit`
a
5 Teoria (Cenni)
5.1 Esperimento ed Eventi . . . . . . . . . . . .
5.2 Teorie della Probabilit`a . . . . . . . . . . .
5.2.1 Classica . . . . . . . . . . . . . . . .
5.2.2 Frequentista . . . . . . . . . . . . . .
5.2.3 Soggettiva . . . . . . . . . . . . . . .
5.2.4 Assiomatica . . . . . . . . . . . . . .
5.3 Propriet`a della Probabilit`a . . . . . . . . .
5.3.1 Teorema delle Probabilit`a Totali . .
5.3.2 Teorema delle Probabilit`a Composte
5.3.3 Teorema di Bayes . . . . . . . . . .
6 Variabili Casuali
6.1 Variabili Casuali Discrete . .
6.1.1 Bernoulli . . . . . . .
6.1.2 Binomiale . . . . . . .
6.1.3 Poisson . . . . . . . .
6.1.4 Uniforme Discreta . .
6.2 Variabili Casuali Continue . .
6.2.1 Uniforme . . . . . . .
6.2.2 Esponenziale . . . . .
6.2.3 Normale Univariata .
6.2.4 Normale Multivariata
6.3 Momenti . . . . . . . . . . .
6.4 Disuguaglianza di Cebicev . .
6.5 Trasformazione di Variabile .
6.6 Esempi . . . . . . . . . . . . .
6.6.1 Bernoulli . . . . . . .
6.6.2 Binomiale . . . . . . .
6.6.3 Poisson . . . . . . . .
6.6.4 Esponenziale . . . . .
6.6.5 Normale . . . . . . . .
7 Convergenza
7.1 In Distribuzione . . . . .
7.2 In Probabilit`a . . . . . .
7.3 In Media r-esima . . . .
7.4 Quasi Certa . . . . . . .
7.5 Legge Debole dei Grandi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
80
80
80
81
81
82
82
82
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
86
86
87
88
89
90
90
91
93
94
94
95
96
96
96
97
97
98
. . . . .
. . . . .
. . . . .
. . . . .
Numeri
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
100
100
101
101
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Esercizi di Probabilit`
a
103
123
9 Introduzione
125
9.1 Campionamento da Variabili Casuali: il Modello Statistico . . . . . . . . 125
9.1.1 Costruzione del Modello Statistico . . . . . . . . . . . . . . . . . . 126
10 Metodi di Stima
129
10.1 Approccio Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2 Approccio Frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2.1 Propriet`a degli Stimatori . . . . . . . . . . . . . . . . . . . . . . . 130
11 Stima Puntuale
135
11.1 Metodo Analogico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.2 Metodo dei Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.3 Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12 Esercizi di Stima Puntuale
141
13 Stima Intervallare
13.1 Intervalli di Confidenza per la Media . . . . . . . . . . . . . . . . .
13.1.1 Varianza Nota . . . . . . . . . . . . . . . . . . . . . . . . .
13.1.2 Varianza ignota . . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Intervalli di Confidenza per la Varianza . . . . . . . . . . . . . . .
13.2.1 Premessa: Varianza Campionaria e Distribuzione 2 . . . .
13.2.2 Media nota . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.2.3 Media Ignota . . . . . . . . . . . . . . . . . . . . . . . . . .
13.3 Intervalli di Confidenza per Stimatori di Massima Verosimiglianza
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
. 154
. 154
. 154
. 155
. 155
. 156
. 157
. 157
159
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
165
. 165
. 166
. 166
. 167
. 171
. 173
. 176
. 176
. 176
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
177
177
178
178
178
179
179
181
Premessa
Le presenti note sono intese come ausilio allo studio per i corsi di Statistica di Base e di
Statistica Inferenziale. I capitoli con esercizi saranno ulteriormente arricchiti in futuro,
cos` come alcune parti teoriche. Le caselle ombreggiate indicano definizioni e concetti di
un certo rilievo, mentre le caselle a doppia bordatura sono atte ad evidenziare le formule
principali.
Qualsiasi commento, suggerimento o segnalazione di eventuali errori sar`a gradito.
Varese, Febbraio 2007
Paolo Tenconi
1 Introduzione
1.1 I Dati
I dati costituiscono loggetto di analisi della statistica. E utile figurarli organizzati
tabularmente:
Sperimentazione
Osservazione
Acquisizione: parte della popolazione `e rilevata ma senza un rigoroso piano di campionamento, ossia la quota di popolazione non `e rappresentativa della popolazione.
Ad esempio i dati raccolti da una societ`a commerciale sui propri clienti costituiscono una parte dei potenziali clienti, ma non ne rappresentano un campione
rappresentativo poich`e distorti dal fatto che essi sono gi`a clienti).
10
Frequentista
Bayesiana
Fiduciale
Verosimiglianza
Data Mining: insieme di tecniche volte allanalisi di grosse mole di dati (casi
e caratteri), nata dalla fusione di varie discipline quali scienza dellinformazione,
computer science e statistica. Non si tratta quindi di una disciplina prettamente
statistica, soprattutto per il fatto che spesso i dati su cui si trova ad operare non
sono campioni rappresentativi, bens` mere acquisizioni di dati non rappresentative
della popolazione, perci`o lincertezza delle conclusioni a cui giunge non `e definibile
rigorosamente.
11
12
Parte I
Statistica Descrittiva
13
Grafici*
Funz.di
Ripartizione
Posizione
Variabilit
Forma
Indici**:
Distr.Freq.
Congiunta1
Bivariata
Statistica1
Regressiva
Correlativa
Dipendenza:
2
1)Soloperdatisecondari(indistribuzionedifrequenza)
2)Trattamentodifferentefradatisecondariedatigrezzi
*Trattamentodifferenteperdatiquantitatividiscretiequantitativicontinui
**Trattamentoanalogoperdatiquantitatividiscretiecontinui(perquestiultimisiprendeilvalorecentralediogni
classe),quantiliesclusi
Distr.di
Frequenza
Univariata
StatisticaDescrittiva
15
16
2 Analisi Univariata
2.1 Distribuzioni di Frequenza
I dati tabulari frutto della rilevazione sono definiti grezzi o organizzati in distribuzione
unitaria. Ad esempio se abbiamo rilevato il colore degli occhi dei presenti in unaula la
distribuzione unitaria potrebbe apparire come di seguito
Casi
Colore Occhi
1
V
2
C
3
C
4
A
5
V
6
C
7
V
...
...
N=20
C
Relativamente allesempio sul colore degli occhi ipotizziamo di avere rilevato quanto
segue
Azzurri
Castani
Verdi
Frequenze
Assolute Relative
3
0,15
12
0,6
5
0,25
pi`
u formalmente anzich`e la precedente rappresentazione tabulare si utilizza la seguente
forma
A C V
X
3 12 5
A
C
V
X
0, 15 0, 6 0, 25
17
Pk
i=1 fi
=1
Pk
N il numero di casi osservati, si noti in proposito che i=1 ni = N
Frequenze Relative
fi
0.2
0.3
6
0
0.0
0.1
ni
0.4
10
0.5
12
0.6
Frequenze Assolute
Azzurri Castani
Modalit
Verdi
Azzurri Castani
Verdi
Modalit
Per i dati ordinali e quantitativi discreti lunica prescrizione nella costruzione e rappresentazione grafica della distribuzione di frequenza consiste nellordinare crescentemente
da sinistra verso destra le modalit`a osservate.
18
fi
di
dove con di si intende lampiezza della classe. Quindi la densit`a di frequenza `e un tasso
normalizzato di frequenza atto ad eliminare leffetto distorsivo introdotto dalla scelta di
classi di ampiezze differenti.
Indicheremo con
di lampiezza di una generica classe
hi la densit`
a di frequenza della classe
ci1 lestremo inferiore della classe
ci lestremo superiore della classe
Ipotizziamo di indicare con X il reddito rilevato sui cittadini di una determinata citt`a.
Potremmo creare tre classi ed osservare quanto segue:
X
ci1 ` ci
0 ` 1000
1000 ` 1500
1500 ` 5000
fi
0,25
0,4
0,35
di
1000
500
3500
hi
0, 25/1000
0, 4/500
0, 35/3500
19
0.00010
Densit
0.00080
Istogramma
1000
5000
Classi
listogramma `e quindi costruito in modo tale che larea sia pari ad uno.
2.1.2.1 Dati Quantitativi Discreti in Classi
E possibile costruire classi anche per dati quantitativi discreti, questo `e ragionevole
laddove essi assumano un elevano numero di modalit`a. In tal caso si opera come precedentemente esposto adottando la correzione per la continuit`
a sottraendo 0, 5 agli estremi
inferiori delle classi ed agiungendo 0, 5 agli estremi superiori, al fine di ottenere classi
adiacenti.
Ad esempio i voti per un generico insegnamento potrebbero essere cos` distribuiti
[18, 20] [21, 25] [26, 30]
X
0, 4
0, 5
0, 1
adottando la correzione per la continuit`a si ottiene
X
20
, x < x1
0
Pj
F (X) =
F (xj ) = i=1 fi , x1 ...xk
1
, x > xk
ad esempio per X
1
0
3
5
0, 1 0, 25 0, 15 0, 5
0 + 0, 1 = 0, 1
0, 1 + 0, 25 = 0, 35
F (X) =
0, 35 + 0, 15 = 0, 5
0, 5 + 0, 5 = 1
, x (, 1)
, x [1, 0)
, x [0, 3)
, x [3, 5)
, x [5, +)
21
1.0
1.2
FUNZIONE DI RIPARTIZIONE
0.6
F(xi)
0.8
0.4
0.2
0.0
xi
, x (, c0 )
0
Fi1 + hi (x ci1 ) , x [ci1 , ci ), i = 1...k
F (X) =
1
, x [ck , +)
ad esempio per X
0,25
0
+ 1000 (x 0)
0,4
F (X) =
(x 1000)
0, 25 + 500
0,35
0, 65 + 3500 (x 1500)
22
, x (, 0)
, x [0, 1000)
, x [1000, 1500)
, x [1500, 5000)
, x [5000, +)
1.0
FUNZIONE DI RIPARTIZIONE
0.8
0.4
F(x)
0.6
0.0
0.2
1000
1000
2000
3000
4000
5000
6000
23
Reddito
5000
Verdi
Azzurri Castani
1000
1500
0.0
0.1
0.00010
0.2
0.00025
hi
i
0.3
0.4
0.5
0.6
0.00080
Colore Occhi
Media Aritmetica
P
PN
ad esempio se f (x1 , x2 , ..., xN ) = N
i=1 xi allora f (M, M, ..., M ) =
i=1 M = n M
perci`o secondo Chisini varr`a luguaglianza
24
N
X
xi = n M
i=1
PN
M
i=1 xi
proprio la media aritmetica. Essa pu`o essere riespressa in varie forme per essere calcolata
su dati grezzi, distribuzione delle frequenze assolute e relative. Le tre formule sono
sostanzialmente identiche, supponiamo di aver osservato i seguenti dati grezzi
X = {3; 1; 1; 1; 3; 5; 1; 5}
i=1 xi
3+1+1+1+3+5+1+5
20
=
8
8
M (X) =
=
=
(1 + 1 + 1 + 1) + (3 + 3) + (5 + 5)
8
14+32+52
20
=
8
8
Pk
i=1 xi ni
N
k
X
4
2
2
+3 +5
8
8
8
xi fi
i=1
Per i dati continui per classi nelle due ultime formulazioni xi corrisponde al valore centrale
della classe xi = (ci ci1 ) /2
25
i=1 xi
N
Pk
i=1 xi
ni
N
k
X
xi fi
i=1
3. M (X) [min (X) ; max (X)] , internalit`a: la media `e compresa fra il minimo ed
il massimo
4. M ( + X) = + M (X) , la media di una trasformazione lineare dei dati `e pari
alla medesima trasformazione lineare applicata alla media dei dati
P
5. M (X) = N1 kj=1 Mj (X) nj , la media `e ricavabile come media ponderata delle
medie di ciascuno dei k sottogruppi ciascuno di ampiezza nj
Non sempre la media aritmetica `e adatta nel senso che non lascia invariata la visione del
fenomeno, ad esempio per un capitale investito in regime di capitalizzazione composta
per tre anni ai tassi r1 = 0, 03; r2 = 0, 04; r3 = 0, 07 ci si potrebbe domandare quale
sia stato il tasso medio ottenuto nei tre anni, ovviamente la condizione `e che il capitale
finale (montante) sia il medesimo, applicando lenunciato di Chisini
M ontante = C (1 + r1 ) (1 + r2 ) (1 + r3 ) = C (1 + r) (1 + r) (1 + r)
C
N
Y
(1 + ri ) = C (1 + r)3
i=1
e isolando r
v
u 3
uY
3
r=t
(1 + ri ) 1
i=1
Media Geometrica
lespressione precedente `e proprio la media geometrica dei tassi di interesse. Per un
insieme generico di xi avremo
26
Mg (X) =
v
uN
uY
N
t x
i=1
v
u k
uY
N
t xni
i
i=1
k
Y
xfi i
i=1
Media Armonica
Ma (X) =
=
=
N
PN
1
i=1 xi
N
1
i=1 xi ni
Pk
1
1
i=1 xi fi
Pk
1. Ma (X) [min (X) ; max (X)] , internalit`a: `e compresa fra il minimo ed il massimo
2. Ma (X) Mg (X) M (X) , `e sempre non superiore rispetto alla media geometrica
3. M (X) = Mg (X) , invarianza rispetto a cambiamenti di scala
Medie potenziate
27
"P
N
s
i=1 xi
Ms (X) =
#1/s
N
"P
k
s
i=1 xi ni
N
"
#1/s
k
X
#1/s
xsi fi
i=1
2.3.3 Quantili
Il quantile di ordine [0, 1) `e il minor valore che, dopo aver organizzato i dati in
modo crescente (pi`
u precisamente in ordine non decrescente), lascia alla propria sinistra
la proporzione dei dati.
q (X) = X
[(N )+ ]
28
Se N pari Q2 (X) =
Q1 (X) = X
[(240,25)+ ] = X[6+ ] = X[6] = 1
Q2 (X) =
[24/12] +X
[24/12+1]
X
2
4+5
2
Q3 (X) = X
[(240,75)+ ] = X[18+ ] = X[18] = 5
2.3.3.2 Dati in Distribuzione di Frequenza
Dati Quantitativi Discreti: viene utilizzato il metodo grafico della funzione di ripartizione, dato il valore si procede allidentificazione della relativa controimmagine
sulla funzione di ripartizione. Nellesempio precedente la distribuzione di frequenza
`e
1 4 5 7
X
10
2
7
5
24
24
24
24
FUNZIONE DI RIPARTIZIONE
0.50
F(xi)
0.75
7.0
5.0
4.5
4.0
1.0
0.25
xi
come si pu`o osservare nel caso in cui il tratteggio cada esattamente in corrispondenza di uno dei tratti orizzontali continui di F (X) si procede a prendere il valore
29
Fi1
hi
0, 5 0, 25
' 1312, 5
0, 4/500
5000.0
6000.0
0.50
1000.0
1312.5
1500.0
0.0
1000.0
0.00
0.25
F(x)
0.65
1.00
FUNZIONE DI RIPARTIZIONE
30
PN
i=1 |xi
31
Casi
xi
1
3
2
5
3
1
4
3
5
5
6
7
7
18
calcoliamo i due centri M (X) = 6, Q2 (X) = 5 ; scegliamo inoltre come misure di distanza la differenza quadratica ed in valore assoluto attorno alla media e la sola differenza
in valore assoluto attorno alla mediana
Casi
1
2
3
4
5
6
7
xi
3
5
1
3
5
7
18
(xi M (X))2
9
1
25
9
1
1
144
|xi M (X) |
3
1
5
3
1
1
12
|xi Q2 (X) |
2
0
4
2
0
2
13
Varianza
sintetizziamo le prima colonna prendendone la media, otteniamo cos` la varianza
32
(X) = M (X M (X))
PN
M (X))2
N
Pk
2
(x
i M (X)) ni
i=1
=
N
k
X
=
(xi M (X))2 fi
i=1 (xi
i=1
2 (X) =
utile e di frequente utilizzo `e la seguente riscrittura della varianza, utile fra laltro in
ambito di calcolo manuale
2 (X) = M X 2 M (X)2
`e importante non confondere
addendi, il primo `e la media dei quadrati (nel nosP7 x2 i due
32 +52 +12 +32 +52 +72 +182
2
i=2 i
tro caso M X =
=
' 63.143 mentre il secondo `e il
7
7
2
quadrato della media aritmetica semplice M (X) = 62 la loro differenza d`a appunto
27, 14.
Il
delle prime
varianza `e noto come devianza D (X) =
Pkdue espressioni della
Pnumeratore
2
N
2
(x
M
(X))
n
(x
M
(X))
=
i
i
i
i=1
i=1
La radice quadrata della varianza `e nota come scarto quadratico medio
(X) =
Devianza
Scarto quadratico
medio
p
2 (X)
Scarto
medio
33
semplice
PN
i=1 |x
M (X) |
N
Pk
|x
i=1 i M (X) | ni
=
N
k
X
=
|x M (X) | fi
i=1
PN
i=1 |x
Q2 (X) |
N
Pk
|x
i=1 i Q2 (X) | ni
=
N
k
X
=
|x Q2 (X) | fi
M [|X Q2 (X)|] =
i=1
il quale per i dati precedenti risulta essere M [|X Q2 (X)|] ' 3, 29 e lo scarto semplice
mediano dalla mediana , che si ottiene come mediana dellultima colonna della tabella
precedente.
Q2 [|X Q2 (X) |] = 2
esso gode della particolarit`a di essere resistente (robusto) verso osservazioni anomale
(valori estremi dovuti alla natura del fenomeno o ad errori di registrazione dei dati).
Coefficiente
variazione
di
Al fine di confrontare la variabilit`a fra fenomeni simili si ricorre allo scarto quadratico
medio relativizzato rispetto alla media, noto come coefficiente di variazione
CV (X) =
(X)
|M (X) |
infine due misure di variabilit`a basate su statistiche dordine sono il range o campo di
variazione
c (X) = max (X) min (X) = 18 1 = 17
e la differenza interquartilica
q (X) = Q3 (X) Q1 (X)
34
i=1 (xi
M (X))s
=
N
Pk
Momento centrale
i=1 (xi
M (X))s ni X
=
(xi M (X))s fi
N
i=1
k
X
(xi ) fi2
i=1
k
X
x2i + 2 2xi fi
i=1
k
X
x2i fi + 2
i=1
M X
k
X
fi 2
i=1
2
k
X
xi fi
i=1
| {z }
| {z }
=1
M (X)2
35
ASIMMETRIA
f(x)
Simmetria
Asimmetria Negativa
Asimmetria Positiva
0.0
0.2
0.4
0.6
0.8
1.0
1 (X) =
2 F isher (X) =
Pk
fi
(X)
36
2.6 La Concentrazione
Lo studio della concentrazione riguarda lanalisi della ripartizione della totalit`a del carattere fra le varie unit`a statistiche; ha quindi senso solo per caratteri trasferibili. Di seguito
indicheremo con Y un carattere preventivamente ordinato in modo non decrescente.
yi
A
= N
, ossia una quota pari alla media aritmetica. In tutti gli altri casi si ha
concentrazione, in particolare massima concentrazione se y1 = ...yN 1 = 0 e yN = A .
In tutti gli altri casi `e necessario determinare il grado di concentrazione, definiamo
P
Ammontare del carattere posseduto dalle i unit`
a pi`
u povere: Ai = ij=1 yj
N
Ai
A
N 1
2N
37
0.508
0.344
0.262
0.18
0.098
0.9
0.8
0.6
0.5
0.4
0.2
0.1
0.3
0.049
0.033
0.016
0
0.7
Qi
0.672
Pi
poveri: Qi =
Ai
A
i
j=1
xi f i
M (X)
Ac =
Pi Pi1
Qi + Qi1 , P0 = Q0 = 0
2 2
i=1
mentre il
rapporto di concentrazione di Gini `e
G =
Pk1
i=1
(Pi Qi )
Pk1
i=1
38
Pi
Pk1
Qi
i=1
Pi
= 1 Pi=1
k1
[0, 1]
1.0
Qi*
0.6
0.8
0.2
0.4
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Pi*
39
40
3 Analisi Bivariata
Grande parte della statistica `e volta allidentificazione di relazioni intercorrenti fra caratteri quando esse non sono deterministiche, bens` disturbate.
Limiteremo lanalisi delle relazioni fra due caratteri, da qui il termine analisi bivariata,
dedicheremo solo un accenno allanalisi multivariata.
Prendiamo ad esempio in considerazione un modello teorico secondo il quale fra il grado
di pressione sullacceleratore e la velocit`a di un veicolo a parit`a di marcia esiste una
relazione lineare del tipo
V = 5 + P 190
150
0
50
100
Velocit
200
250
300
Relazione Deterministica
0.0
0.5
1.0
1.5
Pressione
trattasi tuttavia di una relazione teorica raramente soddisfatta, altri fattori ambientali
entrano in gioco oltre alla pressione sullacceleratore (velocit`a del vento,...) disturbando
tale relazione nel caso dovessimo effettuare delle rilevazioni empiriche. Tuttavia la relazione teorica costruita potrebbe mantenere la propria validit`a concettuale, la statistica
tenta di estrarre da dati disturbati le relazioni di fondo indicando fra laltro il grado di
tale disturbo.
41
300
Relazione Disturbata
250
150
100
Velocit
200
50
0.0
0.5
1.0
1.5
Pressione
42
5
0,1
0,05
0,05
0,2
8
0,03
0,1
0,07
0,2
13
0,02
0,18
0,1
0,3
18
0
0,17
0,13
0,3
0,15
0,5
0,35
1
43
X
5
8
13 18
0, 2 0, 2 0, 3 0, 3
0,05
02
0,05
0,2
44
n
ij = i N j , i, j se trattasi di frequenze assolute
in tal caso esprimiamo lindipendenza simbolicamente in questo modo:
X S Y .
5
0,03
0,1
0,07
0,2
8
0,03
0,1
0,07
0,2
13
0,045
0,15
0,105
0,3
18
0,045
0,15
0,105
0,3
0,15
0,5
0,35
1
E possibile verificare che le distribuzioni condizionate Y |X per questa tabella sono fra
loro identiche
0 ` 1000 1000 ` 1500 1500 ` 5000
Y |X = {5; 8; 13; 18} = Y
0, 15
0, 5
0, 35
45
h(Y|X)
5
8
13 18
0, 2 0, 2 0, 3 0, 3
Y
0
500
150
0
100
13
M[Y|X=x]=1837,5
18
F(X|Y)
18
13
8
5
00
10
00
15
M[X|Y=y]=11,9
00
50
46
2 = N
R X
C
X
n2ij
ni nj
i=1 j=1
!
1
R X
C
X
(ni,j n
i,j )2
=
n
i,j
i=1 j=1
2
R X
C
fi,j fi,j
X
= N
fi,j
i=1 j=1
le quantit`a (nij n
ij ) sono note come contingenze assolute, mentre fij fij
contingenze relative. Si preferisce la versione relativizzata dellindice di Pearson
2 =
2
[0, 1]
N min {(R 1) ; (C 1)}
in caso di massima indipendenza lindice sar`a prossimo a zero (la tabella osservata coincide con quella teorica), mentre in caso di dipendenza statistica sar`a
diverso da zero, in particolare prossimo a uno in caso di perfetta dipendenza
statistica.
Nel nostro esempio risulta che
2 =
0, 267794
= 0, 1339
2
y1
y2
y3
x1
x2
x3
47
y1
y2
x1
x2
x3
f (Y |X = 5)
0,5
0,25
0,25
1375
1265625
f (Y |X = 8)
0,15
0,5
0,35
1837,5
1139219
f (Y |X = 13)
0, 06
0,6
0, 3
1866, 6
990555,6
M [Y ] = M [M (Y |X)] =
k
X
i=1
48
M [Y |Xi ] f (Xi )
f (Y |X = 18)
0
0, 56
0, 43
2116, 6
982222,2
V [Y ]
| {z }
V arianza T ot.
M [V (Y |X)]
|
{z
}
V [M (Y |X)]
|
{z
}
V arianza Residua
V arianza Spiegata
2500
Spezzata di Regressione
M[Y|X=x]
2000
1500
1000
13
18
X=Scolarit
49
2 =
vs
vr
=1
[0, 1)
vt
vt
per il nostro esempio abbiamo 2 = 0, 058 prossimo a zero quindi la variabile indipendente spiega poca parte della varianza totale della variabile dipendente, perci`
o
la relazione `e statisticamente debole.
3.1.3.1 Relazioni con lindipendenza statistica
Il seguente grafico attraverso un esempio d`a unidea della relazione che intercorre fra
indipendenza statistica e regressiva.
RelazionifraIndipendenzaStatisticaeRegressiva
Distribuzioni
identichegenerano
medieidentiche
IndipendenzaStatistica
(Distr.Condizionateidentiche)
F(Y|X)
Y
Medieidentichepossono
sorgeredadistribuzioni
differenti(es.graficoseguente)
M[Y|x1]=M[Y|X2]
x1
ma
F[Y|x1]F[Y|X2]
x2
X
50
IndipendenzaRegressiva
(MedieCondizionateidentiche)
PN
COV (X, Y ) =
=
i=1 (xi
R X
C
X
M (X)) (yi M (Y ))
N
i=1 j=1
= M (X Y ) M (X) M (Y )
(X, Y ) =
COV (X, Y )
[1, 1]
(X) (Y )
nel seguente grafico vi sono alcuni esempi in merito, si noti lultimo grafico in cui pur
essendoci una relazione stretta ma non lineare il coefficiente di correlazione `e basso
51
= 0.96
4.0
= 0.08
2 1
4.0
4.0
3.5
y
2 1
2.0
= 0.22
15
2 1
2 1
= 0.81
2.5
3.5
3.0
3.5
3.0
2.5
3.0
4.0
= 0.97
2 1
2.5
2.0
2.5
2.0
1
0
1
10
3.5
3.0
= 0.75
2 1
per quanto riguarda lesempio sulla relazione fra reddito e anni di scolarit`a, rammentando che M (X) = 11, 9 e M (Y ) = 1837, 5 e calcolando per ogni cella la quantit`
a
(xi M (X)) (yj M (Y )) fi,j otteniamo la seguente tabella
Y\X
0 ` 1000
1000 ` 1500
1500 ` 5000
(5 11, 9)
(500 1837, 5)
0, 1
(5 11, 9)
(1250 1837, 5)
0, 05
(5 11, 9)
(3250 1837, 5)
0, 05
(8 11, 9)
(500 1837, 5)
0, 03
(8 11, 9)
(1250 1837, 5)
0, 1
(8 11, 9)
(3250 1837, 5)
0, 07
13
(13 11, 9)
(500 1837, 5)
0, 02
(13 11, 9)
(1250 1837, 5)
0, 18
(13 11, 9)
(3250 1837, 5)
0, 1
18
(18 11, 9)
(500 1837, 5)
0
(18 11, 9)
(1250 1837, 5)
0, 17
(18 11, 9)
(3250 1837, 5)
0, 13
R X
C
X
i=1 j=1
COV (X, Y )
1158, 75
=
= 0, 2212
(X) (Y )
24, 09 1139218, 75
52
5
5 500 = 2500
(0,1)
(0,03)
(0,02)
(0,0)
1250
5 1250 = 6250
8 1250 = 10000
13 1250 = 16250
18 1250 = 22500
(0,05)
(0,1)
(0,18)
(0,17)
3250
5 3250 = 16250
8 3250 = 26000
13 3250 = 42250
13 3250 = 58500
(0,05)
(0,07)
(0,10)
(0,13)
8
8 500 = 4000
13
13 500 = 6500
18
18 500 = 9000
sommando infine le fi,j per le quali `e risultato uno stesso valore a livello di xi yj
otteniamo la distribuzione di X Y
2500 4000 6250 6500 10000
16250
22500 26000 42250 58500
Z = XY
0, 1 0, 03 0, 05 0, 02 0, 1 0, 18 + 0, 05 0, 17 0, 07
0, 1
0, 13
P
da cui risulta che M (X Y ) = 10
i=1 zi f i = 23025 abbiamo ora tutti gli elementi per il
calcolo della covarianza: COV (X, Y ) = 23025 11, 9 1837, 5 = 11158, 75 .
53
X
5
8
18
13
8
5
9,5
21, 583
Y
1100
1200
1900
2000
1500
1300
1500
116666, 6
N
i=1 (xi M (X))(yi M (Y
))
X Y
5500
9600
34200
26000
12000
6500
15633, 33
(X, Y ) = p
54
[yi ( + xi )]2
2000
2500
i=1
1500
1000
10
15
20
questa `e nota come retta dei minimi quadrati (o di regressione). Sul grafico i pallini
indicano le osservazioni, mentre le x la corrispondente stima. I valori e che risolvono
il problema sono
COV (X, Y )
V (X)
= M (Y ) M (X)
1383, 3
' 64, 09
21, 583
55
X
5
8
18
13
8
5
Y
1100
1200
1900
2000
1500
1300
1500
116666, 6
Y = + X
1211,58
1403,86
2044,79
1724,32
1403,86
1211,58
1500
88661,52
= Y Y
-111,58
-203,86
-144,79
275,68
96,14
88,42
0
28005,15
Dallesame delle medie e varianze delle colonne della tabella riemergono due importanti
relazioni, legate a quanto rilevato gi`a in sede di analisi di dati in distribuzione di frequenza
M (Y ) = M Y
=
V Y
che `e il noto teorema di scompo
V (Y )
+
V ()
| {z }
| {z }
| {z }
V arianza T otale
V arianza Spiegata
V arianza Residua
R2 = 1
V Y
V ()
=
[0, 1]
V (Y )
V (Y )
88661,52
116666,
6
56
3.5
3.5
3.0
2.5
2.5
3.0
2.0
2.0
2 1
2 1
3.2.2.2 La Previsione
Una volta noti , `e possibile stimare Yi per nuovi casi non ancora osservati, quindi
con i > N . Nel nostro esempio supponiamo di osservare un nuovo caso per il quale
conosciamo solamente la scolarit`a, ad esempio 16 anni (x7 = 16) ; applicando i parametri
precedentemente ottenuti possiamo dare una stima del reddito per questa persona
y7 = 891, 12 + 16 64, 09 ' 1916, 6
3.2.2.3 Addendum: Regressione Multivariata
Per ogni unit`a oltre alla scolarit`a X (1) avremmo potuto osservare altre variabili indipendenti,in grado di influenzare il reddito, supponiamo che queste siano reddito del padre
X (2) e reddito della madre X (3) .
Casi
1
2
..
.
..
.
X (1)
5
8
..
.
..
.
X (2)
1000
1500
..
.
..
.
X (3)
900
1700
..
.
..
.
Y
1100
1200
..
.
..
.
57
0
1
=
2
3
che costituisce il vettore dei parametri che devono essere stimati affinch`e sia minima la
quantit`a (indicando con T la matrice trasposta)
(Y X)T (Y X)
la soluzione `e identificata attraverso semplici passaggi di minimizzazione di funzione
M in
(Y X)T (Y X)
= Y T Y Y T X (X)T Y (X)T (X)
= Y T Y 2Y T X T X T X
= XT X
1
XT Y
Il resto dellanalisi (previsione, calcolo di R2 ) `e identico al caso con una sola variabile
indipendente.
58
59
Esercizio Nr. 1
Domanda 1. La seguente distribuzione sintetizza il numero di anni necessari al raggiungimento della laurea per gli iscritti alla Facolt`a di Ingegneria per gli studenti che si
laureano entro i sette anni dalliscrizione:
n
4
5
6
7
Y = 0,10
0,35 0,40 0,15
a) Disegnare il diagramma a barre della distribuzione di frequenza
0.2
0.0
0.1
Frequenze
0.3
0.4
DIAGRAMMA A BARRE
Modalit
Figura 4.1:
b) Calcolare e rappresentare graficamente la funzione di ripartizione
La funzione di ripartizione `e:
0.1
0.45
F (X) =
0.85
60
,
,
,
,
,
x<4
4x<5
5x<6
6x<7
x7
0.6
0.8
0.4
0.2
Freq. Cumulate
1.0
1.2
FUNZIONE DI RIPARTIZIONE
0.0
Modalit
Figura 4.2:
c) Calcolarne moda, mediana, primo e terzo quartile, scarto quadratico medio, campo
di variazione e coefficiente di variazione
M (X) =
k
X
xi fi = 5.6
i=1
M oda (X) = 6
M e (X) = 6
Q1 (X) = 5
Q3 (X) = 6
61
Domanda 2. La Facolt`a intende inoltre verificare se esiste una relazione fra numero
di anni impiegati a conseguire la laurea e quota di esami del primo anno superati con
successo entro il primo anno di corso.
La seguente tabella raccoglie, in via esemplificata, i dati rilevati sugli studenti fino ad
oggi laurati
X=Esami Sostenuti
Y=Anni
Laurea
4
5
6
7
0%
?
0.05
0.07
0.1
50%
0.03
0.1
0.06
0.05
100%
0.06
0.2
0.27
0
62
4
0.01
0.23
4
0.03
0.24
4
0.06
0.53
0.05
0.23
0.07
0.23
0.1
0.23
0.1
0.24
0.06
0.24
0.05
0.24
0.2
0.53
0.27
0.53
0
0.53
4
X
yi f (yi |X = x)
i=1
M (Y |X = 0%) =
1
[0.01 4 + 0.05 5 + 0.07 6 + 0.1 7] = 6.1304
0.23
M (Y |X = 50%) =
1
[0.03 4 + 0.1 5 + 0.06 6 + 0.05 7] = 5.5417
0.24
M (Y |X = 100%) =
1
[0.06 4 + 0.2 5 + 0.27 6 + 0 7] = 5.3962
0.53
63
SPEZZATA DI REGRESSIONE
5.8
5.6
Anni Laurea
6.0
5.4
0.0
0.2
0.4
0.6
0.8
1.0
Esami Sost.
Figura 4.3:
Domanda 3. Per lintero Ateneo i dati raccolti sui caratteri X = Percentuale esami
sostenuti il primo anno ed Y = Anni necessari al raggiungimento della laurea, sono
stati sintetizzati nelle seguenti misure: COV (X, Y ) = 0.3375, V (X) = 0.09, V (Y ) =
2.25, M (X) = 0.5, M (Y ) = 6.
a) Si calcolino i parametri della retta di regressione Y = + X
COV (X, Y )
-0.3375
=
= -3.75
V (X)
0.09
= M (Y ) M (X) = 6 -3.75 0.5 = 7.875
=
COV (X, Y )
COV (X, Y )
p
=
= -0.75
(X) (y)
V (X) V (Y )
R2 = (X, Y )2 = 0.5625
64
65
Esercizio Nr. 2
Domanda 1. Data la seguente distribuzione statistica, riguardante il numero di tentativi necessari per superare lesame di Statistica, con media M (X) = 8, 45
n
?
7
10 15
X = 0,15
0,4 0,25 0,2
a) Determinare il valore della modalit`a mancante x1 e disegnare il diagramma a barre
della distribuzione di frequenza
Avendo a disposizione il valore di M (X) possiamo ricavare il valore mancante x1
attraverso la seguente relazione:
M (X) =
4
X
(xi M (X)) fi
i=1
x1 =
0.15
0.55
F (X) =
0.8
,
,
,
,
,
x<4
4x<5
5x<6
6x<7
x7
66
0.2
0.0
0.1
Frequenze
0.3
0.4
DIAGRAMMA A BARRE
10
15
Modalit
Figura 4.4:
0.8
0.6
0.4
0.2
0.0
Freq. Cumulate
1.0
1.2
FUNZIONE DI RIPARTIZIONE
10
10
15
20
25
Modalit
Figura 4.5:
67
M e (X) = 7
Q1 (X) = 7
Q3 (X) = 10
P4
2 F isher =
i=1 (xi
1 =
P4
3
M (X))3 fi
i=1 (xi M (X)) fi
=
3 = -0.0777
q
3
P4
2
i=1 (xi M (X)) fi
I segni dei valori assunti dai due indici sono discordi, questo induce ad una non
chiara presenza di asimmetria positiva o negativa. Dallosservazione del grafico a
barre tuttavia si pu`o concludere a favore di una parziale presenza di asimmetria
positiva.
68
k
X
M (Y |X = xi ) f (xi )
i=1
M (Y ) = M (Y |X = 0) f (X = 0) + M (Y |X = 3) f (X = 3) +
+ M (Y |X = 5) f (X = 5) + M (Y |X = 8) f (X = 8)
M (Y ) = 3.5 0.3 + 2.1 0.25 + 2.3 0.35 + 1.5 0.1 = 2.53
b) La devianza spiegata DS
Indicando con ni le frequenze assolute ottenute da ni = fi N dove N = 2500
(casi osservati), otteniamo la devianza spiegata con la seguente formula:
DS =
4
X
(M (Y |X = xi ) M (X))2 ni
i=1
1132.75
DS
=
= 0.4925
DY
2300
Domanda 3. Da uno studio sulla relazione tra due fenomeni X e Y sono state effettuate N=100 rilevazioni. Note le seguenti quantit`a di sintesi M (Y ) = 1, 9 M (X) =
2, 7 M (XY ) = 3, 4 M (X 2 ) = 15 calcolare quanto segue:
a) Varianza, devianza, covarianza e codevianza di X
V (X) = M X 2 M (X)2 = 15 2.72 = 7.71
69
C (X, Y )
=
D (X)
C(X,Y )
N
D(X)
N
COV (X, Y )
= -0.2244
V AR (X)
= M (Y ) M (X) = 2.5058
c) Si interpretino i parametri ottenuti per la retta di regressione e si indichi la motivazione per la quale la covarianza assume sempre lo stesso segno del parametro
Il punto fondamentale `e lesistenza di una relazione negativa fra la variabile Y e la
variabile X . Quindi ad un aumento di X corrisponde una diminuzione di Y .
Tale informazione era sin dallinizio desumibile dal segno assunto dalla covarianza,
infatti il segno di essa `e sempre identico al segno del coefficiente della retta di
regressione, la motivazione `e facilmente desumibile dalla formula di
=
COV (X, Y )
V (X)
visto che V (X) assume sempre segno positivo, `e inevitabile che assuma sempre
lo stesso segno di COV (X, Y ).
d) Noto lindice di correlazione (X; Y ) = 0, 45 si calcoli e si interpreti lindice di
determinazione r2
r2 = (X, Y )2 = -0.452 = 0.2025
Come sappiamo r2 [0, 1] e questo per valori prossimi a zero indica un adattamento
non buono della retta di regressione.
70
Esercizio Nr. 3
Domanda 1.
La rilevazione delle temperature massime gionaliere nei mesi invernali nella citt`a di
Varese ha dato luogo alla seguente n
distribuzione di frequenza:
[5,0) [0,5) [5,15)
Temp = [10,5)
0,1
0,4
0,3
0,2
a) Si disegni un opportuno grafico per la distribuzione di frequenza
Poich`e trattasi di dati continui per classi utilizziamo listogramma in cui laltezza
di ogni parallelepipedo `e data dalla densit`a di frequenza h , mentre la base indica
lampiezza della classe. Ne consegue che larea rappresenta la frequenza relativa
(f ) della classe:
f
h=
0.04
0.00
0.02
Densit
0.06
0.08
ISTOGRAMMA
10
10
15
Classi
Figura 4.6:
b) Si calcolino media, moda, varianza e scarto quadratico medio
71
10+(5)
2
5+0
2
0+5
2
5+15
2
.1
.4
.3
.2
4
X
=
M (X) M X
x
i fi =
i=1
4
X
2
V (X) V X =
x
i M X
fi = 29
i=1
r
= 5.39
= V X
(X) X
Mentre il calcolo della moda `e differente rispetto a quanto visto per le distribuzioni
discrete, infatti in questo caso la classe modale `e quella che presenta la massima
densit`a
M oda (X) = 5 ` 0
72
0
F (x) = F (xi1 ) +
, x (, min (X))
(x xi1 ) , x (xi1 , xi )
, x (max (X) , +)
f (x)
x
-10 + 0.1
5 (x -10)
-5 + 0.4 (x -5)
5
F (x) =
0.3 (x 0)
0
+
0.2 (x 5)
5
+
10
,
,
,
,
,
,
x < -10
-10 x < -5
-5 x < 0
0x<5
5 x < 15
x 15
15
20
0.6
0.2
0.4
0.0
Freq. Cumulate
0.8
1.0
FUNZIONE DI RIPARTIZIONE
15
10
10
Classi
Figura 4.7:
73
Domanda 3.
Si dispone inoltre delle temperature gionaliere in tutti i comuni della Provincia di Varese
e dellaltitudine in metri di ogni comune. Questo tipo di dati ha dato origine alla seguente
tabella a doppia entrata:
Y=Temperatura
[10, 5)
[5, 0)
[0, 5)
[5, 15)
X=Altitudine
[200, 300) [300, 400)
0,05
0,08
0,07
0,10
0,12
0,10
0,07
0,03
[400, 1000)
0,15
0,15
0,07
0,01
4
X
i=1
yi fyi |X=x =
4
X
i=1
yi
fyi ,x
fx
0.05
0.07
0.12
0.07
+ -2.5
+ 2.5
+ 10
= 1.45
0.31
0.31
0.31
0.31
0.08
0.1
0.1
0.03
+ -2.5
+ 2.5
+ 10
= -0.97
0.31
0.31
0.31
0.31
74
0.15
0.15
0.07
0.01
+ -2.5
+ 2.5
+ 10
= -3.22
0.38
0.38
0.38
0.38
SPEZZATA DI REGRESSIONE
Temperature
200
400
600
800
1000
Altitudini
Figura 4.8:
75
76
Parte II
Probabilit`
a
77
5 Teoria (Cenni)
5.1 Esperimento ed Eventi
Abbiamo identificato nella popolazione la totalit`a dei dati afferenti una determinata
realt`a. Esiste un tipo particolare di popolazione che `e il frutto di un esperimento il cui
risultato d`a luogo ad eventi elementari il cui esito `e incerto. Sulla base degli eventi
elementari siamo interessati alla determinazione della probabilit`a di occorrenza di un
sottoinsieme di eventi elementari, definiti come eventi.
Ad esempio consideriamo la probabilit`a di ottenere un numero pari nel lancio di un dado:
Esperimento: lancio del dado
Eventi elementari: insieme dei risultati che si possono ottenere a ogni lancio
{1; 2; 3; 4; 5; 6}
Eventi: abbiamo scelto una partizione dei risultati tale che si possa ottenenere
{pari, dispari}
Dispari
4
6
1
3
5
Pari
Se indichiamo con Ei il generico evento a cui siamo interesati e con j il generico evento
elementare `e palese che
X
P [Ei ] =
P (j )
j Ei
79
#Casi F avorevoli
#Casi P ossibili
5.2.2 Frequentista
E succeduta a quella classica a causa delle limitazioni di questultima. Come determinare
P [j ] nellesempio del dado truccato? Secondo la teoria frequentista
P [j ] = limn
#Successi
#T entativi
cio`e la probabilit`a emerge naturalmente come percentuale di successi ripetendo lesperimento allinfinito (da qui il nome di teoria frequentista), si noti che la probabilit`
a `e
oggettiva e insita nelloggetto di indagine.
Tuttavia anche questa teoria ha dei limiti: non sempre lesperimento `e ripetibile e spesso
quando lo `e non `e detto che le condizioni in cui viene ripetuto siano immutabili.
80
5.2.3 Soggettiva
La probabilit`
a di un evento `e data dalla fiducia che un soggetto ha nel suo verificarsi,
intesa questa come la somma di denaro che il soggetto `e disposto a pagare per ottenere
1 in caso di successo e zero in caso di insuccesso. Si noti che la probabilit`a ora non `e
pi`
u insita nelloggetto di indagine, ma nella mente di chi la osserva (da qui il termine
teoria soggettiva), questo costituisce un punto debole per i fautori delloggettivit`a della
probabilit`a, infatti soggetti diversi, in virt`
u di una differente avversione al rischio, avranno giudizi differenti circa il verificarsi di un medesimo evento. Il vantaggio principale `e
dovuto alla possibilit`a di applicare la probabilit`a anche ad eventi irripetibili (si consideri
ad esempio la probabilit`a che luomo metta piede su Marte nei prossimo 10 anni).
5.2.4 Assiomatica
E una teoria astratta basata su postulati. Evita quindi di definire cosa sia la probabilit`a,
fornendo le caratteristiche minime che un apparato deve possedere affinch`e si possa
parlare di probabilit`a.
Dato un esperimento per il quale siamo interessati alla probabilit`
a di uno o pi`
u
eventi (che contengono eventi elementari )
Sugli eventi (trattati come insiemi) sono definite le operazioni di unione, intersezione, negazione e differenza
Definiamo algebra la classe { di eventi tali che
{
se A { A {
S
k=1 Ak {
Data una algebra { definiamo probabilit`
a una funzione che associa ad ogni A { un
numero [0, 1]
P : { [0, 1]
tale probabilit`a deve soddisfare i seguenti assiomi:
1. Eventi sottoinsieme di formano una algebra
2. P [A] [0, 1] , A {
3. P [] = 1
4. Se A B = P [A B] = P [A] + P [B]
S
P
5. P[
n=1 An ] =
n=1 P [An ] , per An a due a due incompatibili
Dagli assiomi discendono una serie di propriet`
a della probabilit`
a, fra cui analizzeremo le
principali
Teorema delle probabilit`
a totali
81
5.3 Propriet`
a della Probabilit`
a
5.3.1 Teorema delle Probabilit`
a Totali
Ci limiteremo al caso di due eventi
P [A B] = P (A) + P (B) P (A B)
mentre `e semplice determinare P (A) e P (B), per quanto riguarda P (A B) distinguiamo tre casi:
1. AB = in tal caso gli eventi sono incompatibili perci`o P (A B) = P (A)+P (B)
2. A B 6= in tal caso gli eventi sono compatibili e distinguiamo due casi
a) A e B sono due eventi indipendenti A B quindi per definizione P (A B) =
P (A) P (B), ne segue che P (A B) = P (A) + P (B) P (A) P (B)
b) A e B sono eventi dipendenti in tal caso per determinare P (A B) si ricorre
al seguenti teorema delle probabilit`
a composte
82
posto che il paziente ha la tosse cronica, quale `e la probabilit`a ce ci`o sia dovuto ad
influenza, bronchite,...?
P4
Sia P (E) =
i=1 P (E|Ai ) P (Ai ) = 0, 1515 (denominatore del teorema di Bayes),
determiniamo le singole P (Ai |E)
1 )P (A1 )
P (A1 |E) = P4P (E|A
=
P (E|A )P (A )
0,20,2
0,1515
= 0, 2640
2 )P (A2 )
P (A2 |E) = P4P (E|A
=
P (E|A )P (A )
0,80,1
0,1515
= 0, 5281
3 )P (A3 )
P (A3 |E) = P4P (E|A
=
P (E|A )P (A )
0,50,05
0,1515
4 )P (A4 )
P (A4 |E) = P4P (E|A
=
P (E|A )P (A )
0,010,65
0,1515
i=1
i=1
i=1
i=1
= 0, 1650
= 0, 0429
Osservazione: a priori la probabilit`a che un soggetto sia sano `e P (A4 ) = 0, 65. In seguito
osserviamo che ha la tosse cronica (E), quindi abbiamo bisogno di aggiornare la nostra
P (A4 )con P (A4 |E)e sicuramente sar`a ribassata alla luce del fatto che P (E|A4 )`e bassa
(cio`e molto raro che un soggetto sano abbia la tosse cronica), per il teorema di Bayes
P (A4 |E) = 0, 0429 . Ragionamento analogo per gli altri Ai .
1
83
84
6 Variabili Casuali
Una variabile casuale `e una funzione che associa ad ogni evento elementare j un numero
reale. Pu`o essere una funzione di tipo uno a uno o di tipo molti a uno, cio`e a differenti
j pu`o essere associato uno stesso numero reale.
x1
x2
x3
Ad esempio nel lancio del dado, possiamo creare una variabile casuale che associ il numero
1 se esce pari ed il numero 0 se esce dispari. Perci`o f (1 = 1) = 0, f (2 = 2) = 1,
f (3 = 3) = 0, f (4 = 4) = 1 , f (5 = 5) = 0 , f (6 = 6) = 1 da cui
0
1
X
P (X = 0) P (X = 1)
P (X = 0) = P (1 ) + P (3 ) + P (5 ) =
1
2
, P (X = 1) = P (2 ) + P (4 ) + P (6 ) =
1
2
i=1 P (xi ) = 1
su di esse vale quanto detto per le distribuzioni di frequenza per dati quantitativi discreti.
85
6.1.1 Bernoulli
assume solo due stati (zero ed uno) ed `e utilizzata per tutti gli esperimenti che danno
luogo ad eventi dicotomici
X Be ()
X
[0, 1]
0
1
1
E (X) = 0 (1 ) + 1 =
V(X) = E X 2 E (X)2 = 2 = (1 )
1.0
Bernoulli
0.0
0.2
0.4
P(X)
0.6
0.8
0.0
0.2
0.4
0.6
0.8
1.0
6.1.2 Binomiale
E utilizzata quanto si effetuano n prove ciascuna delle quali `e distribuita come una
Bernoulli
Pn e si prende la somma dei risultati, quindi se Y Be () allora definendo
X = i=1 yi avremo
X Bin (n, )
(
X
86
[0, 1]
n {N\0}
xi = 1; 2; .....n
n!
P (xi ) = xi !(nx
xi (1 )nxi
i )!
0.15
0.00
0.05
0.10
P(X)
0.20
0.25
0.30
Binomiale
6.1.3 Poisson
E adatta per situazioni riguardanti la frequenza di occorrenza di eventi in un certo lasso
temporale (ad esempio numero di chiamate ad un centralino), in particolare sorge come
limite di una distribuzione binomiale quando limn n = quindi affinch`e questo sia
vero `e necessario che sia molto piccolo per compensare un n tendente ad infinito (per
questo `e nota come distribuzione degli eventi rari)
X P o ()
(
X
>0
xi = 0; 1; .....
x
P (xi ) = e xi! i
E (X) =
V(X) =
87
0.10
0.00
0.05
P(X)
0.15
Poisson
10
15
20
E adatta in situazioni in cui il fenomeno assume un insieme distinto e finito di Nmodalit`a, ciascuno con eguale probabilit`a di accadimento.
X U (N ) , N {N0}
X
E (X) =
N +1
2
V(X) =
N 2 1
12
xi = 1; .....N
P (xi ) = N1
88
0.15
0.00
0.05
0.10
P(X)
0.20
0.25
0.30
Uniforme Discreta
si noti che f svolge il ruolo dellistogramma per dati continui per calssi, ma con classi
di ampiezza infinitesima. La probabilit`a nulla per un generico punto x
`e dimostrabile
semplicemente
Z x+x
Z x
P (X = x
) = limx0
f (x) dx =
f (x) dx = 0
x
F (x) =
f (t) dt
89
6.2.1 Uniforme
f (x) =
F (x) =
Rx
1
a ba dx
E (X) =
Rb
a
1
ba dx
ix
x
ba a
=
1
ba
= xa
ba
h 2 ib
V (X) = E X 2 E (X)2 =
x
2
b2 a2
2(ba)
x [a, b]
a+b
2
(ba)2
12
fab(x)
ba
1
ba
b
x
6.2.2 Esponenziale
E utilizzata in situazioni riguardanti il tempo di attesa prima che un evento accada (es.
la rottura di un impianto,...), perci`o si osservi che opportunamente x <+
X Exp ()
>0
f (x) = ex
F (x) =
Rx
E (X) =
V (X) =
90
0 e
1
1
2
x dx
= 1 ex
x0
f(x)
10
`e nota come distribuzione priva di memoria (per questo si vedano gli esercizi).
X N , 2
f (x) =
x <,
2 2
exp
<,
2 <+
1
(x )2
2 2
Rx
F (x) = f (t) dt non esiste analiticamente, esistono soluzioni tabulate per
N = 0, 2 = 1 cui ogni normale N , 2 pu`o essere ricondotta oppure soluzioni
numeriche grazie ai calcolatori
E (X) =
V (X) = 2
91
f2(x)
0.8
0.0
0.2
0.4
0.6
N(0,1)
N(2,1)
N(2,4)
N(3,0.25)
10
10
6.2.3.1 Standardizzazione
Se X N , 2 operando la seguente trasformazione nota come standardizzazione
otterremo
92
Z=
X
N = 0, 2 = 1
0.6
ad esempio se X N = 7, 2 = 2 e vogliamo determinare P (X < 5) possiamo
ricondurre il problema alla forma standardizzata al fine di utilizzare le tavole
X
57
5
P (X < 5) P
=P Z<
= P (Z < 1, 41) ' 0, 079
<
0.0
0.2
0.4
0,079
57
2
f (xp ) = p
1
2||
n
o
exp (x )T 1 (x )
E (Xp ) = p
V COV (Xp ) = pp
ad esempio
X
=
5
2
, =
2 3
3 6
93
6.3 Momenti
E possibile sintetizzare ogni variabile casuale, discreta o continua, attraverso gli indici
di posizione, variabilit`a e forma indicati precedentemente nella parte inerente la statistica descrittiva. Prendendo ad esempio i principali (a sinistra indicheremo la formula
per variabili casuali discrete, mentre a destra per quelle continue) abbiamo il momento
centrale (rispetto allorigine)
s =
k
X
xsi p (xi )
xs f (x) dx
i=1
si noti che per s = 1 si ottiene il valore atteso. Il momento centrale rispetto alla media
`e dato da
Z +
k
X
s =
(x )s f (x) dx
(xi )s p (xi )
i=1
2 =
[
2 ]
3
2
3
3
P (|X | < ) 1
1
2
>0
limportanza di tale teorema si ravvisa appunto nella sua generalit`a verso ogni distribuzione identificando un limite inferiore per la massa di probabilit`a racchiusa nellintervallo simmetrico attorno alla media di semiampiezza (quindi proporzionale alla
radice della varianza), come evidenziato nel seguente grafico
94
0.0
0.2
0.4
f(x)
0.6
0.8
1.0
1
y
h1 (y)
y
quindi
)
1 log (y) 2 1
exp
fy (y) =
2
y
2 2
1
y>0
95
6.6 Esempi
6.6.1 Bernoulli
Le pompe idriche xyz hanno una probabilit`a di guastarsi nel primo anno del 10%.
Levento `e dicotomico (guasta/non-guasta) quindi la distibuzione adatta `e la Bernoulli
1 = non guasta
2 = guasta
X (1 ) = 0 , X (2 ) = 1
X
0
1
0, 9 0, 1
6.6.2 Binomiale
Abbiamo acquistato 5 pompe xyz , determiniamo la probabilit`a che nel primo anno se
ne guastino 0,1,2,3,4,5. Se il guasto per ogni pompa `e distribuito come una Bernoulli
allora il numero totale dei guasti sar`a distribuito come una Binomiale
X Bin (n = 5, = 0, 1)
P (X = 0) =
5!
0
50
0!(50)! 0, 1 0, 9
= 0, 59049
P (X = 1) =
5!
1
51
1!(51)! 0, 1 0, 9
= 0, 32805
P (X = 2) =
5!
2
52
2!(52)! 0, 1 0, 9
= 0, 0729
P (X = 3) =
5!
3
53
3!(53)! 0, 1 0, 9
= 0, 0081
P (X = 4) =
5!
4
54
4!(54)! 0, 1 0, 9
= 0, 00045
P (X = 5) =
5!
5
55
5!(55)! 0, 1 0, 9
= 0, 00001
96
6.6.3 Poisson
Il numero medio di fulmini che cadono durante un temporale in 10 km quadrati nellarco
di unora `e 3, ritenendo appropriata la distribuzione di poisson (ad esempio possiamo
ritenere che ogni attimo - leggasi tentativo - sia buono per un fulmine (quindi infiniti tentativi), ma che la probabilit`a che questo si scateni in un attimo - leggasi come
probabilit`a di successo in una bernoulli - sia molto piccolo)
X P o ( = 3)
calcoliamo quanto segue
Probabilit`
a che un fulmine cada nella prossima ora P (X = 1) =
Probabilit`
a che non cadano fulmini P (X = 0) =
e3 30
0!
e3 31
3!
= 0, 1494
= 0, 0498
e9 90
o!
= 0, 0001
6.6.4 Esponenziale
Il tempo di attesa medio affinch`e si verifichi la prossima piena presso il torrente xyz `e di
3 settimane. Delineare la variabile casuale tempo di attesa per la prossima piena.
Se il fenomeno non ha memoria, nel senso che il tempo per la prossima piena non `e
influenzato da quanto tempo `e trascorso dalla piena precedente, allora `e adatta una
distribuzione esponenziale.
1
X Exp =
3
Calcoliamo quanto segue
Probabilit`
piena
h a che la
i h avvenga
ientro la prossima settimana
1
1
F (0) = 1 e 3 1 1 e 3 0 = 0, 2835 0 = 0, 2835
R1
0
f (x) dx = F (1)
Probabilit`
a che la piena avvenga nella prima settimana del mese prossimo, posto
che da qui al prossimo mese non ci sono state piene (poich`e P (A|B) = P P(AB)
(B) )
97
0, 074722
= 0, 2835
0, 263597
6.6.5 Normale
La distribuzione del peso in kg dei cigni del lago di Varese segue una legge normale del
tipo
X N = 5; 2 = 0, 25
determinare la probabilit`
a di osservare cigni con peso superiore ai 6 kg
X 5
65
P (X > 6) P
>
= P (Z > 2) = 0, 0228
0, 25
0, 25
determinare P {X (4, 825; 6)}
4, 825 5 6 5
98
7 Convergenza
7.1 In Distribuzione
E una convergenza globale nel senso che non `e richiesto che una singola estrazione da
Fn (x)sia prossima a F (x), ma solamente che effettuate molte estrazioni da Fn (x) e da
F (x) queste siano distribuite quasi nello stesso modo per n
Ad esempio se Fn (X) = x
1
n
con x
1
n, 1
1
n
avremmo che
limn Fn (x) = x
0.2
0.4
Fn(x)
0.6
0.8
1.0
0.0
F(x)
F0.5(x)
F3(x)
99
7.2 In Probabilit`
a
E una richiesta pi`
u forte rispetto alla convergenza in distribuzione, ora `e richiesto che
estraendo coppie di numeri casuali (da Fn (x) e F (x)) e prendendone le differenze, la
probabilit`a di osservare differenze assolute < tende a zero per n
equivalentemente ogni coppia di punti (x, xn ) dovr`a disporsi sulla bisettrice entro le
bande con probabilit`a prossima a uno per n
xn
100
P [limn Xn = X] = 1
n X| < = 1
limn P |X
ossia la media campionaria tende in probabilit`a alla vera media della variabile casuale.
n n
X
N
con
n =
X
Pn
i=1
2
,
n
xi
xi iid (indipendenti
tribuite)
ed identicamente dis-
e 2 finite
101
102
8 Esercizi di Probabilit`
a
103
Probabilit`
a Totali
Nellesperimento lancio di un dado si calcoli la probabilit`a dellevento numero pari o
minore uguale a tre
AB
A
6
4
Come si pu`o notare, essendo gli eventi A e B non incompatibili (a livello insiemistico ci`
o
`e denotato dal fatto che i relativi insiemi sono non disgiunti), abbiamo dovuto sottrarne
a probabilit`a dellintersezione, al fine di evitare doppi conteggi circa le probabilit`a. Tale
`e appunto la logica del teorema delle probabilit`a totali che qui riportiamo
P {A B} = P {A} + P {B} P {A B}
104
Probabilit`
a Composte
Il teorema delle probabilit`a composte ci aiuta a calcolare la probabilit`a di verificarsi di
uno o pi`
u eventi.
P {A B} = P {A|B} P {B} = P {B|A} P {A}
Sempre nel lancio di un dado, calcolare la probabilit`a che esca un numero pari e minore
uguale a quattro.
P {P ari 4} = P {P ari| 4} P { 4}
2 4
1
=
=
4 6
3
1
3
5
2
P {A B} = P {A|B} P {B}
4
B
Come caso particolare abbiamo lindipendenza fra eventi (da non confondersi con lincompatibilit`a), il caso in cui cio`e P {A|B} = P {A}. Ci`o significa che la probabilit`a
di verificarsi di Anon `e influenzata dal fatto che si sia verificato B ; nel nostro esempio
infatti la probabilit`a che esca un numero pari non `e influenzata dal fatto che sia uscito un
numero 4 (infatti in entrambi i casi abbiamo una probabilit`a 0,5 che esca un numero
pari). In tale caso la formula delle probabilit`a composte si semplifica nella seguente
P {A B} = P {A} P {B}
105
Calcoliamo ora P {P ari 3} in tal caso non abbiamo indipendenza, infatti P{P ari| 3} =
6
P {P ari} `e quindi corretto utilizzare la seguente formula
P {P ari 3} = P {P ari| 3} P { 3} =
1 1
1
=
3 2
6
1 1
1
=
2 2
4
Si calcoli ora la probabilit`a che esca un numero minore o uguale a quattro, posto che sia
uscito un numero pari
R: qui dobbiamo fare uso della relazione indicata in precedenza P {A B} = P {A|B} P {B} =
P {B|A} P {A} . Nel nostro caso A=Pari , B= 4, ci viene chiesto insomma di calcolare P {B|A}, con semplici passaggi algebrici isoliamo tale membro e troviamo che
P {B|A} = P P{AB}
{A}
P { 4|pari} =
=
=
106
P {pari 4}
P {pari}
P {pari| 4} P { 4}
P {pari| 4} P { 4} + P {pari| > 4} P {> 4}
2
4
2
4 + 6
1 2 = 3
2 4
4 6 + 2 6
Leggi di De Morgan
Prima legge
A B = A B
A
A
A
B
C
C
A B
AB
Seconda legge:
A B = A B
A
A
A
B
C
C
AB
A B
107
Probabilit`
a Totali e Composte
Nellesperimento lancio del dado, siamo interessati alla probabilit`a del verificarsi del
seguente evento: esce dispari e 3 oppure 3 oppure 4 oppure 5.
Innanzitutto procediamo alla formalizzazione del problema
P {evento} = P {dispari 3} P {3 4 5}
E2 = {3 4 5}
E1 = Dispari 3
4
1
E1 E2
3
5
2
Dispari
=
=
108
3 2 3 1
+
6 3 6 6
4
2
2 3 1
+ = =
6 6 6
6
3
E2
Marginalizzazione
Sia data la seguente lotteria: da unurna contenente 5 palline bianche e 10 nere se pesco
una pallina bianca partecipo alla lotteria A, mentre se pesco una pallina nera partecipo
alla lotteria B. Nella lotteria A si possono vincere 10 euro con probabilit`a 0,5 e perderne
altrettanti con probabilit`a 0,5. Nella lotteria B invece si ha una probabilit`a di 0,1 di
vincere 10 euro ed una probabilit`a 0,9 di perderne altrettanti.
Formulare la variabile aleatoria vincita-perdita di euro
10 10
X
1 p p
Calcolare la vincita attesa
Per la risoluzione ci pu`o avvalere, a condizione che gli eventi Bi siano fra loro indipendenti
ed esaustivi, della seguente relazione
P {Ah } =
k
X
i=1
109
= 0, 23
15 2 15 10
Si calcoli lo scarto quadratico medio della V.A. X
V (X) = [10 (5, 3)]2 0, 23 + [10 (5, 3)]2 (1 0, 23)
p
V (X) = 8, 459
(X) =
Teorema di Bayes
Siano note le probabilit`a di verificarsi delle seguenti patologie: HIV, Epatite ed Influenza.
Siano note altres` le probabilit`a che un soggetto, posto che abbia una delle tre patologie,
mostri la presenza di un certo sintomo S . Si proceda al calcolo che un soggetto abbia
una delle patologie, posto che denoti la presenza del sintomo S .
P [HIV ] = 0, 01 P [Ep] = 0, 05 P [Inf l] = 0, 94
P [S|HIV ] = 0, 7 P [S|Ep] = 0, 5 P [S|Inf l] = 0, 1
Per calcolare quanto richiesto, viene in aiuto il teorema di Bayes. Esso entra in gioco tipicamente quando viene chiesto di invertire lordine in cui appare una probabilit`
a
condizionata, nel nostro caso siamo interessati genericamente a P [patologia|sintomo]
P (S|patj ) P (patj )
P [patj |S] = P3
i=1 P (S|pati ) P (pati )
P (HIV ) P (S|HIV ) = 0, 007
P (Ep) P (S|Ep) = 0, 025
P (Inf ) P (S|Inf ) = 0, 094
3
X
i=1
P (HIV |S) =
P (Ep|S) =
P (Inf l|S) =
110
0, 007
= 0, 0556
0, 126
0, 025
= 0, 1984
0, 126
0, 094
= 0, 7460
0, 126
Si supponga che il paziente sia di ritorno da un viaggio in Asia, ricalcolare P [pati |S Asia]
sapendo che P [HIV |Asia] = 0, 05 P [Ep|Asia] = 0, 15 P [Inf l|Asia] = 0, 8
R: In questo caso basta sostituire P [pati ] con la nuova che tiene conto della visita in
Asia P [pati |Asia] , muta insomma la nostra valutazione a priori sulla patologia
P (S|patj ) P (patj |Asia)
P [patj |S Asia] = P3
i=1 P (S|pati ) P (pati |Asia)
Si supponga di non sapere se il paziente sia stato in Asia o meno,
ma di conoscere
genericamente che la probabilit`a che P [Asia] = 0, 1. Ricavare P patj |S Asia
R: sfruttando la generica relazione secondo cui
P [A|B] = P [A|B, C] P [C] + P A|B, C P C
P [patj |S] = P [patj |S Asia] P [Asia] + P patj |S Asia P Asia
P [patj |S] P [patj |S Asia] P [Asia]
P patj |S Asia =
P Asia
non ci resta che sosituire gli elementi calcolati precedentemente per giungere a quanto
segue
P HIV |S, Asia = 0, 0413
P Ep|Asia = 0, 1766
P Inf l|Asia = 0, 7821
111
Uniforme Discreta
In questo esercizio verificheremo il funzionamento della formula (abbreviata) per il calcolo
della media nel caso in cui la distribuzione di probabilit`a non assuma valori nellintervallo
{1, 2, ...N }
Si data la seguente distribuzione di probabilit`a
1 2 ... N
X
1
1
... N1
N
N
Sapendo che E (X) = 2, 5 determinare N
E (X) =
N
X
xi fi =
i=1
N
X
1
N
i=1
|{z}
=
=
sfruttando lidentit`a E(X) =
N +1
2
N (N +1)
2
N (N +1)
2
N +1
2
N = 2 E(X) 1
= 2 2, 5 1 = 4
Si assuma ora che la distribuzione uniforme discreta sia la seguente
10 11 ... 14
X
1
1
... 15
5
5
Verifichiamo che in tale caso non opera pi`
u la formula data precedentemente
E (X) =
5
X
xi fi = 12
i=1
N (N +1)
2
1415
2
=
= 7, 5
N
14
lerroneit`a della formula `e evidente, in quanto il risultato non soddisfa la propriet`
a di
internalit`a della media aritmetica.
Si trasformi la distribuzione di probabilit`a in modo da peter utilizzare la formula semplificata E (X) = N (NN+1)/2
= X [min (X) 1]
X
+ min (X) 1
X=X
112
1
1
5
2 ... 5
1
1
5 ... 5
N +1
5+1
=
E X
=
=3
2
h2
i
+ (min(X) 1)
E (X) = E X
{z
}
|
E [X+
]=+E [X ]
h i
= [min (X) 1] + E X
= 10 1 + 3 = 12
4}
|5 {z
Z P o ( = 20)
113
0 1 2 ..... +
e zi
zi !
= P [X < 3] + P [Z = 0|X 3] P [X 3] =
= (1 0, 16308) + 2, 06e 9 0, 16308 = 0, 83692
|
{z
}
'0
114
Uniforme Continua
I voti ottenuti in due materie desame sono cos` distribuiti:
M atematica (X) U [10, 20]
Statistica (Y ) U [8, 30]
Due studenti stanno per sostenere lesame di matematica luno e lesame di statistica
lalto. Determinare la probabilit`a che sicuramente lesaminando di statistica prenda
un voto del suo collega.
R: La certezza di ha solo se il voto di statistica sar`a 20 , quindi
Z 30
1
P [Y 20] =
dx
20 30 8
x 8 30
=
30 8 20
= 1 0, 54... = 0, 4545
10 308
1
=
' 2, 2
0, 45...
Calcolare il voto in corrispondenza del quale P (X x) = P (Y y)
R: E il punto in cui le funzioni di ripartizione F (X) e F (Y ) si incrocianoquindi:
x8
30 8
x8
22
10(x 8) + (10 x)22
220
10x 80 + 220 22x
=
=
x 10
20 10
x 10
10
= 0
= 0
12x + 140 = 0
140
= 11, 6
x =
12
115
Esponenziale
Le batterie per telefonino xyz hanno una durata media di 2 anni
Indicare una distribuzione di probabilit`a appropriata per modellare il carattere.
R: La distribuzione esponenziale `e appropriata in quanto ha supporto positivo e continuo,
1
in virt`
u del fatto che E [X] = 1 = E[X]
= 12 quindi
1
X Exp =
2
f (x) = ex
Z x
ex dx = 1 ex
F (x) =
0
Z 1
1 1x
1 1x
2
P [X > 1] =
e
dx = 1
e 2 dx
2
1
0 2
i
h
1
1
= 1 1 e 2 1 = e 2 ' 0, 6065
Z
Z
P [X > 2] = 1
0
i
h
1
1 1x
e 2 dx = 1 1 e 2 2 = e1 ' 0, 3679
2
batterie con un anno di vita non debbano essere cambiate nel corso dellanno
successivo
P [X > 2]
P [X > 2 X > 1]
=
P [X > 1]
P [X > 1]
1
e 2 2
1
e 2 1
' 0, 6065
Si noti che P [X > 2|X > 1] = P [X > 1] , questo significa che la probabilit`
a di
durata residua non `e influenzata da quanto la batteria sia vecchia. Questo dipende
dalla particolare conformazione della distribuzione esponenziale che `e appunto
definita distribuzione con assenza di memoria.
in una famiglia in cui ci sono 5 telefonini comprati lo scorso anno almeno una
batteria vada sostituita nel corso dellanno
116
117
Normale
Notazione
Una breve premessa sulla notazione che utilizzeremo nel corso della serie di esercizi sulla
normale.
Data la seguente distribuzione di probabilit`a
X N (, )
x
N (0, 1)
(x) =
N (0, 1) dx
La motivazione per cui si ricorre al processo di standardizzazione sta nel fatto che lintegrale di una generica distribuzione normale non `e risolvibile analiticamente, tuttavia
`e sempre possibile ricondurre qualsiasi tipo di distribuzione normale alla N(0,1), per la
quale sono disponibili tavole che ne riportano la soluzione numerica dellintegrale, in
alternativa ad esse `e possibile ricorrere a software prettamente statistico o con funzioni
statistiche (ad esempio Excel della Microsoft) .
+
P (X 4, 5) =
4,5
118
exp
(x 3)2
2 32
232
1
dx
P (X 4, 5) = 1 P (X < 4, 5)
X
4, 5 3
4, 5
1P
=1P Z <
<
2
4, 5 3
= 1 (0, 075) = 0, 47011
=1
2
Dato il punto z = 1 relativo alla N (0, 1) si risalga al punto corrispondente di
una N ( = 3; = 2)
R: si tratta di effettuare loperazione inversa rispetto alla standardizzazione
x = +z
z =
x = 3 + (1) 2 = 1
Esercizio
Il rendimento di un titolo azionario `e distribuito come una normale R N ( = 0, 02; = 0, 1).
determini:
Si
la probabilit`a di avere rendimenti negativi
X 0, 02
0 0, 02
P (X < 0) P
<
0, 1
0, 1
0 0, 02
=
= 0, 4207
0, 1
la probabilit`a di avere rendimenti estremi nel senso di avere rendimenti superiori al 5%
oppure inferiori all1%
P (X> 0, 05) P (X < 0, 01)
0,050,02
X0,02
P X0,02
>
P
0,1
0,1
0,1 <
h
i
0,050,02
0,010,02
= 1
+
0,1
0,1
0,010,02
0,1
Esercizio
Si supponga di volere un titolo azionario la cui probabilit`a di rendimenti negativi sia del
40% e la probabilit`a di rendimenti inferiori al 10% sia dell1%. Supposto che i rendimenti siano distribuiti normalmente si proceda alla determinazione delle caratteristiche
119
P (X < 0)
= 0, 4
P (X < 0, 1) = 0, 01
P X <
P X <
0,1
= 0, 4
= 0, 01
0
= 0, 4
0,1
= 0, 01
dobbiamo quindi cercare sulle tavole della N(0,1) i due punti z1 e z2 che lasciano alla
propria sinistra unarea pari a 0, 4 e 0, 01 , essi corrispondono ai punti z1 = 0, 25 e
z2 = 2, 33 quindi
0
= 0, 25
0,1
= 2, 33
non ci resta che operare per sostituzione, nella prima equazione isoliamo la prima
incognita
= 0, 25
sostituiamo nella seconda equazione
= 0, 1 + 2, 33
0, 25 = 0, 1 + 2, 33
0, 1
=
' 0, 0481
2, 33 0, 25
sostituiamo ora questo valore nella prima equazione
= 0, 25
= 0, 25
0, 1
' 0, 012
2, 33 0, 25
120
121
122
Parte III
Statistica Inferenziale
123
9 Introduzione
Riprendendo lo schema iniziale circa lestensivit`a delle osservazioni disponibili, analizziamo meglio il concetto di popolazione alla luce del capitolo inerente la probabilit`a.
Possiamo idealmente identificare due tipi di popolazioni
Popolazioni Finite per loro natura riguardano fenomeni relativi ad un insieme ben limitato e preciso tale che `e possibile averne una totale conoscenza. Se solo parte di
tale fenomeno `e nota, questa si definisce allora campione da popolazione finita
Popolazione Infinita `e illimitata in quanto frutto di un meccaniscmo generatore di risultati (meccanismo generatore della probabilit`a) quindi `e impossibile averne una totale conoscenza in quanto illimitata. Se sono noti alcuni risultati generati da tale
meccaniscmo, questi si definiscono campione da variabile casuale
Ci limiteremo allanalisi di popolazioni infinite.
125
Q
M.S. x(n) , ni=1 P (xi ) ,
x(n) : campione di n-osservazioni
Q
Q
ni=1 P (xi ) : probabilit`
a congiunta del campione ( ni=1 poich`e
sono osservazioni indipendenti, P `e la variabile casuale scelta,
mentre `e la parametrizzazione pi`
u opportuna)
: `e il campo di esistenza del parametro della variabile
casuale, ossia linsieme dei valori entro cui va scelto il parametro
pi`
u opportuno
Assumeremo che le singole estrazioni siano indipendenti ed identicamente distribuite, in sintesi iid.
126
50
Y
)
xi (1 )1xi , [0, 1]
i=1
127
128
10 Metodi di Stima
I metodi di stima per giungere alla determinazione della media, varianza oppure della
popolazione sono vari, in dipendenza fra laltro anche dellapproccio filosofico adottato.
P (Y |) P ()
P (Y |) P () d
con P ()
R distribuzione a priori, P (Y |) realt`a osservata, P (|Y ) distribuzione a posteriori e P (Y |) P () d costante di normalizzazione.
La formula altro non `e se non il teorema di Bayes in ambito continuo, poich`e assume
usualmente un continuum di valori in un intervallo.
129
10.2.1 Propriet`
a degli Stimatori
Definiamo stimatore un generico metodo che ci consente di determinare ed `e basato
sullunica informazione disponibile, il campione. Quindi
130
cio`e la probabilit`a di selezionare un campione per cui la stima `e vicina al vero valore
ignoto in misura minore di tende a 1 per ogni piccolo a piacere, basta infatti
aumentare lampiezza campionaria.
E difficile dimostrare la convergenza in probabilit`a di uno stimatore, pi`
u semplice
`e invece la dimostrazione di convergenza in media quadratica che implica quella in
probabilit`a, quindi si utilizzer`a spesso questa
h
i
limn E (Tn (x) )2 = 0 limn P [|Tn (x) | < ] = 1
h
i
`e possibile scomporre E (Tn (x) )2 = {E [Tn (x)] }2 + V [Tn (x)] il primo addendo
a destra `e noto come bias2 (bias `e la distorsione dello stimatore) mentre il secondo
rappresenta la varianza dello stimatore, se entrambe queste quantit`a 0 allora si ha
convergenza in media quadratica
limn {E [Tn (x)] }2 = 0 , correttezza asintotica
131
Corretto e consistente
f(T1000)
f(T100)
f(T10)
lim f(Tn)
E(Tn) =
E(Tn) =
f(T10)
Distorto
E(T10)
E(T100)
E(T1000) =
f(T1000)
f(T100)
f(T10)
E(Tn)
se
h
i
h
i
EQM Tn(1) (x) < EQM Tn(2) (x)
132
133
134
11 Stima Puntuale
11.1 Metodo Analogico
Siamo interessati a un aparticolare quantit`a per la popolazione, adottiamo come stimatore di questa la medesima quantit`a calcolata sul campione (a meno di lieve correzioni
da valutarsi caso per caso).
Ad esempio
Per la media della popolazione utilizziamo la media del campione
Pn
xi
\
E (X) = i=1
n
Per il minimo della popolazione utilizziamo il minimo del campione
\
min
(X) = min (x)
Per la varianza dela popolazione utilizziamo la varianza corretta del campione
Pn
(xi x
)2
\
V (X) = i=1
n1
= g (1 , 2 , ..., k )
= g (
1 ,
2 , ...,
k )
135
Pn
momenti campionari:
1 =
i=1
xi
Pn
i=1
, ...,
k =
xki
E =E
= E
E (xi ) = n = , corretto
xi = E
xi =
n
n
n
n
n
i=1
V = V
Pn
i=1 xi
=
1
V
n2
i=1
i=1
Pn
i=1 xi
n
1 X
(1 )
1
V (xi ) = 2 n (1 ) =
, consistente
2
n
n
n
i=1
i=1
, quindi g () =
i=1
E(X)
P
n
x
, basta
n
= Pn
xi
i=1 xi
vediamo infine un esempio con due parametri, se X N , 2 abbiamo che = , 2
quindi k = 2 ci servono quindi due equazioni
= E (X)
2 = 2 + 2 = E (X)2 + V (X)
(
2 =
2
=
2
=
Pn x
i=1 i
Pnn x2
i=1
Pn
2
i=1 xi
=
2 +
2
Pn
i=1 xi
Pn
i=1 xi
136
2
Pn
=
i=1 (xi
x
)2
M ax
n
Y
P (xi )
|i=1 {z
L()
segue che M V = g M V
Osservazioni
si preferisce massimizzare la log-verosimiglianza ` () = log [L ()] (con log inteso
come logaritmo naturale) anzich`e L ().
i
h
Informazione osservata: i () = l00 () M V ed indica quanto poco verosimili
sono i valori nellintorno del valore M V cio`e quanto velocemente la verosimiglian-
Esempio:
il caso della slot machine col metodo dei momenti ha dato come stima M M =
Pn x
i=1 i
. Utilizziamo il criterio della massima verosimiglianza
n
( n
)
n
Y
Y
1xi
1xi
xi
xi
max
(1 )
maxlog
(1 )
n
X
i=1
i=1
i=1
n
n
n
o X
X
1xi
xi
log (1 )
=
xi log () +
(1 xi ) log (1 )
i=1
i=1
137
`0 () = 0
Pn
Pn
i=1 xi
(1 )
verificata quando
Pn
i=1 xi
Pn
n
i=1 xi
=0
1
1
P
+ ni=1 xi n
=0
(1 )
i=1 xi
n = 0 cio`e per
M V =
E M V
` () =
00
1
= E
n
Pn
i=1 xi
n
X
!
xi
1
n =
n
i=1
P
n
n (1 ) ( ni=1 xi n) (1 2)
=
(1 )
(1 )2
Pn
i=1 xi
Pn
E ( i=1 xi )
z}|{
n (1 ) +
n
n (1 2)
E `00 () = I () =
(1 )
n
(1 )
perci`o
(1 )
M V N ,
n
linformazione osservata `e
`00 () = Pn
i=1
n
xi
Pn
i=1
xi
=
n
M V 1 M V
138
P150
i=1 xi
= 93
log(L())
150
^MV = xi 150
i=1
nota
nei casi semplici pu`
o accadere che M M = M V tuttavia non sempre questo accade.
M V `e preferibile poich`e gode di efficienza asintotica
nella pratica comune i modelli sono complicati perci`
o il massimo della verosimiglianza viene cercato con metodi numerici (Newton-Raphson,...)
il punto di massimo della funzione di (log)verosimiglianza pu`
o non essere interno al
campo di esistenza, in tal caso il metodo esposto non funziona in quanto il massimo
giace su un punto non stazionario, in tal caso il massimo va identificato con un
metodo che varia in funzione della funzione di probabilit`a.
139
140
141
Richiami di Matematica
In quanto segue viene presentato un breve richiamo alle principali regole di semplificazione
utili in ambito di massima verosimiglianza (nel seguito indicata con MV).
Q
P
1. log ni=1 xi = ni=1 log(xi )
2. log = log
3.
Pn
4.
Pn
5.
[log(g()]
i=1 (kxi
i=1 k
+ yi ) = k
Pn
i=1 xi
Pn
i=1 yi
= nk
=
g 0 ()
g()
Ecco una semplice funzione a cui possiamo applicare le precedenti regole al fine di
giungere alla determinazione del punto di massimo
n
Y
f () =
xki h
i=1
n
Y
xki h
i=1
n n
o
X
=
log(xki h )
i=1
n
X
i=1
n
X
=k
=k
i=1
n
X
i=1
142
{log (xi )} +
n
X
{hlog ()}
i=1
Esercizio
X
1 0 1 2
p(xi ) = |xi | (1 )2|xi |
=X
=
4
X
xi p(xi )
i=1
X
1
0
1
2
(1 ) (1 )2 (1 ) 2
= 1 (1 ) + 0 (1 )2 + 1 (1 ) + 2 2
= (1 ) + (1 ) + 22
= 22
quindi
Per il metodo dei momenti, (X) = X,
22 = r
X
=
X
2
143
n
Y
|xi | (1 )2|xi |
i=1
n
X
n
o
log |xi | (1 )2|xi |
i=1
n n
o
X
=
log|xi | + log(1 )2|xi |
=
=
i=1
n
X
i=1
n
X
i=1
n
X
{2log (1)}
i=1
= log()
n
X
n
X
{|xi |log (1 )}
i=1
i=1
n
X
|xi |
i=1
Giunti a questo punto procediamo allidentificazione del punto di massimo della funzione
(ora semplificata) di log-verosimiglianza `(), tramite annullamento della derivata prima:
Pn
Pn
|xi |
2n
`()
0
i=1 |xi |
= ` () =
+ i=1
1
1
`0 () = 0
|xi |
2n
i=1 |xi |
+ i=1
= 0
Pn
Pn
(1 ) i=1 |xi | 2n + i=1 |xi |
= 0
(1 )
Pn
Pn
n
X
|xi | 2n +
n
X
i=1
n
X
|xi | 2n = 0
i=1
144
|xi | = 0
i=1
Pn
i=1 |xi |
2n
Poisson
La variabile aleatoria X `e distribuita secondo la distibuzione di probabilit`a (notevole) di
Poisson: X P o(),determinare lo stimatore di massima verosimiglianza per :
Come primo passo dobbiamo giungere alla forma semplificata della log-verosimiglianza
L() =
n
Y
e xi
i=1
xi !
( n
)
Y e xi
xi !
i=1
n
X
log
i=1
e xi
xi !
n n
o
X
=
log(e ) + log(xi ) log(xi !)
i=1
X
=
log(e) +xi log() log(xi !)
| {z }
i=1
=1
n
X
= n + log
xi
i=1
n
X
log(xi !)
i=1
= 0
= 0
= 0
n
X
xi = 0
i=1
Pn
=
i=1 xi
Verifichiamo ora che lo stimatore di MV sia effettivamente un punto di massimo, verificando che il segno della derivata seconda della funzione sia negativo in tale punto
145
=
=
=
P
n + n ni=1 xi
2 P
n + n ni=1 xi
2
P
ni=1 xi
2
=
=M V
Pn
i=1
xi
sostituiamo quindi
P
ni=1 xi
P
( ni=1 xi )2
< 0
=MV
i=1
i=1 xi
" n
#
n
X
1
n
1 X
= 2V
V (xi ) = 2 =
xi = 2
n
n
n
n
i=1
i=1
= lim V [MV ] = 0
n+
alla medesima conclusione si poteva giungere attraverso limportante teorema per cui
M V N , E
"
#1
2 `()
2 =M V
applicando tale teorema al nostro caso, utilizzando quanto gi`a calcolato in precedenza,
146
n2
= Pn
i=1 xi
!1
" Pn x #
i=1 i
2 `()
n
=E
2 =M V
n
=
147
i=1 xi
E [T1 ] = E
" n
#
X
1
n
= E
=
xi =
n
n
i=1
1
x1 + x2
1
2
= [E (x1 ) + E (x2 )] = [ + ] =
E [T2 ] = E
=
2
2
2
2
n
i
i=1
= 2V
V [T1 ] = V
xi = 2
V (xi ) = 2 =
n
n
n
n
n
i=1
i=1
1
1
1
2
x1 + x2
= V [x1 + x2 ] = [V (x1 ) + V (x2 )] = [ + ] =
=
V [T2 ] = V
2
4
4
4
4
2
ne consegue che per n > 2 V [T1 ] < V [T2 ] e quindi preferibile.
Si concluda sulla propriet`a di consistenza in senso forte dei due stimatori:
lim [T1 ] = 0
n+
lim V [T2 ] =
n+
148
Binomiale
Da unurna, contenente palline bianche e nere in proporzione incognita, 5 persone effettuando 3 tentativi ciascuna con reimmissione hanno ottenuto il seguente numero di
palline bianche: X {1, 2, 3, 0, 2}. Proporre una distribuzione teorica appropriata per
il numero di palline bianche estrattesi proceda alla stima del parametro incognito col
metodo di MV, col metodo dei momenti e si indichi la stima per il campione ottenuto.
Distribuzione teorica: X Bin(n = 3, =?)
Stima di MV:
L() =
5
Y
3
i=1
xi
xi (1 )3xi
5
X
i=1
3 xi
3xi
log
(1 )
xi
5
X
3
=
log
+ xi log() + (3 xi ) log (1 )
xi
i=1
5
5
5
X
X
X
3
=
log
+ log ()
xi + log (1 )
(3 xi )
xi
i=1
i=1
i=1
P5
P5
(3 xi )
`()
i=1 xi
=0+
i=1
1
P
P
(1 ) 5i=1 xi 5i=1 (3 xi )
=
(1 )
procedendo al calcolo di
otteniamo quanto segue:
`()
(1 )
5
X
xi
i=1
5
X
(3 xi ) = 0
i=1
5
X
xi 5 3 = 0
i=1
P5
=
i=1 xi
53
149
X5
P3
5
i=1
150
xi
P5
=
i=1 xi
53
13 Stima Intervallare
Analizzando le propriet`a possedute dagli stimatori `e emerso il loro comportamento
in ipotesi di estrazione e loro applicazione a molti campioni. Nella realt`a pratica si
pu`o estrarre solitamente un solo campione, `e perci`o vitale prendere in considerazione
lincertezza campionaria.
Un intervallo di confidenza `e dato dalla differenza fra due statistiche T1 = T1 (x) e
T2 = T2 (x) tali che
T1 < T2
h
i
P T1 < () < T2 = 1 , [0, 1]
da un punto di vista informale un intervallo di confidenza `e un estensione del concetto di stima puntuale (es. metodo dei momenti, massima verosimiglianza,...) nel senso che tali stime vengono racchiuse
dentro un intervallo tale che prima di estrarre uno dei possibili campioni vi `e una probabilit`a 1 che tale intervallo contenga il vero
parametro incognito della popolazione, dopo aver estratto il campione
si ha una confidenza (non probabilit`a) 1 che lintervallo identificato per il campione osservato contenga il vero parametro ignoto della
popolazione.
Riprendendo lesempio della slot machine, in cui sappiamo (avendola costruita) che =
0, 1 ipotizziamo di estrarre molti campioni, su ognuno di essi stimiamo con uno dei
metodi proposti (es. massima verosimiglianza),Pnel grafico che segue i pallini sono il
n
xi
). Essi quasi sicuramente non
risultato di tale stima (che ricordiamo essere i=1
n
coincideranno con il vero valore = 0, 1 tuttavia possiamo corredarli di un invervallo
tale che una quota di campioni 1 abbia lintervallo che interseca il vero valore = 0, 1.
151
0.10
0.15
0.20
Intervalli di Confidenza
0.00
0.05
10
...
...
Campioni
Nella realt`a potr`a essere estratto un solo campione, si confida con grado 1 che
appartenga allinsieme di quelli che hanno lintervallo che interseca il vero valore = 0, 1
.
Nota: per costruire intervalli di ampiezza appropriata `e necessario conoscere la distribuzione campionaria dello stimatore. Nel seguito vedremo come per piccoli campioni
ci`o sia possibile solo in casi limitati, per grandi campioni questo `e possibile su una serie
pi`
u ampia di casi, in virt`
u principalmente del teorema del limite centrale.
152
/ n
~N 0,1
nota
S 2c =
~t n1
n1
i =1 x i x 2
Sc / n
ignota
X ~N , n
Media
/ n
X
N 0,1
X , n30
MetodoAnalogico
X ~N
Varianza
x i 2
~2n
2= i =1
n 2
nota
StimaIntervallare
S c=
~2n1
n1
N 0,1
MV = l ' ' MV
MV / n
MV
MassimaVerosimiglianza
i =1 x i x 2
n1 S 2c
ignota
X , n
153
N (0, 1)
/ n
dove `e la vera media, 2 la vera varianza ed n lampiezza campionaria. Significa che se
disponiamo di molti campioni e ad ognuno applichiamo lo stimatore media campionaria
con successiava standardizzazione, tali medie trasformate seguiranno una distribuzione
N (0, 1).
Nota bene: tale risultato
Se X N `e valido n
Se X N `e valido solo per n > 30, in virt`
u del teorema del limite centrale
In virt`
u di quanto affermato `e possibile costruire lintervallo di confidenza in due passaggi,
se
x
P Z/2 Z/2 = 1
/ n
isolando otteniamo lintervallo di confidenza di livello 1
P
x
Z/2 x
+ Z/2
n
n
=1
tn1
Sc / n
di conseguenza
P
n1 Sc
t/2
n
P
154
n1
t/2
Sc / n
n1
t/2
x
+
=1
S
c
tn1
/2
n
=1
N (0, 1)
/ n
P
Z/2
Z/2
/ n
=1
=1
+ Z/2
P x
Z/2 x
n
n
dove
`e unopportuna stima per .
Sc2 (X) =
Pn
x
)2
n1
i=1 (xi
i=1
n
X
i=1
n
X
1X
1X
(xi x
)2 =
[(xi ) + ( x
)]2 =
n
n
1
n
i=1
(xi )2 +
1
n
(
x )2
i=1
X
2
(
x )
(xi )
n
i=1
|
{z
}
n(
x)
1
n
n
X
(xi )2 (
x )2
i=1
155
#
n
1X
2
2
= E
(xi ) (
x ) =
n
"
E S
i=1
n
1X
E (x )2 E (
x )2 =
| i{z
} | {z }
n
i=1
V (xi )= 2
V (
x)= n
1 X 2 2
=
n
n
n1 2
6= 2
n
i=1
n
a S 2 affinch`e lo stimatore sia corretto, il nuovo stimatore
`e necessaria una correzione n1
`e noto appunto come varianza campionaria corretta
Sc2
n
=
S2 =
n1
Pn
x
)2
n1
i=1 (xi
Y =
x2i 2(n)
i=1
`e nota come chi-quadrato con n gradi di libert`a, per la quale esistono tavole statistiche
relative ai vari gradi di libert`a n = 1, 2, ...
Pn
i=1 (xi
)2
la quantit`a
2
n
2
=
2
n
X
xi
2
(n)
| {z }
i=1
N (0,1)
156
=1
P (n),1 2 (n),
2
2
(
P
n
2
n
2
2
2(n),
2(n),1
2
)
=1
2(n1),1
2
(n 1)
2
2(n1),
2
2
=1
(
P
(n 1)
2
(n 1)
2
2
2(n1),
2(n1),1
2
)
=1
h
i
as
M V N , I ()1
tuttavia I () `e ignota, vi sono alcune soluzioni alternative per ottenerne una stima, noi
scegliamo la seguente
00
d
I () = i () = ` () M V
157
M V () / n
rh
i1
M V () =
`00 () M V
quindi procedendo come per la media otteniamo il seguente intervallo di confidenza per
P
158
M V ()
M V ()
M V Z/2
M V + Z/2
n
n
=1
159
Popolazione Normale
Da due indagini campionarie sul reddito (indicato con R) di Francesi ed Italiani con
F R = 30 R
IT = 30. Supponendo
campioni di ampiezza 100, `e risultato quanto segue: R
che entrambe le popolazioni abbiano distribuzione normale con F R = 8 , IT = 10 , si
proceda al calcolo di quanto segue:
Formulazione del problema:
RIT N (IT =?; IT = 10)
RF R N (F R ; F R = 8)
Determinare gli intervalli di confidenza al 95% per le medie di entrambi i Paesi specificando di quanto `e maggiore lntervallo italiano rispetto a quello francese, dandone una
motivazione:
Indicando con A tali intervalli
IT
IT
AIT = RIT + Z0,05/2 RIT Z0,05/2
n
n
F R
F R
AF R = RF R + Z0,05/2 RF R Z0,05/2
n
n
sostituendo quanto in nostro possesso otteniamo le seguenti ampiezze intervallari per i
due Paesi:
8
8
1, 96 30
1, 96 = 3, 136
AF R = 30 +
10
10
10
10
AIT = 30 +
1, 96 30
1, 96 = 3, 92
10
10
quindi per quanto riguarda il rapporto tra i due intervalli:
3, 92
AIT
=
= 1, 25
AF R
3, 136
concludiamo quindi sul fatto che AIT `e del 25% maggiore di AF R .in quanto IT > F R
Volendo ottenere per lItalia un intervallo di confidenza di ampiezza identica a quello
francese si indichi il grado di confidenza necessario
F R F R 1, 96
AF R = R
10
IT
F R
IT =
h = F R =
1, 96
10
10
F R
8
h=
1, 96 =
1, 96 = 1, 568 ' 1, 57
IT
10
160
1,57
= 1 0, 9418
/2
=2 (1 0, 9418) = 0, 1164
Determinare lampiezza campionaria n
affinch`e, a parit`a di intervallo di confidenza con
la Francia, lItalia mangenga la medesima confidenza:
8
F R
F R = 1, 96 =
1, 96
10
n
IT
F R = IT = 1, 96
n
2
IT 1, 96 2
IT
n
=
n
=
F R
F R
2
10
10 = 156, 25 ' 157 notare arrotondamento
=
8
Ripetere i calcoli relativi al secondo punto in ipotesi che il campione sia di 20 persone
e che le varianze siano non note e SIT = 7 , SF R = 6
n1 , quindi
genericamente R
t
7
201
AIT = 30 t0,025
= 20
20
6
201
= 20
AF R = 30 t0,025
20
AIT
6, 55
=
= 1, 165
AF R
5, 62
7
2, 093 ' 6, 55
20
6
2, 093 ' 5, 62
20
161
Bernoulli
Si supponga che 5 estrazioni indipendenti da unurna contenente palline bianche e nere
in proporzione incognita, abbia dato luogo alla seguente successione di eventi: X
{B,N,N,N,B}.
N , 2 /n ?
Riterreste opportuna lapprossimazione per la media campionaria X
R: No, la popolazione non `e distribuita normalmente e lampiezza campionaria `e troppo
esigua perch`e si applichi il teorema del limite centrale.
Binomiale
Da unurna contenente palline bianche e nere in proporzione incognita, si procede allestrazione con reimmissione da parte di 50 persone con tre tentativi ciascuna. La media
campionaria ottenua risulta essere 1,8.
Si proceda al calcolo di quanto segue:
Indicare la distribuzione della popolazione:
X Bin (m = 3, =?)
Indicare la formula per la media varianza e scarto quadratico medio della popolazione:
E(X) = m
V (X) = m (1 )
p
(X) = m (1 )
Indicare la formula per la distribuzione della media campionaria:
!
r
3
(1
)
N 3 , =
X
50
Trovare gli estremi x1 e x2 (centrati) di un intervallo che garantisce una confidenza /2 =
1%
attraverso il processo di standardizzazione
3
X
Z=q
N (0, 1)
3(1)
50
162
dobbiamo ricavare S, sapendo che S = n(1 ), dobbiamo ricavare avendo come dato
la media campionaria della binomiale
= 3 = 1, 8 = 1, 8 = 0, 6
X
3
p
p
p
S =
3(1 ) = 3 0, 6 0, 4 = 0, 72
quindi
r
x
1,2 = 1, 8 2, 326
0, 72
= {1, 52088 ; 2, 07912}
50
= 3 = X
X
3
non ci resta che calcolare media e scarto quadratico medio della nomale cos` trasformata:
1
X
= 3 =
= E X
E () = E
3
3
3
3(1)
1
3 (1 )
(1 )
X
n
=
= 2V X
=
=
V () = V
2
2
3
3
3
3 n
3n
quindi
"
N ; =
(1 )
3n
abbiamo ora tutti gli elementi per ricavare gli intervalli di confidenza
s
1
1,2 = 2, 326
3n
r
0, 6 0, 4
= 0, 6 2, 326
= {0, 50696 ; 0, 69304}
3 50
di fatto risulta verificato che =
X
3
e che 1,2 =
x
1,2
3
163
Poisson
La societ`a autostrade desidera verificare se il numero medio orario di auto che transita
con telepass `e identico al numero medio di auto che utilizza Viacard.
Si indichi unappropriata distribuzione per la popolazione:
Xvc P o (vc =?)
Xtp P o (tp =?)
Lindagine campionaria ha dato luogo a quanto segue: ampiezza campionaria nvc =
vc = 320 , X
tp = 400
70 , ntp = 100 ; media campionaria X
determinare unapprossimazione opportuna per la differenza tra le due medie ed un
intervallo di confidenza al 95%
s
"
#
tp
vc
=X
tp X
vc N tp vc ; =
D
+
ntp nvc
tp X
vc (tp vc )
X
q
N (0, 1)
tp
vc
+
ntp
nvc
s
x
tp
x
vc
+
ntp nvc
r
400 320
= (400 320) 1, 96
+
' {74, 26 ; 85, 74}
100
70
d1,2 = (
xtp x
vc ) z/2
164
f(x)
H0 : = k
165
15.1.1 Definizioni
Definiamo ipotesi una bipartizione dello spazio parametrico di P (x) in due
regioni 0 1 = tali che 0 1 = , distinguendo fra
H0 : 0
H1 : 1
H0`e lipotesi nulla, mentre H1 ipotesi alternativa. Siamo interessati a decidere se il vero
valore appartiene a 0 o a 1 . A questo scopo utilizziamo una procedura di test (o
semplicemente test) la quale `e una partizione dello spazio di tutti i possibili campioni in
due regioni, luna che conduce allaccettazione di H0 laltra al suo rifiuto. Tale partizione
usualmente `e conseguita tramite lutilizzo di una statistica test T = t (x) per la quale
viene costruita una partizione in due regioni (accettazione/rifiuto); essa a sua volta
induce una bipartizione di accettazione/rifiuto anche nello spazio dei campioni.
Graficamente la partizione con statistica test `e rappresentabile come segue
Accettazione
Rifiuto
A: Accettazione
Soglia
Critica c*
B: Rifiuto
Spazio della
statistica test
in questo caso se applicando t (x) allunico campione che possiamo selezionare avviene
che t (x) > c rifiutiamo lipotesi H0 e viceversa se t (x) c.
Non resta che identificare c ottimale.
H0 : = 0
H1 : = 1
166
H0 : 0
equivalente a
H1 : > 0
H0 : = 0
H 1 : > 0
H0 : 0
equivalente a
H1 : < 0
H0 : = 0
H 1 : < 0
Bilaterale
H0 : = 0
H1 : 6= 0
H0 vera
Errore I specie ()
H1 vera
Errore II specie ()
Potenza del test (1 )
H0 : = 40
H1 : = 43
167
H1 : = 43
c*= 41.94
H0 : = 40
H0 : = 40
H1 : > 40
168
= 0.01
40
H1 : > 40
H0 : = 40
H1 : = 37
H0 : = 40
c*= 38.06
H1 : = 37
169
H0 : = 40
H1 : < 40
= 0.01
40
H1 : < 40
H0 : = 40
H1 : 6= 40
loperazione
per
di (1 ) va ripetuta per (40, ) (40, +) in modo
il calcolo
x
c
170
= 0.005
40
H1 : 40
H0 : = 0
H1 : = 1
L (0 ) =
n
Y
P0 (xi )
i=1
L (1 ) =
n
Y
P1 (xi )
i=1
B
una partizione dello spazio campionario t.c. P B|H
0 =
A,
171
Qn
i=1 P1 (xi )
x : Qn
k
i=1 P0 (xi )
Qn
i=1 P1 (xi )
x : Qn
<k
i=1 P0 (xi )
e t.c. sia vero che P (B|H0 ) = allora il test basato su (A, B) `e il pi`
u potente (cio`e con
minor = P (A|H1 ) .
Esempio: X N , 2 = 625
H0 : = 40
H1 : = 45
= 0, 15 , n = 36 , x
= 46, 02
B= x:
25
25
exp
2
1
2
P36
xi 45 2
25
exp
2
1
2
P36
xi 40 2
25
i=1
i=1
o
o >k
36
X
i=1
e dividendo per n
B:x
3, 47log (k) + 42, 5
{z
}
|
c
standardizzando x
per la quale conosciamo la distribuzione sotto H0
B:
c 40
x
40
25/ 36
25/ 36
c40
25/ 36
= Z = 1, 0365 ,
25
c = 40 + 1, 0365 ' 44, 32
36
B:x
44, 32
quindi accettiamo H1 poich`e il test impone tale decisione per x
44, 32.
n
Per quanto concerne la potenza del test 1 = P {
x > c |H1 } = P Z
0, 936
172
46,0245
25/ 36
15.1.5 Considerazioni
Nella scelta fra test si utilizza come criterio di paragone la quantit`a 1 a parit`a di
= 0.01
40
H1 : > 40
Infine la significativit`
a osservata `e il minor valore di che avrebbe condotto allaccettazione di H0 . Nel seguente grafico se > 0, 02 accetterei H0 per pi`
u piccoli la
rifiuterei. Quindi = 0, 02`e il minor valore di che avrebbe condotto allaccettazione
di H0 , la significativit`a osservata, appunto.
173
= 0.02
H0
174
/ n
H0
X
~N 0,1
nota
S 2c =
~t
n1
n1
/
n
H
X
0
2
n
2
Varianza
i =1 x i
2=
n
H0
n 2
nota
N 0,1
X , n30
i =1 x i x
Sc / n
H
X
0
ignota
X ~N , n
Media
X ~N
MetodoAnalogico
S c=
2
n1
2
n1
i =1 x i x
H0
n1 S c
ignota
X ,Y ~N
Confronto
framedie
X , n
ny
2p=
H 0 : 0 =x y
nx
n x ny 2
ny
[ i =1 x ix 2 i =1 yi y 2 ]
1 1
2p
nx ny
~t
X = Y =?
x y 0
n x n y 2
, 1 , =0 1
0
2 log 2 r
MassimaVerosimiglianza
~ N 0,1
H 0 : 0 =X Y
nx
x y 0
2 X , 2 Y note
ProvaIpotesi
175
H0 : = 0
,B:x
0 + Z
H1 : > 0
n
H0 : = 0
,B:x
0 Z
H1 : < 0
n
H0 : = 0
,B: x
0 Z/2 x
0 + Z/2
H1 : 6= 0
n
n
Nota bene: tale risultato
Se X N `e valido n
Se X N `e valido solo per n > 30, in virt`
u del teorema del limite centrale
176
H0 : = 0
H1 : > 0
Sc
,B:x
0 + tn1
n
H0 : = 0
H1 : > 0
Sc
,B:x
0 tn1
n
H0 : = 0
H1 : 6= 0
n1 Sc
n1 Sc
,B: x
0 t/2 x
0 + t/2
n
n
/ n
,B:x
0 + Z
n
H0 : = 0
H1 : > 0
H0 : = 0
,B:x
0 Z
H1 : < 0
n
H0 : = 0
,B: x
0 Z/2 x
0 + Z/2
H1 : 6= 0
n
n
dove
2 `e unopportuna stima per la varianza.
i=1 (xi
)2
la quantit`a
2
n
0 2
n
2 X
xi H
=
(n)
2
| {z }
i=1
N (0,1)
H0 : 2 = 02
H1 : 2 6= 02
H0 : 2 = 02
H1 : 2 > 02
H0 : 2 = 02
H1 : 2 < 02
,B:
,B:
2 >
,B:
2 <
02
2(n),
n
02
2(n),1
n
2
2
< 0 2(n),1/2
2 > 0 2(n),/2
n
n
2
177
H0 : 2 = 02
H1 : 2 6= 02
H0 : 2 = 02
H1 : 2 > 02
H0 : 2 = 02
H1 : 2 < 02
, B : Sc2 <
, B : Sc2 >
, B : Sc2 <
02
2
n 1 (n1),
02
2
n 1 (n1),1
02
02
2(n1),1/2 Sc2 >
2
n1
n 1 (n1),/2
H0 : = 0
H1 : 6= 0
H0 : = 0
H 1 : > 0
H0 : = 0
H 1 : < 0
, B : (
x y) 0 Z
s
(
x y) 0 Z
178
2
2
X
+ Y
nx
ny
2
X
2
+ Y
nx
ny
, B : (
x y) 0 + Z
(
,B:
2
X
2
+ Y (
x y) 0 + Z
nx
ny
2
X
2
+ Y
nx
ny
(
x y) 0 H0 nx +ny 2
r
t
1
1
2
p nx + ny
dove
p2 costituisce una stima di 2
p2
"n
#
n
x
X
X
1
2
2
=
(xi x
) +
(yi y)
nx + ny 2
i=1
i=1
H0 : = 0
H1 : 6= 0
2
X
nx
H0 : = 0
H 1 : > 0
H0 : = 0
H 1 : < 0
r
p2 n1x +
1
ny
2
Y
ny
s
, B : (
x y) 0 +
n +n 2
tx y
, B : (
x y) 0
n +n 2
tx y
(
x y) 0
nx +ny 2
t/2
p2
1
1
+
n x ny
1
1
+
n x ny
p2
s
(
,B:
tnx +ny 2 e
p2
1
1
+
nx ny
(
x y) 0 +
nx +ny 2
t/2
(
x y) 0 H0
q 2
N (0, 1)
Sc (x)
Sc2 (y)
+
nx
ny
e si procede come per il caso di varianze note.
179
p2
1
1
+
nx ny
)
L = M axL ()
0
sicuramente
che il massimo viene cercato in una regione ristretta di comporta
il fatto
2log () 2(r)
quindi accetteremo H0 se 2log () > 2(r), .
180
181
Normale
LUnione Europea ha fissato come parametro di giudizio il livello medio di inquinamento
nei centri abitati. Si ritiene accettabile una media inferiore a 20.
Avendo indicato con X = livello di inquinamento ed estraendo un campione di n citt`
a si
`e ottenuto quanto segue:
IT = X
F R = 22
X
si dispone inoltre delle seguenti informazioni:
IT = 3 F R = 5
XIT N (, ) XF R N (, )
n = 15 , ampiezza campionaria
= 0, 05 signif icativitdel test
Si sottoponga ad ipotesi statistica per entrambi i Paesi quanto segue:
H0 : 20
H1 : > 20
Calcolare la regione di rifiuto
c = 0 + z
n
3
cIT = 20 + 1, 645 = 21, 27
15
5
cF R = 20 + 1, 645 = 22, 13
15
IT > cIT , mentre non rifiutiamo H0 per
perci`o rifiutiamo H0 per lItalia in quanto X
IT = P r
>
= P r {Z > 2, 58} = 0, 0049
3
3
F R = P r
15
20
X
5
15
>
15
22 20
5
15
)
= P r {Z > 1, 55} = 0, 0606
F R > .
182
(0, 09 0, 12) 0
40,022 +70,01
5+82
1
5
1
8
tnT +nC 2
' 3, 64
+
|z| > z/2 rifiutoH0
quindi non posso concludere circa la parit`a di performance dei due gestori a livello
= 0, 05
Con lo stesso livello di significativit`a testare la minore abilit`a di Tizio:
H0 : T = C
H1 : T < C
poich`e la relazione `e falsa non possiamo concludere in favore di H0 , cio`e circa luguaglianza di performance fra i due gestori.
183
Binomiale
Unurna contenente palline bianche (B) e nere (N), viene sottoposta allipotesi secondo
cui la proporzione di queste sia identica. Da un campione di 40 persone, in cui ciascuna
= 1, 50. Indicando
ha effettuato 4 tentativi, `e stata ottenuta la media campionaria X
con Fr la frequenza, sottoporre ad ipotesi statistica quanto segue
(
r(B)
H0 : FF r(N
) =1
H1 :
F r(B)
F r(N )
<1
0,
5(1
0,
5)
0 N 4 0, 5; =
X|H
40
Ipotizzando come appropriata la distribuzione binomiale per la popolazione numero di
palline bianche estratte X Bin (n = 4, =?), il problema decisionale `e esprimibile
nella seguente maniera
H0 : n = n2
H1 : n < n2
H0 : 4 = 2
H1 : 4 < 2
Prendere una decisione in favore di H0 oppoure di H1 ad un livello di significativit`a =
0, 01 sulla base del risultato campionario
1, 50 4 0, 5
z= q
= 3, 16
40,5(10,5)
40
poich`e
z < z/2
3, 16 < 2, 326
184
Tavole Statistiche
185
(z) =
1
t2
exp
2
2
dt
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
3,1
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993
3,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
0,9995
3,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
3,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
(z)
0,900
0,950
0,975
0,990
0,995
0,999
1,282
1,645
1,960
2,326
2,576
3,090
187
t1
f (z) dz = 1
z t student(DF )
188
DF
0,75
0,9
0,95
0,975
0,99
0,995
1,0000
3,0777
6,3138
12,7062
31,8205
63,6567
0,8165
1,8856
2,9200
4,3027
6,9646
9,9248
0,7649
1,6377
2,3534
3,1824
4,5407
5,8409
0,7407
1,5332
2,1318
2,7764
3,7469
4,6041
0,7267
1,4759
2,0150
2,5706
3,3649
4,0321
0,7176
1,4398
1,9432
2,4469
3,1427
3,7074
0,7111
1,4149
1,8946
2,3646
2,9980
3,4995
0,7064
1,3968
1,8595
2,3060
2,8965
3,3554
0,7027
1,3830
1,8331
2,2622
2,8214
3,2498
10
0,6998
1,3722
1,8125
2,2281
2,7638
3,1693
11
0,6974
1,3634
1,7959
2,2010
2,7181
3,1058
12
0,6955
1,3562
1,7823
2,1788
2,6810
3,0545
13
0,6938
1,3502
1,7709
2,1604
2,6503
3,0123
14
0,6924
1,3450
1,7613
2,1448
2,6245
2,9768
15
0,6912
1,3406
1,7531
2,1314
2,6025
2,9467
16
0,6901
1,3368
1,7459
2,1199
2,5835
2,9208
17
0,6892
1,3334
1,7396
2,1098
2,5669
2,8982
18
0,6884
1,3304
1,7341
2,1009
2,5524
2,8784
19
0,6876
1,3277
1,7291
2,0930
2,5395
2,8609
20
0,6870
1,3253
1,7247
2,0860
2,5280
2,8453
21
0,6864
1,3232
1,7207
2,0796
2,5176
2,8314
22
0,6858
1,3212
1,7171
2,0739
2,5083
2,8188
23
0,6853
1,3195
1,7139
2,0687
2,4999
2,8073
24
0,6848
1,3178
1,7109
2,0639
2,4922
2,7969
25
0,6844
1,3163
1,7081
2,0595
2,4851
2,7874
26
0,6840
1,3150
1,7056
2,0555
2,4786
2,7787
27
0,6837
1,3137
1,7033
2,0518
2,4727
2,7707
28
0,6834
1,3125
1,7011
2,0484
2,4671
2,7633
29
0,6830
1,3114
1,6991
2,0452
2,4620
2,7564
30
0,6828
1,3104
1,6973
2,0423
2,4573
2,7500
40
0,6807
1,3031
1,6839
2,0211
2,4233
2,7045
50
0,6794
1,2987
1,6759
2,0086
2,4033
2,6778
70
0,6780
1,2938
1,6669
1,9944
2,3808
2,6479
100
0,6770
1,2901
1,6602
1,9840
2,3642
2,6259
0,6745
1,2816
1,6449
1,9600
2,3263
2,5758
4,6
5,14
5,7
6,26
6,84
7,43
8,03
8,64
9,26
14
15
16
17
18
19
20
21
22
23
13,79
4,07
13
30
3,57
12
13,12
3,07
11
12,46
2,6
10
29
2,16
28
1,73
11,81
1,34
11,16
0,989
27
0,676
26
0,412
189
14,95
14,26
13,56
12,88
12,2
11,52
10,86
10,2
9,54
8,9
8,26
7,63
7,01
6,41
5,81
5,23
4,66
4,11
3,57
3,05
2,56
2,09
1,65
1,239
0,872
0,554
0,297
0,115
0,020
16,79
16,05
15,31
14,57
13,84
13,12
12,4
11,69
10,98
10,28
9,59
8,91
8,23
7,56
6,91
6,26
5,63
5,01
4,4
3,82
3,25
2,7
2,18
1,690
1,237
0,831
0,484
0,216
0,051
0,050
18,49
17,71
16,93
16,15
15,38
14,61
13,85
13,09
12,34
11,59
10,85
10,12
9,39
8,67
7,96
7,26
6,57
5,89
5,23
4,57
3,94
3,33
2,73
2,167
1,635
1,145
0,711
0,352
0,103
3,93E-003
20,6
19,77
18,94
18,11
17,29
16,47
15,66
14,85
14,04
13,24
12,44
11,65
10,86
10,09
9,31
8,55
7,79
7,04
6,3
5,58
4,87
4,17
3,49
2,833
2,204
1,610
1,064
0,584
0,211
0,016
0,100
24,48
23,57
22,66
21,75
20,84
19,94
19,04
18,14
17,24
16,34
15,45
14,56
13,68
12,79
11,91
11,04
10,17
9,3
8,44
7,58
6,74
5,9
5,07
4,255
3,455
2,675
1,923
1,213
0,575
0,102
0,250
29,34
28,34
27,34
26,34
25,34
24,34
23,34
22,34
21,34
20,34
19,34
18,34
17,34
16,34
15,34
14,34
13,34
12,34
11,34
10,34
9,34
8,34
7,34
6,35
5,35
4,35
3,36
2,37
1,39
0,455
0,500
34,8
33,71
32,62
31,53
30,43
29,34
28,24
27,14
26,04
24,93
23,83
22,72
21,6
20,49
19,37
18,25
17,12
15,98
14,85
13,7
12,55
11,39
10,22
9,04
7,84
6,63
5,39
4,11
2,77
1,32
0,750
40,26
39,09
37,92
36,74
35,56
34,38
33,2
32,01
30,81
29,62
28,41
27,2
25,99
24,77
23,54
22,31
21,06
19,81
18,55
17,28
15,99
14,68
13,36
12,02
10,64
9,24
7,78
6,25
4,61
2,71
0,900
43,77
42,56
41,34
40,11
38,89
37,65
36,42
35,17
33,92
32,67
31,41
30,14
28,87
27,59
26,3
25
23,68
22,36
21,03
19,68
18,31
16,92
15,51
14,07
12,59
11,07
9,49
7,81
5,99
3,84
0,950
46,98
45,72
44,46
43,19
41,92
40,65
39,36
38,08
36,78
35,48
34,17
32,85
31,53
30,19
28,85
27,49
26,12
24,74
23,34
21,92
20,48
19,02
17,53
16,01
14,45
12,83
11,14
9,35
7,38
5,02
0,975
50,89
49,59
48,28
46,96
45,64
44,31
42,98
41,64
40,29
38,93
37,57
36,19
34,81
33,41
32
30,58
29,14
27,69
26,22
24,72
23,21
21,67
20,09
18,48
16,81
15,09
13,28
11,34
9,21
6,63
0,990
53,67
52,34
50,99
49,64
48,29
46,93
45,56
44,18
42,8
41,4
40
38,58
37,16
35,72
34,27
32,8
31,32
29,82
28,3
26,76
25,19
23,59
21,95
20,28
18,55
16,75
14,86
12,84
10,6
7,88
0,995
f (z) dz = 1
9,89
0,207
0,025
9,82E-004
10,52
0,072
0,010
1,57E-004
25
0,010
24
0,005
3,93E-005
DF
z 2DF