Appunti Di Probabilita

Prof. Ing.
Domiziano Mostacci Appunti di probabilit e statistica di conteggio

I-1
I PARTE: CALCOLO DELLE PROBABILIT
I.1 Eventi ed Esiti
Consideriamo lesperimento di gettare un dado. Gettiamo il dado, aspettiamo che si fermi e
osserviamo il numero di punti presenti sulla faccia superiore: come si sa, pu avere uno dei
seguenti valori: 1, 2, 3, 4, 5 o 6. Gi che ci siamo, osserviamo che pu uscire solo uno di
questi numeri: non si possono avere contemporaneamente, poniamo, il 3 ed il 5, o qualunque
altra combinazione di numeri.
Caso A - Nulla ci impedisce di scommettere su uno qualunque di questi sei valori, per
esempio scommettiamo sul 3.
Caso B - Possiamo per fare una scommessa diversa, ad esempio scommettere sui pari:
vinciamo se esce 2, 4 o 6; perdiamo se esce 1, 3 o 5.
Caso C - Potremmo anche scommettere di superare il 4: vinciamo se esce 5 o 6, perdiamo se
esce 1, 2, 3 o 4.
Qual la differenza tra questi 3 casi?
Nel caso A vediamo che i diversi risultati possibili sono tutti presi in considerazione
singolarmente. In effetti non esistono risultati pi elementari dei sei valori 1, 2, 3, 4, 5 e 6. Dei
risultati elementari come questi vengono chiamati ESITI. da ricordare che solo uno di
questi esiti si pu verificare in un singolo lancio: questi esiti si escludono a vicenda, sono
MUTUAMENTE ESCLUSIVI od altrimenti detto INCOMPATIBILI.
Nel caso A abbiamo deciso di scommettere sul verificarsi di uno degli esiti (il 3).
Nel caso B invece, e per la verit anche nel caso C, abbiamo scommesso su certi
raggruppamenti di esiti.
Diciamo meglio: nel caso A abbiamo scommesso sullEVENTO esce il 3, che coincide con
uno solo degli ESITI possibili; nel caso B abbiamo scommesso invece sullEVENTO esce
un numero pari, che coincide con tre degli ESITI possibili: gli ESITI 2, 4 e 6.
Analogamente nel caso C abbiamo scommesso sullEVENTO esce un numero maggiore di
4, che coincide con due degli ESITI possibili: gli ESITI 5 e 6.
Dora in poi chiameremo gli eventi con una lettera maiuscola. Mantenendo i nostri tre esempi,
definiamo quindi tre eventi:
Evento A: esce il numero 3 (levento comprende un solo esito: esce la faccia con 3 punti)
Evento B: esce un numero pari (levento comprende 3 esiti: esce 2 oppure 4 oppure 6)
Prof. Ing. Domiziano Mostacci Appunti di probabilit e statistica di conteggio
I-2
Evento C: esce un numero maggiore di 4 (levento comprende 2 esiti: esce 5 oppure 6)
Notiamo subito che il verificarsi contemporaneo dellevento A e dellevento B impossibile,
cos come dellevento A e dellevento C. Infatti gli esiti che verificano levento A sono
soltanto uno, il numero 3, mentre gli esiti che verificano levento B sono tre: 2, 4 e 6. Poich i
sei esiti sono incompatibili, e poich gli esiti che verificano levento B sono tutti diversi dagli
esiti che verificano levento A i due eventi non possono mai verificarsi simultaneamente: sono
anchessi INCOMPATIBILI. Stesso discorso per la coppia di eventi A e C.
E la coppia B e C? Dunque, gli esiti che verificano levento B sono tre: 2, 4 e 6, mentre gli
esiti che verificano levento C sono due: 5 e 6. Si vede che lesito 6 verifica tutti e due gli
eventi quindi gli eventi B e C NON sono incompatibili.
Dopo questo discorso introduttivo, un po troppo qualitativo, veniamo a delle belle
definizioni.
I diversi risultati possibili, mutuamente esclusivi, di un esperimento aleatorio sono detti esiti;
nel seguito verranno indicati con lettere greche minuscole. Linsieme di tutti gli esiti possibili
di un dato esperimento detto spazio degli eventi, e lo denoteremo con la lettera greca .
Diremo che un evento A associato agli esiti dello spazio se possiamo sempre dire per
qualunque esito dello spazio se esso verifica o non verifica levento A. Ovvero, con
terminologia insiemistica, se possiamo individuare quale sottoinsieme di contiene tutti e
soli gli esiti che verificano A. Anche questo sottoinsieme lo chiameremo A. Dora in poi,
perci, A o B o una lettera maiuscola in genere potr denotare indifferentemente un evento o
il sottoinsieme di che contiene tutti e soli gli esiti che verificano tale evento. Analogamente
per noi dire si verifica levento A o si verifica un esito appartenente al sottoinsieme A
sar esattamente la stessa cosa.
Avendo dato questa interpretazione insiemistica, possiamo servircene per dare qualche
definizione.
C=AB (unione degli eventi A e B) ovviamente levento che corrisponde al
sottoinsieme AB, cio che verificato da uno qualunque degli esiti di A o di B, cio in
definitiva che si verifica quando verificato A oppure B (od anche tutti e due, se hanno
esiti in comune).
C=AB (intersezione degli eventi A e B: lo scriveremo anche semplicemente AB quando
non dar adito a dubbi) altrettanto ovviamente levento che corrisponde al sottoinsieme
AB, cio che verificato da uno qualunque di quegli esiti che appartengono
I-3
contemporaneamente ad A ed a B, cio in definitiva che si verifica quando sono verificati
contemporaneamente gli eventi A e B.
A-B (differenza degli eventi A e B) levento che corrisponde al sottoinsieme A-B, cio
verificato da quegli esiti che verificano A ma non verificano B. chiaro che A-B = A-
(AB)
Un caso particolare -A, cio linsieme di tutti gli esiti possibili che non verificano A:
esso detto evento complementare di A e denotato A.
Vediamo i diagrammi di Venn corrispondenti a questi diversi insiemi.

I-4
I.2 Probabilit classica
Prendiamo un esperimento aleatorio tale che, per le condizioni sperimentali, si possa ritenere
che gli esiti siano tutti equiprobabili: ad esempio il lancio di una moneta pu dare due esiti,
testa o croce, e verosimilmente i due esiti hanno la stessa probabilit; il lancio di un dado pu
dare 6 esiti, ed lecito pensare che, grazie alla geometria del dado ed alla meccanica del
lancio, i sei esiti siano tutti equiprobabili; lestrazione di una carta a caso da un mazzo ben
mescolato (diciamo mescolato molto a lungo): tutte le carte hanno a priori la stessa probabilit
di venire estratte; e cos via. In tal caso la probabilit di un evento A si calcola come rapporto
tra il numero di esiti che verificano levento stesso ed il numero totale di esiti possibili. Per
esemplificare, riprendiamo gli esiti A, B e C visti prima. In tutti e tre i casi il numero di esiti
possibili (ed equiprobabili, per quanto si detto) 6; il numero di esiti favorevoli (cio che
verificano levento) 1 per levento A, 3 per levento B e 2 per levento C: quindi
( )
6
1
A P = ( )
6
3
B P = ( )
6
2
A P =
A questo punto ci serviranno alcuni
I.3 Richiami di calcolo combinatorio
I. Dati n elementi a
i
ed m elementi b
j
vi sono nm possibili coppie (a
i
.b
j
)
II. Pi in generale: dati m
1
elementi
1
k
a , m
2
elementi
2
k
a m
N
elementi
N
k
a si possono
formare
N 2 1
m .... m m possibili n-uple ( )
N 2 1
k k k
a ,..., a , a
III. Si abbia un insieme di n oggetti a
1
, a
2
,, a
n
e si estraggano r elementi, rimettendo ogni
volta lelemento estratto dentro linsieme: il numero delle possibili r-uple ordinate che si
possono ottenere n
r
(sono le disposizioni con ripetizione di n oggetti ad r ad r)
IV. Si abbia un insieme di n oggetti a
1
, a
2
,, a
n
e si estraggano r elementi, senza mai
rimettere lelemento estratto dentro linsieme: il numero delle possibili r-uple ordinate
che si possono ottenere n(n-1)(n-2).(n-r+1), vale a dire
)! r n (
! n

. Queste sono dette
disposizioni senza ripetizione di n oggetti ad r ad r.
Al punto precedente abbiamo calcolato il numero di possibili r-uple ordinate di elementi
dellinsieme. Cio, due r-uple che contengono gli stessi r elementi ma in ordine diverso sono
considerate r-uple differenti e ambedue contate nel novero. E se lordine non interessa? In tal
caso prendiamo il numero trovato e lo dividiamo per il numero di permutazioni (cio di
possibili modi di ordinarli) di r oggetti.
I-5
Quanto vale? Facile, il numero di disposizioni di r oggetti ad r ad r, cio:
! r
! 0
! r
)! r r (
! r
= =
V. pertanto il numero di combinazioni (senza ripetizione) di n oggetti ad r ad r (cio le r-

uple possibili, senza tenere conto dellordine degli elementi) vale
|
\
|
=
r
n
! r )! r n (
! n
Notiamo che il numero in questione altro non che il numero di possibili sottoinsiemi di
potenza r dellinsieme di potenza n dato, o con termine tecnico, il numero di sottopopolazioni
di taglia r della popolazione di taglia n data.
VI. Data una popolazione di taglia n, e k numeri interi n
1
, n
2
,,n
k
tali che la loro somma sia
pari ad n, esistono
! n !... n ! n
! n
k 2 1
modi di ripartire la popolazione in k sottopopolazioni,
rispettivamente di taglia n
1
, n
2
,,n
k
.
Ricordiamo la formula di Stirling per approssimare il fattoriale per n molto grande:
n n
e n n 2 ! n

Esempio 1
Lanciando due volte un dado, qual la probabilit di ottenere due volte lo stesso numero?
Le coppie (a,b) di valori possibili sono 36, e sono tutte equiprobabili; di queste 6 sono formate da un numero
ripetuto due volte, cio con a=b. Quindi la probabilit cercata
6
1
36
6
) A ( P = =
Esempio 2
Qual la probabilit di ottenere tre 6 lanciando tre dadi? Qui le possibili terne (a,b,c) sono 6
3
=216, e di queste
una sola ha a=b=c=6. Dunque
216
1
) A ( P =
Esempio 3
Mettiamo r oggetti in n caselle (con n r), avendo cura di non mettere mai due oggetti nella stessa casella. In
quanti modi possiamo fare questa operazione? Per il primo oggetto abbiamo n caselle libere, per il secondo ne
restano n-1, per il terzo n-2 e cos via. In definitiva
)! r n (
! n
) 1 r n )...( 2 n )( 1 n ( n N
= + =
Esempio 4
Un convoglio composto da n vagoni. Su di esso salgono r passeggeri, dove r n. Se ogni passeggero sceglie il
vagone in maniera completamente aleatoria, qual la probabilit che gli r passeggeri salgano su r vagoni diversi?
Ognuno degli r passeggeri pu scegliere il suo vagone in n modi e quindi r passeggeri hanno n
r
modi di
distribuirsi in n vagoni. Viceversa, se limitiamo la scelta in modo tale che ognuno scelga un vagone diverso, i
modi di scegliere sono di meno. Infatti il primo pu scegliere in n modi, al secondo ne restano n-1, al terzo n-2 e
cos via. Quindi il numero totale n(n-1)(n-2)(n-r+1), cio
I-6
)! r n (
! n
) A ( N
=
da cui troviamo la probabilit cercata
r
n
1
)! r n (
! n
N
) A ( N
) A ( P
= =
Esempio 5
Una cassa di 100 pezzi contiene 10 pezzi difettosi. Un ispettore controlla 10 pezzi estratti in modo casuale dalla
cassa. Qual la probabilit che non ne trovi nessuno difettoso?
In primo luogo occorre calcolare in quanti modi possiamo scegliere 10 pezzi da un lotto di 100:
! 90 ! 10
! 100
10
100
N =
|
\
|
=
di questi N modi, quanti non contengono pezzi difettosi?
! 80 ! 10
! 90
10
90
) A ( N =
|
\
|
=
Pertanto la probabilit cercata data dal rapporto:
! 100 ! 80
! 90 ! 90
! 90 ! 10
! 100
! 80 ! 10
! 90
N
) A ( N
) A ( P = = =
Esempio 6
Si pescano due carte a caso da un mazzo da bridge. Qual la probabilit di pescare 2 assi?
Il mazzo contiene 52 carte, di cui 4 assi. Quante coppie possibile formare da 52 carte?
1326
! 50 ! 2
! 52
2
52
N = =
|
\
|
=
Quante di queste sono formate da 2 assi? Cio, quante coppie possibile formare con 4 assi?
6
! 2 ! 2
! 4
2
4
) A ( N = =
|
\
|
=
Quindi la probabilit cercata
221
1
1326
6
) A ( P = =
Esempio 7
Viene distribuita una mano di bridge. Qual la probabilit che ognuno dei quattro giocatori riceva un asso?
In quanti modi possiamo creare 4 sottopopolazioni di taglia 13 dalla popolazione di taglia 52?
! 13 ! 13 ! 13 ! 13
! 52
N =
Separiamo gli assi: dobbiamo distribuire un asso per ciascuno, pi altre 12 carte per ciascuno. I quattro assi si
possono distribuire, come sappiamo, in 4! = 24 modi. Con le rimanenti 48 carte formiamo 4 sottopopolazioni di
taglia 12. Possiamo farlo in
! 12 ! 12 ! 12 ! 12
! 48
modi. Quindi la probabilit richiesta data da
105 . 0
! 52
! 13 ! 13 ! 13 ! 13
! 12 ! 12 ! 12 ! 12
! 48
! 4 ) A ( P = =
I-7
I.4 Legge di addizione delle probabilit
Consideriamo due eventi incompatibili A e B di cui siano note le probabilit P(A) e P(B), e
sia C=AB levento unione. In tal caso si ha per levento unione:
P(C)=P(A)+P(B)
Pi in generale si pu calcolare la probabilit di un evento
k k
A C = , unione cio di molti
eventi A
k
, purch questi siano tra loro tutti incompatibili:
( ) ( ) =
k k
A P C P
Se abbiamo a che fare con due eventi NON incompatibili occorre riscrivere la probabilit
della loro unione come:
P(C=AB)=P(A)+P(B)-P(AB)
Per capire il perch, facciamo lesempio di un esperimento aleatorio con esiti tra loro
equiprobabili. In tal caso, come sappiamo, P(A) uguale al numero n(A) di esiti favorevoli,
cio appartenenti al sottoinsieme A, diviso il numero totale di esiti possibili N; analogamente
P(B) data dal numero n(B) di esiti appartenenti al sottoinsieme B diviso il numero totale N
di esiti possibili; infine P(AB) pari al numero di esiti appartenenti al sottoinsieme AB,
che chiameremo n(AB), diviso il solito numero totale N di eventi possibili. In simboli:
N
) A ( n
) A ( P =
N
) B ( n
) B ( P =
N
) B A ( n
) B A ( P

=
Se gli eventi sono incompatibili, cio non vi sono esiti che appartengono
contemporaneamente ad A ed a B, allora n(AB)=n(A)+n(B), da cui:
) B ( P ) A ( P
N
) B ( n
N
) A ( n
N
) B ( n ) A ( n
N
) B A ( n
) B A ( P + = + =
+
=
=
Se invece gli eventi non sono incompatibili, vale a dire che vi sono diciamo M esiti che
appartengono sia ad A che a B, allora nel fare la somma n(A)+n(B) li contiamo due volte, e
quindi dobbiamo dire che n(AB)=n(A)+n(B)-M. Ma il suddetto M, essendo il numero di
esiti che appartengono contemporaneamente ad A ed a B, n pi n meno che il numero di
esiti n(AB) contenuto in AB, quindi
I-8
N
M
N
) B A ( n
) B A ( P =
=
e in definitiva:
) B A ( P ) B ( P ) A ( P
N
M
N
) B ( n
N
) A ( n
N
M ) B ( n ) A ( n
N
) B A ( n
) B A ( P + = + =
+
=
=
Questo risultato, che abbiamo dimostrato solo per il caso di esiti equiprobabili vale in
generale.
I.5 Probabilit condizionata e legge di moltiplicazione delle probabilit
Consideriamo lesperimento seguente: da unurna contenente 5 palline bianche e 15 nere
vengono estratte 2 palline. Qual la probabilit che esse siano ambedue bianche?
Possiamo procedere in due modi:
1) rapporto esiti favorevoli su esiti possibili. In quanti modi possiamo prendere due palline
da un lotto di 20?
2
19 20
! 18 ! 2
! 20
2
20
N

= =
|
|
\
|
=
quanti di questi modi mostrano ambedue le palline bianche?
( ) 1
2
4 5
! 15 ! 0
! 15
! 3 ! 2
! 5
0
15
2
5
A n
= =
|
|
\
|
|
|
\
|
=
la probabilit dunque:
( )
19 20
4 5
2
19 20
2
4 5
A P
=
2) La probabilit di che la prima pallina estratta sia bianca
20
5
p =
la probabilit che la seconda sia bianca se bianca la prima:
19
4
p =
e quindi la probabilit le due palline estratte siano bianche data dal prodotto
19 20
4 5
p
=
I-9
che concorda col precedente risultato.
Ora, la probabilit che la seconda sia bianca se bianca la prima si chiama PROBABILIT
CONDIZIONATA. Diciamo meglio, definiamo gli eventi seguenti:
Evento A la prima pallina estratta bianca
Evento B la seconda pallina estratta bianca
Allora la probabilit che si verifichi levento B non 4/19 (fra poco la calcoleremo). La
probabilit che si verifichi levento B se si verificato levento A , questa s, 4/19; e questa
detta probabilit di A condizionato a B, che si scrive P(A/B).
Perch P(B), detta probabilit a priori di B, non uguale a 4/19? Perch B si pu verificare
anche se non si verificato A, ed in tal caso la sua probabilit ( ( ) A / B P , probabilit di B
condizionato a non-A) 5/19. E la probabilit TOTALE (si chiama proprio cos) quanto vale?
data dalla probabilit che si verifichi A seguito da B sommata alla probabilit che si verifichi
non-A seguito da B, cio:
( ) ( ) ( ) ( )
4
1
19
5
20
15
19
4
20
5
A / B P A P A / B P A P = + = +
questo perch i due percorsi alternativi (tramite A e tramite non-A) sono incompatibili, e
quindi la probabilit della loro unione pari alla somma delle loro probabilit.
Nulla di strano che venga : dentro lurna vi sono appunto 1 pallina bianca su 4. Vediamo un
disegno:
A

(
P
(
A
)
=
5
/
2
0
)
n
A

(
P
(
n
A
)
=
1
5
/
2
0
)
B
((P
(B
/n
A
)=
5
/1
9
)
B
((P
(B
/A
)=
4
/1
9
)
n
B
((P
(n
B
/A
)=
1
5
/1
9
)
n
B
((P
(n
B
/n
A
)=
1
4
/1
9
)
A and B
A and nB
nA and nB
nA and B
Capiamo poi una cosa importante da questo esempio:
( ) ( ) ( ) A / B P A P B A P =
I-10
La probabilit dellintersezione di due eventi non , in generale, uguale al prodotto delle
probabilit:
( ) ( ) ( ) B P A P B A P
Definizione: levento B INDIPENDENTE dallevento A se e solo se
( ) ( ) B P A / B P =
cio se la probabilit A PRIORI di B e la probabilit di B condizionato ad A sono uguali.
chiaro, da quanto visto, che in tal caso si ha
( ) ( ) ( ) ( ) ( ) B P A P A / B P A P B A P = =
Ecco dunque la legge della moltiplicazione in questo caso: la probabilit dellintersezione di
due eventi indipendenti pari al prodotto delle singole probabilit dei due eventi.
Da quanto detto finora discende anche unaltra propriet. Infatti invertendo lordine
dellequazione generale per la probabilit dellintersezione si ha anche
( )
( )
( ) A P
B A P
A / B P

=
che fornisce la regola per calcolare la probabilit condizionata. Questa si pu giustificare
facilmente nel caso degli esiti equiprobabili. Infatti, siano n(A) gli esiti che verificano A,
contenuti cio nella sottopopolazione A, n(B) gli esiti che verificano B, overo contenuti nella
sottopopolazione B, e n(AB) il numero di esiti che verificano contemporaneamente A e B,
cio contenuti nellintersezione delle suddette sottopopolazioni A e B; N come al solito il
numero degli esiti possibili, gli esiti di . Ora la probabilit a priori di A data dal rapporto
tra n(A) ed N, come sappiamo. Tuttavia, se si sa che si verifica B, non tutti gli N esiti sono pi
possibili: soltanto gli n(B) esiti della sottopopolazione B possono verificarsi. Il nostro spazio
degli eventi si per cos dire ristretto a B. Di questi n(B) esiti possibili quanti verificano A?
naturalmente n(AB), ecco dunque che se si sa che si verifica B la probabilit che si verifichi
A data dal rapporto
( )
( )
( )
( )
( )
( )
( ) B P
B A P
B n
N
N
B A n
B n
B A n
B / A P

=
=
Se nella formula vista si scambiano i nomi degli eventi si trova
( ) ( ) ( ) B / A P B P A B P =
ma poich lintersezione commutativa:
I-11
( ) ( ) ( ) ( ) ( ) ( ) B / A P B P A B P B A P A / B P A P = = =
da cui due importanti regole:
1) La formula di Bayes:
( )
( ) ( )
( ) A P
B / A P B P
A / B P =
2) se A indipendente da B anche B indipendente da A e viceversa, e si dice quindi che A e
B sono tra loro indipendenti. Infatti, se ( ) ( ) A P B / A P = allora
( )
( ) ( )
( )
( ) ( )
( )
( ) B P
A P
A P B P
A P
B / A P B P
A / B P = = =
Vediamo alcune altre propriet.
Si abbia una successione di eventi { }
i
A tutti incompatibili tra loro, C A
i i
= , allora
( ) ( ) =
i i
B / A B / C P . Infatti, come noto, si ha per lintersezione
[ ] ( ) B A B A B C
i i i i
= =
Poich daltra parte gli insiemi A
i
non hanno tra loro punti in comune, neanche gli insiemi
( ) B A
i
hanno punti in comune tra loro, e corrispondono pertanto ad eventi incompatibili. In
tal caso si ha per le probabilit
( ) ( ) [ ] ( ) = =
i i i i
B A P B A P B C P
Se ora dividiamo ambo i membri per P(B) otteniamo appunto:
( )
( )
( )
( )
( )
( ) =

=
=
i i i
i
B / A P
B P
B A P
B P
B C P
B / C P
che quanto volevasi dimostrare (QDE).
Infine generalizziamo lidea espressa dal precedente grafico:
Se una successione di eventi { }
i
A tutti incompatibili tra loro e =
i i
A , o come si
dice: che costituiscono una PARTIZIONE di , allora ( ) ( ) ( ) =
i i i
A / B P A P B P .
Per provare questo osserviamo prima che ( )
i i
A A = ; possiamo quindi scrivere che
( ) ( ) ( ) [ ] B A P B P B P
i i
= =
Poich daltra parte gli insiemi A
i
non hanno tra loro punti in comune, neanche gli insiemi
( ) B A
i
hanno punti in comune tra loro, e corrispondono pertanto ad eventi incompatibili.
I-12
Applicando quindi la regola per lunione di eventi incompatibili troviamo, CVD:
( ) [ ] ( ) ( )
( )
( )
( ) ( ) =
= =
i i i i
i
i
i i i i i
A / B P A P
A P
B A P
A P B A P B A P
Esempio 1
Sia A levento per cui pescando a caso da un mazzo una carta questa sia di picche. Sia B levento che detta carta
sia una regina. A e B sono indipendenti? 52 carte, 13 picche, 4 regine, 1 regina di picche.
52
13
) A ( P =
52
4
) B ( P =
52
1
) B A ( P = ( )
52
1
52
4
52
13
B P ) A ( P = =
Poich la probabilit dellintersezione coincide con il prodotto delle probabilit i due eventi sono indipendenti.
Esempio 2
Si tirano due dadi. A levento che il primo dado esca dispari, B levento che il secondo dado esca dispari e C
levento la somma dei dadi sia dispari. A e C sono indipendenti?
Esempio 3
Nove urne contengono ognuna 3 palline bianche e 3 nere. Una decima urna contiene 5 palline bianche ed una
nera. Si sceglie unurna a caso e si estrae una pallina: prima di estrarla qual la probabilit (probabilit a priori)
che lurna prescelta sia la decima? Se la pallina estratta bianca, qual la probabilit (probabilit a posteriori)
che lurna prescelta sia la decima?
Esempio 4
Unurna contiene solo palline bianche, unaltra ne contiene 30 bianche e 10 nere. Si sceglie unurna a caso e si
estrae una pallina: qual la probabilit che sia bianca? effetivamente bianca: la si rimette quindi nella stessa
urna, si mescola e si estrae unaltra pallina dalla stessa urna. Qual la probabilit che questa sia bianca?
Esempio 5
Unurna contiene n palline numerate da 1 ad n. Si estrae una pallina: se la numero 1 si tiene fuori, altrimenti si
rimette dentro lurna. Si estrae di nuovo una pallina: qual la probabilit che sia la numero 2?
Esempio 6
La probabilit che la corriera per Bazzano parta in orario 0.80, e la probabilit che parta in orario e arrivi in
orario 0.72.
a) Qual la probabilit che un bus che parte in orario arrivi in orario?
b) Sapendo che la probabilit di arrivare in orario 0.75, qual la probabilit che un bus che arriva in orario
sia partito in orario?
c) Se invece la probabilit che un bus che parte in ritardo arrivi in orario 0.75, qual la probabilit che un
qualunque bus arrivi in orario
Esempio 7
Una fabbrica di auto ha tre linee di montaggio, A, B e C, che poroducono rispettivamente il 45%, il 30% ed il
25% del totale. Se la probabilit che un pezzo sia prodotto difettoso 0.004 per A, 0.006 per B e 0.010 per C,
qual la probabilit che unauto di questa fabbrica sia prodotta difettosa? E se difettosa, qual la probabilit che
provenga dalla linea B?
I-13
I.6 Variabili aleatorie
Partiamo da un caso pratico: si pesca una carta da un mazzo da briscola. Gli esiti di questo
esperimento aleatorio sono 40, e sono tutti equiprobabili; volendo si potrebbero elencare (asso
di bastoni, due di bastoni, tre di bastoni e cos via). Riunendo opportunamente questi esiti
(cio facendo dei sottoinsiemi dello spazio campionario) possiamo definire degli eventi: ad
esempio pescare un fante (in questo caso il sottoinsieme corrispondente formato dai 4 fanti,
rispettivamente di bastoni, spade, coppe e denari). Ora, se pensiamo di associare alla carta
pescata il punteggio ad essa relativo nel gioco della briscola (2 punti per il fante, 3 per il
cavallo, 4 per il re, 10 per il tre e 11 per lasso, 0 per le scartine - vale a dire tutte le altre
carte) avremo che ad ognuno di 6 possibili eventi associamo un valore numerico. Per fissare il
concetto scriviamo una tabellina:
Esito Probabilit Evento PROBAB. VALORE
Fante di bastoni 0.025
Fante di spade 0.025
Fante di coppe 0.025
Fante di denari 0.025
Fante 0.10 2
Cavallo di bastoni 0.025
Cavallo di spade 0.025
Cavallo di coppe 0.025
Cavallo di denari 0.025
Cavallo 0.10 3
Re di bastoni 0.025
Re di spade 0.025
Re di coppe 0.025
Re di denari 0.025
Re 0.10 4
Tre di bastoni 0.025
Tre di spade 0.025
Tre di coppe 0.025
Tre di denari 0.025
Tre 0.10 10
Asso di bastoni 0.025
Asso di spade 0.025
Asso di coppe 0.025
Asso di denari 0.025
Asso 0.10 11
Tutte le altre 20 carte 0.025/una Scartina 0.50 0
I-14
Cosa abbiamo fatto esattamente? Abbiamo associato a degli eventi aleatori, tramite una
qualche funzione, un valore numerico - abbiamo creato una VARIABILE ALEATORIA (questo
nome in genere abbreviato con v.a.).
In questo particolare caso, la v.a. discreta, ed inoltre assume solo un numero finito di
possibili valori, precisamente 6 valori: 0, 2, 3, 4, 10 ed 11. Aggiungiamo che in questo caso i
valori sono tutti interi. Si tratta, chiaro, di un caso particolarmente semplice, per ci aiuta ad
enunciare la regola: quando determiniamo una funzione che ad ogni evento dello spazio
campionario fa corrispondere un valore numerico diamo origine ad una variabile aleatoria.
Da quanto detto chiaro che ad ogni valore della v.a. corrisponder una probabilit che tale
valore venga assunto, e questa chiaramente la probabilit associata allevento cui tale valore
numerico corrisponde. Ad esempio, nellesempio proposto la probabilit che la v.a. assuma il
valore 2 (che corrisponde al fante) pari a 0.10 (cio la probabilit che si peschi un fante).
Le v.a. possono assumere valori discreti (come il caso visto sopra) o possono assumere
qualunque valore entro un intervallo dellasse reale: nel primo caso parleremo di v.a. discrete,
nel secondo di v.a. continue. Esaminiamo per primo il caso della v.a. discrete, in seguito
affronteremo le v.a. continue.
I.7 Variabili aleatorie discrete
Le v.a. discrete possono assumere un numero finito di possibili valori (come nellesempio
visto sopra), oppure un numero infinito: in questultimo caso si tratter ovviamente di una
infinit numerabile. La relazione che ad ognuno dei valori che la v.a. pu assumere fa
corrispondere una probabilit (dunque un numero reale compreso tra 0 e 1) detta
DISTRIBUZIONE DI PROBABILIT. Questa pu essere data in forma tabulare, o tramite una
funzione analitica. Per lesempio visto sopra possiamo raccogliere tali informazioni in una
tabella:
x 0 2 3 4 10 11
P(x) 0.50 0.10 0.10 0.10 0.10 0.10
Nel prosieguo adotteremo queste notazioni: la v.a. verr indicata con una lettera maiuscola (ad
esempio X); il valore da essa assunto con la corrispondente lettera minuscola (in questo
esempio x); la distribuzione di probabilit con una funzione del valore (cio x) avente per
I-15
indice la lettera della v.a (qui X), come nel seguente esempio che indica la probabilit che X
assuma il valore x:
( ) [ ] x X P x f
X
=
Unaltra quantit che sar utile la FUNZIONE DI RIPARTIZIONE, detta anche cumulativa: questa
la probabilit che la v.a. assuma valori minori o uguali di un dato valore. La scriveremo in
genere con lettera maiuscola come nel seguente esempio
( ) [ ] x X P x F
X

Spesso accade di dover caratterizzare una v.a. in modo sintetico, per cui si richiede qualcosa
di pi conciso che non lintera distribuzione di probabilit: si cerca di dare un quadro
informativo con pochi numeri caratteristici. La prima cosa che si vuole trasmettere la
posizione centrale della distribuzione: ad esempio se ho un gruppo di N scolari dallasilo al
liceo od un gruppo di N pensionati chiaro che, mentre in ambedue i casi abbiamo tante
diverse et, nel primo caso sono distribuite tra i 3 ed i 20 anni (ripetenti compresi), nel
secondo sono dai 55-60 anni in su. Quello che cerchiamo un numero che ci dia una qualche
informazione sulla posizione dei valori della v.a. lungo lasse reale. Diciamo subito che le
quantit in uso sono tre
LA MODA: il valore pi probabile della v.a. (cio, quello cui corrisponde il valore di
probabilit pi elevato);
LA MEDIANA: il valore tale per cui la somma delle probabilit relative a tutti i valori della
v.a. inferiori ad esso esattamente uguale alla somma delle probabilit relative a tutti i
valori della v.a. superiori ad esso; in termini poco rigorosi ma figurati, quel valore che
ha tanta probabilit complessiva alla sua destra (sullasse reale) quanta ne ha alla sua
sinistra: in un certo senso il vero centro della distribuzione;
LA MEDIA: questa senzaltro la pi utile e la pi usata delle tre, indicata in genere con la
lettera greca ; si trova con la formula seguente:
( ) ( )
= =
x
X
x xP X E
Una volta localizzato il centro della distribuzione importante anche sapere quanto
questultima dispersa. Facciamo un esempio un po avulso, giusto per capire cosa si intende
con disperso. Consideriamo i seguenti gruppi di numeri, ambedue centrati intorno a 10:
I) 9.9, 9.85, 10.05, 9.95, 10.15, 10.1, 10.0
II) 5, 12, 13, 7, 14, 9, 10
I-16
Ambedue i gruppi hanno come media 10, per il primo ha tutti valori molto vicini a 10,
paragonato al secondo gruppo che molto pi sparpagliato. In modo analogo, tornando alle
distribuzioni, potremmo avere una v.a. che assume valori tutti vicinissimi come invece una
che assume valori molto sparpagliati. Come giudicare questa caratteristica con un solo
numero? Le quantit pi utilizzate sono tre:
IL RANGE: la differenza tra il valore pi grande ed il pi piccolo della v.a.. Utile per i
campioni, come si vedr pi avanti, ma inapplicabile per le distribuzioni;
IL RANGE INTERQUARTILE: la differenza tra il quartile superiore (il numero che ha un
quarto della probabilit complessiva alla sua destra) ed il quartile inferiore (il numero che
ha un quarto della probabilit complessiva alla sua sinistra). Ne riparleremo a proposito di
campioni;
LA VARIANZA: questa la media dei quadrati degli scarti dalla media, vale a dire:
( ) [ ] ( ) ( ) ( )
= =
x
X
2 2
x P x X E X V
Viene molto utilizzata la radice quadrata (positiva) della varianza, che viene detta DEVIAZIONE
STANDARD (d.s.) ed indicata con la lettera greca . Corrispondentemente la varianza viene
spesso indicata con
2
, notazione di cui ci serviremo spesso anche noi nel seguito.
I.8 Il valore atteso
Abbiamo utilizzato la notazione ( ) E , parliamone meglio. Infatti, armati della distribuzione di
probabilit possiamo calcolare per ogni funzione della v.a. X una quantit detta valore atteso.
Per introdurla immaginiamo il seguente esperimento, con riferimento a una funzione
monotona ( ) X g : si genera a caso un valore di X, diciamolo
1
x , e si calcola il valore
corrispondente della funzione, ( )
1
x g . Si ripete con un secondo valore
2
x , poi un terzo, poi un
quarto e via dicendo. Troveremo tanti valori diversi che a loro volta, proseguendo
sufficientemente a lungo con lesperimento, daranno luogo ad una distribuzione di probabilit
per la nuova v.a. data dalla funzione ( ) X g G = : chiamiamola ( ) g P
G
. Stando cos le cose
possiamo senzaltro calcolare la media di G con la formula vista sopra:
( ) ( )
= =
g
G G
g gP G E
I-17
Ora, chiaro che, ad esempio, il valore ( )
1
x g di questa nuova v.a. si presenter con la stessa
probabilit con cui si presenta il valore
1
x per la v.a. X, e cos via: pi in generale,
( ) [ ] ( ) x P x g P
X G
= : possiamo cos scrivere:
( ) ( )
=
x
X G
x P x g
Questa quantit la definiamo VALORE ATTESO della funzione (aleatoria) ( ) X g . Se in
particolare consideriamo la funzione ( ) X X g = troviamo il valore atteso di X, che coincide
con la media di X gi vista sopra. Se invece consideriamo la funzione ( ) ( )
2
X X g =
troviamo la varianza di X. chiaro per che il concetto di valore atteso pi generale, e
media e varianza sono solo due casi particolari.
Vediamo alcune particolarit.
a) Il valore atteso lineare, nel senso che:
( ) ( ) ( ) ( ) ( ) ( ) ( ) X bE a x xP b a x bxP x aP x P bx a bX a E
x
X
x
X
x
X
x
X
+ = + = + = + = +

b) e la varianza? Come appena visto la media di bX a Y + = uguale a + b a (detta come
al solito ( ) X E = la media di X), quindi la varianza di bX a Y + = sar data da
( ) ( ) ( ) [ ] ( ) ( ) [ ] ( )= = + + = +
2 2
X b E b a bX a E bX a V
( ) [ ] ( ) ( ) ( ) ( ) X V b X E b X b E
2 2 2 2 2
= = =
Il fatto che sparisca la costante additiva a intuitivo: aggiungendo a tutti i valori di x una
costante a si aumenta di questa stessa quantit anche la media, e dunque gli scarti dalla
media rimangono invariati. Importante notare che la costante moltiplicativa b uscendo
dalla varianza deve venire elevata al quadrato.
I.9 Distribuzioni multivariate
Possiamo estendere le considerazioni fatte anche ad un numero di v.a. maggiore di uno: per
fissare le idee considereremo due variabili aleatorie, e ci aiuteremo con la tradizionale coppia
di dadi. Ci riferiremo a due diversi casi: nel primo consideriamo le due v.a. date dai valori dei
due dadi, e chiamiamole X ed Y. Quindi X il numero di punti che appaiono sulla faccia
superiore del primo dado, Y lanalogo per il secondo dado. Sia X che Y possono assumere i
valori 1, 2, 3, 4, 5 o 6. Possiamo definire la probabilit congiunta che le due v.a. assumano
I-18
rispettivamente i valori x ed y, che scriveremo analogamente alle notazioni precedenti,
( ) y , x P
Y , X
, quindi:
( ) [ ] y Y , x X P y , x P
Y , X
= = =
In questo caso chiaro che le due v.a. sono indipendenti, quindi come sappiamo la probabilit
dellintersezione di eventi indipendenti pari al prodotto delle singole probabilit:
( ) [ ] [ ] [ ] ( ) ( ) y P x P y Y P x X P y Y , x X P y , x P
Y X Y , X
= = = = = = =
Chi legge potrebbe per provare a dimostrare lindipendenza delle due v.a. elencando tutti i
casi possibili (che sono 36, e sono tutti equiprobabili), calcolando le opportune probabilit a
priori e condizionate e tirando le conclusioni.
Nel secondo caso consideriamo le v.a. date rispettivamente dalla somma dei due dadi e dal
modulo della loro differenza: chiamiamole W e Z. Quindi in termini delle variabili precedenti
avremmo Y X W + = ed Y X Z = . Lasciamo al lettore la cura di analizzare tutti gli esiti
possibili (sempre gli stessi 36, sempre equiprobabili) e di formare gli eventi calcolandone la
probabilit. Si trovano i seguenti risultati:
per la distribuzione di Z
z 0 1 2 3 4 5
P(z) 6/36 10/36 8/36 6/36 4/36 2/36
Per la distribuzione congiunta di W e Z:
( )
36
1
0 , w P
Z , W
= ( ) 5 , 4 , 3 , 2 , 1 z
36
2
z , w P
Z , W
= =
La distribuzione di W ben nota ma la ripetiamo:
w 2 o 12 3 o 11 4 o 10 5 o 9 6 od 8 7
P(w) 1/36 2/36 3/36 4/36 5/36 6/36
I-19
Sono indipendenti W e Z? Prendiamo una coppia di valori qualsiasi, ad esempio ( ) 3 , 7 : la
probabilit a priori che W assuma il valore 7 ( )
36
6
7 P
W
= . Calcoliamo la probabilit
condizionata:
( ) [ ]
[ ]
[ ]
( )
( ) 3
1
36
6
36
2
3 P
3 , 7 P
3 Z P
3 Z 7 W P
3 Z / 7 W P 3 / 7 P
Z
Z , W
Z / W
= = =
=
= =
= = = =
e questa probabilit a posteriori diversa dalla probabilit a priori. Per lesattezza il doppio.
Dunque, le due variabili NON sono indipendenti: sappiamo infatti che per v.a. indipendenti la
probabilit condizionata uguale alla probabilit a priori per qualunque coppia di valori si
consideri. Quindi in linea di principio ( ) ( ) ( ) z P w P z , w P
Z W Z , W
.
Se desidero conoscere la probabilit che X assuma il valore x qualunque sia il valore assunto
da Y, posso procedere sommando su tutti i valori y:
( ) [ ] ( )
= = =
y
Y , X X
y , x P y , x X P x P
questa viene detta PROBABILIT MARGINALE di X, in questo contesto. Quindi, se abbiamo la
probabilit congiunta possiamo facilmente calcolare le singole probabilit come probabilit
marginali.
I.10 Combinazioni elementari di v.a.
Calcoliamo la media della somma di due v.a. X ed Y qualunque (che possono essere o non
essere indipendenti): per fare questo peschiamo tutte le possibili coppie ( ) y , x e formiamo la
somma y x z + = e facciamo la media di questa quantit per tutte le coppie.
( ) ( ) ( ) ( ) ( ) = + = + =

y x
Y , X
y x
Y , X
x y
Y , X
y , x P y y , x P x y , x P y x Z E
( ) ( ) ( ) ( ) ( ) ( ) Y E X E y P y x P x y , x P y y , x P x
y
Y
x
X
y x
Y , X
x y
Y , X
+ = + = + =

dunque LA MEDIA DELLA SOMMA LA SOMMA DELLE MEDIE.
Vediamo il caso del prodotto Y X Z = di due v.a. indipendenti, per cui quindi vale la
relazione ( ) ( ) ( ) y P x P y , x P
Y X Y , X
=
( ) ( ) ( ) ( ) = = =

y P x P xy y , x P xy Z E
Y
y x
X
x y
Y , X
I-20
( ) ( ) ( ) ( ) Y E X E y yP x xP
y
Y
x
X
= =

quindi la media del prodotto uguale al prodotto delle medie. Ma attenzione solo se le v.a.
sono indipendenti!, altrimenti non vera la relazione ( ) ( ) ( ) y P x P y , x P
Y X Y , X
= e non vale
pi il calcolo appena svolto.
Calcoliamo la varianza della somma di due v.a. X ed Y indipendenti procedendo in modo
analogo a quanto fatto per la media. Per comodit, chiamiamo ed le medie di X ed Y, e
quindi (per quanto appena visto) la media di Z sar data da + :
( ) ( ) ( ) [ ] ( ) ( ) ( ) [ ] ( ) = + = + + =

y x
Y , X
2
x y
Y , X
2
y , x P y x y , x P y x Z V
( ) ( ) ( )( ) ( ) ( ) ( ) = + + =

x
Y , X
y
2
y x
Y , X
x y
Y , X
2
y , x P y y , x P y x 2 y , x P x
( ) ( ) ( )( ) ( ) ( ) ( ) ( ) = + + =

y P y y P x P y x 2 x P x
Y
y
2
Y
y x
X
x
X
2
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Y V X V Y V y P y x P x 2 X V
Y
x y
X
+ = + + =

dunque LA VARIANZA DELLA SOMMA LA SOMMA DELLE VARIANZE. Di nuovo, attenzione!:
questo vero solo se le v.a. sono indipendenti!, altrimenti non vale la relazione
( ) ( ) ( ) y P x P y , x P
Y X Y , X
= (repetita juvant), e quindi non generalmente nullo il termine
( ) ( )( ) ( )
=
y x
XY
y , x P y x Y , X Cov , detto COVARIANZA di X ed Y, e si ha
( ) ( ) ( ) ( ) Y , X Cov 2 Y V X V Z V + + =
Possiamo anche dare una misura di quanto dipendenti siano le variabili, tramite il parametro
, detto COEFFICIENTE DI CORRELAZIONE, cos definito:
( )
( ) ( ) Y V X V
Y , X Cov
=
Si vede che il coefficiente varia tra 1 e +1, ed nullo se le variabili sono indipendenti. Per
0 > le variabili si dicono CORRELATE POSITIVAMENTE, e viceversa.
Naturalmente quanto detto per 2 v.a. indipendenti si estende alla somma (o al prodotto) di un
numero qualunque di v.a. indipendenti.
I-21
Passiamo ora ad esaminare alcune importanti distribuzioni di probabilit. Inizieremo con la
DISTRIBUZIONE BINOMIALE.
I.11 Distribuzione binomiale
Immaginiamo di lanciare un dado: abbiamo una probabilit di 1/6 che venga il numero 3.
Ripetiamo il lancio n volte, e contiamo quante volte esce il numero 3. Si tratta sicuramente di
un numero intero compreso tra 0 ed n: chiamiamolo k
1
. Ripetiamo lo stesso esperimento - n
lanci, si contano le volte che esce testa: otterremo un numero k
2
forse uguale al precedente,
forse diverso, sempre comunque compreso tra 0 ed n. Se ripetiamo tantissime volte questo
stesso esperimento, chiaro che otterremo o prima o poi tutti i numeri compresi tra 0 ed n,
ognuno con una certa frequenza. senzaltro lecito chiedersi: con quale probabilit lanciando
n volte un dado uscir esattamente k volte il numero 3? Proviamo a calcolare questa
probabilit.
Ognuno dei lanci indipendente dagli altri (vale a dire che il risultato del 3 lancio non
dipende da quello del 2 o del 5 o di qualunque altro): sappiamo che la probabilit che si
verifichino contemporaneamente degli eventi indipendenti pari al prodotto delle singole
probabilit che si verifichino i vari eventi. Consideriamo una certa successione di risultati (ad
esempio SNNSNSNNNSSS etc ove S sta per s, uscito il 3, e N sta per no, non uscito il
3) in cui S ha una probabilit p (pari a 1/6) ed N una probabilit p 1 q = (in questo caso
5/6): la probabilit di ottenere proprio questa successione di esiti data da
[ ] ... pp pqqpqpqqqp SS SNNSNSNNNS P = , vale a dire il prodotto delle probabilit dei
singoli risultati. Qualunque stringa di risultati contenente k volte S e n-k volte N ha
probabilit
k n k
q p P

= . Daltra parte, la probabilit complessiva di ottenere k volte S (come
si dice usualmente k SUCCESSI), pari alla probabilit dellunione di tutti gli esiti che
verificano il mio evento, cio tutte le stringhe che contengono k volte S. chiaro che tutti
questi esiti sono disgiunti (non si possono avere due diverse stringhe contemporaneamente: la
successione degli n lanci univoca): quindi la probabilit dellunione uguale alla somma
delle singole probabilit - in questo caso
k n k
q p

moltiplicato per il numero di stringhe con k
successi. Questultimo il numero di modi in cui posso mettere k oggetti (i successi) in n
caselle (i lanci) senza considerare lordine (i successi sono tutti uguali) cio il numero di
combinazioni a k a k di n oggetti. In definitiva perci la probabilit cercata
I-22
[ ]
k n k
q p
k
n
k P

|
\
|
=
Questa una distribuzione di probabilit espressa in forma analitica, ed nota come
DISTRIBUZIONE BINOMIALE. Dora in poi la noteremo come ( ) p , n ; k b .
Riassumiamo le condizioni in cui essa vale:
lesperimento ha 2 possibili risultati (che chiameremo successo e fallimento)
lesperimento viene ripetuto n volte, ogni volta con la medesima probabilit p di
successo
le n ripetizioni sono tutte indipendenti tra di loro
in tali ipotesi, la distribuzione binomiale ci indica la probabilit di avere esattamente k
successi in n ripetizioni.
Possiamo domandarci qual la probabilit complessiva di avere un qualunque numero di
successi compreso tra 0 e k, cio la funzione di ripartizione. Osserviamo che ci che stiamo
chiedendo la probabilit dellunione di 1 k + eventi (0 successi, 1 successo . k successi),
che chiaramente sono disgiunti, o come si dice anche, incompatibili: infatti non possono
verificarsi circostanze in cui si abbiano contemporaneamente, ad esempio, esattamente 3
successi ed esattamente 4 successi: ma la probabilit dellunione di eventi disgiunti uguale
alla somma delle probabilit dei singoli eventi, quindi:
( )

=
|
|
\
|
= =
j
0 k
k n k
K
q p
k
n
] j K [ P j F
Lunione di tutti i possibili esiti (cio la probabilit di avere un numero qualsiasi di successi
compreso tra 0 ed n) sar ( ) n F
K
, e questa dovr essere pari ad 1 (infatti lunione di tutti i
possibili risultati un evento certo: un qualche numero di successi compreso tra 0 ed n dovr
pur verificarsi). Verifichiamolo:
( ) ( )
n
n
0 k
k n k
K
q p q p
k
n
n F + =
|
|
\
|
=

=
per la formula di Newton (potenza del binomio). Daltra parte 1 q p = + per definizione, e
quindi la funzione di ripartizione per n K = proprio uguale a 1.
Questa sicuramente una propriet generale di tutte le distribuzioni di probabilit:
la probabilit complessiva dellunione di tutti gli esiti possibili uguale ad 1
I-23
Tornando alla distribuzione binomiale, possiamo vederla anche come somma di n variabili
aleatorie, chiamiamole
i
X per n , , 2 , 1 i = , dove la singola variabile
i
X assume il valore 1
oppure 0 a seconda che nelli-esima ripetizione dellesperimento si sia avuto un successo od
un insuccesso. Con questa definizione chiaro che la variabile
=
=
n
1 i
i
X Y assumer il valore
del numero totale di successi nel complesso degli n tentativi.
Calcoliamo la media e la varianza delle singole variabili
i
X , ricordando che ad ogni
ripetizione (quindi anche la la i-esima) la probabilit del successo sempre p, e quella
dellinsuccesso sempre p 1 q = , o in altri termini, [ ] p 1 X P
i
= = , e [ ] q 0 X P
i
= = .
Calcoliamo la media:
( ) p q 0 p 1 X E
i
= + =
calcoliamo la varianza:
( ) ( ) [ ] ( ) ( ) q p q p 0 p p 1 p X E X V
2 2 2
i i
= + = =
Applichiamo quanto sappiamo per la somma di variabili indipendenti (infatti le ripetizioni
dellesperimento sono tutte indipendenti), vale a dire che la media della somma la somma
delle medie (come sempre), e la varianza della somma uguale alla somma delle varianze
(perch le variabili sono indipendenti). Poich hanno tutte la stessa media p, la somma delle
medie data da p moltiplicato per n, e analogamente per la varianza, quindi:
( ) ( ) ( ) ( ) q p n X V Y V p n X E Y E
n
1 i
i
n
1 i
i
= = = =

= =
chiaro che allo stesso risultato si perviene a partire dallespressione della probabilit
binomiale:
( ) ( ) p n q p
k
n
k k P k K E
j
0 k
k n k
j
0 k
K
=
|
|
\
|
= =

=
=
e analogamente per la varianza (esercizio: dimostrare lespressione appena scritta ha il
risultato ivi indicato, e ripetere per la varianza).
I-24
Nota: le
i
X viste sopra sono INDIPENDENTI E IDENTICAMENTE DISTRIBUITE, (frase in genere
abbreviata con i.i.d.): infatti le ripetizioni dellesperimento sono tutte indipendenti, e tutte
hanno la stessa identica distribuzione di probabilit: probabilit di successo p, probabilit di
insuccesso q.
Esempio 1
Si determinato che un certo albero se soggetto ad un certo carico assiale ha una probabilit di cedere pari a
0.05. Qual la probabilit che su 16 alberi cos caricati:
a) al massimo 2 cedano;
b) almeno 4 cedano?
Esempio 2
Un fabbricante di caffettiere elettriche dichiara che solo nel 10% dei casi i suoi apparecchi richiedono interventi
manutentivi durante il periodo di garanzia, che di un anno. Se su un certo campione di 20 caffettiere 5
richiedono riparazioni durante lanno di garanzia, siete portati a credere oppure no alla dichiarazione del
fabbricante?
Esempio 3
Un certo studio sostiene che il 75% degli incidenti sul lavoro potrebbero essere evitati semplicemente tramite
losservanza delle regole relative alla sicurezza. Nel caso in cui tale affermazione risponda a verit, trovate la
probabilit che:
a) meno di 16 incidenti su 20 sarebbero evitati
b) 12 incidenti su 15 potrebbero essere evitati
Esempio 4
In un certo quartiere si registrata una probabilit 0.20 che le interruzioni elettriche, quando siverificano,
superino la durata di 2 minuti. Se in un mese si hanno 8 interruzioni, trovare la probabilit che 3 di esse superino
i 2 minuti
Esempio 5
Un fabbricante di vernici ritiene che 10% delle confezioni da lui prodotte contengano meno vernice di quanto
riportato sulletichetta. Per verificare tale circostanza, vengono selezionate in modo casuale 16 latte di vernice ed
il contenuto viene misurato esattamente; se non pi di 2 latte contengono meno vernice di quanto prescritto, la
circostanza si ritiene provata. Sar vero? Per farvi unidea, calcolate la probabilit di superare tale test se in
realt la percentuale di latte con contenuto insufficiente :
a) 5%
b) 10%
c) 15%
d) 20%
I-25
I.12 La distribuzione di Poisson
Questa distribuzione si presenta quando si ha a che fare con certi tipi di processi di conteggio,
detti appunto processi di Poisson. Tipicamente, si tratta di contare un numero di eventi in un
dato tempo (numero di decadimenti radioattivi in un minuto, numero di TIR che passano in
unora, numero di persone che arrivano allufficio postale in una mattinata e simili). Diciamo
( ) t N il numero di eventi registrati nel tempo t. Vediamo sotto quali condizioni il processo in
esame definito di Poisson.
1) Incrementi a) indipendenti e b) stazionari
a) Indipendenti - significa che la probabilit che nel tempo t si verifichi un dato
numero di eventi indipendente dal numero di eventi verificatisi in precedenza, o
che si verificheranno in futuro: ogni lasso di tempo fa storia a s
b) Stazionari significa che uguali lassi di tempo hanno uguali probabilit
indipendentemente dal momento in cui iniziano: nel senso che
( ) ( ) { } ( ) ( ) { }
1 2 1 2
t N t N P s t N s t N P = + +
2) ( ) 0 0 N = (che ovvio in realt)
3) ( ) { } ( ) h o h 1 h N P + = =
4) ( ) { } ( ) h o 2 h N P =
dove ( ) h o indica una quantit che tende a zero pi rapidamente di h: ( ) 0 h / h o lim
0 h
=
I punti 3 e 4 combinati significano semplicemente che gli eventi sono separati nel tempo,
quindi prendendo un tempuscolo h abbastanza piccolo siamo sicuri di trovare al massimo un
evento durante h e mai pi di uno.
Osserviamo che dai punti 3 e 4 discende anche la seguente relazione:
( ) { } ( ) ( ) { }= = =
= =

=1 i i
i h N P 1 i h N P 1 0 h N P

( ) { } ( ) { } ( ) [ ] ( ) ( ) h o h 1 h o h o h 1 i h N P 1 h N P 1
2 i 2 i
+ = + = = = =

=
=
Per comodit introduciamo la seguente notazione:
( ) ( ) { } n t N P t P
n
= =
Possiamo cos riscrivere lultimo risultato come:
( ) ( ) h o h 1 h P
0
+ =
I-26
Deriviamo ora unespressione che ci permetta di calcolare ( ) t P
0
. Per fare ci partiamo dal
calcolo di ( ) h t P
0
+
( ) ( ) { } ( ) ( ) ( ) { } 0 t N h t N 0 t N P 0 h t N P h t P
0
= + = = = + = +
poich gli incrementi sono indipendenti, la probabilit dellintersezione entro parentesi graffe
pari al prodotto delle probabilit dei singoli eventi, inoltre sono stazionari, quindi:
( ) ( ) { } ( ) ( ) { } ( ) { } ( ) { } ( ) ( ) h P t P 0 h N P 0 t N P 0 t N h t N P 0 t N P h t P
0 0 0
= = = = = + = = +
Introducendo lespressione ricavata sopra per la probabilit ( ) h P
0
troviamo quindi
( ) ( ) ( ) [ ] h o h 1 t P h t P
0 0
+ = +
Riordinando e dividendo per h otteniamo quindi
( ) ( )
( )
( )
( ) t P
h
h o
t P
h
t P h t P
0 0
0 0
+ =
+
da cui, facendo il limite per h tendente a zero, otteniamo lequazione differenziale
( )
( ) t P
dt
t dP
0
0
=
che risolta con la condizione ( ) 1 0 P
0
= (infatti dalla condizione numero 2 si ha che ( ) 0 0 N =
un evento certo) d infine il risultato cercato:
( )
t
0
e t P

=
Procediamo in modo simile per calcolare ( ) t P
n
, sempre facendo dapprima riferimento
allintervallo h t + . In questo caso per abbiamo n modi di ottenere ( ) n h t N = + : e quindi si
avr
( ) ( ) { }= = + = + n h t N P h t P
n
( ) ( ) [ ] ( ) ( ) [ ] ( ) ( ) [ ] =
= = = = = = =
=
n
2 i
i h N i n t N 1 h N 1 n t N 0 h N n t N P
( ) { } ( ) { } ( ) { } ( ) { } ( ) { } ( ) { }= = = + = = + = = =

=
n
2 i
i h N P i n t N P 1 h N P 1 n t N P 0 h N P n t N P
I-27
( ) ( ) ( ) ( ) ( ) ( ) = + + =

=

n
2 i
i i n 1 1 n 0 n
h P t P h P t P h P t P
( ) ( ) [ ] ( ) ( ) [ ] ( ) ( )
=

+ + + + =
n
2 i
i n 1 n n
h o t P h o h t P h o h 1 t P
( ) [ ] ( ) ( ) h o h t P h 1 t P
1 n n
+ + =
Ancora una volta riordiniamo e dividiamo per h, quindi facciamo il limite per h tendente a
zero, ottenendo:
( )
( ) ( ) t P t P
dt
t dP
1 n n
n
+ =
Questa pu essere integrata (ricordando che ( ) 0 0 P
n
= ) per trovare ( ) t P
n
una volta noto
( ) t P
1 n
:
( ) ( )

t
0
1 n
t
n
d e P e t P
Ad esempio, troviamo subito che
( ) ( )
t
t
0
t
t
0
0
t
1
te d e e e d e P e t P

= = =

Procedendo in modo analogo per i valori successivi di n troviamo lespressione generale:
( )
( )
t
n
n
e
! n
t
t P

=
Se chiamiamo il prodotto t possiamo riscrivere la distribuzione appena vista come
( )

= e
! n
t P
n
n
che la forma in cui viene generalmente scritta la distribuzione di probabilit di Poisson. Si
vede facilmente che la somma vale 1, correttamente; infatti:
1 e e
! n
e e
! n
1 n
n
0 n
n
= =

=
+
=

chiaro infatti che la sommatoria a secondo membro proprio lo sviluppo in serie di
McLaurin della funzione esponenziale.
I-28
A cosa corrisponde la quantit ? Proviamo a calcolare la media, o valore atteso di n che dir
si voglia:
( )
( ) ( )
=
= =

=

=

0 k
k
1 n
1 n
1 n
n
1 n
n
0 n
n
n
! k
e
! 1 n
e e
! 1 n
e
! n
n e
! n
n t nP n
quindi il parametro coincide con il valor medio di n. Procedendo in modo analogo, con un
calcolo appena pi laborioso, si trova che la varianza di tale distribuzione anchessa pari a .
Questa una peculiarit della distribuzione di Poisson.
Esempio 1
Una banca incassa in media 6 assegni scoperti al giorno. Qual la probabilit che
a) in un giorno ne incassi 4;
b) in due giorni ne incassi 10.
Esempio 2
Il controllo su di una produzione di latta stagnata rivela in media 0.2 difetti al minuto. Calcolare la probabilit di
trovare:
a) un difetto in 3 minuti;
b) almeno due difetti in 5 minuti;
c) al massimo un difetto in 15 minuti.
Esempio 3
Il numero di guasti settimanali di un certo computer una distribuzione di Poisson con 3 . 0 = . Si calcoli la
probabilit che operi senza guasti per due settimane consecutive.
Esempio 4
Il numero di fotoni gamma al secondo emessi da un dato isotopo una distribuzione di Poisson con 8 . 5 = .
Se un contatore satura se riceve pi di 12 fotoni in un secondo, si calcoli la probabilit che saturi in un dato
secondo.
Esempio 5
Il centralino di un ufficio riceve in media 0.6 chiamate al minuto. Si calcoli la probabilit che
a) in un minuto ci sia almeno una chiamata;
b) in 4 minuti arrivino almeno 3 chiamate.
Esempio 6
Una compagnia vende tempo macchina sul proprio computer in lotti di t ore, e questo al prezzo di 600 /hr.
Il numero di guasti del computer una variabile aleatoria con distribuzione di Poisson con t 8 . 0 = , e se il
computer ha X guasti in un periodo di t ore, costa
2
X 50 di riparazione.
Che valore di t conviene scegliere per massimizzare l'aspettativa di profitto?
Esempio 7
In una certa citt mediamente 4 guidatori prendono almeno una multa in un mese. Si usi la distribuzione di
Poisson per trovare la probabilit che:
a) 2 guidatori prendano almeno una multa in un dato mese;
b) almeno 4 guidatori prendano almeno una multa in un dato mese;
c) da 2 a 4 guidatori prendano almeno una multa in un dato mese;
d) nessun guidatore prenda multe in un dato mese.
I-29
I.12.1 Una propriet interessante
Si abbiano due intervalli consecutivi t
1
e t
2
, tali che il numero di successi nel primo intervallo
sia retto da una distribuzione di Poisson con media , ed il numero di successi nel secondo
intervallo sia retto da una distribuzione di Poisson con media . Qual la distribuzione di
probabilit per il numero complessivo di successi nellintervallo T = t
1
+ t
2
? Innanzitutto la
probabilit che nel primo intervallo, lintervallo t
1
, vi siano k successi (con k m) data da
( )
! k
e
t ; k P
k
1
=

se nel primo intervallo si sono avuti k successi, perch nella somma dei due intervalli ve ne
siano m occorre che ve ne siano m-k nel secondo intervallo, lintervallo t
2
. La probabilit di
tale evento data da
( )
( )! k m
e
t ; k m P
k m
2
=

Poich i due eventi sono indipendenti (come sempre per eventi retti dalla poissoniana) la
probabilit che nellintervallo t1 vi siano k successi e inoltre nellintervallo t2 vi siano m-k
successi, per quanto gi sappiamo, il prodotto delle probabilit
( ) ( ) ( ) ( )
( )! k m
e
! k
e
t ; k m P t ; k P t ; k m t ; k P
k m k
2 1 2 1
= =

Daltra parte, m successi nellintervallo t
1
+t
2
si possono avere con qualunque ripartizione tra
t
1
e t
2
: 0 ed m, 1 ed m-1, 2 ed m-2 e via dicendo. E naturalmente tutte le combinazioni sono
incompatibili tra di loro. Quindi
la probabilit ( ) ( ) [ ] ( ) ( )
=
=
=
=
=
|
|
\
|
= +
m k
0 k
2 1
m k
0 k
2 1 2 1
t ; k m t ; k P t ; k m t ; k P t t ; m P

Pertanto la probabilit richiesta data da
( ) ( ) ( )
( )

=
=
=
=

= = +
m k
0 k
k m k m k
0 k
2 1 2 1
! k m
e
! k
e
t ; k m P t ; k P t t ; m P
Vediamo con qualche passaggio:
( ) ( )
( )
( )
m
m k
0 k
k m k
m k
0 k
k m k m k
0 k
k m k
! m
e
k
m
! m
e e
! k m ! k
e e
! k m
e
! k
e
+ =
|
|
\
|
=
+ =
=
=
=

=
=

I-30
Cio, la distribuzione di probabilit per il numero di successi nella somma dei due intervalli
data da una poissoniana con parametro + = . Il valore atteso naturalmente
+ = >= < m , cio: il valore atteso del numero di successi nella somma degli intervalli
2 1
t t T + = pari alla somma dei valori attesi del numero di successi nel primo e nel secondo
intervallo.
Applichiamo questo principio che abbiamo scoperto al caso t
1
= t
2
, cio T = 2t
1
.
Pertanto = 2 , e la distribuzione di probabilit diviene:
( ) ( ) ( )
m
2
p 1
2
! m
e
2 ; m b t 2 ; m P = =

Il valore atteso naturalmente >= < 2 m .
I.12.2 Unaltra propriet interessante
Riprendiamo la distribuzione binomiale, e immaginiamo di aumentare il numero di prove N e
diminuire la probabilit di successo in una singola prova p, ma in maniera coordinata:
vogliamo che il prodotto np, cio la media della distribuzione, si mantenga costante. Quindi
se raddoppiamo n dimezziamo p, se dividiamo p per 10 decuplichiamo n e via dicendo. Per
comodit e per non dimenticare la coordinazione tra numero n di prove e probabilit p di
successo in una prova, riscriviamo questultima quantit come rapporto tra la media (che
manteniamo ferma) e il numero n (che lasciamo crescere):
[ ]
( )
k n k
n
1
n ! k ! k n
! n
k P
\
|
\
|
=
Possiamo riscrivere il rapporto tra i fattoriali, e ottenere
[ ]
( ) ( )
k n k
n
1
n ! k
1 k n ... ) 1 n n
k P
\
|
\
| +
=
e fin qui abbiamo fatto solo qualche passaggio. Ora lasciamo crescere n, come detto, e
consideriamo valori di k che siano molto piccoli rispetto ad n: in tal caso possiamo
approssimare i prodotti a numeratore con il prodotto di k volte n, e nellesponente n-k
trascurare k. Otteniamo
[ ]
n k
k
n
1
n ! k
n
k P
|
\
|
\
|

I-31
Facendo ora il limite per n , e osservando che

=
|
\
|
e
n
1 lim
n
n
come certo ricorderemo dal corso di analisi, possiamo scrivere infine
[ ]

e
! k
k P
k
n
cio: la distribuzione binomiale per n con np = dato e fisso, tende alla distribuzione
poissoniana, almeno per valori di k finiti.
Un esempio particolarmente interessante per noi il decadimento radioattivo. Infatti ci
troviamo generalmente in presenza di un grande numero di atomi, solo una parte dei quali
decade in un tempo prefissato. Descriviamolo cos: fissiamo un tempo di osservazione T; ogni
atomo ha una probabilit, che chiameremo T , di decadere nel corso di questo intervallo di
tempo T; sono presenti N atomi tutti uguali, che dal punto di vista del decadimento sono
indipendenti luno dallaltro (le distanze tra un nucleo e laltro sono immense rispetto al
raggio dazione delle forze nucleari responsabili del decadimento); quanti atomi decadranno
nel tempo T? Questo un classico esperimento binomiale, infatti abbiamo:
N repliche indipendenti dello stesso esperimento
Per ogni replica la probabilit di successo (il decadimento durante T) nota e fissa: T
Quindi possiamo scrivere subito la distribuzione di probabilit per il numero di decadimenti k
nel tempo T:
[ ] ( ) ( ) ( )
k N k
T 1 T
k
N
T , N ; k b k P

|
|
\
|
= =
Proviamo a valutare N e T , e per far questo consideriamo 1 g di radio-226. In 1 g di radio
sono presenti
21
23
Ra
A
10 665 . 2
226
10 022 . 6
A
N =
= =
N
atomi. Inoltre sappiamo che 1 g di radio-226 d luogo (mediamente) a
10
10 7 . 3 decadimenti
al secondo, quindi vediamo che la frazione degli atomi presenti che decade (mediamente) nel
lasso di tempo di un secondo pari a
11
21
10
10 388 . 1
10 665 . 2
10 7 . 3

=

I-32
e questo pari alla probabilit che un singolo atomo decada nel predetto lasso di tempo, cio
T (infatti, si deve avere T N np = = ). Ci troviamo precisamente nelle condizioni ideali
per approssimare loriginale distribuzione binomiale con una distribuzione poissoniana, ed in
particolare:
( ) ( ) ( )
( )
T N
k
k N k
e
! k
T N
T 1 T
k
N
T , N ; k b

|
|
\
|
=
ove il prodotto T N assume il valore visto di
10
10 7 . 3 decadimenti.
Esempio 1
Approssimare b(3; 100, 0.03) con la distribuzione di Poisson.
Esempio 2
Un'assicurazione ha 3840 assicurati contro il furto. Se la probabilit che un cliente chieda almeno un indennizzo
in un anno di 1/1200, esprimere la probabilit che in un dato anno lo chiedano 0, 1, 2, 3, 4.... clienti.
Esempio 3
In una certa citt il 6% dei guidatori prende almeno una multa al mese. Si usi la distribuzione di Poisson per
calcolare la probabilit che:
a) 4 guidatori prendano almeno una multa in un dato anno almeno;
b) 3 guidatori prendano almeno una multa in un dato anno;
c) da 3 a 6 guidatori prendano almeno una multa in un dato anno.
Esempio 4
Si trovato che la probabilit che un'auto buchi una gomma mentre transita in una certa galleria 0.00004. Si
calcoli la probabilit che almeno 2 di 10000 auto buchino una gomma mentre transitano nella galleria.
Esempio 5
Lo 0.8% delle spolette consegnate ad un arsenale sono difettose. Si calcoli la probabilit che ve ne siano 4
difettose su un campione casuale di 400.
Esempio 6
Se il 5% dei libri che escono da una legatoria hanno rilegatura difettosa, trovare la probabilit che 2 di 100 tali
libri abbiano rilegatura difettosa usando:
a) la distribuzione Binomiale;
b) la distribuzione di Poisson.
I-33
I.13 Le variabili aleatorie continue
Veniamo alle v.a. continue, che presentano molte somiglianze ma anche alcune peculiarit
rispetto alle v.a. discrete che abbiamo considerato finora.
Una variabile aleatoria continua, ripetiamolo, assume valori lungo un segmento dellasse reale
(eventualmente anche tutto lasse). subito evidente che non possiamo associare eventi a
valori della v.a. con la facilit avuta nel caso delle v.a. discrete. Proviamo a fare un esempio
pratico. Diciamo che mettiamo fuori un secchio (di capacit Z litri) sotto la pioggia e dopo
unora lo ritiriamo e misuriamo quanta acqua ha raccolto. Qui faremo lipotesi assai astratta di
poter misurare lacqua contenuta nel secchio con esattezza, con un numero illimitato di cifre
decimali (anche se nella realt nessuno strumento ha una precisione infinita). Se ripetiamo
questa prova ogni volta che piove, troveremo tanti valori diversi, sicuramente sempre
compresi in un intervallo che va da zero (secchio vuoto, non piove) alla capacit Z del secchio
(secchio pieno). Se pure non facile trovare una relazione chiara, semplice ed esatta come nel
caso dei dadi, possiamo con un po di sforzo di immaginazione pensare a tutte le possibili
intensit di pioggia come eventi casuali, e quindi ai litri di acqua raccolta come a una variabile
aleatoria, che per in questo caso continua: infatti pu assumere qualunque valore
nellintervallo reale [0,Z].
Veniamo alla differenza sostanziale colle v.a. discrete: in quel caso ripetendo un esperimento
a sufficienza, possiamo trovare ripetuto un certo risultato (ad esempio il risultato 12 per una
coppia di dadi) un qualunque numero di volte; nel caso delle v.a. continue, invece, non si
possono in linea di principio ritrovare due risultati identici in tutte le infinite cifre decimali:
due risultati possono essere vicinissimi, ma mai identici. Questo ha una conseguenza
importante ma per capirla bene dobbiamo fare una digressione e parlare della
Interpretazione della probabilit come limite della frequenza
Chi adotta questo punto di vista ragiona in questo modo: se io lancio una moneta bilanciata
100 volte, potr non ottenere esattamente 50 teste e 50 croci, magari saranno, che so, 53 e
47, vale a dire il 53 ed il 47 %; se la lancio 1000 volte non saranno proprio 500 e 500 ma
forse, diciamo, 507 e 493, cio il 50,7 ed il 49,3 % rispettivamente. Verosimilmente se la
lancio 10000 volte, avr un risultato come 5031 e 4969, pari al 50,31 e 49,69 % - insomma,
man mano che cresce il numero di lanci la proporzione, che in questo contesto viene
chiamata FREQUENZA RELATIVA, si avvicina sempre pi al 50%, sia per le teste che per le croci.
Nel limite di infiniti lanci la FREQUENZA RELATIVA tende ad un valore asintotico e questa la
PROBABILIT. Fine dellinciso
I-34
Ora se guardiamo da questo punto di vista il problema posto poco sopra, qual la probabilit
di ottenere un preciso valore della nostra v.a.? bene, sappiamo gi che un valore (un valore
esatto, ricordiamolo) che si presenta una volta non si ripresenta pi, per quante n ripetizioni
facciamo del nostro esperimento, quindi la frequenza relativa 1/n, il cui limite per n
chiaramente zero. Quindi prima GRANDE differenza con la v.a. discrete: la probabilit di
ottenere un preciso valore sempre nulla.
Consideriamo invece un intervallo, diciamo [ ]
2 1
x , x : qui il discorso diverso, molte misure
possono cadere in un intervallo, non si tratta pi di dovere far coincidere infinite cifre
decimali per avere due numeri identici, ma basta farne coincidere alcune, le prime, per avere
due numeri sufficientemente vicini. Prendiamo ad esempio lintervallo tra 1,1 litri e 1,2 litri:
tutte le misure che iniziano con 1,1 entrano in questo intervallo indipendentemente dalle cifre
decimali successive: 1,12; 1,1004; 1,12345678900000000000000000; e via dicendo. Si
capisce che al crescere del numero di ripetizioni n dellesperimento anche il numero di casi in
cui si riscontra un valore rientrante in questo intervallo cresce! Quindi definendo la
probabilit come limite della frequenza relativa otteniamo un numero che pu benissimo
essere diverso da zero.
Stando cos le cose, cio potendo associare una probabilit ad un intervallo di valori ma mai
ad un preciso valore specifico, non ha senso chiaramente definire una distribuzione di
probabilit analoga a quella vista per le v.a. discrete: si avrebbe infatti
( ) 0 x P
X
=
identicamente per qualunque valore di x, e dunque non servirebbe assolutamente a nulla. Si
potrebbe dare una tabella che ad ogni intervallo associa un valore di probabilit? Molto
indaginoso, diciamo pure impossibile visto che i possibili intervalli sono infiniti. Si preferisce
procedere cos: si definisce una funzione ( ) x f
X
che d la probabilit di trovare un risultato in
un intervallo infinitesimo, cio tale che:
( ) ( ) [ ] dx x , x X P dx x f
X
+ =
ma attenzione, ( )dx x f
X
che ha le dimensioni di una probabilit (cio un
numero puro) e non ( ) x f
X
, che ha invece le dimensioni di
1
X
: ( ) x f
X
NON una distribuzione di probabilit bens una DENSIT DI PROBABILIT,
una probabilit per unit di X.
I-35
Nota la densit di probabilit, facilissimo trovare la probabilit su un dato intervallo finito o
infinito sommando su tutti gli intervalli infinitesimi dx che lo compongono, vale a dire
integrando su dx:
( ) [ ] ( )
=
2
1
x
x
X 2 1
dx x f x , x X P
facile definire anche la funzione di ripartizione (spesso detta anche probabilit cumulativa),
infatti:
( ) [ ] ( )

= =
x
X X
' dx ' x f x X P x F
cio, la funzione di ripartizione non che una primitiva della densit di probabilit, ovvero
(cosa che torna spesso comoda per il calcolo) la densit di probabilit altro non che la
derivata della funzione di ripartizione.
Analogamente possiamo definire il valore atteso di ( ) x g : calcoliamo il contributo di ogni
intervallo infinitesimo (e in cui quindi ( ) x g costante) e sommiamo su tutti gli intervalli, cio
ancora una volta integriamo:
( ) [ ] ( ) ( )
+

= dx x f x g x g E
X
In pratica, alla distribuzione di probabilit sostituiamo il prodotto ( )dx x f
X
ed alla
sommatoria sostituiamo lintegrale.
Anche in questo contesto possiamo definire una densit di probabilit congiunta di due
variabili: ( ) y , x f
Y , X
, e anche qui possiamo calcolare la densit di probabilit marginale,
semplicemente integrando rispetto alla variabile che non interessa. Con le opportune
modifiche (integrali invece di sommatorie), valgono tutte le relazioni trovate in precedenza.
Vediamo ora la pi semplice densit di probabilit, la probabilit uniforme su [ ] b , a :
( )
[ ]
[ ]
=
b , a x 0
b , a x
a b
1
x f
X
che vuol dire: la v.a. ha identica probabilit di finire in un qualsiasi intervallino dx compreso
in [ ] b , a ; viceversa non pu assumere valori al di fuori di [ ] b , a .
I-36
I.14 La densit di probabilit Esponenziale
Riprendiamo il procedimento seguito per derivare la Poissoniana, ponendo per attenzione ad
un altro aspetto: non il numero di eventi in un tempo dato, bens il tempo di attesa tra un
evento ed il successivo. Per fare questo mettiamoci nelle identiche ipotesi e, poich vogliamo
sapere quanto tempo trascorrer dallinizio dellosservazione fino al verificarsi dellevento, la
quantit che ci interessa quella che abbiamo chiamato ( ) t P
0
( )
t
0
e t P

=
Questa che cos, da questo punto di vista? la probabilit che nellintervallo [ ] t , 0 non si sia
verificato levento. Se diciamo ( ) t f la densit di probabilit, cio tale che il prodotto ( )dt t f
dia la probabilit che levento si verifichi durante lintervallo [ ] dt t , t + , e indichiamo con ( ) t F
la funzione di ripartizione
( ) ( )
=
t
0
d f t F
che rappresenta la probabilit cumulativa che levento si verifichi nellintervallo [ ] t , 0 , allora
possiamo dire che
( ) ( ) ( )
t
0
e 1 t F t F 1 t P

= =
da cui facilmente troviamo la densit per semplice derivazione:
( ) ( )
t
e t F
dt
d
t f

= =
Tale densit detta DENSIT DI PROBABILIT ESPONENZIALE.
Come si intuisce, molto utilizzata nella teoria delle code, ove occorre modellizzare i tempi
di attesa.
Affrontiamo ora la pi importante di tutte le densit di probabilit: la Gaussiana
I.15 La densit di probabilit Gaussiana
Questa densit si presenta in innumerevoli situazioni, ed importantissimo conoscerla bene.
Tra le altre cose, vedremo che un importante teorema (il teorema del limite centrale) le
attribuisce un valore particolare ed unico tra tutte le densit.
I-37
Essa definita su tutto , e la sua forma matematica la seguente:
( ) ( )
( )
(
(

= =
2
2
X
2
x
exp
2
1
, ; x G x f
Essa dipende da due parametri, e , il cui significato vedremo tra breve. Vediamo
landamento di questa funzione per alcuni valori di e di
2
:
I.15.1 Una propriet molto utile
Sappiamo gi che per calcolare una probabilit occorrer integrare una densit su un
intervallo. Domandiamoci qual la probabilit che una v.a. gaussiana avente parametri e
assuma valori nellintervallo [ ] b , a :
[ ] { } ( )
=
b
a
X
dx , ; x G b , a x P
Proviamo a svolgere lintegrale, ricordando il metodo per sostituzione. Troviamo
successivamente, definendo una nuova variabile

=
x
z :
( ) ( )

=
(

(
(
=
(
(
b
a
2
z
z
2
z
b
a
2
2 b
a
2
2
dz
2
e x
d
2
x
exp
2
1
dx
2
x
exp
2
1
con

=
a
z
a
e

=
b
z
b
.
I-38
La funzione rimasta sotto lintegrale si vede coincidere con una gaussiana avente parametri
0 = e 1 = : questa detta gaussiana normalizzata, o normale, solitamente indicata con
( ) x N (non occorre specificare i parametri perch sono appunto sempre 0 = e 1 = ):
( )
2
x
2
e
2
1
x N

=
Il vantaggio che un integrale di qualunque gaussiana ( ) , ; x G su un intervallo [ ] b , a pu
essere calcolato come integrale della gaussiana normale sullintervallo [ ]
b a
z , z
corrispondente. In pratica questo corrisponde a sostituire ad unarea sotto la gaussiana data,
compresa tra le ascisse a e b, una corrispondente area (di identico valore numerico) sotto la
gaussiana normalizzata compresa tra le ascisse
a
z e
b
z .
Questa propriet pu essere messa a frutto nel seguente modo. Riprendiamo lintegrale:
( ) ( ) ( ) ( ) ( )
a b
z z z
z
z z dz z N dz z N dz z N
a b b
a
= =

La funzione ( ) ( )

=
z
dx x N z si trova tabulata, e dunque basta leggerne il valore per
b
z e per
a
z e fare la differenza. La strategia quindi la seguente:
1. a partire dagli estremi di integrazione a e b (finiti o infiniti che siano) si calcolano gli
estremi normalizzati
a
z e
b
z
2. si leggono i valori della funzione ( ) z in corrispondenza di
a
z e
b
z
3. si fa la differenza
Un esempio di tabella dato alla fine di questi appunti. Si noter che questa fornisce il valore
di ( ) z solo per valori positivi di z. Se servono valori negativi come ci si regola?
Manipoliamo ancora un po lintegrale, ammettendo per esemplificare che
a
z si negativo e
b
z
positivo:
( ) ( ) ( ) ( ) ( ) ( ) ( ) 5 . 0 z 5 . 0 z dz z N dz z N dz z N dz z N dz z N
a b
z
0
z
0
0
z
z
0
z
z
a b
a
b b
a
+ = + = + =

I-39
In definitiva si tratta di sostituire larea compresa tra
a
z (cio,
a
z ) e 0, larea tra 0 e
a
z + , chiaramente identica in virt della simmetria della ( ) z N rispetto al cambio di segno.
I termini 0.5 derivano dal fatto che lintegrale da a 0 vale, appunto, 0.5, e quindi:
( ) ( ) ( ) ( ) 5 . 0 z dz z N dz z N dz z N
0 z z
0
= =

In definitiva in questo caso troviamo
( ) ( ) ( ) 0 . 1 z z dz z N
a b
z
z
b
a
+ =
Svolgendo ragionamenti analoghi, che lasciamo a chi legge, si pu esaminare il caso in cui
ambedue gli estremi siano negativi, giungendo quindi allespressione
( ) ( ) ( ) ( ) ( )
b a
z
z
z
z
z
z
z z dz z N dz z N dz z N
a
b
b
a
b
a
= = =

Esempio 1
La dose di radiazione cosmica ricevuta da un viaggiatore in volo da New York a Los Angeles una variabile
aleatoria con una distribuzione di densit normale con media Sv 5 . 43 = e d.s. Sv 9 . 5 = . Si calcoli la
probabilit che la dose ricevuta da un viaggiatore sia
a) tra 40 e 50 Sv ;
b) almeno 55 Sv .
Esempio 2
La quantit di prodotto che una inscatolatrice mette in un barattolo da 4 etti pu essere considerata una variabile
aleatoria con g 0 . 4 = . Volendo che non pi del 2% dei barattoli contenga meno dei nominali 4 etti di prodotto,
a) per quale valore medio di riempimento bisogna regolare la macchina?
b) Ripetere per g 5 . 2 = .
Esempio 3
Una variabile aleatoria ha una distribuzione normale con 4 . 62 = . Quale ne la deviazione standard se ha una
probabilit di 0.20 di assumere un valore maggiore di 79.2?
Esempio 4
Certe sbarre di plastica estrusa vengono tagliate automaticamente in lunghezze di 60 cm. In realt questa solo
la media poich le lunghezze ricavate sono distribuite intorno a questo valore con una deviazione standard di 6
mm.
a) che frazione delle sbarrette eccede la tolleranza specificata 59.0 - 61.0 cm?
b) a che valore occorre ridurre la deviazione standard perch il 99% rientri nella tolleranza?
I-40
Esempio 5
Le misure del peso specifico di un certo metallo possono essere considerate come una campionatura da una
popolazione normale con d.s. 0.04. Qual la probabilit che la media di un campione casuale di 25 misure sia
entro 0.02 dal valore vero ?
Esempio 6
La distribuzione dei pesi dei viaggiatori (comprensivi di abiti e bagaglio a mano) sulla linea aerea Bologna-
Palermo sia normale con media kg 80 = e d.s. kg 9 = . Qual la probabilit che il peso complessivo di 36
passeggeri sia maggiore di kg 3000 ?
I.15.2 Unaltra utile propriet
Consideriamo la distribuzione binomiale con probabilit p e numero di ripetizioni n:
( )
( )
k n k
q p
! k ! k n
! n
p , n ; k b

= np = ; pqn =
Ricordiamo la formula di Stirling per lapprossimazione del fattoriale di n (valida per n
grande):
n n
n e n 2 ! n

e applichiamola alla precedente espressione
( )
( )
( )
( )
( ) k n k n k k
k n k n n
k n e k n 2 k e k 2
q p n e n 2
p , n ; k b

Semplificando le esponenziali e raccogliendo le potenze omologhe otteniamo

( )
( )
( ) k n k
nq
k n
np
k
k n k
n
2
1
p , n ; k b

|
|
\
|
|
|
\
|
Introduciamo la variabile ridotta

pqn
np k
z

=
ed esprimiamo quindi le quantit nella precedente formula in funzione di z:
pqn z np k + = ; pqn z nq k n =
np
q
z 1
np
k
+ = ;
nq
p
z 1
nq
k n
=

I-41
Passando ai logaritmi troviamo cos:
( )
( )
( ) ( )
|
|
\
|

|
|
\
|
+ +
|
|
\
|

nq
p
z 1 ln npq z nq
np
q
z 1 ln npq z np
n
k n k
2 p , n ; k b ln
Fin qui lunica approssimazione fatta stato utilizzare la formula di Stirling, quindi
implicitamente considerare n, k ed ( ) k n grandi. Limitiamoci ora alla situazione
[ ] nq , np min np k << per cui
1
nq
p
z ,
np
q
z <<
In tal caso possiamo utilizzare una nota approssimazione per i logaritmi per 1 x << , a partire
dallo sviluppo n serie di McLaurin:
( ) [ ]
3 2
x O x
2
1
x x 1 ln + =
Applichiamola quindi al nostro caso, e otteniamo:
( )
( )
|
|
\
|

n
k n k
2 p , n ; k b ln
( ) [ ] ( ) [ ]
|
|
\
|
+
|
|
\
|
+ +
3 2 3 2
z O z
nq
p
nq
p
z npq z nq z O z
np
q
np
q
z npq z np
Svolgendo i prodotti e combinando i termini omologhi si ottiene (lasciamo al lettore il
compito di derivarlo):
( )
( )
[ ]
3 2
z O z
2
1
n
k n k
2 p , n ; k b ln +
|
|
\
|

e qui trascureremo il secondo termine in quanto di ordine superiore. Valutiamo anche la

radice quadrata:
( )
|
|
\
|
|
|
\
|
+ =
nq
p
z 1
np
q
z 1 npq
nq
k n
np
k
npq
n
k n k
e ricordando che i termini con z sono <<1, vediamo che la seconda radice vale allincirca 1.
In definitiva troviamo quindi, esponenziando il logaritmo e ricordando il valore di z
( )
( )
(
(
npq
np k
2
1
exp
npq 2
1
p , n ; k b
2
I-42
che naturalmente la gaussiana avente media np = e d.s. pqn = , vale a dire le stesse
della distribuzione binomiale di partenza.
Esempio 1
La probabilit che un certo tipo di componente elettronico si guasti in meno di 1000 ore di funzionamento
continuativo del 25%. Si calcoli la probabilit che in un campione casuale di 200 pezzi, meno di 45 si guastino
in meno di 1000 ore di funzionamento continuativo.
Esempio 2
Il 20% dei diodi fabbricati da una ditta presenta dei difetti. Si calcoli la probabilit che in un campione casuale
di 100 diodi
a) al massimo 15 siano difettosi;
b) 15 siano difettosi.
I.16 La disuguaglianza di Chebishev
Si abbia una qualunque variabile aleatoria X, con la sola condizione che esista finito il valore
atteso del suo quadrato, cio la quantit
( ) ( )
=
x
X
2 2
x P x X E
se la v.a. discreta, ovvero
( ) ( )
+

= dx x f x X E
X
2 2
se la v.a. continua. Dato un qualunque valore
+
introduciamo una nuova v.a. Y cos
definita
>

=
X
X 0
Y
2
Con questa definizione si ha chiaramente sempre
2
X Y , e quindi analoga relazione varr
tra i valori attesi, cio certamente
( ) ( )
2
X E Y E
Calcoliamo facilmente il valore atteso di Y, infatti questa v.a. assume solo 2 valori, con
probabilit legate alla distribuzione/densit di X:
( ) [ ] [ ] [ ] > = > + = X P X P X P 0 Y E
2 2
I-43
Mettendo insieme le ultime due relazioni troviamo:
( ) [ ] > X P X E
2 2
ovvero, girando un po lequazione
[ ]
( )
2
2
X E
X P
>
e questo risultato appunto la disuguaglianza di Chebishev.
Giochiamo un po con questa disuguaglianza. Per una v.a. X per cui esista finito il valore
atteso del quadrato, avr valore finito anche il valore atteso di X stessa, cio la sua media
( ) X E =
La quantit = X Z a sua volta una v.a., e dunque anche per essa vale la disuguaglianza
di Chebishev. Scriviamola:
[ ]
( )
[ ]
[ ] ( ) ( )
2 2
2
2
2
X V X E
X P
Z E
Z P

>
>
cio, detto in parole: la probabilit che il valore di X si discosti dalla propria media di pi
di pari alla varianza di X divisa per
2
. Da notare che questo vale per qualunque v.a.,
comunque distribuita, alla sola condizione che esista finita la varianza (ad esempio, la
distribuzione di Cauchy non ha varianza, o meglio, questa infinita). Possiamo vedere ancora
un aspetto divertente, se utilizziamo il quadrato della d.s.
2
(quadrato che come sappiamo
la stessa cosa della varianza). Allora possiamo definire la v.a. W nel seguente modo:

=
X
W
Applicando la disuguaglianza:
[ ]
( )
2 2
2
2
2
1
X
E
X
P
W E
W P
|
|
\
|
(
>
>
poich infatti:
[ ] ( )
( )
1
X V
X E
1 X
E
2
2
2
2
=
|
|
\
|
(

I-44
Esprimiamo anche questo in parole: la probabilit che la variabile ridotta
X
assuma
valori esterni allintervallo [ ] , inferiore a
2
1
. Nota che la variabile ridotta in

questione la distanza dalla media espressa in unit di d.s.
I.17 Legge dei grandi numeri
Si abbiano n v.a. iid.
k
X (k=1,2,,n), aventi ognuna media e varianza
2
. Formiamo una
nuova v.a. Y cos definita:
=
=
=
n k
1 k
k
X
n
1
Y
Calcoliamo media e varianza di tale v.a.: ricordando le regole viste al I.10 troviamo subito
( ) ( )

=
=
=
=
=
=
= = =
|
|
\
|
=
n k
1 k
n k
1 k
k
n k
1 k
k
n
1
X E
n
1
X
n
1
E Y E
( ) ( )

=
=
=
=
=
=
=
=
= = =
|
|
\
|
=
|
|
\
|
=
n k
1 k
2
2
2
n k
1 k
k
2
n k
1 k
k
2
n k
1 k
k
n
n
1
X V
n
1
X V
n
1
X
n
1
V Y V
Applichiamo la disuguaglianza di Chebishev:
[ ]
( )
2
2
2
n
Y V
Y P
>
Questo qualunque sia la distribuzione delle
k
X (purch ammetta varianza finita) e qualunque
sia il numero . Come al solito potremmo anche considerare la v.a.
(
(

|
|
\
|
=

=
=
n k
1 k
k
X
n
1 1
W
e col solito procedimento trovare
2
n
1
Y
P
>

In ambo i casi, troviamo che il secondo membro diminuisce al crescere di n (tende a zero per
n ). Ovvero: per qualunque numero , per quanto piccolo, la probabilit che la variabile
Y si discosti dal suo valor medio tende a zero allaumentare di n.
I-45
Possiamo dare a questa affermazione una veste pi tecnica.
Legge (debole) dei grandi numeri: Siano
n 1
X ,..., X v.a iid., aventi ognuna media e
varianza
2
. Sia Y la v.a.cos definita
=
=
=
n k
1 k
k
X
n
1
Y
Siano
+
, , piccoli a piacere. N n : N > si ha
[ ] > Y P
Dim.: basta porre
2
2
N
= e utilizzare la relazione trovata prima.

Nota che la stessa relazione si pu scrivere anche come
[ ] 1 Y P
Applichiamola ad un caso pratico. Le famose v.a. iid.
n 1
X ,..., X siano cos definite:
k
X
assume il valore 1 ovvero 0 con probabilit, rispettivamente, p ovvero p 1 q = . Possiamo
pensarle come collegate ad un esperimento ripetuto n volte, ogni volta con due esiti possibili:
successo o insuccesso, quindi la k-esima v.a. assume i valori 1 e 0 rispettivamente a seconda
che il k-esimo esperimento abbia dato luogo ad un successo oppure no. In tal caso la somma
k
X coincide con il numero di successi in n tentativi, chiamiamolo
S
n . Pertanto, la
variabile aleatoria Y il rapporto tra il numero di successi ed il numero di tentativi, cio la
frequenza relativa dei successi.
n
n
X
n
1
Y
S
n k
1 k
k
= =

=
=
Calcoliamo il valore atteso e la varianza della generica
k
X :
( ) p q 0 p 1 X E
k
= + = ( ) ( ) ( ) ( ) pq q p pq q p 0 p p 1 X V
2 2
k
= + = + =
Da qui, applicando le regole ormai note, troviamo:
0
n
pq
p
n
n
P
n 2
S

>

Come dire: p
n
n
n
S

, la frequenza relativa tende a coincidere con la probabilit al
crescere di n. Per esempio, il numero di croci nel lancio di una moneta si avvicina sempre pi
I-46
alla met esatta dei lanci man mano che il numero di questi ultimi cresce. Ecco, a posteriori,
la giustificazione della definizione di probabilit come limite per n della frequenza
relativa, che abbiamo visto al I.13
I.18 Il teorema del limite centrale
Premettiamo che estrarre un campione di taglia n vuol dire pescare a caso n elementi, cio
nel caso che esamineremo ora generare in maniera casuale n valori della variabile aleatoria
in esame. Ci detto:
si abbia una distribuzione ovvero densit qualunque (non necessario che sia gaussiana),
avente media e varianza
2
. Da questa si estrae un campione di taglia n, dopodich si
calcola la media aritmetica di tale campione:
=
=
n
1 i
i
x
n
1
x
Ripetiamo lesperimento: estraiamo un nuovo campione di taglia n e calcoliamone la media
aritmetica: in generale questa sar differente da quella del primo campione (solo
occasionalmente potranno capitare due valori uguali). Ripetiamo il processo un gran numero
di volte: il valore di x assumer tanti possibili valori, x stesso infatti una variabile aleatoria
(in quanto somma di variabili aleatorie). Domandiamoci: che distribuzione avr tale variabile
aleatoria? Il teorema del limite centrale afferma che:
la media aritmetica di un campione di taglia n proveniente da una popolazione
avente media e varianza
2
d origine ad una popolazione che, al crescere di n,
tende ad una gaussiana avente media e varianza
n
2
In parole povere: gaussiana (almeno per n abbastanza grande), la sua media uguale a
quella della popolazione da cui si campionato, la sua varianza n volte pi piccola della
varianza della popolazione da cui si campionato.
Non affronteremo la dimostrazione di questo teorema, tuttavia possiamo facilmente provare
quanto afferma a proposito della varianza. Infatti, sappiamo che la varianza della somma di
v.a. indipendenti pari alla somma delle singole varianze, e inoltre ogni costante
moltiplicativa si pu portare fuori dalla varianza elevandola al quadrato, quindi, poich si
tratta di una somma di v.a. i.i.d. (indipendenti ed identicamente distribuite) che hanno
ovviamente tutte la stessa varianza:
I-47
( ) ( ) ( ) ( )
( )
n
x V
x V n
n
1
x V
n
1
x V
n
1
x V
n
1
x
n
1
V x V
2
n
1 i
2
n
1 i
i
2
n
1 i
i
2
n
1 i
i
= = = =
|
|
\
|
=
|
|
\
|
=

= = = =
I-48
I.19 La densit di probabilit del
2
(Chi-quadro)
Abbiamo visto la densit di probabilit gaussiana, consideriamo ora una v.a. X distribuita
secondo una gaussiana standard, vale a dire con media nulla e d.s. unitaria.
Se definiamo una nuova v.a.
2
X Y = , come sar distribuita? Bene, essa seguir una densit di
probabilit nota come chi quadrato a 1 grado di libert, in simboli
2
] 1 [
. Questa densit ha
unespressione analitica, che non riporteremo perch esula dai nostri scopi. Prendiamo ora n
v.a. i.i.d., tutte aventi densit gaussiana standard, chiamiamole
n 2 1
X , ... , X , X , e formiamo la
nuova v.a.
=
=
n
1 k
2
k
X Z . Come sar distribuita? Essa avr una densit di probabilit detta chi
quadrato a n gradi di libert, in simboli
2
] n [
. Anche di questa non diamo qui lespressione
analitica. Vediamo per un grafico dellandamento di tale densit per diversi valori di n.
Come tutte le densit, lintegrale di
2
] n [
su tutto il dominio di definizione pari a 1. Anche in
questo caso possiamo cercare il valore della z per cui lintegrale da z a risulti pari ad un
valore specificato : ad esempio 0.05 o 0.01, cio quel valore di z tale che la probabilit di
trovare un valore maggiore di questo sia pari ad (ad esempio 5% o 1%).
I-49
Tali valori vengono chiamati VALORI CRITICI. Vediamo una tabella con vari valori critici:
Immaginiamo ora il seguente esperimento: si gettano 2 dadi e si registra il risultato, che sar
un numero intero compreso tra 2 e 12, poi si gettano nuovamente e cos via, finch si sono
fatti un certo numero di lanci, ad esempio 180. A questo punto contiamo quante volte uscito
il 2, quante il 3 e via dicendo. Naturalmente, sappiamo qual la probabilit per ognuno dei
risultati possibili, che possiamo riepilogare in una tabellina:
k 2 3 4 5 6 7 8 9 10 11 12
P(k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
I-50
Graficandola troviamo il ben noto andamento triangolare:
Da questa distribuzione di probabilit possiamo immediatamente calcolare il valore atteso per
il numero di volte in cui, su 180 tentativi, escono i diversi valori possibili, semplicemente con
la solita formula:
( ) ( ) k P N k E =
che per N pari a 180 e per i vari valori di P(k) ci fornisce tutti i valori attesi per il nostro
esperimentino. Possiamo raccoglierli in una comoda tabellina:
k 2 3 4 5 6 7 8 9 10 11 12
E(k) 5 10 15 20 25 30 25 20 15 10 5
chiaro per che in ogni ripetizione dellesperimento (cio della serie di 180 lanci dei dadi)
otterr sequenze di 11 numeri che solo eccezionalmente coincideranno con quella in tabella.
Ragioniamo ad esempio sul valore 2 k = : si tratta di prevedere quante volte si otterr questo
valore su una serie di 180 tentativi (diciamo
2
n tale numero di volte), sapendo che ad ogni
tentativo la probabilit di successo (cio, in questo caso, di fare 2) pari ad 1/36. Sappiamo
calcolare la probabilit di avere 0 oppure 1 oppure 2 etc. risultati utili: questa data dalla
binomiale ( ) ( ) 36 / 1 , 180 ; n b n P
2 2
= . In definitiva ripetendo tantissime volte il nostro
esperimento (ogni volta composto di 180 lanci, in cui conto quante volte esce il valore 2)
otterremo vari valori, tutti compresi ovviamente tra 0 e 180, che si presenteranno con
frequenze diverse. Il valor medio sar il valore atteso, che come gi sappiamo 5, ma
potremo ottenere tutti i valori, pi o meno spesso. Questo lo possiamo ripetere per tutti i
I-51
risultati k, contando il numero di successi
k
n ognuno dei quali sar distribuito secondo una
binomiale con lopportuno valore di probabilit (2/36, o 3/36 etc.). In realt, per luso che
faremo tra poco di questo fatto, approssimeremo questa binomiale con una poissoniana avente
come parametro il valore atteso, quindi:
( ) ( ) ( ) k E ; n b n P
k p k
=
e quindi assumeremo come varianza il valor medio stesso
( ) k E
2
n
k
=
Attenzione: questa la varianza della distribuzione di
k
n (numero di volte in cui si ottenuto
il risultato k, che distribuito secondo la binomiale approssimata con la poissoniana), e NON
la varianza della distribuzione di k (il numero ottenuto in un singolo lancio dei dadi, che ha la
distribuzione di probabilit triangolare vista prima).
Per chiarire meglio questa distinzione osserviamo la figura seguente:
Qui la linea a tratteggio rappresenta la distribuzione triangolare delle probabilit, quindi anche
dei valori attesi, mentre i cerchietti pieni uniti dalle linee continue sono le distribuzioni
poissoniane dei diversi
k
n . Formiamo ora la seguente quantit, che provvisoriamente
chiameremo
2
S (S per somma, 2 perch di quadrati)
( ) ( ) ( ) ( ) ( )
( )

= = =
=
|
|
|
\
|
=
12
2 k
2
k
12
2 k
2
n
2
k
12
2 k
2
n
k
2
k E
k E n k E n k E n
S
k
k
I-52
cio, per ogni valore di k facciamo la differenza tra il numero di volte
k
n in cui il valore k
effettivamente uscito nel nostro esperimento e il valore atteso di tale numero, ( ) k E ;
Formiamo ora la seguente quantit, che provvisoriamente chiameremo
2
S (S per somma, 2
perch di quadrati)
( ) ( ) ( ) ( ) ( )
( )

= = =
=
|
|
|
\
|
=
12
2 k
2
k
12
2 k
2
n
2
k
12
2 k
2
n
k
2
k E
k E n k E n k E n
S
k
k
cio, per ogni valore di k facciamo la differenza tra il numero di volte
k
n in cui il valore k
effettivamente uscito nel nostro esperimento e il valore atteso di tale numero, ( ) k E ;
quadriamo tale differenza e dividiamola per il quadrato della deviazione standard
k
n
,
quadrato che come ben sappiamo coincide (circa) con il valore atteso trattandosi (circa) di una
poissoniana. Anche
2
S una v.a., in quanto combinazione di v.a., quindi a questo punto
viene da domandarsi come distribuita: bene, distribuita come una variabile chi quadro a 10
gradi di libert:
2
] [
con 10 1 11 = = . Perch perch 10 e non 11, visto che abbiamo 11
valori possibili per k, ed infatti facciamo una sommatoria su 11 termini? Facciamo una
considerazione: se conosciamo il valore di
k
n per 10 valori di k, lundicesimo determinato
dal fatto che N n
12
2 k
k
=
=
, nel nostro caso 180 n
12
2 k
k
=
=
. Gli 11 valori non sono indipendenti:
un po come quando in un sistema le equazioni non sono linearmente indipendenti bens una
pu essere ricavata come combinazione lineare delle altre. Quindi il numero di gradi di libert
pari al numero di dati indipendenti, se diciamo M il numero dei dati (nel caso appena visto
11), J il numero di equazioni che legano i dati (nel nostro caso 1) e il numero di gradi di
libert avremo lequazione:
J M =
Questa quantit
2
S ci d la distanza complessiva, per cos dire, del risultato trovato da
quello ideale (i valori attesi). Cosa ci dovremmo aspettare? In un esperimento reale ben
difficilmente i diversi
k
n coincideranno tutti col loro valore atteso, cosa che darebbe 0 S
2
= :
diciamo che tipicamente potremo aspettarci che distino circa un d.s., quindi che il rapporto
che andiamo a quadrare sia dellordine di 1, e quindi che M S
2
.
I-53
Vediamo per cosa succede se i dadi sono truccati allora le probabilit per i diversi risultati,
le ( ) k P per intenderci, non sono pi quelle che credevamo! Quindi i valori attesi cambiano.
Quindi cambiano le distribuzioni dei diversi
k
n , sempre (circa) poissoniane ma con un
parametro ( ( ) k E appunto) diverso. Se quindi io calcolo la 0 S
2
= facendo riferimento ai
valori attesi calcolati con le probabilit oneste, quelle cio della tabellina, ma con gli
k
n
generati da dadi truccati per cui quelle probabilit in realt non valgono pi, verosimilmente
trover per
2
S un valore pi grande, tanto pi grande quanto pi i valori attesi veri sono
lontani da quelli onesti. Questo suggerisce un metodo per testare i dadi: facciamo N lanci
(ad esempio 180) conto i successi per tutti i valori di k (che pu assumere i valori da 2 a 12),
formo la somma
2
S e vado a vedere che numero mi viene fuori. Ma facciamo prima un
esempio pratico, con 180 N = .
k
k
n ( ) k E
( ) ( )
( ) k E
k E n
2
k

2 3 5 0,8
3 6 10 1,6
4 12 15 0,6
5 17 20 0,45
6 23 25 0,16
7 31 30 0,033333
8 27 25 0,16
9 23 20 0,45
10 17 15 0,266667
11 13 10 0,9
12 8 5 1,8
TOT 180 180 7,22
Ora possiamo domandarci: di quanto si discosta da quello che ci si aspetterebbe? Poco, infatti
il risultato addirittura inferiore a M (cio 11). Ma vediamolo in modo pi tecnico: qual
la probabilit che una v.a. distribuita come
2
] 10 [
assuma un valore pari o superiore a quello
trovato? Senza fare un calcolo accurato, andiamo nella tabella e vediamo che il nostro valore
compreso tra i valori critici 4,865 e 9,342, che corrispondono rispettivamente a una
I-54
probabilit (di venire superati) di 0,90 e di 0,50: quindi il valore 7,22 ha una probabilit
sicuramente superiore a 0,50 di essere superato. Non abbiamo motivo di dubitare dei nostri
dadi. Facciamo un altro esperimento con dadi diversi:
k
k
n ( ) k E
( ) ( )
( ) k E
k E n
2
k

2 3 5 0,8
3 5 10 2,5
4 8 15 3,266667
5 14 20 1,8
6 22 25 0,36
7 29 30 0,033333
8 29 25 0,64
9 25 20 1,25
10 19 15 1,066667
11 16 10 3,6
12 10 5 5
TOT 180 180 20,31667
Se andiamo a controllare sulla tabella dei valori critici, vediamo che un chi quadro a 10 gradi
di liberta ha il 2,5% di probabilit di superare 20,483 (che circa il valore che abbiamo
trovato): questo cosa vuol dire? Vuol dire: se i dadi che abbiamo usato sono onesti (cio se
la distribuzione di probabilit proprio quella triangolare della tabellina) possiamo ottenere
il risultato visto, a causa delle fluttuazioni statistiche, solo con una probabilit del 2,5%.
Questo logicamente ci fa nascere seri dubbi sullonest di questi dadi, cio, in termini
matematici, sul fatto che la distribuzione triangolare della tabellina sia effettivamente quella
seguita dai dadi in esame. Questo argomento naturalmente di validit pi generale, e pu
essere applicato a qualunque problema in cui ho a che fare con dei conteggi. Noi infatti lo
applicheremo al caso delle misure nucleari. Qui la distribuzione di k non pi triangolare,
bens poissoniana, e quindi se eseguo N misure e le classifico sulla base del conteggio
ottenuto avr, ancora una volta, un certo numero M di gruppi, ognuno corrispondente ad un
valore di k, entro cui cadranno
k
n misure, colla condizione solita che N n
k
k
=
. Avr
quindi M-1 dati indipendenti. Se conosco il parametro della poissoniana, chiamiamolo come
I-55
al solito, posso immediatamente scrivere le ( ) k P e quindi i valori attesi ( ) k E , e senza
difficolt calcolare il solito
2
S che sar distribuito come un
2
] 1 M [
. Questo mi permette di
valutare se i dati che ho ricavato sono verosimilmente campionati dalla poissoniana con
parametro , oppure se mi sbaglio e sto misurando una cosa diversa da quella che credevo.
Ma facciamo il caso pi usuale: io NON conosco , bens faccio le misure e poi cerco di
farmi unidea sul suo valore. Tipicamente stimer facendo il valore medio delle mie misure
k e dicendo che k . Ora che conosco (sia pure approssimativamente) posso calcolare i
valori attesi e ( ) k E e quindi
2
S . Facciamo due osservazioni:
1) quello che sto facendo un fitting: cerco di fittare i dati ad una poissoniana di cui cerco di
individuare il parametro ;
2) per fare questo ho dovuto calcolare il parametro a partire dai dati: quindi, siccome lo
user poi per il chi quadrato, come dire che ho una seconda relazione tra i dati oltre alla
N n
k
k
=
, vale a dire in particolare = =

k
k
N
1
kn k . Quindi i gradi di libert
diminuiscono di unaltra unit.
Questultimo fatto si pu anche capire intuitivamente dal seguente ragionamento. Il valor
medio k viene calcolato come quel numero che minimizza gli scarti dai dati effettivamente
raccolti, per definizione. Se gli scarti li facessi rispetto al vero (che non conosco, ma
ragioniamo in via ipotetica) sarebbero sicuramente maggiori, quindi avrei un chi quadro
maggiore. Ottengo lo stesso risultato paragonando il numero che ottengo al chi quadro con un
numero di gradi di libert inferiore.
In definitiva: calcolo
2
S e lo paragono al
2
] 2 M [
.
Questa regola pi generale: se avessi fatto un fitting ad una gaussiana, per cui avrei dovuto
calcolare dai dati 2 parametri ( e ) avrei dovuto ridurre di 2 il numero di gradi di libert.
Quindi la formula generale
G 1 M =
ove G il numero di tutti i parametri che ho dovuto calcolare dai dati per poter calcolare poi
2
S , e il 1 dovuto, come al solito, al fatto che N n
k
k
=
, cio che noti M-1 valori di

k
n
lM-esimo univocamente determinato dal fatto che il tutto deve sommare ad N.
Consideriamo ora il seguente esempio di poissoniana non nucleare. Una produzione di
pannelli di compensato viene osservata per 201 giorni lavorativi, e ogni giorno viene
I-56
registrato il numero di difetti riscontrati nellintera produzione della giornata. Si ottiene il
seguente risultato
n. difetti n. giorni
0 102
1 59
2 31
3 8
4 0
5 1
6 0
tot 201
Partendo dal presupposto che la generazione di difetti casuale e quindi distribuita come una
poissoniana, occorre valutare il parametro di tale distribuzione. Notiamo che le ultime 4 classi
contengono pochissimi difetti, quindi le accorpiamo (il metodo funziona bene se tutte le classi
hanno almeno 5 risultati), inoltre calcoliamo la media ottenendo 74627 , 0 k = , e con
questo dato calcoliamo i valori attesi. Troviamo il seguente risultato:
k
k
n ( ) k E
( ) ( )
( ) k E
k E n
2
k

0 102 95,3 0,471039
1 59 71,12 2,065444
2 31 26,54 0,749495
3 9 8,04 0,114627
TOT 201 201 3,400605
Ora abbiamo 4 M = , abbiamo stimato un solo parametro, quindi 2 1 1 4 = = , andiamo
quindi a vedere la distribuzione
2
] 2 [
. Vediamo dalla tabella dei valori critici che alla
probabilit 0.50 corrisponde il valore 1,386, mentre alla probabilit 0,10 corrisponde 4,605: il
valore trovato da qualche parte tra 50% e 10% di probabilit, quindi certo accettabile. In
particolare servendosi di un calcolatore (se ne trovano a iosa su internet) troviamo che al
I-57
valore 3,40 corrisponde una probabilit del 18,26% di venire superato nelle normali
oscillazioni statistiche, cio capita quasi una volta su 5. Il nostro fitting dunque promosso.
Esercizio: regolare il tempo di conteggio in modo tale da ottenere intorno ai 20-25 colpi in un
periodo. Ripetere il conteggio 50 volte. Si saranno determinati diversi valori, di cui uno pi
piccolo ed uno pi grande di tutti: definire 8 intervalli in cui categorizzare le misure, quindi
contare quante misure cascano in ogni intervallo. Idealmente, nessun intervallo dovr
contenerne meno di 5, quindi eventualmente ridefinire gli intervalli. Applicare la procedura
vista sopra. A titolo di esercizio calcolare anche la varianza campionaria e verificare che sia
prossima alla media campionaria (cf. cap. II).
I-58
II PARTE: STATISTICA
II.1 Cos la statistica?
La statistica segue, in un certo senso, il cammino inverso di quanto fatto finora: fin qui, nota
la distribuzione ed i parametri che la caratterizzano, abbiamo calcolato la probabilit dei vari
esiti. La statistica cerca di invece di desumere i parametri dagli esiti osservati, avendo
postulato la distribuzione. Ad esempio: si sa che un certo processo aleatorio governato da
una distribuzione di probabilit di Poisson, e le misure effettuate hanno dato certi risultati; da
questi risultati cerchiamo di dedurre quale deve essere il parametro della distribuzione. Od
anche: un certo apparato inscatola caff, e il peso che immette verosimilmente distribuito
come una gaussiana; da unopportuna serie di misure sul prodotto, si cerca di stimare i
parametri della distribuzione, e .
In generale per stimare un parametro si utilizza una quantit calcolata a partire dai dati
sperimentali, che viene appunto detta ESTIMATORE. Un estimatore deve soddisfare prima di
tutto alla condizione che il suo valore atteso coincida appunto col valore del parametro
cercato. Per chiarire cosa si intenda con questa affermazione anticipiamo un risultato che
discuteremo meglio fra poco: se da una popolazione estraggo un campione di taglia n (ad
esempio, ho misurato il peso di caff in n barattoli) e faccio la media aritmetica degli n valori,
vedremo che il valore atteso di questa media proprio il parametro della densit di
probabilit da cui ho campionato (nellesempio: la media della gaussiana che descrive il
riempimento dei barattoli).
Esistono anche procedure statistiche che fanno considerazioni di altro tipo, e in cui non
vengono determinati degli estimatori di parametri: sono dette statistiche non parametriche, ma
qui non ce ne occuperemo. In questi appunti ci interesseremo solo della statistica dei
campioni, in particolare volta a stimare parametri ed errori.
La prima cosa che vogliamo discutere sono le medie e le varianze campionarie, cio dei
campioni, argomento del prossimo paragrafo.
II.2 La media campionaria
Un campione un certo numero, diciamo n, di esemplari tratti da una popolazione che pu
essere finita o infinita. Questo viene detto CAMPIONE DI TAGLIA N.
I-59
Se da un popolazione si estrae un campione di taglia n, si pu calcolare la media aritmetica di
tale campione:
=
=
n
1 i
i
x
n
1
x
tale quantit detta MEDIA CAMPIONARIA ed un buon estimatore della media della
distribuzione da cui si campionato, infatti calcoliamone il valore atteso:
( ) ( ) = = =
|
|
\
|
=

= = =
n
1 i
n
1 i
i
n
1 i
i
n
1
x E
n
1
x
n
1
E x E
Esso proprio uguale alla media .
II.3 La varianza campionaria
Si consideri nuovamente un campione di taglia n, e si esaminino due casi possibili:
1) si conosce la media della distribuzione da cui abbiamo campionato. Si calcoli la somma
degli scarti quadratici da tale media:
( )
=
n
1 i
2
i
x S
Domandiamoci qual il valore atteso di tale quantit. Svolgiamo il quadrato ed
applichiamo le regole che conosciamo per il valore atteso della somma
( ) [ ] =
|
|
\
|
+
|
|
\
|

|
|
\
|
=
|
|
\
|
+ =

= = = =
n
1 i
2
n
1 i
i
n
1 i
2
i
n
1 i
2
i
2
i
E x 2 E x E x 2 x E S E
( ) ( ) ( ) ( ) ( ) ( )
2 2 2 2
n
1 i
2
n
1 i
i
n
1 i
2
i
n x nE n x E n 2 x nE E x E 2 x E = + = + =

= = =
dal che si trova immediatamente il risultato
[ ]
( ) ( ) x V x E
n
x 2 x
E
n
S
E
2 2
n
1 i
2
i
2
i
= =
|
|
\
|
+
=
|
|
\
|
e pertanto
S
n
1
adatto come estimatore della varianza.
2) non si conosce la media della distribuzione da cui abbiamo campionato. Dobbiamo
quindi calcolare in primo luogo la media campionaria, che un estimatore della media
I-60
suddetta, chiamiamo tale quantit x . Poi calcoliamo la somma degli scarti quadratici da
tale media campionaria:
( )
=
=
n
1 i
2
i x
x x S
Anche qui sviluppiamo un po il quadrato, aggiungendo e sottraendo la quantit (ignota)
e calcoliamo il valore atteso:
( ) ( ) ( ) [ ] ( ) ( )( ) ( ) =
(
(
+ =
|
|
\
|
=

= = = =
n
1 i
2
n
1 i
i
n
1 i
2
i
n
1 i
2
i x
x x x 2 x E x x E S E
( ) ( ) ( ) =
(
(
+
|
|
\
|
=

= =
2
n
1 i
i
n
1 i
2
i
x n n x x 2 x E
( ) ( ) ( ) =
(
(
+
|
|
\
|
=

= =
2
n
1 i
i
n
1 i
2
i
x n x
n
1
n x 2 x E
( ) ( ) ( ) ( ) ( ) =
(
(
=
(
(
+ =

= =
2
n
1 i
2
i
2 2
n
1 i
2
i
x n x E x n x n 2 x E
( ) ( ) [ ]
2
n
1 i
2
i
x E n x E
(
(
=

=
Il primo termine lo conosciamo gi, il medesimo calcolato pocanzi. Il secondo termine
il prodotto di n per la varianza di x , e questultima legata alla varianza di x (teniamo
presente che x la media di un campione di taglia n, e si ricordi la discussione fatta in
proposito nel paragrafo sul teorema del limite centrale)
( ) [ ] ( ) { }
( )
( ) x V
n
x V
n x V n x E n
2
=
)
`
= =
Mettendo tutto insieme troviamo quindi:
( ) ( ) ( ) ( ) ( ) x V 1 n x V x nV S E
x
= = ( ) x V S
1 n
1
E
x
= |
\
|
Vediamo che il fatto di utilizzare x invece del valore vero della media introduce
unulteriore incertezza (il termine ( ) [ ]
=

n
1 i
2
x E , appunto), e quindi la varianza
campionaria un po pi grande, e la si ottiene dividendo la somma degli scarti
quadratici per 1 n anzich per n, quindi:
( )
1 n
x x
s
n
1 i
2
i
=
I-61
II.4 La stima di e lintervallo di confidenza (IC)
Abbiamo visto che la media campionaria un buon estimatore di , la media della
popolazione da cui si sta campionando. Abbiamo altres visto ( I-18) che la media
campionaria x ha una distribuzione che
ha media
ha varianza ( ) n /
2 2
x
= , ovvero deviazione standard n /
x
=
al crescere di n tende ad una gaussiana (e lo per qualunque n se la distribuzione di
partenza gaussiana)
Se partiamo dallipotesi che sia una gaussiana possiamo osservare che:
( ) { } = +

2 1 z , z x P
x x
ove con
z si indichi il valore della variabile gaussiana standard a destra del quale resta la
frazione di probabilit: ad esempio
05 . 0
z quel valore che lascia a destra il 5% della
probabilit complessiva. In maniera pi tecnica potremmo dire che la variabile normalizzata
n /
x
z

=
distribuita come una gaussiana standard, e pertanto
( ) { } = +

2 1 z , z z P
Ora, ( )
x x
z , z x +

equivale a
[ ] [ ]
x x
z x z x + < >

ovvero, girando le due disuguaglianze:
[ ] [ ] ( )
x x x x
z x , z x z x z x + > + <

da cui troviamo la probabilit:
( ) { } = +

2 1 z x , z x P
x x
Possiamo pertanto associare allintervallo ( )
x x
z x , z x +

la probabilit ( ) 2 1 .
II.5 La distribuzione t, o di Student
Le cose si complicano se non conosciamo la d.s. della popolazione dorigine: in tal caso
dobbiamo stimarla dai dati, tramite la d.s. campionaria s. Sappiamo bene come farlo,
beninteso, ma certamente questa procedura introduce una nuova incertezza. E infatti la
I-62
variabile normalizzata analoga alla precedente ma calcolata utilizzando s al posto di , che
per distinguerla dalla precedente chiameremo non pi z bens t, definita quindi come
n / s
x
t

=
non distribuita come una gaussiana bens secondo la funzione di Student, o DISTRIBUZIONE
T. Notiamo che la distribuzione t non univoca, bens varia al variare della taglia del
campione. In particolare fra le diverse curve occorre scegliere quella corrispondente al
numero di gradi di libert n-1, dove n la taglia del campione. Per il resto tutto va come nel
caso precedente, e detto
t il valore della variabile di Student a destra del quale resta la

frazione di probabilit, si ha
( ) { } = +

2 1 t x , t x P
x x
La differenza naturalmente che (come si vede dal grafico) si ha sempre

> z t , e tanto pi
quanto minore n, mentre la curva tende alla gaussiana e quindi

z t per n .
Distribuzione t, o di Student al variare del numero di gradi di libert (df = degrees of freedom)
I-63
I-64
I-65
I-66
I-67
I-68

Appunti Di Probabilita

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Appunti Di Probabilita

Enviado por

Direitos autorais:

Formatos disponíveis

Prof. Ing.

Domiziano Mostacci Appunti di probabilit e statistica di conteggio

V. pertanto il numero di combinazioni (senza ripetizione) di n oggetti ad r ad r (cio le r-

Prof. Ing. Domiziano Mostacci Appunti di probabilit e statistica di conteggio

Prof. Ing. Domiziano Mostacci Appunti di probabilit e statistica di conteggio

Semplificando le esponenziali e raccogliendo le potenze omologhe otteniamo

Introduciamo la variabile ridotta

Prof. Ing. Domiziano Mostacci Appunti di probabilit e statistica di conteggio

e qui trascureremo il secondo termine in quanto di ordine superiore. Valutiamo anche la

. Nota che la variabile ridotta in

= e utilizzare la relazione trovata prima.

, vale a dire in particolare = =

, cio che noti M-1 valori di

t il valore della variabile di Student a destra del quale resta la

Você também pode gostar