Você está na página 1de 75

Non mi fido molto delle statistiche, perch

un uomo con la testa nel forno acceso e i


piedi nel congelatore statisticamente ha una
temperatura media.
attr. a Charles Bukowski

Cose la Statistica?
La

statistica

una scienza che studia


quantitativamente i fenomeni collettivi di
qualche interesse in un determinato ambito.

Due statistiche
Lintera collettivit oggetto di studio si chiama
popolazione o universo. La statistica che descrive
landamento di fenomeni riguardanti tutto linsieme
definita statistica descrittiva.
Se invece si prende in considerazione una parte
(detta campione) della popolazione e da essa si
intuiscono gli altri valori, si parla di statistica
inferenziale.

Indagine statistica
Si chiama indagine statistica lanalisi di fenomeni
collettivi eseguita secondo criteri statistici. Se eseguita
sullintera popolazione si parla in genere di
censimento; se prende in esame solo una parte (detta
campione), si definisce rilevazione campionaria.
La propriet che si vuole misurare o enumerare detta
carattere. Esso :
quantitativo (variabile statistica), se le varianti con
cui si presenta sono numeri o misure (detti valori)
qualitativo (mutabile), se le varianti con cui si
presenta sono qualit (dette modalit)

I passi di unindagine statistica


1. Analisi del problema
2. Definizione degli obiettivi dellindagine
3. Rilevazione (autocompilazione o intervista),
spoglio e classificazione dei dati
4. Elaborazione dei dati e presentazione sintetica dei
risultati con grafici e tabelle
5. Interpretazione dei risultati

Frequenze
Ogni studio statistico ha a che fare con un numero pi
o meno ampio di dati: la loro classificazione
fondamentale per rendere pi agevole e preciso il
lavoro di elaborazione e interpretazione. Lutilizzo di
indici numerici per indicare la frequenza con cui una
modalit (caratt. qualitativo) ritorna nellindagine ha
proprio questa specifica funzione.
La frequenza assoluta indica il numero di volte in cui
una modalit ricorre.
La frequenza relativa il rapporto fra la frequenza
assoluta e il numero totale di rilevazioni (spesso
indicata in percentuale).

Brand dei cellulari nella II B


Freq. assoluta

Freq. relativa

Apple

4,76%

LG

4,76%

Nokia

13

61,90%

Samsung

28,57%

TOTALE

21

100,00%

Classi
Nella classificazione invece di caratteri quantitativi, pu
essere necessario raggruppare le frequenze in classi (o
intervalli) fra due valori, detti limiti (inferiore e
superiore), in modo da semplificare la lettura delle
tabelle e lelaborazione, ammettendo una piccola
perdita in precisione.
Lavorando con dati raggruppati per classi possibile
anche utilizzare la frequenza cumulata (relativa o
assoluta), che equivale alla somma della frequenza della
classe stessa con tutte quelle che precedono.

Gli amici di Facebook nella II B


Classi

Freq. assoluta

Freq. relativa

Freq. cumul.
assoluta

Freq. cumul.
relativa

0-100

0%

0%

101-200

22%

22%

201-300

11%

33%

301-400

33%

12

67%

401-500

17%

15

83%

501-600

11%

17

94%

601-700

6%

18

100%

TOTALE

18*

100%

*18 sono le persone iscritte a Facebook

Istogramma per classi


Mesi di nascita nella II B
Frequenza

4
3
2
1
0

Istogramma in pila
Finalita dellutilizzo del computer nella II B

Tempo in minuti

250
200
150

Altro
Facebook

100

50
0

Studenti II B

Istogramma in pila in %
Finalita dellutilizzo del PC nella II B
Tempo in minuti

100%
80%

Altro
Facebook

60%
40%
20%
0%

Studenti II B

Areogramma (diag. a torta)


Brand dei cellulari nella II B
1; 5%

1; 4%

1; 5%

6; 27%

Apple
LG
Nokia
Samsung
Sony-Ericsson
13; 59%

Diagramma a linee (cartesiano)


Libri pubblicati e stampati in Italia
350.000
300.000
250.000

200.000

Opere pubblicate

150.000

Tiratura complessiva
(in migliaia di copie)

100.000

50.000

[Dati Istat]

1985

1990

1995

2000 2005

Ideogramma
Generi di TV frequentati nella II B
Rai

Alice TV

Mediaset

11

13

DTV

8
Premium

Satellite

14

SKY

12

Diagrammma a radar

I quadri orari settimanali del Sarpi


40

IV

30
20
III

10

Materie

Ore

Ore2

II

[Dati Liceo Sarpi]


(Ore=curv.
scientifica vecchio
ordinamento;
ore2=nuovo ord.)

Cartogramma a colori
Luoghi di produzione delle scarpe della II B

Cina

Vietnam

Indonesia

Italia

Cartogramma deformante
Distribuzione della popolazione mondiale

[WorldMapper]

Moda
Mediana
Media

Moda
In statistica, la moda o norma della
distribuzione di frequenza X la modalit
(o la classe di modalit) caratterizzata
dalla massima frequenza e viene spesso
rappresentata con la simbologia 0. In
altre parole, il valore che compare pi
frequentemente.
Nel caso ci siano pi valori pari si parla
di distribuzione bimodale, trimodale ecc.

Mediana
La mediana il valore centrale mettendo
una serie di valori in ordine crescente, in
caso di valori uguali al centro si calcola
come media matematica dei due valori
centrali.
Ha il pregio di non essere particolarmente
influenzata da numeri particolarmente
diversi dagli altri, che sono per esclusi e
influenzano invece la media aritmetica.

Una proprieta della mediana


Consideriamo la somma delle differenze in valore
assoluto fra ogni valore e la mediana. Questa somma
minore di quella che otterremmo utilizzando, invece della
mediana, qualsiasi altro valore tra i dati raccolti.
Esempio: unimpresa deve rifornire sei supermercati lungo
una strada la cui distanza dal capoluogo
rispettivamente:
3 6 13 19 22 25
Limpresa vuole costruire un magazzino in posizione
centrale, cosicch sia minima la somma delle sue distanze
dai supermercati.
Si trova con la mediana ((13+19)/2=16), infatti la
seguente somma la minima possibile:
|3-16|+ |6-16| + |13-16| + |19-16| + |22-16| + |25-16|
= 44

Premessa alle medie: sommatoria e


produttoria

Media aritmetica
Dati 5 numeri: 2, 5, 6, 7, 9, la loro
media data da:

Media aritmetica ponderata


Supponiamo di avere una serie di valori (x1,x2,...,xn) e
supponiamo di conoscere con quale frequenza si ripete
ognuno di essi (f1,f2,...,fn): nella media ponderata
(pesata), i singoli valori, prima di essere sommati vengono
moltiplicati con il peso (ponderazione) a loro assegnato. Il
peso di ciascun valore in genere rappresentato dal
numero di volte in cui i valori figurano (frequenza), ma
pu significare anche l'importanza (oggettiva o soggettiva)
che il singolo valore riveste nella distribuzione. La
divisione di conseguenza non viene fatta con il numero di
valori, ma con la somma dei pesi.
Esempio: i CFU universitari, supponiamo di avere
superato un esame da 3 crediti con 30, uno da 2 con 27 e
uno da 4 con 29. La media sar:

Media geometrica
La media geometrica, basandosi su prodotti e
non su somme, risente di meno della presenza
di termini "estremi", ovvero lontani dal gruppo.
Ad esempio data la distribuzione: 10, 9, 11, 14,
97 la media aritmetica (28,2) risente della
presenza di quel 97 cos alto, mentre la
geometrica (16,8) da un risultato pi vicino a
quella che potrebbe essere la moda. Diciamo
che la media geometrica fa s che eventuali
picchi anomali nella distribuzione non ne
condizionino l'analisi.

Media geometrica
Essa ha un chiaro significato geometrico: ad esempio la
media geometrica di due numeri la lunghezza del lato di
un quadrato equivalente ad un rettangolo che abbia i lati
di modulo pari ai due numeri. Lo stesso vale in un
numero di dimensioni superiore.
La media geometrica trova impiego soprattutto dove i
valori considerati vengono per loro natura moltiplicati tra
di loro e non sommati. Esempio tipico sono i tassi di
crescita, come i tassi d'interesse o i tassi d'inflazione.
Una caratteristica che valori piccoli (rispetto alla media
aritmetica) sono molto pi influenti dei valori grandi. In
particolare, sufficiente la presenza di un unico valore
nullo per annullare la media.

La media geometrica

Media quadratica
La media quadratica quella che viene
maggiormente influenzata dai valori
molto piccoli e molto grandi della
distribuzione e quindi viene usata per
evidenziare i valori che si discostano
molto dai valori centrali.
Essa altres usata per quei casi in cui i
valori sono elevati al quadrato.

Media quadratica

Media armonica
Giorno

Tempo
impiegato

Velocit
media

Luned

30

28

Marted

20

42

Mercoled

24

35

Gioved

21

40

Venerd

35

24

Si riporta il tempo impiegato


da un dipendente che
percorre 14 chilometri da
casa al posto di lavoro e la
velocit media.
Per determinare la velocit
media usiamo la media
armonica, in quanto si tratta
di una media di un rapporto:

La media armonica fortemente influenzata dagli elementi di modulo


minore: rispetto alla media aritmetica risente meno dell'influenza di outlier
(valori anomali) grandi, ma influenzata notevolmente dagli outlier piccoli.

La scelta della media

La media aritmetica rappresenta globalmente i dati e si pu


sostituire ad essi senza mutare il significato generale, ma va unita a
moda e mediana.
La mediana ha la caratteristica di non essere influenzata dai valori
particolarmente differenti.
La moda indica il valore che pi spesso si verifica effettivamente.
La media geometrica ha un valore tendenzialmente simile alla
mediana, ed utilizzata per analizzare fenomeni che variano nel
tempo.
La media armonica utile per calcolare valori medi che nascono
dal rapporto di altri dati
La media quadratica permette di tener contro di valori
particolarmente distanti dai centrali

Campo di variazione
Scarto semplice medio
Scarto quadratico medio
Coefficiente di variazione

Gli indici di variabilita

Il campo di variazione

Lo scarto semplice medio

Lo scarto quadratico medio (deviazione standard)

Il coefficiente di variazione
Permette di confrontare due fenomeni,
anche differenti per unit di misura.
Esempio:
Fenomeno

Media

Stipendi

1070

348

32,5 %

Et

38 anni

10 anni

26,3 %

Uso e caratteristiche

Come nasce la Curva di Gauss

Se analizziamo la distribuzione di un campione di persone che


seguono un certo programma televisivo per decadi di et,
potremmo otteniamo un grafico come quello a sinistra
Si tratta di una curva dalla classica forma a campana che ha un
massimo attorno alla media dei valori misurati e pu essere pi o
meno stretta a seconda della deviazione standard (dispersione)
La distribuzione di Gauss spesso detta normale. L'aggettivo
significativo perch indica che moltissimi fenomeni possono essere
descritti da una curva gaussiana, o essere Gauss-like: hanno una
distribuzione normale le stature, i pesi, le misure toraciche delle
persone, i valori ottenuti con misurazioni ripetute di una stessa
grandezza (se esse sono soggette solo ad errori accidentali), i valori
dei pezzi lavorati dalle macchine (soggetti ad errori di lavorazione
e di misurazione).
Nelle distribuzioni normali media aritmetica, moda e mediana
coincidono nel valore M, calcolabile, nel quale la curva raggiunge il
suo valore massimo
Supponiamo di considerare l'altezza degli italiani maschi.
Analizziamo un campione di 1.000 soggetti. Probabilmente
otterremmo una curva a campana, centrata attorno a una media,
del tipo 174 cm di media con una "deviazione standard" di circa 20
cm, cio il 95% dei soggetti analizzati sarebbe compreso fra 154 cm
e 194 cm.

Come nasce
Prendendo in
considerazione un grafico
che rappresenti le
frequenze, pi aumenta il
numero di misurazioni,
pi questo si avviciner
ad una forma a campana
(detta curva di Gauss)
che si pu calcolare con
la seguente equazione:

Distribuzione normale

I risultati rispetteranno le frequenze


indicate in figura, se la misurazione
stata effettuata correttamente.
Ad esempio, se tra 1000 persone si
osserva un peso medio di 73 Kg con
uno scarto quadratico medio di 5 Kg,
si pu affermare che circa 683
persone hanno un peso compreso fra
68 e 78 Kg, e circa 954 persone
hanno un peso compreso tra 63 Kg e
83 Kg.
Cos, se le lampadine prodotte da
una ditta hanno una durata media di
900 ore con uno scarto quadratico
medio di 30 ore, si pu affermare
che il 68,27% delle lampadine avr
una durata compresa fra 870 ore e
930 ore, e la quasi totalit delle
lampadine (il 99,73%) avr una
durata compresa fra 810 e 990 ore.

La curva normale standardizzata

Con il calcolo integrale si ottiene:

Minimi quadrati
Uso peculiare della curva di Gauss

Il problema dellerrore
Nelle misurazioni sempre possibile fare errori
sistematici (che per si possono correggere
facilmente una volta compresi) ed errori
accidentali, che hanno sempre interessato gli
statisti, specie poich molto comuni nelle raccolte
di dati e determinanti per la credibilit sia delle
statistiche che delle previsioni.
In particolare nascono due domande correlate:
Come si correggono gli errori accidentali?
[esigenza pratica]

Come si distribuiscono gli errori accidentali?


[esigenza puramente scientifica]

Come si correggono
La correzione degli errori si basa sul
principio secondo cui la media aritmetica

di molteplici misure discordanti di


ununica grandezza fornisce la valutazione
pi plausibile della grandezza e si
identificherebbe con essa se il numero
delle misure fosse infinitamente grande

(principio di Legendre)
Base numerica: il principio dei minimi

quadrati.

Come si distribuiscono: Gauss


Supponiamo ora di effettuare tante misurazioni di una stessa
grandezza con uno strumento; avremo risultati differenti,
dovuti all'inevitabile imprecisione del nostro strumento e del
nostro operato, che sono detti errori accidentali.
Se rappresentiamo le misure ottenute su un grafico, se il numero
di misurazioni molto grande, al limite infinito, la curva che
otterremo proprio la curva di Gauss.
In una popolazione la distribuzione dei dati assume una
distribuzione simmetrica. Se molto piccolo (e dunque lo lo
scarto dalla media) i dati sono molto concentrati rispetto alla
media stessa, dunque tanto pi precisi sono i dati.

Pendolo

Cose il calcolo combinatorio?


Ci sono determinate situazioni in cui pu essere
necessario valutare quanti raggruppamenti siano
possibili partendo da un numero di oggetti.
Un esempio: nel gioco del Superenalotto si deve
indovinare una serie di sei numeri compresi fra 1 e 90.
Si pu sapere quante sono tutte le sestine possibili e
quindi quanti soldi sono necessari per giocarle tutte?
Proprio di questo si occupa il calcolo combinatorio:
studia i modi per raggruppare e/o ordinare gli elementi
di un insieme definito.

Disposizione semplice
Si dice disposizione semplice di n oggetti di classe k ogni
allineamento di k oggetti scelti fra gli n, dove lordine
degli elementi ha importanza (es. 4-3-2 diverso da 34-2)

Dn,k n
n 1 n 2...n k 1

k..elementi

Ad esempio: nel nostro giardino vogliamo


piantare 3 piante da frutto e abbiamo a disposizione
4 diversi tipi (A,B,C,D). In quanti modi li possiamo
disporre?
B

A
B
C

C
D

D
D

C
D

D
D

A
C

B
D

D
D

A
B

B
C

C
C

Questo stesso risultato si pu ottenere con la formula


della diapositiva precedente:

D4,3 4 4 1 4 3 1 4 3 2 24

Disposizione con ripetizioni


Pu essere necessario calcolare il numero possibile di
disposizioni, nelle quali sia contemplata anche
uneventuale ripetizione degli elementi. Con un insieme
di n elementi diversi da raggruppare in disposizioni da k
elementi ciascuna:
r
n,k

Un interessante esempio ci viene dalla decifrazione del


codice genetico: gli scienziati agli inizi del XX secolo
ormai sapevano che i geni si trovavano sul DNA e le
informazioni erano codificate dalle 4 diverse tipologie
di nucleotidi (A,G,C,T); inoltre erano propensi a
credere che lespressione del messaggio genetico
avvenisse secondo la relazione un gene-una proteina. Si
sapeva che le unit base delle proteine erano i 20
amminoacidi. Ma come potevano 4 soli nucleotidi
codificare per ben 20 amminoacidi? Evidentemente era
possibile che un gruppo di nucleotidi (anche con
ripetizioni) codificasse per un singolo amminoacido.
Ma quanti elementi per gruppo?
D4r ,2 4 2 16 no
D4r ,3 43 64 si, ogni amminoacido codificato da una tripletta

Permutazioni
Le permutazioni sono disposizioni semplici particolari in
cui n=k. In tal senso da un insieme di n elementi si
formeranno gruppi di n elementi che differiscono solo
per lordine.

Dn,n n n 1 n 2... n k 1 n n 1 n 2... n n 1

Pn n n 1 n 2... 3 2 1

Il prodotto di un numero n con tutti i numeri interi che


lo precedono escluso lo zero si chiama fattoriale e si
indica con n!

Ad esempio: 5 persone hanno a disposizione 5 poltrone


per sedersi. Se vogliamo sapere il numero delle possibili
combinazioni, basta calcolare 5! (cinque fattoriale).

Pn n! n n 1 n 2... 3 2 1
P5 5! 5 4 3 2 1 120

Permutazioni con ripetizioni


Esistono dei casi particolari di permutazione in cui i
diversi allineamenti possono presentare ripetizioni del
medesimo elemento. In una permutazione con
ripetizioni, se i diversi raggruppamenti sono formati da
n elementi non distinti e:

il primo ripetuto r1 volte


il secondo r2 volte

ln-esimo rn volte

allora:
r1 ,r2 ...rn

Pn

n!
r1!r2 !... rn

Ad esempio: vogliamo calcolare con precisione il


numero di anagrammi possibili (anche senza significato)
della parola tovaglia. Sono 8 elementi con la ripetizione
della a (2 volte).
r

P8,2

8!
20160
2!

Combinazione semplice
Le combinazioni, a differenza delle disposizioni, sono
allineamenti di k elementi presi da un insieme di n
elementi, senza considerare lordine con cui vengono
disposti. Cos una combinazione semplice di n oggetti di
classe k:

Dn,k n n 1 n 2... n k 1
Cn,k

k!
k!

Un esempio: nel gioco della tombola, quante sono le


cinquine che si possono fare? Le cinquine non possono
differire tra loro solo per lordine, ma almeno per un
numero: quindi il risultato dato dalle combinazioni
semplici di classe 5 dallinsieme dei 90 numeri.

Cn,k

n n 1 n 2 ... n k 1

k!

C90,5

90 89 88 87 86

43949268
5 4 3 21

Combinazione con ripetizioni


Analogamente alle disposizioni, che si dividono in
semplici e con ripetizioni, cos anche le combinazioni,
oltre a quelle semplici, possono contemplare anche
leventualit delle ripetizioni. Le combinazioni con
ripetizioni di n elementi di classe k si risolvono:

r
n,k

n n 1 n 2 ... n k 1

k!

Un esempio:
Quanti modi ci sono di distribuire a 2 bambini distinguibili 4
caramelle indistinguibili, contando anche i casi in cui uno dei
bambini non riceve nessuna caramella?

r
n 2, k 4

(2 4 1)!

5
4!

Infatti sono: 0-4, 1-3, 2-2, 3-1, 4-0.


Equivalentemente,
le
combinazioni
con
ripetizioni
informano sul numero di possibili n-ple di addendi non
negativi la cui somma sia k (considerando diverse n-ple in cui
eguali addendi compaiano in ordine differente); nel suddetto
esempio, sono mostrate le cinque diverse duple di somma 4.

La teoria delle probabilit in fondo


soltanto senso comune ridotto a
calcolo.
Pierre Simon Laplace

Dal certo alla non determinazione


Quando Galileo Galilei nel XVII secolo inizi a
comprendere lutilit della matematica applicata alle
scienze sperimentali, essa cominci un percorso di
unione della certezza dei suoi nessi con la probabilit
dellesperienza. Molti problemi reali, infatti, erano
tanto complessi che lutilizzo degli strumenti classici si
rese impossibile. Alla matematica del certo, cos, si
imposero i
modelli non deterministici, che, con
strumenti matematici, lavorano in contesti dove la
parzialit delle conoscenze o la complessit dei
problemi non assicurano piena certezza ai risultati.

Termini di base
Evento aleatorio loggetto del calcolo delle
probabilit (ad es. il lancio di un dado).
Esperimento aleatorio un esperimento dallesito
imprevedibile (ad es. lanciare il dado e leggerne la
faccia superiore).
Spazio campionario la totalit di tutti i possibili esiti di
un esperimento aleatorio (ad es. {1-2-3-4-5-6} per il
lancio del dado) e si indica con .
Punto campionario un singolo esito di un esperimento
aleatorio (ad es. {1} per il lancio del dado).

Eventi
Levento elementare costituito da un singolo punto campionario
(ad es. esce {1} lanciando un dado).
Levento composto un evento non elementare (ad es. esce prima
{1}, poi {2} nel lancio del dado).
Levento impossibile non si pu mai verificare (ad es. che esca {-3});
levento certo quello che coincide con (che esca un numero
compreso fra 1 e 6).
Levento unione AB quello che si realizza quando si realizza o A
o B o entrambi.
Levento intersezione AB quello che si realizza se si realizzano sia
A sia B.
Levento contrario di A quello che si realizza se non si realizza A e
che unito a questo coincide con .
Due eventi sono incompatibili se il realizzarsi delluno esclude il
realizzarsi dellaltro e la loro intersezione impossibile.

La probabilita
Lo scopo del calcolo delle probabilit di attribuire un
grado di aspettativa (un numero) ad un evento.
La probabilit di un evento E quel numero che
rappresenta la fiducia che attribuiamo al fatto che E si
verifichi.

Definizione classica
La probabilit di un evento aleatorio uguale al
rapporto tra il numero dei casi favorevoli e il numero
dei casi ugualmente possibili.
Un esempio: qual la probabilit che, estraendo una
carta da un mazzo di 52 carte, ne esca una di cuori che
non sia lasso? I casi favorevoli sono 12 (13 meno lasso)
mentre i possibili 52.

12
p
0,231
52

Definizione frequentista
Nel caso di molti eventi aleatori non possibile usare la
definizione classica o perch ignoto il numero di casi
favorevoli o possibili, o perch i casi possibili non sono
possibili alla medesima maniera. In tal caso si preferisce
assumere come probabilit empirica di un evento la sua
frequenza relativa. Naturalmente, rispetto al calcolo
teorico offerto dalla def. classica, la definizione
frequentista si riferisce sempre a rilievi e indagini fatte
nel passato, che possono non conservare il medesimo
valore nellattualit.

Definizione soggettiva
A volte, nella quotidianit, pu capitare di fare
riferimento al concetto di probabilit riferendosi a
determinati eventi, quali possono ad es. essere attivit
agonistiche o situazioni meteorologiche. In un caso
come: Sono sicuro al 90%, non si pu parlare di
probabilit matematica, perch non c davvero uno
studio precedente che dia allaffermazione un valore
necessario; piuttosto si potrebbe parlare di grado di
fiducia che si attribuisce al verificarsi di un determinato
evento dopo aver coerentemente preso in esame tutte
le informazioni a disposizione, anche senza osservazioni
statistiche o calcoli di casi favorevoli e possibili.

La legge dei grandi numeri


Sia la probabilit frequentista sia quella soggettiva si
basano su osservazioni statistiche pi o meno accurate e
precise che si basano su una legge che fonda di fatto la
probabilit: in una serie di prove ripetute, un evento si
manifesta con una frequenza relativa che, al crescere del
numero delle prove, tende ad avvicinarsi al valore
teorico della probabilit, desumibile dalla definizione
classica.
proprio questa legge a creare un collegamento fra
probabilit classica ed empirica, e fra queste e la
statistica.

Certezza e probabilita:
unapplicazione

Per poter determinare con


precisione la posizione e la
velocit (e quindi l'energia) di un
corpo in movimento necessario
che noi non modifichiamo con la
nostra osservazione il fenomeno
che vogliamo studiare.

Bibliografia
Wikipedia
Statistica descrittiva, Bergamini-Trifone-Barozzi
Argomenti di statistica descrittiva, Giancarlo
Bettuzzi
Dispense di probabilit, Dario Palladino
Nozioni introduttive al calcolo della
probabilit, Giampietro Betti
Matematica a colori, Sebastiano Nicosia
Altri materiali vari