Escolar Documentos
Profissional Documentos
Cultura Documentos
- INFERENZA STATISTICA (prendere delle decisioni in base ai dati statistici): modelli statistici, campioni
casuali, le statistiche (calcolo della media, della mediana e scarto quadratico medio)
- ANALISI DELLA VARIANZA PER IL CONFRONTO DI MEDIE (se c’è differenza tra gruppi e come agire e vedere
se questa differenza ha significatività statistica; ad es. fumano di più gli uomini o le donne, c’è differenza tra
il tasso di fumatrici e fumatori?)
La statistica è una disciplina che è in grado di quantificare l’incertezza cioè con la statistica si possono
fare affermazioni certe sul grado d’incertezza di un fenomeno.
Cioè la statistica ha a che fare con quei fenomeni di cui non conosce l’entità globale. E quindi occorre
descrivere un fenomeno ma con un qualche grado d’incertezza.
Abbiamo degli strumenti per dire che una certa affermazione è vera per es. al 95% però può essere
sbagliata al 5% (quantificazione dell’incertezza).
Nella statistica sociale i fenomeni studiati sono quelli sociali.
DESCRIVERE IL FENOMENO - PROBABILITÀ (modello per l’incertezza) => STATISTICA INFERENZIALE (afferma e quantifica)
In statistica la popolazione è l’intera collezione (di individui, oggetti, eventi) sia concreta (es. le indagini
sulle famiglie in Europa) che astratta (es. un parametro ingegneristico), sulla quale si ricercano le
informazioni (es. capire se il reddito totale delle famiglie ha qualche influenza sui consumi, sul numero dei
figli nelle famiglie). Non è possibile osservare interamente la popolazione, per cui si ricorre ad un
sottoinsieme di essa (detto campione)
La popolazione in genere non è possibile osservarla totalmente. Allora per il fenomeno che si vuole
osservare si sceglie un campione cioè un sottoinsieme della popolazione. Sono gli elementi che si vanno
a osservare realmente(es. si estrae un campione e si osserva su quel campione il reddito delle famiglie).
Il campione è costituito da unità statistiche. L’unità statistica o caso è ogni elemento del campione (es.
ogni famiglia).
La Variabile è ogni caratteristica d’interesse che viene rilevata sugli elementi del campione (es. la
variabile reddito e la variabile n. di figli). La variabile è il carattere che sto studiando.
Il Dataset è l’insieme di tutti i valori di ogni variabile che è rilevata (es. I Big Data sono degli enormi
dataset fatti in forma di matrice dove abbiamo numeri enormi di unità statistiche e di variabili: quante volte
si è connesso l’utente?, da dove?, che siti ha visitato? ecc.).
Il tipo di variabile è importante perché essa comporta diversi tipi di statistiche, diversi tipi di analisi e diversi
tipi di grafici. Ad es. se la variabile è il sesso con questa variabile non possiamo fare la media, possiamo al
massimo calcolare la percentuale di uomini e la percentuale di donne, mentre se la variabile è il reddito
possiamo calcolare il reddito medio delle donne e il reddito medio degli uomini.
Tipi di variabili (dati):
1) NUMERICHE O QUANTITATIVE: quando il risultato è un numero (reddito, n. di figli)
- tutte le variabili numeriche che sono oggetto di misurazione sono dette variabili numeriche continue
(reddito, distanza, durata, peso, tempo, livello di colesterolo nel sangue). è ovvio che le v. numeriche
continue non sono precisissime (perché la v. numerica continua è un qualunque valore continuo sull’asse
dei numeri reali).
- le variabili numeriche che sono il risultato di un conteggio sono dette variabili numeriche discrete (n. di
figli, n. di esami, n. di giorni di malattia).
2) CATEGORICHE O QUALITATIVE (non numeriche), esse possono essere:
- v. ordinali, es. titolo di studio (elementare, licenza media, maturità, laurea), reddito (alto, medio, basso),
scala Mercalli (non vi è una misurazione, il grado d’intensità di un terremoto è stabilito in base agli effetti
del terremoto).
- variabili nominali, es. sesso, genere, religione, trattamento (il trattamento è una variabile qualitativa
nominale che si utilizza molto in medicina, es. pazienti con una patologia divisi in due gruppi: gruppo dei
trattati con un certo farmaco e gruppo di controllo a cui viene dato un placebo).
La variabile si presenta con le modalità. Le modalità di una variabile sono i diversi valori assunti dalla
variabile. Nelle variabili numeriche le modalità sono numeri. Nelle variabili continue numeriche i numeri
(modalità) sono tantissimi (es. non troveremo due persone che hanno lo stesso reddito in una scala.
continua). Pertanto le variabili continue numeriche hanno una particolare rappresentazione grafica (es.
istogrammi). Nelle variabili numeriche discrete le modalità sono numeri interi perché sono il risultato di un
conteggio (es. 0,1, 2 figli). Le modalità, invece, delle variabili qualitative es. la variabile “sesso” si presenta
nella modalità “maschio - femmina”.
Il tipo di variabile dipende dalle modalità e da come le ho ottenute.
Avviati al lavoro
Per quanto riguarda l’avviamento al lavoro, la tabella ci dice solo che tra coloro che sono avviati al lavoro il
59% sono uomini, il 41% sono donne. Non ci dice però il totale, cioè il n. totale di avviati al lavoro, cioè non
si sa a quanto corrisponde quel 100.
Se il n. totale avviati al lavoro è 1700 di questi 1700 il 59% sono uomini e il 41% sono donne.
Quindi la % degli avviati al lavoro in questa società è il 17%
Il n. totale iscritti (10000) e il n. totale avviati al lavoro (1700) sono le frequenze assolute (perché
coinvolgono il numero totale).
Con il dato 1700 è possibile ricavare la tabella delle frequenze assolute delle due variabili.
La frequenza assoluta viene indicata con n e abbiamo una frequenza assoluta per ogni modalità della
variabile abbiamo la n del si cioè avviati al lavoro (nsi ) e la n del no cioè non avviati al lavoro (nno )
Variabile avviati al lavoro che ha 2 modalità (si e no)
nSI = 1700
nNO = 8300
n = 10000 (numerosità campionaria)
=> Il 100 cioè il totale in questo esercizio è 10000
L’altra variabile di cui dobbiamo calcolare le frequenze assolute è il sesso quindi abbiamo una frequenza
assoluta per ogni modalità della variabile (M e F):
nF = 4660
nM = 5340
n = 10000 (ampiezza campionaria)
Avviato
Sesso SI NO
M 1003 4337 5340
F 697 3963 4660
1700 8300 10000
NB: Avviato e sesso= sono le 2 variabili dette marginali (perché stanno ai margini della tabella)
M e F = le 2 modalità della variabile “sesso”
SI e No = le 2 modalità della variabile “avviato”
1003 = nSI M
4337 = nNO M
L’insieme di tutti questi n si chiama distribuzione di frequenza assoluta (frequenza assoluta avviati al
lavoro= 1700; distribuzione di frequenza assoluta della variabile sesso.
Mentre i 4 numeri interni alla tabella sono la distribuzione congiunta o frequenze assolute congiunte
(sesso e avviamento al lavoro).
Le frequenze percentuali si calcolano a partire dalle frequenze assolute. Le frequenze percentuali passano
per quelle che si chiamano frequenze relative.
Le frequenze relative di ottengono in questo modo:
f della modalità considerata = frequenza assoluta (quanti maschi, quanti avviati al lavoro)
il totale
fi = n i fM= 5340 = 0,5340 (ARROTONDATO A DUE CIFRE DECIMALI = 0,53
n 10000 (ARROTONDATO A 1 CIFRA DECIMALI = 0,5)
(ARROTONDATO ALL’INTERO = 1 PERCHé 0,534 è > di 0,5)
Le percentuali (pi ) le calcolo moltiplicando per 100 le frequenze relative (53% e 47% = 100%)
ni ni fi pi
nF 4660 0,4660 46,60%
nM 5340 0,5340 53,40%
10000 1,0000 100%
Da questa tabella possiamo ricavare anche la % degli avviati al lavoro e la % dei non avviati al lavoro. Cioè
costruiamo la tabella delle frequenze assolute,relative e percentuali degli avviati a lavoro.
ni fi pi
SI 1700 0,17 17%
NO 83000 0,83 83%
10000 1,0000 100%
Ma tra le donne quale % viene avviata al lavoro. Il mio totale allora sono tutte le donne.
ni F fi pi
SI 697 697 = 0,1496 = 0,15 15%
4660
NO 3963 3963 = 0,8504 = 0,85 85%
4660
4660 1,0000 100%
ni M fi pi
SI 1003 1003 = 0,1878 = 0,19 19%
5340
NO 4337 4337 = 0,8121= 0,81 81%
5340
5340 1,0000 100%
Per confrontare due distribuzioni (popolazioni) bisogna fare i conti con le frequenze relative e percentuali
perché ci portano tutto quello che ci interessa a 100.
Qual è la % tra gli iscritti alla società che sono donne e sono state avviate al lavoro:
donne avviate al lavoro = 697 = 7% (prendo in considerazione 2 variabili: donne e avviate al lavoro)
totale iscritti 10000
SESSO/AVVIATI SI NO
M 0.10 (1003: 0.43 0.53
10000) (4337:10000)
F 0.07 0.40 0.47
(697:10000)
0.17 0.83 1
Come si fa data una percentuale a risalire alla numerosità campionaria: fi x n = frequenza assoluta
fi = n i = FREQUENZA RELATIVA
n
Di conseguenza se abbiamo le percentuali prima le trasformiamo in frequenze relative cioè in un numero più piccolo
(50% = 0.50; 7% = 0.07%) e poi si calcolano le frequenze assolute.
Per determinare tutte le % occorre la tabella a doppia entrata (a 2 variabili) che permette di sapere quante
sono la donne avviate al lavoro, quanti sono gli uomini avviati al lavoro, quante donne non avviate al lavoro
e quanti uomini non avviati al lavoro.
è stato rilevato il rendimento su 350 studenti di una scuola superiore americana. La variabile Rendimento e
stata classificata secondo le seguenti modalita (Iinsuffciente, S = sufficiente, B = buono e O = ottimo).
Fi = frequenza cumulativa => es. 0.20 è la somma della prima fi e della seconda fi (0.13 + 0.07)
Quando la variabile è qualitativa posso fare le frequenze % . Quando è numerica posso anche dire qual è il
valor medio.