Você está na página 1de 6

- ELEMENTI DI STATISTICA DESCRITTIVA: distribuzione di frequenze, indici di variabilità, rappresentazione

grafica dei dati statistici

- INFERENZA STATISTICA (prendere delle decisioni in base ai dati statistici): modelli statistici, campioni
casuali, le statistiche (calcolo della media, della mediana e scarto quadratico medio)

- STIMA MEDIANTE INTERVALLI

-VERIFICA DI IPOTESI STATISTICHE

- MODELLO DI REGRESSIONE LINEARE SEMPLICE E I SUOI IMPIEGHI

- ANALISI DELLA VARIANZA PER IL CONFRONTO DI MEDIE (se c’è differenza tra gruppi e come agire e vedere
se questa differenza ha significatività statistica; ad es. fumano di più gli uomini o le donne, c’è differenza tra
il tasso di fumatrici e fumatori?)

La statistica è una disciplina che è in grado di quantificare l’incertezza cioè con la statistica si possono
fare affermazioni certe sul grado d’incertezza di un fenomeno.
Cioè la statistica ha a che fare con quei fenomeni di cui non conosce l’entità globale. E quindi occorre
descrivere un fenomeno ma con un qualche grado d’incertezza.
Abbiamo degli strumenti per dire che una certa affermazione è vera per es. al 95% però può essere
sbagliata al 5% (quantificazione dell’incertezza).
Nella statistica sociale i fenomeni studiati sono quelli sociali.

DESCRIVERE IL FENOMENO - PROBABILITÀ (modello per l’incertezza) => STATISTICA INFERENZIALE (afferma e quantifica)

I metodi statistici si occupano di:


- raccogliere i dati
- presentazione dei dati
- analisi dei dati (in 2 prospettive: statistica descrittiva e statistica inferenziale * con in mezzo la probabilità)

In statistica la popolazione è l’intera collezione (di individui, oggetti, eventi) sia concreta (es. le indagini
sulle famiglie in Europa) che astratta (es. un parametro ingegneristico), sulla quale si ricercano le
informazioni (es. capire se il reddito totale delle famiglie ha qualche influenza sui consumi, sul numero dei
figli nelle famiglie). Non è possibile osservare interamente la popolazione, per cui si ricorre ad un
sottoinsieme di essa (detto campione)
La popolazione in genere non è possibile osservarla totalmente. Allora per il fenomeno che si vuole
osservare si sceglie un campione cioè un sottoinsieme della popolazione. Sono gli elementi che si vanno
a osservare realmente(es. si estrae un campione e si osserva su quel campione il reddito delle famiglie).
Il campione è costituito da unità statistiche. L’unità statistica o caso è ogni elemento del campione (es.
ogni famiglia).

La Variabile è ogni caratteristica d’interesse che viene rilevata sugli elementi del campione (es. la
variabile reddito e la variabile n. di figli). La variabile è il carattere che sto studiando.

Il Dataset è l’insieme di tutti i valori di ogni variabile che è rilevata (es. I Big Data sono degli enormi
dataset fatti in forma di matrice dove abbiamo numeri enormi di unità statistiche e di variabili: quante volte
si è connesso l’utente?, da dove?, che siti ha visitato? ecc.).

Il tipo di variabile è importante perché essa comporta diversi tipi di statistiche, diversi tipi di analisi e diversi
tipi di grafici. Ad es. se la variabile è il sesso con questa variabile non possiamo fare la media, possiamo al
massimo calcolare la percentuale di uomini e la percentuale di donne, mentre se la variabile è il reddito
possiamo calcolare il reddito medio delle donne e il reddito medio degli uomini.
Tipi di variabili (dati):
1) NUMERICHE O QUANTITATIVE: quando il risultato è un numero (reddito, n. di figli)
- tutte le variabili numeriche che sono oggetto di misurazione sono dette variabili numeriche continue
(reddito, distanza, durata, peso, tempo, livello di colesterolo nel sangue). è ovvio che le v. numeriche
continue non sono precisissime (perché la v. numerica continua è un qualunque valore continuo sull’asse
dei numeri reali).
- le variabili numeriche che sono il risultato di un conteggio sono dette variabili numeriche discrete (n. di
figli, n. di esami, n. di giorni di malattia).
2) CATEGORICHE O QUALITATIVE (non numeriche), esse possono essere:
- v. ordinali, es. titolo di studio (elementare, licenza media, maturità, laurea), reddito (alto, medio, basso),
scala Mercalli (non vi è una misurazione, il grado d’intensità di un terremoto è stabilito in base agli effetti
del terremoto).
- variabili nominali, es. sesso, genere, religione, trattamento (il trattamento è una variabile qualitativa
nominale che si utilizza molto in medicina, es. pazienti con una patologia divisi in due gruppi: gruppo dei
trattati con un certo farmaco e gruppo di controllo a cui viene dato un placebo).

La variabile si presenta con le modalità. Le modalità di una variabile sono i diversi valori assunti dalla
variabile. Nelle variabili numeriche le modalità sono numeri. Nelle variabili continue numeriche i numeri
(modalità) sono tantissimi (es. non troveremo due persone che hanno lo stesso reddito in una scala.
continua). Pertanto le variabili continue numeriche hanno una particolare rappresentazione grafica (es.
istogrammi). Nelle variabili numeriche discrete le modalità sono numeri interi perché sono il risultato di un
conteggio (es. 0,1, 2 figli). Le modalità, invece, delle variabili qualitative es. la variabile “sesso” si presenta
nella modalità “maschio - femmina”.
Il tipo di variabile dipende dalle modalità e da come le ho ottenute.

RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI


Esercizio: Un campione di 10000 iscritti ad una società di lavoro interinale sono analizzati in base al sesso e
all'avviamento al lavoro. Lo studio ha come obiettivo quello di capire se ci sia discriminazione di genere.

10000 iscritti sono il campione della popolazione dei disoccupati.


2 variabili qualitative nominali: sesso e avviamento al lavoro (iscritti maschi, iscritti femmine, iscritti che
hanno lavorato e iscritti che non hanno lavorato).

Iscritti alla Società Avviati al lavoro


Maschi 53.40 59.00
Femmine 46.60 41.00
100 100
Iscritti alla società
La tabella ci dice che delle 10000 unità intervistate il 53.4% sono maschi e sono iscritti alla società. Il 46.6%
sono femmine e sono iscritte alla società.
Nel calcolare le % è necessario conoscere il valore del 100,a cosa corrisponde quel 100 (il valore
corrispondente a 100 varia a seconda di cosa sto considerando). In particolare nella colonna iscritti alla
società il 100 corrisponde a 10000 iscritti alla società. Da questa tabella è possibile sapere soltanto quanto
sono i maschi e quante sono le femmine iscritte alla società perché conosciamo il n. di totale di iscritti alla
società (10000).
Per ottenere il numero di maschi iscritti alla società occorre conoscere il totale (cioè 10000):
53,40%= 53,40 = 0, 5340 => 0,5340 x 10000 = 5340 uomini iscritti alla società
100
Per ottenere il n. di femmine iscritte alla società occore conoscere il totale (cioè 10000):
46,60%= 46,60 = 0, 4660 => 0, 4660x 10000 = 4660 uomini iscritti alla società
100

Avviati al lavoro
Per quanto riguarda l’avviamento al lavoro, la tabella ci dice solo che tra coloro che sono avviati al lavoro il
59% sono uomini, il 41% sono donne. Non ci dice però il totale, cioè il n. totale di avviati al lavoro, cioè non
si sa a quanto corrisponde quel 100.
Se il n. totale avviati al lavoro è 1700 di questi 1700 il 59% sono uomini e il 41% sono donne.
Quindi la % degli avviati al lavoro in questa società è il 17%

Il n. totale iscritti (10000) e il n. totale avviati al lavoro (1700) sono le frequenze assolute (perché
coinvolgono il numero totale).

Con il dato 1700 è possibile ricavare la tabella delle frequenze assolute delle due variabili.
La frequenza assoluta viene indicata con n e abbiamo una frequenza assoluta per ogni modalità della
variabile abbiamo la n del si cioè avviati al lavoro (nsi ) e la n del no cioè non avviati al lavoro (nno )
Variabile avviati al lavoro che ha 2 modalità (si e no)
nSI = 1700
nNO = 8300
n = 10000 (numerosità campionaria)
=> Il 100 cioè il totale in questo esercizio è 10000

L’altra variabile di cui dobbiamo calcolare le frequenze assolute è il sesso quindi abbiamo una frequenza
assoluta per ogni modalità della variabile (M e F):
nF = 4660
nM = 5340
n = 10000 (ampiezza campionaria)

Avviato
Sesso SI NO
M 1003 4337 5340
F 697 3963 4660
1700 8300 10000
NB: Avviato e sesso= sono le 2 variabili dette marginali (perché stanno ai margini della tabella)
M e F = le 2 modalità della variabile “sesso”
SI e No = le 2 modalità della variabile “avviato”

1003 = nSI M
4337 = nNO M

L’insieme di tutti questi n si chiama distribuzione di frequenza assoluta (frequenza assoluta avviati al
lavoro= 1700; distribuzione di frequenza assoluta della variabile sesso.

Mentre i 4 numeri interni alla tabella sono la distribuzione congiunta o frequenze assolute congiunte
(sesso e avviamento al lavoro).

Le frequenze percentuali si calcolano a partire dalle frequenze assolute. Le frequenze percentuali passano
per quelle che si chiamano frequenze relative.
Le frequenze relative di ottengono in questo modo:
f della modalità considerata = frequenza assoluta (quanti maschi, quanti avviati al lavoro)
il totale
fi = n i fM= 5340 = 0,5340 (ARROTONDATO A DUE CIFRE DECIMALI = 0,53
n 10000 (ARROTONDATO A 1 CIFRA DECIMALI = 0,5)
(ARROTONDATO ALL’INTERO = 1 PERCHé 0,534 è > di 0,5)

fF= 4660 = 0,4660 (ARROTONDATO A DUE CIFRE DECIMALI = 0,47)


10000

NB: 0,54 + 0,47 = 1

Le percentuali (pi ) le calcolo moltiplicando per 100 le frequenze relative (53% e 47% = 100%)

ni ni fi pi
nF 4660 0,4660 46,60%
nM 5340 0,5340 53,40%
10000 1,0000 100%

Da questa tabella possiamo ricavare anche la % degli avviati al lavoro e la % dei non avviati al lavoro. Cioè
costruiamo la tabella delle frequenze assolute,relative e percentuali degli avviati a lavoro.

ni fi pi
SI 1700 0,17 17%
NO 83000 0,83 83%
10000 1,0000 100%

Ma tra le donne quale % viene avviata al lavoro. Il mio totale allora sono tutte le donne.

ni F fi pi
SI 697 697 = 0,1496 = 0,15 15%
4660
NO 3963 3963 = 0,8504 = 0,85 85%
4660
4660 1,0000 100%

Lo stesso discorso possiamo farlo agli uomini

ni M fi pi
SI 1003 1003 = 0,1878 = 0,19 19%
5340
NO 4337 4337 = 0,8121= 0,81 81%
5340
5340 1,0000 100%

Per confrontare due distribuzioni (popolazioni) bisogna fare i conti con le frequenze relative e percentuali
perché ci portano tutto quello che ci interessa a 100.
Qual è la % tra gli iscritti alla società che sono donne e sono state avviate al lavoro:
donne avviate al lavoro = 697 = 7% (prendo in considerazione 2 variabili: donne e avviate al lavoro)
totale iscritti 10000

Cioè si possono calcolare le percentuali dei 4 valori interni alla tabella


+ è grande la numerosità campionaria più i dati statistici sono attendibili.
Le frequenze dipendono dalla variabile e/o dalle variabili considerate (se considero una variabile sola ho
le frequenze assolute della modalità di quella variabile; se considero due variabili contemporaneamente
tabella a doppia entrata, ho i 4 numeri centrali che sono le frequenze assolute, le frequenze marginali
nelle colonne e poi a partire dalle frequenze assolute posso calcolare le frequenze relative e percentuali):

SESSO/AVVIATI SI NO
M 0.10 (1003: 0.43 0.53
10000) (4337:10000)
F 0.07 0.40 0.47
(697:10000)
0.17 0.83 1

Come si fa data una percentuale a risalire alla numerosità campionaria: fi x n = frequenza assoluta

fi = n i = FREQUENZA RELATIVA
n

Di conseguenza se abbiamo le percentuali prima le trasformiamo in frequenze relative cioè in un numero più piccolo
(50% = 0.50; 7% = 0.07%) e poi si calcolano le frequenze assolute.

Per determinare tutte le % occorre la tabella a doppia entrata (a 2 variabili) che permette di sapere quante
sono la donne avviate al lavoro, quanti sono gli uomini avviati al lavoro, quante donne non avviate al lavoro
e quanti uomini non avviati al lavoro.

è stato rilevato il rendimento su 350 studenti di una scuola superiore americana. La variabile Rendimento e
stata classificata secondo le seguenti modalita (Iinsuffciente, S = sufficiente, B = buono e O = ottimo).

Il rendimento è la variabile quantitativa ordinale. Il campione ha una numerosità campionaria n di 350.


Occorre fare una tabella con le modalità e le frequenze assolute. 4 modalità (Iinsuffciente, S = sufficiente, B
= buono e O = ottimo).
L’unico dato che ho la numerosità campionaria, cioè la somma di tutte le frequenze assolute.
Il tot delle I sono 45, il tot. dei sufficienti sono 23, il tot dei buoni sono 124, i tot degli ottimi sono 158
Il tot. fa n = 350

Nb: almeno buono = buono + ottimo = 124 + 158

Le fi abbiamo calcolate facendo 45/350

Fi = frequenza cumulativa => es. 0.20 è la somma della prima fi e della seconda fi (0.13 + 0.07)

Ri = frequenza retrocumulativa (cumulando partendo dal basso della tabella)(0.45+0.35)

Solo se sono variabili ordinate posso fare le frequenze cumulate


20 unità statistiche , 4 variabili (tipo di dieta con 4 modalità; giudizio sull’ultimo film visto con 4 mdalità; n.
di convivenze, la spesa per massaggi in un mese)
Le donne hanno tra i 30 e i 40 anni.

Quando la variabile è qualitativa posso fare le frequenze % . Quando è numerica posso anche dire qual è il
valor medio.

Você também pode gostar