CORSO DI LAUREA IN SCIENZE E TECNICHE PSICOLOGICHE
PSICOMETRIA (CORSO PROGREDITO)
A. A. 2009 / 2010
Dott. Paola Grassi: grassi_paola@alice.it
La statistica è quella disciplina che si occupa di quantificare fenomeni riferibili ad individui (unità o elementi) in quanto appartenenti a determinate popolazioni (insiemi o aggregati) che sono collegati ( o possono esserlo) all’oggetto di specifiche ricerche.
Es. quantifica l’accrescimento del tonno
“pinne gialle” rispetto al tonno “rosso” a parità di condizioni di allevamento. Il carattere statistico o variabile, è qualsiasi fenomeno (o un particolare aspetto di esso) che abbia rilevanza nell’ambito di una specifica ricerca. Esso può manifestarsi in differenti modi: Es. Se ci riferiamo ad un’azienda manifatturiera si possono prendere in considerazione diverse variabili: n° dipendenti, pezzi prodotti, fatturato, crediti, debiti etc. Ogni ente (sia esso elemento o individuo) portatore di uno o più caratteri che possono avere rilevanza per il raggiungimento dell’obiettivo della ricerca, è detto unità statistica. Da non confondere con il dato statistico (chiamato anche microdato) che è l’elemento di base per ogni ricerca statistica. È necessario che nella raccolta dei dati venga fatta molta attenzione in modo che ci si protegga da eventuali errori (sistematici o casuali). Le diverse possibilità di rappresentare dei caratteri portano a differenti classificazioni: • Con caratteri qualitativi • Con caratteri quantitativi Classificazione con caratteri qualitativi Sono variabili misurabili su scala nominale, quelle nelle quali non esiste un ordine:
Tipo di azienda; Stato civile; Genere; Colore degli occhi;
Tali variabili, per le loro caratteristiche
vengono anche dette sconnesse. Si dicono caratteri o variabili misurabili su scala ordinale di tipo ciclico, quelli nei quali non esiste in senso naturale. Una che sia di diritto prima o ultima : Es. piovosità nei mesi dell’anno mese di nascita direzione del vento. Si dicono caratteri o variabili misurabili su scala ordinale di tipo rettilineo quelli nei quali esiste una prima ed un’ultima modalità in senso naturale. Es. Grado di organizzazione in senso gerarchico di un’azienda; livello di istruzione; grado militare; Classificazione con caratteri quantitativi
Si dicono caratteri o variabili
misurabili su scala intervallare, quelle modalità esprimibili con numeri che hanno il significato di una vera e propria misura. In esse si può scegliere in modo arbitrario l’origine: Es. temperature Si dicono caratteri o variabili misurabili a rapporto quelli le cui modalità sono esprimibili con numeri che hanno l’ordinario significato di misura, però l’origine delle misure è unica, non fissata in modo arbitrario Es. Statura Reddito Si possono sempre misurate caratteri quantitativi con scale qualitative ma mai viceversa. Es. utilizzare per la statura le variabili: basso, medio, alto. Talvolta può esistere tra le due modalità una corrispondenza biunivoca per cui si potrebbero sostituire alle modalità qualitative quelle quantitative e rendere plausibili certe operazioni. Es. In un’organizzazione gerarchica, la corrispondenza tra il grado nella scala e lo stipendio percepito. I caratteri, o variabili, quantitativi possono distinguersi in: Caratteri discreti: se possono assumere un numero finito o una infinità numerabile di valori. Es. N° vani di una casa, n° figli, n° animali posseduti etc.
Caratteri continui: se esiste un continuum di
numeri decimali tra i valori interi. Es. Statura, Peso, superficie agraria. Piano della Rilevazione Per effettuare una ricerca, dopo aver consultato la letteratura a disposizione riguardo l’argomento occorre: Individuare gli obiettivi; individuare i caratteri, o variabili, da prendere in considerazione; Individuare la popolazione statistica di interesse; Individuare le unità statistiche da prendere in considerazione che possono essere della popolazione o di un campione di rilevazione; Scegliere la legge di campionamento delle unità statistiche partendo da ciò che vogliamo indagare nella popolazione; stabilire i caratteri quantitativi e/o qualitativi da rilevare per ogni unità; indicare i mezzi tecnici per raccogliere le informazioni su tali caratteri; fissare l’estensione della rilevazione in ordine all’ampiezza del territorio, al periodo, alle disponibilità finanziarie. Rilevare le modalità con cui si sono manifestate le variabili nelle unità statistiche, individuare i dati statistici e quindi la matrice dei dati; Elaborazione dei dati:
Classificazione degli stessi per l’ottenimento di
tabelle; Rappresentazioni grafiche; Elaborazione dei dati con strumenti logico- matematici; Rappresentazione e illustrazione dei risultati. Popolazione e campione In biologia, una popolazione è un insieme di organismi o individui che coesistono in uno stesso spazio e tempo, condividendo certe proprietà biologiche con esseri della stessa specie. es. uccelli In ecologia si definisce popolazione l'insieme degli individui della medesima specie che popolano lo stesso habitat o area considerata. es. pinguini In geografia è il numero di abitanti di una località o regione. Anche le caratteristiche numeriche dei sottoinsiemi (p.e. le etnie) possono far parte della descrizione della voce popolazione. es. Sardi In statistica si intende per popolazione qualsiasi insieme di elementi che siano oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta. Tali unità presentano tutte almeno una caratteristica comune, che viene accuratamente definita al fine di delimitare il loro insieme; ad esempio, con "Italiani" si può intendere sia le persone di nazionalità italiana, anche se residenti all'estero, sia le persone residenti in Italia, quale sia la loro nazionalità. Una popolazione statistica, non è sempre un insieme biologico; costituisce una popolazione anche l'insieme delle lampadine prodotte da un'azienda in un dato periodo di tempo o le batterie costruite da un’azienda aventi le stesse caratteristiche (wattaggio e amperaggio). Una popolazione statistica va definita anche rispetto al tempo; ad esempio, si possono considerare gli Italiani che risultano residenti in Italia alle ore 12 di un dato giorno (popolazione definita secondo una caratteristica riferita ad un istante di tempo), oppure quelli nati dal 1° gennaio al 31 dicembre di un dato anno (popolazione definita secondo una caratteristica riferita ad un periodo di tempo). Si distingue anche tra:
popolazione reale o empirica: un insieme le
cui unità possono essere tutte concretamente osservate (ad esempio, l'insieme delle persone, delle abitazioni o delle aziende oggetto di un censimento); popolazione virtuale o teorica: un insieme definibile con accuratezza, ma non concretamente osservabile (ad esempio, le possibili cinquine estraibili nel gioco del superenalotto o i possibili pezzi difettosi di una produzione) Il termine statistica deriva da “status” che significa stato e originariamente si riferiva ai fatti che il governo centrale acquisiva dalle regioni di un paese, come i tributi riscossi o le messi prodotte. Attualmente il significato di statistica include ogni raccolta di fatti quali la statistica del lavoro (es. il numero di operai metalmeccanici disoccupati) o la statistica dello sport (es. il numero di reti fatte da un calciatore in una stagione). La popolazione statistica è l’insieme delle unità statistiche che hanno rilevanza per l’indagine statistica e che sono portatrici dei caratteri su cui è fissata l’attenzione. Anche le popolazioni possono essere distinte in: Finite: quando hanno un numero finito di unità statistiche (popolazioni reali): Es Misurare i tempi degli 8 atleti che hanno disputato la finale dei 100 metri ai mondiali; I nuotatori che hanno disputato la finale delle olimpiadi ai quali viene misurata la pressione arteriosa dopo la prestazione; Infinite virtuali: sono quelle collegate ad esperimenti ripetibili in maniera indefinita Es. L’utensile prodotto da una macchina può essere visto come unità statistica, ma se si considera che la macchina possa continuare a produrne, può essere considerato come facente parte di popolazione infinita. Anche il concetto di campione, in statistica, si riferisce a due insiemi di elementi connessi: Campione fisico che è ciascun sottoinsieme di una popolazione fisica e ogni misura presa dal campione fisico produce un campione misurabile. Il fatto che un insieme di elementi venga considerato come una popolazione fisica o come un campione fisico dipende dal contesto nel quale gli elementi vengono esaminati. Es. Gli operai disoccupati di una grande città possono essere una popolazione fisica se l’interesse è rivolto alle condizioni economiche di quella specifica città, ma possono essere un campione fisico se c’è un più alto interesse relativo alle condizioni economiche della regione o della nazione. Gli stessi operai della grande città (popolazione fisica) diventano una popolazione misurabile, se decidiamo di indagare riguardo una loro caratteristica, o variabile, ad esempio l’età. Diventano un campione misurabile se, anche in questo caso, l’interesse è rivolto a conoscere la caratteristica in ambito regionale o nazionale. In generale i termini popolazione e campione vanno intesi in senso relativo e il loro differente impiego dipende dal disegno della ricerca e quindi dalla sua ampiezza. Ciò implica che i dati ottenuti riguardo ad una sottopopolazione (campione) sono ristretti ad essa e i risultati non possono quindi essere generalizzati a popolazioni di natura più ampia a meno che tale campione non venga, nel disegno di ricerca, considerato come popolazione (insieme massimo di riferimento). Es. Il rapporto farmacia/abitante rilevato nella città di Cagliari può essere considerato relativo alla popolazione, se l’interesse della ricerca è circoscritto alla stessa città; diventa relativo al campione se come scopo della ricerca abbiamo la conoscenza del dato a livello nazionale. A tal proposito, il dato contribuisce all’ottenimento della rilevazione nazionale assieme ad altri numerosi campioni rilevati in altre città italiane. Campione fisico o campione misurabile?
Reddito familiare annuo di 15 famiglie che vivono
in un complesso residenziale composto da 500 famiglie. Percentuale di grasso in una partita di 10 salsicce della produzione settimanale di un impianto di lavorazione della carne. Cinque furgoni della produzione quotidiana di una fabbrica di furgoni. 10 dei condannati giustiziati nel 1985 negli Stati Uniti. Ogni valore numerico calcolato a partire da un’intera popolazione misurabile che descrive qualche caratteristica di tale popolazione si chiama parametro o parametro della popolazione. Ogni misura descrittiva numerica calcolata a partire da un campione misurabile si chiama statistica ( o statistica del campione o misura statistica). La statistica inferenziale è fortemente legata alla teoria della probabilità. La statistica inferenziale si suddivide poi in altri capitoli, di cui i più importanti sono: la teoria della stima e la verifica delle ipotesi. Attraverso i dati della statistica descrittiva è possibile effettuare un’analisi esplorativa per rilevare, ad esempio, se le unità prese in considerazioni sono provenienti da una sola popolazione o da popolazioni distinte. La statistica inferenziale è basata sulla “teoria della decisione statistica” che si può dividere in due aree: “Teoria della stima” che fornisce le tecniche per risolvere i problemi di stima stimando alcuni parametri della popolazione ignoti con l’utilizzo della statistica del campione dai relativi campioni misurabili. Es. Si utilizza la media del campione per stimare la media della popolazione. Naturalmente è possibile valutare anche la bontà della stima attraverso gli intervalli di confidenza che altro non sono che l’intervallo di valori plausibili per quel parametro. La teoria della verifica delle ipotesi fornisce le tecniche per determinare se le ipotesi statistiche vadano accettate o rifiutate. Un’ipotesi statistica è un’assunzione a proposito di proprietà sconosciute di una o più popolazioni misurabili; di solito riguardano i loro parametri o la loro distribuzione dal valore più piccolo a quello più grande. Es. Se ipotizziamo che la media di una popolazione misurabile sia uguale al valore “a” , la verifica di tale ipotesi utilizza l’informazione di un campione misurabile per determinare la probabilità che l’ipotesi sia vera. Statistica inferenziale Popolazione fisica Campione Campione Statistica Popolazione misurabile fisico misurabile descrittiva
ẋ pop
Se la media aritmetica µ di una popolazione
misurabile è ignota, per stimarla si prende un campione fisico della relativa popolazione fisica. La misura che ci interessa è presa da tutti gli elementi del campione fisico, producendo un campione misurabile ẋ ẋ La media e le altre statistiche descrittive vengono calcolate a partire dal campione misurabile. Utilizzando la statistica inferenziale e la stima di ẋ, µ viene racchiusa dentro un intervallo di confidenza che di solito corrisponde al 95% (o al 99%) della variabilità attesa intorno alla media vera della popolazione di riferimento. Tale intervallo rappresenta l’insieme di valori variabili da campione a campione che rendano comunque vera l’ipotesi di omogeneità parametrica tra dato campionario (statistica) e dato della popolazione (parametro). Es. L’altezza media dei sardi di genere maschile rispetto alla corrispondente altezza degli individui maschi della popolazione francese. Quindi l’altezza dei sardi, sotto ipotesi nulla, non si differenzia da quella nota della popolazione di individui maschi francesi. Riguardo la rilevazione essa può essere messa in atto con strumenti diversi: questionari, interviste, tempi di risposta, azioni, decisioni, scelte alternative, etc. Importante è precisare la natura della scala con cui si rilevano le modalità della variabile studiata e che non vi siano elementi di distorsione della misura stessa (errori di imputazione o di codifica, risposte affette da falsità, non risposte, risposte certe, etc.) Ogni trasformazione dei dati (a partire dai micro-dati) può rendere più chiara l’informazione contenuta nei dati d’origine, ma non aumentarla: semmai può comportarne una distorsione. I dati, attraverso la statistica descrittiva, possono essere sintetizzati (moda, media, mediana, varianza, coefficiente di variazione) descrivendo gli aspetti salienti dei dati osservati e formando così il contenuto statistico di conformità attesa per l’intero campione misurativo osservato. La statistica inferenziale ha come obiettivo, invece, quello di fornire affermazioni, con una possibilità di errore controllata, riguardo la natura teorica (la legge probabilistica) del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare previsione (si pensi, ad esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato dall’impiego di metodiche statistiche di natura inferenziale).