Escolar Documentos
Profissional Documentos
Cultura Documentos
6
STATISTICĂ
PROCEDURI DE ESTIMARE
68,26%
13,59% 13,59%
2,15% 2,15%
0,13% 95,44% 0,13%
-3 -2 -1 X +1 +2 +3
Eşantionul 1 Eşantionul 2
X 5000000 X 5000000
n1 = 100 n2 = 1000
1
Cea de-a doua distribuţie conţine aproximativ 68% din mediile aritmetice ale tuturor eşantioanelor
posibile între 8697 faţă de X , în timp ce prima distribuţie conţine ce 68% din mediile aritmetice într-
un interval mult mai larg: 27500.
2
Aceste relaţii precizează ideea intuitivă că putem avea mai multă încredere în rezultatele obţinute pe
eşantioane mari, decât în cele obţinute pe eşantioane mici, evident, cu condiţia ca şi unele şi altele să fie
selectate aleatoriu.
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 4 din 14
cazuri aflate sub 1,96 şi peste 1,96 abateri standard faţă de medie este de 0,05 (0,025
+ 0,025):
0,025 0,025
0,475 0,475
0,95
1,96 1,96
Acelaşi lucru ca mai sus poate fi exprimat spunând că 95% din mediile aritmetice ale
eşantioanelor se află în intervalul dintre 1,96( n ) şi 1,96( n ) sau, pe
scurt, în intervalul 1,96( n ) . Structura acestui tip de enunţ de probabilitate
poate fi folosită pentru a estima valoarea parametrului μ, prin construirea unui interval
centrat pe valoarea cunoscută pentru eşantion, X . Rezultatul este un interval de
încredere estimat – o amplitudine de valori în care este probabil (nu sigur) să se afle μ.
Astfel, putem estima că există o probabilitate de 0,95 (sau 95%) ca media aritmetică a
populaţiei să se afle în intervalul X 1,96( n ) , ceea ce înseamnă că probabilitatea
ca media aritmetică a populaţiei să nu se afle în acest interval este de 0,05 (sau 5%).
Probabilitatea ca media aritmetică a populaţiei să nu se afle în intervalul estimat
sau, altfel spus, probabilitatea de eroare a estimării se numeşte nivel de semnificaţie
sau nivel alfa (α), iar probabilitatea ca intervalul estimat să conţină media aritmetică a
populaţiei se numeşte nivel de încredere. După cum reiese şi din cele de mai sus,
nivelul de încredere este complementarul nivelului alfa, fiind egal cu 1 α sau, în
procente, cu (1 α)100. A stabili, de pildă, că α = 0,05 înseamnă acelaşi lucru cu a
spune că nivelul de încredere este de 95%. Întrucât probabilitatea de eroare este
împărţită în mod egal în extremitatea inferioară şi cea superioară a distribuţiei de
eşantionare, stabilindu-se astfel limita inferioară şi limita inferioară de încredere, vom
nota scorul Z corespunzător nivelului α ales cu Zα/2. Astfel, în cazul în care σ este
cunoscut, formula de construire a unui interval de încredere estimat (IE) bazat pe media
aritmetică a unui eşantion este următoarea:
Formula 6.1 IE X Z 2 ( n)
0,05 0,05
0,450 0,450
0,90
1,65 1,65
Astfel, pentru α = 0,10 trebuie să căutăm proporţia 0,4500 în tabelul distribuţiei normale
standard. Găsim însă o proporţie de 0,4495, corespunzătoare scorului Zα/2 = 1,64 şi o
proporţie de 0,4505, corespunzătoare scorului Zα/2 = 1,65. Scorul Zα/2 pe care îl căutăm
se află undeva între aceste două scoruri. În aceste condiţii, se ia cel mai mare dintre cele
două scoruri: 1,65. În acest fel, intervalul de încredere va fi cel mai mare posibil în
circumstanţele date. Prin urmare, vom avea:
IE X Z 2 ( n ) 6 1,65(0,7 1,65(0,7/14,14) =
200 ) 6
= 6 1,65 0,0495 = 6 0,08
Formula 6.2 IE X Z 2 ( s n 1)
3
Această distribuţie este datorată lui William S. Gosset, un chimist şi statistician care lucra la fabrica de
bere Guiness la începutul secolului al XX-lea. Gosset a descoperit că pentru eşantioanele mici,
distribuţiile de eşantionare diferă de distribuţia normală şi depind de dimensiunea eşantionului considerat.
Gosset şi-a publicat rezultatele în 1908 sub pseudonimul Student.
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 7 din 14
t=0
X
t
s n 1
29 2,045
30
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 8 din 14
Tabelul valorilor critice ale distribuţiei t specifică valorile pentru tα, ceea ce
înseamnă valorile lui t pentru care aria aflată la dreapta sub curba t este egală cu α:
tα
Nivelele α sunt dispuse pe primul rând al tabelului Valorile tα sunt date pentru grade de
libertate (gl), dispuse pe prima coloană din stânga, de la 1 la 30 şi apoi 40, 60, 120 şi .
De notat că, pe măsură ce numărul de grade de libertate creşte, diferenţa dintre
distribuţia t şi distribuţia normală descreşte, precum şi că pentru o infinitate de grade de
libertate, distribuţia t este identică cu distribuţia normală. Pentru estimarea intervalelor,
ca şi pentru alte scopuri, avem nevoie de tα/2. Această valoare se localizează înmulţind
cu 2 valoarea α aflată pe primul rând. De pildă, pentru n = 30 şi α = 0,05, numărul de
grade de libertate este 29; la intersecţia coloanei de sub tα = 0,025 şi liniei
corespunzătoare pentru gl = 29 găsim valoarea 2,045. Astfel, în acest caz, vom spune că
valoarea lui tα/2 este 2,045.
Formula pentru cazurile în care σ este necunoscut şi n 30 este următoarea:
Formula 6.3 IE X t 2 ( s n)
18 20 12 30
31 32 25 29
26 28 23 20
24 27 20 19
22 33 28 22
X =
X i
489
24,45
n 20
s
X i
2
nX 2
12515 20 597,8
29,4 5,42
n 1 19
Pentru n = 20, numărul de grade de libertate este 19; având α = 0,01, la intersecţia
coloanei de sub tα = 0,005 şi liniei corespunzătoare pentru gl = 19 găsim valoarea 2,861.
Astfel, valoarea lui tα/2 este 2,861. Aplicând formula 6.3, obţinem:
Astfel, estimăm că media aritmetică pe care o căutăm este cuprinsă între 21,03 şi 27,91
şi există doar 1% şanse ca acest interval să nu conţină media aritmetică a populaţiei.
De reţinut că formula 6.3 poate fi aplicată doar dacă variabila de interes este
normal distribuită.
P (1 P)
Formula 6.4 IE p Z 2
n
În această formulă, valorile pentru p şi n provin de la eşantion, iar valoarea lui Zα/2 se
determină la fel ca mai sus. Problema cu această formulă este că valoarea proporţiei
pentru populaţie, P, nu este cunoscută. Pentru a rezolva această problemă, se poate
proceda în două moduri.
Un prim mod de a rezolva problema constă în a stabili că P = 0,5. În această
situaţie, 1 P = 0,5 iar P(1 P) = 0,5 0,5 = 0,25. Este important de remarcat că 0,25
este valoarea maximă pe care o poate lua numărătorul fracţiei de sub radical, P(1 P).
Stabilind pentru P orice altă valoare diferită de 0,5, valoarea expresiei P(1 P) va fi
mai mică decât valoarea pentru P = 0,5. De pildă, dacă P = 0,4, atunci 1 P = 0,6 şi
P(1 P) = 0,4 0,6 = 0,24. Întrucât P(1 P) are valoarea maximă când P = 0,5, ne
asigurăm că intervalul obţinut va fi cel mai mare posibil pentru p, Zα/2 şi n date. Practic,
adoptând această soluţie, lucrăm cu formula următoare:
0,25
Formula 6.5 IE p Z 2
n
A doua soluţie a problemei menţionate constă din a estima valoarea lui P prin p,
lucrând cu formula următoare:
p(1 p)
Formula 6.6 IE p Z 2
n
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 10 din 14
Oricum, formulele de mai sus pot fi folosite doar dacă dimensiunea eşantionului
considerat estre destul de mare, astfel încât np 5 şi n(1 p) 5.
Să presupunem, de pildă, că ne dorim să estimăm proporţia de studenţi de la
universitatea X care au lipsit cel puţin o zi pe motiv de boală într-un anumit semestru şi
că dintr-un eşantion aleatoriu de 200 de studenţi, găsim 30 în această situaţie. Astfel,
proporţia eşantionului pe care ne bazăm estimarea este p = 30/200 = 0,15. La un nivel
de încredere de 95%, intervalul estimat cu ajutorul formulei 6.5 este următorul:
0,25 0,25
IE p Z 2 0,15 1,96 0,15 0,07
n 200
În acest caz, estimăm că proporţia căutată este cuprinsă între 0,10 şi 0,20 sau, altfel
spus, că între 10% şi 20% dintre studenţii universităţii X au lipsit cel puţin o zi pe motiv
de boală în semestrul considerat.
De notat că intervalul estimat cu ajutorul formulei 6.5 este mai larg decât cel
estimat cu ajutorul formulei 6.6, astfel că prima estimare este cea mai conservatoare
soluţie posibilă, căci este mult mai probabil ca intervalele mai largi să conţină
parametrul estimat. Prin urmare, din punct de vedere statistic, prima estimare este
preferabilă celei de-a doua estimări.
Mărimea unui interval de încredere estimat pentru medii aritmetice sau proporţii
poate fi controlat prin intermediul a doi termeni ai ecuaţiei respective: nivelul de
încredere, care determină scorul Zα/2 sau tα/2 corespunzător, şi dimensiunea eşantionului.
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 11 din 14
L Z 2
n
Ridicând la pătrat ambii membri ai ecuaţiei, egalitatea se păstrează:
2
L2 Z 2 2
n
Z 2 2 2
Formula 6.7 n
L2
Pentru a folosi această formulă trebuie să cunoaştem valoarea lui σ, or, după cum am
mai menţionat, în aproape toate cazurile această valoare nu este cunoscută. Totuşi,
valoarea lui σ poate fi aproximată, dacă cunoaştem amplitudinea variabilei măsurate, A.
Astfel, o aproximare conservatoare a lui σ este σ A/4.
Să ilustrăm. Un psiholog industrial doreşte să estimeze durata medie în care un
muncitor de la o firmă de produse electronice execută un anumit reglaj. Observând un
număr de muncitori care execută reglajul respectiv, psihologul constată că durata cea
mai mică este de 10 minute, iar cea mai mare de 22 de minute. Cât de mare trebuie să
fie eşantionul selectat, dacă psihologul doreşte să estimeze durata medie de execuţie a
acelui reglaj cu o precizie de 20 de secunde, la un nivel de încredere de 95%? În această
problemă, L = 20 şi amplitudinea variabilei măsurate este A = 22 – 10 = 12 minute,
astfel că
σ A/4 = 12/4 = 3 minute = 180 secunde
Z 2 2 2 (1,96) 2 180 2
n 311,12 300
L2 20 2
Z 2 2 2 (1,96) 2 180 2
n 1244,48 1244
L2 10 2
Se observă că dimensiunea eşantionului creşte mai repede decât precizia: pentru a dubla
precizia de la 20 de secunde la 10 secunde, dimensiunea eşantionului trebuie să crească
de aproximativ patru ori. Această relaţie este importantă pentru planificarea costurilor
unei cercetări. Eşantioanele impresionant de mari pot constitui o irosire de resurse fără
un câştig semnificativ în privinţa preciziei, în raport cu eşantioanele mai mici şi deci
mai ieftine.
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 13 din 14
0,25
IE p Z 2
n
0,25
Aici, limita de eroare a estimării este Z 2 . Notând tot cu L limita de eroare a
n
estimării, avem ecuaţia:
0,25
L Z 2
n
Ridicând la pătrat ambii membri, avem:
0,25
L2 Z 2 2
n
(1,96) 2 0,25
n 1067,11 1000
(0,03) 2
Prin urmare, pentru a obţine o precizie (o limită de eroare a estimării) de 3%, este
nevoie de un eşantion de aproximativ 1000 de persoane.
Şi aici se poate constata uşor că dimensiunea eşantionului creşte mai repede
decât precizia. Tabelul următor prezintă relaţiile dintre precizie şi dimensiunea
eşantionului pentru proporţii ale eşantioanelor:
Tabelul 6.3 Precizia şi dimensiunea eşantionului
(α = 0,05, P = 0,5)
Precizia Dimensiunea aproximativă
(Mărimea intervalului) a eşantionului
10% 100
7% 200
5% 400
3% 1000
2% 2400
1% 9600
Se poate observa, de pildă, că pentru a dubla precizia de la 10% la 5%, dimensiunea
eşantionului trebuie să crească de patru ori.
6 PROCEDURI DE ESTIMARE STATISTICĂ Pagina 14 din 14
GLOSAR
Curba t: grafic al unei distribuţii t; ca şi aritmetice sau, altfel spus, cu cât este mai
curba normală, curba t este simetrică şi mică abaterea standard a distribuţiei de
are formă de clopot cu ambele eşantionare.
extremităţi extinse la infinit; spre Grade de libertate: concept care se referă
deosebire curba normală, forma exactă a la numărul de valori libere să varieze
curbei t depinde de dimensiunea într-o distribuţie.
eşantionului. Interval de încredere estimat: amplitudine
Distorsiune: criteriu folosit pentru de valori în care este probabil să se afle
selectarea unei mărimi statistice ca un parametru al populaţiei de interes.
estimator; o mărime statistică este Nivel alfa (α): Probabilitatea ca un
nedistorsionată, dacă media aritmetică a parametru să nu se afle în intervalul
distribuţiei sale de eşantionare este egală estimat sau, altfel spus, probabilitatea de
cu media aritmetică a populaţiei de eroare a estimării.
referinţă. Nivel de încredere: probabilitatea ca
Distribuţia t: distribuţie teoretică ce descrie intervalul estimat să conţină parametrul
distribuţia de eşantionare a mediilor de interes.
aritmetice în cazul în care eşantioanele Proceduri de estimare: tehnici statistice în
sunt mici (n 30) şi valoarea lui σ este care pe baza unei statistici calculate
necunoscută. pentru un eşantion, numită estimator, se
Eficienţă: criteriu folosit pentru selectarea face o apreciere despre parametrul
unei mărimi statistice ca estimator; o corespunzător al populaţiei de referinţă.
mărime statistică este cu atât mai Punct estimat: o singură valoare calculată
eficientă, cu cât distribuţia de eşantionare pentru un eşantion şi folosită pentru a
este mai grupată în jurul mediei sale face o apreciere despre parametrul
corespunzător al populaţiei de referinţă.