Escolar Documentos
Profissional Documentos
Cultura Documentos
În modelul de analiză dispersională unifactorială se testează ipoteza nulă: mediile din populaţii
sunt egale
H0: µy1 = µy2 = ... = µyr,
cu ipoteza alternativă: cel puţin două medii din populaţie nu sunt egale
H1 : µyi ≠ µyi, (i ≠ j)
y
y
yr
y2
y1=y2= =yr
y1
o x1 x2 ...... xr x o x1 x2 ..... xr x
Figura 3.1
1
Se testează, cu alte cuvinte, dacă diferenţele dintre mediile de grupă din eşantion sunt prea
mari pentru a fi atribuite doar întâmplării. Dacă rezultatul testului indică faptul că mediile sunt
semnificativ diferite, se concluzionează că factorul X are un impact asupra variabilei Y.
Testul statistic este dezvoltat în concordanţă cu următorul raţionament. Dacă ipoteza nulă este
adevărată, mediile celor r populaţii ar trebui să fie, toate, egale. Ne aşteptăm atunci ca mediile celor r
eşantioane să fie aproximativ egale. Dacă ipoteza alternativă este adevărată, există diferenţe mari între
unele medii ale eşantioanelor.
Setul de date pentru analiza dispersională unifactorială constă în valorile variabilei Y pentru cele r
grupe independente. Volumele grupelor pot fi diferite n1 ≠ n2 ≠ ... ≠ nr (tabelul 3.1):
Tabelul 3.1 Sistematizarea datelor pentru ANOVA
Grupe după factorul cauză
Gr. 1 Gr. 2 ... . Gr.r
y11 y21 ..... yr1
y12 y22 ..... yr2
. .
. .
y 1n1
y 2n .....2
y rn r
Media y1 y2 ..... yr
n1 n2 ..... nr
Vol. grupă
Presupunerile sub care se aplică testul F în analiza dispersională unifactorială oferă un cadru
solid pentru inferenţa statistică pe baza datelor observate, anume:
- cele r grupe din eşantion sunt extrase aleator şi independent din cele r grupe ale colectivităţii
generale;
- fiecare grupă din colectivitatea generală are o distribuţie normală, iar abaterile medii pătratice sunt
egale σ 1 = σ 2 = ... = σ r .
Testul statistic F pentru analiza dispersională unifactorială este raportul indicatorilor de
variabilitate pentru cele două surse de variaţie: variabilitatea dintre grupe împărţită la variabilitatea din
interiorul grupelor. El poate fi interpretat ca măsurând de câte ori este mai mare variabilitatea mediilor
de grupă comparativ cu ce ne-am fi aşteptat dacă ele erau doar aleator diferite. Pentru testarea ipotezei
nule, vom estima mediile de grupă şi media totală din colectivitatea generală pe baza datelor din
eşantion.
ni
∑y
j =1
ij
yi = , i = 1,r
ni
r ni r
∑∑ yij ∑y n i i r
, n = ∑ ni .
i =1 j =1
y= = i =1
n n i =1
2
Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi varianţa factorială, este
suma pătratelor abaterilor mediilor de grupă de la media generală:
( )
r
S1 = ∑ y i − y ni .
2
i =1
( ).
r ni
S 2 = ∑∑ yij − y i
2
i =1 j =1
Împrăştierea totală a valorilor individuale faţă de media generală y este dată de varianţa totală:
( )
r ni
S = ∑∑ yij − y .
2
i =1 j =1
Pentru a face comparabile aceste măsuri ale variabilităţii, le vom raporta pe fiecare la gradele de
libertate, transformând astfel suma de pătrate în media pătratele abaterilor.
Pentru varianţa factorială S1, numărul gradelor de libertate este r-1 şi acest lucru înseamnă că
măsurăm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media totală a fost
estimată.
Pentru varianţa reziduală (din interiorul grupelor) S2, numărul gradelor de libertate este n–r; acest
lucru înseamnă că măsurăm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate,
deoarece au fost estimate mediile celor r grupe.
Obţinem astfel dispersia factorială corectată:
∑ (y )
r
2
i − y ni
S1
s12 = = i =1
r −1 r −1
∑∑ (y )
r ni
2
ij − yi
S2 i =1 j =1
s 22 = = .
n−r n−r
3
s12 var iabilitatea dintre grupe
F= = ,
s 22 variabilitatea din interiorul grupelor
grupa j ( j = 1, J ) a celui de-al doilea factor este yijk, (cu k = 1, K numărul de observaţii din fiecare
celulă considerată pentru nivelul i al primului factor şi nivelul j al celui de-al doilea factor), iar
rezultatele analizei pot fi prezentate astfel (tabelul 3.2).
4
Tabelul 3.2 Analiza dispersională bifactorială
Grade de Varianţa Dispersia corectată
Sursa variaţiei Statistica F
libertate (suma pătratelor) (media pătratelor)
( ) s12
I
S1
S1 = JK ∑ x i .. − x
I–1 2
Primul factor s12 = F=
i =1 I −1 s42
( ) s22
J
S
S 2 = IK ∑ x . j . − x
2
J–1
Al doilea factor s = 2
2
2
F=
j =1 J −1 s42
Interacţiunea
( )
I J
S3 s 32
S3 = K∑∑ xij. −xi.. −x. j. + x
2
celor doi (I-1)(J-1) s =
2
F= 2
factori i=1 j=1
3
(I − 1)(J − 1) s4
( )
I J K
S4
S 4 = ∑∑∑ xijk − x ij .
2
Reziduală IJ(K-1) s 42 =
i =1 j =1 k =1 IJ (K − 1)
( )
I J K
S = ∑∑∑ xijk − x
2
Totală IJK–1
i =1 j =1 k =1
unde:
— media celulei este:
K
∑x ijk
x ij. = k =1
;
K
∑∑x ijk
xi.. =
j=1 k=1
;
JK
∑∑x ijk
∑∑∑xijk
i=1 j=1 k=1
∑xi.. ∑x
j=1
. j.
x= = i=1
= .
IJK I J
5
Testul F se realizează, apoi, prin compararea valorilor calculate cu valorile critice, similar cu
analiza dispersională unifactorială.
Trebuie subliniat, încă o dată, că modelele de analiză dispersională nu explică relaţia dintre
variabile, ci verifică doar măsura în care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum şi măsura în care aceste variaţii sunt sau nu dependente de factorul/factorii de
grupare. Prin urmare, metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi după aplicarea
metodelor corelaţiei şi regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dacă nu chiar
imposibil să culegem date despre fiecare unitate statistică din populaţia generală (totală). În aceste
condiţii utilizăm, în general, date provenite din eşantioane, pentru a studia aceste legături. Este firesc
atunci ca, după aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaţii de
dependenţă între variabile, să testăm ipoteza statistică privitoare la semnificaţia acestei dependenţe.
Pentru fiecare nivel/variantă/interval de variaţie al factorului cauzal, se înregistrează o distribuţie
de valori ale factorului efect, distribuţie pe care o putem caracteriza prin nivelul mediu. Dacă aceste
medii ale variabilei efect, calculate pentru fiecare nivel al factorului cauză sunt egale (sau foarte puţin
diferite) concluzia imediată este că variabila independentă nu influenţează variabila dependentă.
Aspectul graficului este, aşadar, al unui nor de puncte paralele cu axa OX. Cu cât variabila cauză
influenţează mai mult variaţia variabilei efect, cu atât mediile de grupă vor fi mai diferite între ele, ca
nivel. În interiorul celor r grupe după factorul cauză (X), valorile variabilei efect (Y) vor varia datorită
diferenţelor individuale inerente în populaţia statistică, dar între cele r grupe, mediile vor varia
datorită influenţei variabilei cauză.
Analiza dispersională va urmări, deci, să testeze semnificaţia diferenţei dintre mediile de grupă în
populaţia generală (estimate prin mediile de grupă din eşantion).
Să mai notăm că, în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale unei
variabile categoriale (numite şi tratamente), dar, cum ceea ce este valabil pentru o scală inferioară
(nominală) este valabil şi pentru orice altă scală superioară (ordinală, de intervale, de rapoarte), analiza
se poate extinde.
Testul F se poate utiliza şi pentru testarea validităţii modelului de regresie (a se vedea capitolul 4).
1. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă
tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un
număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la
6
angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate
după mărime, iar datele înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia timpului scurs până la
prima promovare este influenţată semnificativ de mărimea firmei?
Rezolvare:
Notăm cu X – caracteristica „mărimea firmelor“ – factorul de grupare şi cu Y – caracteristica
“număr de săptămâni de la angajare până la prima promovare”.
Se formulează următoarele ipoteze:
H0: µ1 = µ 2 = µ 3
H1: µ i ≠ µ j , i ≠ j
Unde µi reprezintă timpul mediu de promovare pentru firma din grupa „i”, la nivelul
colectivităţii generale.
Calculăm, la nivelul eşantionului, mediile pentru fiecare grupă i ( yi ), cu i = 1,3 , unde i
reprezintă grupa (mărimea firmei):
8
∑y j =1
1j
30 + 26 + 30 + 38 + 32 + 24 + 32 + 28
y1 = = = 30,00 săptămâni;
n1 8
5
∑y
j =1
2j
34 + 32 + 25 + 36 + 33
y2 = = = 32 săptămâni;
n2 5
∑y
j =1
3j
47 + 41 + 43 + 48 + 40 + 49 + 40
y3 = = = 44 săptămâni.
n3 7
y=
∑y ni i
=
30 ⋅ 8 + 32 ⋅ 5 + 44 ⋅ 7
= 35,4 săptămâni.
∑n i 20
7
∑ (y )
8
2
− y1
s =
2 j =1
1j
=
(26 − 30 ) + (32 − 30 ) + (38 − 30 )
2 2 2
+
1
n1 8
+
(24 − 30)2 + (32 − 30)2 + (28 − 30)2 =
128
= 16
8 8
∑ (y )
5
2
− y2
s22 =
j =1
2j
=
(34 − 32)2 + (25 − 32)2 + (36 − 32)2 + (33 − 32)2 =
70
= 14
n2 5 5
∑ (y )
7
2
− y3
s 32 =
j =1
3j
=
(47 − 44)2 + (41 − 44)2 + (43 − 44)2 +
n3 7
+
(48 − 44 ) + 2(40 − 44 ) + (49 − 44 )
2 2 2
=
92
= 13,14
7 7
Varianţa sistematică va fi:
( )
r
S1 = ∑ y i − y ⋅ ni =(30 − 35,4) ⋅ 8 + (32 − 35,4) ⋅ 5 +
2 2 2
i =1
( ) = ∑s
r ni 2 r
S 2 = ∑∑ y ij − y i 2
i ⋅ ni = 128 + 70 + 92 = 290
i =1 j =1 i =1
Testul F:
s12 404,4
F= 2 = = 23,7
s 2 17,06
Ftabelar=Fcritic=Fα,r-1,n-r=F0,05;2;17=3,59
Cum Fcalculat>Fcritic, rezultă că se respinge ipoteza nulă, acceptându-se ca adevărată ipoteza
alternativă. Timpul mediu de promovare pe fiecare tip de firmă diferă semnificativ, în consecinţă se
poate afirma, cu o probabilitate de 95% că mărimea firmei influenţează semnificativ variaţia timpului
de promovare a tinerilor.
8
11. În vederea fundamentării deciziei de înlocuire a unor utilaje din dotarea unei fabrici,
managerul acesteia solicită o analiză a vechimii utilajelor şi a costului de întreţinere anual al acestora.
Astfel cele 110 utilaje din dotarea fabricii sunt grupate după vechime (ani) şi după costul de întreţinere
(mii lei):
Costul de întreţinere (mii lei)
Vechime 5–7 7–9 9 – 11 11 – 13 Total
(ani)
Mică (<5 ani) 10 8 5 - 23
Medie (5-10 ani) - 15 20 7 42
Mare (>10 ani) - 2 25 18 45
Total 10 25 50 52 110
Se cere să se determine dacă influenţa vechimii asupra variaţiei costului de întreţinere este
semnificativă, utilizând testul F de analiză dispersională.
Rezolvare:
Notăm cu X – caracteristica „vechime“ – factorul de grupare şi cu Y – caracteristica “costul de
întreţinere”.
În vederea calculării indicatorilor necesari determinării statisticii F datele vor fi sistematizate
pentru fiecare categorie de vechime conform tabelelor de mai jos.
i = 1 (grupa “vechime mică”).
Cost de întreţinere
(mii RON)
n1j yj yjn1j y j − y1 (y j − y1 )2 n1 j
5–7 10 6 60 -1,56 24,336
7–9 8 8 64 0,44 1,549
9 – 11 5 10 50 2,44 29,768
11-13 12
Total 23 - 174 - 55,653
∑ (y − y ) n
2
y1 =
∑y n j 1j
=
174
= 7 ,56 mii RON ; s12 =
j 1 1j
=
55,653
= 2 ,42
∑n 1j 23 ∑n 1j 23
Cost de întreţinere
(mii RON)
n2j yj yjn2j y j − y2 (y j − y 2 )2 n2 j
5–7 - 6 -
7–9 15 8 120 -1,62 39,366
9 – 11 20 10 200 0,38 2,888
11-13 7 12 84 2,38 39,6508
Total 42 - 404 - 81,9048
∑ (y − y ) n
2
y2 =
∑y n j 2j
=
404
= 9 ,62 mii RON ; s 2 =
2 j 2 2j
=
81,9048
= 1,95
∑n 2j 42 ∑n 2j 42
9
Cost de întreţinere
(mii RON)
n3j yj yjn3j y j − y3 (y j − y 3 )2 n3 j
5–7 - 6
7–9 2 8 16 -2,7 14,58
9 – 11 25 10 250 -0,7 12,25
11-13 18 12 216 1,3 30,42
Total 45 - 482 - 57,25
∑ (y − y ) n
2
y3 =
∑y n j 3j
=
482
= 10,7 mii RON ; s3 =
2 j 3 3j
=
57 ,25
= 1,27
∑n 3j 45 ∑n 3j 45
( ) = ∑s
r ni r
S 2 = ∑∑ yij − y i 2
i ⋅ ni = 2 ,42 ⋅ 23 + 1,95 ⋅ 42 + 1,27 ⋅ 45 = 194 ,7
i =1 j =1 i =1
Costul mediu de întreţinere pentru întreaga colectivitate de 110 de utilaje poate fi calculată ca
medie a mediilor parţiale:
y=
∑y n i i
=
7 ,56 ⋅ 23 + 9,62 ⋅ 42 + 10,7 ⋅ 45
= 9,64 mii RON.
∑n i 110
( )
r
S1 = ∑ y i − y ⋅ ni =(7 ,56 − 9,64) ⋅ 23 + (9,62 − 9 ,64) ⋅ 42 + (10,7 − 9,64) ⋅ 45 = 150,15
2 2 2 2
i =1
s12 75,075
F= = = 41,25
s 22 1,82
Ftabelar=Fcritic=Fα;,r-1,n-r=F0,05;2;107=3,07
Cum Fcalculat>Fcritic, rezultă că se respinge ipoteza nulă, acceptându-se ca adevărată ipoteza
alternativă. În consecinţă se poate afirma, cu o probabilitate de 95% că vechimea utilajelor
influenţează semnificativ variaţia costului de întreţinere.
10
3. Se cunosc datele:
Grupe de salariaţi după durata Salariul mediu Coeficientul de variaţie pe
Nr. de salariaţi
medie a zilei de lucru (ore) (unit. monetare) grupă (%)
7 – 7,2 100 9,2 6,52
7,2 – 7,4 120 10,4 10,58
7,4 – 7,6 180 11,6 12,07
7,6 – 7,8 140 11,8 10,17
7,8 şi peste 130 12,0 7,50
Total 670 - -
Să se arate dacă durata medie a zilei de lucru influenţează semnificativ variaţia salariului, folosind
testul F de analiză dispersională
Rezolvare:
Se notează cu X - durata zilei de lucru (factorul de grupare), respectiv cu Y - salariul
s yi
Din vi = 100 se determină abaterile medii pătratice pe grupe:
yi
vi ⋅ y i
s yi =
100
2 ∑ s 2y n i 840,9
i
s = = = 1,255
∑ ni 670
∑ y i ni 7468
y= = = 11,15 u.m.;
∑ ni 670
Dispersia dintre grupe:
∑ (y − y ) n
2
637 ,27
δ 2
= i i
= = 0 ,951 ;
∑n i 670
Varianţa totală este:
( )
S = ∑ y j − y = S1 + S 2 = 1478 ,1
2
Varianţa factorială:
11
( )2
S1 = ∑ y i − y ni = δ 2 ⋅ n = 637,2 ;
Varianţa reziduală:
(
S 2 = ∑∑ y j − y i )2 = s 2 ⋅ n = 840,9 ;
s 2 159,3
⇒ Fcalc = 1 = = 125,9 > Ftab = Fα =0,05;4;665 = 2,45 .
s 22 1,265
Cum Fcalc > Ftab , rezultă că influenţa duratei medii a zilei de lucru asupra salariului este semnificativă.
4. Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou
produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel
puţin la fel de bună şi cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul
acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe
uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului
produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3
oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni.
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi
vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate.
Uşurinţa 529 658 793 514 663 719 711 606 461 529
folosirii: 498 663 604 495 485 557 353 557 542 614
804 630 774 717 679 604 620 697 706 615
Calitate:
492 719 787 699 572 523 584 634 580 624
672 531 443 596 602 502 659 689 675 512
Preţ:
691 733 698 776 561 572 469 581 679 532
Identificarea metodei: Datele sunt cantitative şi problema revine la a compara mediile celor trei
populaţii. Ipotezele ce trebuie testate sunt: H0: µ1 = µ2 = µ3 cu alternativa H1: cel puţin două medii sunt
diferite.
Pentru aceasta se aplică o analiză de varianţă cu un singur factor.
Rezolvare folosind EXCEL:
1. Introduceţi datele astfel:
- în A1 tastaţi „Uşurinţa folosirii“, în B1 tastaţi „Calitate“, în C1 tastaţi „Preţ“
12
- datele se introduc pe coloane.
2. Apăsaţi Tools-Data Analysis şi ANOVA: Single Factor.
3. La Input Range selectaţi datele (sau scrieţi A1:C21). Selectaţi Labels in First Row.
4. Specificaţi Grouped by Columns. Apăsaţi OK.
Se obţin rezultatele:
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Uşurinţa folosirii 20 11551 577.55 10775
Calitate 20 13060 653 7238.11
Preţ 20 12173 608.65 8670.24
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512.23 2 28756.12 3.233 0.047 3.159
Within Groups 506983.5 57 8894.447
Total 564495.7 59
În tabelul ANOVA este calculată Statistica F = 3,233 cu o valoare p egală cu 0,047 (pragul de
semnificaţie). Această valoare p ne permite să spunem că cel puţin două medii diferă semnificativ (cu
o probabilitate de 95%), ceea ce însemnă că tactica aleasă pentru promovarea produsului influenţează
valoarea vânzărilor.
13
pentru cele trei categorii de date: pentru primele 20 de unităţi se introduce valoarea 1, pentru
următoarele 20 valoarea 2 şi pentru ultimele 20 valoarea 3.
2. Selectaţi modulul ANOVA/MANOVA. Se va deschide o fereastră General
ANOVA/MANOVA.
3. În această fereastră apăsaţi Variables. La Independent Variables selectaţi variabila a 2-a
(codurile) iar la Dependent Variable selectaţi prima variabilă (valoarea vânzărilor). Apăsaţi
OK.
4. Apăsaţi pe butonul Codes for between-groups factors. Apăsaţi ALL şi OK.
5. Apăsaţi OK. Se va deschide o fereastră ANOVA Results.
6. Dacă apăsaţi pe butonul All Effects va fi calculată statistica F şi valoarea p.
5. Managerul unui post de radio local de muzică hard rock, doreşte să ştie dacă ascultătorii
postului său de radio ascultă muzică mai mult în unele zile ale săptămânii decât în altele. Deoarece
marea majoritate a ascultătorilor postului său de radio sunt tineri, a organizat un sondaj printre aceştia.
Au fost selectaţi 20 de tineri şi au fost rugaţi să noteze zilnic câte minute ascultă postul de radio, într-o
săptămână.
Există vreo diferenţă semnificativă între zilele săptămânii privind numărul de minute în care
tinerii ascultă postul de radio?
Luni Marţi Miercuri Joi Vineri Sâmbătă Duminică
1. 65 40 32 48 60 75 110
2. 90 85 75 90 78 120 100
3. 30 30 20 25 30 60 70
4. 72 52 66 100 77 66 94
5. 70 88 47 73 78 67 78
6. 90 51 103 41 57 69 87
14
7. 43 72 66 39 57 90 73
8. 88 89 82 95 68 105 125
9. 96 60 80 106 57 81 80
10. 60 92 72 45 72 77 90
11. 75 79 79 78 91 60 112
12. 74 46 72 46 74 55 84
13. 49 92 64 69 62 87 81
14. 76 98 96 77 61 84 82
15. 66 64 57 55 29 72 60
16. 30 53 85 53 103 111 55
17. 53 90 47 111 102 76 91
18. 76 68 78 74 63 68 99
19. 59 51 94 103 94 85 83
20. 40 30 45 40 46 60 64
Identificarea metodei: Datele sunt cantitative şi problema revine la a compara cele 7 populaţii:
numărul de minute în care tinerii ascultă postul de radio în fiecare zi a săptămânii.
Ipotezele ce trebuie testate sunt: H0: µ1 = µ2 =...= µ7 cu alternativa H1: cel puţin două medii sunt
diferite. Populaţiile sunt dependente deoarece sunt întrebaţi 20 de tineri despre numărul de minute în
care ascultă postul de radio dar pe zile ale săptămânii. Aceste medii pe zilele săptămânii sunt
comparate.
Pentru aceasta se aplică o analiză de varianţă cu doi factori fără interacţiune.
Se obţin rezultatele:
ANOVA
Source of Variation SS df MS F P-value F crit
Rows 24872.82 19 1309.096 4.528 1.58E-07 1.678
Columns 7107.671 6 1184.612 4.097 0.0009 2.179
Error 32958.33 114 289.1081
În plus la rezultate mai sunt afişate şi informaţii referitoare la linii şi coloane: numărul de
observaţii, numărul de minute ascultate în total, media şi varianţa (dispersia).
Valoarea statisticii F referitoare la testarea mediilor pe zile ale săptămânii, adică pe coloane,
este 4,097 cu o valoare p de 0,0009. Deoarece valoarea p este foarte apropiată de zero se poate spune
tinerii nu ascultă acelaşi număr de minute postul de radio în fiecare zi a săptămânii.
Din tabelul următor (SUMMARY) se poate observa că tinerii ascultă mai mult postul de radio
sâmbăta şi duminica decât în restul săptămânii (mediile sunt mult mai mari ca în restul săptămânii).
15
SUMMARY Count Sum Average Variance
Column 1 20 1302 65.1 381.9895
Column 2 20 1330 66.5 476.4737
Column 3 20 1360 68 461.6842
Column 4 20 1368 68.4 684.4632
Column 5 20 1359 67.95 416.05
Column 6 20 1568 78.4 310.2526
Column 7 20 1718 85.9 312.8316
În tabelul ANOVA mai este calculată şi valoarea statisticii F referitoare la diferenţa între
tineri. Statistica F este 4,53 cu o valoare p foarte apropiată de zero ceea ce înseamnă că există diferenţe
semnificative şi între tineri.
Se obţin rezultatele:
Valoarea statisticii F este 4,097 cu o valoare p de 0,000925. Deoarece valoarea p este foarte
apropiată de zero se poate spune tinerii nu ascultă acelaşi număr de minute postul de radio în fiecare zi
a săptămânii.
Dacă dorim în plus informaţii referitoare la medii, dispersii pe grupuri în fereastra ANOVA
Results se apasă butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apasă butonul
16
Means & no. of cases for each group iar pentru calculul abaterilor standard se apasă butonul
Standard deviations for each group.
Tot în această fereastră este posibilă şi selectarea anumitor opţiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.
Rezolvare:
Identificarea metodei: Observăm că avem 6 tratamente. Fiecare tratament este definit prin
intermediul a doi factori. Primul factor este strategia de marketing cu 3 nivele şi al doilea este modul
de publicitate cu 2 nivele. Deoarece cei doi factori pot interacţiona între ei se va aplica o analiză de
varianţă cu doi factori cu interacţiune între aceştia.
17
712 627 614
558 590 706
447 632 484
479 683 478
624 760 650
546 690 583
444 548 536
582 579 579
672 644 795
Nivel 2 464 689 803
559 650 584
759 704 525
557 652 498
528 576 812
670 836 565
534 628 708
657 798 546
557 497 616
474 841 587
Se obţin rezultatele:
ANOVA
Source of SS df MS F P-value F crit
Variation
Sample 13172.017 1 13172.017 1.419 0.239 4.019
Columns 98838.633 2 49419.317 5.325 0.008 3.168
Interaction 1609.633 2 804.817 0.087 0.917 3.168
Within 501136.7 54 9280.309
Total 614756.98 59
În tabelul ANOVA sunt calculate statisticile F şi valorile p pentru influenţa factorului 1 „strategie
de marketing“ la Columns, pentru influenţa factorului 2 „modalitate de publicitate“ la Sample şi
pentru interacţiunea dintre cei doi factori la Interaction.
Astfel:
- Statistica F pentru „strategia de marketing“ este 5,325 cu o valoare p de 0,008, deci acest factor
influenţeză valoarea vânzărilor;
- Statistica F pentru „modalitatea de publicitate“ este 1,419 cu o valoare p de 0,239, deci acest
factor nu influenţeză semnificativ valoarea vânzărilor;
- Statistica F pentru interacţiunea dintre cei doi factori este 0,087 cu o valoare p de 0,917, deci
interacţiunea dintre cei doi factori nu influenţează semnificativ valoarea vânzărilor.
18
2. Selectaţi modulul ANOVA/MANOVA. Se va deschide fereastra General
ANOVA/MANOVA.
3. În această fereastră apăsaţi Variables. La Independent Variables selectaţi variabila a 4-a iar
la Dependent Variable selectaţi primele 3 variabile. Apăsaţi OK.
4. Apăsaţi pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastaţi „3“ iar la Factor Name, tot pe prima linie tastaţi „factor 1“. Apăsaţi OK.
5. Apăsaţi OK. Se va deschide o fereastră ANOVA Results.
6. Dacă apăsaţi pe butonul All Effects vor fi calculate statisticile F şi valoarile p asociate.
Se obţin rezultatele:
Se observă ca aceste valori diferă puţin de cele obţinute prin Excel. Diferenţele provin din
rotunjirile făcute de calculator.
19
3.4 Întrebări teoretice şi probleme propuse spre rezolvare
3. Pentru 20 de magazine situate în zona centrală, semicentrala şi periferică a unui oraş, se cunosc
valorile vânzărilor (mil. RON):
Zona Valoarea vânzărilor (mil. RON) Nr. magazine
Centrală 27; 22; 21; 20; 28; 29; 22; 20; 16 9
Semicentrala 15; 20; 23; 23; 25 5
Periferică 9; 15; 13; 18; 12; 10 6
Să se determine daca zona de amplasare a magazinelor a influentat semnificativ variaţia vânzărilor,
folosind testul F de analiza dispersionala (ANOVA); (nivel de semnificatie α=0,05).
4. O mare agenţie de închiriat automobile hotărăşte să-şi vândă automobilele după utilizarea
acestora timp de un an. Managerul firmei presupune că distanţa parcursă de maşini influenţează costul
de întreţinere al autovehiculelor şi deci preţul de vânzare al acestora. Pentru a verifica această
presupunere, se înregistrează, pentru un număr de 200 de maşini, distanţa parcursă în ultimul an (în
mii km) şi costul de întreţinere al acestora (în unităţi monetare). Se alcătuiesc patru grupe, după
distanţa parcursă: sub 40 mii km, 40-60 mii km, 60-80 mii km., 80 şi peste 80 mii km.
20
Grupe după Cost de întreţinere (unit. monetare) Total
distanţa parcursă 5–7 7–9 9 – 11 11 – 13
20 – 40 18 28 14 - 60
40 – 60 10% 25% 35% 30% 100%
Ştiind că:
– pentru grupa a 3-a (60 – 80 mii km) s-au înregistrat date pentru 40 de autovehicule, costul mediu
de întreţinere este de 10,4 u.m., cu un coeficient de variaţie de 11,538%, iar
– pentru grupa a 4-a, ce cuprinde 10% din autovehicule, cheltuielile totale de întreţinere au fost de
264 u.m., iar abaterea standard de 0,98 u.m.,
Se cere să se aplice testul F de analiză dispersională pentru a verifica dacă distanţa parcursă a avut
o influenţă semnificativă asupra costului de întreţinere
21