Você está na página 1de 21

ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)

Analiza dispersională, cunoscută şi sub numele de analiză de varianţă (ANOVA), a fost


introdusă de statisticianul R.A. Fisher şi permite compararea mediilor a două sau mai multe
colectivităţi de date cantitative.
Modelul de analiză dispersională nu îşi propune să expliciteze relaţia dintre variabile, ci îşi
propune ca pentru fiecare nivel al factorului/factorilor cauzali să analizeze populaţia distinctă asociată şi
eventualele diferenţe ce apar între populaţii, adică să studieze efectul variabilei/variabilelor
independente asupra celei dependente.
Analiza dispersională se poate face după un model unifactorial, după modele bi- sau
multifactoriale. În cazul modelului unifactorial populaţiile se pot clasifica utilizând un singur criteriu,
numit factor. Fiecare populaţie este numită un nivel al factorului (sunt r niveluri).

3.1 Modelul de analiză dispersională unifactorială

În modelul de analiză dispersională unifactorială se testează ipoteza nulă: mediile din populaţii
sunt egale
H0: µy1 = µy2 = ... = µyr,

cu ipoteza alternativă: cel puţin două medii din populaţie nu sunt egale
H1 : µyi ≠ µyi, (i ≠ j)

y
y
yr
y2
y1=y2= =yr
y1

o x1 x2 ...... xr x o x1 x2 ..... xr x

a) medii de grupă egale; b) mediile de grupă inegale

Figura 3.1

1
Se testează, cu alte cuvinte, dacă diferenţele dintre mediile de grupă din eşantion sunt prea
mari pentru a fi atribuite doar întâmplării. Dacă rezultatul testului indică faptul că mediile sunt
semnificativ diferite, se concluzionează că factorul X are un impact asupra variabilei Y.
Testul statistic este dezvoltat în concordanţă cu următorul raţionament. Dacă ipoteza nulă este
adevărată, mediile celor r populaţii ar trebui să fie, toate, egale. Ne aşteptăm atunci ca mediile celor r
eşantioane să fie aproximativ egale. Dacă ipoteza alternativă este adevărată, există diferenţe mari între
unele medii ale eşantioanelor.
Setul de date pentru analiza dispersională unifactorială constă în valorile variabilei Y pentru cele r
grupe independente. Volumele grupelor pot fi diferite n1 ≠ n2 ≠ ... ≠ nr (tabelul 3.1):
Tabelul 3.1 Sistematizarea datelor pentru ANOVA
Grupe după factorul cauză
Gr. 1 Gr. 2 ... . Gr.r
y11 y21 ..... yr1
y12 y22 ..... yr2
. .
. .
y 1n1
y 2n .....2
y rn r

Media y1 y2 ..... yr
n1 n2 ..... nr
Vol. grupă
Presupunerile sub care se aplică testul F în analiza dispersională unifactorială oferă un cadru
solid pentru inferenţa statistică pe baza datelor observate, anume:
- cele r grupe din eşantion sunt extrase aleator şi independent din cele r grupe ale colectivităţii
generale;
- fiecare grupă din colectivitatea generală are o distribuţie normală, iar abaterile medii pătratice sunt
egale σ 1 = σ 2 = ... = σ r .
Testul statistic F pentru analiza dispersională unifactorială este raportul indicatorilor de
variabilitate pentru cele două surse de variaţie: variabilitatea dintre grupe împărţită la variabilitatea din
interiorul grupelor. El poate fi interpretat ca măsurând de câte ori este mai mare variabilitatea mediilor
de grupă comparativ cu ce ne-am fi aşteptat dacă ele erau doar aleator diferite. Pentru testarea ipotezei
nule, vom estima mediile de grupă şi media totală din colectivitatea generală pe baza datelor din
eşantion.
ni

∑y
j =1
ij

yi = , i = 1,r
ni
r ni r
∑∑ yij ∑y n i i r
, n = ∑ ni .
i =1 j =1
y= = i =1

n n i =1

2
Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi varianţa factorială, este
suma pătratelor abaterilor mediilor de grupă de la media generală:

( )
r
S1 = ∑ y i − y ni .
2

i =1

Din relaţie rezultă că, dacă y1 = y 2 = ... = y r = y atunci S1 = 0.


Varianţa din interiorul grupelor, numită şi varianţa reziduală, este suma pătratelor abaterilor valorilor
individuale de la mediile de grupă:

( ).
r ni
S 2 = ∑∑ yij − y i
2

i =1 j =1

Împrăştierea totală a valorilor individuale faţă de media generală y este dată de varianţa totală:

( )
r ni
S = ∑∑ yij − y .
2

i =1 j =1

Raţionamentul analizei dispersionale se bazează pe partiţionarea sumei pătratelor abaterilor:

∑∑(y − y) = ∑(y − y) n + ∑∑(y − y ) ⇒ S = S + S


r ni 2 r 2 r ni
2
ij i i ij i 1 2
i=1 j =1 i=1 i=1 j =1

Pentru a face comparabile aceste măsuri ale variabilităţii, le vom raporta pe fiecare la gradele de
libertate, transformând astfel suma de pătrate în media pătratele abaterilor.
Pentru varianţa factorială S1, numărul gradelor de libertate este r-1 şi acest lucru înseamnă că
măsurăm variabilitatea a r medii, dar se pierde un grad de libertate, deoarece media totală a fost
estimată.
Pentru varianţa reziduală (din interiorul grupelor) S2, numărul gradelor de libertate este n–r; acest
lucru înseamnă că măsurăm variabilitatea tuturor celor n valori, dar pierdem r grade de libertate,
deoarece au fost estimate mediile celor r grupe.
Obţinem astfel dispersia factorială corectată:

∑ (y )
r
2
i − y ni
S1
s12 = = i =1

r −1 r −1

şi dispersia corectată reziduală:

∑∑ (y )
r ni
2
ij − yi
S2 i =1 j =1
s 22 = = .
n−r n−r

Statistica F pentru analiza dispersională unifactorială are forma:

3
s12 var iabilitatea dintre grupe
F= = ,
s 22 variabilitatea din interiorul grupelor

cu gradele de libertate (r – 1) la numărător şi (n – r) la numitor.


Testul statistic F se realizează comparând valoarea calculată a statisticii F cu valoarea critică
(tabelată) Fα pentru (r–1) şi (n–r) grade de libertate şi probabilitatea 100 (1-α)% de garantare a
rezultatelor aleasă. Rezultatul este semnificativ dacă:
F> Fα, (r- 1),(n- r) ,
deoarece acest lucru indică diferenţe mai mari între mediile grupelor decât cele datorate întâmplării.
Regiunea critică este dată deci de valorile lui F pentru care F > Fα,r-1,n-r . Altfel spus, dacă valoarea F este
mai mică decât valoarea critică Fα, atunci se pot face următoarele afirmaţii echivalente:
- acceptăm ipoteza nulă, H0;
- nu acceptăm ipoteza alternativă H1;
- mediile grupelor nu sunt semnificativ diferite una faţă de alta;
- diferenţele observate între mediile grupelor pot fi datorate doar întâmplării;
- rezultatul nu este semnificativ statistic.
Dacă valoarea F este mai mare decât valoarea critică Fα, atunci:
- acceptăm ipoteza alternativă, H1;
- respingem ipoteza nulă, H0;
- mediile grupelor sunt semnificativ diferite una faţă de alta;
- diferenţele observate între mediile grupelor nu sunt datorate doar întâmplării;
- rezultatul este semnificativ statistic.

3.2 Modelul de analiză dispersională bifactorială

În modelul de analiză dispersională bifactorială se identifică doi factori de influenţă, iar


variabilitatea caracteristicii rezultative poate să fie pusă:
- pe seama influenţei primului factor (cu I niveluri);
- pe seama influenţei celui de-al doilea factor (cu J niveluri);
- pe seama interacţiunii celor doi factori;
- pe seama întâmplării (factorului rezidual).
În acest caz, o valoare înregistrată pentru variabila efect Y, la grupa i ( i = 1, I ) a primului factor şi

grupa j ( j = 1, J ) a celui de-al doilea factor este yijk, (cu k = 1, K numărul de observaţii din fiecare
celulă considerată pentru nivelul i al primului factor şi nivelul j al celui de-al doilea factor), iar
rezultatele analizei pot fi prezentate astfel (tabelul 3.2).

4
Tabelul 3.2 Analiza dispersională bifactorială
Grade de Varianţa Dispersia corectată
Sursa variaţiei Statistica F
libertate (suma pătratelor) (media pătratelor)

( ) s12
I
S1
S1 = JK ∑ x i .. − x
I–1 2
Primul factor s12 = F=
i =1 I −1 s42

( ) s22
J
S
S 2 = IK ∑ x . j . − x
2
J–1
Al doilea factor s = 2
2
2
F=
j =1 J −1 s42
Interacţiunea
( )
I J
S3 s 32
S3 = K∑∑ xij. −xi.. −x. j. + x
2
celor doi (I-1)(J-1) s =
2
F= 2
factori i=1 j=1
3
(I − 1)(J − 1) s4

( )
I J K
S4
S 4 = ∑∑∑ xijk − x ij .
2
Reziduală IJ(K-1) s 42 =
i =1 j =1 k =1 IJ (K − 1)

( )
I J K
S = ∑∑∑ xijk − x
2
Totală IJK–1
i =1 j =1 k =1

unde:
— media celulei este:
K

∑x ijk
x ij. = k =1
;
K

— media grupei i ( i = 1, I ) pentru primul factor este:


J K

∑∑x ijk

xi.. =
j=1 k=1
;
JK

— media grupei j ( j = 1, J ) pentru al doilea factor este:


I K

∑∑x ijk

x.j. = i=1 k=1


;
IK

— media totală este:


I J K I J

∑∑∑xijk
i=1 j=1 k=1
∑xi.. ∑x
j=1
. j.

x= = i=1
= .
IJK I J

Testul F de analiză dispersională necesită îndeplinirea unor condiţii suplimentare: variabila


studiată este normal distribuită în cele r grupe şi dispersiile sunt egale. Aceste condiţii pot fi uşor
verificate construind histogramele pentru fiecare din cele r eşantioane.

5
Testul F se realizează, apoi, prin compararea valorilor calculate cu valorile critice, similar cu
analiza dispersională unifactorială.
Trebuie subliniat, încă o dată, că modelele de analiză dispersională nu explică relaţia dintre
variabile, ci verifică doar măsura în care valorile reale ale unei caracteristici se abat de la valorile
teoretice, precum şi măsura în care aceste variaţii sunt sau nu dependente de factorul/factorii de
grupare. Prin urmare, metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi după aplicarea
metodelor corelaţiei şi regresiei statistice.
Astfel, pentru a stabili variabilele independente de interes, deseori este foarte greu, dacă nu chiar
imposibil să culegem date despre fiecare unitate statistică din populaţia generală (totală). În aceste
condiţii utilizăm, în general, date provenite din eşantioane, pentru a studia aceste legături. Este firesc
atunci ca, după aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaţii de
dependenţă între variabile, să testăm ipoteza statistică privitoare la semnificaţia acestei dependenţe.
Pentru fiecare nivel/variantă/interval de variaţie al factorului cauzal, se înregistrează o distribuţie
de valori ale factorului efect, distribuţie pe care o putem caracteriza prin nivelul mediu. Dacă aceste
medii ale variabilei efect, calculate pentru fiecare nivel al factorului cauză sunt egale (sau foarte puţin
diferite) concluzia imediată este că variabila independentă nu influenţează variabila dependentă.
Aspectul graficului este, aşadar, al unui nor de puncte paralele cu axa OX. Cu cât variabila cauză
influenţează mai mult variaţia variabilei efect, cu atât mediile de grupă vor fi mai diferite între ele, ca
nivel. În interiorul celor r grupe după factorul cauză (X), valorile variabilei efect (Y) vor varia datorită
diferenţelor individuale inerente în populaţia statistică, dar între cele r grupe, mediile vor varia
datorită influenţei variabilei cauză.
Analiza dispersională va urmări, deci, să testeze semnificaţia diferenţei dintre mediile de grupă în
populaţia generală (estimate prin mediile de grupă din eşantion).
Să mai notăm că, în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale unei
variabile categoriale (numite şi tratamente), dar, cum ceea ce este valabil pentru o scală inferioară
(nominală) este valabil şi pentru orice altă scală superioară (ordinală, de intervale, de rapoarte), analiza
se poate extinde.
Testul F se poate utiliza şi pentru testarea validităţii modelului de regresie (a se vedea capitolul 4).

3.3 Întrebări teoretice şi probleme rezolvate

1. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă
tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un
număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la

6
angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate
după mărime, iar datele înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia timpului scurs până la
prima promovare este influenţată semnificativ de mărimea firmei?
Rezolvare:
Notăm cu X – caracteristica „mărimea firmelor“ – factorul de grupare şi cu Y – caracteristica
“număr de săptămâni de la angajare până la prima promovare”.
Se formulează următoarele ipoteze:
H0: µ1 = µ 2 = µ 3

H1: µ i ≠ µ j , i ≠ j

Unde µi reprezintă timpul mediu de promovare pentru firma din grupa „i”, la nivelul
colectivităţii generale.
Calculăm, la nivelul eşantionului, mediile pentru fiecare grupă i ( yi ), cu i = 1,3 , unde i
reprezintă grupa (mărimea firmei):
8

∑y j =1
1j
30 + 26 + 30 + 38 + 32 + 24 + 32 + 28
y1 = = = 30,00 săptămâni;
n1 8
5

∑y
j =1
2j
34 + 32 + 25 + 36 + 33
y2 = = = 32 săptămâni;
n2 5

∑y
j =1
3j
47 + 41 + 43 + 48 + 40 + 49 + 40
y3 = = = 44 săptămâni.
n3 7

Numărul mediu de săptămâni pentru întreaga colectivitate de 20 de firme poate fi calculată ca


medie a mediilor parţiale:

y=
∑y ni i
=
30 ⋅ 8 + 32 ⋅ 5 + 44 ⋅ 7
= 35,4 săptămâni.
∑n i 20

Determinăm dispersia fiecărei grupe i ( si2 ):

7
∑ (y )
8
2
− y1
s =
2 j =1
1j

=
(26 − 30 ) + (32 − 30 ) + (38 − 30 )
2 2 2
+
1
n1 8

+
(24 − 30)2 + (32 − 30)2 + (28 − 30)2 =
128
= 16
8 8

∑ (y )
5
2
− y2
s22 =
j =1
2j

=
(34 − 32)2 + (25 − 32)2 + (36 − 32)2 + (33 − 32)2 =
70
= 14
n2 5 5

∑ (y )
7
2
− y3
s 32 =
j =1
3j

=
(47 − 44)2 + (41 − 44)2 + (43 − 44)2 +
n3 7

+
(48 − 44 ) + 2(40 − 44 ) + (49 − 44 )
2 2 2
=
92
= 13,14
7 7
Varianţa sistematică va fi:

( )
r
S1 = ∑ y i − y ⋅ ni =(30 − 35,4) ⋅ 8 + (32 − 35,4) ⋅ 5 +
2 2 2

i =1

+ (44 − 35,4) ⋅ 7 = 808,8


2

Varianţa reziduală este:

( ) = ∑s
r ni 2 r
S 2 = ∑∑ y ij − y i 2
i ⋅ ni = 128 + 70 + 92 = 290
i =1 j =1 i =1

Dispersia corectată sistematică este:


S1 808,8
s12 = = = 404,4
r −1 2
Dispersia corectată reziduală este:
S2 290
s 22 = = = 17,06
n − r 17

Testul F:
s12 404,4
F= 2 = = 23,7
s 2 17,06
Ftabelar=Fcritic=Fα,r-1,n-r=F0,05;2;17=3,59
Cum Fcalculat>Fcritic, rezultă că se respinge ipoteza nulă, acceptându-se ca adevărată ipoteza
alternativă. Timpul mediu de promovare pe fiecare tip de firmă diferă semnificativ, în consecinţă se
poate afirma, cu o probabilitate de 95% că mărimea firmei influenţează semnificativ variaţia timpului
de promovare a tinerilor.

8
11. În vederea fundamentării deciziei de înlocuire a unor utilaje din dotarea unei fabrici,
managerul acesteia solicită o analiză a vechimii utilajelor şi a costului de întreţinere anual al acestora.
Astfel cele 110 utilaje din dotarea fabricii sunt grupate după vechime (ani) şi după costul de întreţinere
(mii lei):
Costul de întreţinere (mii lei)
Vechime 5–7 7–9 9 – 11 11 – 13 Total
(ani)
Mică (<5 ani) 10 8 5 - 23
Medie (5-10 ani) - 15 20 7 42
Mare (>10 ani) - 2 25 18 45
Total 10 25 50 52 110

Se cere să se determine dacă influenţa vechimii asupra variaţiei costului de întreţinere este
semnificativă, utilizând testul F de analiză dispersională.

Rezolvare:
Notăm cu X – caracteristica „vechime“ – factorul de grupare şi cu Y – caracteristica “costul de
întreţinere”.
În vederea calculării indicatorilor necesari determinării statisticii F datele vor fi sistematizate
pentru fiecare categorie de vechime conform tabelelor de mai jos.
i = 1 (grupa “vechime mică”).
Cost de întreţinere
(mii RON)
n1j yj yjn1j y j − y1 (y j − y1 )2 n1 j
5–7 10 6 60 -1,56 24,336
7–9 8 8 64 0,44 1,549
9 – 11 5 10 50 2,44 29,768
11-13 12
Total 23 - 174 - 55,653

∑ (y − y ) n
2

y1 =
∑y n j 1j
=
174
= 7 ,56 mii RON ; s12 =
j 1 1j
=
55,653
= 2 ,42
∑n 1j 23 ∑n 1j 23

i = 2 (grupa “vechime medie”).

Cost de întreţinere
(mii RON)
n2j yj yjn2j y j − y2 (y j − y 2 )2 n2 j
5–7 - 6 -
7–9 15 8 120 -1,62 39,366
9 – 11 20 10 200 0,38 2,888
11-13 7 12 84 2,38 39,6508
Total 42 - 404 - 81,9048

∑ (y − y ) n
2

y2 =
∑y n j 2j
=
404
= 9 ,62 mii RON ; s 2 =
2 j 2 2j
=
81,9048
= 1,95
∑n 2j 42 ∑n 2j 42

i = 3 (grupa “vechime mare”)

9
Cost de întreţinere
(mii RON)
n3j yj yjn3j y j − y3 (y j − y 3 )2 n3 j
5–7 - 6
7–9 2 8 16 -2,7 14,58
9 – 11 25 10 250 -0,7 12,25
11-13 18 12 216 1,3 30,42
Total 45 - 482 - 57,25

∑ (y − y ) n
2

y3 =
∑y n j 3j
=
482
= 10,7 mii RON ; s3 =
2 j 3 3j
=
57 ,25
= 1,27
∑n 3j 45 ∑n 3j 45

Media dispersiilor grupelor va fi:


Varianţa reziduală este:
2

( ) = ∑s
r ni r
S 2 = ∑∑ yij − y i 2
i ⋅ ni = 2 ,42 ⋅ 23 + 1,95 ⋅ 42 + 1,27 ⋅ 45 = 194 ,7
i =1 j =1 i =1

Costul mediu de întreţinere pentru întreaga colectivitate de 110 de utilaje poate fi calculată ca
medie a mediilor parţiale:

y=
∑y n i i
=
7 ,56 ⋅ 23 + 9,62 ⋅ 42 + 10,7 ⋅ 45
= 9,64 mii RON.
∑n i 110

Varianţa sistematică va fi:

( )
r
S1 = ∑ y i − y ⋅ ni =(7 ,56 − 9,64) ⋅ 23 + (9,62 − 9 ,64) ⋅ 42 + (10,7 − 9,64) ⋅ 45 = 150,15
2 2 2 2

i =1

Dispersia corectată sistematică este:


S1 150,15
s12 = = = 75,075
r −1 2
Dispersia corectată reziduală este:
S2 194,7
s22 = = = 1,82
n − r 107
Testul F:

s12 75,075
F= = = 41,25
s 22 1,82
Ftabelar=Fcritic=Fα;,r-1,n-r=F0,05;2;107=3,07
Cum Fcalculat>Fcritic, rezultă că se respinge ipoteza nulă, acceptându-se ca adevărată ipoteza
alternativă. În consecinţă se poate afirma, cu o probabilitate de 95% că vechimea utilajelor
influenţează semnificativ variaţia costului de întreţinere.

10
3. Se cunosc datele:
Grupe de salariaţi după durata Salariul mediu Coeficientul de variaţie pe
Nr. de salariaţi
medie a zilei de lucru (ore) (unit. monetare) grupă (%)
7 – 7,2 100 9,2 6,52
7,2 – 7,4 120 10,4 10,58
7,4 – 7,6 180 11,6 12,07
7,6 – 7,8 140 11,8 10,17
7,8 şi peste 130 12,0 7,50
Total 670 - -
Să se arate dacă durata medie a zilei de lucru influenţează semnificativ variaţia salariului, folosind
testul F de analiză dispersională

Rezolvare:
Se notează cu X - durata zilei de lucru (factorul de grupare), respectiv cu Y - salariul
s yi
Din vi = 100 se determină abaterile medii pătratice pe grupe:
yi

vi ⋅ y i
s yi =
100

Grupe de salariaţi după durata


medie a zilei de lucru (ore)
s yi s 2y
i
s 2y ni
i
y i ni (y i − y )2 ni
7 – 7,2 0,6 0,36 36 920 380,25
7,2 – 7,4 1,1 1,21 145,2 1248 67,50
7,4 – 7,6 1,4 1,96 352,8 2088 36,45
7,6 – 7,8 1,2 1,44 201,6 1652 59,15
7,8 şi peste 0,9 0,81 105,3 1560 93,92
Total - - 840,9 7468 637,27

Media dispersiilor de grupă este:

2 ∑ s 2y n i 840,9
i
s = = = 1,255
∑ ni 670

Pentru determinarea dispersiei dintre grupe, calculăm:

∑ y i ni 7468
y= = = 11,15 u.m.;
∑ ni 670
Dispersia dintre grupe:

∑ (y − y ) n
2
637 ,27
δ 2
= i i
= = 0 ,951 ;
∑n i 670
Varianţa totală este:

( )
S = ∑ y j − y = S1 + S 2 = 1478 ,1
2

Varianţa factorială:

11
( )2
S1 = ∑ y i − y ni = δ 2 ⋅ n = 637,2 ;

Varianţa reziduală:

(
S 2 = ∑∑ y j − y i )2 = s 2 ⋅ n = 840,9 ;

Dispersiile corectate vor fi:


S1 637,2
s12 = = = 159,3 ;
r −1 4
S2 840,9
s 22 = = = 1,265 ;
n−r 665

s 2 159,3
⇒ Fcalc = 1 = = 125,9 > Ftab = Fα =0,05;4;665 = 2,45 .
s 22 1,265
Cum Fcalc > Ftab , rezultă că influenţa duratei medii a zilei de lucru asupra salariului este semnificativă.

4. Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou
produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel
puţin la fel de bună şi cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul
acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe
uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului
produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3
oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni.
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi
vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate.
Uşurinţa 529 658 793 514 663 719 711 606 461 529
folosirii: 498 663 604 495 485 557 353 557 542 614
804 630 774 717 679 604 620 697 706 615
Calitate:
492 719 787 699 572 523 584 634 580 624
672 531 443 596 602 502 659 689 675 512
Preţ:
691 733 698 776 561 572 469 581 679 532

Identificarea metodei: Datele sunt cantitative şi problema revine la a compara mediile celor trei
populaţii. Ipotezele ce trebuie testate sunt: H0: µ1 = µ2 = µ3 cu alternativa H1: cel puţin două medii sunt
diferite.
Pentru aceasta se aplică o analiză de varianţă cu un singur factor.
Rezolvare folosind EXCEL:
1. Introduceţi datele astfel:
- în A1 tastaţi „Uşurinţa folosirii“, în B1 tastaţi „Calitate“, în C1 tastaţi „Preţ“

12
- datele se introduc pe coloane.
2. Apăsaţi Tools-Data Analysis şi ANOVA: Single Factor.
3. La Input Range selectaţi datele (sau scrieţi A1:C21). Selectaţi Labels in First Row.
4. Specificaţi Grouped by Columns. Apăsaţi OK.

Se obţin rezultatele:
Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Uşurinţa folosirii 20 11551 577.55 10775
Calitate 20 13060 653 7238.11
Preţ 20 12173 608.65 8670.24

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512.23 2 28756.12 3.233 0.047 3.159
Within Groups 506983.5 57 8894.447

Total 564495.7 59

În tabelul SUMMARY sunt trecute datele referitoare la cele trei populaţii:


- numărul de unităţi din fiecare populaţie: 20 de săptămâni
- numărul total de bucăţi vândute în această perioadă pentru fiecare populaţie
- numărul mediu de bucăţi vândute în fiecare săptămână pentru fiecare populaţie
- dispersia populaţiilor
Din aceste date observăm că cea mai mare vânzare medie a fost în Oraşul B în care publicitatea a
avut ca argument principal calitatea superioară a noului produs.
Cea mai mică medie şi cea mai mare dispersie (împrăştiere a datelor) s-a înregistrat în Oraşul A
unde publicitatea a pus accent pe uşurinţa folosirii noului produs.

În tabelul ANOVA este calculată Statistica F = 3,233 cu o valoare p egală cu 0,047 (pragul de
semnificaţie). Această valoare p ne permite să spunem că cel puţin două medii diferă semnificativ (cu
o probabilitate de 95%), ceea ce însemnă că tactica aleasă pentru promovarea produsului influenţează
valoarea vânzărilor.

Rezolvare folosind STATISTICA:


1. Creaţi un fişier cu două variabile şi 60 de cazuri folosind New File.
În acest fişier, pe prima coloană introduceţi valoarea vânzărilor astfel: valorile pentru „Uşurinţa
folosirii“, apoi pentru „Calitate“ şi ultimele pentru „Preţ“. Pe a doua coloană se introduc coduri

13
pentru cele trei categorii de date: pentru primele 20 de unităţi se introduce valoarea 1, pentru
următoarele 20 valoarea 2 şi pentru ultimele 20 valoarea 3.
2. Selectaţi modulul ANOVA/MANOVA. Se va deschide o fereastră General
ANOVA/MANOVA.
3. În această fereastră apăsaţi Variables. La Independent Variables selectaţi variabila a 2-a
(codurile) iar la Dependent Variable selectaţi prima variabilă (valoarea vânzărilor). Apăsaţi
OK.
4. Apăsaţi pe butonul Codes for between-groups factors. Apăsaţi ALL şi OK.
5. Apăsaţi OK. Se va deschide o fereastră ANOVA Results.
6. Dacă apăsaţi pe butonul All Effects va fi calculată statistica F şi valoarea p.

Statistica F este 3,233 cu o valoare p egală cu 0,047.


Această valoare p ne permite să spunem că cel puţin două medii diferă, ceea ce însemnă că tactica
aleasă pentru promovarea produsului influenţează valoarea vânzărilor.
Dacă dorim în plus informaţii referitoare la medii şi dispersii pe grupuri, în fereastra ANOVA
Results se apasă butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apasă butonul
Means & no. of cases for each group iar pentru calculul abaterilor standard se apasă butonul
Standard deviations for each group.
Tot în această fereastră este posibilă şi selectarea anumitor opţiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.

5. Managerul unui post de radio local de muzică hard rock, doreşte să ştie dacă ascultătorii
postului său de radio ascultă muzică mai mult în unele zile ale săptămânii decât în altele. Deoarece
marea majoritate a ascultătorilor postului său de radio sunt tineri, a organizat un sondaj printre aceştia.
Au fost selectaţi 20 de tineri şi au fost rugaţi să noteze zilnic câte minute ascultă postul de radio, într-o
săptămână.
Există vreo diferenţă semnificativă între zilele săptămânii privind numărul de minute în care
tinerii ascultă postul de radio?
Luni Marţi Miercuri Joi Vineri Sâmbătă Duminică
1. 65 40 32 48 60 75 110
2. 90 85 75 90 78 120 100
3. 30 30 20 25 30 60 70
4. 72 52 66 100 77 66 94
5. 70 88 47 73 78 67 78
6. 90 51 103 41 57 69 87

14
7. 43 72 66 39 57 90 73
8. 88 89 82 95 68 105 125
9. 96 60 80 106 57 81 80
10. 60 92 72 45 72 77 90
11. 75 79 79 78 91 60 112
12. 74 46 72 46 74 55 84
13. 49 92 64 69 62 87 81
14. 76 98 96 77 61 84 82
15. 66 64 57 55 29 72 60
16. 30 53 85 53 103 111 55
17. 53 90 47 111 102 76 91
18. 76 68 78 74 63 68 99
19. 59 51 94 103 94 85 83
20. 40 30 45 40 46 60 64

Identificarea metodei: Datele sunt cantitative şi problema revine la a compara cele 7 populaţii:
numărul de minute în care tinerii ascultă postul de radio în fiecare zi a săptămânii.
Ipotezele ce trebuie testate sunt: H0: µ1 = µ2 =...= µ7 cu alternativa H1: cel puţin două medii sunt
diferite. Populaţiile sunt dependente deoarece sunt întrebaţi 20 de tineri despre numărul de minute în
care ascultă postul de radio dar pe zile ale săptămânii. Aceste medii pe zilele săptămânii sunt
comparate.
Pentru aceasta se aplică o analiză de varianţă cu doi factori fără interacţiune.

Rezolvare folosind EXCEL:


1. Introduceţi datele ca în tabelul de mai sus începând din celula A1.
2. Apăsaţi Tools-Data Analysis şi ANOVA: Two-Factor Without Replication.
3. La Input Range selectaţi datele (sau scrieţi B2:H21). Apăsaţi OK.

Se obţin rezultatele:
ANOVA
Source of Variation SS df MS F P-value F crit
Rows 24872.82 19 1309.096 4.528 1.58E-07 1.678
Columns 7107.671 6 1184.612 4.097 0.0009 2.179
Error 32958.33 114 289.1081

Total 64938.82 139

În plus la rezultate mai sunt afişate şi informaţii referitoare la linii şi coloane: numărul de
observaţii, numărul de minute ascultate în total, media şi varianţa (dispersia).
Valoarea statisticii F referitoare la testarea mediilor pe zile ale săptămânii, adică pe coloane,
este 4,097 cu o valoare p de 0,0009. Deoarece valoarea p este foarte apropiată de zero se poate spune
tinerii nu ascultă acelaşi număr de minute postul de radio în fiecare zi a săptămânii.
Din tabelul următor (SUMMARY) se poate observa că tinerii ascultă mai mult postul de radio
sâmbăta şi duminica decât în restul săptămânii (mediile sunt mult mai mari ca în restul săptămânii).

15
SUMMARY Count Sum Average Variance
Column 1 20 1302 65.1 381.9895
Column 2 20 1330 66.5 476.4737
Column 3 20 1360 68 461.6842
Column 4 20 1368 68.4 684.4632
Column 5 20 1359 67.95 416.05
Column 6 20 1568 78.4 310.2526
Column 7 20 1718 85.9 312.8316

În tabelul ANOVA mai este calculată şi valoarea statisticii F referitoare la diferenţa între
tineri. Statistica F este 4,53 cu o valoare p foarte apropiată de zero ceea ce înseamnă că există diferenţe
semnificative şi între tineri.

Rezolvare folosind STATISTICA:


1. Creaţi un fişier cu 7 variabile şi 20 de cazuri folosind New File şi introduceţi datele ca în
tabelul din enunţul problemei: pe prima coloană datele referitoare la ziua de luni, în coloana a
doua datele referitoare la ziua de marţi şi aşa mai departe.
2. Selectaţi modulul ANOVA/MANOVA. Se va deschide o fereastră General
ANOVA/MANOVA.
3. În această fereastră apăsaţi Variables. La Independent Variables nu selectaţi nimic iar la
Dependent Variable selectaţi toate cele 7 variabile. Apăsaţi OK.
4. Apăsaţi pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastaţi „7“ iar la Factor Name, tot pe prima linie tastaţi „zi“. Apăsaţi OK.
5. Apăsaţi OK. Se va deschide o fereastră ANOVA Results.
6. Dacă apăsaţi pe butonul All Effects va fi calculată statistica F şi valoarea p.

Se obţin rezultatele:

Valoarea statisticii F este 4,097 cu o valoare p de 0,000925. Deoarece valoarea p este foarte
apropiată de zero se poate spune tinerii nu ascultă acelaşi număr de minute postul de radio în fiecare zi
a săptămânii.

Dacă dorim în plus informaţii referitoare la medii, dispersii pe grupuri în fereastra ANOVA
Results se apasă butonul Descriptive Statistics & Graphs. Pentru calculul mediilor se apasă butonul

16
Means & no. of cases for each group iar pentru calculul abaterilor standard se apasă butonul
Standard deviations for each group.
Tot în această fereastră este posibilă şi selectarea anumitor opţiuni pentru testarea ipotezelor
de fundamentare ale ANOVA.

6. În problema 4, considerăm că pe lângă tipurile diferite de marketing avem şi 2 posibilităţi


de publicitate: prin ziare şi televiziune. De ceea experimentul s-a repetat în următorul fel. S-au selectat
6 oraşe. În oraşul A s-a făcut publicitate prin televiziune, strategia de marketing fiind: „uşurinţa
folosirii noului produs“. În oraşul B publicitatea s-a făcut prin ziare, strategia de marketing rămânând
aceeaşi. În oraşele C şi D strategia de marketing a fost „calitatea superioară a noului produs“, în C
publicitatea fiind făcută prin televiziune iar în D prin ziare. În oraşele E şi F strategia de marketig a
fost „preţul scăzut al noului produs“, în E publicitatea fiind făcută prin televiziune, iar în F prin ziare.
Vânzările au fost înregistrate pe parcursul a 10 săptămâni.
Ce se poate spune despre strategia de marketing şi modul de publicitate: influenţează sau nu
vânzările?
Oraşul A Oraşul B Oraşul C Oraşul D Oraşul E Oraşul F
491 464 677 689 575 803
712 559 627 650 614 584
558 759 590 704 706 525
447 557 632 652 484 498
479 528 683 576 478 812
624 670 760 836 650 565
546 534 690 628 583 708
444 657 548 798 536 546
582 557 579 497 579 616
672 474 644 841 795 587

Rezolvare:
Identificarea metodei: Observăm că avem 6 tratamente. Fiecare tratament este definit prin
intermediul a doi factori. Primul factor este strategia de marketing cu 3 nivele şi al doilea este modul
de publicitate cu 2 nivele. Deoarece cei doi factori pot interacţiona între ei se va aplica o analiză de
varianţă cu doi factori cu interacţiune între aceştia.

Rezolvare folosind EXCEL:


1. Introduceţi datele ca în tabelul 5.20, începând din celula A1.
2. Apăsaţi Tools-Data Analysis şi ANOVA: Two-Factor With Replication.
3. La Input Range selectaţi datele (sau scrieţi A1:D21).
4. La Rows per sample tastaţi numărul de observaţii pentru fiecare tratament (10). Apăsaţi OK.

Nivel 1 Nivel 2 Nivel 3


Nivel 1 491 677 575

17
712 627 614
558 590 706
447 632 484
479 683 478
624 760 650
546 690 583
444 548 536
582 579 579
672 644 795
Nivel 2 464 689 803
559 650 584
759 704 525
557 652 498
528 576 812
670 836 565
534 628 708
657 798 546
557 497 616
474 841 587

Se obţin rezultatele:
ANOVA
Source of SS df MS F P-value F crit
Variation
Sample 13172.017 1 13172.017 1.419 0.239 4.019
Columns 98838.633 2 49419.317 5.325 0.008 3.168
Interaction 1609.633 2 804.817 0.087 0.917 3.168
Within 501136.7 54 9280.309

Total 614756.98 59

În tabelul ANOVA sunt calculate statisticile F şi valorile p pentru influenţa factorului 1 „strategie
de marketing“ la Columns, pentru influenţa factorului 2 „modalitate de publicitate“ la Sample şi
pentru interacţiunea dintre cei doi factori la Interaction.
Astfel:
- Statistica F pentru „strategia de marketing“ este 5,325 cu o valoare p de 0,008, deci acest factor
influenţeză valoarea vânzărilor;
- Statistica F pentru „modalitatea de publicitate“ este 1,419 cu o valoare p de 0,239, deci acest
factor nu influenţeză semnificativ valoarea vânzărilor;
- Statistica F pentru interacţiunea dintre cei doi factori este 0,087 cu o valoare p de 0,917, deci
interacţiunea dintre cei doi factori nu influenţează semnificativ valoarea vânzărilor.

Rezolvare folosind STATISTICA:


1. Creaţi un fişier cu 4 variabile şi 20 de cazuri (File/New data) Introduceţi datele astfel: primele
3 variabile sunt coloanele Nivel 1, Nivel 2, Nivel 3 din tabelul 5.20; variabila a 4-a are în
primele 10 de rânduri, 1 (nivelul 1 pentru factorul 2) şi în următoarele 10 rânduri, 2 (nivelul 2
al factorului 2)

18
2. Selectaţi modulul ANOVA/MANOVA. Se va deschide fereastra General
ANOVA/MANOVA.
3. În această fereastră apăsaţi Variables. La Independent Variables selectaţi variabila a 4-a iar
la Dependent Variable selectaţi primele 3 variabile. Apăsaţi OK.
4. Apăsaţi pe butonul Repeated measures (within SS) design. La No. of levels pe prima linie
tastaţi „3“ iar la Factor Name, tot pe prima linie tastaţi „factor 1“. Apăsaţi OK.
5. Apăsaţi OK. Se va deschide o fereastră ANOVA Results.
6. Dacă apăsaţi pe butonul All Effects vor fi calculate statisticile F şi valoarile p asociate.

Se obţin rezultatele:

Sunt calculate statisticile F şi valorile p pentru influenţa factorului 1 „strategie de marketing“ la


Effect 2, pentru influenţa factorului 2 „modalitate de publicitate“ la Effect 1 şi pentru interacţiunea
dintre cei doi factori la Effect 12.
Astfel:
- Statistica F pentru „strategia de marketing“ este 5,278 cu o valoare p de 0,0097, deci acest factor
influenţeză valoarea vânzărilor;
- Statistica F pentru „modalitatea de publicitate“ este 1,44 cu o valoare p de 0,245, deci acest factor
nu influenţeză semnificativ valoarea vânzărilor;
- Statistica F pentru interacţiunea dintre cei doi factori este 0,086 cu o valoare p de 0,918, deci
interacţiunea dintre cei doi factori nu influenţeză semnificativ valoarea vânzărilor.

Se observă ca aceste valori diferă puţin de cele obţinute prin Excel. Diferenţele provin din
rotunjirile făcute de calculator.

19
3.4 Întrebări teoretice şi probleme propuse spre rezolvare

1. Pentru a întocmi o situaţie asupra cheltuielilor efectuate de cetăţeni cu întreţinerea


apartamentelor în luna decembrie a anului 2005, se înregistrează numărul de camere şi cheltuielile cu
întreţinerea pentru 250 de apartamente. Datele grupate se prezintă astfel:
Grupe de apartamente Cheltuieli de întreţinere (RON)
Total
după nr. camerelor 120-170 170-220 220-270 270-320
Garsoniere 35 10 5 - 50
2 camere 10 50 30 10 100
3 camere 10 10 40 15 75
4 şi peste 4 camere - 5 5 15 25
Total 55 75 80 40 250
Să se arate dacă influenţa numărului de camere asupra variaţiei cheltuielilor de întreţinere este
semnificativă, folosind testul F de analiză dispersională, pentru o probabilitate de 99%.

2. O mare companie producătoare de cosmetice deţine în Bucureşti 100 de magazine de desfacere


a produselor sale. Despre zona de amplasare a acestor magazine şi despre valoarea medie a vânzărilor
zilnice (mii RON) se cunosc datele:
Zona de Număr de Valoarea medie a vânzărilor Coeficientul de variaţie
amplasare magazine zilnice (mii RON/magazin) a vânzărilor (%)
Centrală 35 20 6,0
Sud-vest 20 12 12,5
Sud-est 15 10 13,0
Nord-vest 10 5 20,0
Nord-est 20 13 12,3
Să se arate dacă zona de amplasare a magazinelor influenţează semnificativ variaţia valorii vânzărilor,
pentru o probabilitate de 95%, folosind testul F de analiză dispersională.

3. Pentru 20 de magazine situate în zona centrală, semicentrala şi periferică a unui oraş, se cunosc
valorile vânzărilor (mil. RON):
Zona Valoarea vânzărilor (mil. RON) Nr. magazine
Centrală 27; 22; 21; 20; 28; 29; 22; 20; 16 9
Semicentrala 15; 20; 23; 23; 25 5
Periferică 9; 15; 13; 18; 12; 10 6
Să se determine daca zona de amplasare a magazinelor a influentat semnificativ variaţia vânzărilor,
folosind testul F de analiza dispersionala (ANOVA); (nivel de semnificatie α=0,05).

4. O mare agenţie de închiriat automobile hotărăşte să-şi vândă automobilele după utilizarea
acestora timp de un an. Managerul firmei presupune că distanţa parcursă de maşini influenţează costul
de întreţinere al autovehiculelor şi deci preţul de vânzare al acestora. Pentru a verifica această
presupunere, se înregistrează, pentru un număr de 200 de maşini, distanţa parcursă în ultimul an (în
mii km) şi costul de întreţinere al acestora (în unităţi monetare). Se alcătuiesc patru grupe, după
distanţa parcursă: sub 40 mii km, 40-60 mii km, 60-80 mii km., 80 şi peste 80 mii km.

20
Grupe după Cost de întreţinere (unit. monetare) Total
distanţa parcursă 5–7 7–9 9 – 11 11 – 13
20 – 40 18 28 14 - 60
40 – 60 10% 25% 35% 30% 100%

Ştiind că:
– pentru grupa a 3-a (60 – 80 mii km) s-au înregistrat date pentru 40 de autovehicule, costul mediu
de întreţinere este de 10,4 u.m., cu un coeficient de variaţie de 11,538%, iar
– pentru grupa a 4-a, ce cuprinde 10% din autovehicule, cheltuielile totale de întreţinere au fost de
264 u.m., iar abaterea standard de 0,98 u.m.,
Se cere să se aplice testul F de analiză dispersională pentru a verifica dacă distanţa parcursă a avut
o influenţă semnificativă asupra costului de întreţinere

5. Pentru 300 de angajaţi se cunosc: vechimea şi nivelul salariului:


Grupe de angajaţi după Salariul mediu lunar
Nr. angajaţi (pers) Dispersia salariului
vechime (ani) (sute RON/pers.)
0-10 80 8 2,5
10-20 130 12 7,2
20-30 70 14 8,0
30-40 20 20 4,0
a) Să se determine salariul mediu lunar al unui angajat, pe total;
b) Să se determine daca vechimea a influentat semnificativ variaţia salariului, folosind testul F de
analiza dispersionala (ANOVA); (nivel de semnificatie α=0,05).

6. Pentru două centre comerciale cu 12, respectiv 10 magazine, se cunosc datele:


Centrul Valoarea medie a vânzărilor pe un
Nr. magazine Dispersia vânzărilor
comercial magazin (mil. RON)
A 12 18 10,24
B 10 27 20,25
Să se determine dacă centrul comercial în care sunt amplasate magazinele a influenţat semnificativ
variaţia vânzărilor, folosind testul F de analiza dispersionala (ANOVA); (probabilitatea de garantare a
rezultatelor de 95%).
7. Când se recomandă utilizarea metodei de analiză dispersională?
8. Care sunt tipurile de varianţă utilizate în ANOVA şi ce reprezintă ele?
9. Ce sunt dispersiile corectate?
10. Cum se stabileşte regiunea critică pentru testul F?

21

Você também pode gostar