Você está na página 1de 4

Analiza cluster ierarhica

Se diferentiaza de K means prin faptul ca avem multe metode si multe posibilitati de alegere a
distantelor de masurare, clusterizeaza si cazurile si variabilele, cum se pot uni variabilele.
Frecventa cea mai mare de utilizare este clusterizarea cazuilor. Functioneaza pe principiul de a
alege apropierea dintre ele, se cauta intre acele distante cea mai mica, dupa se recalculeaza
distantele pana se unesc.

Method Distanta euclidiana este cea mai utilizata. In cazul in care avem un amestec de variabile
sau variabile ordinale Counts mergem cu hi2

Principiul de grupare

Distanta dintre 2 grupe se face cu ajutorul celor mai apropiate puncte sau cele mai departate
sau distanta medie. Sau putem calcula distanta dintre centroizii grupelor. Metoda variatiei a lui
Ward s merge pe ideea de a calcula variatia care se calculeaza ca variatia dintre grupe + variatia
din grupe.

Scopul este sa minimizam variabilele din grupe sau sa maximizam variabilele dintre grupe

Se merge pe ideea de minimizare a variabilelor din grupe

Pentru metoda Ward s exista o canstrangere si anume aceea de a folosi patratul distantei
euclidiene.
in tabelul din output observam ca cea mai mica distanta se gaseste intre 284 si 285

In ceea ce priveste dendograma daca ne pozitionam mai in dreapta avem mai putine grupe iar daca ne
pozitionam in stanga avem mai multe. Variaza intre 2 si 5 grupe. Putem sa introducem la statistics la
cluster membeship intre 2 si 5 grupe si lla save punem tot intre 2 si 5 grupe.

Tabelul Cluster Membership ne arata in ce grupe sunt variabilele.

dupa procedam in felul urmator: facem frecventele

Apoi ne folosim de Anova


Aici la factor luam pe rand fiecare ward sa vedem care este cel mai bine grupat.

Ip nula: mediile pentru fiecae variabila in parte nu se diferentiaza semnificativ

Ip alternativa: Exista cel putin 2 grupe unde variabilele se aseamana


Daca sigul este mare atunci variabila se diferentiaza putin

Facand si cu 5 si cu 4 si cu 3, observam ca cel mai bine grupat este cel cu 4.

Putem face si cu Crosstabs sa vedem in functie cu o alta variabila cum se grupeaza:

Analiza ierarhica ne ajuta sa gasim nr. De grupe si putem face asta inainte de k means pentru a stii
grupele.

De asemenea putem luat alt exemplu cu alta metoda. De exemplu distanta euclidiana prin metoda
Between groups linkage. Scoatem variabilele puse si in locul lor introducem cele 7 de la ACP si la Cluster
bifam bariable si proximity.