Escolar Documentos
Profissional Documentos
Cultura Documentos
Daia Lavinia-Mihaela
Grupa 1035
1. Descrierea datelor
Proiectul vizeaza evidentierea legaturii dintre un set de 10 variabile avand fiecare un set de 30 de
observatii. Obiectele au fost luate de pe http://epp.eurostat.ec.europa.eu si reprezinta 30 de tari ,
majoritatea fiind state membre UE, dar sunt prezentate si state ca : Japonia, Turcia, Statele Unite.
Acestea sunt caracterizate de urmatorul set de variabile luate pentru anul 2007:
I1- rata angajarii pentru femeile avand varste intre 20 si 64 de ani; unitate de masura: %
I2- rata angajarii pentru barbatii avand varsta cuprinsa intre 20 si 64 de ani; unitate de masura: %
I3- GDP/cap de locuitor; unitate de masura :%
I4- cheltuieli cu cercetarea si dezvoltarea, prezentate ca procent din GDP
I5- speranta de viata pentru femeile trecute de 65 de ani; unitate de masura: ani
I6- speranta de viata pentru barbatii trecuti de 65 de ani; unitate de masura: ani
I7- cheltuieli cu educatia, prezentate ca procent din GDP
I8- cheltuieli cu protectia sociala, prezentate ca procent din GDP
I9- consumul de energie final; unitatea de masura fiind echivalentul a 1000 de tone de petrol
consumate
I10- numarul autovehiculelor ; unitatea de masura fiind numarul de masini la 1000 de locuitori
Obiectele sunt reprezentate de statele urmatoare: Belgia, Bulgaria, Republica Ceha, Danemarca,
Germania, Estonia, Irlanda, Grecia, Spania, Franta, Italia, Cipru, Letonia, Lituania, Luxemburg,
Ungaria, Malta, Olanda, Austria, Polonia, Portugalia, Romania, Slovenia, Slovacia, Finlanda,
Suedia, Marea Britanie, Japonia, Turcia, Statele Unite.
Se poate observa existenta unei corelatii puternic negative (valoare apropiata de -1) intre:
-
STATISTICI DESCRIPTIVE
> date<-read.table("matrice.txt", header=TRUE)
> attach(date)
> summary(date)
Medie
Std
Q1
Q2
64.40
1213.244
58.175
64.600
I1
79.10
4.5770747 75.850
79.100
I2
28.10
11.23085
20.90
28.10
I3
1.280
0.9487323 0.6300
1.2800
I4
8.650
3.201991
7.175
8.650
I5
8.500
2.835572
6.975
8.500
I6
4.965
1.225128
4.2825
4.9650
I7
0.2850
0.4842704 0.1325
0.2850
I8
23110
106670.8
6381.75
23110.00
I9
468.0
136.0581
384.75
468.00
I10
Tabel intocmit pe baza datelor obinute in programul R
Q3
69.300
82.175
36.95
2.0325
10.650
10.350
5.3675
0.5375
58696.50
503.00
Skewness
Kurtosis
5.198795
-0.232869
0.66804947
0.7297862
0.2956746
0.1379825
-0.227778
2.296455
3.425998
0.1991963
28.02998
2.336588
2.942585
2.448517
2.338018
2.783343
4.188944
8.637386
15.64643
3.249242
Pentru I1 am obtinut o medie de 64.40. I1 reprezinta rata de angajare pentru femeile avand varste
intre 20-65 de ani , deci pentru cele 30 de tari avem o medie de angajare de 64.40% care este mai
mica decat 79.10% care reprezinta media ratei de angajare pentru barbatii avand varste intre 2065 ani.
Pentru I3 am obtinut o valoare a mediei egala cu 28.10% GDP/cap de locuitor.
Pentru I4 care reprezinta cheltuieli cu cercetare si dezvoltare am obtinut o valoare de 1.280 si
aceasta valoare este calculata ca procent din GDP
Dupa calcularea mediilor variabilelor I5 si I6 putem observa ca speranta de viata a femeilor este
putin mai mare decat cea a barbatilor (8650>8500)
Cu o valoare a mediei variabilei I7 putem preciza ca avem o medie a cheltuilelilor cu educatia de
4.965
Pentru I7 I8 si I10 putem oberva si valorile minime precum si pe cele maxime luate de o
variabila in cadrul seriei sale. Quantilel ne ofera o analiza procentuala exacta, putem observa
astfel ca avem cheltuieli cu protectia sociala (I8) cuprinse intre 0.53 si 2.25 %GDP cu o
probabilitate cuprinsa intre 75% si 100%.
Fig 1 Boxplot(I1)
Fig 4 Boxplot(I2)
Fig 5 Histograma(I2)
Fig7
Fig8: Similar in histograma de mai jos putem vedea ca GDP-ul/cap de locuitor se afla in
majoritatea tarilor intre 20 -30% .Valorile minime de 10 -15 % au freventa cea mai redusa. Cu
cat valaorea variabilei I3 creste cu atat inregistram fluctuatii mari in cadrul frecventelor, acest
lucru ne duce la concluzia ca avem tari cu nivele de trai considerabil diferite intre ele printre cele
care depasesc media.
Fig10
Fig11: Figura de mai jos reprezinta histograma variabilei I4 ( Cheltuielile R&D ca procent din
GDP). Aceasta ne arata cu ce frecvente apar procentajele mai mari sau mai mici ale cheltuielilor
in cadrul celor 34 de tari. Putem concluziona astfel ca majoritatea statelor investesc intre 0.5 si
1.0 % din GDP in cercetare si dezvoltare.
traiasca intre 7 si 12 ani . Acelasi lucru nu poate fi spus si depsre barbate, care au o spranta de
viata ami scazuta in acelasi conditii de 7 pana la 10 ani.
Fig 16 Boxplot(I6)
Fig 28
Fig 29: In histograma urmatoarea putem observa ca numarul de autovechicule la 1000 de
locuitori inregistreaza o distributie apropiata de clopotul lui Gauss, frecventa medie fiind de 14
pentru tari care au intre 400-500 de masini la 1000 de locuitori.
Analiza
se
realizeaz
pe
matricea
de
corelaie.
Se observ faptul c primele 2 valori preiau aproximativ 55% din informative, iar primele 3
aproximativ 71% din informaie.
Acetia sunt vectorii proprii obinui pe baza valorilor proprii. Cu ajutorul lor vor fi calculate
componentele principale care se afl n tabelul COMP.
Tabel COMP
Al doilea tabel COMP adaug n matricea de observaii componentele principale calculate cu ajutorul vectorilor proprii. Numrul valorilor proprii este egal cu numrul vectorilor proprii i cu numrul variabilelor.
Componentele principale se calculeaz dup formula: wi=1*ai1 + 2*ai2 + + 10*ai10 unde
- Wi este componenta principal calculat cu ajutorul valorii proprii i
- i este vectorul propriu corespunztor valorii proprii i
- aij este un element din matricea de observaii
Tabel ACP
Tabelul ACP creat conine media variabilelor, abaterea standard, numrul de observaii, matricea de corelaie dintre variabile, valorile
proprii i vectorii proprii corespunztori acestora.
Din analiza acestui grafic putem observa din care variabile preia fiecare componenta principala
mai multa informatie , mai bine zis ilustreaza corelatia dintre variabilele initiale si componentele
principale.
Tot informaii cu privire la preluarea informaiei din variabilele iniiale n fiecare component
principal pot fi citite i in graficele component pattern
Acestea reprezinta de fapt corelarea dintre toate variabilele initiale si doua component principale
. Din primul putem observa ca 8 din cele 10 variabile sunt puternic legate de prima componenta
principala, I9 este o exceptie deoarece e puternic legata de cea de-a doua componenta si foarte
slab legata de prima. Deasemenea ne putem folosi de acest grafic pentru a denumi componentele
principale , prima ar putea fi asociata cu Nivelul de bunastare al unui stat, cea de-a doua o putem
numi Nivel tehnologic dat fiind faptul ca e legat puternic de I9,I10 si I3. Cea de-a treia
componenta este legata de I2,I5,I6 si I10 deci putem sa o asociem cu dimensiunea pietei de
autovehicule dintr-un stat si cu capacitatea de dezvoltare a acesteia, prin urmare putem sa o
denumim Piata Auto.
Turcia are o corelatie scazuta cu componenta 1, putem deduce ca are un nivel de bunastare mai
scazut .
SUA are un nivel tehnologic ridicat precum si un nivel de bunastare mediu. Cea din urma
obervatie poate fi datorata faptului ca SUA are cea mai amre populatie dintre statele prezente in
studiu. Putem pune problema eficientei cu care este consumata energie, deoarece un stat ca
Japonia este slab corelat cu componenta principala 2.