Escolar Documentos
Profissional Documentos
Cultura Documentos
Oleh :
Abdullah M. Jaubah
Pendahuluan
Latihan ketiga ini merupakan latihan mengenai Exploratory Data Analysis. Analisis data ini
dapat membantu untuk menentukan apakah teknik-teknik statistik yang dipakai untuk analisis
data itu serasi atau tidak serasi. Prosedur explore menyediakan berbagai ragam ringkasan
secara visual dan numerikal dari data apakah untuk semua kasus atau kelompok kasus
tertentu. Variabel dependen harus merupakan suatu variabel berjenis scale, sedangkan
variabel-variabel untuk mengelompokkan mungkin berjenis ordinal atau nominal. Prosedur
explore ini dapat menyajikan data pada layar penampil, mengidenfitikasi outliers, mengecek
asumsi-asumsi, dan mencirikan perbedaan-perbedaan di antara kelompok-kelompok kasus.
Descriptive Statistics Across Groups
Panen jagung harus diuji untuk aflatocxin, yaitu suatu racun yang konsentrasin racun ini
berbeda-beda sekali antara dan di dalah hasil-hasil panen jagung. Suatu pengolah telah
menerima delapan hasil panen, akan tetapi distribusi dari aflatoxin dalam parts per billion
(PPB) harus diakses sebelum mereka dapat diterima. Contoh ini memakai arsip data
aflatixin.sav. Arsip data ini terdiri dari 16 sampel dari tiap 8 hasil panen. Sebagian dari data
ini dapat disajikan sebagai berikut :
Perintah Analyze > Descriptive Statistics > Explore dipakai. Langkah ini akan menyajikan
kotak dialog Explore sebagai berikut :
Tombol Plots ditekan. Langkah ini akan menyajikan kotak dialog Explore Plots.
Normality plots with tests dipilih. Tombol Continue ditekan. Tombol OK dalam kotak dialog
Explore ditekan. Langkah ini akan mencipta perintah sintaksis sebagai berikut :
GET
FILE='D:\SPSS22\aflatoxin.sav'.
EXAMINE VARIABLES=toxin BY yield
/PLOT BOXPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Statistic
Mean
95% Confidence Interval for Mean
20,2500
Lower Bound
17,9519
Upper Bound
22,5481
5% Trimmed Mean
20,4444
Median
21,5000
Variance
18,600
Std. Deviation
Minimum
Std. Error
1,07819
4,31277
12,00
Maximum
25,00
Range
13,00
Interquartile Range
8,00
Skewness
-,788
,564
Kurtosis
-,655
1,091
33,0625
3,04339
Mean
95% Confidence Interval for Mean
Lower Bound
26,5757
Upper Bound
39,5493
5% Trimmed Mean
31,7361
Median
29,0000
Variance
148,196
Std. Deviation
12,17357
Minimum
22,00
Maximum
68,00
Range
46,00
Interquartile Range
12,00
Skewness
1,898
,564
Kurtosis
3,880
1,091
32,6875
2,57669
Mean
95% Confidence Interval for Mean
Lower Bound
27,1954
Upper Bound
38,1796
5% Trimmed Mean
32,5417
Median
30,5000
Variance
106,229
Std. Deviation
10,30675
Minimum
16,00
Maximum
52,00
Range
36,00
Interquartile Range
10,75
Skewness
,589
,564
Kurtosis
-,270
1,091
14,6875
,66281
Mean
95% Confidence Interval for Mean
Lower Bound
13,2747
Upper Bound
16,1003
5% Trimmed Mean
14,6528
Median
14,5000
Variance
Std. Deviation
7,029
2,65126
Minimum
11,00
Maximum
19,00
Range
8,00
Interquartile Range
4,75
Skewness
Kurtosis
5
Mean
95% Confidence Interval for Mean
1,091
33,0000
1,55724
Upper Bound
36,3192
5% Trimmed Mean
32,5556
Median
32,0000
Variance
38,800
6,22896
Minimum
25,00
Maximum
49,00
Range
24,00
7,75
Skewness
1,021
,564
Kurtosis
1,536
1,091
31,3750
,71224
Mean
95% Confidence Interval for Mean
Lower Bound
29,8569
Upper Bound
32,8931
5% Trimmed Mean
31,3611
Median
32,0000
Variance
8,117
Std. Deviation
2,84898
Minimum
26,00
Maximum
37,00
Range
11,00
Interquartile Range
4,00
Skewness
-,019
,564
Kurtosis
-,089
1,091
17,0625
1,04670
Mean
95% Confidence Interval for Mean
Lower Bound
14,8315
Upper Bound
19,2935
5% Trimmed Mean
17,0694
Median
17,0000
Variance
17,529
Std. Deviation
4,18678
Minimum
9,00
Maximum
25,00
Range
16,00
Interquartile Range
-1,393
29,6808
Interquartile Range
,564
Lower Bound
Std. Deviation
,116
4,75
Skewness
-,094
,564
Kurtosis
,121
1,091
8,4375
,76903
Mean
Lower Bound
6,7984
Upper Bound
10,0766
5% Trimmed Mean
8,3750
Median
7,5000
Variance
9,463
Std. Deviation
3,07612
Minimum
4,00
Maximum
14,00
Range
10,00
Interquartile Range
5,50
Skewness
,469
,564
Kurtosis
-,954
1,091
Langkah mengakses bagaimana rata-rata dari Aflatocin PPB berubah-ubah menurut hasil
panen jagung, maka pivot dapat dipakai untuk menyajikan tabel deskriptif dalam usaha
menyajikan statistik yang diperlukan.
Descriptives
Mean
Corn Yield
Aflatoxin PPB
Statistic
1
2
20,2500
33,0625
Std. Error
1,07819
3,04339
32,6875
2,57669
14,6875
,66281
33,0000
1,55724
31,3750
,71224
17,0625
1,04670
8,4375
,76903
Boxplots memungkinkan untuk membanding tiap kelompok memakai suatu ringkasan lima
bilangan yaitu median, kuartil kesatu, kuartil ketiga, dan nilai-nilai minimum dan maksimum
yang secara statistik tidak outlying. Outliers dan nilai-nilai ekstrim membutuhkan perhatian
khusus. Garis hitam tebal di dalam tiap kotak mencerminkan tanda kuartil kedua atau median
dari distribusi.
Tombol Continue ditekan dan tombol OK dalam kotak dialog Explore ditekan. Langkah ini
akan menyajikan perintah sintaksis sebagai berikut :
EXAMINE VARIABLES=toxin BY yield
/PLOT BOXPLOT NPPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Tests of Normality
Kolmogorov-Smirnova
Corn Yield
Aflatoxin PPB
Statistic
df
Shapiro-Wilk
Sig.
Statistic
df
Sig.
,883
16
,044
,164
16
,200
,256
16
,006
,793
16
,002
,937
16
,311
,150
16
,200
,175
16
,200*
,931
16
,254
,126
16
,200*
,927
16
,220
,149
16
,200*
,974
16
,902
,182
16
,165
,968
16
,808
,182
16
,165
,928
16
,224
Hasil Jagung kelompok 2 tidak memenuhi persyaratan penggujian normalitas distribusi data
sedangkan kelompok-kelompok lain memenuhi persyaratan pengujian normalitas distribusi
data karena nilai signifikansi Kolmogorov-Smirnov adalah lebih besar daripada nilai 0.05.
Ringkasan
Pemakaian prosedur Explore dapat untuk mencipta tabel ringkasan yang menunjukkan ratarata dari tingkat alfatonin yang mencerminkan tidak aman untuk lima hasil dari delapan hasil
panen jagung. Kelompok yang tidak aman adalah kelompok 1, 2, 3, 5, dan kelompok 6.
Kelompok 4, 7, dan kelompok 8 merupakan kelompok hasil panen jagung yang aman.
Pemakaian Explore dapat juga untuk melakukan pengujian atas normalitas distribusi data.
Kelompok kedua tidak memenuhi persyaratan pengujian normalitas distribusi data karena
nilai signifikansi Kolmogorov-Smirnov adalah lebih kecil daripada nilai 0.05.
Exploring Distribution
Suatu perusahaan manufaktur memakai silver nitride untuk mencipta keramik, yang harus
resisten terhadap temperatur dari 1500 derajat centrigrade atau lebih tinggi. Resistensi panas
dari suatu standar pengecoran diketahui sebagai distribusi normal. Suatu pengecoran baru
sedang dalam pengujian dan distribusinya tidak diketahui. Contoh ini memakai arsip data
Ceramics.sav.
sebagai variabel Factor. Label Cases by diisi dengan Labunid. Tombol Statistics
ditekan.
10
Resistensi panas karena tidak diketahui maka robust estimate dari kecenderungan senrtal dan
tabel outliers diperlukan. Descriptives, M-estimators, dan Outliers dipilih. Tombol Continue
ditekan. Tombol Plots ditekan. Langkah ini akan menyajikan kotak dialog Explore : Plots
sebagai berikut :
Stem-and-leaf dipilih. Penujian normalitas distribusi data perlu dilakukan. Normality plots
with tests dipilih. Tombol Continue ditekan. Tombol OK dalam kotak dialog Explore ditekan.
Langkah-langkah ini akan mencipta perintah sintaksis sebagai berikut :
EXAMINE VARIABLES=temp BY batch
/ID=labrunid
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUPS
/MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5) TUKEY(4.685)
11
Prosedur ini menguji nilai-nilai dari temp dengan nilai-nilai dari batch. Subperintah ID
dipakai untuk melakukan spesifikasi bahwa kasus-kasus dalam hasil akan diberi label dengan
nilai-nilai dari labrunid. Subperintah Plot dipakai untuk meminta boxplots, stem-and-leaf
plots, dan normality plots. Subperintah MESTIMATOR dipakai untuk meminta Huber's,
Andrews', Hampel's, dan Tukey's robust estimators of location with default weights.
Numerical Description of Shape.
Descriptives
Alloy
Degrees Centigrade Premium
Statistic
Mean
95% Confidence Interval for Mean
1542,0787
Lower Bound
1540,8738
Upper Bound
1543,2836
5% Trimmed Mean
1541,2805
Median
1539,7181
Variance
Standard
Std. Error
,61165
89,789
Std. Deviation
9,47569
Minimum
1530,44
Maximum
1591,04
Range
60,61
Interquartile Range
11,51
Skewness
1,439
,157
Kurtosis
3,036
,313
1514,6564
,62004
Mean
95% Confidence Interval for Mean
Lower Bound
1513,4350
Upper Bound
1515,8779
5% Trimmed Mean
1514,7302
Median
1514,5317
Variance
92,269
Std. Deviation
9,60566
Minimum
1488,30
Maximum
1537,99
Range
49,69
Interquartile Range
13,51
Skewness
-,078
,157
Kurtosis
-,343
,313
12
dipivote sehingga
dengan penyajian pertama. Rata-rata, trimmed mean, dan median hampir sama dan statistik
skewnes dan kurtosis mendekati nilai 0. Hal ini membuktikan bahwa resistensi panas dalam
beban standar terdistribusi secara normal. Beban premium menjelaskan suatu cerita berbeda.
Rata-rata adalah lebih tinggi daripada trimmed mean atau median; outliers atau nilai-nilai
ekstrim terpusat ke atas. Statistik skewness dan kurtosis juga menandung bukti dari nilai-nilai
secara tidak seimbang pada tingkat atas dari distribusi.
M-Estimators
Alloy
Huber's M-Estimatora
Tukey's Biweightb
Hampel's M-Estimatorc
Andrews' Waved
1540,0953
1539,5658
1540,2052
1539,5506
Standard
1514,6413
1514,6925
1514,6828
1514,6955
Robust estimate, dalam kasus ini, untuk beban premium adalah sangat dekat dengan median
(1539.72). Ukuran-ukuran ini tidak ada yang dekat dengan rata-rata, hal ini dapat
mencerminkan indikasi bahwa distribusi adalah tidak normal.
Robustness and Influential Values
Extreme Values
Alloy
Degrees Centigrade
Premium
Case Number
Highest
Lowest
Standard
Highest
labrunid
Value
211 d421
1591,04
417 g837
1574,62
17 a 17
1571,77
437 h917
1568,10
357 f657
1567,07
139 c289
1530,44
475 h955
1530,73
199 d379
1530,75
373 g733
1530,76
207 d387
1530,79
408 g828
1537,99
198 d378
1534,29
13
Lowest
20 a 20
1534,06
168 c318
1533,43
184 d364
1533,35
396 g816
1488,30
100 b190
1488,36
80 b170
1494,09
154 c304
1494,64
240 d450
1495,15
Table dari nilai-nilai ekstrim menyajikan lima nilai tertinggi dan terendah dari pengecoran.
Beban premium berkisar dari lima deviasi standar di atas pada satu deviasi standar di bawah
rata-rata. Hal ini dapat mencerminkan bahwa panas yang lebih tinggi daripada beban standar
dan tidak pernah gagal di bawah 1530 degree centrgrade.
Apakah distribusi itu normal atau tidak normal?
Tests of Normality
Kolmogorov-Smirnova
Alloy
Statistic
df
Shapiro-Wilk
Sig.
Statistic
df
Sig.
,123
240
,000
,888
240
,000
Standard
,027
240
,200*
,995
240
,602
Pengujian normalitas menunjukkan suatu kurva normal pada data aktual. Suatu pengujian
signifikansi berarti bahwa kecocokan adalah lemah. Pengujian signifikansi untuk pengecoran
standar adalah signifikan dan cocok dengan kurva normal.
Degrees Centigrade Stem-and-Leaf Plot for
batch= Premium
Frequency
24,00
22,00
26,00
26,00
24,00
19,00
25,00
10,00
12,00
10,00
8,00
4,00
6,00
Stem &
153
153
153
153
153
154
154
154
154
154
155
155
155
.
.
.
.
.
.
.
.
.
.
.
.
.
Leaf
000000011111111111111111
2222222222333333333333
44444444445555555555555555
66666666666666777777777777
888888888888899999999999
0000000000111111111
2222222222222223333333333
4444455555
666666667777
8888999999
00111111
2223
445555
14
6,00
155
6,00
155
3,00
156
3,00
156
6,00 Extremes
Stem width:
Each leaf:
.
.
.
.
666667
888899
011
223
(>=1566)
10,00
1 case(s)
Stem-and-leaf plots memakai nilai-nilai data asli untuk menyajikan bentuk distribusi. Plot
untuk beban premium menampakkan statistik skewness positif sebagaimana tercermin dalam
tabel deskriptif, nilai-nilai ckuster secara seragam dalam suatu rentang dari 1530 hingga 1543
derajat, kemudian terpencar secara bertahap pada temperatur yang lebih tinggi.
Q-Q Plot disajikan. Garis luurus dalam plot ini mewakili nilai-nilai diharap jika data
terdistribusi secara normal. Nilai-nilai beban premium yang diobservasi sangat menyimpang
dari garis terutama jika temperatur mengalami kenaikan.
Perintah sintaksis telah dikumpulkan dan dapat disajikan sebagai berikut :
15
****************************************************************
******* Abdullah M. Jaubah
****************************************************************
GET
FILE='D:\SPSS22\aflatoxin.sav'.
****************************************************************
******* Explore
****************************************************************
EXAMINE VARIABLES=toxin BY yield
/PLOT BOXPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
****************************************************************
******* Pengujian Normalitas Distribusi Data
****************************************************************
EXAMINE VARIABLES=toxin BY yield
/PLOT BOXPLOT NPPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
****************************************************************
******* Explore
****************************************************************
GET
FILE='D:\SPSS22\ceramics.sav'.
****************************************************************
******* Normality Plots with Tests
****************************************************************
EXAMINE VARIABLES=temp BY batch
/ID=labrunid
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUPS
/MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5) TUKEY(4.685)
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Arsip sintaksis di atas dinamakan alfatoxin.sps yang terdiri dari dua arsip data. Hal ini berarti
bahwa sintaksis SPSS dapat menampung beberapa arsip data dalam satu arsip sintaksis.
Ringkasan
Pemakaian prosedur explore dapat dipakai untuk menemukan pengecoran premium
mempunyai suatu distribusi berbeda dari pengecoran standar. Hal ini berarti bahwa resistensi
panas rata-rata untuk pengecoran baru adalah lebih tinggi daripada untuk pengecoran standar.
16
Bukti terdapat bahwa rata-rata mungkin bukan merupakan suatu ukuran yang baik untuk
kecenderungan sentral untuk pengecoran premium. Robust estimates dari kecenderungan
sentral membuktikan superioritas dari pengecoran premium.
Beberapa Prosedur Terkait
Prosedur explore adalah suatu prosedur yang sangat bermanfaat untuk secara visual dan
numerik membandingkan kelompok-kelompok, meringkas distribusi-distribusi, menguji
asumsi mengenai normalitas distribusi data, dan mengungkap observasi-observasi outliers.
Hal ini adalah mudah untuk mengasumsikan tanpa mengungkap data tidak mempunyai
outliers, nilai-nilai ekstrim, atau masalah-masalah distribusi. Prosedur explore telah dapat
mempermudah untuk mengungkap validasi data dengan asumsi-asumsi bersangkutan.
Variabel dependen jiga berjenis variabel kategorikal maka prosedur crosstabs dapat dipakai.
Prosedur lain memungkinkan untuk melapisi pengelompokan variabel-variabel sehingga
dapat menguji statistik ringkasan untuk faktor-faktor klasifikasi silang.
Suatu arisp sintaksis dapat mengandung dua arsip data atau lebih. Hal ini berarti bahwa
beberapa arsip sintaksis dapat digabung ke dalam satu arsip sintaksis sehingga pelaksanaan
sintaksis gabungan ini adalah lebih cepat daripada arsip sintaksis yang tidak digabung.
Daftar Kepustakaan
IBM SPSS Statistics, Inc. 2013. Case Studies
17