Você está na página 1de 12

KESAHAN DAN KEBOLEHPERCAYAAN INSTRUMEN KAJIAN

Kamaruzaman Moidunny, PhD


Jabatan Pembangunan Pengurus, Pemimpin dan Eksekutif Pendidikan
Institut Aminuddin Baki, Genting Highlands

Pengenalan

Kertas penulisan ini akan membincangkan konsep kesahan dan kebolehpercayaan sebagaimana
yang dialami oleh penulis dalam menyiapkan kajian dengan judul Keberkesanan Program Kelayakan
Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009) yang melibatkan soal selidik,
ujian pencapaian, Program Sandaran dan temu bual. Definisi kesahan dan kebolehpercayaan
sebagaimana yang dikemukakan oleh pakar-pakar penyelidikan diutarakan oleh penulis dengan
memberikan contoh yang relevan, agar mudah difahami oleh pembaca. Adalah diharapkan dengan
penulisan ini, dapat memberikan gambaran yang lebih jelas kepada pembaca tentang bagaimana usaha
dijalankan untuk menentukan kesahan dan kebolehpercayaan sesuatu instrumen.

Kesahan Soal Selidik

Kesahan sesuatu instrumen merujuk kepada sejauh manakah sesuatu instrumen mengukur apa yang
sepatutnya diukur (Alias 1992; Creswell 2002, 2005, 2010; Pallant 2001; Siti Rahayah 2003;
Tuckman 1999). Sesuatu instrumen tersebut dikatakan mempunyai kesahan yang tinggi jika darjah
kebolehannya mengukur apa yang sepatutnya diukur adalah tinggi (Mohd Majid 1990).

Soal selidik dan soalan temu bual yang dibina oleh seseorang pengkaji perlu diuji kesahan
muka dan kesahan kandungannya. Sebagai contoh, seramai lima orang pensyarah kanan Institut
Aminuddin Baki (IAB) dirujuk untuk mendapatkan pengesahan tentang kesahan muka dan kesahan
kandungan bagi soal selidik dan temu bual. Soal selidik dan temu bual ini terdapat dalam kajian
dengan judul, Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH)
(Kamaruzaman, 2009).

Kesahan konstruk sesuatu soal selidik pula boleh diukur dengan menggunakan nilai korelasi
antara skor setiap item dengan jumlah skor berkenaan. Hal ini dapat dilakukan dengan menggunakan
analisis korelasi Pearson antara skor setiap item dengan jumlah skor mengikut konstruk yang
berkenaan. Kaedah ini adalah bersesuaian dengan teori yang dikemukakan oleh Abu Bakar (1987) dan
Nunnally (1967). Menurut Abu Bakar (1995) pula, nilai pekali korelasi yang minimum dan boleh
diterima pakai adalah 0.30. Manakala Nunally (1967, 1978) serta Nunally dan Bernstein (1994)
menyatakan bahawa nilai korelasi antara item dengan jumlah skor yang melebihi 0.25 adalah dianggap
tinggi.

Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai pekali
korelasi antara 0.30 hingga 0.49 dianggap sederhana dan nilai pekali korelasi antara 0.50 hingga 1.00
dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu instrumen boleh dilihat pada nilai
korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) iaitu pekali
korelasi Pearson antara skor setiap item dengan jumlah skor tanpa item berkenaan.

Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk menentukan
kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor setiap item dengan
jumlah skor, dan (2) Menggunakan nilai korelasi item yang diperbetulkan dengan jumlah skor
(Corrected Item-Total Correlation). Penulis juga akan merujuk kepada kurikulum Program Latihan
NPQH untuk menentukan kesahan konstruk.
Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis
menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan. Komen dan
teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi memantapkan lagi
maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang akan digunakan. Di samping
itu, komen dan teguran digunakan dalam menilai item-item yang digunakan dalam ujian dan skima
permarkahan Program Sandaran.

Kebolehpercayaan Soal Selidik

Kebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan dalaman
(Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). Nilai Cronbach Alpha pula seringkali
dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk (Cronbach 1946; Norusis 1977). Nilai
Cronbach Alpha yang melebihi 0.60 sering kali diguna pakai sebagai indeks kebolehpercayaan sesuatu
instrumen (Mohd Majid 1990; Pallant 2001; Siti Rahayah 2003). Bagi Sekaran (1992) pula, nilai
kebolehpercayaan yang kurang daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai
Alfa antara 0.60 hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap
baik. Berdasarkan penerangan di atas, penulis telah menggunakan nilai Cronbach Alpha bagi
menentukan kebolehpercayaan soal selidik.

Kesahan dan Kebolehpercayaan Ujian

Bagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus UAK) yang berbentuk item berbentuk
objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka penlengkap dengan
empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program Sandaran, memfokuskan kepada
(1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta
(4) Kualiti peribadi. Skor-skor diberikan oleh pensyarah-pensyarah apabila mereka menyemak hasil
kerja peserta Program Sandaran. Kesahan item-item yang digunakan dalam ujian pencapaian dan
Program Sandaran ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk
membezakan item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item
ujian pencapaian dan Program Sandaran telahpun dibina oleh IAB.

Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan menentukan Indeks
Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) seperti yang
disarankan oleh Macintosh dan Morrison (1969). Wood (1961) menyatakan bahawa kesukaran item
merujuk kepada pecahan yang mendapat jawapan yang betul. Semakin besar indeks kesukaran, item
itu semakin senang. Bagi aras kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60
peratus iaitu 0.4 hingga 0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang
rendah iaitu soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras
kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah sukar. Macintosh
dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang rendah boleh dibaiki. Jadual 1 di
bawah ini menjelaskan aras kesukaran (F) dan indeks pembezaan (D) sebagaimana yang dikemukakan
oleh Macintosh dan Morrisson (1969).

Jadual 1: Aras Kesukaran dan Indeks Pembezaan

Aras Kesukaran (F)


Indeks Pembezaan Kurang 40 % Lebih
(D) daripada hingga daripada
40 % 60 % 60 %

Lebih daripada 0.40 Sukar Diterima Senang


0.30 0.39 Sukar Perlu dibaiki Senang
0.20 0.29 Sukar Marginal Senang
Kurang daripada 0.20 Dibuang Dibuang Dibuang

Sumber: Macintosh dan Morrisson (1969): 67

Indeks Pembezaan, D, pula digunakan untuk membezakan antara kumpulan peserta yang
memperolehi skor tinggi dengan kumpulan peserta yang memperolehi skor rendah. Indeks Pembezaan,
D, mempunyai nilai antara 1.00 hingga + 1.00. Nilai D yang negatif menunjukkan item tersebut
gagal membezakan kumpulan peserta yang memperolehi skor tinggi dengan yang memperolehi skor
rendah. Jika nilai D bersamaan dengan 1.00, ini menunjukkan bahawa 27 peratus daripada kumpulan
yang memperolehi skor tinggi berjaya memberi jawapan betul dan 27 peratus daripada kumpulan yang
memperolehi skor rendah memberi jawapan salah. Manakala jika nilai D bersamaan dengan sifar,
menunjukkan kedua-dua kumpulan peserta memberi jawapan yang serupa bagi item berkenaan. Ini
bermaksud bahawa item tersebut gagal membezakan antara kumpulan peserta yang memperolehi skor
tinggi dengan memperolehi skor rendah. Bagi Sax dan Newton (1997), nilai D antara 0.10 hingga 1.00
menggambarkan bahawa item tersebut boleh diguna pakai. Sementara Ebel (1979) pula menyatakan
bahawa nilai D yang bersamaan atau lebih besar daripada 0.20 adalah sesuai bagi item ujian.

Bagi konteks kajian tersebut, penulis telah menggunakan item yang mempunyai nilai D yang
bersamaan atau lebih besar daripada 0.20 seperti yang disarankan oleh Ebel (1979). Sementara bagi
nilai F pula, penulis telah menggunakan semua item yang dianalisis untuk mengelakkan kekurangan
item bagi setiap konstruk yang dikaji. Dengan kata lain, item yang dipilih akan melibatkan item sukar,
marginal dan senang seperti yang ditunjukkan dalam Jadual 1. Dalam hal ini, penulis menghadapi
kesukaran untuk memilih item yang mempunyai nilai F antara 0.40 dengan 0.60 (Nunally 1978). Ini
adalah kerana nilai F tidak mampu dikawal oleh penulis kerana semua item dibina oleh pihak IAB dan
telah ditadbirkan kepada peserta Program Latihan NPQH. Oleh itu penulis berpendapat, pemilihan
semua item yang mempunyai nilai D bersamaan atau lebih besar daripada 0.20 merupakan langkah
paling baik bagi kajian tersebut .

Selepas menentukan nilai-nilai F dan D, kebolehpercayaan ujian pencapaian dan Program


Sandaran dihitung dengan menggunakan rumus Kuder-Richardson 20 (K-R20). Bagi Siti Rahayah
(2003) dan Yap et al. (1985), rumus Kuder-Richardson digunakan untuk mengelakkan memberi ujian
sebanyak dua kali dan mengelakkan masalah membahagi ujian kepada dua bahagian. Rumus ini boleh
digunakan bagi ujian yang homogen iaitu setiap item ujian mengukur faktor-faktor kebolehan am atau
personaliti yang sama. Bagi Yap et al. (1985), rumus Kuder-Richardson ini bergantung kepada
konsistensi prestasi individu daripada satu item ke satu item iaitu berdasarkan sisihan piawai ujian.

Nilai K-R20 adalah antara sifar (0) hingga 1.00, walaupun nilai negatif adalah mungkin. Nilai
K-R20 yang tinggi menunjukkan ujian mempunyai ketekalan dalaman. Bagi Carey (1994), nilai yang
melebihi 0.90 menunjukkan kebolehpercayaan yang sangat tinggi. Nilai yang hampir dengan 0.80
adalah biasa didapati untuk ujian bilik darjah kepada peserta heterogen. Manakala nilai serendah 0.50
biasa didapati bagi kumpulan peserta-peserta homogen. Sementara bagi Ebel (1979), nilai K-R20 0.50
atau kurang adalah nilai yang biasa didapati bagi ujian pencapaian di sekolah rendah, menengah atau
universiti. Bagi Carey (1994), nilai K-R20 bergantung kepada kehomogenan kumpulan, kehomogenan
kandungan, panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk
menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih panjang
sebanyak sembilan kali daripada panjang asal.

Kesahan dan Kebolehpercayaan Soal Selidik

Satu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan kebolehpercayaan soal
selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di bawah ini. Kesahan item soal selidik
menggunakan nilai (1) Korelasi antara skor setiap item dengan jumlah skor, dan (2) Korelasi item
yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Manakala nilai Cronbach
Alpha digunakan bagi mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan.
Jadual 2 menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item
dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang diperbetulkan dengan
jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65 hingga 0.85. Nilai Cronbach Alpha
pula adalah 0.92.

Jadual 2: Nilai korelasi dan Alfa bagi konstruk Penyampaian Pensyarah

Konstruk Item Korelasi Skor Korelasi Item Nilai Alfa jika Nilai Alfa
Item dengan yang item Keseluruhan
Jumlah Skor Diperbetulkan digugurkan
dengan Jumlah
Skor
Penyampaian 28 0.84 0.78 0.91 0.92
Pensyarah 29 0.79 0.72 0.92
30 0.80 0.74 0.92
31 0.88 0.85 0.91
32 0.73 0.65 0.92
33 0.84 0.80 0.91
34 0.77 0.69 0.92
35 0.82 0.75 0.91

Jadual 2 menunjukkan (1) Nilai korelasi skor item dengan jumlah skor dan (2) Nilai korelasi
item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah melebihi 0.30.
Hal ini memberikan kesimpulan bahawa item mempunyai nilai kesahan yang tinggi sebagaimana yang
disarankan oleh Abu Bakar (1987), Cohen (1988), Norusis (1977) dan Nunally (1987). Sementara itu,
nilai Cronbach Alpha adalah melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai
kestabilan dan ketekalan dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). Nilai
Cronbach Alpha ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh
diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti
Rahayah (2003).

Kesahan dan Kebolehpercayaan Ujian Pencapaian

Sebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH daripada
ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat fasa kursus yang
mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa Asas dan satu kertas ujian bagi
tiga fasa kursus berikutnya. Dan bagi memilih item yang sesuai dalam kajian tersebut, penulis telah
melaksanakan proses yang dinamakan sebagai analisis item.

Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75 item), Fasa
Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item) dan Fasa Berterusan (100
item). Analisis item dilaksanakan untuk menentukan Indeks Kesukaran (Facility Index, F) dan Indeks
Pembezaan (Discrimination Index, D) dalam usaha menentukan kesahan konstruk setiap item. Rumus
yang digunakan dalam analisis ini ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu,
cuma item yang mempunyai nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F
bersamaan atau melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang
disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan kebolehpercayaan
setiap item, nilai Kuder-Richardson 20 (K-R20) bagi setiap konstruk dihitung seperti yang disarankan
oleh Carey (1994).

Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini dilaksanakan secara
tertutup, IAB tidak membenarkan sebarang item dipaparkan untuk tatapan umum. Oleh itu penulis
telah menggunakan kod bagi setiap item yang dipilih. Sebagai contoh, Jadual 3 di bawah ini akan
memaparkan hasil analisis item yang telah dilaksanakan bagi item ujian pencapaian.

Jadual 3 di bawah menunjukkan konstruk Pengurusan dan Kepimpinan Organisasi yang


mempunyai nilai F antara 41 peratus hingga 79 peratus, nilai D antara 0.21 hingga 0.54 dan nilai K-
R20 adalah 0.65. Bagi konstruk ini, terdapat 25 item yang terdiri daripada item yang dikemukakan
dalam Fasa Asas Kertas 1 (lapan item), Fasa Berterusan (14 item) dan Fasa Pertengahan (tiga item).

Jadual 3: Nilai F, D dan K-R20 bagi konstruk Pengurusan dan Kepimpinan Organisasi

Konstruk Bil Kod Aras Indeks Nilai K-R20


Kesukaran Pembezaan (r)
(F)/% (D)
Pengurusan dan 1 AS04 76 0.21 0.65
Kepimpinan
Organisasi 2 AS20 53 0.33
3 AS25 53 0.37
4 AS33 77 0.30
5 AS35 59 0.49
6 AS46 54 0.25
7 AS47 59 0.21
8 AS53 73 0.21
9 BT07 60 0.44
10 BT10 79 0.26
11 BT11 74 0.30
12 BT16 59 0.21
13 BT17 47 0.23
14 BT18 57 0.23
15 BT19 75 0.33
16 BT20 42 0.25
17 BT22 41 0.21
18 BT23 66 0.28
19 BT24 43 0.54
20 BT25 45 0.30
21 BT26 49 0.32
22 BT27 64 0.25
23 PT02 53 0.31
24 PT07 51 0.22
25 PT09 76 0.27
Jumlah item = 25
AS Fasa Asas Kertas 1 BT Fasa Berterusan PT Fasa Pertengahan

Berdasarkan nilai yang terdapat dalam Jadual 3, nilai D adalah melebihi 0.20 serta nilai F
adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti dinyatakan oleh Macintosh
dan Morrisson (1969). Manakala K-R20 yang dihitung mempunyai nilai di antara 0.62 hingga 0.70.
Nilai K-R20 melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan
ketekalan dalaman (Cresswell 2005; Sekaran 1992). Nilai K-R20 ini merumuskan bahawa item
mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd
Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi
ujian pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya kerana
mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.
Semua item ujian pencapaian yang digunakan dalam kajian tersebut telah ditentukan dengan
kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil
kira dalam menentukan pemilihan item ujian pencapaian ini. Di samping itu, kesahan konstruk pula
ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1) Indeks
Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk
menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item
mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20 pula ditentukan yang
memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai
K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai
dalam kajian tersebut.

Kesahan dan Kebolehpercayaan Program Sandaran


Analisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1) Pengenalpastian masalah,
(2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Rumus
yang digunakan bagi tujuan analisis ditunjukkan dalam Lampiran A. Jadual 4 di bawah ini
menunjukkan nilai yang diperoleh daripada analisis tersebut.

Jadual 4: Nilai F, D dan K-R20 bagi Program Sandaran

Konstruk Aspek Aras Indeks Nilai


Kesukaran Pembezaan K-R20
(F)/% (D)

Program Sandaran Pengenalpastian Masalah 83 0.22 0.84


Perancangan Strategik 82 0.25
Pelaksanaan dan Penilaian 81 0.25
Strategik
Kualiti Peribadi 88 0.23

Daripada Jadual 4, didapati bahawa aspek Pengenalpastian Masalah mempunyai nilai F = 83


peratus dan D = 0.22, aspek Perancangan Strategik mempunyai nilai F = 82 peratus dan D = 0.25,
aspek Pelaksanaan dan Penilaian Strategik mempunyai nilai F = 81 peratus dan D = 0.23, serta aspek
Kualiti Peribadi mempunyai nilai F = 88 peratus dan D = 0.23. Nilai F yang tinggi menunjukkan
peserta mampu melaksanakan tugasan yang diberikan dengan baik. Manakala nilai D yang melebihi
0.20 pula menunjukkan bahawa item mempunyai tahap kesahan yang boleh diguna pakai seperti yang
disarankan oleh Macintosh dan Morrisson (1969). Seterusnya, nilai K-R20 adalah 0.84 yang dianggap
tinggi (Cohen 1988) dan merupakan nilai biasa yang didapati bagi Ujian Rujukan Kriteria seperti yang
ditegaskan oleh Ebel (1979). Nilai K-R20 yang tinggi ini dihasilkan oleh korelasi antara item yang
tinggi kerana mengukur objektif atau kriteria yang sama.

Bagi menentukan kebolehpercayaan antara penilai (interrater reliability) untuk Program


Sandaran, penulis menghitung nilai indeks kebolehpercayaan seperti yang disarankan oleh Black
(1999). Oleh kerana Program Sandaran merupakan Ujian Rujukan Kriteria maka apa yang
dipentingkan adalah markah lulus yang mempunyai nilai sebanyak 40 markah. Rumus yang terdapat
dalam Lampiran A digunakan oleh penulis untuk menghitung nilai indeks ini. Berdasarkan rumus ini
nilai indeks kebolehpercayaan (k2) yang didapati adalah bersamaan dengan 0.85. Nilai ini merupakan
satu nilai kebolehpercayaan yang sangat baik berdasarkan pendapat Landis dan Kosh (1977) (dalam
Zamri dan Noriah, 2003) seperti yang terdapat dalam Jadual 5. Dengan kata lain, item-item yang
digunakan dalam menentukan skor bagi Program Sandaran mempunyai kebolehpercayaan yang tinggi.
Ini juga menunjukkan bahawa instrumen Program Sandaran adalah sesuai digunakan untuk menilai
peserta Program Latihan NPQH.
Semua item ujian pencapaian Program Sandaran yang digunakan dalam kajian tersebut telah
ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua
pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian Program Sandaran ini. Di
samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks
kajian tersebut, nilai (1) Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination
Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks
menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20 pula
ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman
yang baik. Nilai K-R20 ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan
boleh diguna pakai dalam kajian tersebut. Sehubungan dengan itu, nilai kebolehpercayaan antara
penilai (interrater reliability) sebanyak 0.85 juga menunjukkan bahawa item dalam Program Sandaran
boleh diguna pakai dalam kajian tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian
pencapaian Program Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian
objektif kajian ketiga dan kelima.

Kesahan dan Kebolehpercayaan Temu Bual

Protokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian reaksi,
penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu seperti reaksi responden
terhadap Program Latihan NPQH, pengetahuan dan kemahiran yang diperoleh, pemindahan
pengetahuan dan kemahiran semasa Program Sandaran, masalah yang dihadapi dan cadangan untuk
meningkatkan kualiti program ini dimasukkan dalam protokol temu bual. Ini merupakan satu usaha
untuk menguatkan bukti daripada data yang didapati melalui soal selidik, skor ujian pencapaian dan
skor Program Sandaran. Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk
menguatkan bukti daripada sumber yang berlainan.

Semua item dalam protokol temu bual yang digunakan dalam kajian tersebut telah ditentukan
dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar. Pendapat semua pakar telah
diambil kira dalam menentukan pemilihan item temu bual ini. Bagi tujuan menentukan
kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan
darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Penulis
memadankan unit daripada data temu bual dengan tema yang dominan. Dalam hal ini, penulis telah
mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa
dengan mengedarkan borang seperti yang terdapat dalam Lampiran B.

Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan
bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan
Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada data temu bual dengan tema
yang dominan. Penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk
menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran
B. Seterusnya, penulis menghitung nilai persetujuan (Indeks Cohen Kappa) daripada borang yang
diterima daripada pakar-pakar tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:

fa fc
K = ----------
N fc

Sumber: Cohen (1968) dalam Zamri dan Noriah (2003):4


di mana K nilai koefisien Kappa
fa frekuensi persetujuan
fc frekuensi bagi 50 peratus jangkaan persetujuan
N bilangan unit yang diuji nilai persetujuan

Bagi menentukan tahap persetujuan Kappa, nilai yang disyorkan oleh Landis dan Kosh (1977)
dalam Zamri dan Noriah (2003) digunakan oleh penulis, seperti yang ditunjukkan dalam Jadual 5 di
bawah.

Jadual 5: Nilai Kappa dan interpretasinya (tahap)

Nilai Kappa Interpretasinya


Kurang daripada 0 Sangat lemah
0.00 0.20 Lemah
0.21 0.40 Sederhana lemah
0.41 0.60 Sederhana
0.61 0.80 Baik
0.81 1.00 Sangat baik
Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3

Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam Jadual 6
di bawah ini.

Jadual 6: Nilai persetujuan bagi koefisien Kappa

Pakar 1 Pakar 2 Pakar 3 Min Koefisien Kappa


46 24.5 47 24.5 46 24.5 K1 + K2 + K3
K1 = ------------ K2 = ---------- K3 = ----------- K = -------------------
49 24.5 49 24.5 49 24.5 3

21.5 22.5 21.5 0.88 + 0.92 + 0.88


= ------ = ------ = ------ = ----------------------
24.5 24.5 24.5 3

= 0.88 = 0.92 = 0.88 = 0.89

Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini merupakan
satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis yang dibuat oleh penulis
adalah selari dengan tema yang dikemukakan, berdasarkan persetujuan pakar.

Kesimpulan
Penulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item yang
digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat pakar, penulis turut
menggunakan kaedah statistik dengan mengemukakan nilai seperti korelasi skor item dengan jumlah
skor, korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation), Indek
Kesukaran (F) dan Indeks Diskriminasi (D) bagi menentukan kesahan item yang digunakan.
Sementara nilai Cronbach Alpha dan Kuder-Richarson 20 (K-R20) dikemukakan bagi menentukan
kebolehpercayaan item yang diguna pakai.

Rujukan
Abu Bakar Nordin. 1986. Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya:
Longman Malaysia Sdn. Bhd.
Alias Baba. 1992. Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi:
Penerbit Universiti Kebangsaan Malaysia.
Black, T. R. 1999. Doing quantitative research in the social sciences an integrated
approach to research design, measurement and statistics. London: Sage
Publications.
Carey, L. M. 1994. Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and
Bacon.
Cohen, J. 1968. Weighted Kappa a nominal scale aggreement with provision for scaled
disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri
Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.
Cohen, J. W. 1988. Statistical power analysis for the behavioral sciences Ed. Second.
Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Creswell, J. W. 2002. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (2nd Ed). New Jersey: Pearson Merril Prentice
Hall.
Creswell, J. W. 2005. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (3rd Ed.). New Jersey: Pearson Merril Prentice
Hall.
Creswell, J. W. 2010. Educational research - planning, conducting, and evaluating
quantitative and qualitative research (4th Ed.). New Jersey: Pearson Merril Prentice
Hall.
Cronbach, L. J. 1946. Response sets and test validity. Educational and psychological
measurement 6:672-683.
Ebel, R. L. 1979. Essentials of Educational Measurement Ed. ke-3. New Jersey: Prentice-
Hall Inc.
Kamaruzaman Moidunny. 20039. Keberkesanan Program Kelayakan Profesional
Kepengetuaan Kebangsaan (NPQH). Disertasi Doktor Falsafah, Universiti
Kebangsaan Malaysia.
Landis, J. & Kosh, G.G. 1977. The measurement of observer agreement for categorical
data. Biometrics, 33:159-174. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003.
Analisis Cohen Kappa dalam penyelidikan bahasa satu pengalaman. Kertas Kerja
Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan
Guru, KPM. Kuching, 19 20 Ogos.
Macintosh, H. G., & Morrisson, R. B. 1969. Objective testing. London: University of
London Press Ltd.
Mohd Majid Konting. 1990. Kaedah penyelidikan pendidikan. Kuala Lumpur: Dewan
Bahasa dan Pustaka.
Norusis, M. J. 1977. SPSS professional statistic 7.5. North Michigan Avenue, Chicago.
Nunnally, J. C. 1967. Psychometric theory. New York: McGraw-Hill Book Company.
Nunnally, J. C. 1978. Psychometric theory. Ed. ke-2. New York: McGraw-Hill Book
Company.
Nunnally, J. C. & Bernstein, I. R. 1994. Psychometric theory. Ed. ke-3. New York:
McGraw-Hill, Inc.
Pallant, J. 2001. SPSS survival manual - a step by step guide to data analysis using SPSS
for windows (version 10). Buckingham Open University Press.
Sekaran, U. 1992. Research methods for bussiness: a skill-building approach. New York:
John Wiley & Sons, Inc.
Siti Rahayah Ariffin. 2003. Teori, konsep & amalan dalam pengukuran dan penilaian.
Bangi: Pusat Pembangunan Akademik UKM.
Tabachnick, B. G. & Fidell, L. S. 2001. Using multivariate statistics. Ed. ke-4. London:
Allyn and Bacon.
Tuckman, B. W. 1999. Conducting educational research. Ed. Ke-5. California: Wadsworth
Thomson Learning.
Wood, D. A. 1961. Test construction - development and interpretation of achievement test.
Ohio: Charles E. Merril Books, Inc.
Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985. Pengukuran dan penilaian dalam
pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.
Zamri Mahamod & Noriah Mohd Ishak. 2003. Analisis Cohen Kappa dalam penyelidikan
bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat
Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.

LAMPIRAN A

Rumus-rumus Yang Digunakan

1. Rumus Indeks Kesukaran dan Indeks Diskriminasi Item

T + R
Indek Kesukaran, F= --------------- x 100 %
NT + NR

T - R
Indeks Diskriminasi, D = --------------
NR
di mana
T Bilangan pelajar daripada kumpulan berpencapaian tinggi menjawab betul
R Bilangan pelajar daripada kumpulan berpencapaian rendah menjawab betul
NT Jumlah pelajar daripada kumpulan berpencapaian tinggi
NR Jumlah pelajar daripada kumpulan berpencapaian rendah

Sumber: Siti Rahayah (2003): 156

2. Rumus Kuder-Richardson 20 (K-R20)

2.1 Rumus Kuder-Richardson 20 untuk menganggar kebolehpercayan ujian objektif

k S pq
r = ------ 1 - -------
k1 s2

di mana k bilangan item ujian


p nisbah jawapan betul bagi sesuatu item
q nisbah jawapan salah bagi sesuatu item
p+q=1
s2 varian bagi skor ujian

Sumber: Ebel (1979):279

2.2 Rumus Kuder-Richardson 20 untuk menganggar kebolehpercayan ujian esei

k S si2
r = ------ 1 - -------
k1 si2

di mana k bilangan pecahan soalan esei yang bebas antara satu sama lain atau bilangan
kadar pencapaian yang bebas
si2 varian bagi jumlah skor ujian esei atau jumlah kadar daripada semua pemeriksa
S si2 jumlah varian atau kadar bagi semua soalan atau daripada
semua pemeriksa

Sumber: Ebel (1979):282

3. Rumus untuk Menentukan Kebolehpercayaan Antara Penilai bagi Program Sandaran


rxx (Sx)2 + ( x C )2
k2 = -----------------------------
(Sx)2 + ( x C )2

di mana k2 Indeks Rujukan Kriteria (Indeks Livingston)


rxx koefisien kebolehpercayaan bagi Rujukan Norma (K-R20)
(Sx)2 varian bagi skor ujian
x min bagi skor ujian
C skor kriteria bagi ujian

Sumber: Black (1999):291

4. Persamaan Regresi

Y = A + B1X1 + B2X2 + ...+BkXk

di mana Y nilai ramalan bagi pemboleh ubah bersandar


A koefisien atau pintasan-y
X pemboleh ubah bebas (peramal)
B nilai koefisien yang didadapati akibat regresi

Sumber: Tabachnick dan Fidell (2001): 111

Você também pode gostar