Você está na página 1de 17

I.

PENDAHULUAN

A. Pengertian Analisis Butir Soal


Menganalisis butir soal merupakan suatu kegiatan yang harus dilakukan oleh guru
untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses
pengumpulan, peringkasan, dan penggunaan informasi dari jawaban siswa untuk membuat
keputusan tentang setiap penilaian (Nitko, 1996 :308). Tujuan penelaahan adalah untuk
mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal
digunakan. Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-
tepatnya sesuai dengan tujuannya di antaranya dapat menentukan peserta didik mana yang
sudah atau belum menguasai materi yang diajarkan oleh guru.
Dalam melaksanakan analisis butir soal, para penulis soal dapat menganalisis secara
kualitatif, dalam kaitannya dengan isi dan bentuknya, dan kuantitatif dalam kaitan dengan
ciri-ciri statistiknya (Anastasi dan Urbina, 1997 : 172). Analisis kualitatif mencakup
pertimbangan validitas isi dan konstruk, sedangkan analisis kuantitatif mencakup pengukuran
kesulitan butir soal dan diskriminasi soal yang termasuk validitas soal dan reabilitasnya.
B. Manfaat Menganalisis Butir Soal
Tujuan utama analisis butir soal dalam sebuah tes yang dibuat guru adalah untuk
mengidentifikasi kekurangan-kekurangan dalam tes atau dalam pembelajaran (Anastasi dan
Urbina, 1997 : 184). Berdasarkan tujuan ini, maka kegiatan analisis butir soal memiliki
banyak manfaat diantaranya, yaitu :
1. Dapat membantu para pengguna tes dalam evaluasi atas tes yang digunakan
2. Sangat relevan bagi penyusunan tes informal dan lokal seperti tes yang disiapkan guru
untuk siswa di kelas
3. Mendukung penulisan butir soal yang efektif
4. Secara materi dapat memperbaiki tes di sekolah
5. Meningkatkan validitas soal dan realibitas (Anastasi dan Urbina, 1997 : 172)
Linn dan Gronlund (1995 : 315) juga menambahkan tentang pelaksanaan kegiatan
analisis butir soal yang biasanya didesain untuk menjawab pertanyan-pertanyaan berikut ini :
1. Apakah fungsi soal sudah tepat ?
2. Apakah soal ini memiliki tingkat kesukaran yang tepat ?
3. Apakah soal bebas dari hal-hal yang tidak relevan ?
4. Apakah ini pilihan jawabannya efektif ?
Lebih lanjut Linn dan Gronlund (1995 : 316-318) menyatakan bahwa kegunaan
analisis butir soal bukan hanya terbatas untuk peningkatan butir soal, tetapi ada beberapa hal,
yaitu bahwa data analisis butir soal bermanfaat sebagai dasar :

1
1. Diskusi kelas efisien tentang hasil tes
2. Untuk kerja remedial
3. Untuk peningkatan secara umum pembelajaran di kelas
4. Untuk peningkatan keterampilan pada konstruksi tes
Berbagai uraian di atas menunjukkan bahwa analisis butir soal yaitu :
1. Untuk menentukan soal-soal yang cacat atau tidak berfungsi penggunaannya
2. Untuk meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat kesukaran,
daya pembeda, dan pengecoh soal serta meningkatkan pembelajaran melalui ambiguitas
soal dan keterampilan tertentu yang menyebabkan peserta didik sulit. Di samping itu,
butir soal yang telah dianalisis dapat memberikan informasi kepada peserta didik dan
guru seperti contoh berikut ini :

II. ANALISIS BUTIR SOAL SECARA KUALITATIF

A. Pengertian Analisis Butir Soal Secara Kualitatif


Analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah penulisan soal
(tes tertulis, perbuatan dan sikap). Penelaahan ini biasanya dilakukan sebelum soal digunakan
atau diujikan. Aspek yang diperhatikan di dalam penelaahan secara kualitatif ini adalah setiap
soal ditelaah dari segi materi, konstruksi, bahasa/budaya, dan kunci jawaban/pedoman
penskorannya. Dalam melakukan penelaahan setiap butir soal, penelaah perlu
mempersiapkan bahan-bahan penunjang seperti ; kisi-kisi tes, kurikulum yang digunakan,
buku sumber dan kamus bahasa Indonesia.
B. Teknik Analisis Secara Kualitatif
Ada beberapa teknik yang dapat digunakan untuk menganalisis butir soal secara
kualitatif, diantaranya teknik moderator dan teknik panel. Teknik moderator merupakan
teknik berdiskusi yang di dalamnya terdapat satu orang sebagai penengah. Berdasarkan
teknik ini, setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli seperti
guru yang mengajarkan materi, ahli materi, penyusun / pengembang kurikulum, ahli
penilaian, ahli bahasa, berlatar belakang psikologi. Teknik ini sangat baik karena setiap butir
soal dilihat secara bersama-sama berdasarkan kaidah penulisannya. Disamping itu, para
penelaah dipersilahkan mengomentari / memperbaiki berdasarkan ilmu yang dimilikinya.
Setiap komentar / masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal dapat
dituntaskan secara bersama-sama, perbaikannya seperti apa. Namun, kelemahan teknik ini
adalah memerlukan waktu lama untuk mendiskusikan setiap satu butir soal.

2
Teknik panel merupakan suatu teknik menelaah butir soal yang setiap butir soalnya
ditelaah berdasarkan kaidah penulisan butir soal, yaitu ditelaah dari segi materi, konstruksi,
bahasa / budaya, kebenaran kunci jawaban / pedoman penskorannya yang dilakukan oleh
beberapa penelaah. Caranya adalah beberapa penelaah diberikan : butir-butir soal yang akan
ditelaah, format penelaahan, dan pedoman penilaian / penelaahannya. Pada tahap awal para
penelaah diberikan pengarahan, kemudian tahap berikutnya para penelaah bekerja sendiri-
sendiri di tempat yang tidak sama. Para penelaah dipersilahkan memperbaiki langsung pada
teks soal dan memberikan komentarnya serta memberikan nilai pada setiap butir soalnya
yang kriterianya adalah baik, diperbaiki atau diganti.
Secara ideal penelaah butir soal disamping memiliki latar belakang materi yang
diujikan, beberapa penelaah yang diminta untuk menelaah butir soal memiliki keterampilan
seperti guru yang mengajarkan materi itu, ahli materi, ahli pengembang kurikulum, ahli
penilaian, psikolog, ahli bahasa, ahli kebijakan pendidikan atau lainnya.
C. Prosedur Analisis Secara Kualitatif
Dalam menganalisis butir soal secara kualitatif, penggunaan format penelaahan soal
akan sangat membantu dan mempermudah prosedur pelaksanaannya. Format penelahaan soal
digunakan sebagai dasar untuk menganalisis setiapbutir soal. Format penelaahan soal yang
dimaksud adalah format penelaahan butir soal: uraian, pilihan ganda, tes perbuatan dan
instrumen non-tes.
Agar penelaah dapat dengan mudah menggunakan format penelaahan soal, maka para
penelaah perlu memperhatikan petunjuk pengisian formatnya. Contoh petunjuknya sebagai
berikut :
1. Analisislah setiap butir soal berdasarkan semua kriteria yang tertera di dalam format.
2. Berilah tanda ( ) pada kolom ya bila soal yang ditelaah sudah sesuai dengan kriteria.
3. Berilah tanda ( ) pada kolom tidak bila soal yang ditelaah tidak sesuai dengan kriteria,
kemudian tuliskan alasan pada ruang catatan atau pada teks soal dan perbaikannya.
FORMAT PENELAHAAN BUTIR SOAL BENTUK URAIAN
Mata Pelajaran : ..
Kelas / Semester : ..
Penelaah : ..
No Aspek yang ditelaah Nomor Soal
1 2 3 4 5 6 7 8 9 ---
A Materi
1 Soal sesuai dengan indikator
(menuntut tes tertulis untuk bentuk

3
uraian)
2 Batasan pertanyaan dan jawaban yang
diharapkan sudah sesuai
3 Materi yang ditanyakan sesuai dengan
kompetensi (urgensi, relevasi,
kontinuitas, keterpakaian sehari-hari)
4 Isi materi yang ditanyakan sesuai
dengan jenjang, jenis sekolah atau
tingkat kelas
B Konstruksi
5 Menggunakan kata tanya atau perintah
yang menuntut jawaban uraian
6 Ada petunjuk yang jelas tentang cara
mengerjakan soal
7 Ada pedoman penskorannya
8 Tabel, gambar, grafik, peta atau yang
sejenisnya disajikan dengan jelas dan
terbaca
C Bahasa / Budaya
9 Rumusan kalimat soal komunikatif
10 Butir soal menggunakan bahasa
Indonesia yang baku
11 Tidak menggunakan kata/ungkapan
yang menimbulkan penafsiran ganda
atau salah pengertian
12 Tidak menggunakan bahasa yang
berlaku setempat atau tabu
Keterangan : berilah tanda bila sesuai dengan aspek yang ditelaah.
III. ANALISIS BUTIR SOAL SECARA KUANTITATIF

A. Pengertian Butir Soal Secara Kuantitatif


Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soal didasarkan
pada data empirik dari butir soal yang bersangkutan. Data empiric ini diperoleh dari soal
yang telah diujikan.
B. Analisis Butir Soal

4
Ada dua pendekatan dalam analisis secara kuantitatif, yaitu pendekatan secara klasik
dan moderen.
1. Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi
dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan
menggunakan teori tes klasik. Kelebihan analisis butir soal secara klasik adalah murah, dapat
dilaksanakan sehari-hari dengan cepat menggunakan data dari beberapa peserta didik atau
sampel kecil. Adapun proses analisisnya sudah banyak dilaksanakan para guru di sekolah
seperti beberapa contoh berikut ini :
a. Langkah pertama yang dilakukan adalah menabulasi jawaban yang telah dibuat pada
setiap butir soal yang meliputi beberapa peserta didik yang : menjawab benar pada
setiap soal, menjawab salah (option pengecoh), tidak menjawab soal. Berdasarkan
tabulasi ini, dapat diketahui tingkat kesukaran butir soal, daya pembeda soal,
alternative jawaban yang dipilih peserta didik.
b. Misalnya analisis untuk 32 siswa, maka langkah (1) urutkan skor siswa dari yang
tertinggi sampai yang terendah, (2) pilih 10 lembar jawaban pada kelompok atas dan
10 lembar jawaban pada kelompok bawah, (3) ambil kelompok tengah (12 lembar
jawaban) dan tidak disertakan dalam analisis, (4) untuk masing-masing soal, susun
jumlah siswa kelompok atas dan bawah pada setiap pilihan jawaban, (5) hitung
tingkat kesukaran pada setiap butir soal, (6) hitung daya pembeda soal (7) analisis
efektivitas pengecoh pada setiap soal.
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap
butir soal ditelaah dari segi : tingkat kesukaran butir soal, daya pembeda butir soal, dan
penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban pada setiap
pilihan jawaban.

a. Tingkat Kesukaran
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Soal yang baik adalah
soal yang tidak terlalu mudah atau tidak terlalu sukar. Bilangan yang menunjukkan sukar dan
mudahnya suatu soal disebut indeks kesukaran (difficulty index). Besarnya indeks kesukaran
antara 0,0 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal. Taraf

5
kesukaran dapat dicari dengan menggunakan rumus sebagai berikut: (Suharsimi Arikunto :
223)
B
P=
JS

Keterangan:
P : indeks kesukaran
B : banyaknya siswa yang menjawab benar pada butir soal yang diukur
JS : jumlah seluruh peserta tes

Tabel Taraf Kesukaran


Rentang nilai Kategori
0,00 < P < 0,30 Sukar
0,31 < P < 0,70 Sedang
0,71 < P < 1,00 Mudah

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya
untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang,
untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi/sukar,
dan untuk keperluan diagnostik biasanya digunakan butir soal yang memiliki tingkat
kesukaran rendah/mudah.
Tingkat kesukaran butir soal memiliki dua kegunaan yaitu kegunaan bagi guru dan
kegunaan bagi pengujian dan pengajaran (Nitko, 1996 : 310-313). Kegunanaanya bagi guru
adalah : (1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberikan
masukan kepada siswa tentang hasil belajar mereka, (2) memperoleh informasi tentang
penekanan kurikulum atau mencurigai terhadap butir soal yang bias. Adapun kegunaannya
bagi pengujian dan pengajaran adalah : (1) pengenalan konsep yang diperlukan untuk
diajarkan ulang, (2) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah,
(3) memberi masukan kepada siswa, (4) tanda-tanda kemungkinan adanya butir soal yang
bias, (5) merakit tes yang memiliki ketepatan data soal.
Contoh : tes formatif IPA, 10 soal bentuk pilihan ganda, option 4, dengan proporsi 2
soal mudah, 6 soal sedang, dan 2 soal sukar. Jumlah siswa 20 orang.
No Kemampuan Judgemen Jumlah siswa yang Indeks Indeks
Soal yang diukur t Per Soal menjawab benar kesukaran kesukaran

6
1 Pengetahuan Mudah 18 0.90 Mudah
2 Pengetahuan Mudah 12 0.60 Sedang
3 Pemahaman Sedang 10 0.50 Sedang
4 Aplikasi Sedang 12 0.60 Sedang
5 Aplikasi Sedang 9 0.45 Sedang
6 Pemahaman Sedang 20 1.00 Mudah
7 Analisa Sedang 6 0.30 Sukar
8 Pemahaman Sedang 10 0.50 Sedang
9 Sintesa Sukar 4 0.20 Sukar
10 Sintesa Sukar 9 0.45 Sedang

Dalam mencari indeks kesukaran menggunakan rumus yang telah ditulis di atas :

B 18
P= = =0.90
JS 20 maka P = 0.90 . Dari contoh di atas diperoleh hasil yaitu : 1,3,4,5,8 dan

9 terdapat kesesuaian antara judgement dengan hasil analisa, soal nomor 2 yang di judgement
mudah ternyata termasuk soal sedang, soal nomor 6 yang di judgement sedang ternyata
termasuk soal mudah, soal nomor 7 yang di judgement sedang ternyata termasuk sukar dan
soal nomor 10 yang di judgement sukar ternyata termasuk soal sedang. Atas dasar hasil di
atas, soal yang harus diperbaiki adalah : soal nomor 2 diturunkan ke dalam kategori mudah,
soal nomor 6 dinaikkan ke dalam kategori sedang, soal nomor 7 diturunkan ke dalam kategori
sedang, dan soal nomor 10 dinaikkan ke dalam kategori sukar.
b. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara
siswa yang telah menguasai materi yang ditanyakan dan siswa yang tidak/kurang/belum
menguasai materi yang ditanyakan. Angka yang menunjukkan besarnya daya pembeda
disebut indeks diskriminasi (D), ini berkisar antara 0,00-1,00. Untuk menentukan indeks
diskriminasi digunakan rumus berikut ini: (Suharsimi Arikunto ; 228)

B A BB
D=
J A JB

Keterangan:
D : daya pembeda
BA : banyaknya peserta kelas atas yang menjawab soal dengan benar
BB : banyaknya peserta kelas bawah yang menjawab soal dengan benar
JA : banyaknya peserta kelas atas
JB : banyaknya peserta kelas bawah
7
Penentuan kategori daya beda soal dapat dilihat pada tabel 3.9 berikut ini: (Suharsimi
Arikunto; 232)
Tabel Kategori Daya Pembeda

Rentang Nilai DB Kategori


Bernilai Negatif Drop
0,00 < D < 0,20 Jelek
0,21 < D < 0,40 Cukup
0,41 < D < 0,70 Baik
0,71 < D < 1,00 Baik Sekali

Manfaat daya pembeda butir soal adalah seperti berikut ini :


1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan indeks
daya pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi atau
ditolak.
2) Untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan
kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami materi yang
diajarkan guru. Apabila suatu butir soal tidak dapat membedakan kedua kemampuan
siswa itu, maka butir soal itu dapat dicurigai kemungkinannya seperti berikut ini :
- Kunci jawaban butir soal itu tidak tepat
- Butir soal itu memiliki dua atau lebih kunci jawaban yang benar
- Kompetensi yang diukur tidak jelas
- Pengecoh tidak berfungsi
- Materi yang ditanyakan terlalu sulit, sehingga banyak siswa yang menebak
- Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah
informasi dalam butir soalnya
Contoh : dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20
orang siswa, terdapat dalam tabel sebagai berikut :
Sisw Kelompo Nilai soal Skor
a k sisw
a
1 2 3 4 5 6 7 8 9 10
A B 1 0 1 0 0 0 1 1 1 0 5
B A 0 1 1 1 1 1 0 0 1 1 7
C A 1 0 1 0 1 1 1 1 1 1 8
D B 0 0 1 0 0 1 1 1 1 0 5
E A 1 1 1 1 1 1 1 1 1 1 10
F B 1 1 0 0 0 1 1 1 1 0 6
G B 0 1 0 0 0 1 1 1 1 1 6
H B 0 1 1 0 0 1 0 1 1 1 6

8
I A 1 1 1 0 0 1 1 1 1 1 8
J A 1 1 1 1 0 0 1 0 1 1 7
K A 1 1 1 0 0 1 1 1 1 0 7
L B 0 1 0 1 1 0 0 1 1 0 5
M B 0 1 0 0 0 0 0 1 1 0 3
N A 0 0 1 0 1 1 1 1 1 1 7
O A 1 1 0 1 1 1 1 1 1 1 9
P B 0 1 0 0 0 1 0 0 1 0 3
Q A 1 1 0 1 0 1 1 1 1 1 8
R A 1 1 1 1 0 1 1 1 1 0 8
S B 1 0 1 0 0 1 1 1 1 0 6
T B 0 1 0 1 0 1 1 1 1 0 6
Jumlah 11 15 12 8 6 16 15 17 20 10

Berdasarkan nama-nama siswa dapat kita peroleh skor-skor sebagai berikut :


A: 5 F:6 K:7 P:3
B:7 G:6 L:5 Q:8
C:8 H:6 M:3 R:8
D:5 I:8 N:7 S:6
E : 10 J:7 O:9 T:6
Dari angka-angka yang belum teratur kemudian dibuat urutan penyebaran, dari skor
yang paling tinggi ke skor yang paling rendah :
Kelompok Atas Kelompok Bawah
10 6
9 6
8 6
8 6
8 6
8 5
7 5
7 5
7 3
7 3
10 orang 10 orang

Urutan penyebaran ini sekaligus menunjukkan adanya kelompok atas (Ja) dan
kelompok bawah (Jb) dengan pemiliknya sebagai berikut :
Kelompok Atas (Ja) Kelompok Bawah (Jb)

9
E = 10 F=6
O=9 G=6
C=8 H=6
I=8 S=6
Q=8 T=6
R=8 A=5
J=7 D=5
K=7 L=5
N=7 M=3
B=7 P=3
10 orang 10 orang

Perhatikan dibelakang nama siswa dituliskan kelompok A atau B sebagai tanda


kelompok. Hal ini mempermudah menentukan Ba dan Bb. Sudah disebutkan di atas bahwa
soal yang baik adalah soal yang dapat membedakan antara anak yang sudah mengerti dan
anak yang belum mengerti, dilihat dari dapat dan tidaknya mengerjakan soal itu. Marilah kita
perhatikan tabel analisis lagi, khusus untuk butir soal nomor 1. Dari kelompok atas menjawab
betul 8 orang sedangkan dari kelompok bawah yang menjawab betul 3 orang. Kita terapkan
dalam rumus indeks diskriminasi :

Dengan demikian, maka indeks diskriminasi untuk soal nomor 1 adalah 0,5 ini artinya
daya pembeda baik, soal diterima. Sekarang kita perhatikan butir soal nomor 8 :

10
Butir soal nomor 8 ini jelek karena lebih banyak dijawab benar oleh kelompok bawah
dibandingkan dengan jawaban benar dari kelompok atas. Ini berarti untuk menjawab soal
dengan benar, dapat dilakukan dengan menebak.
c. Fungsi Pengecoh (distracter function)
Pada saat membicarakan tes objektif bentuk multiple choice item tersebut untuk setiap
butir item yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan beberapa
kemungkinan jawab, atau yang sering dikenal dengan istilah option atau alternatif. Option
atau alternatif itu jumlahnya berkisar antara 3 sampai dengan 5 buah, dan dari kemungkinan-
kemungkinan jawaban yang terpasang pada setiap butir item itu, salah satu diantaranya
adalah merupakan jawaban betul (kunci jawaban), sedangkan sisanya adalah merupakan
jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan istilah distractor
(pengecoh).
Fungsi pengecoh dimaksudkan untuk mengetahui seberapa besar peserta yang tidak
memiliki kunci jawaban (option) pada bentuk soal pilihan ganda. Untuk soal pilihan ganda,
alternatif jawaban menurut kaidah harus homogen dan logis sehingga setiap pilihan jawaban
(opition) dapat berfungsi atau ada yang memilih. Setiap pengecoh dapat dikatakan berfungsi
apabila ada yang memilih. Setiap pengecoh dapat dikatakan berfungsi apabila terpilih
minimal sebanyak 5% dari jumlah peserta.
Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu : menganalisis
pola penyebaran jawaban item. Adapun yang dimaksud dengan pola penyebaran jawaban
item adalah suatu pola yang dapat menggambarkan bagaimana testee menentukan pilihan
jawabnya terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan pada setiap
butir item. Suatu kemungkinan dapat terjadi, yaitu bahwa dari keseluruhan alternatif yang
dipasang pada butir item tertentu, sama sekali tidak dipilih oleh testee. Dengan kata lain,
testee menyatakan blangko. Pernyataan blangko ini sering dikenal dengan istilah omit dan
biasa diberi lambang dengan huruf O. Sebagai tindak lanjut atas hasil penganalisaan terhadap
fungsi distraktor tersebut maka distraktor yang sudah dapat menjalankan fungsinya dengan

11
baik dapat dipakai lagi pada tes-tes yang akan datang, sedangkan distraktor yang belum dapat
berfungsi dengan baik sebaiknya diperbaiki atau diganti dengan distraktor yang lain (Anas,
2011:408).
Contoh perhitungan: Dari analisis sebuah item, polanya diketahui sebagai berikut:

Pilihan Jawaban A B C* D O Jumlah


Kelompok atas 5 7 15 3 0 30
Kelompok bawah 8 8 6 5 3 30
Jumlah 13 15 21 8 3 60

C diberi tanda (*) adalah kunci jawaban. Dari pola jawaban soal ini dapat dicari:
1) P = 21/60 = 0,35
2) D = PA PB = 15/30 - 6/30 = 9/30 = 0,30
3) Distraktor : semua distraktornya sudah berfungsi dengan baik karena sudah dipilih oleh
lebih dari 5% pengikut tes.
4) Dilihat dari segi omit (kolom paling kanan) adalah baik. Sebuah item dikatakan baik jika
omitnya tidak lebih dari 10% pengikut tes.

(5% dari pengikut tes = 5% x 60 orang = 3 orang)


(10% dari pengikut tes = 10% x 60 orang = 6 orang)
Sebenarnya ketentuan ini hanya berlaku untuk tes pilihan ganda dengan 5 alternatif
dan P = 0,80. Tetapi demi praktisnya diberlakukan semua.
d. Reliabilitas Skor Tes
Realibilitas adalah tingkat atau derajat konsistensi dari suatu instrumen, reliabilitas tes
berkenaan dengan dengan pertanyaan, apakah suatu tes teliti dan dapat dipercaya sesuai
dengan kriteria yang telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu
memberikan hasil yang sama bila diteskan pada kelompok yang sama pada waktu yang sama
pada waktu atau kesempatan yang berbeda.
Menurut Gronlun, ada empat faktor yang dapat mempengaruhi reliabilitas, yaitu :
1) Panjang tes, yaitu banyaknya soal tes. Ada kecenderungan, semakin panjang suatu tes
akan lebih tinggi tingkat reliabilitas suatu tes, karena semakin banyak soal, maka akan
semakin banyak sampel yang diukur dan proporsi jawaban yang benar semakin semakin
banyak, sehingga faktor tebakan akan semakin rendah.
2) Sebaran skor, besarnya sebaran skor akan membuat tingkat reliabilitas menjadi lebih

12
tinggi, Karena koefesien reliabilitas yang lebih besar diperoleh ketika peserta didik tetap
pada posisi yang relative sama dalam satu kelompok pengujian ke pengujian berikutnya.
Dengan kata lain, peluang selisih dari perubahan posisi dalam kelompok dapat
memperbesar koefesien reliabilitas.
3) Tingkat kesukaran, dalam penilaian yang menggunakan pendekatan penilaian acuan
norma, baik untuk soal yang mudah maupun sukar, cenderung menghasilkan tingkat
reliabilitas yang rendah. Hal ini disebabkan antara hasil tes yang mudah dengan hasil tes
yang sukar keduanya dalam satu sebaran skor yang terbatas. Untuk tes yang mudah, skor
akan berada dibagian atas dan akhir dari skala penilaian. Bagi kedua tes (mudah dan
sukar), perbedaan antar peserta didik kecil sekali dan cenderung tidak dapat dipercaya.
Tingkat kesukaran soal yang ideal untuk meningkatkan koefesien reliabilitas adalah soal
yang menghasilkan sebaran skor berbentuk genta atau kurva normal.
4) Objektivitas, menunjukkan skor tes kemampuan yang sama antara peserta didik yang satu
dengan peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama, maka
akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama. Objektivitas
prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi
oleh prosedur penskoran.
Konsep reliabilitas mendasari kesalahan pengukuran yang mungkin terjadi pada suatu
proses pengukuran atau pada nilai tunggal tertentu, sehingga menimbulkan perubahan pada
susunan kelompoknya. Misalnya, guru mengetes peserta didik dengan instrumen tertentu dan
mendapat nilai 70. Kemudian pada kesempatan yang berbeda dengan instrumen yang sama,
guru melakukan tes kembali, ternyata peserta didik tersebut mendapat nilai 75. Artinya, tes
tersebut tidak reliabel, karena terjadi kesalahan pengukuran. Tes yang reliabel adalah apabila
koefesien reliabilitasnya tinggi dan kesalahan baku pengukurannya rendah.
e. Validitas Tes
Validitas merupakan syarat yang penting dalam suatu alat evaluasi. Validitas berasal
dari kata validity, dapat diartikan tepat atau shahih, yakni sejauh mana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya.11 Beberapa kriteria dipilih
untuk memperlihatkan keefektifan terhadap peramalan performance yang akan datang (yang
akan terjadi), kriteria yang lain untuk menunjukkan status yang muncul, kriteria yang lain
lagi untuk menimbulkan sifat- sifat yang representatif dari luasnya isi atau tingkah laku, dan
kriteria yang lain lagi untuk (melengkapi) penyediaan data atau untuk menunjang atau
menolak beberapa teori psikologis. Sebagaimana dikemukakan oleh Scarvia B. Anderson

13
dalam bukunya.
Encyclopedia of Educational Evaluation disebutkan bahwa A test is valid it
measure what it purpose to measure (sebuah tes dikatakan valid apabila tes tersebut
mengukur apa yang hendak diukur). Validitas suatu instrumen evaluasi, tidak lain adalah
derajat yang menunjukkan di mana suatu tes mengukur apa yang hendak diukur. Validitas
suatu instrumen evaluasi mempunyai beberapa makna penting di antaranya sebagai berikut:
1) Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrumen evaluasi
untuk grup individual dan bukan instrumen itu sendiri.
2) Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup
kategori rendah,menengah, dan tinggi.
3) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh
para peneliti adalah bahwa ia hanya valid untuk suatu tujuan tertentu saja. Tes valid untuk
bidang studi metrologi industri belum tentu valid untuk bidang yang lain, misalnya
bidang mekanika teknik.
Validitas suatu alat evaluasi, bukanlah merupakan ciri yang absolut atau mutlak. Suatu
tes dapat memiliki validitas yang tinggi , sedang, rendah, tergantung kepada tujuannya.
Secara metodologis, validitas suatu tes dapat dibedakan menjadi empat macam, yaitu
validitas isi (content validity), validitas konstruk (construct validity), validitas konkuren
(concurrent validity), dan validitas prediksi (predictive validity).
Validitas isi artinya ketepatan daripada suatu tes dilihat dari segi isi tersebut. Suatu tes
hasil belajar dikatakan valid, apabila materi tes tersebut benar-benar merupakan bahan-bahan
yang representatif terhadap bahan-bahan pelajaran yang diberikan. Untuk mendapatkan
validitas isi memerlukan dua aspek penting, yaitu valid isi dam valid teknik sampling. Valid
isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi
menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan valid teknik
sampling pada umumnya berkaitan dengan bagaimanakah baiknya suatu sample item tes
mempresentasikan total cakupan isi.
Validasi konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah
konstruk sementara. Untuk menentukan adanya validitas konstruk suatu tes dikorelasikan
dengan suatu konsepsi atau teori, item-item dalam tes itu harus sesuai dengan ciri-ciri yang
disebutkan dalam konsepsi tadi, yaitu konsepsi tentang obyek yang akan dites. Untuk
mengetahui apakah suatu tes memenuhi syarat-syarat validitas konstruksi atau tidak maka
kita harus membandingkan susunan tersebut telah memenuhi syarat-syarat penyusunan tes
maka berarti tes tersebut memenuhi syarat validitas konstruksi, apabila tidak memenuhi

14
syarat-syarat penyusunan tes berarti tidak memenuhi validitas konstruksi. Proses melakukan
validasi konstruk dapat dilakukan dengan cara melibatkan hipotesis testing yang dideduksi
dari teori yang menyangkut dengan konstruk yang relevan.
Jika hasil suatu tes mempunyai korelasi yang tinggi dengan hasil dari suatu alat
pengukur lain terhadap bidang yang sama pada waktu yang sama pula, maka tes itu dikatakan
memiliki konkuren validity. Validitas ini lebih umum dikenal dengan validitas empiris.
Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika
istilah sesuai tentu ada dua hal yang dipasangkan dalam hal ini hasil tes dipasangkan
dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data
pengalaman tersebut sekarang sudah ada.
Memprediksi artinya meramal, dan meramal selalu mengenai hal yang akan datang
jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi apabila
mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan
mendatang. Jenis validitas ini menunjukkan kenyataan jika ujian yang dimaksud
dihubungkan dengan kriteria-kriteria tentang hasil karya atau kesuksesan di masa depan.
Demikianlah jika suatu tes bakat skolastik diberikan pada siswa-siswa SMU dikorelasikan
dengan prestasi mereka di perguruan tinggi, maka kenyataan yang diperoleh itu akan
menunjukkan validitas prediksi. Untuk menguji validitas empiris dapat digunakan jenis
statistika korelasi product moment, korelasi perbedaan peringkat atau korelasi diagram
pencar.
2. Moderen
Analisis butir soal secara moderen yaitu penelaahan butir soal dengan menggunakan
Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan suatu teori
yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab
benar suatu soal dengan kemampuan siswa. Nama lain IRT afalah latent trait theory (LTT)
atau characteristics curve theory (ICC). Asal mula IRT adalah kombinasi suatu versi hukum
phi-gamma dengan suatu analisis faktor butir soal (item faktor analisis) kemudian bernama
theory trait latent (LTT), kemudian sekarang secara umum dikenal menjadi teori jawaban
butir soal (Item Respnonse Theory)

IV. KESIMPULAN

Menganalisis butir soal merupakan suatu kegiatan yang harus dilakukan oleh guru
untuk meningkatkan mutu soal yang telah ditulis. Tujuan penelaahan adalah untuk mengkaji

15
dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal digunakan.
Dalam melaksanakan analisis butir soal, para penulis soal dapat menganalisis secara
kualitatif, dalam kaitannya dengan isi dan bentuknya, dan kuantitatif dalam kaitan dengan
ciri-ciri statistiknya . Ada beberapa teknik yang dapat digunakan untuk menganalisis butir
soal secara kualitatif, diantaranya teknik moderator dan teknik panel . Ada dua pendekatan
dalam analisis secara kuantitatif, yaitu pendekatan secara klasik dan moderen. Secara klasi
meliputi ; tingkat kesukaran, daya pembeda, fungsi pengecoh, reabilitas dan validitas.
Sedangkan secara moderen menggunakan IRT.

DAFTAR PUSTAKA

Anastasi. Anne and Urbina, Susana. (1997). Phychological Testing. (Seventh Edition). New
Jersey : Prentice-Hall,Inc
Arifin, Zaenal. 2009 Evaluasi Pembelajaran. Bandung : PT Remaja Rosdakarya
Arikunto, Suharsimi. Dasar-Dasar Evaluasi Pendidikan. Jakarta : PT Bumi Aksara. 2013
Kusaeri dan Suprananto. 2012. Pengukuran dan Penilaian Pendidikan. Jakarta : Graha Ilmu
Linn, Robert L and Gronlund, Norman E. (1995). Measurement and Assessment in teaching
(Seventh Edition). Ohio : Merril, an imprint of Prentice Hall
Nitko, Anthony J. (1996). Educational Assessment of Students, Second Edition. Ohio : Merril
an imprint of Prentice Hall Englewood Cliffs.
Sudaryono. 2012. Dasar-Dasar Evaluasi Pembelajaran. Jakarta : Graha Ilmu

16
17

Você também pode gostar