Você está na página 1de 55

MAKALAH

EVALUASI PEMBELAJARAN BIOLOGI

OLEH : KELOMPOK 3
1. Gamaliel Septian Airlanda (K4308017)
2. Ratih Dewi Puspitasari (K4308021)
3. Ana Listyaningrum (K4308024)
4. Evin Yofitawulansari (K4308034)
5. Novita Tyas Suviana (K4308046)
6. Risky Elyana (K4308051)
7. Siti Fatimah (K4308055)

PROGRAM STUDI PENDIDIKAN BIOLOGI


FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS SEBELAS MARET
SURAKARTA
2010
BAB I
PENDAHULUAN

A. LATAR BELAKANG
Setiap guru pasti memiliki keinginan agar dapat meningkatkan hasil belajar siswa
yang dibimbingnya. Setiap proses belajar mengajar, keberhasilannya diukur dari seberapa
jauh hasil belajar yang dicapai siswa. Hasil belajar merupakan indikator dari perubahan yang
terjadi pada individu setelah mengalami proses belajar mengajar, dimana untuk
mengungkapkannya menggunakan suatu alat penilaian yang disusun oleh guru,seperti tes
evaluasi. Hal ini dimaksudkan untuk mengetahui sejauh mana siswa tersebut memahami dan
mengerti pelajaran yang diberikan. Hasil belajar juga merupakan prestasi yang dicapai oleh
siswa dalam bidang studi tertentu, untuk memperolehnya menggunakan standar sebagai
pengukuran keberhasilan seseorang. Ada tiga jenis tipe hasil belajar yaitu tipe hasil belajar
kognitif, afektif dan psikomotor. Tipe hasil belajar kognitif lebih dominan daripada afektif
dan psikomotor karena lebih menonjol, namun hasil belajar psikomotor dan afektif juga harus
menjadi bagian dari hasil penilaian dalam proses pembelajaran di sekolah. Sehingga hasil
belajar dapat dipandang sebagai kemampuan-kemampuan yang dimiliki siswa setelah ia
menerima pengalaman belajarnya. Hasil belajar digunakan oleh guru untuk dijadikan ukuran
atau kriteria dalam mencapai suatu tujuan pendidikan. Hal ini dapat tercapai apabila siswa
sudah memahami belajar dengan diiringi oleh perubahan tingkah laku yang lebih baik lagi.
Dalam melakukan pengukuran hasil belajar, guru memerlukan adanya instrument
evaluasi. Untuk bahasan kali ini yang akan dibahas adalah tentang tes terutama tentang tes
tertulis. Tes berisi berbagai item atau serangkaiam tugas yang harus dikerjakan atau dijawab
oleh anak didik kemudian jawaban itu menghasilkan nilai tentang prestasi anak didik
tersebut. Tes tertulis terdiri dari dua jenis yaitu tes subjektif (uraian) dan tes objektif (pilihan
ganda, tes benar salah, isian, menjodohkan).
Dengan mempertimbangakan pentingnya tes dalam mengukur tingkat pemahaman
siswa maka dalam penyusunannya harus benar-benar diperhatikan karena tiap jenis tes
memiliki kelemahan dan kelebihan masing-masing. Selain itu, guru juga harus mengetahui
pedoman dalam mengembangkan tes dan pemberian skor.
B. TUJUAN
Tujuan dari penulisan makalah ini adalah sebagai berikut :
1. Mengetahui pengertian tes hasil belajar.
2. Mengetahui istilah-istilah dalam tes.
3. Mengetahui ciri-ciri tes yang baik.
4. Mengetahui bentuk-bentuk tes tertulis.
5. Mengetahui uji validitas.
6. Mengetahui uji reliabilitas.
BAB II
PEMBAHASAN

A. PENGERTIAN TES HASIL BELAJAR


Tes sebagai salah satu teknik pengukuran yang dapat didefinisikan A test will be
defined as a systematic procedure for measuring a sample of an individual’s behaviour
(Brown,1970:2). Definisi tersebut mengandung dua hal pokok yang perlu di perhatikan dalam
memahami makna tes, yaitu :
Pertama adalah kata systematic procedure yang artinya bahwa suatu tes harus
disusun, dilaksanakan (diadministrasikan) dan diolah berdasarkan aturan-aturan tertentu yang
telah ditetapkan. Sistematis di sini meliputi tiga langkah, yaitu:
a. Sistematis dalam isi
Artinya butir-butir soal (item) suatu tes hendaknya disusun dan dipilih berdasarkan
ruang lingkup yang akan dan harus diukur, sehingga tes tersebut tingkat validitasnya
dapat dipertanggungjawabkan.
b. Sistematis dalam pelaksanaan (administrasi)
Artinya tes itu hendaknya dilaksanakan dengan mengikuti prosedur dan kondisi yang
telah ditentukan.
c. Sistematis di dalam pengolahannya
Artinya data yang dihasilkan dari suatu tes diolah dan ditafsirkan berdasarkan aturan-
aturan dan tolok ukur (norma) tertentu.
Kedua adalah measuring of an individual’s is behaviour yang artinya bahwa tes itu
hanya mengukur suatu sampel dari suatu tingkah laku individu yang dites. Tes tidak dapat
mengukur seluruh (populasi) tingkah laku, melainkan terbatas pada isi (butir soal) tes yang
bersangkutan.
Tes berisi pertanyaan-pertanyaan yang harus dijawab atau dipecahkan oleh individu
yang dites (testee), sehingga disebut tes hasil belajar (achievement test). Hal ini sependapat
dengan seorang ahli yang menyatakan bahwa The type of ability test that describes what a
person has learned to do is called an achievement test (Thordike & Hagen, 1975:5).
Berdasarkan pendapat itu, tes hasil belajar biasanya terdiri dari sejumlah butir soal
yang memiliki tingkat kesukaran tertentu (ada yang mudah, sedang, dan sukar). Tes hasil
belajar ada 4 macam, yaitu diantaranya:
a. Tes formatif
Tes formatif dimaksudkan untuk memantau kemajuan belajar siswa selama proses
belajar belangsung, untuk memberikan balikan (feed back) bagi penyempurnaan
program belajar-mengajar, serta untuk mengetahui kelemahan-kelemahan yang
memerlukan perbaikan, sehingga hasil belajar mengajar menjadi lebih baik. Soal-soal
tes formatif ada yang mudah ada pula yang sukar, bergantung pada tugas-tugas belajar
(learning tasks) dalam program pembelajaran yang akan dinilai. Tujuan utama tes
formatif adalah untuk memperbaiki proses belajar, bukan untuk menentukan tingkat
kemampuan anak. Tes formatif sesungguhnya merupakan criterion-referenced test.
Tes formatif yang diberikan pada akhir satuan pelajaran sesungguhnya bukan sebagai
tes formatif lagi, sebab data-data yang diperoleh akhirnya digunakan untuk
menentukan tingkat hasil belajar siswa. Tes tersebut lebih tepat disebut sebagai subtes
sumatif. Jika dimaksudkan untuk perbaikan proses belajar, maka maksud itu baru
terlaksana pada jangka panjang, yaitu pada saat penyusunan program tahun
berikutnya.
b. Tes sumatif
Tes sumatif diberikan saat satuan pengalaman belajar dianggap telah sesuai. Tes
sumatif diberikan dengan maksud untuk menetapkan apakah seorang siswa berhasil
mencapai tujuan-tujuan instruksional yang telah ditetapkan atau tidak. Tujuan tes
sumatif adalah untuk menentukan angka berdasarkan tingkatan hasil belajar siswa
yang selanjutnya dipakai sebagai angka rapor. Ujian akhir dan ulangan umum pada
akhir semester termasuk ke dalam tes sumatif. Hasil tes sumatif juga dapat
dimanfaatkanuntuk perbaikan proses pembelajaran. Tes sumatif termasuk norm-
referenced test. Cakupan materinya lebih luas dan soal-soalnya meliputi tingkat
mudah, sedang dan sulit.
c. Tes penempatan (placement test)
Pada umumnya tes penempatan dibuat sebagai prates (pretes). Tujuan utamanya
adalah untuk mengetahui apakah peserta didik telah memiliki ketrampilan-
ketrampilan yang diperlukan untuk mengikuti suatu program belajr dan sampai di
mana peserta didik telah mencapai tujuan pembelajaran ( kompetensi dasar)
sebagaimana yang tercantum dalam Rencana Pelaksanaan Pembelajaran (RPP)
mereka. Dalam hubungan dengan tujuan yang pertama masalhnya berkaitan dengan
kesiapan siswa menghadapi program yang bari, sedangkan untuk yang kedua
berkaitan dengan kesesuaian program pembelajaran dengan siswa.
d. Tes diagnostik
Tes diagnostik dimaksudkan untuk mengetahui kesulitan belajar yang dialami peserta
didik berdasrkan hasil tes formatif sebelumnya. Tes diagnostik memerlukan sejumlah
soal untuk satu bidang yang diperkirakan merupakn kesulitan bagi para peserta didik.
Soal-soal tersebut bervariasi dan difokuskan pada kesulitan. Tes diagnostik biasanya
dialksanakan sebelum suatu pelajaran dimulai. Tes diagnostik diadakan untuk
manjajaki pengetahuan dan ketrampilan peserta didik yang telah dikuasai mereka,
apakah peserta didik sudah mempunyai pengetahuan dan ketrampilan tertentu yang
diperlukan untuk dapat mengikuti suatu bahan pelajaran lain. Oleh karena itu, tes
diagnostik semacam itu disebut juga test of entering behavior.
Perbandingan Tes Diagnostik, Tes Formatif, dan Tes Sumatif
Ditinjau Tes Diagnostik Tes Formatif Tes Sumatif
dari
Fungsinya mengelompokkan siswa Umpan balik bagi Memberi tanda telah
berdasarkan siswa, guru maupun mengikuti suatu
kemampuannya program untuk menilai program, dan
menentukan kesulitan pelaksanaan suatu unit menentukan posisi
belajar yang dialami program kemampuan siswa
dibandingkan dengan
anggota kelompoknya
cara Memilih tiap-tiap Mengukur semua Mengukur tujuan
memilih keterampilan prasarat, tujuan instruksional instruksional umum
tujuan Memilih tujuan setiap khusus
yang Programpembelajaran
dievaluasi secara berimbang
memilih yang
berhubungan dengan
tingkah laku fisik,
mental dan perasaan
Skoring menggunakan standar Menggunakan Menggunakan
(cara mutlak dan relatif standar mutlak standar relatif
menyekor)

B. ISTILAH-ISTILAH DALAM TES


Sebelum mengulas lebih jauh tentang tes, maka akan diterangkan terlebih dahulu
tentang beberapa istilah yang berhubungan dengan tes yaitu diantaranya :
1. Tes
Merupakan alat prosedur yang digunakan untuk mengetahui atau mengukur
suatu dalam suasana , dengan cara dan aturan-aturan yang sudah ditentukan . untuk
mengerjakan tes ini tergantung dari petunjuk yang diberikan .misalnya: melingkari
salah satu huruf didepan pilihan jawaban , menerangkan, mencoret jawaban yang
salah ,melakukan tugas atau suruhan ,menjawab secara lisan atau sebagainya.
2. Testing
Merupakan saat pada waktu tes itu dilaksanakan .dapat dikatakan testing itu
pengambilan tes
3. Testee
Responden yang sedang mengerjakan tes (orang-orang inilah yang akan dinilai
atau diukur , baik mengenai kemampuan ,minat ,bakat , pencapaian ,dsb)
4. Tester
Orang yang diserahi untuk melaksanakan pengambilan tes terhadap para
responden (tester adalah subjek evaluasi tetapi ada kalanya hanya orang yang ditunjuk
oleh subjek evaluasi untuk melakukan tugasnya)

C. CIRI-CIRI TES YANG BAIK


Sebuah tes yang baik sebagai alat pengukuran harus memenuhi persyaratan tes, yaitu
memiliki :
• Validitas
Tes yang baik harus valid atau memiliki validitas yang tinggi. Jika data yang
dihasilkan dari sebuah instrument valid maka dapat dikatakan bahwa instrument
tersebut valid, karena dapat menberikan gambaran data sesuai kenyataan.
• Reliabilitas
Reliabilitas diambil dari reability dalam bahasa inggris, berasal dari kata
reliable yang artinya dapat dipercaya / tetap. Tes dikatakan dapat dipercaya jika
memberikan hasil yang tetap saat diteskan berkali-kali. Jika dihubungkan dengan
validitas maka :
- Validitas adalah ketepatan
- Reabilitas adalah ketetapan
• Objektivitas
Objektif berarti tidak mengandung unsure pribadi yang mempengaruhi.
Sebuah tes dikatakan memiliki objektivitas jika dalam melaksanakan tes itu tidak ada
factor subyektif yang mempengaruhi. Hal ini terutama terjadi pada sistem scoringnya.
Apabila dikaitkan dengan reliabilitas maka objektivitas menekankan ketetapan pada
sistem penskorannya. Sedangkan reliabilitas menekankan ketetapan dalam hasil tes.
• Praktikabilitas
Sebuah tes dikatakan memiliki Praktikabilitas yang tinggi apabila tes tersebut
bersifat praktis, mudah pengadministrasiannya. Tes yang praktis adalah tes yang :
1. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang banyak dan
memberikan kebebasan kepada siswa untuk mengerjakan terlebih dahulu bagian
yang dianggap mudah oleh siswa.
2. Mudah pemeriksaannya, artinya bahwa tes itu dilengkapi dengan kuncu jawaban
maupun pedoman skoringnya.
3. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat diberiakn/diawali
oleh orang lain.
• Ekonomis
Artinya dalam pelaksanaan tes, tidak membutuhkan ongkos atau biaya yang
mahal, tenaga yang banyak, dan waktu yang lama.

D. BENTUK-BENTUK TES TERTULIS


Di sekolah sering sekali digunakan tes yang dibuat oleh guru (teacher made test)
untuk menilai kemajuan siswa dalam hal pencapaian yang dipelajari. Dalam hal ini dibedakan
dua bentuk tes yaitu sebagai berikut :
a. Tes Subjektif
Tes jenis ini pada umumnya berbentuk esai (uraian). Tes bentuk esai adalah sejenis
tes kemajuan belajar yang memerlukan jawaban yang bersifat pembahasan atau uraian kata-
kata. Ciri-ciri pertanyaannya adalah didahului dengan kata-kata seperti uraikan, jelaskan,
mengapa, bagimana, bandingkan, simpulkan dan sebagainya. Soal-soal bentuk esai biasanya
tidak berjumlah banyak hanya sekitar 5-10 buah soal dengan waktu kira-kira 90 sampai 120
menit. Soal-soal bentuk esai menuntut kemampuan siswa untuk dapat mengorganisir,
menginterpretasi, menghubungkan pengertian-pengertian yang telah dimiliki.
Jadi intinya, tes esai menuntut siswa untuk dapat mengingat-ingat dan mengenal
kembali, terutama harus memiiki daya kreativitas yang tinggi.
Kebaikan- kebaikannya :
• Mudah disiapkan dan disusun.
• Tidak memberi banyak kesempatan untuk berspekulasi atau untung-untungan.
• Mendorong siswa untuk berani mengemukakan pendapat serta menyusunnya dalam
kalimat yang bagus.
• Memberi kesempatan pada siswa untuk mengutarakan maksudnya dengan gaya
bahasa dan caranya sendiri.
• Dapat diketahui sejauh mana siswa memahami suatu maslah yang diteskan.
Kelemahan-kelemahannya :
• Kadar validitas dan reliabilitas rendah karena sukar diketahui segi-segi mana dari
pengetahuan siswa yang betul-betul telah dikuasai.
• Kurang representatif dalam hal mewakili seluruh jangkauan bahan pelajaran yang
akan dites karena soalnya hanya beberapa saja (terbatas).
• Cara memeriksanya banyak dipengaruhi oleh unsur-unsur subjektif.
• Pemeriksaannya lebih sulit karena membutuhkan pertimbangan individual lebih
banyak dari penilai.
• Waktu untuk koreksinya lama dan tidak dapat diwakilkan pada orang lain.
Petunjuk Penyusunan :
• Hendaknya soal-soal tes dapat meliputi ide-ide pokok dari bahan yang diteskan, dan
kalau mungkin disusun soal yang sifatnya komprehensif.
• Hendaknya soal tidak mengambil kalimat-kalimat yang disalin langsung dari buku atau
catatan.
• Pada waktu menyusun, soal-soal itu sudah dilengkapi dengan kunci jawaban serta
pedoman penilaiannya.
• Hendaknya diusahakan agar pertanyaannya bervariasi antara “Jelaskan”, “Mengapa”,
“Seberapa jauh”, agar dapat diketahui lebih jauh penguasaan siswa terhadap bahan.
• Hendaknya rumusan soal dibuat sedemikian rupa sehingga mudah dipahami.
• Hendaknya ditegaskan model jawaban apa yang dikehendaki oleh penyusun tes. Untuk
itu pertanyaanya tidak boleh terlalu umum namun harus spesifik.
Contoh :
Jelaskan perbedaan padi dan tikus ! (terlalu umum).
Seharusnya dispesifikkan menjadi :
Jelaskan perbedaan antara padi dan tikus dalam hal kedudukannya sebagai komponen
ekosistem !

b. Tes objektif
Tes objektif adalah tes yang dalam pemeriksaannya dapat dilakukan secara objektif.
Hal ini memang dimasukkan untuk mengatasi kelemahan-kelemahan dari tes bentuk esai.
Dalam tes objektif ini jumlah soal yang diajukan jauh lebih banyak daripada esai.
Kadang-kadang untuk tes yang berlangsung selama 60 menit dapat diberikan 30-40 buah
soal.
Kebaikan-kebaikannya :
• Mengandung lebih banyak segi-segi yang positif, misalnya lebih representatif mewakili
isi dan luas bahan, lebih objektif, dapat dihindari campur tangannya unsur-unsur
subjektif baik dari dari segi siswa maupun dari segi guru yang memeriksa.
• Lebih mudah dan cepat cara memeriksanya karena dapat menggunakan kunci tes
bahkan alat-alat hasil kemajuan teknologi.
• Pemeriksaannya dapat diserahkan orang lain.
• Dalam pemeriksaan, tidak ada unsur subjektif yang mempengaruhi.
Kelemahan-kelemahannya :
• Persiapan untuk menyusunnya jauh lebih sulit daripada tes esai karena soalnya banyak
dan harus teliti untuk menghindari kelemahan-kelemahan yang lain.
• Soal-soalnya cenderung untuk mengungkapkan ingatan dan daya pengenalan kembali
saja, dan sukar untuk mengukur proses mental yang tinggi.
• Banyakm kesempatan untuk main untung-untungan.
• “Kerjasama” antar siswa pada saat mengerjakan soal tes lebih terbuka.
Cara mengatasi Kelemahan :
• Kesulitan menyusun tes objektif dapat diatasi dengan jalan banyak berlatih terus
menerus hingga betul-betul mahir.
• Menggunakan tabekl spesifikasi untuk mengatasi kelemahan nomor satu dan dua.
• Menggunakan norma (standar) penilaian yang memperhitungkan faktor tebakan
(guessting) yang bersifat spekulatif.
Macam-Macam Tes Objektif
Ada beberapa macam jenis tes objektif diantaranya adalah sebagai berikut :
a. Tes Benar Salah (true-false)
Soalnya berupa pernyataan-pertanyaan (statement). Statement tersebut ada yang benar
dan ada yang salah. Orang yang ditanya bertugas untuk menandai masing-masing pernyaan
itu dengan melinkari huruf B jika pernyataan itu betul menurut pendapatnya dan melingkari
huruf S jika pernyataannya salah.
Contohnya :
-B-S Columba livia masuk ke dalam kelas Aves
Bentuk benar-salah ada 2 macam jika dilihat dari segi mengerjakan atau menjawab
soal, yaitu :
• Dengan pembetulan (with correction) maksudnya siswa diminta membetulkan bila ia
memilih jawaban yang salah.
• Tanpa pembetulan (without correction) maksudnya siswa hanya diminta melingkari
huruf B atau S tanpa memberikan jawaban yang betul.
Kebaikannya:
• Dapat mencakup bahan yang luas dan tidak banyak memakan tempat karena biasanya
pertanyaan-pertanyaannya singkat saja.
• Mudah menyusunnya.
• Dapat digunakan berkali-kali.
• Dapat dilihat secara cepat dan objektif.
• Petunjuk cara mengerjakannya mudah dimengerti.
Keburukannya:
• Sering membingungkan.
• Mudah ditebak/diduga.
• Banyak masalah yang tidak dapat dinyatakan hanya dengan dua kemunkinan benar
atau salah.
• Hanya dapat mengungkap daya ingatan dan pengenalan kembali.

Petunjuk benar dan salah :


• Tulislah huruf B-S pada permulaan masing-masing item dengan maksud untuk
mempermudah mengerjakan dan menilai (scoring).
• Usahakan agar jumlah butir soal yang harus dijawab B sama dengan yang harus
dijawab S. Hal ini hendaknya pola jawaban tidak bersifat teratur misalnya B-S-B-S-B-
S atau SS-BB-SS-BB.
• Hindari item soal yang masih bisa diperdebatkan.
• Hindarilah pertanyaan yang persis dengan buku.
• Hindarilah kata-kata yang menunjukkan kecenderungan memberi saran seperti yang
dikehendaki oleh item yang bersangkutan, misalnya tidak selalu, tidak pernah dan
sebagainya.
Cara mengolah skor :
Rumus untuk mencari skor akhir bentuk tes benar-salah ada 2 macam, yaitu :
1. Dengan denda
Rumus :

S=R-
W

Keterangan :
S = Skor yang diperoleh
R = right (jawaban benar)
W= wrong (jawaban salah)
Contoh :
Jumlah soal tes = 20
Jawaban benar = 16 dan jawaban salah = 4 buah. Maka skornya adalah 16-4 = 12.

2. Tanpa Denda
Rumus :

S=R

Yang dihitung hanya yang betul, untuk soal yang tidak dikerjakan dinilai nol.

b. Tes Pilihan Ganda (multiple choice)


Multiple choice test terdiri atas suatu keterangan atau pemberitahuan tentang suatu
pengertian yang belum lengkap, dan untuk melengkapinya harys memilih satu dari beberapa
kemungkinan jawabanyang telah disediakan.
Multiple choice test terdiri atas bagian keterangan (stem) dan bagian kemungkinan
jawaban atau alternatif jawaban (options). Kemungkinan jawaban (options) terdiri atas satu
jawaban yang benar dan beberapa pengecoh (distractor).
Penggunaan tes pilihan ganda
Tes bentuk pilihan ganda (PG) merupakan bentuk tes objektif yang paling banyak
digunakan karena banyak sekali materi yang dapat dicakup. Bentuk-bentuk soal yang
digunakan di dalam UAN maupun SPMB ada beberapa variasi :
1. Pilihan ganda biasa.
2. Hubungan antar hal (pernyataan - sebab - pernyataan).
3. Kasus (dapat muncul dalam berbagai bentuk).
4. Asosiasi, dengan petunjuk pilihan :
A. Jika (1), (2), dan (3) betul
B. Jika (1) dan (3) betul
C. Jika (2) dan (4) betul
D. Jika hanya (4) yang betul
E. Jika semua betul
Petunjuk penyusunan
Pada dasarnya, soal bentuk pilihan ganda ini adalah soal bentuk benar-salah juga
tetapi dalam bentuk jamak. Tercoba (testee)diminta membenarkan atau menyalahkan setiap
stem dengan tiap pilihan jawaban. Kemungkinan jawaban itu biasanya sebanyak tiga atau
empat buah, tetapi ada kalanya juga lebih banyak.
Hal-hal yang perlu diperhatikan dalam tes pilihan ganda
• Instruksi pengerjaannya harus jelas, lebih baik disertai contoh mengerjakannya.
• Dalam multiple choice test hanya ada satu jawaban yang benar. Jadi tidak mengenal
tingkatan-tingkatan benar.
• Kalimat pokok hendaknya mencakup dan sesuai dengan rangkaian manapun yang
dapat dipilih.
• Kalimat pada tiap butir soal hendaknya sesingkat mungkin.
• Usahakan menghindarkan penggunaan bentuk negatif dalam kalimat pokoknya.
• Kalimat pokok dalam setiap butir soal hendaknya tidak tergantung pada butir-butir
lain.
• Gunakan kalimat “manakah jawaban yang paling baik” atau “pilihlah satu yang pasti
lebih baik dari yang lain” bilamana terdapat lebih dari satu jawaban benar.
• Jangan membuang bagian pertama dari suatu kalimat.
Contoh : ...... merupakan hewan yang hidup di dua tempat.
• Dari segi bahasa, butir-butir soal jangan terlalu sukar.
• Tiap butir soal hendaknya hanya mengandung satu ide, meskipun ide tersebut dapat
kompleks.
• Bila dapat disusun urutan logis antar pilihan-pilihan, urutkanlah (misalnya: urutan
tahun, urutan alfabet dan sebagainya).
• Susunlah agar jawaban mana pun mempunyai kesesuaian tata bahasa dengan kalimat
pokoknya.
• Alternatif yang disajikan hendaknya agak seragam dalam panjangnya, sifat uraiannya
maupun taraf teknis.
• Alternatif-alternatif yang disajikan hendaknya agak bersifat homogen mengenai isinya
dan bentuknya.
• Buatlah alternatif pilihan ganda sebanyak empat. Bilamana terdapat kesukaran,
buatlah pilihan-pilihan tambahan namun jangan terlalu gampang diterka karena
bentuk dan isinya.
• Hindarkan adanya pengulangan kata atau pengulangan suara pada kalimat pokok di
alternatifnya karena akan membuat siswa menduga itulah jawabannya.
• Hindarkan menggunakan susunan kalimat dalam buku pelajaran, karena yang akan
terungkap bukan pengertiannya tapi hafalan siswa.
• Alternatif hendaknya jangan inklusif, tumpang siuh dan jangan sinonim.
• Jangan menggunkan kata-kata indikator seperti selalu, kadang-kadanga atau pada
umumnya.
Cara mengolah skor
Untuk mengolah skor dalam tes bentuk pilhan ganda ini digunakan 2 macam rumus
pula yaitu sebagai berikut :
1. Dengan denda
Rumus :
S=R–
W

O-1
Keterangan :
S = skor yang diperoleh (raw score)
R = jawaban betul
W = jawaban salah
O = banyaknya options
1 = bilangan tetap
Contoh :
Siswa menjawab betul 17 soal dari 20 soal multiple choice dengan menggunakan
options sebanyak 4 buah.
Skor = 17- (3/ (4-1)) = 16
2. Tanpa denda
Rumus ;

S=R

c. Menjodohkan (matching test)


Matching test dapat kita ganti dengan istilah mempertandingkan, mencocokkkan,
memasangkan atau menjodohkan. Matching test terdiri atas satu seri pertanyaan dan satu seri
jawaban. Masing-masing pertanyaan mempunyai jawabannya yang tercantum dalam seri
jawaban. Tugas siswa adalah mencari dan menempatkan jawaban-jawaban sehingga cocok
dengan pertanyaannya.
Contoh :
Pasangkanlah pertanyaan yang ada dilajur kiri dengan jawaban yang ada dilajur kanan
dengan cara memberikan anak panah pada jawaban yang sesuai !
a. Nukleus 1. Tempat sintesis protein dalam sel.
b. Lisosom 2. Organel yang mengatur semua kegiatan dalam sel.
c. Ribosom 3. Pemberi bentuk tetap pada sel tumbuhan.
d. Dinding sel 4. Organel untuk pencernaan dalam sel.
Cara menjawabnya adalah :
a. Nukleus 1. Tempat sintesis protein dalam sel.
b. Lisosom 2. Organel yang mengatur semua kegiatan dalam sel.
c. Ribosom 3. Pemberi bentuk tetap pada sel tumbuhan.
d. Dinding sel 4. Organel untuk pencernaan dalam sel.

Bentuk matching test ini dapat pula dipandang sebagai multiple choice berganda.

Petunjuk Penyusunan
Petunjuk-petunjuk yang perlu diperhatikan dalam menyusun tes bentuk matching adalah :
• Seri pertanyaan-pertanyaan dalam matching test hendaknya tidak lebih dari sepuluh
soal (item). Sebab pertanyaan yang banyak akan membingungkan murid. Juga
kemungkinan akan mengurangi homogenitas antara item-item itu. Jika itemnya cukup
banyak, lebih baik dijadikan dua seri.
• Jumlah jawaban yang harus dipilih, harus lebih banyak daripada jumlah soalnya (lebih
kurang 1 ½ kali). Dengan demikian murid dihadapkan pada banyak pilihan, yang
semua memiliki kemungkinan yang sama benarnya, sehingga murid terpaksa lebih
mempergunakan pikirannya.
• Antara item-item yang tergabung dalam satu seri matching test harus merupakan
pengertian yang benar-benar homogen.

Cara penskoran
Cara scoring :

S=R

Artinya skor terakhir dihitung jawaban yang benar saja.

d. Tes isian (completion test)


Completion test biasa kita sebut dengan istilah tes isian, tes menyempurnakan atau tes
melengkapi. Completion test terdiri atas kalimat-kalimat yang ada bagian-bagiannya yang
dihilangkan. Bagian yang dihilangkan tau yang harus diisi oleh murid ini adalah merupakan
pengertian yang kita minta dari murid.
Contoh :
- Tumbuhan mampu membuat makanan sendiri sehingga disebut sebagai organisme .....
- Hewan hanya mampu mengambil sumber makanan dari lingkungan dalam memenuhi
kebutuhannya, sehingga hewan disebut sebagai organisme .....
Ada juga completion test yang tidak berbentuk kalimat-kalimat pendek seperti di atas,
tetapi merupakan kalimat-kalimat berangkai dan memuat banyak isian.
Contoh :
Di dalam mulut, makanan mengalami pencernaan secara............ (1) dengan bantuan ............
(2) dan secara............. (3) dengan bantuan enzim..............(4). Setelah hancur, makanan di
telan melalui ...............(5) masuk ke dalam ..............(6) dan seterusnya.
Jawaban-jawaban tidak perlu ditulis di tempat yang dikosongkan, karena cara
demikian dapat menyulitkan pengoreksian. Tetapi perlu disediakan tempat tersendiri dengan
nomor urut ke bawah. Oleh karena itu, pada soal perlu diberi nomor seperti di atas.
Contoh lembar jawab :
1. .................................................................. .
2. ...................................................................
3. ...................................................................
4. ...................................................................
5. ...................................................................
Petunjuk Penyusunan
Saran-saran dalam menyusun tes bentuk isian adalah sebagai berikut :
• Perlu selalu diingat bahwa kita dapat merencanakan lebih dari satu jawaban yang
kelihatan logis.
• Jangan mengutip kalimat/pernyataan yang tertera pada buku/catatan.
• Diusahakan semua tempat kosong hendaknya sama panjang.
• Diusahakan hendaknya setiap pernyataan jangan mempunyai lebih dari satu tempat
kosong.
• Jangan mulai pertanyaan dengan tempat kosong.
Contoh : ............. adalah alat yang ditemukan oleh ..............

Cara Penskoran
Cara scoring :

S=R

Artinya skor terakhir dihitung jawaban yang benar saja.


Tes subjektif dan tes objektif digunakan pada saat-saat tertentu. Adapun persyaratan
penggunaanya adalah sebagai berikut :
a) Tes Subjektif
1. Kelompok yang akan di tes kecil, dan tersebut tidak digunakan berulang-ulang.
2. Tester (guru) ingin menggunakan berbagai cara untuk mengetahui kemampuan siswa
dalam bentuk tertulis.
3. Guru ingin mengetahui lebih banyak tentang sikap-sikap siswa daripada hasil yang
telah dicapai.
4. Memiliki waktu yang cukup banyak untuk menyusun tes.

b) Tes Objektif
1. Kelompok yang akan dites banyak dan tesnya akan digunakan lagi berkali-kali.
2. Skor yang diperoleh diperkirakan akan dapat dipercaya (mempunyai reliabilitas yang
tinggi).
3. Guru lebih mampu menyusun tes bentuk objektif daripada bentuk esai (uraian).
4. Hanya mempunyai waktu sedikit untuk koreksi dibandingkan dengan waktu yang
digunakan untuk menyusun tes.
Pada umumnya, guru seharusnya menggunakan dua macam bentuk tes ini dalam
perbandingan 3 : 1, yaitu 3 bagian untuk tes objektif dan 1 bagian untuk tes uraian.

E. UJI VALIDITAS
Mengevaluasi dapat diumpamakan sebagai pekerjaan memotert. Gambar potret atau
foto dikatakan baik apabila sesuai dengan aslinya (bukan lebih baik dari aslinya seperti yang
dikatakan oleh iklan foto). Gambar pemotretan hasil evaluasi tersebut di dalam kegiatan
evaluasi dikenal denagn data evaluasi. Data evaluasiyang baik sesuai dengan kenyataan
disebut data valid. Agar diperioleh data yang valid, instrument atau alat untuk
mengevaluasinya harus valid. Jika pernyataan tersebut dibalik, instrument evaluasi dituntut
untuk valid karena diinginkan dapat diperoleh data yang valid. Dengan kata lain, instrument
evaluasi dipersyaratkan valid agar hasil yang diperoleh dari kegiatan evaluasi valid.
1. Macam-macam Validitas
Didalam buku Encyclopedia of Educational Evaluation yang ditulis oleh
Scarvia B. Anderson dan kawan-kawan disebutkan:
A test is valid if it measures what it purpose to measure. Atau jika diartiakan lebih
kurang demikian: sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang
hendak diukur.
Sebenarnya pembicaraan validitas ini bukan ditekankan pada tes itu sendiri
tetapi pada hasil pengetesan atau skornya.
Contoh:
Skor yang diperoleh dari hasil mengukur kemampuan mekanik akan menunjukkan
kemampuan seseorang dalam memegang dan memperbaiki mobil, bukan pengetahuan
oaring tersebut dalam hal yang berkaitan dengan mobil. Tes yang mengukur
pengetahuan tentang mobil bukanlah tes yang sahih untuk mekanik.
Validitas sebuah tes dapat diketahui dari hasil pemikiran dan dari hasil
pengalaman. Hal yang pertama akan diperoleh validitas logis (logical validity) dan hal
yang kedua diperoleh validitas empiris (empirical validity). Dua hal inilah yang
dijadikan dasar pengelompokkan validitas tes.
Secara garis besar ada dua macam validitas, yaitu validitas logis dan validitas empiris.
a. Validitas logis
Istilah “validitas logis” mengandung kat “logis” berasal dari kata “logika”,
yang berarti penalaran. Dengan makna demikian maka validitas logis untuk
sebuah instrument evaluasi menunjuk pada kondisi bagi sebuah instrument yang
memenuhi persyaratan valid berdasarkan hasil penalaran. Kondisi valid tersebut
dipandang ter[penuhi karena instrument yang bersangkutan sudah dirancang
secara baik, mengikuti teori dan ketentuan yang ada. Sebagaimana pelaksanaan
tugas lain misalnya membuat sebuah karangan, jika penulis sudah mengikuti
aturan mengarang, tentu secara logis karangannya sudah baik. Berdasarkan
penjelasan tersebut maka instrument yang sudah disusun berdasarkan teori
penyusunan instrument, secara logis sudah valid. Dari penjelasan tersebut kita
dapat memahami bahwa validitas logis dapat dicapai apabilainstrumen disusun
mengikuti ketentuan yang ada. Dengan demikian, dapat disimpulkan bahwa
validitas logis tidak perlu diuji kondisinya tetapi langsung diperoleh sesudah
instrument tersebut selesai disusun.
Ada 2 macam validitas logis yang dapat dicapai oleh sebuah instrument,
yaitu: validitas isi dan validiats konstrak (construct validity). Validitas isi bagi
sebauh instrument menunjuk suatu kondisi sebuah instrument yang disusun
berdasarkan isi materi pelajaran yang di evaluasi. Selanjtnya validitas konstrak
sebuah instrument menunujuk suatu kondiusi sebuah instrument yang disusn
berdasarkan kontrak aspek-aspek kejiwaan yang seharusnya dievaluasi.
Penjelasan lebih kjauh tentang kedua jenis validitas logis ini akan diberikan
berturut-turut dalam membahas jenis-jenis validitas instrument mati.
b. Validitas empiris
Istilah “validitas empiris” memuat kata “empiris” yang artinya
“pengalaman”. Sebuah instrument dapat dikatakan memiliki validitas empiris
apabila sudah diuji dari pengalaman. Sebagai conyoh sehari-hari, seseorang
dapat diakaui jujr oleh masyarakat apabila dalam pengalaman dibuktikan bahwa
seseorang tersebut memang jujr. Contoh lain, seseorang dapat dikatakan kreatif
apabila dari pengalamn dibuktikan bahwa orang tersebut sudah banyak
menghasikan ide-ide baru yang diakui berbeda dari hal-hal yang sudah ada. Dari
penjelasan dan contoh-contoh tersebut diketahui bahwa validitas empiris tidak
dapat diperoleh hanya dengan menyusun instrument berdasarkan ketentuan
seperti halnya validitas logis, tetapi harus dibuktikan melalui pengalaman.
Ada 2 macam validiatas empiris, yakni ada dua cara yang dapat dilakukan
untuk menguji bahwa sebuah instrument memang valid. Pengujian tersebut
dilakukan dengan membandingkan kondisi instrument yang bersangkutan
dengan kriterium atau sebuah ukuran. Kriterium yang digunakan sebagai
pemabnding kondisi instrument dimaksud ada dua, yaitu: yang sudah tersedia
dan yang belum ada tetapi akan terjadi di waktu yang akan datang. Bagi
instrument yang kondisinya sesuai dengan kriterium yang suadh tersedia, yang
sudah ada, disebut memiliki validitas “ada sekarang”, yang dalam istilah bahsa
Inggris disebut memiliki concurrent validity. Selanjtnya instrument yang
kondisinya sesuai dengan kriterium yang diramalkan kan terjadi, disebut
memiliki validitas ramalan atau validitas prediksi, yang dalam istilah bahasa
Inggris disebut memiliki predictive validity.
Dari uraian adanya 2 jenis validiats, yakni validitas logis yang ada dua
macam, dan validitas empiris, yang juga ada dua macam, maka secara
keseluruhan kita mengenal adanya empat validitas, yaitu:
1. Validitas isi
2. Vailiditas konstrak
3. Validitas “ada sekarang”, dan
4. Validitas predictive
Penjelasan masing-masing validitas adalah sebagai berikut:
1. Validitas isi (content validity)
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan
khusus tertentu yang sejajar dengan materi atau isi pelajaran yang
diberikan. Oleh karena materi yang diajarkan tertera dalam kurikulum
maka validitas isi ini sering juga disebut validitas kurikuler.
Validitas isi dapat diusahakan tercapainya sejak saat penyusunan
dengan cara memrinci materi kurikulum atau materi buku pelajaran.
2. Validitas konstruksi (construct validity)
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir
soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti
yang disebutkan dalam Tujuan Instruksional Khusus. Dengan kata lain jika
butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan
aspek berpikir yang menjadi tujuan instruksional.
Sebagai contoh jika rumusan Tujuan Instruksional Khusus (TIK):
“Siswa dapat membandingkan antara efek biologis dan efek psikologis”,
maka butir soal pada tes merupakan perintah agar siswa membedakan
antara dua efek tersebut.
“Konstruksi” dalam pengertian ini bukanlah “susunan” seperti yang
sering dijumpai dalam teknik, tetapi merupakan rekaan psikologis yaitu
suatu rekaan yang dibuat oleh para ahli Ilmu Jiwa yang dengan sutau cara
tertentu “memerinci’ isi jiwa atas bebrapa aspek seperti: ingatan
(pengetahuan), pemahaman, aplikasiu, dan seterusnya. Dalam hal ini,
mereka menganggap seolah-olah jiwa dapat dibagi-bagi. Tetapi
sebenarnya tidak demikian. Pembagian ini hanya merupakan tindakan
sementara untuk mempermudah mempelajari.
Seperti halnya validitas isi, validitas konstruksi dapat diketahui dengan
cara memerinci dan memasangkan setiap butir soal dengan setiap aspek
dalam TIK. Pengerjaanya dilakukan berdasarkan logika, bukan
pengalaman. Dalam pembicaraan mengenai penyusunan tes hal ini akan
disinggung lagi.
3. Validitas “ada sekarang” (concurrent validity)
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes
dikatakan memiliki validitas empiris jika hasilnya sesuai dengan
pengalaman. Jika ada istilah “sesuai” tentu ada dua hal yang dipasangkan.
Dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman
selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut
sekarang sudah ada (ada sekarang, concurrent).
Dalam membandingkan hasil sebuah tes maka diperlukan suatu
kriterium atau alat banding. Maka hasil tes merupakan sesuatu yang
dibandingkan.
Misalnya seorang guru ingin mengetahui apakah tes sumatif yang disusun
sudah valid atau belum. Untuk ini diperlukan sebuah kriterium masa lalu
yang sekarang datanya dimiliki. Masalnya nilai ulangan harian atau nilai
ulangan sumatif yang lalu.
4. Validitas prediksi (predictive validity)
Memprediksi artinya meramal, dengan meramal selalu mengenai hal
yang akan datang, jadi sekarang belum terjadi. Sebuah tes dikatakan
memilki validitas prediski atau validitas ramalan apabila mempunyai
kemampuan untuk meramalkan apa yang akan terjadi pada masa yang
akan dating.
Misalnya tes masuk Perguruan Tinggi adalah sebuah tes yang
diperkirakan mampu meramalkan keberhasilan peserta tes dalam
mengikuti kuliah di masa yang akan dating. Calon yang tersaring
berdasarkan hasil tes diharapkan mencerminkan tinggi tentu menjamin
keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus tes
karena memilki nilai tes yang rendah jadi diperkirakan akan tidak mampu
mengikuti perkuliahan yang akan datang.
Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang
diperoleh setelah peserta tes mengikuti pelajaran di Perguruan Tinggi. Jika
ternyata siapa yang memilki nilai tes lebih tinggi gagal dalam ujian
semester I dibandingkan dengan yang dahulu nilai tesnya lebih rendah
maka tes masuk yang dimaksud tidak memilki validitas prediksi.
2. Cara Mengetahui Validitas Alat Ukur
Teknik yang digunakan untuk mengetahui kesejajaran adalah teknik korelasi product
moment yang dikemukakan oleh Pearson.
Rumus korelasi product moment ada dua macam, yaitu:
a. Korelasi product moment dengan simpangan, dan
b. Korelasi product moment dengan angka kasar.
Rumus korelasi product moment dengan simpangan;
rxy = ∑xy
√(∑x2) (∑y2)
Dimana:
rxy = koefisien korelasi antara variable X dan variable Y, dua variable yang
dikorelasikan 9x = X-X dan y = Y-Y)
∑xy = jumlah perkalian x dengan y
X2 = kuadrat dari x
Y2 = kuadrat dari y

Contoh perhitungan:
Misalnya akan menghitung validitas tes prestasi belajar matematika. Sebagai
kriterium diambil rata-rata ulangan yang akan dicari validitasnya diberi kode X dan
rata-rata nilai harian diberi kode Y. kemudian dibuat table persiapan sebagai berikut:

TABEL PERSIAPAN UNTUK MENCARI VALIDITAS


TES PRESTASI BIOLOGI
No Nama X Y X Y x2 y2 xy
1. Nadia 6,5 6.3 0 -0,1 0,0 0,01 0,0
2. Susi 7 6,8 +0,5 +0,4 0,25 0,16 +0,2
3. Cecep 7,5 7,2 +1,0 +0,8 1,0 0,64 +0,8
4. Erna 7 6,8 +0,5 +0,4 0,25 0,16 +0,2
5. Dian 6 7 -0,5 +0,6 0,25 0,36 -0,3
6. Asmara 6 6,2 -0,5 -0,2 0,25 0,04 +0,1
7. Siswoyo 5,5 5,1 -0,1 -1,3 1,0 1,69 +1,3
8. Jihad 6,5 6 0 -0,4 0,0 0,16 0,0
9. Yanna 7 6,5 +0,5 +0,1 0,25 0,01 +0,05
10. Lina 6 5,9 -0,5 -0,6 0,25 0,36 +0,3
Jumlah 65,0 63,8 3,5 3,59 2,65

X = ∑X = 65,0 = 6,5
N
Y = ZY = 63,8 = 6,38 dibulatkan 6,4
N
x=X–X
y=Y–Y
dimasukkan ke rumus:
rxy = ∑xy
√(∑x2) (∑y2)
= 2,65 = 2,65
√ 3,5 x 3,59 √ 12,565
= 2,65 = 0,748
3,545
Indeks korelasi anrara X dan Y inilah validitas soal yang dicari.
Rumus korelasi product moment dengan angka kasar:
rxy = N∑XY – (∑X) (∑Y)
√{N∑X2 – (∑X)2} {N∑Y2 – (∑Y)2}

Dimana:
rXY = koefisien korelasi antara variabel X dan variabel Y, variabel yang dikorelasikan.
Dengan menggunakan data hasil tes prestasi matematika diatas kini dihitung dengan rumus
korelasi product moment dengan angka kasar yang tabel persiapanya sebagai berikut.

TABEL PERSIAPAN UNTUK MENCARI VALIDITAS


TES PRESTASI BIOLOGI
No Nama X Y X2 Y2 XY
1 Nadia 6,5 6,3 42,25 39,69 40,95
2 Susi 7 6,8 49 46,24 47,6
3 Cecep 7,5 7,2 56,25 51,84 54,0
4 Erna 7 6,8 49 46,24 47,6
5 Dian 6 7 36 49 42
6 Asmara 6 6,2 36 38,44 37,2
7 Siswoyo 5,5 5,1 30,25 26,01 28,05
8 Jihad 6,5 6 42,25 45,5 39
9 Yanna 7 6,5 49 36 45,5
10 Lina 6 5,9 36 34,81 35,4
Jumlah 65,0 63,8 426,0 410,52 417,3

Dimasukkan kedalam rumus:


rxy = N∑XY – (∑X) (∑Y)
√{N∑X2 – (∑X)2} {N∑Y2 – (∑Y)2}

rxy = 10 x 417,3 – (65 x 63,8)


√(10 x 426 – 4225) (10 x 410,52 – 4070,44)

= 4173 – 4147
√(4260 - 4225) (4105,2 – 4070,44)
= 26 = 26
√35 x 34,76 √1216,6
= 26 = 0,745
34,8797

Jika, diperbandingkan dengan validitas soal yang dihitung dengan rumus simpangan,
ternyata terdapat perbedaan sebesar 0,33 lebih besar yang dihitung dengan rumus
simpangan. Hal ini wajar karena dalam mengerjakan perkalian atau penjumlahan jika
diperoleh 3 atau angka di belakang koma dilakukan pembulatan ke atas. Perbedaan ini
sangat kecil sehingga dapat diabaikan.
Untuk memperjelas pengertian tersebut dapat disampaikan keterangan sebagai berikut.
- Korelasi positif menunjukkan adanya hubungan sejajar antara dua hal. Misalnya hal
pertama nilainya naik, hal kedua ikut naik. Sebaiknya jika hal pertama turun.
Contih korelasi positif antara nilai IPA dan Biologi.
IPA : 2 3 5 7 4 3 2
Biologi : 4 5 6 8 5 4 3
Kondisi nilai matematika sejajar dengan IPA karena naik dan turunnya nilai
matematika mengikuti naik dan turunnya nilai IPA. Coba perhatikan.
- Korelasi negatif menunjukkan adanya hubungan kebalikan antara dua hal. Misalnya
hal pertama nilainya naik, justru yang kedua turun. Sebaliknya jika yang pertama
turun, yang kedua naik.
Contoh korelasi negatif antara nilai Bahasa Indonesia dengan Matematika.
Bahasa Indonesia : 5 6 8 4 3 2
Biologi : 8 7 5 1 2 3

Keadaan hubungan antara dua halyang kita jumpai dalam kehidupan sehari-hari tidak
selalu positif atau negatif saja, tetapi mungkin 0. Besarnya korelasi pun tidak menentu.
Coba cermatilah bagaimana hubungan antara dua nilai mata pelajaran A dan B berikut ini.
Contoh korelasi tidak tertentu.
NIlai A : 5 6 4 7 3 8 7
Nilai B : 4 4 3 7 4 9 4
Keadaan kedua nilai tersebut jika dihitung dengan rumus korelasi mungkin positif
mungkin negatif. Coba hitunglah!
Koefisien korelasi selalu terdapat antara -1,00 sampai +1,00. Namun karena dalam
menghitung sering dilakukan pembulatan angka-angka, sangat mungkin diperoleh
koefisien lebih dari 1,00. Koefisien negative menunjukkan hubungan kebalikan sedangkan
koefisien positif menunjukkan adanya kesejajaran untuk mengadakan interpretasi
mengenai besarnya koefisien korelasi adalah sebagai berikut:
» antara 0,800 samapi dengan 1,00 : sangat tinggi
» antara 0,600 sampai dengan 0,800 : tinggi
» antara 0,400 sampai dengan 0,600 : cukup
» antara 0,200 sampai dengan 0,400 : rendah
» antara 0,00 sampai dengan 0,200 : sangat rendah
Penafsiran harga koefisien korelasi ada dua cara yaitu:
 Dengan melihat harga r dan diinterpretasikan misalnya korelasi tinggi, cukup, dan
sebagainya.
 Dengan berkonsultasi ke table harga kritik r product moment sehingga dapat diketahui
signifikan tidaknya korelasi tersebut. Jika harga r lebih kecil dari harga kritik dalam
table, maka korelasi tersebut tidak signifikan. Begitu juga arti sebaliknya.
3. Validitas Butir Soal atau Validitas Item
Jika seorang peneliti atau seorang guru mengetahui bahwa validitas soal tes
misalnya terlalu rendah atau rendah saja, maka selanjutnya ingin mengetahui butir-
butir tes mankah yang menyebabkan soal secara keseluruhan tersebut jelek karena
memiliki validitas rendah. Untuk keperluan inilah dicari butir soal.
Pengertian umum untuk validitas item adalah demikian sebuah item dikatakan
valid apabila mempunyai dukungan yang besar terhadap skor total. Skor pada item
menyebabkan skor total menjadi tinggi atau rendah. Dengan kata lain dapat
dikemukakan di sini bahwa ssebuah item memiliki validitas yang tinggi jika skor pada
item mempunyai kesejajaran dengan skor total. Kesejajaran ini dapat diartikan dengan
korelasi sehingga untuk mengetahui validitas item digunakan rumus korelasi seperti
sudah diterangkan di atas.
Untuk soal-soal bentuk objektif skor untuk item biasa diberikan dengan 1
(bagi item yang dijawab benar) dan 0 (item yang dijawab salah), sedangkan skor total
selanjutnya merupakan jumlah dari skor untuk semua item yang membangun soal
tersebut.

Contoh perhitungan:
TABEL ANALISIS ITEM UNTUK PERHITUNGAN
VALIDITAS ITEM
Butir soal/item Skor
No Nama
1 2 3 4 5 6 7 8 9 10 total
1 Hartati 1 0 1 0 1 1 1 1 1 1 8
2 Yoyok 0 0 1 0 1 0 0 1 1 1 5
3 Oktaf 0 1 0 0 0 1 0 1 0 1 4
4 Wendi 1 1 0 0 1 1 0 0 1 0 5
5 Diana 1 1 1 1 1 1 0 0 0 0 6
6 Paul 1 0 1 0 1 0 1 0 0 0 4
7 Susana 1 1 1 1 1 1 1 0 0 0 7
8 Helen 0 1 0 1 1 1 1 1 1 1 8
Misalnya akan dihitung validitas item nomor 6, maka skor item tersebut
disebut variabel X dan skor total disebut variabel Y. selanjutnya perhitungan
dilakukan dengan menggunakan rumus korelasi product moment baik dengan rumus
simpangan maupun angka kasar.
Penggunaan kedua rumus tersebut masing-masing ada keuntungannya.
Menggunakan rumus simpangan angkanya kecil-kecil, tetapi kadang-kadang
pecahannya rumit. Jika skor rata-rata (mean)-nya pecahan, simpangannya cenderung
banyak pecahan. Mengalikan pecahan persepuluhan ditambah dengan tanda-tanda =
(plus) dan – (minus) kadang-kadang bias menyesatkan. Penggunaan rumus angka
kasar bilangannya besar-besar tapi bulat. Jika ada kalkulator statistic disarankan
menggunakan rumus angka kasar saja. Yang dibutuhkan hanyalah : ∑X, ∑Y, ∑X2,
∑Y2, dan ∑XY, tidak perlu membuat table seutuhnya.

Contoh perhitungan mencari validitas item


Untuk menghitung validitas item nomor 6, dibuat terlebih dahulu persiapannya
sebagai berikut.

No Nama X Y TABEL PERSIAPAN


1 Hartati 1 8 UNTUK MENGHITUNG
2 Yoyok 0 5 VALIDITAS ITEM NOMOR 6
3 Oktaf 1 3 Keterangan:
4 Wendi 1 5 X = skor aitem nomor 6
5 Diana 1 6
6 Paul 0 4
7 Susana 1 7
8 Helen 1 8
Y = skor total
Dari perhitungan kalkulator
diperoleh data sebagai berikut:
∑X = 6 Xt = 5,57
∑Y = 46 Xp = 6,17
∑XY = 37 p = 6 = 0,75
∑X2 = 6 8
∑Y2 = 288 q = 2 = 0,25
8
Sesudah diketahui ∑X, ∑X2, ∑Y, ∑Y2, dan ∑XY tinggal memasukkan bilangan-
bilangan tersebut ke dalam rumus korelasi product moment dengan rumus angka kasar.
Data diatas dimasukkan ke dalam rumus korelasi product moment dengan angka kasar
sebagai berikut:
rxy = N∑XY – (∑X) (∑Y)
√{N∑X2 – (∑X)2} {N∑Y2 – (∑Y)2}

rxy = 8 x 37 – 6 x 46
√(8 x 6 – 62) (8 x 288 – 462)

= 296 – 276
√(48 – 36) (2304 – 2116)
= 20 = 20
√12 x 188 √2256
= 20 = 0,421
47,497
Koefisian validitas item nomor 6 adalah 0,421. Dilihat secara sepintas bilangan ini
memang sesuai dengan kenyataannya. Hal ini dapat diketahui dari skor-skor yang tertera baik
pada item maupun skor total. Oktaf yang hanya memiliki skor total 3 dapat memperoleh skor
1 pada item, sedangkan Yoyok dan Wendi yang mempunyai skor total sama yaitu 5 skor pada
item tidak sama. Validitas item tersebut kurang meyakinkan. Tentu saja validitasnya tidak
tinggi.
Masih ada cara-cara lain untuk menghitung validitas item. Salah satu cara yang
terkenal adalah menggunakan rumus γpbi yang rumus lengkapnya adalah sebagai berikut:
γpbi = Mp – Mt √ p
St q
Keterangan:
γpbi = koefisien korelasi biserial
Mp = rerata skor dari subjek yang menjawab betul bagi item yang dicari validitasnya
Mt = rerata skor total
St = standart deviasi dari skor total
p = proporsi siswa yang menjawab benar
( p = banyaknya siswa yang benar )
Jumlah seluruh siswa
q = proporsi siswa yang menjawab salah
(q=1–p)
Apabila item 6 tersebut dicari validitasnya dengan rumus ini maka perhitungannya
melalui langkah sebagai berikut:
1. Mencari
Mp = 8 + 3 + 5 + 6 + 7 + 8 = 37 = 6,17
6 6
2. Mencari
Mt = 8 + 5 + 3 + 5 + 6 + 4 + 7 +8 = 48 = 5,75
8 8
3. Dari kalkulator diperoleh harga standar deviasi, yaitu σn = 1,7139 atau σn-1 = 1,8323.
Untuk n kecil, diambil standar deviasi yang σn = 1,7139.
4. Menentukan harga p, yaitu = 6 = 0,75
8
5. Menentukan harga q, yaitu = 2 = 0,25
8
Atau 1 – 0,75 = 0,25
6. Memasukkan ke rumus γpbi
γpbi = Mp – Mt √ p
St q
= 6,17 – 5,75 √ 0,75
1,7139 0,25
= 0,42 x 1,7321
1,7139
= 0,4244
Dari perhitungan validitas item 6 dengan dua cara ternyata hasilnya berbeda tetapi sangat
kecil yaitu 0,0034. Mungkin hal ini disebabkan karena adanya pembulatan angka.

4. Tes Terstandar sebagai Kriterium dalam Menentukan Validitas


Tes terstandar adalah tes yang telah dicobakan berkali-kali sehingga dapat
dijamin kebaikannya. Di Negara-negara berkembang biasa tersedia tes semacam ini,
dan dikenal dengan nama standardized test. Sebuah tes terstandar biasanya memiliki
identitas antara lain: sudah dicobakan berapa kali dan di mana, berapa koefisien
validitas, reliabilitas, taraf kesukaran, daya pembeda dan lain-lain keterangan yang
dianggap perlu.
Cara menentukan validitas soal yang menggunakan tes terstandar sebagai
kriterium dilakukan dengan mengalikan koefisien validiatas yang diperoleh dengan
koefisien validitas tes terstandar tersebut.
Contoh perhitungan:
TABEL PERSIAPAN PERHITUNGAN VALIDITAS
TES MATEMATIKA DENGAN KRITERIUM
TES TERSTANDAR MATEMATIKA
No Nama X Y X2 Y2 XY Keterangan
1 Nining 5 7 25 49 35
2 Maruti 6 6 36 36 36 X =hasil tes Matematika
3 Bambang 5 6 25 36 30 yang dicari validitasnya
4 Seno 6 7 36 49 42 Y = hasil tes terstandar
5 Hartini 7 7 49 49 49
6 Heru 6 5 36 25 30
Jumlah 35 38 207 244 222

Dimasukkan ke dalam rumus korelasi product moment dengan angka kasar sebagai
berikut:
rxy = N∑XY – (∑X) (∑Y)
√{N∑X2 – (∑X)2} {N∑Y2 – (∑Y)2}
rxy = 6 x 222 – 35 x 38
√(6 x 207 – 352) (6 x 244 – 382)
= 1332 – 1330
√(1242 – 1225) (1464 – 1444)
= 2 = 2
√17 x 20 √340
= 2 = 0,108
18,439
Jika seandainya dari tes terstandar diketahuio bahwa validitasnya 0,89 maka
bilangan 0,108 ini belum meruoakan validitas soal Matematika yang dicari. Validitas
tersebut harus dikalikan dengan 0,89 yang hasilnya 0,108 x 0,89 = 0,096

5. Validitas Faktor
Selain validitas soal secara keseluruhan dan validitas butir atau item masih ada
lagi yang perlu diketahui validitasnya, yaitu factor-faktor atau bagian keseluruhan
materi. Setiap keseluruhan materi pelajran terdiri dari pokok-pokok bahsan atau
mungkin sekelompok pokok bahasan yang merupakan satu kesatuan.
Contoh:
Guru akan menevaluasi penguasaan siswa untuk tiga pokok bahasan, yaitu:
Bunyi, Cahaya, dan Listrik. Untuk keperluan ini guru tersebut membuat 30
butir soal, untuk Bunyi 8 butir, untuk Cahaya 12 butir, dan untuk Listrik 10
butir.
Apabila guru ingin mengetahui validitas factor, maka ada 3 faktor dalam soal
ini. Seperti halnya pengertian validitas butir, pengertian validitas factor adalah sebagai
berikut; butir-butir soal dalam factor dakatakan valid apabila mempunyai dukungan
yang besar terhadap soal-sioal secara keseluruhan. Sebagai tanda bahwa butir-butir
factor tersebut mempunyai dukungan yang besar terhadap seluruh soal, yakni apabila
jumlah skor untuk butir-butir factor tersebut menunjukkan adanya kesejajaran dengan
skor total. Cara mengetahui kesejajaran tersebut digunakan juga rumus korelasi
product moment. Misalnya kita akan mengetahui validitas faktor I, yakni soal-soal
untuk bunyi, kita membuat daftar untuk menyejajarkan kedua skor tersebut sebagai
berikut.
TABEL UNTUK MENGHITUNG KESEJAJARAN
SKOR FAKTOR 1 DENGAN FAKTOR TOTAL
Nama Skor faktor 1 Skor total
X2 Y2 XY
subyek (X) (Y)
Amir 6 19 36 361 114
Hasan 7 25 49 625 175
Ninda 4 17 16 289 68
Warih 3 12 9 144 36
Irzal 8 29 64 841 232
Gandi 6 23 36 529 138
Santo 5 19 25 361 95
Tini 7 26 49 676 182
Yanti 5 16 25 256 80
Hamid 4 15 16 225 60
Dedi 7 26 49 676 182
Desi 8 30 64 900 240
Wahyu 5 20 25 400 100
Jumlah

Data yang tertera didalam table tersebut digunakan untuk menentukan besarnya
validitas faktor 1. Langkah selanjutnya adalah menjumlahkan setiap kolom, kemudian
dimasukkan kedalam reumus korelasi product moment. Harga r yang diperoleh
menunjukkan indeks valoditas faktor 1. Untuk faktor 2 dan faktor 3 caranya sama, hanya
skor faktornya saja yang diganti.

F. UJI RELIABILITAS
Sudah diterangkan dalam persyaratan tes, bahwa reliabilitas berhubungan dengan
masalah kepercayaan. Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang
tinggi jika tes tersebut dapat memberikan hasil yang tetap. Maka pengertian reliabilitas
tes, berhubungan dengan masalah ketetapan hasil tes. Atau seandainya hasilnya berubah-
ubah, perubahan yang terjadi dapat dikatakan tidak berarti.
Yang sering ditangkap kurang tepat bagi pembaca adalah adanya pendapat bahwa
“ajeg” atau “tetap” diartikan sebagai “sama”. Ajeg atau tetap tidak selalu harus sama,
tetapi mengikuti perubahan secara ajeg. Jika keadaan si A mula-mula berada lebih
rendah dibandingkan dengan B, maka jika diadakan pengukuran ulang si A juga berada
lebih rendah dari B. Itulah yang dikatakan ajeg atau tetap, yaitu sama dalam kedudukan
siswa di antara anggota kelompok yang lain. Tentu saja tidak dituntut semuanya tetap.
Besarnya ketetapan itulah menunjukkan tingginyha reliabilitas instrumen.
Sehubungan dengan reliabilitas ini, Searvia B Anderson dan kawan-kawan
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabilitas ini penting.
Dalam hal ini validitas penting, dan reliabilitas ini perlu karena menyokong terbentuknya
validitas. Sebuah tes mungkin reliabel tapi tidak valid. Sebaliknya, sebuah tes yang valid
biasanya reliabel.
Beberapa hal yang sedikit banyak mempengaruhi hasil tes banyak sekali. Namun
secara garis besar dapat dikelompokkan menjadi 3 hal:
a. Hal yang berhubungan dengan tes itu sendiri, yaitu panjang tes dan
kualitas butir-butir soalnya
Tes yang terdiri dari banyak butir, tentu saja lebih valid dibandingkan dengan tes yang
hanya terdiri dari beberapa butir soal. Tinggi rendahnya validitas menunjukkan tinggi
rendahnya reliabilitas tes. Dengan demikian maka semakin panjang tes, maka
reliabilitasnya semakin tinggi. Dalam menghitung besarnya reliabilitas berhubung
dengan penambahan banyaknya butir soal dalam hal ini ada sebuah rumus yang
diberikan oleh Spearman dan Brown sehingga terkenal dengan rumus Spearman-
Brown. Rumusnya adalah:

dimana :
rnn = besarnya koefisien realibilitas sesudah tes tersebut ditambah butir soal baru
n = berapa kali butir-butir soal itu ditambah
r = besarnya koefisien reliabilitas sebelum butir-butir soalnya ditambah
contoh :
Suatu tes terdiri atas 40 butir soal, mempunyai koefisien reliabilitas 0,70.
Kemudian butir-butir soal itu ditambah menjadi 60 butir soal. Maka koefisien
reliabilitas baru adalah:

Dengan demikian maka penambahan sebanyak 20 butir soal dari 40 butir,


memperbesar koefisien reliabilitas sebesar 0,09. Akan tetapi penambahan butir-butir
soal tes ada kalanya tidak berarti, bahkan adakalanya merugikan. Hal ini disebabkan
karena :
1. Pada suatu batas tertentu, penambahan banyaknya butir soal sudah tidak
menambah tinggi reliabilitas tes.
Rammers dan Gage menggambarkan hubungan antara penambahan butir soal
reliabilitas sebagai berikut:
2. Penambahan tingginya reliabilitas tes tidak sebanding nilainya dengan waktu,
biaya, dan tenaga yang dikeluarkan untuk itu. Misalnya guru sudah cukup
membuat 100 soal bentuk objektif dan 10 soal bentuk esai sudah cukup
mempunyai validitas isi dan tingkah laku. Guru tersebut ingin menambah butir-
butir soal sehingga menjadi 200 dan 20 dengan menambahkan soal-soal yang
paralel. Tentu saja hal ini akan menambah waktu, biaya, dan tenaga saja tanpa ada
keuntungan apa-apa. Kualitas butir-butir soal ditentukan oleh :
a. Jelas tidaknya rumusan soal
b. Baik tidaknya pengarahan soal kepada jawaban sehingga tidak
menimbulkan salah jawab.
c. Petunjuknya jelas sehingga mudah dan cepat dikerjakan.

b. Hal yang berhubungan dengan testee/ tercoba


Suatu tes yang dicobakan kepada kelompok yang terdiri dari banyak siswa akan
mencerminkan keragaman hasil yang menggambarkan besar-kecilnya reliabilitas tes.
Tes yang dicobakan kepada bukan kelompok terpilih, akan menunjukkan reliabilitas
yang lebih besar daripada yang dicobakan pada kelompok tertentu yang diambil
secara dipilih.

c. Hal yang berhubungan dengan penyelenggaraan tes


Sudah disebutkan bahwa faktor penyelenggaraan tes yang bersifat administratif sangat
menentukan hasil tes.
Contoh :
a. Petunjuk yang diberikan sebelum tes dimulai, akan memberikan ketenangan
kepada testee dalam mengerjakan tes, dan dalam penyelenggaraan tidak akan
banyak terdapat pertanyaan. Ketenangan ini akan mempengaruhi hasil tes.
b. Pengawas yang tertib akan mempengaruhi hasil yang diberikan oleh siswa
terhadap tes. Bagi siswa tertentu, pengawas yang terlalu ketat menyebabkan rasa
jengkel dan tidak leluasa mengerjakan tes.
c. Suasana lingkungan dan tempat tes (duduk tidak teratur, suasana sekeliling ramai,
dsb) akan mempengaruhi hasil tes.
Adanya hal yang mempengaruhi hasil tes akan mempengaruhi reliabilitas soal
secara tidak langsung.

1. Cara- Cara Mencari Besarnya Reliabilitas


a. Metode bentuk Paralel (equivalent)
Tes paralel atau tes ekuivalen adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran dan susunan, tetapi butir –butir soalnya berbeda. Dalam
istilah bahasa Inggris disebut alternate-forms method (parallel forms).
Dengan metode bentuk paralel ini, dua buah tes yang paralel, misal tes
matematika seri A yang akan dicari reliabilitasnya dan tes seri B diteskan kepada
sekelompok siswa yang sama, kemudian hasilnya dikorelasikan. Koefisien
korelasi dari kedua hasil tes menunjukkan koefisien reliabilitas tes seri A. Jika
koefisiennya tinggi maka tes sudah reliabel dan dapat digunakan sebagai alat
pengetes yang terandalkan.
Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan dua
buah tes, dan masing-masing dicobakan pada kelompok siswa yang sama. Oleh
karena itu ada yang menyebutkan double-tes-double-trial-method. Penggunaan
metode ini baik karena siswa dihadapkan pada dua macam tes sehingga tidak ada
faktor “mengingat soalnya” yang dalam evaluasi disebut adanya “practice effect
dan carry-over effect, artinya ada faktor yang dibawa oleh pengikut tes karena
sudah mengerjakan tes tersebut.
Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena
harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk
mencobakan dua kali tes.
b. Metode tes Ulang (test-retest method)
Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu seri
tes tapi diujikan dua kali. Karena tesnya hanya satu dan diujikan dua kali, maka
metode ini disebut dengan single-tes-double-trial-method. Kemudian hasil dari
kedua kali tes tersebut dihitung korelasinya.
Cara ini kurang mengena untuk tes yabg banyak mengungkap pengetahuan
(ingatan). Cara ini kurang mengena karena tercoba akan masih ingat dengan
butir-butir soalnya. Untuk itu, tenggang waktu tes pertama dan kedua menjadi
permasalahan. Jika tenggang waktu terlalu sempit, siswa masih banyak ingat
materi. Jika waktu tenggang terlalu lama, faktor atau kondisi tes sudah akan
berbeda, dan siswa sendiri barangkali sudah mempelajari sesuatu. Faktor-faktor
ini akan mempengaruhi reliabilitas.
Contoh :
Tes pertama Tes kedua
Siswa
Skor Ranking Skor Ranking
A 15 3 20 3
B 20 1 25 1
C 9 5 15 5
D 18 2 23 2
E 12 4 18 4
Walaupun tampak skornya naik, tapi kenaikan dialami oleh semua siswa.
c. Metode belah dua atau split-half method
Kelemahan penggunaan metode dua-tes-dua-kali percobaan dan satu-tes-dua-
kali percobaan diatasi dengan metode ketiga ini yaitu metode belah dua. Dalam
menggunakan metode ini pengetes hanya menggunakan sebuah tes dan dicobakan
satu kali.
Berbeda dengan metode pertama dan metode kedua yang setelah diketemukan
koefisien korelasi langsung ditafsirkan itulah koefisien reliabilitas, maka dengan
metode ketiga ini tidak dapat demikian. Pada waktu membelah dua dan
mengkorelasikan dua belahan, baru diketahui reliabilitas separo tes. Untuk
mengetahui reliabilitas seluruh tes harus digunakan rumus Spearman-Brown
sebagai berikut:
Contoh :

r 11 = 2 r1/21/2
(1+ r1/21/2)
Dimana :
r 1/21/2 =korelasi antara skor-skor setiap belahan tes
r 11 = koefisien reliabilitas yang sudah disesuaikan
contoh :

korelasi antara belahan tes 0,60. Maka reliabilitas tes =

ada dua cara membelah butir soal ini yaitu:


1. Membelah atas item-item genap dan item-item ganjilyang selanjutnya disebut
belahan ganjil-genap, dan
2. Membelah atas item-item awal dan item-item akhir yaitu separo jumlah pada
nomor-nomor awal dan separo pada nomor-nomor akhir yang selanjutnya disebut
belahan awal-akhir.
Contoh perhitungan reliabilitas dengan metode belah dua
Langkah pertama yang harus dilakukan adalah mengadakan analisis butir soal/
analisis item. Item yang dapat dijawab dengan benar diberi skor dan yang salah diberi
skor 0. Skor-skor untuk seluruh subjek dan seluruh item ini diterakan dalam tabel
berikut:
TABEL ANALISIS ITEM
TES BIOLOGI

NOMOR ITEM SKOR 1,3,5,7,9 2,4,6,8,10 1,2,3,4,5 6,7,8,9,10


NO NAMA
1 2 3 4 5 6 7 8 9 10 TOTAL GANJIL GENAP AWAL AKHIR
1 ratih 1 0 1 0 1 1 1 1 1 1 8 5 3 3 5
2 winda 0 0 1 0 1 0 0 1 1 1 5 3 2 2 3
3 desy 0 1 0 0 0 1 0 1 0 1 4 0 4 1 3
4 wendi 1 1 0 0 1 1 0 0 1 0 5 3 2 3 2
5 diana 1 1 1 1 1 1 0 0 0 0 6 3 3 5 1
6 ika 1 0 1 0 1 0 1 0 0 0 4 4 0 3 1
7 ria 1 1 1 1 1 1 1 0 0 0 7 4 3 5 2
8 mia 0 1 0 1 1 1 1 1 1 1 8 3 5 3 5

1. Pembelahan ganjil-genap
Tabel persiapan perhitungan reliabilitas dengan belah dua ganjil-genap adalah sbb:
item ganjil item genap
NO NAMA (1,3,5,7,9) (2,4,6,8,10)
(x) (y)
1 ratih 5 3
2 winda 3 2
3 desy 0 4
4 wendi 3 2
5 diana 3 3
6 ika 4 0
7 ria 4 3
8 mia 3 5
Kelanjutan dari tabel ini adalah menghitung dengan korelasi product moment.
Dengan menggunakan kalkulator diketahui bahwa :
∑x =25, ∑x2=93
∑y=22, ∑y2=76
∑xy=63
Setelah dihitung dengan rumus korelasi product moment dengan angka kasar
diketahui bahwa rxy = -0,3786. Harga tersebut baru menunjukkan reliabilitas separo
tes. Oleh karena itu rxy untuk belahan ini disebut dengan istilah r 1/21/2 atau rgg ,
singkatan dari r ganjil-genap . Untuk mencari reliabilitas seluruh tes digunakan rumus
Spearman-Brown yang rumusnya telah dirumuskan di depan. Jika koefisien
reliabilitas separo tes ini dimasukkan ke dalam rumus hitungannya:

*)pengurangan merupakan bilangan dengan harga mutlak, jadi tidak mengenal negatif
2. Pembelahan awal-akhir
Dengan data yang tertera pada tabel analisis item tes matematika diketahui jumlah
skor belahan awal-akhir sebagai berikut:
item awal item akhir
NO NAMA (1,2,3,4,5) (6,7,8,9,10)
(x) (y)
1 ratih 3 5
2 winda 2 3
3 desy 1 3
4 wendi 3 2
5 diana 5 1
6 ika 3 1
7 ria 5 2
8 mia 3 5
Seperti halnya pada waktu menghitung dengan belahan ganjil-genap maka
kelanjutannya adalah menghitung dengan rumus korelasi product moment.
Dengan menggunakan kalkulator diketahui
∑x =25, ∑x2=93
∑y=22, ∑y2=76
∑xy=63
Setelah dimasukkan ke dalam rumus korelasi product moment dengan angka kasar
diperoleh r1/21/2= -0,3831. Dengan rumus Spearman-Brown diperoleh r11 = -0,5538
Selain menggunakan rumus korelasi product moment, dua orang ahli mengajukan rumus lain.
Seorang bernama Flanagan menemukan rumus yang perhitungannya menggunakan belah
dua ganjil-genap, dan seorang lagi bernama Rulon yang rumusnya diterapkan pada data
belahan awal-akhir.
3. Penggunaan rumus Flanagan

Rumus : )

Dimana:
r11 = reliabilitas tes
varians belahan pertama (1) yang dalam hal ini varians skor item ganjil
varians belahan kedua (2) yaitu varians skor item genap
varians total yaitu varians skor total
Secara sederhana dapat dipahami bahwa varians adalah standar deviasi kuadrat.
Dengan demikian bagi peminat yang menghitung dengan kalkulator statistik varians ini
diperoleh dengan mengkuadratkan standar deviasi. Untuk yang tidak menggunakan
kalkulator statistik maka varians dapat dicari dengan rumus:

Dimana
S2=varians
X = simpangan x dari ̄x yang dicari dari x-
N = banyaknya subjek pengikut tes
Berdasarkan data tabel belahan ganjil-genap perhitungannya adalah sebagai berikut:
(diambil dari tabel yang ada skor total)
Dimasukkan ke dalam rumus diperoleh :

= -2 (1-1,609)
= -1,218

4. Penggunaan rumus Rulon

Rumus :

Dimana
varians beda
d = difference, yaitu perbedaan antara skor belahan pertama (awal) dengan skor
belahan kedua (akhir)
untuk memperjelas keterangan maka tabel belahan awal –akhir dikutip disini lagi.

NO NAMA awal Akhir d

1 ratih 3 5 -2
2 winda 2 3 -1
3 desy 1 3 -2
4 wendi 3 2 1
5 diana 5 1 4
6 ika 3 1 2
7 ria 5 2 3
8 mia 3 5 -2

Dengan hitungan biasa atau kalkulator diketahui bahwa ∑d=3 dan ∑d2=43
Dari perhitungan terdahulu diketahui :
Varians total : 2,75

= = 5, 234

Dimasukkan ke dalam rumus Rulon

Dari perhitungan dengan rumus Flanangan maupun Rulon ternyata hasilnya sama,
keduanya lebih besar dari 1,00. Secara teoritik koefisien ini salah tetapi karena pembulatan-
pembulatan dalam perhitungan, seperti dijelaskan di depan, hasil seperti ini dapat saja terjadi.
Telah disinggung di bagian depan bahwa salah satu syarat untuk dapat menggunakan metode
belah dua adalah bahwa banyaknya item harus genap agar dapat dibelah. Syarat yang kedua
item-item yang membentuk soal tes harus homogen atau paling tidak setelah dibelah terdapat
keseimbangan antara belahan pertama dengan belahan kedua.
Untuk mengatasi kesulitan memenuhi persyaratan ini maka reliabilitas dapat dicari
dengan rumus yang diketemukan oleh Kuder dan Richardson. Kedua orang ahli ini
menemukan banyak rumus yang diberi nomor. Rumus yang digunakan untuk mencari
reliabilitas dan banyak digunakan orang ada dua rumus, yaitu rumus K-R. 20 dan K-R. 21.
5. Penggunaan Rumus K-R. 20
Rumus :

r11 = reliabilitas tes secara keseluruhan


p = proporsi subjek yang menjawab item dengan benar
q = proporsi subjek yang menjawab item dengan salah (q=1-p)
∑pq=jumlah hasil perkalian antara p dan q
N = banyaknya item
S = standart deviasi dan tes (standar deviasi adalah akar varians)

Untuk memberikan contoh perhitungan mencari reliabilitas yang menggunakan rumus


K-R. 20 ini dibuatkan tabel analisis item yang lain
no nama nomor item skor
1 2 3 4 5 6 7 total
1 wardoyo 1 0 1 1 1 1 0 5
2 benny 0 1 1 0 1 1 1 5
3 hanafi 0 0 0 0 1 0 1 2
4 rahmad 0 1 1 1 1 1 1 6
5 tanti 1 0 0 0 1 0 0 2
6 nadia 0 1 1 1 1 0 0 4
7 tini 0 0 0 1 1 1 0 3
8 budi 0 1 0 1 1 0 0 3
9 daron 0 1 0 1 1 0 0 3
10 yakob 0 0 0 1 1 0 0 2
1
Np 2 5 4 7 4 3 35
0
0, 0, 0, 0, 0,
P 0,4 1
2 5 7 4 3
0, 0, 0, 0, 0,
Q 0,6 0
8 5 3 6 7
0, 0, 0,2 0, 0, 0,
pq 0 1,31
2 3 4 2 2 2

Dimasukkan ke dalam rumus K-R. 20

= 0,3415 dibulatkan menjadi 0,342

6. Penggunaan Rumus K-R. 21


Rumus K-R. 21

Dimana:
M = mean atau rerata skor

= 1,17 x 0,0541
= 0,06329 dibulatkan menjadi 0,0633
Jika dibandingkan dengan reliabilitasy yang dihitung dengan K-R. 20 dan K-R. 21
lebih besar yang pertama. Memang menggunakan rumus K-R. 20 cenderung memberi
hasil lebih tinggi tapi lebih rumit.

7. Penggunaan Rumus Hoyt


Rumus :

atau

Keterangan :
r 11 = reliabilitas seluruh soal
Vr = varians responden
Vs = varians sisa

Contoh perhitungan mencari reliabilitas :


TABEL ANALISIS ITEM
nomor item kuadrat
skor
no nama skor
1 2 3 4 5 6 total
total
1 A 10 6 8 8 10 10 52 2704
2 B 6 4 4 6 6 5 31 961
3 C 8 2 6 8 7 8 39 1521
4 D 7 3 7 7 6 6 36 1296
5 E 0 5 3 2 4 4 18 324
6 F 2 4 2 8 6 8 30 900
7 G 4 3 6 6 6 6 31 961
8 H 5 5 5 7 7 7 36 1296
9 I 5 5 4 6 8 5 33 1089
10 J 3 6 3 4 6 6 28 784
JUMLAH 50 43 48 62 66 65 334 11836
JUMLAH
328 201 264 418 458 451 2120
KUADRAT

2120 = jumlah dari jumlah kuadrat tiap skor


11836 = jumlah kuadrat skor total
Dengan data yang tertera dalam tabel, dicari varians tiap-tiap item dahulu baru
dijumlahkan
Rumus varians =

= 7,8

= 1,61

= 3,36

= 3,36

= 2,24

= 2,85

Jumlah varians semua item : 7,8+ 1,61+3,36+3,36+2,24+2,85= 21,22

Varians total = 68,04

Dimasukkan ke dalam rumus alpha :

Dengan diperolehnya koefisien korelasi yakni r11 sebenarnya baru diketahui tinggi
rendahnya koefisien tersebut. Lebih sempurnanya penghitungan reliabilitas sampai pada
kesimpulan, sebaiknya hasil tersebut dikonsultasikan pada tabel r product moment , yang
dibahas lebih lanjut pada buku penelitian.

G. ANALISIS ITEM SOAL


1. Tingkat Kesukaran (Dificulty Index)
Soal yang baik adalah soal yang disusun mengikuti k aidah langkah langkah
penyusunan tes. Oleh karena itu sebuah tes yang sudah disusun masih harus dibuktikan
sejauh manakah kualitas sebuah tes. Salah satu kriteria yang digunakan adalah tingkat
kesukaran soal ( dificulty index). Tingkat kesukaran soal dinyat akan dengan angka yang
mempunyai rentang nilai 0,00 sampai dengan 1,00. Namun yang perlu diingat adalah bahwa
semakin tinggi nilai indeks tingkat kesukaran berarti soal semakin mudah, bukan sebaliknya.
Hal ini disebabkan indeks tingkat kesukaran diperoleh dari hasil perhitungan banyaknya
siswa (testee) yang mampu menjawab dengan benar dibagi dengan banyaknya testee yang
mengerjakan item soal tersebut. Dengan demikian tingkat kesukaran dapat dirumuskan
sebagai berikut:

p = nb
N
Keterangan:
p = indeks tingkat kesukaran
nb = banyaknya siswa yang menjawab item dengan benar
N = banyaknya siswa yang menjawab item
Sebagai contoh, dalam sebuah tes yang terdiri dari 50 item soal diikuti oleh 60 siswa
diperoleh data bahwa item soal no 1 da pat dijawab dengan benar oleh 12 siswa, soal no 2
dijawab dengan benar oleh 45 siswa. Berdasarkan data ini maka dapat dihitung besarnya
indeks tingkat kesukaran sebagai berikut.
Untuk soal no 1, nb = 12 --> p = 12/60 = 0,20
Untuk soal no 2, nb = 45 --> p = 45/60 = 0,75
Dari contoh ini, dapat disimpulkan bahwa soal no 1 lebih sulit dibandingkan dengan
soal nomor 2. Jika hanya membandingkan sesama nilai indeks tingkat kesukaran item satu
dengan yang lainnya, maka kita belum dapat memberikan keputusan tentang kualitas sebuah
item soal. Oleh karena itu dibutuhkan standar untuk memberikan penilaian terhadap nilai
indeks kesukaran.
Robert L Thorndike dan Elizabeth Hagen (dalam Sudjiono, 2005) memberikan
batasan kriteria indeks tingkat kesukaran sebagai berikut.
Besarnya Nilai Interpretasi
p
Kurang dari Terlalu sukar
0,30
0,30 – 0,70 Cukup (sedang)
Lebih dari 0,70 Terlalu mudah

Batasan lain diberikan oleh Wit herington sebagai berikut.


Besarnya Nilai p Interpretasi
Kurang dari 0,25 Terlalu sukar
0, 25 – 0,75 Cukup (sedang)
Lebih dari 0,75 Terlalu mudah
Dari kedua pendapat di atas yang paling banyak digunakan adalah pendapat pertama
yaitu pendapat Robert L Thorndike dan Elizabeth Hagen. Dengan demikian jika pada contoh
di atas dikonsultasikan dengan kriteria yang sudah ada dapat diinterpret asikan bahwa soal no
1 termasuk soal yang terlalu sukar sedangkan soal no 2 termasuk dalam kategori sedang.

2. Daya Pembeda Item Soal (Discriminatory Power)


Daya pembeda soal adalah kemampuan suatu butir soal untuk membedakan atau
mendeskriminasikan teste e yang berkemampuan tinggi dengan testee yang berkemampuan
rendah. Soal yang baik tentu saja adalah soal yang mampu membedakan testee yang
berkemampuan tinggi (pandai) dengan testee yang berkemampuan rendah (bodoh). Jika
sebuah soal mempunyai daya pembeda soal yang baik maka testee yang pandai akan lebih
banyak yang mampu menjawab soal dengan benar, sebaliknya testee yang berkemampuan
rendah (bodoh) akan lebih sedikit yang mampu menjawab soal dengan benar.
Kemampuan sebuah item soal dalam membedakan testee berkemampuan tinggi
dengan testee berkemampuan rendah dapat dilihat dari besarnya angka indeks daya beda
(indeks deskriminasi). Angka indeks deskriminasi item adalah bilangan yang menunjukkan
besar kecilnya daya pembeda (descriminatory power) sebuah butir soal. Untuk menentukan
besarnya indeks daya beda tentu saja harus membedakan testee menjadi kelompok atas ( the
higher group) yaitu kelompok dengan kemampuan tinggi dengan kelompok bawah ( the
lower group) dengan kemampuan rendah.
Cara untuk menentukan kelompok atas dengan kelompok bawah dapat bervariasi,
misalnya dengan menggunakan median sehingga testee terbagi menjadi 50% kelompok atas
dan 50% kelompok bawah. Dapat pula dengan mengambil 20% kelompok atas dan 20%
kelompok bawah atau menggunakan prosentase - prosentase yang lain. Namun, yang paling
sering digunakan adalah 27% kelompok atas dan 27% kelompok bawah. Hal ini didasarkan
pada pengalaman empirik bahwa 27% kelompok atas dan 27% kelompok bawah cukup bisa
diandalkan. Pendapat yang lebih tegas menyatakan bahwa dasar penentuan prosentase
kelompok atas dan kelompok bawah adalah banyaknya testee. Berdasarkan banyaknya testee,
maka dapat dibedakan menjadi dua kelompok yaitu kelompok kecil dan kelompok besar.
Disebut kelompok kecil jika banyaknya testee berada di bawah 100 orang. Sedangkan jika
jumlah testee di atas 100 orang dapat dikategorikan kelompok besar. Selanjutnya jika testee
termasuk kelompok kecil maka penentuan kelompok atas dan kelompok bawah cukup dibagi
menjadi dua bagian sama besar yaitu 50% kel ompok atas dan 50% kelompok bawah.

Contoh:
Siswa Skor Kelompok
A 9
B 9
C 8
D 8 Kelompok atas (JA)
E 7
F 5
G 5
H 5
I 4 Kelompok bawah (JB)
J 3
Seperti terlihat pada tabel di atas bahwa seluruh peserta tes (testee) di urutkan mulai
skor teratas sampai dengan skor tertinggi kemudian dibagi menjadi dua. Skor yang dimaksud
di sini adalah skor total yang diperoleh oleh testee dalam menjawab atau mengerjakan selurus
item tes yang ada.
Sedangkan jika testee termasuk kelompok besar maka proporsi pengambilan
kelompok atas dan kelompok bawah cukup dengan menggunakan 27% kelompok atas dan
27% kelompok bawah. Pengambilan 27% ini dimaksudkan untuk efisiensi baik waktu
maupun biaya dalam menganalisis butir - butir tes. Prosedur awal yang dilakukan sama
dengan kelompok kecil yaitu dengan cara mengurutkan testee berdasarkan skor yang
dipeoleh. Selanjutnya baru ditentukan kedua kutubnya yaitu 27% kelompok atas dan 27%
kelompok bawah. Contoh:
9
9
9
8 27 % sebagai JA
8
...
...
...
-
...
...
...
-
...
...
...
3
2 27 % sebagai = JB
1
1
0
Rumus yang digunakan untuk menghitung besarnya indeks deskriminasi
adalah:
D= B A _ BB = PA --
PB
JA JB
Keterangan:
D = indeks deskriminasi
BA = banyaknya testee kelompok atas yang menjawab soal dengan benar
JA = banyaknya testee kelompok atas
BB = banyaknya testee kelompok bawah yang menjawab soal dengan benar
JB = banyaknya testee kelompok bawah
PA = BA = proporsi testee kelompok atas yang menjawab benar
JA
PB =BB = proporsi testee kelompok bawah yang menjawab benar
JB
Selanjutnya besarnya indeks deskriminasi dapat diklasifikasikan sebagai berikut.
D : 0,00 – 0,20 : jelek (poor)
D : 0,20 – 0,40 : cukup (satisfactory)
D : 0,40 – 0,70 : baik (good)
D : 0,70 – 1,00 : baik sekali (excelent)
D : negatif : sangat jelek (sebaiknya soal nya dibuang saja)
Contoh perhitungan:
Telah dilakukan sebuah tes mata pelajaran IPA pada suatu kelas yang terdiri dari 20 siswa
dengan menggunakan 10 butir soal. Hasilnya seperti terlihat pada tabel di bawah ini.

Berdasarkan data tersebut maka tentukanlah:


a. Besarnya indeks tingkat kesukaran?
b. Besarnya indeks deskriminasi?
Untuk dapat menentukan besarnya tingkat kesukaran dan indeks deskriminasi secara
bersamaan terlebih dahul u siswa diurutkan berdasarkan skor total yang diperoleh, seperti
berikut ini. Selanjutnya untuk menentukan besarnya indeks tingkat kesukaran dapat langsung
dihitung dengan membagi banyaknya siswa yang menjawab benar dengan banyaknya siswa
seperti rumus ya ng sudah dijelaskan.
Keterangan perhitungan
a. Indeks tingkat kesukaran
1. soal no. 1: nb = 20, N = 20, p = 20/20 = 1,00 ; TMDH (terlalu mudah)
2. soal no. 2: nb = 8, N = 20, p = 8/20 = 0,40; SDG (sedang)
3. soal no. 3: nb = 9, N = 20, p = 9/20 = 0,45 ; SDG (sedang)
Dan seterusnya.
b. Indeks deskriminasi

3. Efektivitas Distraktor
Analisis terhadap efektivitas distraktor hanya dilakukan terhadap soal objektif pilihan
ganda. Seperti sudah diketahui bahwa pada soal tipe pilihan ganda selain kunci jawaban juga
disediakan pilihan la in yang bukan jawaban. Pilihan lain yang bukan merupakan kunci
jawaban inilah yang disebut dengan distraktor (pengecoh). Penulisan distraktor bukan hanya
sekedar ditulis melainkan oleh pembuat soal dibuat seolah-olah merupakan jawaban atas
pernyataan yang ada. Dengan demikian, diharapkan ada testee yang memilih distraktor
tersebut. Jika distraktor benar-benar ada yang memilihnya berarti distraktor tersebut sudah
berfungsi. Namun, seberapa efktifkah sebuah distraktor berfungsi?
Pertanyaan di atas kemudian mendorong orang untuk melakukan analisis terhadap
efektivitas distraktor. Distraktor yang baik semestinya dipilih lebih banyak siswa kelompok
rendah, sebaliknya akan dipilih oleh lebih sedikit siswa kelompok atas. Secara umum sebuah
distraktor dikatakan ber funsgi efektif jika dipilih oleh setidaknya 5% testee.
Berikut ini adalah tabel contoh cara menga nalisis berfungsinya distraktor pada sebuah tes
pilihan ganda dengan 5 alternatif pilihan jawaban.

Keterangan: ( ) = kunci jawaban


A = kelompok atas
B = kelompok bawah
Pada contoh di atas dapat dianalisis sebagai berikut:
1. Soal no 1, kunci jawabannya adalah B, sedangkan A, C, D, dan E adalah distraktor.
a. distraktor A dipilih oleh 5 orang testee kelompok bawah saja, berarti (5/40) x
100% = 12,50%.
b. distraktor C dipilih oleh 2 orang test ee kelompok atas dan 5 orang testee
kelompok bawah, berarti (7/40) x 100% = 17,50%.
c. distraktor D dipilih oleh 2 orang testee kelompok atas dan 3 orang testee
kelompok bawah, berarti (5/40) x 100% = 12,50% .
d. distraktor E dipilih oleh 1 orang testee k elompok atas dan 2 orang testee
kelompok bawah, berarti (3/40) x 100% = 7,50%.
Berdasarkan perhitungan ini maka dipastikan semua distraktor berfungsi secara
edektif karena semua distraktor dipilih oleh lebih dari 5% testee.
2. Soal no 2, kunci jawabannya a dalah C, sedangkan distraktornya ada A, B, D,
dan E.
A. Distraktor A, B, dan E dipilih oleh 2 orang testee kelompok atas dan 4 orang
testee kelompok bawah, berarti (6/40) x 100% = 15%.
B. Distraktor D ternyata tidak berfungsi karena tidak ada yang memilih baik oleh
kelompok atas maupun oleh kelompok bawah.
Berdasarkan perhitungan ini maka hanya distraktor A, B, dan E yang berfungsi efektif,
sedangkan distraktor D tidak berfungsi.
4. Analisis item soal
Sebagai sebuah kumpulan dari banyak item, sebuah soal perlu dilakukan analisis
mengenai Kualitasnya dari masing -masing item soal. Adapun analisis yang perlu dilakukan
terhadap item soal adalah menghitung besarnya berbagai macam indeks sebagai berikut:
1. Validitas item soal (sudah dijelaskan pada bab sebelumnya)
2. Indeks tingkat kesukaran
3. Indeks daya pembeda, serta
4. secara keseluruhan adalah menentukan besarnya indeks reliabilitas soal
5. Analisis item angket
Analisis angket tidak serumit seperti pad a analisis pada soal. Hal-hal yang perlu
dihitung pada analisis angket adalah meliputi:
1. validitas item angket, serta
2. secara keseluruhan adalah menentukan besarnya indeks reliabilitas soal.
Hal-hal yang perlu diperhatikan dalam melakukan penghitungan indeks reliabilitas
adalah sifat dari instrumen tersebut. Sebagai contoh pada saat menentukan indeks reliabilitas
sebuah instrumen angket tidak mungkin menggunakan formula KR-20, melainkan akan lebih
baik jika formula yang digunakan adalah formula Alpha.
KESIMPULAN

1. Tes hasil belajar adalah suatu prosedur sistematis untuk mengukur suatu hasil belajar
peserta didik.
2. Tes hasil belajar ada 4 macam :
A. Tes formatif
B. Tes sumatif
C. Tes penempatan (placement test)
D. Tes diagnostik
3. Istilah-istilah dalam tes :
a. Tes (alat untuk mengukur)
b. Testing (saat test)
c. Testee (yang dites)
d. Tester (Pemberi tes)
4. Ciri-ciri tes yang baik meliputi :
a. Validitas (ketepatan)
b. Reliabilitas (ketetapan)
c. Objektivitas (tidak mengandung unsur pribadi yang mempengaruhi)
d. Praktikabilitas (praktis dan mudah administrasinya)
e. Ekonomis ( hemat biaya, tenaga dan waktu)
5. Bentuk-bentuk tes tertulis meliputi :
a. Tes subjektif (esai/uraian)
b. Tes objektif ( Tes benar salah, tes pilihan ganda, menjodohkan, dan tes isian)
6. Semua bentuk-bentuk tes memiliki kelebihan dan kekurangan masing-masing serta
memiliki cara penskoran yang berbeda-beda.
DAFTAR PUSTAKA

Amir Daien Indrakusuma. 1975. Evaluasi Pendidikan. Jakarta: Dep P dan K.


Azwar, Saifuddin. 1987. Test Prestasi : Fungsi dan Pengembangan Pengukuran Prestasi
Belajar. Yogyakarta: Liberty
Prof. Dr. Suharsimi Arikunto. 1987. Dasar-dasar Evaluasi Pendidikan.Yogyakarta: Bumi
Aksara.
Toswari. 2010. Uji Validitas dan Reliabilitas. Diakses dari
http://toswari.staff.gunadarma.ac.id tanggal 11 Maret 2010
Wahyudin. 2009. Bentuk-bentuk Tes. Diakses dari http://file.upi.edu/Direktori/A%20-
%20FIP/JUR.%20PEND.%20LUAR%20SEKOLAH/196009261985031%20-
%20UYU%20WAHYUDIN/Bentuk-Bentuk%20Tes.pdf tanggal 10 Maret 2011.

Você também pode gostar