Analisis Butir Soal: Mengukur Tingkat Kesukaran, Daya Diskriminasi, dan Efektivitas Distraktor

Dalam penyusunan instrumen tes yang berkualitas, setiap butir soal perlu dianalisis untuk memastikan kemampuannya dalam mengukur kompetensi peserta didik secara akurat. Analisis butir soal umumnya dilakukan melalui beberapa tahapan, yaitu pengelompokan peserta berdasarkan kemampuan, pengukuran indeks kesukaran, penghitungan daya diskriminasi, serta evaluasi efektivitas distraktor pada soal pilihan ganda.

Pembagian Kelompok Tinggi dan Kelompok Rendah

Menurut Syarifudin Azwar 1996, tahap pertama dalam analisis butir soal adalah membagi peserta tes ke dalam dua kelompok berdasarkan hasil skor yang diperoleh. Kelompok yang memiliki skor lebih tinggi disebut sebagai kelompok tinggi, sedangkan kelompok dengan skor lebih rendah disebut sebagai kelompok rendah. Pembagian ini bertujuan untuk mengetahui sejauh mana suatu soal mampu membedakan peserta yang memiliki kemampuan tinggi dan rendah.

Melalui pengelompokan ini, peneliti atau penyusun tes dapat melakukan analisis lebih lanjut terhadap kualitas setiap butir soal berdasarkan pola jawaban yang diberikan oleh kedua kelompok tersebut.

Pengukuran Indeks Kesukaran Aitem

Setelah peserta dibagi ke dalam kelompok kemampuan, langkah berikutnya adalah menghitung indeks kesukaran aitem. Indeks kesukaran menunjukkan tingkat kemudahan atau kesulitan suatu soal berdasarkan proporsi peserta yang dapat menjawab dengan benar.

Rumus yang digunakan adalah:

p = ni / N

Keterangan:

p = indeks kesukaran aitem
ni = jumlah peserta yang menjawab aitem dengan benar
N = jumlah seluruh peserta yang menjawab aitem

Nilai indeks kesukaran berada pada rentang 0 sampai 1. Semakin tinggi nilai p, semakin mudah soal tersebut karena lebih banyak peserta yang mampu menjawab dengan benar. Sebaliknya, semakin rendah nilai p menunjukkan bahwa soal cenderung lebih sulit.

Sebagai contoh, apabila 6 dari 10 peserta menjawab suatu soal dengan benar, maka indeks kesukarannya adalah:

p = 6 / 10 = 0,60

Nilai 0,60 menunjukkan bahwa soal tersebut berada pada tingkat kesukaran sedang karena dapat dijawab dengan benar oleh sekitar 60% peserta.

Pengukuran Indeks Daya Diskriminasi Aitem

Selain tingkat kesukaran, kualitas soal juga dapat dilihat dari kemampuan soal dalam membedakan peserta berkemampuan tinggi dan rendah. Kemampuan ini dikenal sebagai indeks daya diskriminasi aitem.

Perhitungan daya diskriminasi dapat dilakukan menggunakan rumus:

d = (nit / Nt) – (nir / Nr)

Keterangan:

d = indeks daya diskriminasi
nit = jumlah peserta kelompok tinggi yang menjawab benar
Nt = jumlah peserta dalam kelompok tinggi
nir = jumlah peserta kelompok rendah yang menjawab benar
Nr = jumlah peserta dalam kelompok rendah

Dalam praktiknya, rumus tersebut sering disederhanakan menjadi:

d = Pt – Pr

Keterangan:

Pt = indeks kesukaran aitem pada kelompok tinggi
Pr = indeks kesukaran aitem pada kelompok rendah

Nilai daya diskriminasi menunjukkan seberapa baik suatu soal membedakan peserta yang menguasai materi dengan peserta yang belum menguasainya. Semakin besar nilai d, semakin baik kualitas soal tersebut.

Interpretasi Indeks Daya Diskriminasi

Menurut klasifikasi yang dikemukakan oleh Ebel (1979) dan dikutip oleh Azwar (1996), kualitas butir soal berdasarkan indeks daya diskriminasi dapat diinterpretasikan sebagai berikut:

Indeks Daya Diskriminasi	Evaluasi
0,40 atau lebih	Sangat baik
0,30 – 0,39	Cukup baik, namun masih dapat ditingkatkan
0,20 – 0,29	Kurang memuaskan dan perlu revisi
Kurang dari 0,20	Buruk dan sebaiknya dibuang

Berdasarkan hasil analisis, soal nomor 5, 8, dan 10 termasuk kategori sangat baik karena memiliki daya diskriminasi di atas 0,40. Soal nomor 2, 3, 4, dan 7 berada pada kategori cukup baik, meskipun masih dapat disempurnakan. Sementara itu, soal nomor 1, 6, dan 9 memiliki daya diskriminasi yang rendah sehingga disarankan untuk dihapus atau diganti dengan butir yang lebih baik.

Evaluasi Efektivitas Distraktor

Pada soal pilihan ganda, kualitas soal tidak hanya ditentukan oleh kunci jawaban yang benar, tetapi juga oleh efektivitas distraktor atau pengecoh. Distraktor yang baik akan mampu menarik peserta yang belum menguasai materi tanpa menyesatkan peserta yang benar-benar memahami konsep yang diujikan.

Terdapat tiga syarat utama agar distraktor dapat dikatakan efektif.

Pertama, jumlah peserta dari kelompok tinggi yang memilih jawaban benar harus lebih banyak dibandingkan peserta dari kelompok rendah. Kondisi ini menunjukkan bahwa kunci jawaban berfungsi dengan baik dalam membedakan kemampuan peserta.

Kedua, peserta dari kelompok rendah seharusnya lebih banyak memilih alternatif jawaban yang salah dibandingkan peserta dari kelompok tinggi. Hal ini menandakan bahwa distraktor mampu berfungsi sebagai pengecoh bagi peserta yang belum memahami materi secara optimal.

Ketiga, distribusi pilihan jawaban yang salah sebaiknya tersebar secara relatif merata pada setiap distraktor. Jika ada pilihan jawaban yang hampir tidak pernah dipilih, maka distraktor tersebut dianggap tidak efektif dan perlu diperbaiki.

Analisis butir soal merupakan langkah penting dalam menjamin kualitas instrumen evaluasi pembelajaran. Melalui penghitungan indeks kesukaran, daya diskriminasi, dan efektivitas distraktor, penyusun tes dapat mengidentifikasi soal yang layak digunakan, perlu direvisi, atau harus dibuang. Dengan demikian, instrumen yang dihasilkan akan lebih valid, reliabel, dan mampu mengukur kemampuan peserta didik secara lebih akurat.