Reliabilitas Instrumen

Instrumen yang baik adalah instrumen yang dapat dengan ajeg memberikan data yang sesuai dengan kenyataan. Prasyarat bagi sebuat instrumen tes adalah validitas dan reliabilitas. Hal ini menunjukkan bahwa validitas lebih penting dan reliabilitas perlu karena menyokong terbentuknya validitas sehingga dapat diartikan bahwa sebuah tes mungkin reliabel tetapi tidak valid, tapi ketika sebuah tes dikatakan valid biasanya reliabel (Arikunto, 2012: 101). Reliabilitas instrumen dilakukan untuk mengetahui tingkat ketepatan (precision) dan keajegan (consistency) skor tes.

Pentingnya reliabilitas sangat diperlukan untuk menentukan kualitas dari instrumen yang dikembangkan. Apakah instrumen layak untuk digunakan atau tidak. Hal ini menunjukkan bahwa perlu diketahui beberapa hal yang berkaitan dengan reliabilitas, mulai dari definisi hingga penerapannya dalam penentuan tingkat reliabilitas suatu instrumen.

Apakah yang dimaksud dengan reliabilitas instrumen?

Reliabilitas diterjemahkan dari kata reliability yang berarti keterpercayaa, keandalan, keajegan, konsistensi, kestabilan. Hal ini menunjukkan bahwa konsep reliabilitas adalah sejauh mana hasil pengukuran dapat dipercaya (Azwar, 2009: 180). Lebih lanjut dinyatakan oleh Sugiyono (2010: 183) bahwa pengujian instrumen dapat dilakukan secara eksternal maupun internal.

Pengertian reliabilitas/keandalan berkait dengan keajega/konsistensi, dimana suatu instrumen dinyatakan andal (reliabel) ketika memberikan hasil yang sama pada berkali-kali pengukuran (Subali, 2012: 113). Konsep reliabilitas dalam arti reliabilitas instrumen berkaitan dengan masalah kesalahan pengukuran yang menunjukkan sejauh mana inkonsistensi hasil pengukuran apabila dilakukan pengukuran ulang terhadap kelompok subjek yang sama.

Berdasarkan definisi beberapa ahli dapat disimpulkan bahwa reliabilitas adalah tingkat reliabel/kepercayaan/keajegan suatu instrumen pengukuran yang pengujiannya dapat dilakukan secara eksternal dan internal. Interval koefisien reliabilitas suatu instrumen adalah 0-1. Semakin tinggi (mendekati 1) suatu instrumen dapat dinyatakan reliabel. Koefisien reliabilitas terdiri dari beberapa jenis, yaitu Sudaryono, et. al., 2013: 132):

  1. Koefisien reliabilitas Alpha bestrata, diperkenalkan tahun 1965 yang berguna untuk mengestimasii reliabilitas instrumen yang terdiri dari beberapa subtes. Merupakan pengukuran internal konsitensi dengan melibatkan komponen tes. Sangat tepat digunakan untuk kasus skor komposit multidimensi.
  2. Koefisien reliabilitas komposit Mosier, pengukuran yang memiliki struktur dimensi yang didapat dari instrumen yang memiliki komponen tes yang independen dengan komponen lain, contohnya tes potensi akademik yang terdiri dari beberapa sub tes yang mampu mengakomodasi pembobotan pada setiap sub tes.
  3. Koefisien reliabilitas komposit Wang. Untuk menghitung diperlukan informasi mengenai reliabilitas masing-masing dimensi, pembobotan masing-masing dimensi, dan korelasi antar skor dimensi, contohnya skala nilai kerja terdiri dari pengembangan diri dan transendensi diri.
  4. Koefisien reliabilitas komposit raykov, reliabilitas komposit adalah varian skor murni dalam kaitannya dengan varian tes.
  5. Koefisien reliabilitas komposit McDonald, dikenal dengan koefisien reliabilitas konstruk yang berbasis pada analisis faktor konfirmatori yang merupakan bagian dari menu STEM (standar error of measurement)

Apa saja faktor yang mempengaruhi reliabilitas suatu instrumen?

Beberapa 4 faktor yang dapat mempengaruhi reliabilitas suatu instrumen/skor tes (Miller, et. al., 2009:124-128)

  1. Jumlah tugas/tes, semakin banyak jumlah tugas/tes maka semakin reliabel suatu instrumen dan sebaliknya.
  2. Penyebaran skor, semakin besar penyebaran skornya maka semakin reliabel suatu instrumen dan sebaliknya
  3. Objektivitas, objektivitaspenilaianmengacu padasejauh mana jumlah skor kompetenmemperolehhasil yang sama. Sebagiantes bakatdan prestasi terstrandartinggiobjektivitas. Item tesadalah tipeobyektif danskoryang dihasilkantidak dipengaruhiolehpenilaianskoratau pendapat. Ketikaprosedur yang digunakansangatobyektifdigunakan, reliabilitas/keandalanhasil testidak terpengaruholehprosedur penskoran.
  4. Metode Estimasi Reliabilitas, metode yang dipilih dapat mempengaruhi tingkat reliabilittas suatu instrumen.

Apa pendekatan konvensional yang digunakan salam menentukan reliabilitas suatu instrumen?

Pendekatan Konvensional

Pendekatan konvensional yang digunakan dalam pengujian reliabilitas suatu instrumen adalahClassical Test Theory (CTT). Pendekatan ini merupakan pendekatan pertama yang dikembangkan untuk pengukuran. Teori-teori CTT memiliki beberapa keterbatasan diantaranya bergantung pada kelompok sampel yang digunakan, asumsi kesetaraan eror pengukuran pada semua subjek yang dikenai tes sulit untuk diterima dan tidak ada pernyataan lain yang dapat memperkuat asumsi ini, khususnya pada tes yang sulit, serta definisi tes paralel yang dimaksud oleh CTT sangat sulit untuk dipenuhi dalam praktek (Azwar, 2005)..

Menentukan reliabilitas skor tes dilakukan dengan 4 metode, yaitu:

  1. Metode Tes Ulang (Test-retest Method)

Dilakukan dengan mencobakan instrumen beberapa kali pada responden. Instrumen yang digunakan sama, tapi waktu berbeda. Jika hasil koefisien relasi menunjukkan nilai positif makan dinyatakan reliabel dan sebaliknya.

  1. Metode Pecahan Setara/Paralel (Equivalent)

Instrumen yang digunakan memiliki makna yang sama tapi bahasa yang digunakan berbeda. Pengujian cukup dilakukan sekali, tetapi instrumennya dua pada respon dan waktu yang sama, instrumen berbeda. Perhitungan dilakukan dengan mengkorelasikan hasil instrumen pertama dan kedua, jika berkorelasi positif maka instrumen dinyatakan reliabel.

  1. Metode Gabungan

Metode dengan menggabungkan metode tes ulang dan pecahan setara. Pengujian dilakukan dengan mencbakan dua instrumen yang ekuivalen beberapa kali kepada responden yang sama. Perhitungan dilakukan dengan mengkorelasikan dua instrumen. Setelah itu dikorelasikan pada pengujian kedua, dan selanjutnya dikorelasikan silang.

  1. Konsistensi Internal (Internal Consistency)

Dilakukan dengan cara mencobakan instrumen sekali saja, kemudian dianalisis menggunakan teknik tertentu, diantaranya yaitu:

Spearman Brown

Formula Spearman Brown dapat digunakan bila jumlah item dalam tes genap sehingga dapat dibelah menjadi dua bagian yang seimbang. Dengan menglompokkan nomor ganjil dan nomor genap.

Rulon

Formula Rulon juga dikenakan pada data skor yang dibelah menjadi dua bagian yang seimbang. Komputasi reliabilitas berdasarkan selisih skor subjek pada kedua belahan. Selisih skor tersebut yang menjadi sumber variasi eror dan jika dibandingkan denganvariasi skor akan menjadi dasar mengestimasi reliabilitas tes.

Alpha

Tes dapat dibelah menjadi beberapa bagian. Pada pembelahan in, sangat penting untuk menjadikan banyaknya iteman dalam setiap belahan sama sehingga diharapkan seimbang. Jika alpha digunakan pada tes belahan yang tidak seimbang maka akan diperoleh koefisien yang rendah dan merupakan underestimasi terhadap reliabilitas sebenarnya.

Kuder Richardson 20

Hampir sama dengan formula Alpha, tapi KR 20 hanya dapat dikenakan pada data skor dikotomi dari tes yang seolah-olah dibagi-bagi sebanyak itemnya.

Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan item. Hal inilah yang membedakannya dengan KR-20.

Apa pendekatan modern yang digunakan dalam menentukan reliabilitas suatu instrumen?

Pendekatan Modern

Teori Sifat Laten (Latent Trait Theory) atau Respons Item (Item Response Theory) merupakan pendekatan modern yang dikembangkan untuk mengatasi keterbatasan pendekatan konvensional pada pendekatan CTT. Pendekatan IIRT didasarkan pada sifat-sifat atau kemampuan yang laten, yang mendasari performansi atau respon subjek terhadap item tertentu. IRT dikembangkan atas dasar dua postulat. Pertama, performansi seorang subjek pada suatu item dapat diprediksi dari seperangkat faktor yang disebut traits, latent traits, atau kemampuan. Kedua, hubungan antara performansi subjek pada suatu item dan kemampuan yang mendasari performansi tersebut dapat digambarkan oleh suatu fungsi yang meningkat secara monotonik yang disebut item characteristic function atau item characteristic curve (ICC) menunjukkan subjek yang memiliki kemampuan yang tinggi akan memiliki peluang yang lebih besar untuk menjawab aitem dengan benar yang berarti bahwa karakteristik item tidak lagi tergantung pada kelompok subjek. Hal ini yang tidak dapat dijelaskan dengan menggunakan pendekatan konvensional.

Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban butir soal (Item Response Theory) (McDonald, 1999: 8).Untuk mengetahui kelebihan analisis IRT, maka para guru perlu mengetahui keterbatasan analisis secara klasik. Selain keterbatasan yang telah dijelaskan sebelumnya mengenai pendekatan konvensional, ada beberapa keterbatasan CTT dibanding IRT yaitu(Hambleton, Swaminathan, dan Rogers, 1991: 2-5).

  1. Tingkat kemampuan dalam teori klasik adalah “true score”. Jika tes sulit artinya tingkat kemampuan peserta didik mudah. Jika tes mudah artinya tingkat kemampuan peserta didik tinggi.
  2. Tingkat kesukaran soal didefinisikan sebagai proporsi peserta didik dalam grup yang menjawab benar soal. Mudah/sulitnya butir soal tergantung pada kemampuan peserta didik yang dites dan kemampuan tes yang diberikan.
  3. Daya pembeda, reliabilitas, dan validitas soal/tes didefinisikan berdasarkan grup peserta didik.

Sedangkan kelebihan IRT dijabarkan sebagai berikut

  1. IRT tidak berdasarkan grup dependent,
  2. Skor siswa dideskripsikan bukan test dependent.
  3. Model ini menekankan pada tingkat butir soal bukan tes.
  4. IRT tidak memerlukan paralel tes untuk menentukan relilabilitas tes.
  5. IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.

Kelemahan teori tes klasik di atas diperkuat Hambleton dan Swaminathan (1985: 1-3) yaitu: (1) tingkat kesukaran dan daya pembeda tergantung pada sampel; (2) penggunaan metode dan teknik untuk desain dan analisis tes dengan memperbandingkan kemampuan siswa pada pernbagian kelompok atas, tengah, bawah. Meningkatnya validitas skor tes diperoleh dari tingkat kesukaran tes dihubungkan dengan tingkat kemampuan setiap siswa; (3) konsep reliabilitas tes didefinisikan dari istilah tes paralel; (4) tidak ada dasar teori untuk menentukan bagaimana siswa memperoleh tes yang sesuai dengan kemampuan siswa; (5) Standar error of measurement (SEM) hanya berlaku untuk seluruh peserta didik.

Ada empat macam model 1RT (Hambleton, 1993: 154-157; Hambleton dan Swaminathan, 1985: 34-50). Yaitu:

  1. Model satu parameter (Model RASCH), yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran s
  2. Model dua paremeter, yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal.
  3. Model tiga parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing).
  4. Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain.Hambleton dan Swaminathan (1985: 48) menjelaskan bahwa siswa yang memiliki kemampuan tinggi tidak selalu menjawab soal dengan benar. Kadang-kadang mereka sembrono (mengerjakan dengan serampangan), memiliki informasi yang berlebihan, sehingga mereka menjawab salah pada suatu soal. Untuk mengatasi masalah ini diperlukan model 4 paramete

Dari keempat model tersebut tidak sama penekanannya dan sudah tentu tiap-tiap model itu memiliki kelebihan dan kekurangan. Kelebihan dan kekurangan itu dapat diklasifkasikan sesuai dengan jumlah parameter yang ditentukan pada masing-masing model dan tujuan menggunakan model yang bersangkutan.Pelaksanaan analisis IRT tidak rumit karena analisis yang digunakan adalah program komputer, seperti program RASCAL, PASCAL, BIGSTEPS, atau QUEST.

Daftar Pustaka

Arikunto, Suharsimi. (2012). Dasar-dasar Evaluasi Pndidikan (Edisi 2). Bumi Aksara: Jakarta.
Azwar, S. (2009). Tes Prestasi: Fungsi Pengembangan Pengukuran Prestasi Belajar. Yogyakarta: Pustaka Pelajar.
Azwar, Saifuddin. 2012. Reliabilitas dan Validitas. Edisi 4. Yogyakarta : Pustaka Pelajar.
Baron, D., & Bernard, H.W. (1958). Evaluation Tecniques For Classroom Teachers. McGraw-Hill: USA
Depdiknas. (2008). Panduan Analisis Butir Soal. Jakarta
Gronlund, N.E., & Linn, R.L. (1990). Measurement And Evaluation In Teaching. Macmillan: USA.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. 1991. Fundamentals of item response theory. London: Sage Publications, Inc.
Kartowagiran, Badrun. (2009). Pengantar Teori Klasik (TTK). Yogyakarta: UNY
Nunnally, J.C. 1978. Psychometric theory. New York: McGraw Hill Book Company. Inc.
Mardapi, Djemari. (2008). Teknik Penyusunan Instrumen Tes dan Non Tes. Yogyakarta: Mitra Cendikia Press.
Miller, M. D., Linn, R. L., and Gronlund, N.E. (2009). Measurement and Assesement In Teaching Tenth Edition. New Jersey: Pearson Education, Inc.
Lord, F.M. 1980. Applicatiom of item response theory to practical testing problems. Hllsdale, NJ.: Lawrence Erlbaum Associates, Publisher.
Subali, B. (2012). Prinsip Assessmen & Evaluasi Pembelajaran. Yogyakarta: UNY Press.
Sudaryono, Margono, G. and Rahayu, W. (2013). Pengembangan Instrumen Peeitian Pendidikan. Yogyakarta: Graha Ilmu.
Sudjana, Nana. (2013). Penilaian Hasil Proses Belajar Mengajar. Bandung: PT. Remaja Rosdakarya.
Sugiyono, (2010). Metode Penelitian Kuantitaif Kualitatif dan R&D. Bandung: Alfabeta,
Surapranata, S. (2005). Panduan Penulisan Tes Tertulis Implementasi Kurikulum 2004. Bandung: Remaja Rosdakarya.