Sunday, December 11, 2011

Pengembangan Instrumen dalam BK


Pengembangan tes baru melibatkan dua hal, yaitu: ilmu pengetahuan dan seni. Seorang pengembang tes harus memilih strategi dan materi, dan kemudian membuat keputusan penelitian sehari-hari yang akan mempengaruhi kualitas instrumennya. Pada pertemuan kali ini kami akan menekankan dasar-dasar pengembangan tes. Pengembangan tes terdiri dari delapan tahap berikut ini:

 
1.           MENDEFINISI TES

Sebuah proses yang sistematis untuk pengembangan tes harus didasarkan pada pertimbangan tujuan dasar skor tes yang akan digunakan. Misalnya, seorang ahli membaca ditugaskan untuk mengembangkan uji pemahaman bacaan terhadap mahasiswa tingkat pertama. Informasi skor tes seperti itu dapat digunakan sebagai pertimbangan penerimaan, penempatan atau keputusan diagnostik. Tapi juga akan diragukan jika tes dapat dikembangkan untuk memenuhi semua kebutuhan ini secara optimal. Di sisi lain, diagnostik tes, digunakan untuk mengidentifikasi kelemahan tertentu untuk siswa yang mempunyai kemampuan rendah, maka berisi sebagian besar item-item yang relatif mudah bagi testee. Demikian pula konten tes yang dirancang untuk menilai kompetensi minimal berbeda dari tes dirancang untuk memilih pelamar program pendidikan yang kompetitif. Tujuan utama skor tes akan digunakan dan menetapkan prioritas diantara kemungkinan penggunaanya dan tujuan pentingnya adalah untuk pelayanan.
Tugas pertama bagi pembuat tes adalah membuat outline tes yang diinginkan, yaitu perencanaan tes. Subjek, administrasi, prosedur, sampel, populasi harus ditetapkan. Disamping itu, usia, jenis kelamin, kualifikasi pendidikan, bahasa, pedesaan / perkotaan, status sosial-ekonomi dan faktor lingkungan lainnya juga harus dipertimbangkan. Karakteristik mental/tingkah laku tertentu harus dinyatakan dengan jelas sebelum tes dikembangkan. Tips praktis dalam merencanakan tes:
a.              Tentukan tujuan tes dengan jelas, tentukan metode yang obyektif, kemudian tentukan latar belakang teoritis dalam penggunaan dan pengukuran konstruk
b.             Review literatur: apakah ada penelitian sebelumnya pada konstruk? Jika penelitian sebelumnya ada maka bagaimana cara mengembangkan dari penelitian sebelumnya?
c.              Berikan definisi operasional pada konstruk
d.             Tentukan populasi dan sampel
Setelah tujuan tes ditetapkan dan subjek diputuskan, maka simpan tujuan tes itu. Jika tujuan dari tes ini adalah untuk mengukur kecerdasan siswa hingga usia 16 tahun, subjek harus sesuai sehingga bisa tepat mengukur kemampuan yang diinginkan. Oleh karena itu, isi tes bisa berbentuk materi lisan, menghitung atau bergambar. Demikian juga, jika tes bakat harus dibuat untuk setiap pekerjaan yang diarahkan.
Oleh karena itu, ketika dalam tahap perencanaan tes, tester biasanya mempertimbangkan tujuannya, termasuk pokok-pokok item, kemampuan, standar pendidikan, faktor usia, dan untuk siapa tes ini dirancang atau dilakukan. Selain itu, format ujian (kertas dan pensil atau performan, verbal atau non -verbal), dengan media (indonesia, bahasa Inggris, dsb), bagaimana tes itu telah diberikan (individu, kelompok atau keduanya), jumlah uang dan waktu yang terlibat, karakteristik testee seperti umur, jenis kelamin, kemampuan, pengalaman, dan seterusnya. Langkah pertama dari pengembangan tes harus mempertimbangkan:
a.              Penataan penilaian/asesmen pada tujuan tes
b.             Tujuan tes yang sedang dibuat
c.              Refleksi tujuan pada item tes. Item-item tes harus sesuai dengan tujuan tes
d.             Apa yang akan menjadi bentuk, pengantar, bahasa dari tes dan dalam kondisi itu akan diberikan kepada orang-orang dari usia dan jenis kelamin tertentu.
Dalam rangka untuk membangun sebuah tes baru, pengembang harusmemiliki gagasan yang jelas tentang apa tes itu, yaitu untuk mengukur dan bagaimana tes itu berbeda dari instrumen lain yang sudah ada. Sejauh ini,tes psikologis sekarang sudah memasuki abad kedua dan ribuan tes telah diterbitkan, beban pembuktian jelas bersandar pada pengembang tes untuk menunjukkan bahwa instrumenyang diusulkan berbeda dari yang lain, lebih baik, dan ada pengukurannya.
Pertimbangan tugas berat yang dihadapi oleh pengembang tes yang mengusulkan pengukuran kecerdasan umum. Puluhan instrumen tentang kecerdasan umum ini sudah banyak, lalu bagaimana instrumen yang baru dibuat ini akanmemberikan kontribusiyang bergunadi lapangan? Jawabannya adalahbahwa penelitiankontemporerakanmenambahpemahaman kita tentangkecerdasan danmembuatkita untuk selalu mencaricara baru danlebih bergunauntuk mengukurkonstruk yang beragam ini.
Kaufman dan Kaufman (l983) memberikancontoh yang baikdari proses pendefinisian tes.Serangkaian asesmen Kaufman untuk anak-anak(K-ABC), teskecerdasan umumyang barupada anak-anak, ada enamtujuan utamayang menentukantujuantes danmembedakannya daripengukuran yang lain:
a.              Mengukur kecerdasandaridasarteori danriset yang kuat
b.             Membedakan pengetahuan faktualyang diperolehdari kemampuanuntuk memecahkan masalahasing/yang tidak familiar
c.              Hasilskoryang menerjemahkanuntuk intervensipendidikan
d.             Sebagai tugas-tugasbaru
e.              Mudahuntuk mengeloladan obyektifuntuk memberikan skor
f.              Menjadi peka terhadapberagam kebutuhanpra-sekolah, anak-anak kelompok minoritas, dan anak-anak luar biasa(Kaufman &Kaufman, 1983)
K-ABC merupakan gagasan awal yang menarik dari tes kecerdasan tradisional.Untuk saat ini, poin pentingnya adalah para pengembang instrumen baru-baru ini harus menjelaskan tujuan eksplisit dan mengusulkan penemuan-penemuan terbaru untuk mengukur kecerdasan, jauh sebelum mereka mulai membangun item-item tes.

2.             PENENTUAN METODE PENGUKURAN

a)             Skala Penilaian
Tujuan dari tes psikologi adalah untuk menetapkan sejumlah respon pada tes sehingga peserta ujian dapat dinilai untuk memiliki beberapa dari karakteristik yang diukur. Pengembang tes memilih metode skala yang optimal sesuai dengan cara dimana mereka telah mengkonseptualisasikansifat yang diukur dengan tes mereka.Tidak ada metodeskalatunggal yanglebih baik daripadayang lain. Adabanyakperbedaan metodeskalayang tersedia untukpara psychometricbahwa mereka akanpuasmemberikansampel yang representatifdi sini.
Menurut Stevens (1946), semua angka yang berasal dari instrumen pengukuran apapun dapat ditempatkan ke dalam salah satu dari empat kategori hirarkis: nominal, ordinal, interval, atau rasio. Setiap kategori mendefinisikan tingkat pengukuran; urutan yang tercantum  setidaknyadari yang paling informatif.
a.             Skala nominal, angka-angka hanya berfungsi sebagai nama kategori. Sebagai contoh, ketika mengumpulkan data untuk studi demografi, seorang peneliti memberikan kode laki-laki sebagai "1" dan wanita sebagai "2." Dalam skala nominal angka tersebut sebagai bentuk penyederhanaan dalampenamaan.
b.             Skala ordinal, merupakan bentuk peringkat/rangking atau kesenangan. Jika profesor perguruan tinggi diminta untuk memberikan urutan peringkat pada empat mobil yang disukai, dia memilih "1" Cadillac, "2" Chevrolet, "3" Volkswagen, dan "4" Hyundai. Dalam skala ini, angka-angka tidak saling dipertukarkan. Peringkat "1" adalah "lebih" dari peringkat "2," dan seterusnya. Yang "lebih" mengacu pada kesenangan. Namun, skala ordinal gagal untuk memberikan informasi tentang kekuatan yang relatif dari peringkat tersebut. Dalam contoh hipotetis, kita tidak tahu apakah dosen sangat suka Cadillac lebih banyak Chevrolet, atau hanya lebih sedikit saja.
c.             Skala interval, memberikan informasi tentang peringkat, tetapi juga memberikan metrik untuk mengukur perbedaan antara peringkat. Untuk membangun sebuah skala interval, kita mungkin bertanya dosen untuk menilai pada skala dari I sampai 100 berapa banyak mereka ingin memiliki empat mobil. Misalkan rata-rata peringkat perhitungannya sebagai berikut: Cadillac, 90; Chevrolet, 70; Volkswagen, 60; Hyundai, 50. Dari informasi ini kita bisa menyimpulkan bahwa kesenangan untuk memilih Cadillac jauh lebih kuat daripada Chevrolet, akan tetapi Chevrolet lebih disukai daripada Volkswagen. Dari contoh ttersebut, kita bisa berasumsi bahwa interval diantara titik-titik skala ini kurang lebih sama; perbedaan antara kesenangan profesor pada Chevrolet dan Volkswagen (10 poin), itu juga sama seperti antara Volkswagen dan Hyundai (juga 10 poin).
d.            Skala rasio memiliki semua karakteristik dari suatu skala interval, tetapi juga memiliki titik nol konseptual bermakna di mana ada ketiadaan total dari karakteristik yang sedang diukur. Skala rasio jarang digunakan dalam pengukuran psikologis. Pertimbangkan apakah ada arti yang bermakna di mana seseorang dapat dianggap memiliki kecerdasan nol. Hal yang sama berlaku untuk konstruks dalam psikologi: poin nol bermakna tidak ada. Namun, beberapa pengukuran fisik digunakan oleh psikolog untuk memenuhi syarat sebagai skala rasio. Sebagai contoh, tinggi dan berat.

Karakteristik Penting Dari Empat Tingkat Pengukuran

Level
Karakteristik
Memberi kategori
Memberi ranking/peringkat
Menggunakan equal interval
Proses real
zero poin
Nominal
ü   



Ordinal
ü   
ü   


Interval
ü   
ü   
ü   

Rasio
ü   
ü   
ü   
ü   

Tingkat pengukuran itu relevan untuk konstruk tes karena prosedur statistik parametrik yang lebih kuat dan berguna (misalnya, Pearson r, analisis varians, regresi ganda) harus digunakan hanya untuk skor yang berasal dari langkah-langkah yang memenuhi kriteria skala interval atau rasio. Untuk skala yang nominal atau ordinal, prosedur statistik non-parametriknya kurang kuat (misalnya: chi-kuadrat, korelasi rank order, median tes). Dalam prakteknya, instrumen tes yang paling utama dalam psikologi (tes kecerdasan khusus dan skala kepribadian) diasumsikan membutuhkanpengukuran tingkat interval, meskipun sangat sulit untuk menunjukkan kesetaraan mutlak interval untuk instrumen tersebut (Bausell, 1986).

b)            Representatif Metode Skala
1)            Expert Rangking
Misalkan kita ingin mengukur kedalaman koma pada pasien yang menderita cedera kepala yang membuat mereka tidak sadarkan diri. Kedalaman pemberian penilaian terhadap koma tersebut bisa sangat penting dalam penyembuhan, karena ketidaksadaran dalam jangka waktu yang panjang bisa memberikan prognosis yang buruk untuk pemulihan akhir. Selain itu, petugas rehabilitasi memiliki kebutuhan praktis untuk mengetahui apakah pasien koma total atau dalam keadaan sebagian sadar/kesadaran senja.
Salah satu pendekatan untuk skala kedalaman koma akan bergantung pada perilaku ahli. Sebagai contoh, kita bisa meminta daftar perilaku pasien yang berhubungan dengan berbagai tingkat kesadaran kepada ahli saraf. Setelah ahli memberikan daftar tingkah laku yang telahdidiagnostik, pengembang tes bisa memberikan peringkat pada indikatorperilaku sepanjang kontinum kesadaran mulai dari koma mendalam sebagai orientasi dasar. Teasdale dan Jennett (1974) membuat Skala coma glasgow. Instrumen serupa untuk skala ini secara luas digunakan di rumah sakit untuk penilaian cedera otak traumatis.
Skala coma glasgowdinilai dengan mengamati pasien dan menetapkan tingkat tertinggi fungsi pada masing-masing dari tiga sub-skala. Pada setiap subskala, diasumsikan bahwa pasien menunjukkan semua tingkah laku di bawah angka level. Dari
sudut pandang psikometri, skala ini terdiri dari tiga sub-skala (mata, respon verbal, dan respon motorik) masing-masing menghasilkan sebuah peringkat ordinal dari perilaku.
Selain peringkat, juga memungkinkan untuk menghitung skor keseluruhan tunggalyang lebih daripada skala ordinal, meskipun pengukuran interval-level nya kurang benar. Jika nomor yang melekat pada peringkat (misalnya, untuk  mata diberi kode "none" = 1, "rasa sakit" = 2, dan seterusnya), maka angka untuk tingkat masing-masing subskala dapat ditambahkan, menghasilkan maksimal skor 14. Skor total pada skala coma glasgow kemudian memprediksi pemulihan dengan derajat keakuratan sangat tinggi (Jennett, Teasdale, & Knill-Jones, 1975). Dapat disimpulkan bahwa tes psikologi cukup jelas berasal dari metode skala yang sangat sederhana dan dapat memberikan informasi yang valid dan berguna.

2)            Metode Equal-Appearing Interval
Pada awal abad ini, LL Thurstone (1929) mengusulkan suatu metode untuk membangun interval tingkat skala dari pernyataan sikap. Metode equal-appearing intervalmasih digunakan saat ini, menandai dia sebagai salah satu tokoh teori psikometri. Metodeyang riil dari konstruk equal-appearing intervalagak rumit dan sarat akan statistik, tetapi logika yang mendasari adalah mudah untuk menjelaskan (Ghiselli, Campbell, & Zedeck, 1981). Untuk mengilustrasikan metode ini, kami merangkum langkah-langkah yang terlibat dalam pembangunan skala sikap terhadap keanggotaan gereja:
Ø   Mengumpulkan pernyataan benar-salah mungkin dapat mencerminkan berbagai sikap positif dan negatif terhadap sesuatu.
Ø   Ada ahli yang menentukan bahwa pernyataan-pernyataan ini menunjukkan/tidak menunujukkan sikap orang tersebut. Ahli diminta mengurutkan pernyataan masing-masing menjadi 1 dari 11 kategori yang berkisar dari "sangat menguntungkan" sampai pada “sangat tidak menguntungkan". Ahli harus mengabaikan bias mereka sendiri dan menganggap 11 kategori mempunyai jarak yang sama.
Ø   Setelah ahli menyelesaikan proses evaluasi, kemudian memberikan peringkat (dari 1 sampai 11) dan standard deviasi untuk setiap item ditentukan. Misalnya, 10 ahli telah memberikan peringkat rata-rata 9,2 pada item pertama yang dicatat sebelumnya, tetapi penilaian itu kemungkinan akan berbeda dari satu ahli dengan ahli yang lain.
Ø   Karena peringkat standar favorability item deviasi yang mencerminkan ambiguitas, item dengan standar deviasi besar karenanya dikeluarkan. Biasanya, sekitar 20 sampai 30 item yang dipilih sedemikian rupa sehingga laporan mencakup rentang dimensi (menguntungkan atau tidak menguntungkan). Hal ini diasumsikan bahwa perbedaan antara item pada skala akhir memenuhi sifat-sifat dari skala interval.
Ø   Orang yang mengambil skala sikap diminta untuk menandai pernyataan yang mereka setuju. Nilai mereka ditentukan oleh nilai rata-rata skala item disahkan.

Ghiselli, Campbell, dan Zedeck (1981) dicatat bahwa metode skala sebelumnya hanya menghasilkan skala sikap. Analisis skala reliabilitas dan validitas masih diperlukan untuk menentukan kesesuaian dan kegunaan. Pennelitian yang dilakukan oleh Russo (1994) menggambarkan sebuah aplikasi modem metode thurstone. Dia menggunakan pendekatan skala thurstone untuk mengevaluasi 216 item dari tigainventori depresi self report yang terkemuka. Para ahli termasuk 527 mahasiswa dan 37 anggota fakultas klinis di sekolah kedokteran. Jumlah item 216 yang dirandom dan diberi nilai sehubungan dengan keparahan depresi, mulai dari 1 yang artinya tidak depresi sampai 11 yang artinya depresi ekstrim. Dia menemukan bahwa ketiga inventori self report ini persediaan itemnya kurang dan pilihan respon khas depresi ringan. Distribusi dari 216 item itu bimodal dengan banyak item berkumpul di dekat bagian bawah (depresi tidak) dan banyak item berkumpul dekat (depresi moderat) tengah. Karakteristik menemukan satu set item dari skala depresi yang menonjol adalah sebagai berikut:

Angka depresi
Skor original
Konten item
1.0
1
Saya tidak pernah sedih
3.4
2
Saya kadang-kadang sedih
4.1
3
Saya sering merasa sedih
4.4
4
Saya selalu merasa sedih

Penilaian asli pada item ini menyimpang secara substansial dari peringkat depresi yang disediakan. Hal ini juga jelas bahwa nilai-nilai skala sebenarnya terputus, melompat1,0-3,4 dan lebih tinggi. Sebuah pola yang sama seperti yang diamati untuk banyak item pada ketiga inventori, Russo (1994) menyimpulkan: hasil ini menunjukkan bahwa jika penilaian asli digunakan untuk tiga skala yang diperiksa, maka perbedaan antara kesejahteraan dan adanya depresi serta antara sedang dan parah akan sulit dibuat. Ketidaktepatan tersebut akan membuat sulit untuk menilai kemanjuran pengobatan untuk depresi, karena kesalahan pengukuran dan pengukuran ordinal. Kesalahan tersebut juga bisa mendatangkan malapetaka dalam studi longitudinal, terutama di memori yang terlibat.


3)            Metode Skala Absolute
Thurstone (1925) juga mengembangkan metode skala absolut, sebuah prosedur untuk mendapatkan ukuran kesulitan item yang mutlak berdasarkan hasil untuk kelompok usia yang berbeda dari pengambil tes. Metode untuk menentukan kesulitan masing-masing item pada skala mutlak cukup kompleks, meskipun alasan yang mendasari tidak terlalu sulit untuk dipahami. Pada dasarnya, satu set item tes umum diberikan untuk dua atau lebih kelompok umur. Kesulitan relatif dari item-item antara dua kelompok usia berfungsi sebagai dasar untuk membuat serangkaian perbandingan untuk semua item dan semua kelompok umur. Satu kelompok umur berfungsi sebagai kelompok jangkar, kesulitan item yang diukur dalam satuan yang umum seperti unit standar deviasi dari kemampuan untuk kelompok jangkar. Metode skala absolut secara luas digunakan dalam prestasi kelompok dan pengujian bakat (STEP. 1980; Donlon, 1984).
Thurstone (1925) menggambarkan metode skala absolut dengan data dari tes 3.000 sekolah di 65 pertanyaan dari tes Binet asli. Menggunakan rata-rata kecerdasan tes Binet dari 3,5 tahun anak-anak sebagai titik nol dan standar deviasi dari kecerdasan mereka sebagai unit pengukuran, ia membangun skala yang berkisar dari -2 sampai +10 dan kemudian terletak masing-masing 65 pertanyaan pada skala itu. Thurstone (1925) menemukan bahwa skala "mengungkapkan fakta bahwa pertanyaan-pertanyaan yang berkelompok pada rentang tertentu [kesulitan] dan agak langka pada rentang lain". Seorang pengembang tes modem akan menggunakan jenis analisis sebagai dasar untuk menjatuhkan item tes berlebihan (berlebihan dalam arti bahwa mereka mengukur pada tingkat kesulitan yang sama) dan menambahkan item lain yang menguji semakin tinggi (dan rendah) rentang kesulitan.


4)            Metode Skala Likert
Likert (1932) mengusulkan sebuah metode yang sederhana dan mudah untuk sikap skala yang banyak digunakan saat ini. Sebuah skala likert menyajikan ujian dengan lima tanggapan/responyang memerintahkan pada kontinum setuju/tidak setuju atau menyetujui / menolak. Tergantung pada kata-kata dari masing-masing item, jawaban ekstrim "sangat setuju" atau "sangat tidak setuju" akan menunjukkan respon yang paling menguntungkan pada sikap yang mendasari yang diukur dengan kuesioner. Likert (1932) memberi skor 5 untuk respon yang ekstrem, 1 pada ekstrim yang berlawanan, sedangkan 2, 3, dan 4 untuk respon menengah. Skala skor total diperoleh dengan menambahkan nilai dari setiap item. Untuk alasan ini, skala Likert juga disebut sebagai skala sumatif.

5)            Skala Guttman
Pada skala Guttman, responden yang mendukung satu pernyataan juga setuju dengan pernyataan ringan yang berhubungan dengan kontinum dasar yang sama (Guttman, 1944, 1947). Jadi, jika pemeriksa ujian tahu suatu dukungan yang paling ekstrim pada kontinum, juga mungkin untuk merekonstruksi respon menengah juga. Skala Guttman diproduksi dengan memilih item yang jatuh ke urutan memerintahkan dukungan ujian. Sebuah skala Guttman yang sempurna jarang dicapai karena kesalahan pengukuran, tapi tetap cocok untuk tujuan jenis tes tertentu.
Meskipun pendekatan Guttman awalnya dirancang untuk menentukan apakah suatu pernyataan sikap unidimensional, teknik ini telah digunakan dalam berbagai macam tes. Misalnya, Beck menggunakan jenis skala Guttman untuk menghasilkan item individual dari Beck Depression Inventory (BDI, Beck Steer, & Garbin, 1988;. Beck dkk, 1961). Item dari BDI menyerupai berikut ini:
(   )   Saya kadang-kadang merasa sedih
(   )   Saya sering merasa sedih
(   )    Saya sering merasa sedih
(   )   Saya selalu merasa sedih
Klien diminta untuk "memilih pernyataan dari masing-masing kelompok yang paling benar sesuai dengan kondisinya." Seorang klien yang mendukung alternatif yang ekstrim (misalnya, saya selalu merasa sedih dan aku tidak bisa tahan") hampir pasti setuju dengan pernyataan ringan.

6)            Metode Empiris Keying
Dalam metode empiris keying, item tes yang dipilih untuk skala didasarkan sepenuhnya pada seberapa baik mereka berbeda antara kelompok kriteria dari sampel normatif. Sebagai contoh, skala Depresi bisa berasal dari pertanyaan inventori kepribadian dengan pilihan salah-benardengan cara berikut:
*            Sebuah kelompok yang dipilih dengan cermat dan homogen dari pengalamanseseorang depresi utama adalah berkumpul untuk menjawab pertanyaan benar-salah.
*            Untuk setiap item, frekuensi dukungan dari kelompok depresi dibandingkan dengan pengukuhan frekuensi dari sampel normatif.
*            Item yang menunjukkan perbedaan besar dalam frekuensi dukungan antara depresi dan sampel normatif yang dipilih untuk skala depresi, keyed dalam arah yang disukai oleh subjek depresi (benar atau salah, yang sesuai).
*            Skor mentah pada skala depresi kemudian menyederhanakan angka pada jawaban item dalam keyed secara langsung.
Metode empiris keying dapat menghasilkan beberapa kejutan yang menarik. Temuan umum adalah bahwa beberapa item yang dipilih untuk skala mungkin menunjukkan ada hubungan yang jelas untuk konstruk pengukuran. Misalnya:  item seperti "Saya banyak minum air" (keyed benar) mungkin berakhir pada skala depresi. Alasan sesaat untuk memasukkan item ini diajukan peneliti adalah untuk menentukan mengapa item tersebut bekerja. Namun, dari pandangan praktis dari konstruk skala empiris, pertimbangan teoritis adalah kepentingan sekunder.

7)            Rasional Konstruksi Skala (Konsistensi Internal)
Rasional pendekatan konstruksi skala merupakan metode yang populer untuk pengembangan self report inventori kepribadian. Jantung dari metode skala rasional adalah bahwa semua item skala berkorelasi positif  satu sama lain dan juga dengan skor total untuk skala. Sebuah nama alternatif dan lebih tepat untuk pendekatan ini adalah konsistensi internal, yang menekankan apa yang sebenarnya dilakukan. Gough dan Bradley (1992) menjelaskan bagaimana pendekatan rasional meraih gelar deskriptifnya:  ide rasionalitas memasuki adegan dalam bahwa tema utama atau dimensi pemersatu diantarapembagian item adalah salah satu konseptualisasi yang diartikulasikan sebelumnya oleh pengembang pengukuran dan dari penskoran setiap item yang ditentukan dalam cara yang logis dan mudah dipahami. Misalkan: pengembang tes mengingankan: l) mengembangkan skala laporan diri baru untuk potensi kepemimpinan. Berdasarkan review dari literatur yang relevan, peneliti dapat menyimpulkan bahwa potensi kepemimpinan ditandai dengan kepercayaan diri, ketahanan dalam tekanan, kecerdasan tinggi, mempengaruhi, ketegasan, dan kemampuan untuk merasakan apa yang orang lain pikirkan dan rasakan. Gagasan ini menunjukkan bahwa item benar-salah berikut mungkin berguna dalam penilaian potensi kepemimpinan (Gough & Bradley, 1992):
1)            Saya umumnya merasa yakin pada diri sendiri dan percaya diri (T)
2)            Ketika orang lain tidak setuju dengan saya, saya biasanya hanya diam atau menyerah (F)
3)            Saya percaya bahwa saya mempunyai kemampuan intelektualdi atas rata-rata (T)
4)            Saya sering merasa bahwa saya memiliki pemahaman yang buruk tentang bagaimana orang lain akan bereaksi terhadap hal-hal(F)
5)            Teman-teman saya mungkin akan menggambarkan saya sebagai orang yang kuat (T)
T dan F setelah setiap pernyataan menunjukkan arah rasional untuk potensi kepemimpinan. Tentu saja, item tambahan dengan niat yang sama juga akan diusulkan. Pengembang tes dapat dimulai dengan 100 item yang muncul untuk menilai potensi kepemimpinan. Item awal ini akan diberikan kepada sampel besar individu mirip dengan populasi sasaran untuk siapa skala dimaksudkan. Sebagai contoh, jika skala ini dirancang untuk mengidentifikasi mahasiswa dengan potensi kepemimpinan, maka harus diberikan ke bagian lintas beberapa ratus mahasiswa. Untuk pengembangan skala, sampel yang sangat besar yang diinginkan. Dalam kasus hipotetis, mari kita asumsikan bahwa kita memperoleh hasil untuk 500 mahasiswa.
Langkah berikutnya dalam konstruksi skala rasional adalah untuk mengkorelasikan skor pada masing-masing item awal dengan total skor pada tes untuk 500 subyek dalam sampel uji coba. Karena nilai pada item yang dikotomis (l sewenang-wenang ditugaskan untuk jawaban yang sesuai pada kunci scoring, 0 sampai alternatif), koefisien korelasi biserial juga diperlukan. Setelah korelasi yang diperoleh, peneliti memerikasa daftar dalam mencari korelasi yang lemah dan pembalikan (korelasi negatif). Item-item ini dibuang karena mereka tidak memberikan kontribusi terhadap pengukuran potensi kepemimpinan. Sampai setengah dari item awal mungkin dibuang. Jika sebagian besar item yang awalnya dibuang, peneliti dapat menghitung ulang item-total korelasi berdasarkan item yang dikurangi untuk memverifikasi homogenitas dari item yang tersisa. Item yang bertahan/tersisa ini merupakan prosedur iterasi skala potensi kepemimpinan. Pendekatan rasional untuk konstruksi skala hanya menghasilkan skala homogen untuk pengukuran konstruk yang spesifik. Studi tambahan dengan sampel subjek baru akan diperlukan untuk menentukan reliabilitas dan validitas skala baru.

c)             Penentuan Format Item

Ada dua kategori dasar dari item: (1) constructed-response items dimana subjek ditunjukkan dengan stimulus dan hasil respon ujian essai dan tes penyelesaian kalimat adalah dua contoh; (2) selected-response items dimana subjek memilih yang benar atau respon terbaik dari daftar pilihan, pertanyaan multiple choice pilihan adalah contoh yang baik. Adapun di bawah ini adalah tipe-tipe item :
a.             Multiple choice. Ini adalah jenis yang umum, terdiri dari satu pertanyaan
dan pilihan respon, biasanya empat atau lima, yang menjadi
kemungkinan jawabannya. Item multiple-choice harus menilai konten tertentu, daripada kosakata atau kecerdasan umum. Pilihan salah, disebut distractors, harus sama-sama menarik bagi pengambil tes, dan harus membedakan antara orang-orang yang tahu jawaban yang benar dan mereka yang tidak. Respon yang benar disebut keyed respon. Item multiple-choice yang digunakan dalam tes yang menilai fungsi psikologis seperti aspek depresi atau kepribadian, dalam hal ini tidak ada jawaban yang salah, tetapi respon yang benar adalah salah satu yang reflects apa yang tes nilai. Ada panduan yang tersedia untuk menulis item multiple-choice yang baik. Haladyna dan Downing (1989a; 1989b) mensurvei 46 buku-buku pelajaran dengan 43 aturan tentang bagaimana menulis item multiple-choice. Item multiple-choice dibangun dengan benar dapat mengukur tidak hanya pengetahuan faktual, tetapi juga memahami teori dan keterampilan dalam pemecahan masalah. Pada saat yang sama, tidaklah mudah untuk menulis item multiple-choice yang baik dengan isyarat tidak asing yang mungkin mengarah ke jawaban yang benar (seperti kata "semua di atas") dan dengan konten yang menilai keterampilan berpikir secara kompleks daripada hanya pengakuan terhadap memori hafalan materi.  Meskipun item pilihan multiple-choice ditulis empat atau lima pilihan, sejumlah penulis menyajikan bukti bahwa tiga pilihan item mungkin lebih baik (Ebel, 1969; Haladyna & Downing, 1994; Tuhan, 1944; Sidick, Barrett, & Doverspike,1994).
Item multiple-choice memiliki sejumlah keuntungan. Testee dapat dijawab dengan cepat, jadi tes tertentu dapat mencakup lebih banyak item dan oleh karena itu bisa cakupan itemnya bisa lebih luas.  Dapat mencetak dengan cepat dan murah, jadi hasil yang diperoleh dengan cepat dan umpan balik yang diberikan tanpa banyak penundaan. Tersedia juga komputerisasi/statistik yang memungkinkan perhitungan item yang sulit  dengan cepat. Disamping itu item multiple-choice juga mempunyai kekurangan, yaitu bahwa soal multiple-choice membuat fakta terisolasi untuk konseptual pemahaman, dengan demikian mereka menggunakan strategi hafalan daripada keterampilan problem solving.
b.             True-false. Biasanya, ini terdiri dari sebuah pernyataan bahwa subjek mengidentifikasi sebagai benar atau salah, benar, atau salah, dan seterusnya. Misalnya:
Los Angeles adalah ibukota dari California.
Saya menikmati pertemuan sosial.
Perhatikan bahwa dalam contoh pertama, pernyataan faktual, ada jawaban yang benar. Dalam contoh kedua tidak ada, tetapi respon yang benar akan ditentukan secara teoritis atau secara empiris. Jika item merupakan bagian dari skala introversion-extraversion, jawaban yang benar mungkin mencetak untuk extraversion.
Dari sudut pandang psikometrik, pernyataan faktual benar-salah tidak sangat berguna. Menebak adalah faktor utama karena ada kemungkinan 50% menjawab benar dengan menebak, dan mungkin sulit untuk menulis makna item yang memang benar atau salah dalam semua keadaan.
Penulis item sering perlu menyertakan kata seperti biasanya, pernah, dan selalu yang dapat memberikan jawaban yang benar. Item benar-salah cukup sering digunakan dan ditemukan pada banyak instrumen utama. Kebanyakan buku berpendapat bahwa item benar-salah digunakan dalam pencapaian tes yang merupakan format item yang paling memuaskan. Pada buku lain berpendapat bahwa keterbatasan lebih pada kesalahan penilis daripada dengan format item itu sendiri.
c.              Analogi. Ini biasanya ditemukan dalam tes kecerdasan, meskipun mereka dapat digunakan dengan hampir semua materi pelajaran. Analogi bisa sangat mudah atau sulit dan dapat menggunakan kata-kata, angka, desain, dan format lainnya. Contoh
46 adalah 2, sedangkan 19 adalah.....
(a) 9, (b) 13, (c) 38, (d) 106
(dalam hal ini, jawabannya adalah 9, karena 4 × 6 = 24, 1 × 9 = 9).
Analogi mungkin atau tidak mungkin menjadi format multiple-choice meskipun menyediakan pilihan yang lebih baik strategi psikometrik. Seperti item multiple-choice, analogi memiliki hanya satu yang benar jawaban.
d.             Odd-man-out. Item-item ini terdiri dari kata-kata, angka, dll, di mana salah satu komponen ada yang berbeda/tidak sama dari yang lainnya. Contoh:
keledai, unta, domba, burung unta.
(Di sini burung unta tidak termasuk karena semua hewan lain memiliki empat kaki, sedangkan burung unta memiliki dua.)
Item ini dapat juga sangat bervariasi dalam tingkat kesulitannya dan kata-kata yang disajikan tidak terbatas. Inilah yang mendasari dimensi item yang mungkin tidak hanya menjadi dimensi, mungkin tidak selalu bermakna, dan mungkin tidak berhubungan dengan variabel yang sedang diukur.
e.             Sequences (urutan). Tterdiri dari serangkaian komponen, berhubungan satu sama lain, dengan item yang hilang pada bagian akhir yang dihasilkan oleh subjek atau diidentifikasi dari satu set pilihan ganda. Sebagai contoh: 6, 13, 17, 24, 28, .....
(a) 32, (b) 35, (c) 39, (d) 46
(Di sini jawabannya adalah 35 karena serangkaian angka meningkat secara bergantian oleh 7 poin dan 4 poin:
6 + 7 = 13; 13 + 4 = 17; 17 + 7 = 24; dll.
f.              Matching items. Tipe ini biasanya terdiri dari dua daftar item untuk dicocokkan. contoh:
Kota                                    Provinsi
1) Malang                            a) Jawa Barat
2) Bandung                         b) Jakarta
3) Solo                                c) Kalimantan Selatan
4) Banjarmasin                    d) Nusa Tenggara barat
5) Mataram                         e) Nusa Tenggara Timur
                                                     f) Jawa Tengah
                                                     g) Kalimantan Barat
                                                     h) Jawa timur
Pencocokan item dapat berguna dalam menilai fakta-fakta pengetahuan yang spesifik seperti nama-nama penulis dan novel, tanggal dan peristiwa-peristiwa sejarah, dan
seterusnya. Satu masalah dengan pencocokan item adalah yaitu ketidakcocokan satu komponen dapat mengakibatkan ketidakcocokan komponen lainnya, dengan demikian komponen tidak independen.
g.             Completion item. Item ini memberikan steam dan membutuhkan subjek untuk memberikan jawaban. Jika jawaban yang potensial diberikan, ini menjadi item pilihan ganda. Contoh dari item ini adalah:
Mr. Jayadi mendirikan laboratorium di tahun ini...........
Saya selalu ............................
Perhatikan bahwa kemungkinan respon di contoh pertama sangat terbatas; responden memberikan jawaban yang mungkin benar atau salah. Sedangkan dalam contoh kedua, responden yang berbeda dapat menyediakan tanggapan yang sangat berbeda. Kalimat penyelesaian item ini yang digunakan dalam beberapa tes kepribadian dan fungsi psikologis.
h.             Fill in the blank (mengisi yang kosong). Hal ini dapat dianggap sebagai sebuah varian penyelesaian/melengkapi item, yang dibutuhkan adlah tanggapan/respon responden yang datang dalam berbagai posisi.Contoh:
___________didirikan laboratorium psikologi pertama.
Mr. Wundt mendirikan  laboratorium di Universitas _______pada tahun____
i.               Forced  choice  items. Item ini terdiri dari dua atau lebih pilihan, disamakan sebagai daya tarik atau kualitas lain, dimana subjek harus memilih salah satu. Ini jenis item yang digunakan dalam beberapa tes kepribadian. Contoh:
Mana di bawah ini item terbaik yang mencirikan Anda:
(1) Saya suka pergi memancing sendiri.
(2) Aku suka pergi memancing dengan teman-teman.
Pilihan (1) merupakan reflect introversion, sementara pilihan (b) adalah reflect extraversion. Apakah responden memilih item seperti yang dimaksudkan, maka harus ditentukan secara empiris.
j.               Vignettes. Vignettes merupakan skenario singkat, seperti sinopsis sebuah drama atau novel. Subjek diminta untuk bereaksi dalam beberapa cara untuk sketsa/gambaran, mungkin dengan memberikan penyelesaian cerita, memilih dari satu set alternatif, atau membuat beberapa jenis penghakiman. Contoh-contoh studi vignettes yang digunakan G. Domino dan Hannah  (1987), yang meminta anak-anak Amerika Serikat dan Cina untuk menyelesaikan cerita singkat; DeLuty (1988-1989), yang memiliki siswa menilai penerimaan bunuh diri; Wagner dan Sternberg (1986), yang digunakan adalah sketsa untuk menilai apa yang mereka sebut dengan pengetahuan "diam-diam"; dan Iwao dan Triandis (1993), yang menilai stereotipe Jepang dan Amerika.
k.             Rearrangement or continuity items (penataan ulang atau kontinuitas item). Ini adalah salah satu jenis item yang relatif jarang namun memiliki potensi. Item ini mengukur pengetahuan seseorang tentang urutan dari serangkaian item. Contoh, ada daftar serangkaian nama, seperti Wilhelm Wundt, Lewis Terman, Arthur Jensen, dll, dan meminta testee untuk memberikan peringkat dalam urutan sebuah kronologis. Kesulitan dengan jenis item ini adalah penilaian. tapi Cureton (1960) telah memberikan solusi yang dapat digunakan dalam membuat prosedur penilaian/scoring yang relatif mudah yang menujukkan perbedaan antara jawaban seseorang dan kunci penilaian.
Beberapa Keuntungan Dan Kerugian Dari Berbagai Item Format

Format item
Keuntungan
Kerugian
Multiple-choice
a.    Dapat sample kesepakatan konten yang besar dalam waktu yang relatif singkat.
b.    Memungkinkan untuk memberikan interpretasi yang tepat dan sedikit "menggertak" Selain menebak. Ini. Memungkinkan lebih interpretasi skor tes validitas konten daripada format yang lain.
c.    Penscoran/penilaian bisa dengan mesin/komputer.
a.    Tidak memungkinkan untuk mengekspresikan pemikiran asli atau kreatif.
b.    Tidak semua subjek cocok untuk mereduksi salah satu dan hanya satu jawaban yang benar.
c.    Membutuhkan banyak waktu untuk membuat serangkaian item yang baik.

Binary-choice items
(seperti benar/salah)

a.    Dapat sampel konten yang besar konten dalam waktu yang relatif singkat.
b.    Tes terdiri dari item-item yang relatif mudah untuk mengkonstruk dan memberikan skor.
c.    Penscoran bisa dengan mesin/komputer.

a.    Kerentanan menebak tinggi, terutama untuk "test-wise" siswa yang dapat mendeteksi isyarat untuk menolak salah satu pilihan atau lain.
b.    Beberapa penggunaan kata seperti biasanya, dapat ditafsirkan berbeda-berbeda oleh siswa.
c.    Dapat digunakan hanya ketika sebuah pilihan bukan tanggapan yang dapat dibuat tanpa kualifikasi.
Matching
a.    Secara efektif dan efesien digunakan untuk mengevaluasi testee mengingat fakta-fakta yang terkait.
b.    Bermanfaat apabila ada sejumlah besar fakta pada satu topik.
c.    Dapat dibuat menyenangkan atau permainan
d.   Penscoran bisa dengan mesin/komputer
a.    Adanya item-item yang lain dalam format respon yang dipilih, testee perlu hanya mengenali jawaban yang benar dan tidak mengingat kembali soal itu.
b.    Salah satu pilihan yang dapat membantu menghilangkan salah satu dari pilihan yang lain sebagai respon yang benar.
c.    Memerlukan kolom terkait informasi dan kurangnya kebermanfaatan dengan ide-ide yang berbeda.
Completion or short answer (fill-in-the-blank)

a.    Area konten yang luas, terutama dari pertanyaan yang memerlukan ingatan tentang fakta-fakta, dapat sampel jumlah waktu yang relatif singkat.
b.    Jenis tes ini relatif mudah untuk dikonstruk.
c.    Berguna dalam mendapatkan gambaran tentang apakah testee mampu menjawab sejak ia mendapatkan respon.

a.    Berguna hanya dengan tanggapan dari satu kata atau beberapa kata.
b.    Mungkin menunjukkan hanya mengingat fakta-fakta atau pengetahuan yang sedikit.
c.    Potensi untuk masalah reliabilitas inter-scorer ketika tes dinilai oleh lebih dari satu orang.
d.   Mesin atau komputer tidak mungkin melakukan scoring.

Essay
a.    Berguna dalam mengukur tanggapan yang kompleks, imajinatif, solusi, aplikasi, dan demonstrasi.
b.    Berguna dalam mengukur seberapa baik testee mampu mengkomunikasikan ide secara tertulis.
c.    Memerlukan testee untuk menghasilkan seluruh respon , tidak hanya mengenali atau menyediakan satu/dua kata.

a.    Tidak mendapatkan sampel konten tes secara luas
b.    Testee dengan pengetahuan terbatas dapat bisa bingung, kadang-kadang jawabannya panjang, rumit dam mabigu/sulit dipahami.
c.    Tahan penskoran/penilaian dapat memakan waktu yang lama.
d.   Ketika penilaian lebih dari satu orang, persoalan reliabilitas inter-scorer akan muncul.
e.    Mungkin juga sangat bergantung pada kemampuan menulis.
f.     Mesin atau komputer tidak mungkin melakukan scoring/penilaian


3.             MENGKONSTRUK ITEM TES

Setiap tes yang dikembangkan secara implisit atau eksplisit dibangun dari teori. Teori mungkin sangat eksplisit dan formal. Sigmund Freud, Carl Rogers, Emile Durkheim, Erik Erikson, dan yang lainnya telah mengembangkan teori yang rinci tentang perilaku manusia atau beberapa aspek tertentu, dan seorang praktisi dari salah satu teori-teori ini akan menjadi mengambil teori itu dalam merancang tes. Sebagai contoh, seorang “Freudian” (penganut Freud) akan membangun skala untuk mengukur  fungsi "id, ego, dan superego "dan hanya"Durkheimite" akan mengembangkan skala untuk mengukur "anomie." Konsep-konsep ini terdapat pada masing-masing teori mereka sebagai variabel pengukuran yang berasal dari kerangka teoritis yang sudah mereka buat.
Teori  juga menghasilkan beberapa pedoman yang sangat spesifik. Sebagai contoh, teori depresi menyarankan bahwa depresi adalah gangguan dalam empat hal: harga diri, dukungan sosial, gangguan tidur, dan pengaruh negatif. Seperti skema yang kemudian akan menentukan bahwa ukuran depresi menilai masing-masing hal tersebut.
Teori mungkin juga kurang eksplisit dan tidak terlalu formal. Perancang tes melihat depresi sebagai keadaan yang sulit terdiri dari perasaan negatif terhadap diri sendiri,
penurunan kegiatan seperti makan dan berbicara dengan teman-teman, dan peningkatan pikiran negatif dan ide bunuh diri. Intinya adalah bahwa tes tidak dibuat dalam kekosongan tanpa teori. Perancang tes intrinsik berhubungan dengan orang yang mempunyai pandangan teori tersebut. Bahkan sebuah tes yang dikatakan "secara empiris" dikembangkan, yaitu dikembangkan dari pengamatan atau perilaku kehidupan nyata (bagaimana orang tertekan menjawab kuesioner tentang depresi), juga masih dipengaruhi oleh teori.
Notallpsychologistsagree.R.B.Cattell(1986) berpendapat bahwa sebagian besar tes yang kurang benar teori dasarnya, yang validitasnya dibuat setelah mengkonstruksi bukan sebelumnya, dan konstruksi teoritis awal kurang baik. Embretson (1985b) juga berpendapat bahwa meskipun upaya yang dilakukan saat ini telah menghasilkan tes yang baik untuk memprediksi perilaku, hubungan antara tes ini dan teori psikologis lemah dan sering tidak ada, (dalam Domino and Domino, 2006).
Pengembang tes akan mengkonsep satu atau lebih jenis perilaku yang diyakini untuk membuat konstruk dan mencoba memikirkan item-item yang menunjukkan perilaku tersebut agar bisa dibuktikan. Untuk memperluas, memperbaiki, atau memverifikasi pandangan konstruk yang akan diukur, pengembang tes harus terlibat dalam satu atau lebih dari kegiatan berikut:
a.         Analisis isi.
Dengan metode ini, pertanyaan-pertanyaan terbuka yang diajukan kepada subyek
tentang konstruk minat pada mata pelajaran, dan tanggapan mereka diurutkan ke dalam kategori secara topikal.
Topik yang terjadi terutama diambil sebagai komponen utama dari konstruk. Sebagai contoh, Jersild (1952) menyatakan hasil analisis komposisi konten oleh anak-anak yang menggambarkan diri mereka sendiri, dan kategori hasilnya pada basis untuk menghasilkan item secara luas menggunakan inventory yang dirancang untuk mengukur konsep diri anak-anak (Gordon, 1967; Dermaga dan Harris, 1964).
b.        Review penelitian.
Tingkah laku itu yang telah dipelajari oleh yang lain digunakan untuk mendefinisikan konstruk yang menarik. Pengembang tes mungkin menggunakan pendekatan eklektik atau pilih satu teori tertentu dalam menentukan kategori  prilaku untuk direpresentasikan oleh item tes.
c.         Critical Incident.
Daftar perilaku yang diidentifikasi mempunyai karakteristik yang ekstrem pada kontinum performance untuk membangun minat. Metode ini biasanya diatribusi Flanagan (1954), yang meminta pengawas pekerjaan untuk menggambarkan situasi dimana karyawan telah bekerja secara efektif atau tidak. Dengan demikian dihasilkan daftar "perilaku kritis" untuk menggunakan menilai performance pekerjaan.
d.        Pengamatan langsung.
Pengembang tes mengidentifikasi perilaku dengan observasi langsung. Sebagai contoh, konselor kejuruan, mengembangkan inventory untuk menilai kaitan pekerjaan dan stress dalam pekerjaan yang beresiko tinggi, mungkin akan menemukan bahwa observasi secara aktual kepada para pekerja di tempat kerja akan membantu mengidentifikasi situasi yang berpotensial sebagai sumber stres.
e.         Ahli Judgment.
Pengembang tes memperoleh masukan dari satu atau lebih individu yang mempunyai pengalaman dalam konstruk tes. Pengumpulan informasi bisa melalu kuesioner atau wawancara. Misalnya, psikolog yang ingin mengembangkan checklist untuk menilai kinerjastaf perawat di rumah sakit besar dapat dilakukan dengan survei sekelompok pengawas perawat untuk mengidentifikasi jenis kinerja yang harus disertakan.
f.         Instruction Objectives.
Ahli dalam subjek diminta untuk meninjau materi instruksional dan mengembangkan satu set tujuan instruksional ketika tes belajar/prestasi dikembangkan.  Tujuan pengajaran secara spesifik pada perilaku yang observable (dapat diamati) bahwa siswa harus mampu menunjukkan setelah menyelesaikan tugas.
Dalam skema tes konstruksi, pertimbangan yang berkaitan dengan menulis sebenarnya item tes berjalan seiring dengan skala pertimbangan. Pengembang tes akan dihadapkan pada tiga pertanyaan yang berhubungan dengan blue print: (a) Berbagai macam konten apa saja harus mencakup item?, (b) Perbedaan tipe format item yang dikerjakan?, dan (c) Bagaimana banyak item harus ditulis secara keseluruhan dan untuk masing-masing wilayah konten yang dibuat?. Adapun karakteristik beberapa item yang baik : item soal harus situasi yang alami, pertanyaan/pernyataan tidak terlalu panjang, tidak terlalu sulit, dan sebaiknya tidak menggunakan kata-kata/frase yang teknis dan bias budaya.
Langkah pertama dalam proses merancang tes adalah menggeneralisasikan tabel spesifikasi/blue print dari konstruk yang telah dibuat. Walaupun telah ada beberapa upaya untuk belajar menulis item (cantor, 1987; Comrey, 1988; Holden & fekken, 1990), sedikit perhatian telah diberikan tentang menulis item dibandingkan dengan aspek-aspek lain dari item tes dalam mengembangkan tes. Mengapa hal ini terjadi tidak benar-benar jelas. Barangkali karena menulis item sering dilihat sebagai seni dari ilmu pengetahuan. Pandangan ini menggambarkan, pengembang tes sering mengandalkan prosedur analisis statistik item untuk membantu mereka mengidentifikasi dan menghilangkan item yang jelek, dengan kata lain berfokus pada bagaimana memperbaiki proses menulis item itu sendiri. Mereka bekerjadengan asumsi bahwa banyak percobaan dan kesalahan dalam menulis, akhirnya subset dari item dapat mengidentifikasi yang akan mengukur sifat yang bersangkutan.

Contoh tulisan item yang jelek dan yang baik

Item yang jelek (Poorly written item)
Item yang baik (Well written items)
Hal ini tidak diterima untuk mengatakan tidak ketika diminta untuk memberikan amal
Hal ini dianggap sebagai perilaku buruk untuk menolak permintaan sumbangan amal
Saya tidak percaya bahwa semua hukum kita baik untuk warga negara ini
Saya pikir beberapa hukum berbahaya bagi warga negara tertentu
Jika Anda meminta, orang tidak akan memberitahu Anda apa yang mereka pikirkan tentang sebagian besar waktunya
Saya percaya bahwa orang cenderung menjaga pikira pribadi mereka

Salah satu faktor tambahan bagi pengembang tes semakin diperhitungkan dalam menulis item tentang jenis kelamin, ras, atau bahasa yang menghina. Walaupun bahasa yang mengihna itu secara terang-terangan  relatif mudah untuk mendeteksi dan menghilangkan, nuansa linguistik yang halus sering diabaikan dan tidak dianggap menghina oleh pengembang. Sebuah kasus pada poin yang melibatkan tes minat pada pekerjaan yang mengandung referensi hanya untuk satu jenis kelamin saja, misalnya, menggunakan istilah "mailman" bukannya "mailcarrier" atau "fireman" daripada "firefightet". Walaupun G.S Gottfedson (1976) menjelaskan tentangpengaruh data bahwa bahasa yang spesifik pada jender tidak memberikan pengaruh besar pada skor tes minat, namun demikian, jika itu menunjukkan sikap condong pada satu jenis kelamin saja atau menyebabkan beberapa orang bereaksi negatif terhadap tes itu, maka lebih baik dihilangkan. Metode terbaik untuk menghilangkan masalah yang ada pada item yang tertulis adalah untuk mencobanya pada populasi sampel. Pengembang tes biasanya memulai dengan item tabel spesifikasi atau blue print dan item yang tidak dapat diterima sampai memuaskan.

4.             UJI COBA TES (TEST TRYOUT)

Setelah membuat butir-butir pernyataan sebagai item dalam suatu tes, pengembang tes akan melakukan uji coba atau tryout. Tes seharusnya diujicobakan kepada individu-individu yang menyerupai (similar) individu atau kelompok yang secara khusus tes ini dibuat. Terdapat 2 jenis uji coba, yaitu: ujicoba terbatas (preliminary tryout) dan ujicoba aktual (actual tryout). Ujicoba terbatas merupakan ujicoba tes kepada kelompok kecil biasanya berkisar antara 15% - 20% jumlah sampel yang diteliti. Sedangkan ujicoba aktual merupakan ujicoba yang dilakukan dengan jumlah yang lebih besar. Menurut Guilford (1954) jumlah peserta tes dalam ujicoba aktul kurang lebih 400 peserta.

No comments:

Post a Comment