top of page
Search

Deteksi dan Imputasi Missing Values

Writer's picture: Alvita RdAlvita Rd

Sebelumnya, kita sudah membahas sedikit tentang missing values. Di postingan ini, kita akan berlatih mengenai imputasi missing values menggunakan SPSS.


Data yang saya gunakan adalah data Pima Indians Diabetes Database yang dapat diunduh disini. Terdapat 768 data dengan obyek penelitian adalah wanita keturunan Pima Indian yang berusia setidaknya 21 tahun. Variabel yang digunakan adalah Number Times of Pregnant (X1), Glucose Concentration (X2), Diastolic Blood Pressure per mmHg (X3), Triceps Thickness per Mm (X4), Serum Insulin (X5), Body Mass Index (X6), Diabetes Pedigree Function (X7), Age/Umur (X8), Variabel Kelas (0 atau 1) (Y).

Berikut tampilan datanya:

Baris 1-9 merupakan keterangan dari tiap variabel yang digunakan. Untuk lebih mudahnya, susun data dengan tampilan di bawah ini. Tampak terlihat missing value yang masih bernilai nol.

Agar dalam analisis nilai 0 tersebut dideteksi sebagai sebuah missing value, maka nilai tersebut dibuat menjadi kosong. Tidak perlu menghapus satu persatu nilai 0 tersebut karena tentunya akan memakan waktu yang sangat lama. Buat kolom baru di sebelah kanan data tadi, kemudian untuk variable X2 sampai X8, ketik formula IF seperti yang saya tampilkan di layar, lalu drag sampai bawah. Kenapa X1 dan Y tidak perlu diganti nilai 0-nya dengan kolom kosong? Karena variable X1 menjelaskan berapa kali responden hamil, dan masuk akal apabila responden belum pernah hamil sehingga diberikan nilai 0. Sementara variable Y sendiri memang dibagi menjadi kelas 0 dan 1.


Pindahkan data yang mengandung missing value tersebut ke SPSS. Tahapan pertama yang perlu kita lakukan adalah melihat pola data dan memutuskan apakah missing data berpola sistematik atau random.


Pilih Analyze -> Multiple Imputation -> Analyze Patterns

Pindahkan variable predictor ke Analyze Across Variables. Pada kolom minimum percentage missing for variable to be displayed, default-nya adalah 10%. Untuk kasus ini, kita akan mengganti menjadi 0,01.

Beberapa orang tidak mempersalahkan apabila missing value<5%. Tetapi, pada data ini, semua missing data akan dicoba dievaluasi untuk melihat apakah ada pola tertentu.

Klik OK, lalu akan keluar Output sebagai berikut:

Pada Overall Summary of Missing Values, warna biru merupakan data lengkap, sedangkan warna hijau adalah data yang tidak lengkap. Di pie chart variables, ada 5 variabel yang mengandung missing value dan 3 variabel yang lengkap. Pada pie chart values, kurang lebih 10% dari data merupakan missing value.

Kotak-kotak merah menandakan missing value. Apabila letak kotak tersebut berpencar, artinya missing value bersifat random. Dari output di atas, dapat disimpulkan bahwa untuk data ini missing value adalah random.


Tahapan selanjutnya adalah proses imputasi. Disini, kita akan menggunakan Multiple Imputation, yaitu proses mencari missing data dan mencoba mensimulasikan. Hal ini membutuhkan beberapa iterasi yang menghasilkan beberapa hasil. Tujuannya adalah untuk mendapatkan iterasi dengan hasil terbaik. Metode yang digunakan adalah Metode Regresi

Pertama, klik Transform -> Random Number Generators

Pilih Set Active Generators, lalu klik pada Mersenne Twister. Ini merupakan program untuk men-generate angka random.

Pilih Set Starting Point, lalu klik Fixed Value.

Kemudian untuk proses imputasi, pilih Analyze -> Multiple Imputation -> Input Missing Data Values.

Masukkan variabel yang mengandung missing value ke Variables in Model.

Pada kolom imputation, pilih banyaknya imputasi yang diinginkan. Disini, saya mengetikkan 5, artinya akan dilakukan 5 imputasi atau simulasi yang dilakukan secara berurutan dimana pada tiap-tiap simulasi menghasilkan suatu nilai. Nilai yang akan dimasukkan ke data nantinya merupakan nilai rata-rata dari kelima hasil imputasi.

Klik pada create a new dataset dan beri nama dataset yang baru.

Klik tab Method. Pilih Automatic.

Klik tab Constrains. Klik Scan data. Ada beberapa data yang memiliki bataas nilai minimal dan maksimal, seperti umur dan body mass index punya nilai minimal 0.


Pada tab Output, klik pada imputation model, descriptive statistics dan create iteration history.

Lalu OK.


Hasil imputasi dapat dilihat pada output berikut


2,212 views0 comments

Recent Posts

See All

Comments


Post: Blog2_Post
bottom of page