top of page
Search

Preprocessing Data: Missing Value Analysis

Writer's picture: Alvita RdAlvita Rd

Saat kita belajar Data Mining, hal pertama yang perlu diperhatikan sebelum memulai analisis adalah preprocessing data. Preprocessing data adalah suatu proses mentransformasi data mentah menjadi suatu format yang lebih efektif dan berkualitas untuk kepentingan pengguna. Kenapa ini penting? Karena pada umumnya, data mentah masih mengandung noise (eror atau outlier), tidak lengkap atau tidak konsisten. Salah satu tahapan dalam preprocessing data adalah analisis missing value.


Data yang memiliki banyak missing value akan menyebabkan hasil analisis yang bias. Jadi bagaimana jika data yang anda teliti mengandung missing value? Ada beberapa tindakan yang bisa dilakukan untuk mengatasi missing values. Cara-cara yang umum dilakukan antara lain:


1. membiarkan data apa adanya.

Ini bisa dilakukan ketika: Satu, jumlah data dengan missing value sedikit. Dua, missing value pada umumnya tidak bersifat random.


2. menghapus pengamatan yang mengandung missing value.

Kerugiannya, ukuran sampel data akan berkurang. Tidak masalah apabila kita memiliki data dengan ukuran sampel yang besar, tapi jika data kita tidak cukup besar, hal tersebut tentu menyebabkan tidak cukupnya subyek yang bisa dianalisis. Ketika data kita cukup besar tetapi jumlah missing value sangat banyak, menghapus pengamatan dengan missing value tentunya secara signifikan mengurangi ukuran sampel kita.


3. mengganti missing value dengan suatu nilai tertentu, yang biasa disebut dengan imputasi. Ada beberapa metode imputasi, antara lain listwise, pairwise, EM, dan regresi. Beberapa orang menggunakan mean sebagai pengganti missing value. Ada juga yang menggunakan K-Nearest Neighbor (KNN) untuk imputasi missing value, dan metode-metode lainnya. Bagaimanapun, setiap peneliti memiliki pertimbangan sendiri dalam mengambil keputusan analisis datanya.


SPSS sendiri menyediakan menu untuk melakukan imputasi missing value. Pada post selanjutnya, saya akan membahas imputasi missing value menggunakan Multiple Imputation dengan SPSS, juga mengenai analisis pola missing value.


Salam data!

472 views0 comments

Recent Posts

See All

Comments


Post: Blog2_Post
bottom of page