Lompat ke konten Lompat ke sidebar Lompat ke footer

Pentingnya Mengecek Data Outlier Sebelum Analisis Regresi Linier

Analisis regresi linier menjadi pilihan banyak peneliti yang ditujukan untuk menganalisis pengaruh variabel bebas terhadap variabel terikat. Untuk memperoleh hasil estimasi yang konsisten, tidak bias, dan memiliki keakuratan model, maka kualitas data yang digunakan akan sangat menentukan. 

Mungkin kamu pernah mendengar data outlier? Ya, data outlier ini hingga kini menjadi salah satu tantangan tersendiri ketika peneliti sudah memperoleh data dan akan melakukan analisis regresi linier. Tahukah kamu, keberadaan data outlier ini akan mempengaruhi hasil analisis regresi kita. 

Bisa saja, dengan adanya data outlier dapat mengurangi keandalan model dan bahkan dari beberapa uji asumsi klasik menjadi tidak memenuhi syarat. Oleh karena itu, penting bagi peneliti untuk mendeteksi dan menangani data outlier sebelum mulai melakukan analisis regresi linier. 

Hal ini melatarbelakangi saya pada kesempatan ini untuk menuliskan sebuah artikel yang membahas mengenai pentingnya mengecek data outlier sebelum melakukan analisis regresi linear. Sebelumnya, mari kita pahami terlebih dahulu mengenai data outlier. 

Memahami data outlier

Banyak peneliti yang menyatakan bahwa data outlier itu merupakan data yang secara signifikan berbeda dari pola data lainnya. Memang benar hal tersebut, bahwa secara prinsip outlier ini merupakan titik data yang nilainya jauh lebih besar atau jauh lebih kecil dibandingkan dengan sebagian besar data lainnya dalam data set yang kita miliki. 

Jumlah keberadaan data outlier dengan jumlah yang cukup signifikan tentunya hal ini akan mengganggu dari keandalan model regresi yang kita bangun. Lalu mungkin kamu akan bertanya, data outlier ini muncul dari mana? Padahal ketika kita menyusun spesifikasi persamaan dalam proposal penelitian, sudah berangkat dari teori dasar dan hasil-hasil penelitian terdahulu. 

Kamu perlu memahami bahwa bisa saja munculnya data outlier adalah dikarenakan adanya kesalahan pengukuran. Misalnya ketika kamu mengukur produksi padi di mana sebagian besar kamu ukur dalam satuan kg, ternyata ada 5 data yang ternyata diukur menggunakan satuan ton. Hal ini tentu akan menyebabkan data yang diukur menggunakan satuan ton akan menjadi outlier pada keseluruhan dataset yang semuanya diukur dalam satuan kg. 

Selain itu data outlier juga dapat muncul kalau kita melakukan kesalahan dalam input data manual. Misalkan kita menginput data dari kuesioner, kemudian kita Input ke dalam excel namun terjadi kesalahan input. Ketika menginput data pendapatan, kita kelebihan dalam menuliskan angka dari yang seharusnya. Hal ini juga menjadi potensi adanya data outlier. 

Selain dari hal-hal tersebut, data outlier juga dapat disebabkan karena memang adanya variasi alami dalam data. Meskipun kita sudah benar dalam melakukan pengukuran variabel dan entri data juga sudah dilakukan dengan benar, namun ini benar-benar terjadi variasi alami yang menyebabkan terjadinya data outlier. Hal ini bisa saja terjadi terutama dalam bidang yang memiliki distribusi data yang luas. 

Selain itu, kamu juga perlu memahami bahwa ada juga penyebab faktor eksternal yang tidak terduga misalnya adanya faktor cuaca yang ekstrem atau perubahan ekonomi yang membuat munculnya data outlier. Misalnya ketika kita mengukur menggunakan data time series untuk pertumbuhan ekonomi, namun ada satu waktu ketika terjadi pandemi COVID-19 yang menyebabkan pertumbuhan ekonominya itu menjadi data outlier dibandingkan dengan keseluruhan dataset yang ada. 

Jadi data outlier itu bisa saja merusak kualitas model regresi linear kita. Namun demikian, pada variasi alami data, outlier juga dapat memberikan wawasan tambahan yang memperkaya hasil penelitian kita. Oleh karena itu, penting bagi kita untuk memahami apakah data outlier itu perlu dihapus, dikoreksi, atau justru tetap dimasukkan dalam analisis regresi linear. 

Contoh data outlier pada analisis regresi linier

Mungkin kamu sudah bisa menangkap mengenai contoh data outlier dari yang telah saya sampaikan pada paragraf diatas. Namun, untuk memahami lebih mendalam saya akan berikan contoh konkrit mengenai data outlier pada variabel yang kita gunakan. 

Misalkan kita akan mengamati variabel jumlah kepemilikan lahan petani di wilayah ABC, sebagian besar petani memiliki lahan berkisar antara 0,25 sampai dengan 6 hektar. Namun demikian, ternyata ada responden petani yang memiliki lahan sebanyak 20 hektar, tentunya data ini akan menjadi outlier  bagi dataset yang telah kita kumpulkan. 

Contoh lainnya adalah ketika ada seorang peneliti yang ingin mengamati pengaruh jumlah jam belajar terhadap nilai ujian mahasiswa. Dalam dataset sebagian besar mahasiswa belajar antara 1 hingga 10 jam dengan nilai ujian berada antara 50 sampai dengan 100. 

Namun ada satu mahasiswa yang belajar hanya 1 jam tapi bisa memperoleh nilai 100 sementara siswa lain dengan pola yang sama yaitu belajar 1 jam mendapatkan nilai lebih rendah yaitu 50. Nah, kasus seperti ini dapat dianggap sebagai data outlier. 

Deteksi data outlier 

Sebetulnya kita juga dapat mengidentifikasi data outlier dengan menggunakan visualisasi sederhana, misalnya kita membuat scatter plot. Jika berdasarkan hasil scatter plot menunjukkan mayoritas data mengikuti pola linier tetapi ada beberapa titik yang jauh dari pola data, itu mungkin ada data outlier. 

Selain itu, kamu juga bisa menggunakan box plot untuk melihat distribusi data dan mengidentifikasi apakah ada nilai ekstrim dalam dataset yang kita miliki. Itu juga akan berfungsi untuk melihat visualisasi sederhana dalam mendeteksi data outlier.

Selain menggunakan visualisasi, kita juga dapat mendeteksi data outlier dengan menggunakan metode statistik seperti menghitung nilai z score. Dengan menghitung z score kita dapat mendeteksi, kalau nilainya lebih besar dari plus minus 3, mungkin dapat dianggap sebagai data outlier. Selain itu, kamu juga dapat menghitung nilai interkuartil range untuk deteksi data outlier. 

Dampak data outlier pada hasil analisis regresi linier

Seperti yang saya sampaikan di awal artikel ini bahwa data outlier dapat mengganggu tercapainya hasil estimasi yang konsisten. Artinya dengan keberadaan data outlier akan mempersulit kita untuk memperoleh best linier unbiassed estimator. 

Data outlier yang tidak ditangani dengan baik dapat mempengaruhi koefisien regresi. Bisa saja keberadaan data outlier dapat mengubah arah dari koefisien regresi atau magnitude koefisien variabel bebas. Selain itu, dengan dengan adanya data outlier juga dapat berpotensi menyebabkan uji asumsi klasik tidak terpenuhi. Selain itu ada juga potensi menurunnya nilai koefisien determinasi dan kesalahan prediksi. 

Hal yang perlu dilakukan jika banyak terdapat data outlier

Jika ditemukan banyak outlier dalam dataset yang kita miliki, maka kita perlu melakukan investigasi penyebab munculnya data outlier tersebut. Pertama periksa apakah data outlier yang ada tersebut merupakan karena adanya kesalahan input atau memang data sebenarnya yang memiliki kondisi khusus. 

Jika karena terjadi kesalahan input maka segera perbaiki data tersebut dan jika karena kondisi khusus dan itu dapat mengganggu model, maka sebaiknya kita bisa mengganti dengan responden yang memiliki karakteristik mirip dengan sebagian besar sampel yang kita ambil. 

Langkah berikutnya yang dapat kita lakukan yaitu melakukan transformasi data untuk mengurangi dampak outlier pada dataset yang kita miliki. Kita dapat menggunakan transformasi logaritma natural jika memang data outlier. Disamping itu, kita juga dapat mempertimbangkan untuk menggunakan regresi yang lebih tahan data outlier misalnya regresi kuantil atau regresi Ridge. 

Lalu alternatif terakhir adalah jika data outlier ini tidak memiliki nilai informasi yang berguna dan hanya merusak analisis maka dapat dipertimbangkan untuk menghapusnya. Namun demikian, kamu juga perlu hati-hati untuk menghindari munculnya bias dalam data

Baik, berdasarkan yang telah saya tulis pada artikel ini, maka dapat kita simpulkan bahwa mengecek data outlier sebelum melakukan analisis linear merupakan langkah penting untuk menjamin keandalan model regresi kita. Data outlier ini dapat berdampak signifikan terhadap model regresi, maka kita perlu mendeteksinya, salah satunya dengan visualisasi data atau dengan menggunakan metode statistik. 

Langkah terakhir kamu perlu melakukan eksplorasi data secara meluruh sebelum memutuskan apakah data outllier harus dikoreksi, dihapus, atau tetap dimasukkan dalam analisis. Baik, demikian artikel yang dapat saya tulis pada kesempatan ini. Semoga bermanfaat dan menambah wawasan bagi kita semua

Jika ada pertanyaan atau hal yang ingin didiskusikan, silahkan jangan ragu untuk menyampaikannya pada kolom komentar di bawah artikel ini. Terima kasih telah membaca artikel ini, sampai jumpa pada artikel Priyono id di pekan berikutnya. 
priyono.id
priyono.id Peneliti dan Founder KANDA DATA. Portofolio: (1) Youtube: Kanda Data; (2) Tiktok: Kanda Data; (3) Instagram: Kanda Data; (4) Website: http://www.kandadata.com/

Posting Komentar untuk "Pentingnya Mengecek Data Outlier Sebelum Analisis Regresi Linier"

Jasa Bimbingan Online