Apa itu Data Outlier? Pengertian, Penanganan & Jenisnya
Muthiatur Rohmah
•
18 July 2024
•
14767
Dalam proses analisis data, kita akan sering menjumpai kasus data outlier, lantas apa itu?
Data outlier adalah nilai yang berbeda jauh dari mayoritas data lainnya dalam suatu set, dan keberadaannya dapat memberikan informasi yang berharga atau sebaliknya, menunjukkan adanya kesalahan atau anomali.
Memahami dan mengelola data outlier merupakan hal yang penting bagi data analyst, sebab dapat mempengaruhi hasil analisis dan model prediktif secara signifikan.
Penasaran lebih lanjut mengenai data outlier? Apa saja jenis data outlier? Bagaimana cara menangani data outlier yang tepat? Yuk simak selengkapnya pada artikel ini.
Apa itu Data Outlier?
Sebelum kita membahas lebih lanjut mengenai data outlier, pertama-tama yuk pahami dulu apa yang dimaksud data outlier melalui beberapa pengertian berikut ini.
Dilansir dari FreeCodeCamp, Data outlier adalah nilai data yang sangat berbeda dari nilai-nilai lainnya dalam suatu dataset.
Misalnya dalam grafik penjualan bulanan, dan penjualan di bulan Januari jauh lebih rendah dibandingkan dengan bulan-bulan lainnya. Penjualan di bulan Januari ini disebut sebagai outlier karena nilainya jauh dari nilai-nilai lainnya dalam dataset tersebut.
Data Outlier bisa menunjukkan adanya kesalahan atau sesuatu yang unik dan perlu diperhatikan dalam analisis data. Data Outliers dapat mempengaruhi hasil analisis statistik dan model prediktif, sehingga langkah-langkah yang tepat perlu diambil untuk menanganinya.
Penyebab Munculnya Data Outlier
Outliers adalah nilai yang sangat berbeda dari nilai-nilai lainnya dalam dataset dan bisa muncul karena berbagai alasan. Lantas apa saja penyebab munculnya data outlier?
1. Kesalahan Pengukuran atau Entri Data
Kesalahan dalam proses pengukuran atau kesalahan saat memasukkan data dapat menghasilkan nilai yang sangat tinggi atau sangat rendah dibandingkan dengan nilai lainnya.
Misalnya, jika suhu yang seharusnya dicatat sebagai 25 derajat Celsius malah dicatat sebagai 250 derajat Celsius, maka nilai tersebut menjadi outlier.
Kesalahan ini bisa disebabkan oleh alat pengukur yang tidak kalibrasi dengan benar atau human error saat memasukkan data ke sistem.
2. Variasi Alami
Dalam beberapa kasus, variasi alami dari fenomena yang sedang diukur bisa menyebabkan kemunculan outliers.
Misalnya, dalam studi cuaca, kejadian cuaca ekstrem seperti badai besar atau suhu yang sangat rendah bisa menjadi outlier. Variasi alami ini adalah bagian dari data dan mencerminkan kejadian yang jarang terjadi namun mungkin penting untuk dianalisis lebih lanjut.
3. Kejadian Khusus atau Langka
Terkadang, data outlier muncul karena adanya kejadian yang langka atau unik yang tidak biasa terjadi dalam dataset.
Misalnya, peningkatan penjualan yang tiba-tiba karena adanya promosi besar-besaran atau diskon spesial bisa menyebabkan nilai penjualan pada bulan tersebut menjadi outlier.
Kejadian khusus ini bisa memberikan wawasan penting mengenai faktor-faktor yang mempengaruhi data.
Mengidentifikasi penyebab kemunculan outliers sangat penting dalam analisis data. Penanganan data outlier yang tepat adalah kunci untuk mendapatkan hasil analisis yang akurat dan andal.
Pentingnya Mendeteksi Data Outlier
Dengan memahami penyebab munculnya data outlier, seorang data analyst dapat mendeteksi data outlier dengan cepat. Lantas mengapa penting mendeteksi data outlier?
Yuk simak alasan di balik pentingnya mendeteksi data outlier berikut ini.
1. Meningkatkan Akurasi Analisis
Outliers dapat mempengaruhi hasil analisis statistik dan model prediktif. Jika outliers tidak dideteksi dan diatasi, mereka dapat menyebabkan estimasi yang tidak akurat, mengubah nilai rata-rata, dan distorsi dalam analisis.
Mendeteksi data outliers membantu memastikan bahwa hasil analisis lebih mencerminkan keadaan sebenarnya dari data yang dianalisis.
2. Identifikasi Kesalahan Data
Data Outlier sering kali menandakan adanya kesalahan dalam pengumpulan atau entri data. Dengan mendeteksi outliers, kita dapat mengidentifikasi dan memperbaiki kesalahan tersebut sebelum melakukan analisis lebih lanjut.
Hal ini penting untuk menjaga integritas data dan mencegah kesimpulan yang salah berdasarkan data yang salah.
3. Pengambilan Keputusan yang Lebih Baik
Mendeteksi data outlier dapat memberikan wawasan penting yang membantu dalam pengambilan keputusan.
Misalnya, outliers dalam data penjualan bisa menunjukkan keberhasilan atau kegagalan strategi pemasaran tertentu. Dengan memahami dan menganalisis outliers, pemimpin bisnis dapat membuat keputusan yang lebih baik dan lebih tepat.
4. Meningkatkan Kinerja Model Prediktif
Model prediktif yang dibangun menggunakan data dengan outliers yang tidak ditangani dapat memiliki kinerja yang buruk. Outliers dapat menyebabkan model menjadi terlalu fit (overfitting) atau tidak fit (underfitting) pada data.
Dengan mendeteksi dan menangani data outliers, model prediktif dapat dilatih dengan data yang lebih representatif, sehingga meningkatkan kinerja dan akurasi prediksi.
Secara keseluruhan, mendeteksi data outlier adalah langkah penting dalam proses analisis data untuk memastikan kualitas, akurasi, dan keandalan hasil analisis dan model prediktif.
Baca Juga: Data Modelling Adalah: Definisi, Fungsi, Jenis & Langkahnya
Jenis Data Outlier
Ada beberapa jenis data outlier yang perlu Sobat MinDi perhatikan saat melakukan analisis data. Yuk langsung saja simak 3 jenis data outlier yang dikutip dari Anodot berikut ini.
1. Global Outliers (Point Anomalies)
Global outliers, juga dikenal sebagai point anomalies, adalah titik data yang sangat berbeda dari keseluruhan kumpulan data. Outliers jenis ini menonjol karena nilainya jauh lebih tinggi atau lebih rendah dibandingkan dengan mayoritas data lainnya.
Misalnya, dalam dataset penjualan harian, jika semua hari memiliki penjualan antara 100 hingga 200 unit dan ada satu hari dengan penjualan 1000 unit, hari dengan penjualan 1000 unit tersebut adalah global outlier.
Global outliers biasanya mudah dikenali dan sering menunjukkan kesalahan data atau kejadian ekstrem yang jarang terjadi.
2. Contextual Outliers (Conditional Anomalies)
Contextual outliers, atau conditional anomalies, adalah titik data yang dianggap outliers dalam konteks tertentu tetapi mungkin tidak tampak aneh secara keseluruhan. Jenis outliers ini tergantung pada informasi kontekstual tambahan seperti waktu atau lokasi.
Misalnya, suhu 30°C mungkin normal pada musim panas, tetapi menjadi outlier pada musim dingin. Dalam konteks bisnis, peningkatan penjualan yang besar selama periode promosi adalah normal, tetapi peningkatan yang sama pada hari biasa bisa dianggap sebagai contextual outlier. Mengidentifikasi contextual outliers memerlukan pemahaman tentang konteks data tersebut.
3. Collective Outliers
Collective outliers adalah sekelompok titik data yang, secara individu, mungkin tidak tampak aneh, tetapi bersama-sama membentuk pola yang tidak biasa dibandingkan dengan keseluruhan dataset.
Jenis outliers ini muncul ketika ada kelompok data yang menunjukkan perilaku yang berbeda dari pola umum.
Misalnya, dalam analisis jaringan, sejumlah komputer yang mengirim jumlah besar data ke satu server dalam periode waktu yang singkat dapat dianggap sebagai collective outliers. Ini mungkin menunjukkan serangan DDoS atau aktivitas jaringan yang tidak biasa.
Mengidentifikasi collective outliers memerlukan analisis hubungan antara titik data dalam kelompok.
Dengan memahami dan mengidentifikasi jenis-jenis data outlier ini, analis data dapat lebih efektif dalam menafsirkan data dan memastikan kualitas serta keakuratan hasil analisis.
Apakah Data Outlier Harus dibuang?
Tidak selalu, data outlier tidak harus dibuang. Keputusan untuk membuang outliers tergantung pada konteks dan tujuan analisis.
Outliers dapat mengindikasikan kesalahan data yang memang perlu dihapus, tetapi mereka juga bisa memberikan wawasan penting tentang fenomena yang tidak biasa atau langka. Sebelum memutuskan untuk menghapus outliers, penting untuk memahami penyebabnya dan mempertimbangkan dampaknya terhadap analisis.
Jika outliers mewakili variasi alami atau kejadian penting, mungkin lebih baik untuk menanganinya dengan metode lain seperti mengurangi bobotnya, mengubah nilainya, atau menggunakan teknik estimasi yang robust, daripada langsung menghapusnya.
Cara Menangani Data Outlier dengan Tepat
Bagaimana cara mengatasi data outlier? Sobat MinDi bisa menggunakan beberapa metode yang ampuh dalam penanganan data outlier. Lantas apa saja cara menangani data outlier?
Yuk simak 3 metode penanganan data outlier yang dilansir dari world bank berikut ini.
1. Mengurangi Bobot Outliers
Cara ini melibatkan mengurangi pengaruh outliers dalam analisis data dengan memberikan bobot yang lebih rendah pada mereka. Dalam model statistik, outliers dapat dianggap kurang penting sehingga dampaknya pada hasil analisis berkurang.
Misalnya, dalam regresi berbobot, titik data yang teridentifikasi sebagai outliers diberikan bobot yang lebih kecil sehingga garis regresi lebih dipengaruhi oleh data yang bukan outliers. Ini membantu model menjadi lebih representatif terhadap mayoritas data yang ada.
2. Mengubah Nilai Outliers (Winsorization, Trimming, Imputasi)
Ada 3 metode yang dapat digunakan untuk mengubah nilai outliers pada data, berikut penjelasan lengkapnya!
- Winsorization: Metode ini mengganti nilai outliers dengan nilai batas terdekat yang masih dalam rentang normal. Misalnya, nilai yang sangat tinggi atau rendah bisa diubah menjadi nilai persentil ke-95 atau ke-5 dari data, sehingga mengurangi pengaruh ekstrem mereka tanpa menghapus data.
- Trimming: Metode ini melibatkan penghapusan outliers dari dataset. Misalnya, jika 1% nilai teratas dan 1% nilai terbawah dianggap sebagai outliers, nilai-nilai tersebut dihapus dari dataset. Ini membersihkan data tetapi juga mengurangi jumlah total data.
- Imputasi: Metode ini mengganti nilai outliers dengan nilai yang diestimasi, seperti rata-rata atau median dari dataset. Ini memungkinkan untuk mempertahankan ukuran dataset sambil mengurangi pengaruh outliers.
3. Menggunakan Teknik Estimasi yang Robust
Teknik estimasi yang robust, seperti M-estimation, dirancang untuk mengurangi pengaruh outliers pada estimasi parameter statistik. M-estimation menggunakan fungsi loss yang memberikan penalti lebih kecil pada outliers, sehingga hasil estimasi menjadi lebih stabil dan akurat meskipun ada outliers.
Teknik ini sering digunakan dalam regresi robust, yang bertujuan untuk mengurangi dampak outliers tanpa perlu menghapus atau mengubah data secara signifikan. Dengan cara ini, model statistik dapat tetap valid dan akurat meskipun ada outliers dalam dataset.
Dengan menggunakan metode-metode ini, Sobat MinDi dapat menangani data outlier secara efektif dan memastikan analisis data yang lebih akurat dan dapat diandalkan.
Baca Juga: 5 Perbedaan Data Primer & Data Sekunder dalam Penelitian
Yuk Pelajari Data Outlier Lebih Lanjut Melalui Bootcamp Dibimbing.id
Sobat MinDi, itulah beberapa pembahasan mengenai data outlier, mulai dari pengertian, penyebab, jenis data outlier hingga cara menangani data outlier.
Kesimpulannya, Data outlier adalah nilai yang berbeda jauh dari nilai lainnya dalam dataset dan perlu dianalisis secara hati-hati untuk memastikan kualitas dan akurasi hasil analisis.
Ingin belajar menangani data outlier lebih lanjut? Tertarik switch career sebagai data engineer profesional?
Yuk ikuti bootcamp data engineering dibimbing.id, sebuah bootcamp terbaik dengan pembelajaran inovatif dan intensif. Bootcamp ini didampingi oleh mentor profesional dan terbaik yang bakal bantu kamu jadi web developer sukses.
Belum memiliki pengalaman tentang data engineering sama sekali?
Tenang saja, dibimbing.id siap bimbing kamu mulai dari nol, dengan kurikulum terlengkap, update serta beginner friendly.
Sebanyak 94% alumni bootcamp dibimbing.id telah berhasil mendapatkan kerja sesuai bidang mereka. Nah, jangan khawatir nganggur setelah lulus bootcamp ya, dibimbing.id juga menyediakan job connect ke 570+ hiring partner khusus buat Sobat MinDi.
Tunggu apalagi? buruan konsultasi di sini, apapun tujuan karirmu dibimbing.id siap #BimbingSampeJadi karir impianmu.
Reference:
- What is an Outlier? Definition and How to Find Outliers in Statistics - Buka
- A Quick Guide to the Different Types of Outliers - Buka
- Outlier detection and treatment - Buka
Tags
Muthiatur Rohmah
Muthia adalah seorang Content Writer dengan kurang lebih satu tahun pengalaman. Muthia seorang lulusan Sastra Indonesia yang hobi menonton dan menulis. Sebagai SEO Content Writer Dibimbing, Ia telah menulis berbagai konten yang berkaitan dengan Human Resources, Business Intelligence, Web Development, Product Management dan Digital Marketing.